겉바속촉

[ARX] ARX 이해하기 - Configure perspective 본문

IT 일기 (상반기)/가명처리

[ARX] ARX 이해하기 - Configure perspective

겉바속촉 2021. 11. 11. 13:36
728x90
반응형

 

ARX에 대한 이해가 더 필요한 것 같아서 더 알아보겠습니다. ಥ_ಥ

참고 사이트 : https://arx.deidentifier.org/anonymization-tool/#a22

1. Configure perspective

 

구성 관점에서 데이터를 가져올 수 있고 변환 규칙을 생성할 수 있으며 프라이버시와 품질 모델을 선택하고 매개변수화할 수 있습니다. 입력 데이터는 항상 왼쪽에 표시됩니다.

 

 

데이터는 다양한 데이터 소스를 지원하며 데이터 유형 및 형식과 같은 메타 데이터를 지정할 수 있습니다. 

ARX는 CSV 파일, MS Excel 스프레드시트 및 MS SQL, DB2, MySQL 또는 PostgreSQL과 같은 관계형 데이터베이스 시스템에서 데이터를 가져올 수 있습니다.

 

데이터 가져오기 마법사는 열 이름 바꾸기, 제거 및 재정렬도 지원합니다. 

데이터를 가져오는 동안 데이터 유형이 자동으로 감지되고 데이터 정리가 수행될 수 있습니다. 

이는 지정된 데이터 유형을 준수하지 않는 값이 ARX에서 구현된 모든 메소드에 의해 올바르게 처리되는 특정 null 값으로 대체됨을 의미합니다.

ARX가 표시하는 모든 테이블 형식 데이터는 컨텍스트 메뉴를 통해 CSV 파일로 내보낼 수 있습니다. ARX는 값 일반화 계층을 사용하여 다양한 데이터 변환 방법을 구현합니다. 이러한 계층은 특정 마법사를 통해 소프트웨어 내에서 생성하거나 CSV 파일에서 가져올 수 있습니다. ARX로 생성된 계층은 CSV 파일로 내보낼 수도 있습니다.

 

 

-구성-

 

 

영역 (1) 은 현재 입력 데이터 세트를 보여줍니다.

  • 테이블은 지정된 속성 메타데이터에 대한 추가 정보를 표시합니다.

영역 (2) 는 속성 메타데이터를 지정하고 일반화 계층을 보기 위한 수단을 제공합니다.

  • 속성 유형 및 데이터 유형을 지정할 수 있습니다.
  • 일반화 계층을 수정할 수 있습니다.

영역 (3) 은 개인정보 보호 모델 구성을 지원합니다.

  • 여러 개인 정보 모델을 선택하고 구성할 수 있습니다. 추가 매개변수는 전용 탭에서 지정할 수 있습니다.

영역 (4) 는 유틸리티 측정 구성을 지원합니다.

  • 단일 유틸리티 측정을 구성하고 목적 함수로 선택할 수 있습니다.

영역 (5) 는 연구 샘플을 추출하는 방법을 제공합니다.

  • 이 개념을 통해 ARX는 로드된 데이터 세트의 샘플로 익명화할 데이터 세트를 정의하여 모집단 테이블의 사양을 지원합니다.
  • 샘플은 수동으로 선택하거나 무작위로 뽑거나 쿼리 또는 다른 데이터 세트와 일치시켜 선택할 수 있습니다.

 

 

-테이블-

 

 

그림에 빨간색이 없지만

빨강 : 식별자

노랑 : 준 식별자

보라 : 민감정보

초록 : 일반정보 

 

 

<지원되는 데이터 type>

  1. 식별자는 데이터셋에서 제거됨.
  2. 준 식별자는 변환됨.
  3. 민감정보는 있는 그대로 유지되지만 t-근접성 또는 l-다양성과 같은 개인 정보 보호 모델로 보호 가능.
  4. 일반정보는 수정되지 않은 상태로 유지됨.

 

<지원되는 데이터 attribute의 type>

  1. 문자열: 일반적인 문자 시퀀스입니다. 이것은 기본 데이터 유형입니다.
  2. 정수: 분수 구성요소가 없는 숫자의 데이터 유형입니다.
  3. Decimal: 소수 구성 요소가 있는 숫자의 데이터 유형입니다.
  4. 날짜/시간: 날짜의 데이터 유형(시간이 있거나 없는).
  5. 서수: 서수 스케일이 있는 문자열 변수입니다.

 

 

-일반화-

ARX는 다양한 유형의 속성에 대한 일반화 계층을 생성하는 다양한 방법을 제공합니다. 

일반화 계층은 함수로 저장되며 구체적인 데이터 셋의 특정 값을 명시적으로 지정하지 않고도 속성의 전체 도메인에 대해 생성할 수 있습니다. 이를 통해 연속 변수를 처리할 수 있습니다. 또한 계층 사양을 가져오고 내보낼 수 있으므로 유사한 속성을 가진 다른 데이터 세트를 익명화하는 데 재사용할 수 있습니다. 마법사를 사용하기 전에 적절한 데이터 유형을 지정하는 것이 중요합니다. 마법사를 사용하여 4가지 유형의 계층을 생성할 수 있습니다.

  1. 마스킹 기반 계층: 이 범용 메커니즘을 사용하면 광범위한 특성에 대한 계층을 생성할 수 있습니다.
  2. 간격 기반 계층: 이 계층은 비율 척도가 있는 변수에 사용할 수 있습니다.
  3. 순서 기반 계층: 이 방법은 순서 척도가 있는 변수에 사용할 수 있습니다.
  4. 날짜 기반 계층: 이 방법은 날짜에 사용할 수 있습니다.

 

 

-Privacy models, Population - 

 

개인 정보 보호 모델을 선택하고 구성할 수 있습니다.

선택된 모델이 표에 표시되며 플러스 또는 마이너스 버튼을 클릭하여 프라이버시 모델을 추가하거나 제거할 수 있습니다. 

세 번째 버튼은 매개변수화를 위한 대화 상자를 불러옵니다.

대부분의 버튼은 다음 구성 대화 상자를 표시합니다. 여기에서 아래쪽을 가리키는 화살표를 사용하여 선택한 개인 정보 모델에 대한 사전 설정 집합에서 매개 변수화를 선택할 수 있습니다.

 

k-익명성, k-맵, δ-존재, 위험 기반 개인 정보 보호 모델, 차등 개인 정보 보호 및 게임 이론 모델은 준 식별자에 중점을 두므로 항상 활성화할 수 있습니다. 

대조적으로, l-다양성, t-근접성, β-유사성 및 δ-공개 프라이버시는 민감정보에 초점을 맞춥니다. 따라서 민감정보가 선택된 경우에만 활성화할 수 있습니다. 일부 모델에는 특정 설정이 추가로 필요합니다(예: 값 일반화 계층은 계층적 지상 거리와 함께 t-근접성을 사용할 수 있도록 지정해야 합니다. 일부 개인 정보 모델(예: k-map 및 δ-존재)에는 다음에서 지원되는 인구 테이블이 필요합니다. ARX는 익명화할 데이터셋을 로드된 데이터셋의 (연구) 샘플로 정의합니다.

 

 

- General settings, Utility measure, Coding model, Attribute weights -

 

1. General settings

입력 데이터 세트에서 제거할 수 있는 최대 레코드 수인 억제 한계를 정의할 수 있습니다. 
이 매개변수의 권장 값은 "100%" 입니다. "근사치" 옵션을 사용하여 실행 시간을 잠재적으로 크게 줄이는 대략적인 솔루션을 계산할 수 있습니다. 솔루션은 주어진 개인 정보 설정을 충족하도록 보장되지만 지정된 데이터 유틸리티 모델과 관련하여 최적이 아닐 수 있습니다. 권장 설정은 "꺼짐"입니다. 일부 유틸리티 측정의 경우 사전 계산 단계를 사용할 수 있으며 이는 실행 시간을 크게 단축할 수도 있습니다. 각 준식별자에 대해 개별 데이터 값의 수를 데이터세트의 총 레코드 수로 나눈 값이 구성된 임계값보다 낮으면 사전 계산이 켜집니다. 실험에 따르면 0.3이 종종 이 매개변수에 적합한 값입니다. 권장 설정은 "꺼짐" 입니다.

 

 

2. Utility measure

 

익명화 프로세스 동안 최적화 기능으로 사용될 데이터 품질을 정량화하기 위한 모델을 지정할 수 있습니다.

ARX는 지정된 모델을 사용하여 잠재적 솔루션 후보에 "점수"를 할당합니다. 

점수가 낮을수록 선택한 모델에 따라 더 높은 데이터 품질, 더 적은 정보 손실, 더 높은 게시자 지불금 또는 증가된 분류 정확도와 관련이 있습니다. 그러나 점수는 ARX의 내부 최적화로 인해 모델이 반환하는 실제 값과 크게 다를 수 있습니다. 결과적으로 데이터 품질을 설명하는 척도로 "점수"를 보고해서는 안 됩니다. 이러한 측정치를 얻으려면 유틸리티 분석 관점을 사용해야 합니다.

Mnotonicity는 익명화 프로세스를 보다 효율적으로 만들기 위해 악용될 수 있는 개인 정보 보호 및 실용 신안의 속성입니다. 그러나 실제 설정에서 모델은 소프트웨어에서 사용하는 변환 방법의 복잡성으로 인해 거의 단조롭지 않습니디. 

ARX는 항상 단조성을 가정하도록 구성할 수 있습니다. 그러면 익명화 프로세스의 속도가 크게 빨라지지만 출력 데이터 품질이 크게 저하될 수도 있습니다. 권장 설정은 "꺼짐" 입니다. ARX는 또한 많은 품질 모델에 대한 사용자 정의 집계 함수를 지원합니다. 이러한 집계 함수는 데이터 셋의 개별 속성에 대해 얻은 추정치를 전역 값으로 컴파일하는 데 사용됩니다.

 

 

3. Coding model

 

일부 품질 모델은 데이터를 변환할 때 일반화 또는 억제를 선호해야 하는지 지정하는 것도 지원합니다.

 

4. Attribute weights

 

대부분의 모델은 다음 보기를 사용하여 중요도를 지정하기 위해 속성에 할당할 수 있는 가중치를 지원합니다.

 

 

 

 

-익명화 수행-

 

ARX는 적절한 검색 전략을 선택하고, 변환 모델의 측면을 구성하고, 마지막으로 익명화 프로세스를 시작하기 위한 전용 대화 상자를 제공합니다.

 

세 가지 다른 Search strategy를 사용할 수 있습니다.

  1. Optimal.
  2. Limited number of steps: 미리 정의된 검색 단계 수 후에 종료되는 발견적 검색 전략입니다.
  3. Limitied time: 미리 정의된 시간이 지나면 종료되는 휴리스틱 검색 전략입니다.

최적의 검색 전략은 가능한 최고 품질의 출력 데이터를 생성하는 변환을 안정적으로 결정하지만 대용량 데이터 세트를 처리할 때 확장성 문제가 발생할 수 있습니다. 휴리스틱 검색 전략은 종종 최적의 전략을 매우 빠르게 결정할 수 있지만 최적성은 보장할 수 없습니다. 대규모 데이터 셋의 경우 최선을 다해 작동합니다.

 

 

두 가지 Transformation model이 지원됩니다.

  1. Global trnasformation_전역 변환: 데이터 세트의 모든 레코드에 동일한 변환 전략이 적용됩니다.
  2. Local transformation using iterations_로컬 변환: 데이터 세트에 있는 레코드의 다른 하위 집합에 다른 변환 전략을 적용할 수 있습니다. 사용할 수 있는 다른 변환 수에 대한 제한을 지정할 수 있습니다.

개별 속성에 대해 서로 다른 변환 규칙과 다른 변환 모델을 결합하여 다양한 변환 방법을 조합하여 사용할 수 있습니다.

 

 

글로벌 변환이 로컬 변환보다 계산 비용이 적게 든다는 것은 일반적으로 사실이 아니지만 전자가 일반적으로 더 빠릅니다. 로컬 변환 방법을 반복할 때마다 선택한 검색 전략이 사용됩니다. 그러나 각 반복에서 최적의 전략을 사용한다고 해서 반드시 로컬 변환을 통해 계산된 전체 솔루션이 최적이라는 의미는 아닙니다.

728x90
반응형