겉바속촉

[ARX] ARX 이해하기 - Risk analysis perspective 본문

IT 일기 (상반기)/가명처리

[ARX] ARX 이해하기 - Risk analysis perspective

겉바속촉 2021. 11. 12. 16:24
728x90
반응형

ARX에 대한 이해가 더 필요한 것 같아서 더 알아보겠습니다. ಥ_ಥ

참고 사이트 : https://arx.deidentifier.org/anonymization-tool/#a22

 

4. Risk analysis perspective

 

이러한 관점에서 프라이버시 위험을 반영하는 다양한 메트릭이 제시됩니다. ARX가 구현하는 메트릭에는 검사, 언론인 및 마케터 공격에 대한 재식별 위험과 다양한 통계 모델을 사용하여 계산할 수 있는 인구 고유성 추정치가 포함됩니다. 또한, 이 관점은 미국 건강 보험 이동성 및 책임법(HIPAA 식별자)의 세이프 하버 방법에 따라 수정되어야 하는 속성을 감지하는 방법과 추가 유사 식별자를 감지하는 방법에 대한 액세스도 제공합니다.

 

 

 

- Analyzing risks -

 

다양한 개인정보 위험을 분석할 수 있습니다. 여기에는 검사, 저널리스트 및 마케터 공격자 모델에 대한 재식별 위험과 다양한 통계 방법으로 추정할 수 있는 인구 고유성에서 파생된 위험이 포함됩니다. 또한 이 관점은 데이터 세트에서 HIPAA 식별자를 감지하고 추가 유사 식별자를 찾는 방법을 제공합니다.

 

 

 

- Distribution of risks -

 

데이터 세트의 레코드 간의 재식별 위험 분포가 표시됩니다. 분포는 입력 및 출력 데이터 모두에 대해 히스토그램 또는 테이블로 계산됩니다.

 

 

 

 

- Finding quasi-identifiers -

 

재식별의 관련 위험과 관련하여 속성의 조합을 분석할 수 있습니다. 보기는 변수 조합이 레코드를 서로 분리하는 정도와 변수가 레코드를 구별하는 정도에 대한 정보를 제공합니다. 먼저 왼쪽 하단 영역에서 추가 분석을 위해 속성 세트를 선택해야 합니다. --> 그러면 ARX는 앞서 언급한 매개변수를 계산합니다.

 

 

 

- Re-identification risks -

 

재식별 위험에 대한 몇 가지 조치의 개요를 표시합니다. 

이 관점의 위쪽 영역에서는

(1) Prosecutor attacker model 검사 시나리오,

(2) Journalist attacker model 저널리스트 시나리오,

(3) Marketer attacker model 마케터 시나리오

세 가지 공격자 모델에 대한 위험 추정치가 제공됩니다.

 

임계값은 레코드의 가장 높은 위험, 이 임계값보다 높은 위험이 있는 레코드 및 성공적으로 재식별될 수 있는 레코드의 평균 부분에 대해 제공될 수 있습니다. 

하단에는 검사의 재식별 리스크에 대한 선별된 측정치가 표시됩니다. 이러한 측정은 샘플 자체를 기반으로 합니다. 선택한 통계 모델의 인구 고유성에 대한 숫자로 보완됩니다.

  • 가장 낮은 검사 재식별 위험.
  • 가장 낮은 위험의 영향을 받는 개인.
  • 검사 재식별 위험이 가장 높습니다.
  • 가장 높은 위험의 영향을 받는 개인.
  • 평균적인 검사 재식별 위험.
  • 고유 레코드의 비율입니다.

 

 

- HIPPA identifiers -

 

미국 건강 보험 및 이동성 및 책임에 관한 법률의 세이프 하버(Safe Harbor) 방법은 비식별화된 데이터 세트를 도출하기 위해 수정하거나 제거해야 하는 18개의 식별자를 지정합니다. 이 관점의 목적은 이러한 식별자를 감지하는 것입니다.

 

HIPAA 식별자가 감지되지 않는다고 해서 HIPAA 식별자가 없다는 의미는 아닙니다. ARX는 정밀도보다 회수를 선호하며 모든 유형의 HIPAA 식별자를 감지하는 방법을 구현하지 않습니다. HIPAA에서 지정한 다음 유형의 속성이 잠재적으로 감지될 수 있습니다.

  • 이름,
  • 지리적 세분화: 지역, 주, 도시,
  • 날짜,
  • 전화 번호,
  • 팩스 번호,
  • 전자 메일 주소,
  • 사회 보장 번호,
  • 번호판 번호,
  • URL(Universal Resource Locator),
  • 인터넷 프로토콜(IP) 주소.

이 방법은 HIPAA 식별자에 대한 공통 레이블과 데이터세트의 속성 레이블 사이의 편집 거리를 계산합니다. 또한 공통 패턴(예: 번호판 번호, 우편 번호 및 날짜) 및 공통 인스턴스 값(예: 이름 및 성)에 대한 속성 값을 확인합니다.

 

 

 

 

- Population uniqueness -

 

ARX는 샘플에서 고유한 모집단 수를 기반으로 재식별 위험 추정을 지원합니다. 모집단 고유 레코드는 샘플(샘플 고유) 내에서 고유하고 데이터가 샘플이 된 기본 모집단 내에서도 고유한 레코드입니다. 

 

모든 샘플 고유 항목이 모집단 고유 항목도 아닙니다. 모집단에 대한 데이터가 모집단 테이블 형식으로 ARX에 로드되지 않은 경우 이 수치는 통계 모델로 추정할 수 있습니다. 과잉 모집단 모델은 표본 특성으로 매개변수화된 확률 분포를 사용하여 전체 모집단의 특성을 추정합니다. ARX는 Hoshino(Pitman), Zayatz 및 Chen 및 McNulty(SNB)의 방법을 지원합니다.

 

모델마다 고유한 모집단 수의 정확한 추정치를 다르게 반환할 수 있습니다. 경험에 따르면 Pitman 모델은 10% 이하의 샘플링 분수에 사용해야 합니다. ARX는 또한 Dankar et al.에 의해 임상 데이터 세트에 대해 제안되고 검증된 결정 규칙을 구현합니다. 

이 도구는 또한 다양한 샘플링 비율을 가정한 다양한 방법의 결과를 비교하기 위한 보기를 제공합니다.

 

 

통계 모델로 추정치를 계산하는 과정에서 ARX는 비선형 이변량 방정식 시스템을 풀어야 합니다. 

ARX에서 사용하는 솔버는 설정 대화 상자에서 구성할 수 있습니다. 여기에서 총 반복 횟수, 시도당 반복 횟수, 필요한 정확도 등과 같은 옵션을 지정할 수 있습니다. 이러한 설정을 변경하면 결과의 정확도와 결과를 얻는 데 필요한 시간에 영향을 미칠 수 있습니다.

 

 

728x90
반응형