겉바속촉

[ARX] ARX privacy model - Privacy model 본문

IT 일기 (상반기)/가명처리

[ARX] ARX privacy model - Privacy model

겉바속촉 2021. 11. 15. 11:09
728x90
반응형

ARX에서 privacy model에 대해 알아보도록 하겠습니다. (❁´◡`❁)

참고 사이트 : https://arx.deidentifier.org/overview/privacy-criteria/

 

1. Differential privacy

이 모델에서 개인 정보 보호는 데이터 셋의 속성이 아니라 데이터 처리 방법의 속성으로 간주됩니다. 

비공식적으로는 개인의 데이터가 입력 데이터에 추가되거나 제거되는 경우 익명화 프로세스의 가능한 출력 확률이 "많이" 변경되지 않음을 보장합니다. 결과적으로 공격자가 특정 개인에 대한 정보를 도출하는 것이 매우 어려워지고 데이터 세트가 구성원 자격, ID 및 속성 공개로부터 보호됩니다. 차등 프라이버시는 공격자의 배경 지식, 예를 들어 연결에 사용할 수 있는 속성에 대한 강력한 가정을 하지 않습니다. 대신, 모든 속성은 유사 식별로 정의되어야 합니다.

 

 

2. k-Map

이 개인 정보 보호 모델은 k-익명성과 관련이 있지만 위험은 기본 인구에 대한 정보를 기반으로 계산됩니다. ARX는 두 개의 출판 통계 주파수 추정량에 따라 변형뿐만 아니라 사용자가 지정한 인구 테이블을 이용하여 변형 지원을 합니다.

 

 

3. δ-Presence

이 모델은 회원 정보 공개로부터 데이터를 보호하는 데 사용할 수 있습니다. 

모집단의 개인이 데이터 셋에 포함될 확률이 δ min 과 δ max 사이에 있는 경우 데이터 셋은 (δ min , δ max )의 존재라고 합니다 . 이러한 확률을 계산하려면 사용자가 모집단 테이블을 지정해야 합니다.

정보 기술의 발전과 연구에서의 사용으로 인해 익명 데이터에 대한 필요성과 잘못된 익명화의 위험이 증가하고 있습니다. 익명화의 품질을 부적절한 익명화로 인한 위험과 명확하게 연결하는 지표인 δ-존재를 제시합니다.

기존의 익명화 기술이 δ-존재가 좋은 메트릭인 상황(특히, 개인이 데이터베이스  있다는 것을 아는 것이 개인 정보 위험을 초래하는 경우)에 부적절함을 보여주고 δ-존재 를 충족하기 위해 효과적으로 익명화하기 위한 알고리즘을 제시합니다. 알고리즘은 실제 시나리오의 맥락에서 평가되어 접근 방식의 실제 적용 가능성을 보여줍니다.

 

 

4. Profitability

 

이 모델은 데이터 퍼블리싱의 비용/이익 분석을 수행하여 데이터 퍼블리셔의 금전적 이익을 극대화하는 출력 데이터 세트를 생성하기 위한 게임 이론적인 접근 방식을 구현합니다. 

 

 

 

5. t-Closeness

 

이 개인 정보 보호 모델은 속성 공개로부터 데이터를 보호하는 데에도 사용할 수 있습니다. 

각 등가 클래스 내의 민감한 속성 값 분포는 입력 데이터 세트의 속성 값 분포까지 t 이하의 거리를 가져야 합니다 . 이를 위해 EMD(Earth Mover's Distance)를 사용하여 계산된 주파수 분포 간의 누적 절대 차이를 제한합니다.

 

 데이터 유형이 다른 변수에 대해 다양한 변형이 제안되었습니다.

(1) 동일한 지상 거리는 모든 값이 서로 동등하게 떨어져 있다고 간주

(2) 계층적 지상 거리는 값 일반화 계층을 사용하여 값 사이의 거리를 결정

(3) 정렬된 지상 거리는 값의 순서에 따라 거리를 계산

 

 

 

6. δ-Disclosure privacy

이 개인 정보 보호 모델은 속성 공개로부터 데이터를 보호하는 데에도 사용할 수 있습니다. 

또한 민감한 값의 분포 사이의 거리에 대한 제한을 적용하지만 t-closeness에서 사용되는 정의보다 더 엄격한 승법 정의를 사용합니다.

 

재식별은 개별 기록이 포함된 공개 데이터셋에 대한 주요 개인정보 위협입니다. 많은 개인 정보 보호 알고리즘은 우편 번호 및 생년월일과 같은 "준 식별자" 속성의 일반화 및 억제에 의존합니다. 그들의 목표는 일반적으로 구문 정리 입니다. 예를 들어 k - 익명성은 각 "준 식별자" 튜플이 최소한 k개의 레코드에 나타나야 하는 반면 l-다양성은 각 준식별자에 대한 민감한 속성의 분포가 높은 엔트로피를 가질 것을 요구합니다. 정제된 데이터의 유용성은 적용된 일반화 단계의 수 또는 동일한 준식별자가 있는 레코드의 수에 의해 구문적으로도 측정됩니다. 이 논문에서 우리는 유사 식별자의 일반화와 억제가 단순히 유사 식별자를 민감한 속성과 분리하는 사소한 위생 처리에 비해 어떤 이점을 제공하는지 묻습니다. 이전 작업은 k - 익명 데이터베이스가 데이터 마이닝에 유용할 수 있음을 보여주 었지만 k-익명화는 개인 정보를 보장하지 않습니다. 대조적으로, 우리는 프라이버시와 유용성 간의 균형을 측정하며, 동일하게 삭제된 레코드에서 실행되는 데이터 마이닝 알고리즘의 정확도로 측정됩니다.

실험 평가를 위해 일반화 및 억제에 대한 이전 연구에서 사용된 것과 동일한 UCI 기계 학습 저장소의 데이터 셋을 사용합니다. 우리의 결과는 사생활 보호를 약간이라도 얻으려면 데이터 마이닝 유틸리티를 거의 완전히 파괴해야 함을 보여줍니다. 대부분의 경우 사소한 위생 처리는 일반화 및 억제에 기반한 k - 익명성, l - 다양성 및 유사한 방법 보다 동등한 유용성과 더 나은 개인 정보를 제공합니다 .

 

7. β-Likeness

 

이 프라이버시 모델은 t-closeness 및 δ-disclosure 프라이버시와 관련이 있으며 속성 공개로부터 데이터를 보호하는 데에도 사용할 수 있습니다. 긍정적인 정보와 부정적인 정보 이득을 고려하여 민감한 속성 값의 분포 사이의 상대적인 최대 거리를 제한하여 이전 모델의 한계를 극복하는 것을 목표로 합니다.

 

오늘날 마이크로데이터의 공개는 개인 정보를 위협합니다. 방대한 연구는 마이크로 데이터가 공개되기 전에 충족해야 하는 개인 정보 보호 조건을 정의하고 이 조건을 달성하기 위해 데이터를 익명화하는 알고리즘을 고안하기 위해 노력했습니다. 그러나 현재까지 제안된 방법은  민감한 값에 대해 게시된 데이터를 본 후 공격자가 얻는 정보의 백분율을 명시적으로 제한하지 않습니다. 

 

8. Average-reidentification-risk

이 개인 정보 보호 모델은 기록의 평균 재식별 위험에 대한 임계값을 적용하여 마케터 모델의 재식별에서 데이터 셋을 보호하는 데 사용할 수 있습니다. 모델을 k-익명성과 결합하여 엄격한 평균 위험이라는 프라이버시 모델을 구성할 수 있습니다. ARX는 일부 레코드가 k 로 정의된 위험 임계값을 초과하도록 허용하는 변형을 추가로 지원합니다 .

 

9. Population-uniqueness

 

이 개인 정보 보호 모델은 기본 모집단 내에서 고유한 레코드 비율에 대한 임계값을 적용하여 마케터 모델에서 데이터 셋을 재식별하지 않도록 보호하는 것을 목표로 합니다. 이를 위해 인구에 대한 기본 정보를 지정해야 합니다. 

이 데이터를 기반으로 통계적 초인구 모델을 사용하여 표본 특성으로 매개변수화된 확률 분포를 사용하여 전체 모집단의 특성을 추정합니다. ARX는 Hoshino(Pitman), Zayatz 및 Chen 및 McNulty(SNB)의 방법을 지원합니다. 모델마다 고유한 모집단 수의 정확한 추정치를 다르게 반환할 수 있습니다. 일반적으로 Pitman 모델은 10% 이하의 샘플링 분수에 사용해야 합니다. ARX는 또한 Dankar et al.에 의해 임상 데이터 셋에 대해 제안되고 검증된 결정 규칙을 구현합니다

 

참고: 모집단 고유성을 추정하는 방법은 데이터세트가 모집단의 균일한 표본이라고 가정합니다. 그렇지 않은 경우 결과가 정확하지 않을 수 있습니다.

 

10. Sample-uniqueness

 

이 프라이버시 모델은 준식별자와 관련하여 고유한 레코드의 일부를 제한하는 데 사용할 수 있습니다.

 

 

11. k-Anonymity

이 잘 알려진 개인 정보 보호 모델은 검사 모델에서 데이터 셋을 재식별하지 못하도록 보호하는 것을 목표로 합니다. 각 레코드가 준식별자와 관련하여 적어도 k-1개의 다른 레코드와 구별될 수 없는 경우 데이터 셋은 k-익명성입니다. 구별할 수 없는 레코드의 각 그룹은 소위 등가 클래스를 형성합니다 .

 

 

12. ℓ-Diversity

이 개인 정보 보호 모델은 각 민감한 속성이 각 동등 등급에서 최소한 ℓ "잘 표현된" 값을 갖도록 하여 속성 공개로부터 데이터를 보호하는 데 사용할 수 있습니다. 다양한 다양성 측정을 구현하는 다양한 변형이 제안되었으며, 이 중 소프트웨어는 고유한 ℓ-다양성, 재귀-(c, ℓ)-다양성 및 엔트로피-ℓ-다양성을 두 가지 다른 추정기로 지원합니다. 

 

728x90
반응형