겉바속촉
[ARX] ARX 실습3 - Anonymize 본문
지난번 포스팅 참고해서 실습 계속 해보겠습니다.
2021.11.10 - [IT 일기 (상반기)/가명처리] - [ARX] ARX 실습1 - 성별 마스킹
2021.11.10 - [IT 일기 (상반기)/가명처리] - [ARX] ARX 실습2 - 나이 Interval, 주소 변환
다음은 Privacy Model을 지정하는 절차입니다.
2-익명성 모형을 지정해볼게요:)
아래의 그림에서 + 버튼을 클릭해주세요
다음 k-Anonymity를 선택하고 k=2를 지정합니다.
연봉을 Sensitive로 지정했다면 l-Diversity, t-Closeness를 추가할 수도 있습니다.
여기서는 간단하게 2-Anonymity 만 넣어볼게요
Privacy Model을 지정한 후, 아래의 그림에서 Anonymize 버튼을 누르면 선택한 비 식별화 모형을 만족하는 All possible level 조합의 모형이 explore 화면에 나타나야 합니다...
뭐가 문제지...........
어쨌든 저 그림에서
밑부분 {0,1,0}이 가장 낮은 level의 조합이고 위의 {1,4,2}가 가장 높은 level의 조합입니다.
{1,3,0}의 의미는 좌측부터 sex는 level 1, age는 level3, loc는 level 0의 변환을 의미하구요.
그림에서 녹색은 사용자가 지정한 프라이버시 모형에 부합되는 결과 집합이고,
빨강색은 그렇지 못한 결과집합입니다.
노란색은 그 중에서도 Optimal Solution을 나타내구요.
그림에서 Score는 Information loss로 Solution Space의 결과가 너무 많을 때,
슬라이더 바를 움직여 Solution Space의 결과들의 수를 줄여 볼 수 있습니다.
만약, Information Loss를 최소화 한다면 낮은 Score 영역을 사용하고 재식별 가능성을 최소화하려면
높은 Score 영역을 사용하면 되지만, 문제는 이 수 많은 조합 중에 어떤 Transformation을 선택하는 가 입니다.
이에 대한 기준은 Information Loss와 재 식별 Risk에 대한 고려를 해야합니다.
여기서, 어떤 조합을 선택할 것인가를 결정하는 것이죠.\
그리고, 중요한 것은 변환 후, 레코드의 수가 얼마로 변하는 가 입니다.
레코드가 많이 줄어버리면 좋은 변환이 아니기 때문입니다.
'IT 일기 (상반기) > 가명처리' 카테고리의 다른 글
[ARX] ARX 실습 - Example 파일 활용(성별, 나이, 지역) (0) | 2021.11.10 |
---|---|
[ARX] ARX 실습4 - Risk Analysis (0) | 2021.11.10 |
[ARX] ARX 실습2 - 나이 Interval, 주소 변환 (0) | 2021.11.10 |
[ARX] ARX 실습1 - 성별 마스킹 (0) | 2021.11.10 |
[ARX] 비식별화 (0) | 2021.11.09 |