겉바속촉

[ARX] ARX 실습 - Example 파일 활용(연봉) 본문

IT 일기 (상반기)/가명처리

[ARX] ARX 실습 - Example 파일 활용(연봉)

겉바속촉 2021. 11. 10. 17:44
728x90
반응형

 

 

지난 번에 이어서 하고 있습니다.

 

2021.11.10 - [IT 일기 (상반기)/가명처리] - [ARX] ARX 실습 - Example 파일 활용(성별, 나이, 지역)

 

[ARX] ARX 실습 - Example 파일 활용(성별, 나이, 지역)

그동안 공부하고 연습해온 것들로 한 번 해보도록 하겠습니다. 데이터를 우선 가져왔습니다:) 다시 가져왔습니다. 그냥 제가 하기 헷갈릴까바 건드릴 필드값의 컬럼명을 한글로 바꿔주었습니다

2-juhyun-2.tistory.com

 

 

input.csv
2.37MB

 

 

 

 

이번에는 연봉에 대한 정보를 민감정보로 설정했는데

제가 가진 데이터는 integer가 아니여서 그냥 ordering을 진행하려고했습니다.

그런데 다음과 같은 오류가 뜨네요:)

 

 

알고보니 l-다양성을 추가하지 않음;; (¬_¬ )

 

추가한 후에 다시 실행시켜보니 다음과 같아욥

 

 

그리구  reset을 눌렀더니 다음과 같이 뙇

지난번 포스팅에서도 넣었던 설명이지만

이제 뭔가 해봤기 때문에 설명 다시 보겠습니다.

 

그림에서

녹색은 사용자가 지정한 프라이버시 모형에 부합되는 결과 집합,

빨강색은 그렇지 못한 결과집합,

노란색은 그 중에서도 Optimal Solution을 나타내는 집합

 

 

Score는 Information loss로 Solution Space의 결과가 너무 많을 때, 슬라이더 바를 움직여 Solution Space의 결과들의 수를 줄여 볼 수 있습니다.

Information Loss를 최소화 한다면   낮은 Score 영역을 사용하고

재식별 가능성을 최소화하려면   높은 Score 영역을 사용하면 됩니다.

 

문제는 이 수 많은 조합 중에 어떤 Transformation을 선택하는가입니다.

이에 대한 기준은 Information Loss와 재식별 Risk에 대한 고려이고 여기서 어떤 조합을 선택할 것인가를 결정하는 것이겠쥬. 

 

 

흠 근데 차이가 뭔지 모르겠당.... 

왜 reset했을 때랑 optimal 값이랑 동일한 거지..? (╹ڡ╹ )

팍쒸........

 

728x90
반응형