목록IT 일기 (상반기)/가명처리 (35)
겉바속촉
개인정보 비식별 조치 방법 재식별 가능성 검토 기법(프라이버시 보호 모델) 기법 의미 적용례 k-익명성 • 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별 되도록 함 • 동일한 값을 가진 레코드를 k개 이상으로 함. 이 경우 특정 개인을 식별할 확률은 1/k임 l-다양성 • 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법 • 각 레코드는 최소 l개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론 방지 t-근접성 • ℓ-다양성 뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법 • 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t이하로 하여 추론 방지 1. k-익명성(k-anonymity) 프라이..
개인정보 비식별 조치 방법 개인 식별요소 삭제 방법(일반적 기법) 처리기법 예시 세부기술 가명처리 • 홍길동, 35세, 서울 거주, 한국대 재학 → 임꺽정, 30대, 서울 거주, 국제대 재학 - 휴리스틱 가명화 - 암호화 - 교환 방법 총계처리 • 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm → 물리학과 학생 키 합 : 660cm, 평균키 165cm - 총계처리 - 부분총계 - 라운딩 - 재배열 데이터 삭제 • 주민등록번호 901206-1234567 → 90년대 생, 남자 • 개인과 관련된 날짜정보(합격일 등)는 연단위로 처리 - 식별자 삭제 - 식별자 부분삭제 - 레코드 삭제 - 식별요소 전부 삭제 데이터 범주화 • 홍길동, 35세 → 홍씨, 30~40세 - 감추기 - ..
2017년도의 개인정보 비식별 조치 가이드라인은 현재 쓰이고 있는 가이드라인과 다른 점이 많습니다. 개정이 되면서 KLT 모델, 익명이란 개념, 프라이버시 모델 등이 등장한 것이쥬 (¬‿¬) 그럼 2017년도에 발표되었던 개인정보 비식별 조치 가이드라인은 어떤 차이가 있을까요? 식별자 조치 기준 - ‘식별자’란 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름 - 정보집합물에 포함된 식별자는 원칙적으로 삭제 조치 - 데이터 이용 목적상 반드시 필요한 식별자는 비식별 조치 후 활용 • 고유식별정보(주민등록번호, 여권번호, 외국인등록번호, 운전면허번호) • 성명(한자·영문 성명, 필명 등 포함) • 상세 주소(구 단위 미만까지 포함된 주소) • 날짜정보 : 생일(양/음력), 기념일(결혼, 돌, ..
ARX에서 privacy model에 대해 알아보도록 하겠습니다. (❁´◡`❁) 참고 사이트 : https://arx.deidentifier.org/overview/privacy-criteria/ 1. Differential privacy 이 모델에서 개인 정보 보호는 데이터 셋의 속성이 아니라 데이터 처리 방법의 속성으로 간주됩니다. 비공식적으로는 개인의 데이터가 입력 데이터에 추가되거나 제거되는 경우 익명화 프로세스의 가능한 출력 확률이 "많이" 변경되지 않음을 보장합니다. 결과적으로 공격자가 특정 개인에 대한 정보를 도출하는 것이 매우 어려워지고 데이터 세트가 구성원 자격, ID 및 속성 공개로부터 보호됩니다. 차등 프라이버시는 공격자의 배경 지식, 예를 들어 연결에 사용할 수 있는 속성에 대한 강..
ARX에 대한 이해가 더 필요한 것 같아서 더 알아보겠습니다. ಥ_ಥ 참고 사이트 : https://arx.deidentifier.org/anonymization-tool/#a22 4. Risk analysis perspective 이러한 관점에서 프라이버시 위험을 반영하는 다양한 메트릭이 제시됩니다. ARX가 구현하는 메트릭에는 검사, 언론인 및 마케터 공격에 대한 재식별 위험과 다양한 통계 모델을 사용하여 계산할 수 있는 인구 고유성 추정치가 포함됩니다. 또한, 이 관점은 미국 건강 보험 이동성 및 책임법(HIPAA 식별자)의 세이프 하버 방법에 따라 수정되어야 하는 속성을 감지하는 방법과 추가 유사 식별자를 감지하는 방법에 대한 액세스도 제공합니다. - Analyzing risks - 다양한 개인정..
ARX에 대한 이해가 더 필요한 것 같아서 더 알아보겠습니다. ಥ_ಥ 참고 사이트 : https://arx.deidentifier.org/anonymization-tool/#a22 3. Utility analysis perspective 유틸리티 분석 관점은 예상되는 사용 시나리오에 대한 특정 변환의 적합성을 평가하는 데 사용할 수 있습니다. 이를 위해 입력 및 변환된 데이터가 나란히 표시됩니다. 또한 기술 통계를 계산하고 분류 모델을 생성하기 위한 훈련 셋으로 출력 데이터의 적합성을 분석할 수 있습니다. 해석을 돕기 위해 다양한 그래픽 및 숫자 표현이 표시됩니다. 유틸리티 분석 관점은 출력 데이터 세트에 로컬 변환을 적용하는 데 사용할 수 있는 보기도 제공합니다. - Analyzing data util..
ARX에 대한 이해가 더 필요한 것 같아서 더 알아보겠습니다. ಥ_ಥ 참고 사이트 : https://arx.deidentifier.org/anonymization-tool/#a22 2. Exploration perspective 익명화 프로세스 과정에서 ARX는 입력 데이터 세트의 잠재적 변환 솔루션 공간을 특성화합니다. 각 솔루션 후보에 대해 위험 임계값이 충족되었는지 여부가 결정되고 주어진 모델에 따라 데이터 품질이 정량화됩니다. 이 관점을 통해 사용자는 이 프로세스의 결과를 찾아보고 추가 분석을 위해 흥미로운 변환을 선택할 수 있습니다. -Exploring the solution space- 영역 (1): 현재 솔루션 공간의 하위 집합이 표시됩니다. 영역 (2): 영역 1에 표시된 변형은 영역 2에..
ARX에 대한 이해가 더 필요한 것 같아서 더 알아보겠습니다. ಥ_ಥ 참고 사이트 : https://arx.deidentifier.org/anonymization-tool/#a22 1. Configure perspective 구성 관점에서 데이터를 가져올 수 있고 변환 규칙을 생성할 수 있으며 프라이버시와 품질 모델을 선택하고 매개변수화할 수 있습니다. 입력 데이터는 항상 왼쪽에 표시됩니다. 데이터는 다양한 데이터 소스를 지원하며 데이터 유형 및 형식과 같은 메타 데이터를 지정할 수 있습니다. ARX는 CSV 파일, MS Excel 스프레드시트 및 MS SQL, DB2, MySQL 또는 PostgreSQL과 같은 관계형 데이터베이스 시스템에서 데이터를 가져올 수 있습니다. 데이터 가져오기 마법사는 열 이..
지난 번에 이어서 하고 있습니다. 2021.11.10 - [IT 일기 (상반기)/가명처리] - [ARX] ARX 실습 - Example 파일 활용(성별, 나이, 지역) [ARX] ARX 실습 - Example 파일 활용(성별, 나이, 지역) 그동안 공부하고 연습해온 것들로 한 번 해보도록 하겠습니다. 데이터를 우선 가져왔습니다:) 다시 가져왔습니다. 그냥 제가 하기 헷갈릴까바 건드릴 필드값의 컬럼명을 한글로 바꿔주었습니다 2-juhyun-2.tistory.com 이번에는 연봉에 대한 정보를 민감정보로 설정했는데 제가 가진 데이터는 integer가 아니여서 그냥 ordering을 진행하려고했습니다. 그런데 다음과 같은 오류가 뜨네요:) 알고보니 l-다양성을 추가하지 않음;; (¬_¬ ) 추가한 후에 다시 ..