겉바속촉
[가이드라인] 2017 개인정보 비식별 조치 가이드라인-개인 식별요소 삭제 방법 본문
개인정보 비식별 조치 방법
개인 식별요소 삭제 방법(일반적 기법)
처리기법 | 예시 | 세부기술 |
가명처리 | • 홍길동, 35세, 서울 거주, 한국대 재학 → 임꺽정, 30대, 서울 거주, 국제대 재학 |
- 휴리스틱 가명화 - 암호화 - 교환 방법 |
총계처리 | • 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm → 물리학과 학생 키 합 : 660cm, 평균키 165cm |
- 총계처리 - 부분총계 - 라운딩 - 재배열 |
데이터 삭제 | • 주민등록번호 901206-1234567 → 90년대 생, 남자 • 개인과 관련된 날짜정보(합격일 등)는 연단위로 처리 |
- 식별자 삭제 - 식별자 부분삭제 - 레코드 삭제 - 식별요소 전부 삭제 |
데이터 범주화 | • 홍길동, 35세 → 홍씨, 30~40세 | - 감추기 - 랜덤 라운딩 - 범위 방법 - 제어 라운딩 |
데이터 마스킹 | • 홍길동, 35세, 서울 거주, 한국대 재학 → 홍◯◯, 35세, 서울 거주, ◯◯대학 재학 |
- 임의 잡음 추가 - 공백과 대체 |
가명처리(Pseudonymization)
(개념) 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법
(대상) 성명, 기타 고유특징(출신학교, 근무처 등)
(장점) 데이터의 변형 또는 변질 수준이 적음
(단점) 대체 값 부여 시에도 식별 가능한 고유 속성이 계속 유지
① 휴리스틱 가명화(Heuristic Pseudonymization)
- 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법 (ex) 성명을 홍길동, 임꺽정 등 몇몇 일반화된 이름으로 대체하여 표기하거나 소속기관명을 화성, 금성 등으로 대체하는 등 사전에 규칙을 정하여 수행
- 식별자의 분포를 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용 가능
- 활용할 수 있는 대체 변수에 한계가 있으며, 다른 값으로 대체하는 일정한 규칙이 노출되는 취약점이 있음. 따라서 규칙 수립 시 개인을 쉽게 식별할 수 없도록 세심한 고려 필요
- 적용정보 : 성명, 사용자 ID, 소속(직장)명, 기관번호, 주소, 신용등급, 휴대전화번호, 우편번호, 이메일 주소 등
② 암호화(Encryption)
- 정보 가공시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법, 통상적으로 다시 복호가 가능하도록 복호화 키(key)를 가지고 있어서 이에 대한 보안방안도 필요
- 일방향 암호화(one-way encryption 또는 hash)를 사용하는 경우는 이론상 복호화가 원천적으로 불가능
※ 일방향 암호화는 개인정보의 식별성을 완전히 제거하는 것으로, 양방향 암호화에 비해 더욱 안전하고 효과적인 비식별 기술에 해당
- 적용정보 : 주민등록번호, 여권번호, 의료보험번호, 외국인등록번호, 사용자 ID, 신용카드번호, 생체정보 등
③ 교환 방법(Swapping)
- 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수(항목)값과 연계하여 교환
- 적용정보 : 사용자 ID, 요양기관번호, 기관번호, 나이, 성별, 신체정보(신장, 혈액형 등), 소득, 휴대 전화번호, 주소 등
총계처리(Aggregation)
(개념) 통계값(전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 함
(대상) 개인과 직접 관련된 날짜 정보(생일, 자격 취득일), 기타 고유 특징(신체정보, 진료기록, 병력정보, 특정소비기록 등 민감한 정보)
(장점) 민감한 수치 정보에 대하여 비식별 조치가 가능하며, 통계분석용 데이터 셋 작성에 유리함
(단점) 정밀 분석이 어려우며, 집계 수량이 적을 경우 추론에 의한 식별 가능성 있음
④ 총계처리(Aggregation)
- 데이터 전체 또는 부분을 집계(총합, 평균 등)
※ 단, 데이터 전체가 유사한 특징을 가진 개인으로 구성되어 있을 경우 그 데이터의 대푯값이 특정 개인의 정보를 그대로 노출시킬 수도 있으므로 주의
(예시) 집단에 소속된 전체 인원의 평균 나이값을 구한 후 각 개인의 나이값을 평균 나이값(대푯값)으로 대체하거나 해당 집단 소득의 전체 평균값을 각 개인의 소득값으로 대체
- 적용정보 : 나이, 신장, 소득, 카드사용액, 유동인구, 사용자수, 제품 재고량, 판매량 등
⑤ 부분총계(Micro Aggregation)
- 데이터 셋 내 일정부분 레코드만 총계 처리함. 즉, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계값(평균 등)으로 변환
(예시) 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나 특정 소득 구성원을 포함하고 있을 경우, 40대의 소득만 선별하여 평균값을 구한 후 40대에 해당하는 각 개인의 소득값을 해당 평균값으로 대체
- 적용정보 : 나이, 신장, 소득, 카드사용액 등
⑥ 라운딩(Rounding)
- 집계 처리된 값에 대하여 라운딩(올림, 내림, 반올림) 기준을 적용하여 최종 집계 처리하는 방법으로, 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용
(예시) 23세, 41세, 57세, 26세, 33세 등 각 나이값을 20대, 30대, 40대, 50대 등 각 대표 연령대로 표기하거나 3,576,000원, 4,210,000원 등의 소득값을 일부 절삭하여 3백만원, 4백만원 등으로 집계 처리하는 방식
- 적용정보 : 나이, 신장, 소득, 카드지출액, 유동인구, 사용자 수 등
⑦ 재배열(Rearrangement)
- 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법으로, 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법
(예시) 데이터 셋에 포함된 나이, 소득 등의 정보를 개인별로 서로 교환하여 재배치하게 되면 개인별 실제 나이와 소득과 다른 비식별 자료를 얻게 되지만, 전체적인 통계 분석에 있어서는 자료의 손실 없이 분석을 할 수 있는 장점이 있음
- 적용정보 : 나이, 신장, 소득, 질병, 신용등급, 학력 등
데이터 삭제(Data Reduction)
(개념) 개인 식별이 가능한 데이터 삭제 처리
(대상) 개인을 식별 할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진, 고유식별 정보(주민등록번호, 운전면허번호 등), 생체정보(지문, 홍채, DNA 정보 등), 기타 (등록번호, 계좌번호, 이메일주소 등))
(장점) 개인 식별요소의 전부 및 일부 삭제 처리가 가능
(단점) 분석의 다양성과 분석 결과의 유효성·신뢰성 저하
⑧ 식별자 삭제
- 원본 데이터에서 식별자를 단순 삭제하는 방법
(예시) 성명, 생년월일(yy-mm-dd)이 나열되어 있는 경우 분석 목적에 따라 생년월일을 생년(yy)으로 대체 가능하다면 월일(mm-dd) 값은 삭제
※ 이때 남아 있는 정보 그 자체로도 분석의 유효성을 가져야 함과 동시에 개인을 식별할 수 없어야 하며, 인터넷 등에 공개되어 있는 정보 등과 결합하였을 경우에도 개인을 식별할 수 없어야 함
- 적용정보 : 성명, 전화번호, 계좌번호, 카드번호, 요양기관번호, 이메일 주소 등
⑨ 식별자 부분삭제
- 식별자 전체를 삭제하는 방식이 아니라, 해당 식별자의 일부를 삭제하는 방법
(예시) 상세 주소의 경우 부분 삭제를 통하여 대표지역으로 표현 (서울특별시 송파구 가락본동 78번지 → 서울시 송파구) - 수치 또는 텍스트 데이터 등에도 폭넓게 활용 가능(‘⑫감추기’는 주로 수치데이터에 적용)
- 적용정보 : 주소, 위치정보(GPS), 전화번호, 계좌번호 등
⑩ 레코드 삭제(Reducing Records)
- 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법
(예시) 소득이 다른 사람에 비하여 뚜렷이 구별되는 값을 가진 정보는 해당 정보 전체를 삭제
- 이 방법은 통계분석에 있어서 전체 평균에 비하여 오차범위를 벗어나는 자료를 제거할 때에도 사용 가능
- 적용정보 : 키, 소득, 질병, 카드지출액 등
⑪ 식별요소 전부삭제
- 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하여 프라이버시 침해 위험을 줄이는 방법 (예시) 연예인·정치인 등의 가족정보(관계정보), 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 등 잠재적 식별자까지 사전에 삭제함으로써 연관성 있는 정보의 식별 및 결합을 예방
- 개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터 활용에 필요한 정보까지 사전에 모두 없어지기 때문에 데이터의 유용성이 낮아지는 문제 발생
- 적용정보 : 나이, 소득, 키, 몸무게 등 개별적으로는 단순한 정보이지만 분석 목적에 따라 추후 개인 식별이 가능성이 있다고 판단되는 정보
데이터 범주화(Data Suppression)
(개념) 특정 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간값으로 변환(범주화) 하여 개인 식별을 방지
(대상) 개인을 식별할 수 있는 정보(주소, 생년월일, 고유식별정보(주민등록번호, 운전 면허번호 등), 기관·단체 등의 이용자 계정(등록번호, 계좌번호))
(장점) 통계형 데이터 형식이므로 다양한 분석 및 가공 가능
(단점) 정확한 분석결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추론 가능성 있음
⑫ 감추기
- 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주값으로 변환하는 방식
- 단, 특수한 성질을 지닌 개인으로 구성된 단체 데이터의 평균이나 범주값은 그 집단에 속한 개인의 정보를 쉽게 추론할 수 있음
(예시) 간염 환자 집단임을 공개하면서 특정인물 ‘갑’이 그 집단에 속함을 알 수 있도록 표시하는 것은 ‘갑’이 간염 환자임을 공개하는 것과 마찬가지임
⑬ 랜덤 라운딩(Random Rounding)
- 수치 데이터를 임의의 수 기준으로 올림(round up) 또는 내림(round down)하는 기법
- ‘⑥ 라운딩(rounding)과 달리 수치 데이터 이외의 경우에도 확장 적용 가능
(예시) 나이, 우편번호 등과 같은 수치 정보로 주어진 식별자는 일의 자리, 십의 자리 등 뒷자리 수를 숨기고 앞자리 수만 나타내는 방법(나이 : 42세, 45세 → 40대로 표현)
- 적용정보 : 나이, 소득, 카드지출액, 우편번호, 유동인구, 사용자 등
⑭ 범위 방법(Data Range)
- 수치데이터를 임의의 수 기준의 범위(range)로 설정하는 기법으로, 해당 값의 범위(range) 또는 구간(interval)으로 표현 (예시) 소득 3,300만원을 소득 3,000만원∼4,000만원으로 대체 표기
- 적용정보 : 서비스 이용 등급, 처방정보(횟수, 기간 등), 위치정보, 유동인구, 사용자 수, 분석 시간/기간 등
⑮ 제어 라운딩(Controlled Rounding)
- ‘⑬랜덤 라운딩’ 방법에서 어떠한 특정값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
- 그러나 컴퓨터 프로그램으로 구현하기 어렵고 복잡한 통계표에는 적용하기 어려우며, 해결할 수 있는 방법이 존재하지 않을 수 있어 아직 현장에서는 잘 사용하지 않음
- 적용정보 : 나이, 키, 소득, 카드지출액, 위치정보 등
데이터 마스킹(Data Masking)
(개념) 데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환
(대상) 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진, 고유 식별정보(주민등록번호, 운전면허번호 등), 기관·단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등) )
(장점) 개인 식별 요소를 제거하는 것이 가능하며, 원 데이터 구조에 대한 변형이 적음
(단점) 마스킹을 과도하게 적용할 경우 데이터 필요 목적에 활용하기 어려우며 마스킹 수준이 낮을 경우 특정한 값에 대한 추론 가능
⑯ 임의 잡음 추가(Adding Random Noise)
- 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법
(예시) 실제 생년월일에 6개월의 잡음을 추가할 경우, 원래의 생년월일 데이터에 1일부터 최대 6개월의 날짜가 추가되어 기존의 자료와 오차가 날 수 있도록 적용
- 지정된 평균과 분산의 범위 내에서 잡음이 추가되므로 원 자료의 유용성을 해치지 않으나, 잡음값은 데이터 값과는 무관하기 때문에, 유효한 데이터로 활용하기 곤란
- 적용정보 : 사용자 ID, 성명, 생년월일, 키, 나이, 병명 코드, 전화번호, 주소 등
⑰ 공백(blank)과 대체(impute)
- 특정 항목의 일부 또는 전부를 공백 또는 대체문자(‘ * ’, ‘ _ ’ 등이나 전각 기호)로 바꾸는 기법
(예시) 생년월일 ‘1999-09-09’ ⇒ ‘19 - - ’ 또는 ‘19**-**-**’ - 적용정보 : 성명, 생년월일, 전화번호, 주소, 사용자 ID 등
프라이버시 보호 모델 | ||
처리 기법 | 세부 기술 | 설 명 |
가명처리 | 휴리스틱 가명화 | 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법 |
암호화 | 정보 가공시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법 | |
교환방법 | 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수(항목)값과 연계하여 교환 | |
총계처리 | 총계처리 | 데이터 전체 또는 부분을 집계(총합, 평균 등) |
부분총계 | 데이터 셋 내 일정부분 레코드만 총계 처리함. 즉, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계값(평균 등)으로 변환 | |
라운딩 | 집계 처리된 값에 대하여 라운딩(올림, 내림, 반올림) 기준을 적용하여 최종 집계 처리하는 방법으로, 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용 | |
재배열 | 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법으로, 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법 | |
데이터 삭제 | 식별자 삭제 | 원본 데이터에서 식별자를 단순 삭제하는 방법 |
식별자 부분 삭제 | 식별자 전체를 삭제하는 방식이 아니라, 해당 식별자의 일부를 삭제하는 방법 | |
레코드 삭제 | 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법 | |
식별요소 전부 삭제 | 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하여 프라이버시 침해 위험을 줄이는 방법 | |
데이터 범주화 | 감추기 | 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주값으로 변환하는 방식 |
랜덤 라운딩 | 수치 데이터를 임의의 수 기준으로 올림(round up) 또는 내림(round down)하는 기법 | |
범위 방법 | 수치데이터를 임의의 수 기준의 범위(range)로 설정하는 기법으로, 해당 값의 범위(range) 또는 구간(interval)으로 표현 | |
제어 라운딩 | 랜덤 라운딩 방법에서 어떠한 특정값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법 | |
데이터 마스킹 | 임의 잡음 추가 | 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법 |
공백과 대체 | 특정 항목의 일부 또는 전부를 공백 또는 대체문자(‘ * ’, ‘ _ ’ 등이나 전각 기호)로 바꾸는 기법 |
'IT 일기 (상반기) > 가명처리' 카테고리의 다른 글
[가이드라인] 2017 개인정보 비식별 조치 가이드라인-재식별 가능성 검토 기법 (0) | 2021.11.15 |
---|---|
[가이드라인] 2017 개인정보 비식별 조치 가이드라인 (0) | 2021.11.15 |
[ARX] ARX privacy model - Privacy model (0) | 2021.11.15 |
[ARX] ARX 이해하기 - Risk analysis perspective (0) | 2021.11.12 |
[ARX] ARX 이해하기 - Utility analysis (0) | 2021.11.12 |