목록IT 일기 (상반기)/가명처리 (35)
겉바속촉
RSTUDIO 열기 제가 가진 파일의 경로는 다음과 같습니다 setwd 로 파일 경로 설정해주기 CrossTable은 R의 기본 명령어가 아니기 때문에 패키지를 따로 설치해주어야합니다:) install.packages("gmodels") R은 전체 코드가 실행되는 것이 아니라 한 줄 한 줄씩 실행이 됩니다:) 그래서 커서를 첫줄에 놓고 한 줄씩 실행시켜주어야해요 그럼 다음과 같이 테이블이 나오게됩니다. 하나씩 해석을 해보면 첫줄과 둘째줄을 비교해서 각각의 workclass군이 50 이하일지 50 초과일지 예상이 가능합니다. 그럼 예상값이 같은 것끼리 묶어서 통계를 내야지 그냥 다 묶어서 통계를 도출하는 경우 p값이 커집니다. 하지만 지금은 같은 것끼리 통계가 나와서 p값이 0이 되는 것입니다. 테이블의 ..
R을 설치해보도록 하겠습니다:) 다음 링크로 가주세요~ https://www.r-project.org/ R: The R Project for Statistical Computing www.r-project.org Download 에 CRAN을 클릭 Korea의 아무거나 클릭 각자의 운영체제에 맞는 것 클릭 install 클릭 Download 클릭 한국어로 선택해주고 다 디폴트값으로 둔채 설치를 합니다
RStudio를 설치해보도록 하겠습니다. 다음 링크로 가주세요~ https://www.rstudio.com/products/rstudio/download/#download Download the RStudio IDE RStudio is a set of integrated tools designed to help you be more productive with R. It includes a console, syntax-highlighting editor that supports direct code execution, and a variety of robust tools for plotting, viewing history, debugging and managing www.rstudio.com DOWNL..
정보손실 비식별 처리는 익명화 수준과 분석에 필요한 정보량이 조화를 이루는 변환 information loss : 증가 Data Quality : 감소 Privacy Level : 증가 엔트로피 비식별화 변환을 수행한 모든 컬럼에 대해 계산하고 각 컬럼의 변화량을 산술평균, 기하평균 등을 사용하여 하나의 값으로 변환하면 그 값이 바로 Information Loss
가명정보/ 가명처리 가명정보 개인정보를 가명처리 원래의 상태로 복원하기 위한 추가 정보의 사용, 결합 없이는 특정 개인을 알아볼 수 없는 정보 가명처리 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법 추가 정보 없이는 특정 개인을 알아볼 수 없도록 처리하는 것 익명정보/ 익명처리 익명정보 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없는 정보 개인정보보호법이 적용되지 않는 정보 익명처리 더 이상 특정 개인인 신용정보주체를 알아볼 수 없도록 처리 무작위화 기술 순열(치환) 잡음 추가 부분 총계 해부화 기술 - 하나의 테이블을 두 개 이상의 테이블로 분할하여 개인의 식별성을 낮추는 기법 - 일반적으로 해부화를 적용할 때 식별성이 있는 컬럼과 분석 대상 컬럼을 분할 재현 데이터 생성 완전..
가명정보/ 가명처리 가명정보 개인정보를 가명처리 원래의 상태로 복원하기 위한 추가 정보의 사용, 결합 없이는 특정 개인을 알아볼 수 없는 정보 가명처리 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법 추가 정보 없이는 특정 개인을 알아볼 수 없도록 처리하는 것 익명정보/ 익명처리 익명정보 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없는 정보 개인정보보호법이 적용되지 않는 정보 익명처리 더 이상 특정 개인인 신용정보주체를 알아볼 수 없도록 처리 총계 처리 - 특정 컬럼을 통계적으로 처리하는 기법 - 데이터 전체 또는 부분을 집계로 처리 - 집계 방법은 일반적으로 평균값, 중앙값, 최대값, 최소값, 최빈값 중 하나로 처리 평균값 : =AVERAGE 중앙값 : = MEDIAN 최대값 :..
가명정보/ 가명처리 가명정보 개인정보를 가명처리 원래의 상태로 복원하기 위한 추가 정보의 사용, 결합 없이는 특정 개인을 알아볼 수 없는 정보 가명처리 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법 추가 정보 없이는 특정 개인을 알아볼 수 없도록 처리하는 것 익명정보/ 익명처리 익명정보 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없는 정보 개인정보보호법이 적용되지 않는 정보 익명처리 더 이상 특정 개인인 신용정보주체를 알아볼 수 없도록 처리 삭제 기술 마스킹 : 정보의 일부 혹은 정부를 다른 글자로 대체하여 식별하지 못하도록 하는 기법 대체 : 겉바속촉 -> 겉*** 스크램블링 : 겉바속촉 -> 촉속바겉 암호화 : 4121-0314-1345-6745 -> 1234-4567-123..
데이터 거버넌스 필요성 데이터 생산자와, 데이터 처리자, 데이터 사용자가 다름 동일한 데이터를 여러 부서가 사용 기업이 사용하는 애플리케이션을 외부에 의존 데이터 규제가 점점 더 다양하게 적용되고 있음 데이터를 사용하기 위해서는 데이터 내용과 함께 데이터 컨텍스트를 이해해야 함 데이터를 사용하려는 부서 및 사용자는 많으며 점점 늘어나는 추세 데이터 거버넌스 목표 데이터 규제를 준수하며, 예상되는 컴플라이언스 리스크에 대처 고객으로부터 데이터를 안전하게 처리하고 있다는 신뢰를 얻음 데이터 사용자들의 데이터 이해와 신뢰를 높여서 데이터 활용을 확산시킴 데이터 컨텍스트를 공유함으로써 데이터 오용을 방지 데이터 관리 기준을 정립하고 프로세스를 시스템화하여, 데이터 비용 절감시킴 데이터 자산의 훼손 및 유출 등을..