개인정보 비식별화와 데이터 윤리

대학공부/데이터과학

진진리 2024. 4. 8. 17:23

728x90

개인 정보: 주소, 휴대 전화 번호 등 특정 개인에 관한 정보
- 사전에 구체적 동의를 받아 제한된 범위에서 활용 가능
가명 정보: 추가 정보가 주어지지 않으면 개인을 알아볼 수 없는 정보
- 연구, 통계 작성 등에 한해 동의 없이 활용 가능
- 추가 정보: 암호화 당시 쓰인 키, 가명 처리 시 활용된 매핑 테이블, 가명 처리 알고리즘의 파라미터 등
익명 정보: 추가 정보가 주어져도 개인을 전혀 알아볼 수 없는 정보
- 활용 목적에 무관하게 자유로이 활용 가능
- 개인정보보호법의 적용 대상이 아님

데이터 비식별화(De-Identification, Anonymization)
- 데이터 내에 개인 식별이 가능한 정보가 존재하는 경우, 해당 정보의 일부 혹은 정부를 삭제하거나 대체하는 등의 행위를 취함으로써 결과적으로 '다른 데이터와 결합한다고 하더라도' 개인을 식별하기 어렵게끔 만드는 것
- 식별 방지를 통한 비식별화의 추론 방지를 통한 비식별화로 구분

Data Masking: 특정 항목의 일부 또는 전체를 공백 또는 문자로 대체하는 방법
Aggregation: 평균, 중앙값, 최빈값, 최솟값, 최댓값 등 대푯값 하나로 모든 값을 통일시키는 기법
Categorization: 문자형 데이터에 대하여 보다 상위의 개념으로 범주화함으로써 비식별화를 수행
Rouding: 올림, 내림, 반올림 등을 적용하여 비식별화, 적절히 자릿수를 선택해야 함 (Random Rounding)
Controlled Rounding: Rounding 수행 전후 데이터의 누계가 달라지지 않게끔 일부 값을 택해 제거
Tokenization: 특정 정보를 암호화 등의 방법을 거쳐 토큰으로 변환하는 방법
Noise Addition: 주어진 데이터에 (정해진 확률분포를 따르는) 노이즈 값을 추가하여 비식별화
Permutation: 동질집합 내 값의 순서를 무작위로 재배열하는 비식별화 방법, 원본 데이터를 크게 훼손할 수 있음
- 동질집합: 특정 칼럼 등 유사성을 기반으로 그룹화된 집합

k-익명성 (k-anonymity)
- 모든 식별자가 자시 자신과 동일하여 구분이 불가능한 경우가 k개 이상 존재
- 안전도를 보장하는 최소 k = 3 (5 ≤ k ≤ 10)에서 높은 안전도
- (첫 번재 사진) k = 2 ~ 4 익명성을 충족, k = 5 익명성을 충족 x
  - 공격당할 수 있는 소지?
  - 미지의 부상 선수 X가 프리미어리그 소속 -> 부상 부위가 햄스트링 (동질성 공격)
  - 미지의 부상 선수 Y가 세리에A 소속 -> 무릎이 정상이라면 타박상 (배경지식 공격)
l-다양성 (l-diversity)
- 식별자가 동일해 구분이 불가능한 (동질집합 내의) 데이터들은 적어도 l개의 서로 다른 민감정도를 가져야 함
- (두 번째 사진) A 집합에서는 3-다양성, B 집합에서는 2-다양성을 가짐 (동질성 공격에서 안전)
  - 어떤 공격에 취약?
  - 미지의 부상 선수 X가 유럽 출생, 부상 부위는 하반신 (유사성 공격)
  - 미지의 부상 선수 Y가 아프리카 출생, 부상 부위는 높은 확룰로 십자인대 (쏠림 공격)
재귀 (c, l) 다양성
- 다음 두 조건을 만족하는 경우
  - (가) l-다양성을 가짐
  - (나) 동질집합 내 민감정보 빈도의 내림차순이 r_1, r_2, ..., r_m일 때, 모든 동질집합에 대해 r_1 < c(r_2 + ... + r_m)
  - 쏠림 공격을 방지
  - (두 번째 사진) c=1일 때, A 집합에서는 만족, B 집합에서는 만족하지 못함

-> 해당 기준들에 대한 개인적인 고민을 하는 것이 중요!