대학공부/데이터과학

개인정보 비식별화와 데이터 윤리

진진리 2024. 4. 8. 17:23
728x90

1. 가명 정보와 데이터 비식별화

국내법에 따른 정보의 분류

  • 개인 정보: 주소, 휴대 전화 번호 등 특정 개인에 관한 정보
    • 사전에 구체적 동의를 받아 제한된 범위에서 활용 가능
  • 가명 정보: 추가 정보가 주어지지 않으면 개인을 알아볼 수 없는 정보
    • 연구, 통계 작성 등에 한해 동의 없이 활용 가능
    • 추가 정보: 암호화 당시 쓰인 키, 가명 처리 시 활용된 매핑 테이블, 가명 처리 알고리즘의 파라미터 등
  • 익명 정보: 추가 정보가 주어져도 개인을 전혀 알아볼 수 없는 정보
    • 활용 목적에 무관하게 자유로이 활용 가능
    • 개인정보보호법의 적용 대상이 아님

 

데이터를 더 가치 있게, 비식별화

  • 데이터 비식별화(De-Identification, Anonymization)
    • 데이터 내에 개인 식별이 가능한 정보가 존재하는 경우, 해당 정보의 일부 혹은 정부를 삭제하거나 대체하는 등의 행위를 취함으로써 결과적으로 '다른 데이터와 결합한다고 하더라도' 개인을 식별하기 어렵게끔 만드는 것
    • 식별 방지를 통한 비식별화의 추론 방지를 통한 비식별화로 구분

 

여러 가지 식별 방지 방법

  • Data Masking: 특정 항목의 일부 또는 전체를 공백 또는 문자로 대체하는 방법
  • Aggregation: 평균, 중앙값, 최빈값, 최솟값, 최댓값 등 대푯값 하나로 모든 값을 통일시키는 기법
  • Categorization: 문자형 데이터에 대하여 보다 상위의 개념으로 범주화함으로써 비식별화를 수행
  • Rouding: 올림, 내림, 반올림 등을 적용하여 비식별화, 적절히 자릿수를 선택해야 함 (Random Rounding)
  • Controlled Rounding: Rounding 수행 전후 데이터의 누계가 달라지지 않게끔 일부 값을 택해 제거
  • Tokenization: 특정 정보를 암호화 등의 방법을 거쳐 토큰으로 변환하는 방법
  • Noise Addition: 주어진 데이터에 (정해진 확률분포를 따르는) 노이즈 값을 추가하여 비식별화
  • Permutation: 동질집합 내 값의 순서를 무작위로 재배열하는 비식별화 방법, 원본 데이터를 크게 훼손할 수 있음
    • 동질집합: 특정 칼럼 등 유사성을 기반으로 그룹화된 집합

2. 추론 방지를 위한 프라이버시 모델

추론 방지를 위한 k-익명성 모델

데이터를 평가하고 준식별자를 비식별화하는 과정을 거쳐서 추론 방지를 위해 노력

  1. k-익명성 (k-anonymity)
    • 모든 식별자가 자시 자신과 동일하여 구분이 불가능한 경우가 k개 이상 존재
    • 안전도를 보장하는 최소 k = 3 (5 ≤ k ≤ 10)에서 높은 안전도
    • (첫 번재 사진) k = 2 ~ 4 익명성을 충족, k = 5 익명성을 충족 x
      • 공격당할 수 있는 소지? 
      • 미지의 부상 선수 X가 프리미어리그 소속 -> 부상 부위가 햄스트링 (동질성 공격)
      • 미지의 부상 선수 Y가 세리에A 소속 -> 무릎이 정상이라면 타박상 (배경지식 공격)
  2. l-다양성 (l-diversity)
    • 식별자가 동일해 구분이 불가능한 (동질집합 내의) 데이터들은 적어도 l개의 서로 다른 민감정도를 가져야 함
    • (두 번째 사진) A 집합에서는 3-다양성, B 집합에서는 2-다양성을 가짐 (동질성 공격에서 안전)
      • 어떤 공격에 취약?
      • 미지의 부상 선수 X가 유럽 출생, 부상 부위는 하반신 (유사성 공격)
      • 미지의 부상 선수 Y가 아프리카 출생, 부상 부위는 높은 확룰로 십자인대 (쏠림 공격)
  3. 재귀 (c, l) 다양성
    • 다음 두 조건을 만족하는 경우
      • (가) l-다양성을 가짐
      • (나) 동질집합 내 민감정보 빈도의 내림차순이 r_1, r_2, ..., r_m일 때, 모든 동질집합에 대해 r_1 < c(r_2 + ... + r_m)
      • 쏠림 공격을 방지
      • (두 번째 사진) c=1일 때, A 집합에서는 만족, B 집합에서는 만족하지 못함

3. 신뢰할 수 있는 인공지능의 특성

데이터와 인공지능 윤리 담론의 시작

  • 미국 사법부가 재범 가능성을 추정하기 위해 COMPAS 알고리즘을 이용
  • 흑인 집단이 백인 집단보다 고위험 판정을 받을 가능성이 2배에 가깝다는 결론

인공지능 윤리 기준 마련 동향

EU

EU가 제시한 신뢰 가능 AI의 세 가지 속성

  • 적법성(Lawful): 구속력을 갖는 모든 법령과 규정을 AI는 준수해야 한다.
  • 윤리성(Ethical): 구속력 여부와 무관하게 AI는 윤리적 가치에 부합해야 한다.
  • 견고성(Robust): 선한 목적의 AI도 비의도적 피해를 야기해서는 안 된다.

신뢰 가능 AI에 요구되는 사항들

  1. 인간 행위자와 감독: 인간의 감독을 허용해야 하며, 감독권이 적을수록 거버넌스는 엄격해야 함
  2. 기술적 견고성과 안전성: AI에 의한 의도치 않은 위해를 최소화해야 하며, 악의적 행위자도 고려해야 함
  3. 프라이버시와 데이터 거버넌스: 학습하기에 적합한 충분한 품질의 데이터셋과 그 무결성을 확보해야 함
  4. 투명성: 데이터셋 및 의사결정 프로세스는 추적가능해야 하며 설명가능해야 함
  5. 다양성과 차별 금지 및 공정성: 가능하다면 데이터 수집 단계에서 차별적 편향을 선제적으로 제거해야 함
  6. 사회적-환경적 웰빙: 사회제도, 민주주의 등 사회적 관점에서의 AI 영향력 평가도 실시되어야 함
  7. 책임성: AI 시스템의 부적절성을 신고할 경우 그에 대한 정당한 보호가 따라야 함

-> 해당 기준들에 대한 개인적인 고민을 하는 것이 중요!