728x90
1. 가명 정보와 데이터 비식별화
국내법에 따른 정보의 분류
- 개인 정보: 주소, 휴대 전화 번호 등 특정 개인에 관한 정보
- 사전에 구체적 동의를 받아 제한된 범위에서 활용 가능
- 가명 정보: 추가 정보가 주어지지 않으면 개인을 알아볼 수 없는 정보
- 연구, 통계 작성 등에 한해 동의 없이 활용 가능
- 추가 정보: 암호화 당시 쓰인 키, 가명 처리 시 활용된 매핑 테이블, 가명 처리 알고리즘의 파라미터 등
- 익명 정보: 추가 정보가 주어져도 개인을 전혀 알아볼 수 없는 정보
- 활용 목적에 무관하게 자유로이 활용 가능
- 개인정보보호법의 적용 대상이 아님
데이터를 더 가치 있게, 비식별화
- 데이터 비식별화(De-Identification, Anonymization)
- 데이터 내에 개인 식별이 가능한 정보가 존재하는 경우, 해당 정보의 일부 혹은 정부를 삭제하거나 대체하는 등의 행위를 취함으로써 결과적으로 '다른 데이터와 결합한다고 하더라도' 개인을 식별하기 어렵게끔 만드는 것
- 식별 방지를 통한 비식별화의 추론 방지를 통한 비식별화로 구분
여러 가지 식별 방지 방법
- Data Masking: 특정 항목의 일부 또는 전체를 공백 또는 문자로 대체하는 방법
- Aggregation: 평균, 중앙값, 최빈값, 최솟값, 최댓값 등 대푯값 하나로 모든 값을 통일시키는 기법
- Categorization: 문자형 데이터에 대하여 보다 상위의 개념으로 범주화함으로써 비식별화를 수행
- Rouding: 올림, 내림, 반올림 등을 적용하여 비식별화, 적절히 자릿수를 선택해야 함 (Random Rounding)
- Controlled Rounding: Rounding 수행 전후 데이터의 누계가 달라지지 않게끔 일부 값을 택해 제거
- Tokenization: 특정 정보를 암호화 등의 방법을 거쳐 토큰으로 변환하는 방법
- Noise Addition: 주어진 데이터에 (정해진 확률분포를 따르는) 노이즈 값을 추가하여 비식별화
- Permutation: 동질집합 내 값의 순서를 무작위로 재배열하는 비식별화 방법, 원본 데이터를 크게 훼손할 수 있음
- 동질집합: 특정 칼럼 등 유사성을 기반으로 그룹화된 집합
2. 추론 방지를 위한 프라이버시 모델
추론 방지를 위한 k-익명성 모델
- k-익명성 (k-anonymity)
- 모든 식별자가 자시 자신과 동일하여 구분이 불가능한 경우가 k개 이상 존재
- 안전도를 보장하는 최소 k = 3 (5 ≤ k ≤ 10)에서 높은 안전도
- (첫 번재 사진) k = 2 ~ 4 익명성을 충족, k = 5 익명성을 충족 x
- 공격당할 수 있는 소지?
- 미지의 부상 선수 X가 프리미어리그 소속 -> 부상 부위가 햄스트링 (동질성 공격)
- 미지의 부상 선수 Y가 세리에A 소속 -> 무릎이 정상이라면 타박상 (배경지식 공격)
- l-다양성 (l-diversity)
- 식별자가 동일해 구분이 불가능한 (동질집합 내의) 데이터들은 적어도 l개의 서로 다른 민감정도를 가져야 함
- (두 번째 사진) A 집합에서는 3-다양성, B 집합에서는 2-다양성을 가짐 (동질성 공격에서 안전)
- 어떤 공격에 취약?
- 미지의 부상 선수 X가 유럽 출생, 부상 부위는 하반신 (유사성 공격)
- 미지의 부상 선수 Y가 아프리카 출생, 부상 부위는 높은 확룰로 십자인대 (쏠림 공격)
- 재귀 (c, l) 다양성
- 다음 두 조건을 만족하는 경우
- (가) l-다양성을 가짐
- (나) 동질집합 내 민감정보 빈도의 내림차순이 r_1, r_2, ..., r_m일 때, 모든 동질집합에 대해 r_1 < c(r_2 + ... + r_m)
- 쏠림 공격을 방지
- (두 번째 사진) c=1일 때, A 집합에서는 만족, B 집합에서는 만족하지 못함
- 다음 두 조건을 만족하는 경우
3. 신뢰할 수 있는 인공지능의 특성
데이터와 인공지능 윤리 담론의 시작
- 미국 사법부가 재범 가능성을 추정하기 위해 COMPAS 알고리즘을 이용
- 흑인 집단이 백인 집단보다 고위험 판정을 받을 가능성이 2배에 가깝다는 결론
인공지능 윤리 기준 마련 동향
EU가 제시한 신뢰 가능 AI의 세 가지 속성
- 적법성(Lawful): 구속력을 갖는 모든 법령과 규정을 AI는 준수해야 한다.
- 윤리성(Ethical): 구속력 여부와 무관하게 AI는 윤리적 가치에 부합해야 한다.
- 견고성(Robust): 선한 목적의 AI도 비의도적 피해를 야기해서는 안 된다.
신뢰 가능 AI에 요구되는 사항들
- 인간 행위자와 감독: 인간의 감독을 허용해야 하며, 감독권이 적을수록 거버넌스는 엄격해야 함
- 기술적 견고성과 안전성: AI에 의한 의도치 않은 위해를 최소화해야 하며, 악의적 행위자도 고려해야 함
- 프라이버시와 데이터 거버넌스: 학습하기에 적합한 충분한 품질의 데이터셋과 그 무결성을 확보해야 함
- 투명성: 데이터셋 및 의사결정 프로세스는 추적가능해야 하며 설명가능해야 함
- 다양성과 차별 금지 및 공정성: 가능하다면 데이터 수집 단계에서 차별적 편향을 선제적으로 제거해야 함
- 사회적-환경적 웰빙: 사회제도, 민주주의 등 사회적 관점에서의 AI 영향력 평가도 실시되어야 함
- 책임성: AI 시스템의 부적절성을 신고할 경우 그에 대한 정당한 보호가 따라야 함
-> 해당 기준들에 대한 개인적인 고민을 하는 것이 중요!
'대학공부 > 데이터과학' 카테고리의 다른 글
군집화 알고리즘과 군집에 대한 평가 (0) | 2024.05.13 |
---|---|
여러 가지 방법을 이용한 분류 (0) | 2024.04.29 |
의사결정나무를 이용한 분류와 예측 (1) | 2024.04.01 |
선형 회귀를 이용한 예측과 그 응용 (0) | 2024.03.25 |
탐색적 데이터 분석(EDA)과 데이터 시각화 (1) | 2024.03.24 |