본문 바로가기
728x90

대학공부/데이터과학10

거대 언어 모델과 프롬프트 엔지니어링 1. 거대 언어 모델의 등장과 혁신트랜스포머 등장부터 GPT-4까지Google 트랜스포머 이후 불과 7년, GPT-4o에 이르기까지 급속도의 발전이 이루어짐2019 GPT-22021 GPT-32023 GPT-4LLM, 과업 수행의 양상을 바꾸다서로 다른 과업을 수행하려면 개별 과업에 특화된 데이터셋 확보 후 과업에 맞는 모델을 구축해야 했음GPT를 비롯한 거대 언어 모델의 등장단일한 모델로 여러 과업을 해결 가능범용 인공지능 AGI의 가능성 대두, 연구와 산업 전반에서의 큰 변화트랜스포머 기반 언어이해모델 BERT, GPT 등트랜스포머의 병렬처리 특징으로 인해 가능교육에서 산업까지 LLM의 파급력과제 수행 등 교육의 모든 과정에서 LLM 활용 가능성이 위협으로 변모AI & ChatGPT Guidance .. 2024. 6. 4.
데이터 거버넌스와 데이터과학의 미래 1. 대한민국 데이터 정책 거버넌스데이터 거버넌스데이터 거버넌스데이터의 생성, 변경, 처리 등에 관하여 정의된 표준데이터 거버넌스르 통해 조직 내에 존재하는 데이터의 품질을 제고하고 데이터와 관련한 보안을 강화할 수 있음데이터 정책 거버넌스데이터 정책을 담당하는 주요 부처 및 부서의 기능을 조정하여 데이터 정책의 목표를 달성해나가는 추진 체계를 일컫는 말넓은 의미에서는 관련 법률과 종합계획까지 포괄 공공데이터의 컨트롤 타워행정안전부 디지털정부혁신실디지털정부정책국정부혁신국공공데이터국공공서비스국공공데이터정책과공공데이터관리과통합데이터분석센터디지털정부혁신실 주요 업무온라인 기반의 효율적인 디지털 정부 구현 및 디지털 정부 국제 협력 확대국민의 삶과 밀접히 연관되어 있는 공공데이터의 개방과 이용 활성화모바일 전자.. 2024. 5. 27.
연관규칙 생성과 연관분석의 실제 1. 지표를 이용한 연관규칙의 분석연관분석의 지표Support(지지도): 이걸 본 사람이 얼마나 많을까?support(A): A가 등장하는 트랜잭션의 비율support(A -> B): A와 B가 모두 등장하는 트랜잭션의 비율Confidence(신뢰도): 이걸 본 사람은 저것도 봤을까?confidence(A -> B): A가 등장하는 트랜잭션 중, B까지 등장하는 비율confidence(A -> B) = support(A->B) / support(A)높은 confidence를 갖는 연관규칙을 반드시 유의미하다고 볼 수 있나?lift(향상도)lift(A -> B) = confidence(A -> B) / support(B)support(B)가 높아 confidence(A -> B) 값이 높아지는 것을 방지l.. 2024. 5. 13.
군집화 알고리즘과 군집에 대한 평가 1. K-평균 군집화와 퍼지 군집화K-Means Clustering사전에 군집의 개수 K를 결정각 군집에는 중심이 존재하게 되는데, 중심과 군집 내 데이터 거리 차의 제곱 합을 최소로 하는 최적 군집을 찾음일단 중심 K개를 찍고 반복Python에서의 K-평균 군집화# 알고리즘 수행을 위해 필요한 라이브러리import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.cluster import KMeansplt.figure(figsize = (10, 5))# K-means Clustering의 실제df = pd.read_csv('menu.csv', engine = 'python')df_data = df[['가격', '판매량']] # 군집화하기 위해 사용할 .. 2024. 5. 13.
여러 가지 방법을 이용한 분류 1. k-최근접 이웃에 기반한 분류k-Nearest Neighbor(k-최근접 이웃, k-NN)가장 가까운 이웃 k개를 바탕으로 분류를 수행하는 방법데이터가 주어질 때마다 연산을 통한 분류가 이루어지므로, 엄밀하게는 학습이라고 하기 어려움 Python에서의 k-NN# 필수 라이브러리 불러오기import pandas as pdfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import confusion_matrix# 지뢰와 보물 데이터 불러오기df = pd.read_csv('treasure.csv')# 주어진 데이터에서 입력 변수와 예측.. 2024. 4. 29.
개인정보 비식별화와 데이터 윤리 1. 가명 정보와 데이터 비식별화 국내법에 따른 정보의 분류 개인 정보: 주소, 휴대 전화 번호 등 특정 개인에 관한 정보 사전에 구체적 동의를 받아 제한된 범위에서 활용 가능 가명 정보: 추가 정보가 주어지지 않으면 개인을 알아볼 수 없는 정보 연구, 통계 작성 등에 한해 동의 없이 활용 가능 추가 정보: 암호화 당시 쓰인 키, 가명 처리 시 활용된 매핑 테이블, 가명 처리 알고리즘의 파라미터 등 익명 정보: 추가 정보가 주어져도 개인을 전혀 알아볼 수 없는 정보 활용 목적에 무관하게 자유로이 활용 가능 개인정보보호법의 적용 대상이 아님 데이터를 더 가치 있게, 비식별화 데이터 비식별화(De-Identification, Anonymization) 데이터 내에 개인 식별이 가능한 정보가 존재하는 경우, .. 2024. 4. 8.