LG Aimers에서 KAIST 차미영 교수님 강의를 듣고 정리한 내용입니다.
틀린 부분이 있다면 댓글 부탁드립니다!
1. 데이터의 시대
(1) 데이터를 잘 해석하고 있는가?
- '초콜릿을 많이 먹으면 노벨상을 탄다'는 말은 맞는 말일까? 좀 의아하게 들린다. 따라서 데이터를 잘 해석해야 한다.
- '상관관계' ≠ '인과관계'
(2) 데이터 전처리와 분석 방법은 적절한가?
- 실제로 메타에서는 그래프에서 Error bar가 존재하지 않는다면 아예 데이터를 믿지 않는다고 한다.
- 따라서, (1) Error bar 추가 (2) 적절한 통계 테스트 찾기 (3) Outlier 제거 (4) 데이터 표준화 (5) EDA를 통해 데이터를 충분히 들여다보고 알아나가는 시간이 필요하다.
(3) 학습에 쓰는 데이터가 충분한가?
- 일반적으로 인공지능 알고리즘에서 필요한 데이터 양은 보통 million scale (100만 데이터)라고 한다.
- 데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 한다. 그림처럼 모델이 너무 단순하거나, 너무 복잡하여 Under-fitting 되거나 Over-fitting 되지 않도록 해야 한다.
- 학습 데이터 ≠ 테스트 데이터
2. Black Box Algorithm
(1) 설명력이 중요한 AI
- 인공지능에서는 '성능' 뿐만 아니라, '설명력'도 중요한 요소이다.
- 실제로 면세 범위 초과 물품, 위장 반입, 원산지 조작 등의 세관에서 벌어지는 불법 행위를 적발하는 AI 기술을 개발한 것에 대해 왜 그렇게 판단을 하였는지에 대한 '설명력'이 전문가들을 설득하는 데 중요한 요소로 작용했다고 한다.
- AI 기반 학습 알고리즘은 결과에 대한 설명이 불가능한 'Black Box Algorithm'이라는 특징을 가지고 있다.
- 앞선 사례처럼 High risk 결정에서는 설명력도 정확도 (성능) 만큼이나 중요하다.
- post-hoc explainability (사후 설명력)
예시) Saliency Map (어디에 집중해서 보는가?), SHAP (SHapley Additive exPlanations, 게임 이론을 바탕으로 각 player의 기여분 계산)
- 알고리즘의 내면을 가시화하여 보여주는 기술이 개발되고 있다.
(2) 학습 결과가 바뀔 수 있는 위험성
- One Pixel attack의 예시이다.
- 픽셀 하나만 바뀌었지만 알고리즘 학습 결과가 달라지는, 노이즈에 굉장히 민감한 모델이다.
- 충분히 신뢰성 있는 모델을 개발하도록 해야 한다.
3. Handling the Web data
(1) 의견의 대표성
'Spiral of Silence (침묵의 나선)'
- 이는 각 개인들이 '고립'에 대한 공포가 있으며, 고립에 대한 공포는 자신의 의견을 말하는 것보다 침묵을 유지하는 방향으로 이끈다는 것이다.
- 특정 의견이 다수의 사람들에게 지배적인 의견으로 인정되고 있다면, 반대되는 의견을 가지고 있는 소수의 사람들은 침묵하려는 경향이 크다고 한다.
- 이러한 현상은 SNS를 통한 빠른 정보 전파, bot의 참여, 극단화 현상 주의를 야기한다. 즉, 정보의 편향을 일으킨다.
(2) 인포데믹 현상
- 오정보의 빠른 확산으로 인한 인포데믹 (infodemic) 현상이 발생한다.
- 사실 정보와 더불어 오정보의 양이 늘어, 구분이 어려워지는 정보 과부하 현상이다.
- Facts는 연결되면서 퍼지지만, Rumors는 산발적으로 퍼져나가며 인포데믹 현상을 발생시킨다.
(3) Digital Services Act
- 유럽 연합 중심으로 빅테크 기업 대상 플랫폼 유해 컨텐츠 단속 의무를 강화하고 있으며, 이는 전세계로 확산되고 있다.
- 네티즌의 성별, 인종, 종교 등에 기반한 알고리즘으로 개인화 추천 광고를 노출하지 않도록 하고 있다.
- DSA 위반 시 연매출 대비 상당한 과징금도 부여하고 있다.
3. AI and Ethical Decisions
(1) COMPAS (Correctional Offender Management Profiling for Alternative Sanctions)
- North pointe, Inc가 개발한 소프트웨어로, 피고의 미래 범죄 위험을 점수로 예측한다.
- 미국 법원의 형사 재판에서 판사들의 의사결정을 지원하기 위해 사용하고 있으며, 현재 캘리포니아주, 뉴욕주, 위스콘신주, 플로리다, 워싱턴 등 12개 기타 관할권 법원에서 사용중이다.
- 한편, COMPAS가 예측한 미래 범죄 위험도 알고리즘이 인종 차별을 조장하는 사례가 있었다.
- 두 사람 모두 사소한 절도로 인해 체포되었다.
- 왼쪽은 무장 강도 등의 전과가 있었고, 오른쪽은 어린 시절 저지른 경범죄의 전과가 있었다. 하지만, 흑인 여성에 대해 COMPAS는 더 높은 범죄 위험도를 부여했다.
- 2년 후, 왼쪽은 절도 혐의로 징역을 살게 되었고, 오른쪽은 이후 범죄를 저지르지 않았다고 한다.
- 알고리즘의 '편향성' 때문에 발생한 사례이다.
(2) Microsoft Tay
- 백인 우월주의자, 여성, 무슬림 혐오자들이 차별 발언하도록 학습되어 공개 16시간만에 서비스를 중단했다.
- 이후 MS는 Zo라는 13세 여성 캐릭터 챗봇을 새로 공개했는데, 소수자에 대한 대화 자체를 피하도록 개발되어 컨텐츠 검열이라는 지적을 받기도 했다.
1. 데이터의 확보, 전처리, 분석, 해석의 전 과정이 중요하다. 데이터가 알고리즘의 품질을 결정한다.
2. 알고리즘의 설명력, 편향, 신뢰의 문제에 주의한다.
'Artificial Intelligence > LG Aimers' 카테고리의 다른 글
[ LG Aimers ] 『품질 경영』 Part 1. 품질경영 개론 (1) | 2024.08.06 |
---|---|
[ LG Aimers ] 『Mathematics for AI』 Part 3. Principal Component Analysis (1) | 2024.07.22 |
[ LG Aimers ] 『Mathematics for AI』 Part 1. Matrix Decompositions (2) | 2024.07.14 |
[ LG Aimers ] 『AI 윤리』 Part 2. AI Ethics + Part 3. 세계적인 데이터 과학자가 되는 방법 (0) | 2024.07.11 |