지혜의 숲

[박태웅의 AI 강의] 챗GPT의 탄생, 열려버린 판도라의 상자, 미디어는 메시지다.

미래소년_줄루 2023. 12. 12. 17:39
728x90
반응형
SMALL

AI 관련 책을 하나 리뷰해 보려합니다.

 

 

 

그 첫 책으로는 박태웅님의 AI 강의입니다.

이 책의 저자 박태웅님은 한겨레 기자출신의 사업가 입니다.

박태웅(1963년 ~ )은 대한민국의 한겨레신문 기자 출신 기업가이며, 현재 한빛미디어 이사회 의장을 맡고 있다.
박태웅의 주요 경력으로는 <인티즌> 설립, <자무스> 대표이사, < 엠파스 > 부사장, 열린사이버대학교 부총장, KTH 부사장 등이 있으며, 2021년 정보통신분야 발전에 기여한 공로를 인정받아 동탑산업훈장을 수여받기도 했습니다.
2021년 7월에는 <눈떠보니 선진국>이라는 책을 출간.
최근에는 인공지능에 대한 기본 알고리즘과 챗GPT의 개념과 원리를 다룬 <박태웅의 AI강의>라는 책을 출간하였습니다.

 

이 책은 총 5강으로 구성되어 있으며,

[1강] 놀라움과 두려움 사이에서 등장하다 _ 챗GPT의 탄생

1강은 챗GPT의 탄생과 GPT에 대한 이야기를...

 

[2강] 우리는 왜 챗GPT에 열광하게 되었나? _ 느닷없이 나타나는 능력, 인공일반지능(AGI)

2강에서는 우리가 이처럼 인공지능 아니 챗GPT에 열광하게 된 이유를, 챗GPT가 이전의 인공지능과 다른 이유들을 지적하며 챗GPT를 소개하고 있습니다.

 

[3강] 열려버린 판도라의 상자 _ AI의 확산, 그리고 필연적으로 도래할 충격들

3강에서는 이전과 달라진 AI가 얼마나 빨리 확산되어 가는지, 그리고 그 속해서 발행할 수 있는, 발생할 수 밖에 없는 문제들에 대해서 이야기합니다.  

 

[4강] 몸에 대한 실험, 마음에 대한 실험 _ 미디어는 메시지다

4강에서는 AI라는 새로운 매체가 불러올 새로운 세상과 새로운 변화속에서는, 늘 '부'를 이루는 기회가 있었고, 그에 관한 이야기를 해줍니다. 그리고, 챗GPT를 통해 양상된 거짓 내용들에 휘둘리는 한국 언론에 대해서도 이야기하며, 인공지능 시대=새로운 미디어의 시대, 그 미디어 자체가 메시지임을 강조하고 있습니다.

 

[5강] 인류는 어떻게 대응해야 하는가? _ 신뢰할 수 있는 인공지능을 향하여

인공지능이라는 새로운 미디어를 우리는 어떻게 맞아들어야하는지, 그리고 인공지능 윤리, 인공지능법에 대한 화두를 던집니다.

그러면서, 마지막으로 인공지능 시대 한국은 어떻게 대응하고 있는지, 한국 정부가 인공지능 시대 하지 말아야할 일과 해야 할 일에 대해서 이야기합니다.

 

 

그럼 지금부터 좀 더 자세히 내용들을 살펴볼까요? 

 

 

1강 놀라움과 두려움 사이에서 등장하다
챗GPT의 탄생

 

2010년 초 AI산업은 학계 위주의 연구와 R&D가 대부분이었습니다.

그러나, 2020년도에 들어서면서 점차 연구가 기술로 실현되었고, 혁신기업이 AI산업을 추구하는 흐름이 나타나기 시작했습니다.

 

새로운 미디어가 나타났을 때 사람들은 그것이 불러올 변화를 바로 깨닫는 경우는 많지 않습니다. 그러나, '챗GPT'는 아마도 새로운 미디어가 나타나자마자, 모든 사람이 그것이 가져다 줄 위력을 느끼게 된 인류 역사상 첫 번째 사건으로 기록될지도 모르겠습니다. 

챗GPT는 출시된지 일주일 안에 100만 명의 사용자를 모았고, 두 달 만에 1억 명을 돌파했습니다. 그뿐만이 아니라,  얼마 지나지 않아 챗GPT에 다음 버전인 (훨씬 성능이 좋아진) GPT4가 나왔고, 메타에서는 경량 버전인 ‘라마’를 내놓았습니다.

 

‘라마’는 훨씬 적은 수의 매개변수를 가지고 있지만, 더 많은 학습량을 이용해 챗GPT에 맞먹는 성능을 낸다고 발표했습니다.

스탠퍼드 대학에서는 ‘라마’를 더 최적화한 ‘알파카’를 내놓았습니다. 말 그대로 인공지능의 캄보디아기가 시작된 것입니다.

 

2023년 챗GPT 발표는 소위 글로벌 빅테크들이 벌이는 AI 전쟁의 도화선이 되었습니다.

강력한 인프라를 소유한 빅테크 기업들은 초거대 AI 모델을 만드는 기업들과 전략적 제휴를 맺고, AI 시장을 선정하기 위해 열을 올리고 있습니다.

 

챗GPT를 이야기할 준비가 되었습니다. 
이 책을 쓰게 된 이유도 바로 챗GPT가 나타났기 때문입니다. 챗GPT는 인류 역사상 가장 빠른 속도로 사용자를 모은 서비스입니다. 그 전까지는 인스타그램과 틱톡이 가장 빨랐습니다. 하지만 챗GPT는 이들이 웃어 보일 정도로 유례없이 빠른 속도로 사용자를 모았습니다. 2022년 11월 30일에 공개하고 두 달 만에 1억만 명의 사용자를 돌파했으니까요...

 

이제 챗GPT에 대해서 간단히 알아보도록 하겠습니다.

 

이미 다들 잘 아시겠지만, 

챗GPT는 AI 챗봇 서비스로 최신 대화형이라는 뜻입니다.

챗GPT는 인간과 자연스럽게 대화할 수 있는 소프트웨어 어플리케이션을 의미합니다.

그리고, 딥 러닝을 통해 인간다운 텍스트를 생성하는 초거대 언어 모델인 GPT-3.5를 기반으로 작동합니다.

챗GPT는 인터넷의 방대한 텍스트 데이터 세트를 학습하여, 질문에 대한 답변을 생성함은 물론, 인간과 대화를 나누고, 에세이나 이메일을 작성하고, 텍스트를 요약하는 등 언어와 관련된 다양한 작업을 수행할 수 있습니다.

 

챗GPT는 바로 앞 문장에 의존하여 답변을 제공했던 싱글턴 챗봇들과는 달리 대화의 문맥을 이해하고 답변을 주는 멀티턴 챗봇으로, 사용자와의 이전 대화를 기억하고 답변을 생성하도록 설계되었고, 챗GPT는 사용자가 잘못된 전제를 갖고 질문을 할 경우 이의를 제기하고 부적절한 요청은 거부하기도 합니다.

 

대화형에는 두 가지 뜻이 있다.
사람끼리 이야기하듯이 자연스럽게 입력한다는 것이 첫 번째 의미이고,
(이전까지는 컴퓨터한테 일을 시키려면 먼저 C라든지 포트란 코볼 파이썬처럼 별도의 프로그래밍 언어_기계어를 익혀야 했다) 그런데 챗GPT는 그냥 글을 쓰면 된다. 우리가 일상적으로 사용하는 말을 프로그래밍 언어와 구분의 구분해서 자연어라고 하는데, 자연어로 그냥 입력하면 되는게 챗GPT이다.

대화형의 두 번째 의미는 챗GPT에 '단기기억'이 있다는 것이다.
우리가 친구를 만나 대화를 한다고 할 때, 어제 뭐 했어? 극장에서 영화 봤어? 그게 재밌었니?라고 말하면, 이때 우리는 그거가 앞에 대화에서 나온 영화라는 걸 압니다. 기억하고 있기 때문입니다. 챗GPT가 사람과 자연으로 대화할 수 있는 것은 이처럼 단기 기억을 가지고 있기 때문입니다. 

 

GPT"Generative Pre-trAIned Transformer"의 약자로, 자연어 처리 및 생성 모델을 위한 딥러닝 아키텍처입니다.

 

GPT G는 제너레이티브(Generative), 즉 생성하는 만드는 일이란 뜻입니다.

생성형 인공지능은 그림을 학습하면 그림을 그리고, 동영상을 학습하면 동영상을 만들고, 글을 학습하면 글을 씁니다.

챗GPT는 글을 쓰는 생성형 인공지능입니다.

 

GPT P는 Pre-trAIned 사전 학습판이란 뜻입니다.

챗GPT는 무려 3,000억 개의 단어(토큰)와 5조 개의 문서를 학습했습니다. 이 정도면 인간이 만든 거의 모든 문서를 다 봤다고 할 수도 있습니다. 그래서 이런 인공지능을 거대 언어 모델LLM이라고 부릅니다. LLM(Large Language Model)

사전 학습에도 두 가지 의미가 있습니다.
하나는 이런 거대한 모델을 사전 학습했다는 뜻이고 다른 하나는 특별히 학습을 추가로 시키지 않은 전문 분야에 관해 질문에도 마치 원래부터 잘 알고 있는 것처럼 그럴듯한 답을 내놓는다는 뜻입니다.

그래서, 이런 거대 언어 모델 인공지능을 파운데이션 모델이라고 부릅니다.
다른 인공지능에 기반이 되는 모델이라는 뜻입니다

 

GPT T는 트랜스포머(Transformer)입니다.

딥러닝 모델 중 하나인데, 트랜스포머는 주어진 문장을 보고 다음 단어가 뭐가 올지를 확률적으로 예측합니다.

5조 개의 문서로 학습한 다음 그것을 근거로 주어진 문장의 다음에 어떤 단어가 배치될지 예측하지요. 그냥 하는게 아니라 attention이라는 모델을 사용합니다.

어텐션은 2017년 구글에서 내놓은 모델로 주어진 문장에서 중요한 키워드가 무엇인지를 알아챕니다. 앞에 문장에서 핵심 키워드가 뭔지 알 수 있으면, 그 다음에 올 단어를 무작위로 예측할 때보다 훨씬 높은 정확도로 예측할 수 있습니다. 이는 연산 시간과 비용의 감소를 만들어 냅니다. 

 

챗GPT는 단기 기억을 가지고 앞에 문장들을 계속 기억하면서 추론하는데 무려 1,750억 개 매개변수를 갖고 있습니다. 그러니까, 한번 연산할 때 1,750억 개 매개변수에 가중치를 다 바꾸면서 계산한다는 것입니다.

챗GPT를 이전에 생성형 인공지능과 구분짓는 특징 중 하나는 인간의 피드백을 통한 강화 학습을 했다는 것입니다.

이것을 통해서 이전에 인공지능들과 달리 비윤리적인 발언이나 해서는 안 될 말이 출현하는 빈도를 획기적으로 낮추는데 성공했습니다. 

 

 

2강 우리는 왜 챗GPT에 열광하게 되었나?
느닷없이 나타나는 능력, 인공일반지능[AGI]

 

거대 인공지능의 가장 큰 특징 가운데 하나는 ‘규모의 법칙’이다.

우리는 왜 챗GPT에 열광하게 되었나? 여기에는 이전과 확연히 다른 두가지 이유가 있습니다.

 

그 첫 번째로는 ‘느닷없이 나타나는 능력Emergent ability입니다.

거대 인공지능의 가장 큰 특징 가운데 하나는 ’규모의 법칙‘입니다. 컴퓨팅 파워를 늘릴수록, 학습 데이터 양이 많을수록, 매개변수가 클수록 거대언어 모델 인공지능의 성능이 좋아지는 것을 볼 수 있었습니다.(이 셋이 함게 커질 때 성능 향상이 더 잘된다고 합니다. 오히려 모델 간의 차이는 그리 크지 않다고 합니다) 규모를 키우는 게 무엇보다도 중요.

챗GPT의 출현을 알리는〈타임〉의 표지 제목이 “인공지능 군비경쟁이 모든 것을 바꿔놓고 있다”였던 것입니다.
군비경쟁을 하듯 규모를 키우는 시도들이 앞다투어 나타나고 있다는 것.
챗GPT가 무려 1,750억 개의 매개변수, 5조개의 문서, 1만개의 A100 GPU로 학습한 이유가 여기에 있습니다.

 

더욱 놀라운 것은 다음과 같은 현상입니다.

인공지능의 성능 측정을 위한 여러 벤치마크(Mod. arithmetic, IPA transliterate, Word unscramble, Persian QA, Truthful QA, Gronnded mappings, Multi-task NLU, Word in context) 지표들이 있는데, 언어모델 학습 과정에서의 연산량에 따른 성능 변화가 확연히 차이가 나타난다는 것. 학습 연산량이 대체로 10의 22제곱을 지나는 순간 거대언어모델의 능력이 느닷없이 치솟는 것으로 나타났는데(혹은 매개변수가 1,000억 개를 넘을 때 이런 현상이 발생한다고도 한다), 이것을 ’느닷없이 나타나는 능력‘이라고 부릅니다. 

거대언어모델은 별도의 추가 학습Fine tunning을 하지 않아도, 특정 분야에 대해 질문하면 대답을 잘 합니다. 아무런 예제 없이 묻는 질문에 답하는 것을 제로 샷 러닝, 몇 가지 예제와 함께 질문할 때 답하는 것을 퓨샷 러닝이라고 하고, 이 둘을 합해 질문 속에서 배운다는 뜻으로 인 콘텍스트 러닝이라고 부릅니다.

 

생각의 연결고리 혹은 단계적 추론

또 하나의 느닷없이 나타나는 능력 중 하나가 ’생각의 연결고리Chain of Thoughts: COT‘입니다.

단계적으로 추론하는 것을 말합니다.

어떤 질문이 주어졌을 때, 그 질문에 답을 하기 위한 중간 추론 단계들을 생각의 연결고리라고 부릅니다.

생각의 연결고리는 다음과 같은 장점을 갖었다.
첫째, 연쇄적 사고는 원칙적으로 모델이 다단계 문제를 중간 단계로 나눌 수 있게 해주기 때문에, 더 많은 추론 단계가 필요한 문제에 추가 계산을 할당할 수 있다.
둘째, 사고 연쇄는 모델의 동작에 대한 해석 가능한 창을 제공합니다.
모델이 특정 답에 어떻게 도달했는지를 들여다보고 추론 경로가 잘못된 부분을 고칠 수 있는 기회를 제공합니다.
셋째, 연쇄 추론은 수학 단어 문제, 상식적 추론, 기호 조작과 같은 작업에 사용할 수 있으며, 인간이 언어는 통해 해결할 수 있는 모든 작업에 잠재적으로 적용될 수 있습니다.
마지막으로, 생각의 연쇄 추론은 질문에 단계적 추론의 예를 포함하는 것만으로도 쉽게 도출할 수 있습니다.

 

거대언어모델의 이런 특성 때문에 ’프롬프트 엔지니어링‘이라는 새로운 분야가 생기고 있습니다.

질문을 어떻게 하느냐가 답이 매우 달라질 수 있기 때문입니다.

생각의 연결고리의 가장 놀라운 점은 이것이 일정한 크기 이상의 거대언어모델에만 나타난다는 것이다.
비슷한 모델을 사용해도 크기가 작으면 나타나지 않는다.

 

셰인 포자드라는 개발자가 정리해서 올린 '초보자를 위한 프롬프트 잘 쓰는 법'입니다.(책 참조)

늘 잘 먹히는 대표적인 프롬프트들은 다음과 같습니다.

 

“차근차근 생각해보자”처럼 단계적 추론을 유도하는 말을 덧붙이거나,

“네가 OOO(예: 생물학자, 변호사, 마케터...)라고 가정하자”처럼 역할을 부여하거나,

“ㅁㅁㅁ를 표로 만들어줘”처럼 포맷을 지정하거나,

“△△△를 요약하고 가장 중요한 여섯 가지를 나열해줘”처럼 구체적으로 일을 지정할 때 좋은 결과가 나옵니다.

 

챗GPT를 생성용 AI 그리고 대화형 AI라고 했지요. 이는 질문을 잘해야 된다는 것입니다.

챗GPT를 나보다 똑똑한 전문가/대학교수라고 생각하면 (이해가) 편합니다.

그러다보니, 질문을 어떻게 하느냐에 따라서 내가 받게 되는 피드백의 퀄러티/질이 달라집니다.

챗GPT에 대한 기본 지식을 쌓는 것도 중요하지만, 챗GPT를 어떻게 활용하느냐가 더 중요합니다.

 

그리고, 이 책에서는 영상을 하나 소개하고 있습니다.

 

-----------------------------------------------------------------------------------------------------------------------------------------------

Why AI is incredibly smart and shockingly stupid

 

왜 인공지능은 믿을 수 없을 정도로 똑똑하면서 충격적으로 멍청한가

- 워싱턴 대학의 최예진 교수의 TED 강연 -

 

영상의 내용을 간단히 요약해보면,

인공지능(AI)은 놀랄만큼 강력하지만, 그에도 한계가 있습니다. AI의 한 종류인 대형 언어 모델은 세계적인 챔피언을 이기거나 시험을 통과하는 등 인상적인 작업을 수행할 수 있습니다. 그러나 그들은 종종 작은 실수를 저지르고 상식이 부족합니다. 몇 개의 기술 회사에 권력이 집중되는 것은 이 회사들 외부의 연구자들이 이러한 모델을 완전히 검토하거나 이해할 수 없는 도전입니다. 또한 이러한 대형 모델을 훈련시키는 환경적 영향에 대한 우려도 있습니다. AI가 강건한 상식 없이 안전한지, 그리고 무차별적인 규모가 AI를 가르치는 유일한 방법인지에 대한 질문이 제기됩니다. 연사는 AI를 더 작고 더 민주적으로 만들어야 하며, 안전을 위해 인간의 규범과 가치를 가르쳐야 한다고 믿습니다. 상식은 AI 개발에서 우선순위이며, 인간의 가치를 이해하고 윤리적인 결정을 내릴 수 있도록 AI가 필수적입니다. 연사의 팀은 AI에게 기본적인 상식을 가르치기 위해 상식 지식 그래프와 도덕적 규범 저장소를 개발하고 있습니다. 또한 대형 언어 모델을 더 작은 상식 모델로 압축하는 새로운 알고리즘을 탐구하고 있습니다. 목표는 AI를 지속 가능하고 인간 중심적으로 만들기 위해 상식, 규범 및 가치를 가르치는 것입니다. AI 모델의 규모를 확장하는 것은 놀라운 성능 향상을 보여주었지만, 이 접근 방식만으로 진정한 상식을 달성할 수 있는지에 대한 의문이 여전히 남아 있습니다. 연사는 현재의 AI 모델의 한계를 극복하기 위해 데이터와 알고리즘에 대한 혁신의 필요성을 강조합니다.

 

오늘날의 AI는 믿을 수 없을 정도로 똑똑한 동시에 충격적으로 멍청하다는 것이고, 이는 엄청난 양의 데이터를 마구 집어넣어서 AI를 가르치다 보니 생긴 어쩔 수 없는 부작용이라고 말한다. 또한 최교수는 AI에게 상식을 가르쳐야 할 것이라고도 말합니다. 그녀는 세상이 어떻게 돌아가느지에 관한 상식적인 이해를 가르치지 않고서는 인공지능이 제대로 작동할 수 없을 것이라고 단언도 했습니다.

 

-----------------------------------------------------------------------------------------------------------------------------------------------

 

사람과 기계를 자연어로 이어주는 사상 최초의 유저 인터페이스

우리가 쳇GPT에 열광하게 된 또 다른 이유는 이것이 사상 최초로 사람이 평소에 쓰는 말(자연어Natural Language)로 기계와 대화할 수 있게 만들어주었다는 것입니다. 즉, 처음으로 나타난 자연어 인터페이스라는 것.

챗GPT로 인해 사람에게 하듯이 자연어로 컴퓨터에게 일을 시킬 수가 있게 된 것이다.

 

그리고, 챗GPT는 잠재된 패턴이 있는 일을 잘한다고 합니다.

거대언어모델의 경우 어마어마한 양의 정제한 데이터를 가지고 100일 안팎의 학습을 해야 합니다. 그러다보니 학습이 시작된 이후의 최신 정보들에 대해서는 지식이 없습니다. 배우지 못한 것입니다.

그래서 최신 뉴스에 대한 답변을 잘 못합니다. 숫자 계산에도 약하구요.
그런데, 챗GPT가 계산기를 쓰고, 검색엔진을 쓸 수 있게 된다면 어떨까요? 즉, 도구를 쓰게 된다면 어떻게 될까요?
> 실제로 그런 일이 일어났습니다. 오픈AI가 내놓은 플러그인이 바로 챗GPT가 도구를 쓸 수 있도록 해준 것입니다.
쉽게 말해 우리가 챗GPT에게 일을 시키면, 챗GPT가 플러그인된 프로그램들을 불러다 일을 시킨 후 그 결과를 다시 사람에게 전달하는 것입니다.
>> 세계적인 IT 미디어 〈와이어드〉의 편집장인 케빈 켈리는 그래서 현재와 같은 거대언어모델 인공지능이 '범용 인턴'이라고 말합니다. 온갖 분야의 일을 시킬 수 있는 인턴과 같다는 것입니다.
>>> 인턴보다 낫지 않을까요? 요즘 인턴에게 아무일이나 막 시킬 수 있나요? 아무리 인턴이라지만...

 

플러그인의 건너편에는 API(Application Programming Interface)가 있습니다. API는 프로그램 간의 규약입니다.
'이 API를 써서 나에게 요청하면 정해진 포멧에 따라 데이터를 주거나 혹은 미리 약속된 행위를 하겠다'는 것입니다. 
이런 API를 쓰면 사람이 개입하지 않고도 컴퓨터 간에 자동으로 정해진 데이터를 받거나 정해진 결과를 얻을 수 있습니다.
자동화가 가능해진 것. 이게 API의 힘입니다.

 

공공데이터를 공개할 때 반드시 API를 함께 만들어서 공개하라고 하는 것이 바로 이 때문.(효율이 비할 바 없이 높아집니다)

쳇GPT와 GPT-4도 API를 공개했습니다. 세상의 모든 소프트웨어 회사들이 이것을 통해 챗GPT와 GPT-4를 쓸 수 있게 된것.(물론 돈을 내야 합니다)

챗GPT가 바깥의 도구를 가져다 쓰는 게 플러그인이라면, API는 바깥의 프로그램과 서비스들이 챗GPT 혹은 GPT-4를 가져다 쓸 수 있는 것이다.

 

챗GPT의 그늘 아래에서 언제 대체될지 모를 위험을 바깥에서 굶어 죽을지도 모를 위험을 감수할 것인가?


API도 마찬가지다. 요즘은 많은 중소 AI 전문 기업들과 스타트업들이 고민에 휩싸여 있다. 자신들이 그간 해왔던 연구 개발이 설 자리를 잃고 있기 때문이다. 거대 언어 모델은 앞에서 설명한 것처럼 파운데이션 모델이다. 별도의 파인 튜닝을 하지 않아도 많은 분야에서 아주 뛰어난 답을 내놓는다. 게다가 이들이 내놓는 API를 쓰면 언제든지 챗GPT와 GPT-4의 답을 받아올 수 있다.

 

 

3강 열려버린 판도라의 상자
AI의 확산, 그리고 필연적으로 도래할 충격들

 

게리 마커스(신경과학자)의 다섯가지 걱정

제프리 힌턴, 스튜어트 러셀 등 많은 인공지는 과학자들이 드디어 공개적으로 경고하기 시작했습니다.

신경과학자인 게리마케스는 이런 상황과 관련해 다음과 같은 다섯가지 우려를 밝혔습니다.

1. 극단주의자들이 어마어마한 허위 정보를 생성해 민주주의와 공론을 쓸어버릴 것이다.

2. 환각은 잘못된 의료 정보를 생성할 것이다.

3. 콘텐츠 팜(Contents farm)들이 광고 클릭을 위해 사실과 상관없이 자극적인 내용을 생성할 것이다.

4. 챗봇은 일부 사용자들에게 감정적인 고통을 유발할 수 있다.

5. 남용으로 인해 웹 포럼과 피어리뷰(peer review) 사이트를 봉괴시킬 것이다.

 

오리지널의 실종

거대한 생성형 인공지능이 대세가 되면 우리는 어떤 것들을 보고 겪게 될까요?

미래를 다 예측하긴 어렵지만, 분명해 보이는 여러 가지 일들 중 첫 번째는 바로 ‘오리지널의 실종’입니다.

 

자연 독점

2020년 12월 구글에서 인공지능의 윤리를 연구하던 팀닛 케브루가 해고를 당합니다.

회사에서 발표하지 말라고 한 논문을 공개했다는 이유였습니다.

논문의 제목 <확률적 앵무새의 위험에 대하여 : 언어모델은 너무 커져도 좋을까?>

‘확률적 앵무새Stochastic Parrots’는 나중에 거대언어모델을 지칭하는 대표적인 표현이 되었습니다.

팀닛은 이 논문에서 네 가지 위험성을 지적합니다.
첫 번째는 환경적‧재정적 비용
대규모 인공지능 모델을 구축하고 유지하는 데는 천문학적인 비용이 듭니다.
두 번째는 거대언어모델이 이해할 수 없는 모델이라는 것입니다.
엄청나게 방대한 데이터를 학습할 수 밖에 없는데, 여기에 어떤 왜곡된 내용과 편견이 들어가 있는지를 알 수 없습니다.
거대언어모델은 필연적으로 인터넷에 대한 접근성이 낮고 온라인에서 언어적 영향력이 작은 국가와 민족의 언어와 규범을 포착하지 못할 것이라는 점입니다.
즉, 이런 거대언어모델들이 생성한 답들은 가장 부유한 국가와 커뮤니티의 관행을 반영하여 동질화할 수 밖에 없습니다.

세 번째는 연구의 기회비용입니다.
거대언어모델이 이런 결함에도 불구하고 어쨌든 그럴듯한 결과를 내놓는 탓에 모든 연구들이 이런 거대언어모델로 쏠리고 있다는 것입니다. 다른 훌륭한 연구들이 예산을 받지 못해 기회를 잃고 있습니다.
네 번째는 할루시네이션입니다.
거대언어모델은 트랜스포머라는 모델의 특성상 이런 '환각'으로부터 자유롭지 못합니다.

 

오염된 데이터, 오염된 결과

이미지넷은 세계 최대의 오픈소스 이미지 데이터베이스입니다.

그런데 2019년 이 데이터베이스의 사람 분류 항목에 다음과 같은 이름표들이 붙어 있었습니다.

재소자, 낙오자, 실패자, 위선자, 루저, 우울증 환자. 허영주머니, 정신분열증 환자, 이류 인간...

그러니까 이 데이터는 사람의 얼굴만 보면 그가 이류인간인지 아닌지, 허영주머니인지 아닌지를 알 수 있다고 인공지능에게 가르쳐온 것입니다. 대단한 편건이 아닐 수 없습니다.

 

잘못된 학습, 차별의 재생산

인공지능은 ‘잠재된 패턴’을 찾아내는 일을 합니다.

그러다보니, 성별, 인종 등의 데이터를 담지 않아도 유추할 수 있는 다양한 경로를 가지고 있습니다.

예를 들어, 거주지가 백인 부유층이 모여 사는 곳이거나, 흑인들이 모여 사는 곳일 경우

인공지능은 예전의 신용평가 데이터를 학습합니다. 따라서, 예전에 남/여를 차별해서 신용평가점수를 매겨왔다면 인공지능은 당연히 잠재된 패턴에 따라 차별이 담긴 결과를 내놓습니다.

 

잊힐 권리와 지적재산권 침해

챗GPT가 데이터를 학습에 사용한 방식에 몇 가지 문제가 있다.

첫째, 오픈 AI가 데이터를 사용할 수 있는지 여부를 묻는 질문이 없었습니다.

데이터가 공개적으로 사용 가능한 경우에도 함부로 데이터를 사용하면 ‘맥락 무결성’이라는 원칙을 위반할 수 있습니다.

둘째, 오픈 AI는 개인이 자신의 개인정보를 저장하고 있는지 확인하거나 삭제를 요청할 수 있는 절차를 제공하지 않습니다.

셋째, 챗GPT가 학습한 스크랩 데이터는 독점적이거나 저작권이 있을 수 있습니다.

넷째, 챗GPT는 사용자가 입력한 프롬프트를 저장합니다. 여기서 기밀이 새어나갈 수 있습니다.

 

 

4강 몸에 대한 실험, 마음에 대한 실험
미디어는 메시지다

 

미디어는 메시지다 : 새 미디어가 부를 거대한 변화

세계적인 미디어 학자 마셜 매클루언은 1964년에 펴낸 불후의 명저 《미디어의 이해》에서 “미디어는 메시지다”라고 말합니다.

미디어 자체가 가리키는 분명한 변화의 방향이 있다는 것입니다. 즉, 미디어 자체가 가장 큰 메시지라는 뜻시지요.

예를 들어 매스미디어(대중매체)를 생각해봅시다. 매스가 있고, 거기에 대응해 미디어가 나타난 것으로 생각하는 게 상식적일 것입니다. 하지만 메클루언에 따르면 매스미디어가 먼저입니다.

같은 뉴스를 보고, 같은 유행의 옷을 입고, 같은 취향을 갖게 된 다수를 일컫는 ‘매스’, 즉 대중은 매스미디어가 출현하고서야 비로소 생겨날 수 있었다는 것입니다. 그 전까지는 그럴 수 있는 경로가 없었던 것이지요.

 

변화의 가장 큰 메시지는 미디어 그 자체입니다.

새로운 미디어는 그 특성에 따라 분명한 사회변화의 방향을 지시합니다. 그러니 우리가 실제로 봐야 할 것은 미디어에 담긴 메시지가 아니라 미디어 그 자체가 던지는 메시지라는 것입니다.

 

페이스북은 알고 있었다 _ ‘좋아요’는 1점. ‘화나요’는 5점

타임라인에 어떤 피드를 보여줄 것인가는 전적으로 페이스북의 알고리듬이 결정합니다. 그 기준을 이렇게 다시 정리한 것입니다.

중요한 것은 좋아요, 즉 Like 버튼은 1점이지만, 화나요는 5점이라는 것입니다. 단순히 Like 버트만 누르는 것보다는 화나요, 슬퍼요 같은 버튼이 관여가 더 깊데 된 상태라고 페이스북은 판단한 것이었지요. 그리고, 공유가 ‘좋하요’보다 서른 배나 점수가 높았습니다.

하지만 회사 내부에서는 직원들이 이러한 변화가 정반대의 효과를 가져오고 있다고 경고했다고 문서에 나와 있습니다. 폐이스북 플랫폼이 더 화난 곳으로 변화고 있다는 것이지요. 페이스북 연구원들은 게시자와 정당이 분노와 선정주의 쪽으로 게시물의 뱡향을 바꾸고 있다는 사실을 발견했습니다. 이렇게해아 더 많은 댓글과 공유를 이끌어낼 수 있기 때문입니다.

 

알고리즘 하나로 망가진 한국 언론

네이버는 포털에 기사를 올리는 언론 매체에 광고 수익을 나눠주는데, 그 중요 기준 하나가 ‘클릭을 많이 받는 것’입니다.

네이버의 광고 수익 배분 알고리듬은 기사를 많이 올리고 클릭을 많이 받을수록 광고 수익을 많이 나눠 갖도록 만들어졌습니다.

한국의 신문들이 왜 하루에도 다섯 번씩 〈데일리메일〉을 인용하는지 답이 나옵니다.

미디어는 메시지입니다. 새로운 미디어는 돌이킬 수 없이 분명하고 근본적인 변화를 지시합니다.
인공지능은 소셜미디어에 비할 바 없이 위력적입니다. 발전 속도도 인류 역사상 이런 기술이 있었을까 싶을 정도로 빠릅니다. 오죽하면 생물종이 폭발적으로 나타났던 캄브리아기에 빗대어 요즘을 인공지능의 캄브리아기라고 부르기도 합니다.

 

인공지능, 신이 될 것인가? 사탄이 될 것인가?

인공지능은 인간의 마음을 향한 실험. 우리 삶의 모든 부분을 건드린다. 앞서 보았듯이 지금의 인공지능은 크면 클수록 성능이 좋다는 규모의 법칙이 적용된다. 자연 독과점이다. 그만큼 거대한 인공지능을 다룰 조직과 전문가의 수는 점점 더 적어질 수 밖에 없다.

> 사회에 끼칠 영향, 해서는 될 일과 안 될 일, 그리고 장기적 파급효과에 대한 제도적 변화의 방향 등을 한 줌의 전문가들이 모두 헤아릴 순 없다. 이러한 일들을 소수의 인공지능 전문가들에게만 맡겨두어선 안 된다.

"우리 후손들은, 우리가 아직 잘 이해하지 못하는 어떤 끔찍한 일을 했다는 것을 알게 될 것입니다."
"현재 세대의 AI 도구가 아직은 그렇게 무섭지 않지만, 잠재적으로 무서운 도구에서 그리 멀지 않았다고 생각합니다."
"인공지능 도구의 사회 통합이 빠르게 이루어질 것이며, 세상이 적응할 시간이 필요합니다."
"인공일반지능이 만약에 고장 나면 무엇인가 다른 조치가 필요할 수 있습니다. 이 때문에 특정 회사가 이런 AI를 소유해서는 안 됩니다."

챗GPT를  만든 오픈AI의 CEO 샘 알트먼

 

> 미국 정부는 가장 강력한 인공지능 시스템을 개발하는 기업을 위한 라이선스 제도를 만들 필요가 있다.

   "라이선스 및 테스트 요건의 조합"이 "일정 수준 이상의 기능을 갖춘 AI 모델의 개발 및 출시"에 적용될 수 있다는 것.

   '인공지능 안정성 테스트'를 도입하고, 새로운 모델에 대해 독립적인 전문가의 감시를 받게 해야한다.

   그리고 국제적인 연대의 필요성도 강조하고 있다. 

 

 

5강 인류는 어떻게 대응해야 하는가?
신뢰할 수 있는 인공지능을 향하여

 

공론화: 독일의 녹서와 백서

신뢰할 수 있는 인공지능을 위하여

2020년 1월 하버드대학 버크만 센터에서 〈인공지능 준칙 백서〉
프라이버시/책임성/안전과 보안/투명성과 설명 가능성/공정성과 차별 금지/인간의 기술 통제/직업적 책임/인간 가치 증진
전 세계적으로 인공지능의 윤리와 관련하여 다투는 핵심 주제는 대체로 이 여덟가지인데, 이 여덟가지에 제대로 답할 수
있다면 우리는 안전한 인공지능을 항한 첫번째 발검을을 뗄 수 있다는 뜻~ 

 

로마교황청, 인공지능 윤리를 요청하다

유럽연합의 인공지능법

미국 알고리듬 책무법안 2022

 

한국은 어떻게 대응하고 있나?

대한민국 정부가 하지 말아야 할 일과 해야 할 일

 

생성형 AI가 가져올 변화를 직시하라.

 

기업이 아닌 개인은 어떻게 대처해야 할까? 각자가 관심을 가지고 있는 분야와 산업은 모두 다를 것이다.

당신은 생성형 AI가 우리와 우리 주변에 일으키고 있는 변화를 실감하고 있는가?

 

역사는 언제나 반복된다.

변화의 순간을 직감하고 이를 내 것으로 삼는 사람에게는 기회가 될 것이지만 변화에 무관심하거나 흐름을 막으려 하는 사람에게는 파도에 밀려가는 위기가 될 것이다.

 

혁신기술의 등장은 지금껏 시장에 수많은 비즈니스의 기회를 창출함과 동시에 기존 영역의 타격을 주기도 했다.

새로운 고부가 직업이 생겨나기도 했지만 한편으로 사라지는 직업도 늘어났다.

 

생성용 AI는 거대한 전환의 순간을 가져왔다. 이런 파도는 언제 또 올지 예측할 수 없다. 인터넷이 등장하며 주어졌던 기회에 무감각했다면, 스마트폰이 등장하면서 다가왔던 빅테크의 기회를 놓쳤다면, 이번에는 놓치지 말기를 바란다.

이 거대한 전환을 기회로 잡아 새로운 주인공이 될지 아니면 또다시 다른 사람의 성공을 감상하고 있을지는 전적으로 우리의 선택에 달렸다. 기회와 위기는 모든 산업분야에서 그리고 정말 다양한 방식으로 다가오고 있다. 우리는 모두 선택의 중간에 서 있다.

 

디지털화에도 불구하고 미래에도 거의 모든 인간들이 직장이 가지게 될 것인가?

인공지능과 로봇이 사람들의 일자리를 모두 빼앗아버릴 것라는 예측이 많습니다. 그러므로 이 질문의 뜻은 다음과 같습니다.

‘인공지능과 로봇이 발달하더라도 사람들이 여전히 자신들이 하고 싶어 하는 일을 하면서 살 수 있으려면 어떻게 해야 하는가?’

 

 

 

여기까지 정리해보도록 하겠습니다.

 

 

 

아직, AI관련 서적을 한 권도 읽어보지 않으신 분이라면, AI 입문서로 조심스럽게 추천드립니다.

 

미래소년입니다.

 

기술적 한계
정확도와 할루시네이션

챗GPT가 생성한 답변이 100% 사실이라고 믿어서는 안 된다. 챗GPT와 같은 생성형 AI는 확률적으로 적절한 대답을 생성하는 것이지 그것이 항상 정확한 사실을 담보하지는 않는다. 특히 챗GPT는 현재 2021년까지의 데이터만을 학습한 상태이기 때문에 2021년 이후에 일어난 사건이나 데이터에 대해서는 정확한 답변을 줄 수가 없다.
팩트 체크가 필요한 사항이라면 아직은 검색 엔진 등 다른 검색 도구를 사용하는 것이 더 정확하다. 이러한 정확도의 문제도 차차 개선될 것으로 보인다.
실제로 새롭게 개편된 마이크로소프트의 검색 엔진 ‘빙’에 적용된 챗봇은 최신 데이터를 활용해 답변을 제공하고 있다.

할루시네이션
하지만 그보다 주의해야 할 문제는 할루시네이션Hallucination이다. 직역하면 ‘환각’이라는 뜻으로, AI 모델이 아예 현실에 근거하지 않거나 사실적 근거가 부족함에도 불구하고,이를 사실인 것처럼 이야기하는 것을 의미한다. 쉽게 말해 AI가 설득력 있게 들리는 거짓말을 한다는 것이다.

 

 

 
박태웅의 AI 강의
2022년 말 GPT-3.5를 기반으로 한 챗GPT가 출시되었다. 그리고 모두가 알다시피 올해 초부터 이 대화형 인공지능에 대한 관심이 폭발했고, 그 열풍은 지금까지 이어지고 있다. 인간보다 더 빠르게 글을 써내는 능력에 열광하는 한편으로, 이러다 내 일자리를 정말 기계에 빼앗기는 건 아닌가 하는 공포심, 그리고 도대체 생성형 AI가 뭐길래 이 난리인가 하는 의구심까지, 놀라움과 두려움, 환호와 충격 등등 여러 감정이 마구 뒤섞이는 상황이다. 쓰나미에 비견되는 이 같은 상황에서 유튜브에 올라온 박태웅의 인공지능 특강은 모든 이의 혼란스러운 감정을 해결해주었다. “이제야 인공지능이 뭔지 알겠다”, “귀에 쏙쏙 박힌다”, “돈 주고도 못 들을 강의다”, “가장 이해하기 쉬운 콘텐츠였다”, “개발자도 들어야 할 강의다”, “쉬운데 깊이가 있다” 등등의 찬사가 쏟아진 것이다. 유튜브 특강만이 아니다. 방송을 비롯한 여러 매체에 그가 내놓은 인공지능 해설과 비평은 많은 이들의 공감을 불러일으켰다. 정말 필요로 하는 내용, 궁금한 내용을 정확히 짚어서 명쾌하게 풀어주었기 때문이다. 하지만 이것으로는 부족했다. 많은 사람들은 그의 말과 글이 정리된 콘텐츠를 원했고, 그 요청에 부응하고자 《박태웅의 AI 강의》가 출간되었다. 특히 이 책에는 저자가 그동안 미디어에서 다루지 못했던 전문적인 내용도 담겨 있다. 100개에 가까운 해외 논문과 문서, 최신 뉴스들을 분석하여 깊이와 전문성을 더한 것이다. 그리하여 이 책은 ‘쉬우면서도 깊이 있는 지식’을 원하는 독자들의 요구를 100% 충족하고 있다.
저자
박태웅
출판
한빛비즈
출판일
2023.06.20

 

728x90
반응형
LIST