1.1 자연어 처리 발전의 주요 이정표
‘OK Google’, ‘Siri’, ‘Alexa’ 등이 음성 기술을 활용한 디지털 서비스, 스마트폰의 자동 통화 녹음 및 요약 기능, 실시간 대화 번역 등 자연어처리, 인공지능의 기술은 생활 속 깊이 자리를 잡고 있다. 이 외에도 ChatGPT, Midjourney와 같은 이미지 생성들도 존재하며 편의성과 생산성을 높이고 있다.
이러한 AI 기술은 복잡하고 다층적인 특성을 가지기에 접근하기에 어렵지만 각각의 기술이 어떤 배경에서 탄생했고, 왜 필요했는지를 이해하면 현재의 인공지능의 기술 핵심원리, 한계 그리고 발전 가능성을 더 깊이 파악할 수 있다.
다음은 인공지능 발전의 발전의 중요한 이정표가 된 논문 세 편이다.
- Computing Marchinery and Intelligence - 앨런 튜링
- The Perceptron : A Probabilistic Model for Information Storage and Organization in the Brain - 프랭크 로젠블랫
- Learning Representations by Back-Propagating Errors - 데이비드 루멜하트, 제프리 힌튼, 로널드 윌리엄스
1.2 초기 기계 번역의 역사와 전환점
AI와 NLP의 역사는 2차 세계대전을 거치면 중요한 전환점을 맞이 했다. 기계 번역과 암호 해독 기술이 컴퓨터의 등장 없이도 발전하였다.
1.2.1 아르츠루니와 트로얀스키의 연구
전쟁 중 암호 해독의 중요성이 부각되면서 언어간 자동 번역에 큰 관심도가 생겼다. 이후 조지 아르츠루니와 피터 트로얀스키라는 두 연구자는 기계를 이용한 자동 번역의 개념을 제안하였다. 이러한 제안은 현대 기계 번역 기술의 초석을 다지게 되었다.
기계적 두뇌
조지 아르츠루니는 1933년 기계적 두뇌라는 획기적인 발명품을 선보이며 최초의 기계번역 시스템을 만들었다. 이 장치는 단순한 기계가 아닌 자동화된 다국어 사전의 역할을 수행하였다.
<사진>
동작
위 발명에서는 종이테이프를 주요 매체로 활용했다는 점을 중심으로 봐야 한다.
다음과 같은 동작을 수행한다.
- 종이테이프에 단어들을 저장한다.
- 필요할 때마다 검색하는 방식으로 현대의 검색 시스템의 초기 형태가 되었다.
한계점
기계적 수단으로서의 중요한 의미를 가졌지만 실제 번역 과정에서는 단순한 단어 치환의 방식에 그치지 못하였고 문법, 문맥을 충분히 고려 못하는 한계가 존재하였다. 즉, 완전한 자동 번역에는 미치지 못한 것이였다.
트로얀스키의 기계
이후 피터 트로얀스키는 기계 번역에 대한 더욱 정교한 접근 방식을 제안한다. 한 언어에서 다른 언어로, 또는 여러 언어로 동시에 번역할 수 있는 장치로 타자기, 옛날 필름 카메라, 그리고 네 가지 언어로 작성된 카드를 결합해 사용하였다.
동작
다음과 같은 동작을 수행한다.
- 각 문장에서 단어를 순서대로 선택한다.
- 선택된 각 단어에 대해 해당 언어의 카드를 찾아 카메라로 그 카드의 사진을 찍습니다.
- 그다음, 타자기로 해당 언어의 문법적 특징(명사, 형용사, 소유격 등)을 입력한다.
타자기의 각 키는 특정 문법적 특성을 나타내고, 카메라의 필름과 타자기의 테이프가 동시에 작동해 단어와 그 문법적 정보를 담은 프레임을 생성한다.
한계
단어를 순차적으로 처리하기에 전체 구조와 문맥을 파악하기에 부족하였다. 이로 인한 사람의 추가적인 문맥 파악, 검토가 필요하였다.
1.2.2 위버의 제안과 조지타운-IBM 실험
1947년 미국의 수학자 워렌 위버의 기계 번역 연구의 제안은 본격적인 AI 연구의 기틀이 되었다.
1949년 위버는 언어 번역 문제를 정보 이론의 관점에서 제안하였고 기계 번역의 중요한 이정표가 되었다. 해당 아이디어로 컴퓨터가 인간의 언어를 이해하고 번역할 수 있는 가능성을 크게 확장하였다.
이후 1954년 조지타운-IBM 실험의 이정표가 되어 실험이 수행되었고 해당 실험에서는 다음의 성공을 이루 었다.
- 60개 이상의 러시아어 문장을 영어로 완전 자동 번역
- 기계 번역 기술의 가능성을 실험적으로 입증
이후 후속 연구의 방향성을 제시하며, 다양한 기계 번역 접근 방식의 기초가 되었다.
1.2.3 초기 기계 번역의 한계와 새로운 전환
기계 번역 기술의 발전에 비해 당시의 컴퓨팅 기술은 한계점에 도달했다. 그 이유는 컴퓨터의 처리능력, 메모리 용량이 상당히 제한적이였고 언어 처리에 필요한 복잡한 알고리즘을 실행하지 못하였기 때문이다.
그 예시로 대 규모 언어 데이터의 저장, 처리의 현실적인 가능성, 문맥을 고려한 정교한 번역 작업의 수행은 당시의 컴퓨터의 성능으로는 불가능하였다.
위의 이유로 초기 기계 번역 시스템은 단순 언어 대 단어 번역, 기본적인 문법 규칙에 의존한 번역만 수행하였다. 그러나 이러한 한계는 기계 번역의 품질, 실용성의 중요성에 큰 영향을 끼치고 연구자들은 이를 극복하기 위해 노력하게 되었다.
[!기계가 생각할 수 있을까?] > 앨런 튜링의 Computing Machinery and Intelligent 논문에서의 혁신적인 질문이다. 이는 기계가 인간과 유사한 지능을 가질 수 있을까?에 대한 문제 제기로 인공지능의 본질과 가능성에서 더 나아가 철학, 종교학, 공학 등 다양한 학문 분야에서 큰 반향을 일으키게 되었다. 이러한 문제 제기는 현대 인공지능과 직접적으로 연결되기에 그의 주장을 살펴보는 것은 인공지능의 발전에 매우 중요하다.
1.3 인공지능의 시작
인공지능은 위의 질문(기계가 생각할 수 있을까?) 라는 흥미로운 질문에서 비롯된다.
해당 질문이 담긴 앨런튜링의 논문은 24710번이나 인용될 정도로 인공지능 분야에 큰 영향을 미쳤고, 인공지능 연구의 시작점이 된다.
그렇기에 이 질문의 의미와 인공지능 분야에 미친 영향에 대해 자세히 살펴보는 것은 중요하다.
1.3.1 튜링의 질문: 기계는 생각할 수 있는가?
1950년 당시 해당 질문은 큰 논란이 되었다. 당시에는 많은 사람들이 기계를 주로 공장과 산업에서 사용되는 생산을 위한 도구로 여겼다. 그렇지만 튜링이 정의한 기계는 모든 공학 기술을 사용하고, 내부 작동 원리를 몰라도 기계로 간주할 수 있으며, 사람은 제외하고, 저장, 실행, 제어 기능을 갖춘 것으로 정의하였다. 즉, 단순 물리적 장치가 아닌 입력을 받아 출력을 하는 생각하는 시스템으로 정의한 것이다.
이러한 튜링의 제안은 당대의 철학, 과학, 종교 분야에서 큰 반항을 일으켰다. 그는 지능이나 사고를 명확하게 하려기보다 기계가 인간과 유사한 방식으로 행동할 수 있는지를 평가하는 것이 더 중요하다고 여기는 즉, 사고의 개념에 대해 철학적 논의보다 실용적인 접근을 선호했기 때문이다.
튜링이 기계에 대하 주장한 바를 한 문장으로 정리하면 다음과 같다.
기계가 인간과 구별되지 않는 방식으로 행동할 수 있다면, ‘그 기계는 생각하고 있다.‘라고 볼 수 있다. 즉, 생각하는 능력을 기계의 행동으로 평가할 수 있다.
튜링 테스트
위의 주장으로 설게한 실험으로 모방 게임으로도 잘 알려져 있다.
해당 게임은 질문자, 응답자, 기계 응답자로 구성되며 질문자의 목표는 두 응답자에게 질문하며 누가 인간이고 누가 기계인지 식별하는 것이다.
다음과 같이 진행된다.
- 일정 시간 동안 질문과 답변이 이루어진다. 이때, 질문과 응답은 서면으로 이루어진다.
- 질문자가 기계를 인간으로 착각하게 할 정도로 기계가 충분히 유사하게 응답한다면 그 기계는 튜링 테스트를 통과했다고 간주한다.
1.3.2 튜링 테스트의 한계
인공지능의 생각하는 능력을 평가하는 새로운 방향을 제시했지만, 언제나 새로운 연구는 새로운 논쟁, 비판을 양산하기에 다음의 논란들이 존재하였다.
- 해당 테스트의 목표는 기계의 외면적인 응답 능력만을 평가하기에 기계가 실제로 생각하는 능력이 있다고 판단하기엔 무리라고 보기도 하였다.
- 인간의 지능을 모방하는 능력에 초점을 맞추고 있어, 진정한 이해나 의식의 존재 여부를 판단하기에 한계가 존재한다는 평가가 존재했다.
- 언어적 상호작용만으로 지능을 평가하는 것이 충분한지에 대한 의문이 제기되었고, 감정, 창의성, 감각 지각 등 지능의 다른 중요 요소들을 고려하지 않았다는 비판이 있다.
위 한계점들로 인해 기계까 단순히 규칙을 따르는 것이 아니라 실제로 이해하고 학습할 수 있는지에 대한 근본적인 질문이 중요해졌다.
즉, 이러한 과거에서 우리가 이해해야할 근본적인 질문은 인공지능은 어떻게 학습하는가? 이다. 초창기에 인공지능을 어떻게 학습시키고, 학습에 대한 어떤 영감을 얻었는지 살필 필요가 있다.
[!튜링테스트와 AGI] > 최근의 언어 모델인 Open GPT-4, Claude, Grok, Gemini-pro 들은 튜링 테스트와 유사한 상황에서 상당히 인간과 유사한 대화를 한다. 실제로 고민상담을 하는 사람도 존재한다… 그렇지만 이러한 모델은 튜링이 제시한 ‘기계적 사고’의 개념의 틀에서 벗어나지 못했다고 볼 수 있다. 즉, 언어적 사아호작용을 넘어선 진정한 이해와 학습 능력에 대한 근본적인 질문을 여전히 남기고 있다. > 그럼에도 튜링의 ‘기계도 생각할 수 있는가?’ 라는 질문은 연구의 이정표에 큰 역할을 수행하였고, 후대의 언어모델을 생성하는데 크게 기여하였다. 이러한 맥락속 구글의 AGI 개념을 이해하는 것이 인공지능 개발에 중요한 기초가 된다. > AGI란 특정 작업에 국한되지 않고 인간과 같은 일반적인 지능을 갖춘 인공지능을 의미한다. 점진적으로 인간의 지능에 근접하고 초월할 방법에 대해 다음 5단계로 제시한다. > 1. 유망한 AGI : 챗 GPT와 같이 특정 작업에서 인간 수준의 성능을 보이기 시작하는 AI > 2. 능숙한 AGI : 아직 달성되지 않았지만, 다양한 작업에서 숙련된 인간 수준의 성능을 보이는 AI > 3. 전문가 AGI : 고도의 전문 지식과 기술을 요구하는 작업에서 인간 전문가 수준의 성능을 보이는 AI > 4. 거장 AGI : 특정 영역에서 거의 모든 인간을 능가하는 성능을 보이는 AI > 5. 초인 AGI(초지능) : 모든 영역에서 인간을 초월하는 성능을 보이는 AI > > 위 개념과 단계들은 튜링이 제안한 질문에서 한 걸음 더 나가려는 것으로 한 가지 일만 잘하는 인공지능이 아닌, 사람과 같이 여러 상황에 맞춰 배우고 적응할 수 있는 폭넓은 지능을 목표로한다.
1.4 인공지능은 어떻게 학습하는가?
인공지능은 인간의 뇌를 모방하려는 시도에서 시작해 발전하였다. 해당 부분에 대해서 가장 영향을 끼친 것은 Perceptron이 큰 영향을 끼쳤다.
1.4.1 인공지능의 학습 메커니즘 발전 과정
인공지능의 학습 능력은 단순 수학적 모델에서 시작해 점점 더 복잡하고 효과적인 방법으로 발전했다.
신경망 모델
1943년 워런 맥컬록과 윌터 피츠는 수하고가 임계 논리를 기반으로 한 신경망 모델을 제안한다.
[!임계 논리] > 특정 조건이 충족되면 반응을 하고, 그렇지 않으면 바응하지 않는 단순한 결정 방식
해당 모델은 다음과 같이 구성된다.
- 뉴런 : 전기 스위치 처럼 작동하여 활성화, 비활성화로 나뉜다.
- 입력 신호 : 자극을 주기 위한 신호이다.
- 출력 : 뉴련의 활성화 여부로 입력 신호의 합이 임곗값을 넘으면 활성화(1), 넘지 않으면 (0)이라는 단순한 신호를 출력한다.
단순하면서 혁신적인 해당 개념은 실제 뇌의 신경 세포의 정보 처리를 기반으로 만들어 졌다.
헤비안 학습
1949년 도널드 헤브가 제안한 내용으로 함께 활동하는 뉴런들은 서로 더 강하게 연결된다라는 원리에 기반하여 마치 우리가 반복해서 함께 하는 활동을 통해 그 활동을 더 잘하게된다는 이론을 제안한다. 더 나아가 뉴런들이 지속적으로 함께 활성화되면 그들 사이의 연결이 장기적으로 강화되는 장기 강화 학습을 정립한다.
위 내용들은 뇌의 학습에 대한 이해도를 높이고 현대 인공지능 학습의 기초가 된다.
MIT 실험
1954년 팔리와 웨슬리 클라크는 헤브의 이론을 바탕으로 실제로 테스트하고 최초로 컴퓨터를 활용한 계산 모델을 만든다. 즉, 컴퓨터 안에 인공 신경망을 생성하여 그 작동 방식을 관찰하는 것이다.
해당 실험은 신경망의 학습 과정을 더 깊이 이해하게 해주고, 이후 인공지능 분야에서 컴퓨터를 이용한 시뮬레이션이 중요한 연구 방법으로 자리 잡는 데 크게 기여한다.
퍼셉트론
1957년, 프랭크 로젠블랫은 현재 인공신경망의 핵심이 되는 퍼셉트론을 개발한다. 이를 코넬 항공 연구소에서 실제 하드웨어로 구현하였고 1958년에는 퍼셉트론의 개발 과정, 작동 원리에 대한 논문을 발표하고 현대 인공신경망과 딥러닝의 기초가 되었다.
1.4.2 퍼셉트론 : 인공지능 학습의 첫걸음
로젠블랫의 연구는 위의 기본이 되는 학습에 앞서서 정보의 저장 방식과 저장된 정보가 인식과 행동에 미치는 영향에 초점을 맞춘다. 특히, 기존의 정보 저장 모델이 지나치게 단순하고 정적인 문제를 지적한다.
연결주의 접근법
로젠블랫이 제시한 퍼셉트론은 연결주의 접근법을 따른다.
[!연결주의 접근법] > 정보는 고정된 형태로 저장되어 필요할 때마다 동일한 방식으로 인출되는 코드화된 기억방식이 아닌, 활성화된 뉴런들 사이의 새로운 연결 또는 경로를 통해 저장되고, 이는 뉴런 간의 연결 강도로 표현된다. > 다음의 특징을 가진다. > - 특정 자그고가 반응 사이의 확률적 관계를 학습한다. > - 연결이 정적이지 않고 경험에 따라 변한다. > 위 두 특징을 이용해 로젠블랫은 보다 유연하고 적응력 있는 인공 신경망 모델을 개발하였다.

위의 연결주의 접근법에 맞추기 위해 기호 논리학, 불 대수와 같은 방식은 적합하지 않았고, 연결을 찾기 위해서는 통계적 접근 방식을 적용하였다. 이는 신경망의 확률적인 특성을 고려한 것으로, 무작위로 연결된 신경망의 신뢰성 있는 작동을 설명한다.
실제로 로젠블랫은 위의 개념을통해 시각 신경망을 연구하고 역치 이상의 자극이 왔을 때 활성화 되는 현상을 관찰했다고 한다.
자발적 조직화
위의 접근 방식을 이용해 퍼셉트론은 실제 신경망을 모방하고 학습하고 적응하였고 인공 신경망 발전의 초석이 되었다.
예를 들어 ‘밥을’ 이라는 단어가 입력으로 온 경우 시스템은 해당 단어의 통게적 패턴을 파악한다. 이후 ‘짓다’, ‘벅다’, ‘주문하다’ 등과 같은 자주 사용되는 단어를 담은 노드들이 활성화되고 이것이 임곗값을 넘으면 출력되는 것이다.
이러한 선택적 활성화 과정의 현상을 자발적 조직화라고 명명하였다.
선형적 분리
퍼셉트론이 두 종류의 입력을 구분할 수 있는 능력을 의미한다.
자발적 조직화를 실험적으로 증명하기 위해 퍼셉트론에 두 가지 서로 다른 유형의 자극을 무작위로 주기도 하였는데 이 과정에서 퍼셉트론이 두 유형의 자극을 스스로 구분하는 것을 확인하였다.
실제 예시로 주어진 데이터를 직선이나 평면 등의 당순한 기하학적 형태로 명확하게 나눌 수 있는 경우를 의미하며 퍼셉트론은 각 자극을 1, 0 으로 처리한다. 이를 반복하면서 시간이 지나 첫 번째 유형의 자극에는 반드시 1로 두번째 유형의 자극에는 반드시 0으로 반응하게 되는 현상을 발견하였고 이를 선형적 분리라고 하였다.
퍼셉트론의 한계
로젠블랫은 인공지느으이 기초를 마련하였지만 자신의 연구의 한계점을 명확하게 인식하였다.
논문에서 제시된 한계점은 다음과 같다.
1. 근본적으로 다른 원칙의 필요성
로젠 블랫은 인공지능의 발전을 위해서는 지금까지의 단순한 개선이 아닌 완전히 새로운, 근본적으로 다른 원칙이 필요하다고 하였다.
2. 시간적 요소의 한계
로젠 블랫의 퍼셉트론 모델은 시간적인 요소를 고려하지 않았다. 이는 시간에 따른 패턴 인식과 같은 복잡한 자극에 대응하는 능력이 부족할 수 있음을 의미한다. 인간의 인지 과정에서는 시간적 패턴 인식이 중요한 역할을 하기에 퍼셉트론 모델은 한계가 존재함을 명시하였다.
3. 상대적 판단과 관계의 추상화
퍼셉트론이 단순한 패턴 인식과 분류는 가능하지만 두 자극 간의 관계를 인식하기에는 어려움이 존재하였다.
4. 처셉트론의 선형적 한계
세상에는 선형적인 분류로만 해결이 불가능한 문제들이 존재한다. XOR과 같은 문제가 이와 같다. 퍼셉트론은 비선형 문제를 해결하지 못하기에 이러한 한계를 지적했다.
5. 이론의 초기 단계의 문제
로젠블랫이 말하기를 현재의 이론은 물론 아직 인간 학습 이론의 경쟁자로 간주되기에는 너무 원시적이다. 이는 퍼셉트론이 물론 ML의 기반을 제공하지만, 인간의 복잡한 학습 메커니즘을 완전히 설명하며 ㅁ방하기에는 아직 부족함을 의미한다.
[!현대적 관점 퍼셉트론의 한계 및 발전] > 위에서 지적한 한계점들은 추후 연구되면서 상당 부분이 극복되었지만 아직 남겨진 한계점들이 존재한다. > - 근본적으로 다른 원칙의 필요성 : 이는 아직 유효하다. Transformer 모델은 인공지능 분야에 큰 혁신을 가져왔지만, 이 역시 기존 원리의 개선에 기반한다. GPT, BERT 등의 모델이 성과를 보여주는 것은 맞지만, 아직 근본적인 다른 원칙을 찾았다고 볼 수 없다. > - 시간적 요소의 한계 : 순환 신경망(RNN)과 장간기 메모리(LTSM)모델의 등장은 시간에 따른 데이터 처리와 더 긴 시간 간격의 의존성을 학습할 수 있게 하였다. 하지만 아직까지 인간의 복잡한 시간 인식과 처리 능력을 완전히 모방하는 것은 아니기에 한계점이 존재한다. > - 상대적 판단과 관계의 추상화 : 해당 부분은 상당한 진보를 이루었다고 볼 수 있다. ResNet과 VGGNet과 같은 모델들이 복잡한 이미지의 특징을 정확히 추출해 주는 능력을 보여주었고, YOLO와 같은 객체 탐지 모델은 이미지 내의 다양한 객체를 빠르고 정확하게 찾아내고 있다. 최근에는 GPT-4, CLaude 등의 LLM은 텍스트외에도 이미지까지 함께 처리하는 MultiModal 추론 능력을 보여준다. > - 퍼셉트론의 선형적 한계 : MLP와 역전파 알고리즘의 등장으로 해결되었다. XOR문제는 MLP의 등장으로 비선형 분류 문제를 해결해주었고, 심층 신경망은 복잡한 비선형 패턴을 학습하게 해주었다. 여기서 ReLU와 같은 활성화 함수의 발전은 이 문제를 더욱 효과적으로 다룰 수 있게 해주었다. > - 이론의 초기 단계의 문제 : 여전히 인공지능은 인간의 복잡한 학습 과정, 창의성, 추상적 사고 능력을 완젹히 구현하지 못한다.
1.5 역전파 알고리즘
인공지능의 암흑기
퍼셉트론의 자발적 조직화를 통한 자극의 구분은 인공 지능 연구 투자에 도화선이 되었지만 XOR같은 비선형 문제로 인해 가로막히게 되었다.
[!비선형 문제] > 그림 > 선형적인 구분만으로 구분하지 못하는 것으로 퍼셉트론은 해당하는 비선형적 문제에 적용할 수가 없다.
1.5.1 비선형성
인공지능에서의 선형과 비선형의 차이는 직선, 곡선의 형태만으로 정의할 수 없다. 이러한 부분은 모델의 학습 능력과 표현력에 큰 영향을 미치고 이로인해 인공지능이 복잡한 패턴을 학습하고 다양한 문제를 해결할 수 있게 해준다.
비선형성을 정의하자면 다음과 같이 정의할 수 있다.
입력과 출력 사이의 관계가 단순한 비례 관계를 벗어나는 특성
위의 의미를 풀어서 설명하자면 작은 입력 변화가 큰 출력 변화를 일으키거나 큰 입력 변화에도 작은 출력 변화를 일으킬 수 있믐을 의미한다.
해당하는 특성은 인공신경망의 학습 과정을 살펴보면 왜 인공지능에서 중요한지를 확인할 수 있다.
단일 퍼셉트론의 한계 이후 다음 두 가지 연구는 비선형 함수의 도입에 큰 영향을 끼쳤다.
MLP의 등장
단일 퍼셉트론의 한계를 발견한 후 여러 층의 퍼셉트론을 쌓는 다층 퍼셉트론(MLP)의 구조가 등장했다.
<MLP 사진 + 설명>
역방향 전파
초기 신경망 연구에서는 주로 순방향으로만 학습을 진행했다. 그러나 효과적인 가중치 업데이트를 위해서는 역방향을 조정해야 했고 그 과정에서 다음 문제점을 발견하였다.
선형 함수 ax + b를 x에 대해 미분하면 첫 번째 미분은 상수이고 다음 미분은 0이 된다. 이후 첫 번째 미분 결과인 상수를 다시 역방향 전파 과정을 거치면 상수는 결국 0이 된다. 이는 순수하게 선형적인 활성화 함수만을 사용하여 MLP에서 아무리 많은 층을 쌓아도 결국 하나의 단순한 선형 변환으로 축소 또는 0이되어 학습이 제대로 이루어지지 않는 문제가 발생하였다.
비선형 함수의 도입
위 두 연구의 문제를 해결하기 위해 비선형 함수의 도입이 이루어졌다. 해당 함수를 통해 작은 입력 변화가 큰 출력변화를 일으킬 수 있고 반대의 처리가 가능한다. 그렇기에 역방향 학습 과정에서 미분을 하여도 0이 되지 않고 다양한 값으로 전파되게 한다.
위 특성의 함수를 도입하면서 신경망은 복잡성과 유연성을 가져 현실 세계의 다양하고 복잡한 문제를 해결할 수 있다. 그 이유는 각 층의 뉴런들이 이전 층의 출력을 새로운 방식으로 변환하여 더 의미 있는 정보로 요약하고 정리하는 것이다. 그 과정에서 각 뉴런에서의 활성화 함수는 입력 데이터의 특수한 특징을 중점으로 중요 패턴을 파악할 수 있는 것이다.
<그림 찾아보기>
결론적으로 비선형성은 직선의 특징의 개념보다는 인공신경망의 학습 능력을 크게 향상시키는 핵심 요소로 작용하는 것이다. 즉, 단순한 선형 모델로 불가능한 학습을 가능하게 하고 실제 세계의 복잡한 문제를 해결하는데에 필수적인 요소로 작용하는 것이다.
1.5.2 역전파 알고리즘
위 내용에서 역방향 전파를 통한 학습을 수행한다고 했는데 이를 역전파 알고리즘이라고 부른다.
역전파 알고리즘은 퍼셉트론의 한계를 극복하고 비선형 문제를 해결할 수 있는 새로운 방법의 반으로 다층 신경망에서 각 층의 가중치를 효과적으로 조정하게 해준다. 특히, 비선형 활성화 함수를 사용해 복잡한 패턴을 학습하게 하는데 이로 인해 신경망의 학습 능력은 크게 향상되었다.

위 그림과 같이 역방향 과정에서 출력 z에 대한 손실의 변화율 (dL/dz)이 계산되는데 이 값이 비선형 함수 f를 통과해 입력x와 입력 y에 대한 손실 변화율로 전파된다. 해당 과정이 연쇄 법칙이 적용되어 dL/dx = (dL/dz) * (dz/dx)와 같은 형태로 계산할 수 있습니다.
해당 과정에서 비선형 활성함수의 미분값 df가 중요하게 되는데 이는 네트워크가 복잡한 패턴을 학습할 때 중요한 요소가 된다.
이러한 방식 덕분에 역전파 알고리즘은 인공신경망의 가중치를 조정이 가능하게하는 핵심으로 네트워크의 출력과 원하는 출력 사이의 오차를 최소화할 수 있다. 이 덕분에 오늘날 대부분의 신경망 학습은 더 복잡한 패턴을 학습할 수 있게 된다.
1.6 트랜스포머의 등장
역전파 알고리즘의 등장 이후 AI/ML는 급속도로 발전하였는데 NLP를 위주로 전체적인 발전 흐름은 다음과 같다.
1990년대 ~ 200년대 초반
해당 시기에는 차원의 저주라고 불리는 문제는 데이터가 복잡해지고 차원이 증가할수록 알고리즘의 성능이 급격히 저하되는 문제를 이야기한다. 이러한 문제를 해결하기 위해 차원축소의 다양한 기법들이 소개되었는데 주로 주성분 분석(PCA), t-SNE 등이 존재한다.
2000년대 중반
기계와 인간의 언어 사이의 연결고리를 짓기 위한 NLP, 자연어 처리 분야가 크게 발전하였다. 이 시기에는 규칙 기반의 시스템이 주를 이루었지만, 점차 통계적 방법
2013년
Word2Vec이라는 단어 임베딩 기술이 등장하여 컴퓨터가 단어 간의 의미적 관계를 파악할 수 있게 되었다. 예를 들어, ‘왕 - 남자 + 여자 = 여왕’ 과 같은 단어 간의 관계를 벡터 연산을 통해 표현할 수 있게 된 것이다. 이러한 기술은 주로 단어의 의미를 저차원의 벡터 공간에 매핑하여 처리한다.
또한, 동시에 등장한 순환 신경망(RNN)은 시퀀스 데이터를 처리하는데 특화된 신경망 구조로, 문장이나 문단과 같은 연속적인 텍스트 데이터를 다루는 데 효과적이였다. 그러나 긴 시퀀스를 처리할 당시에 정보를 오랫동안 기억하지 못하는 한계가 존재하였는데 이러한 문제를 해결하기 위해 1997년에 제안된 LSTM을 통해 긴 시퀀스에서도 중요한 정보를 기억할 수 있도록 처리하여 기계 번역, 음성 인식 등의 분야에서 뛰어난 성능을 보여주었따.
2015년
입력 시퀀스에서 더 중요하게 다루어야 할 부분을 집중해서 처리하기 위한 Attention 메커니즘이 소개되었다. 이는 추후 Transformer 모델의 핵심아이디어가 되어 추후 BERT, GPT 같은 언어모델을 증장시켰다.