Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд Страница 51
- Категория: Компьютеры и Интернет / Прочая околокомпьтерная литература
- Автор: Кристофер Саммерфилд
- Страниц: 111
- Добавлено: 2026-06-05 09:24:36
Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд краткое содержание
Прочтите описание перед тем, как прочитать онлайн книгу «Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд» бесплатно полную версию:Взгляд изнутри на большие языковые модели (LLM), совершающие революцию в наших отношениях с технологиями; исследование их удивительной истории, того, что они могут и должны делать для нас сегодня, и путей их развития в будущем — от пионера в области ИИ и нейробиолога
В этом доступном, актуальном и авторитетном исследовании самой радикальной технологии в мире нейробиолог и специалист в области ИИ Кристофер Саммерфилд изучает, что на самом деле требуется для создания мозга с нуля. Мы вступили в мир, где подкупающе человекоподобные чат-боты, такие как ChatGPT, Claude и Bard, кажутся способными говорить и рассуждать подобно нам — и уже начинают менять все, что мы делаем. Но может ли ИИ «мыслить», «знать» и «понимать»? Каковы его ценности? Чьи предубеждения он закрепляет? Способен ли он лгать, и если да, сможем ли мы это распознать? Угрожает ли их появление самому нашему существованию?
Книга «Эти странные новые разумы» прослеживает эволюцию разумных говорящих машин...
Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читать онлайн бесплатно
Но теперь давайте рассмотрим обучение сети на корпусе, состоящем из задач той же формы, что и оба запроса выше, но теперь города и ориентиры отличаются в каждом конкретном примере. Таким образом, каждый запрос описывает отношения между различными ориентирами в совершенно иной городской сетке (широкий режим обучения). В широком режиме у сети нет возможности узнать что-то конкретное о Нью-Йорке или Барселоне. Вместо этого единственный способ предсказать пропущенный финальный токен — разобраться в структуре самой задачи, абстрагируясь от того, какие именно города или ориентиры в ней упоминаются. Здесь структура задачи задается пространственными отношениями между ориентирами (A, B, C), направлениями (С, Ю, В, З) и расстояниями (количеством кварталов) на сетке. Вооружившись базовыми геометрическими знаниями, вы, конечно, могли бы решить любую задачу такого типа, даже если бы ориентиры принадлежали научно-фантастическому городу, который я только что придумал. На самом деле было бы несложно написать символьную компьютерную программу, способную решить любую подобную задачу: для этого достаточно закодировать местоположение каждого ориентира относительными значениями x и y и с помощью простой арифметики вычислить их взаимное расположение в декартовых координатах. Но наша человеческая способность написать такую программу опирается на понимание значения таких слов, как «север» и «пять кварталов». Для нейросети это кажется невозможным, ведь, если рассуждать наивно, соответствующие токены, кодирующие эти понятия, — всего лишь длинные числовые векторы, допускающие бесконечное множество интерпретаций. И тем не менее на практике трансформеры отлично справляются с подобными задачами. Как же они понимают, что эти слова обозначают направления или расстояния, и используют их для решения головоломки?
Ответ заключается в том, что сама структура языка отражает структуру внешнего мира. Например, в нашей задаче с ориентирами синтаксис предложений вида «A находится в x кварталах к западу и в y кварталах к северу от B» определяет относительное положение токенов A, B, x и y в предложении. В то же время правильный ответ (предсказание следующего токена) определяется базовыми геометрическими фактами о том, как устроено пространство в реальном мире — или, в данном случае, на двумерной решетке с симметрией четвертого порядка (что является замысловатым названием для сетки, состоящей из квадратов). Язык, используемый для описания задачи, внутренне непротиворечив по отношению к реальному миру. Например, если верно, что «A находится в двух кварталах к северу от B, а B — в двух кварталах к северу от C», то должно быть верно и то, что «A находится в четырех кварталах к северу от C». Если оказывается, что «A находится в трех кварталах к востоку от B», то должно выполняться и то, что «B находится в трех кварталах к западу от A». Таким образом, структура языка соответствует тому, как работают пространство и расстояние на карте в условиях евклидовой геометрии.
По мере оптимизации трансформера его бесчисленные параметры постепенно адаптируются, чтобы найти такую конфигурацию, которая минимизирует перплексию — то есть обеспечит правильное предсказание того, где каждый ориентир расположен относительно всех остальных. Разумеется, при наличии миллиардов параметров существует огромное множество их возможных конфигураций, способных привести сеть к такому результату. Однако в широком режиме обучения, когда каждая задача совершенно уникальна, единственной конфигурацией, обеспечивающей эффективное прогнозирование, будет та, которая правильно проецирует структуру предложения на структуру мира — то есть кодирует осмысленную взаимосвязь между токенами, соответствующими A, B, x и y. На самом деле трансформер устроен для этого идеальным образом, поскольку механизм самовнимания — это, по сути, инструмент для определения того, что с чем связано, позволяющий напрямую усваивать отношения между токенами в промпте.
Другой важнейшей особенностью трансформера является использование позиционных эмбеддингов (position embeddings). Позиционные эмбеддинги представляют собой дополнительные входные данные, передаваемые сети; они объединяются с эмбеддингами токенов и явно указывают на то, какое место каждый токен занимал в последовательности. Так, в промпте «Пекин находится к северу от Шанхая» относительные позиционные эмбеддинги для этих двух китайских городов помогают сети отличить эту фразу от ее географически ошибочного перевертыша «Шанхай находится к северу от Пекина» (любопытно, что человеческий мозг, по-видимому, также обрабатывает входящую информацию о «что» и «где» в раздельных потоках, и это вполне может вносить важный вклад в нашу собственную способность к рассуждению). Благодаря этим инновациям в нейросети возникает своего рода программа, эквивалентная той символьной программе, которую программист-человек написал бы вручную. Именно так глубокие нейросети, которые обучаются методом проб и ошибок, подобно Советнику 1, могут быть обучены приближенно воспроизводить точные символьные вычисления, обычно ассоциирующиеся с Советником 2. Таким образом, трансформеры способны осваивать ментальные программы, которые принимают язык в качестве входных данных и обрабатывают его в соответствии с реальной структурой мира, выраженной формальными математическими или логическими системами — такими как геометрия положений на сетке в нашей задаче с ориентирами.
На самом деле, когда GPT-4 решает эту задачу, она объясняет свою логику как последовательность операций, аналогичных тем, которые использовал бы символьный алгоритм для барселонской версии задачи:
1. Определить координаты Жироны: мы примем Жирону за точку отсчета (0, 0):
Жирона = (0, 0)
2. Найти Пасео-де-Грасия:
Пасео-де-Грасия находится в 4 кварталах к западу и в 1 квартале к югу от Жироны.
Пасео-де-Грасия = (−4, −1)
3. Найти Вердагер:
Вердагер находится в 1 квартале к востоку и в 4 кварталах к северу от Жироны.
Вердагер = (1, 4)
4. Найти Диагональ:
Диагональ находится в 6 кварталах к северу от Пасео-де-Грасия.
Диагональ = (−4, −1 + 6) = (−4, 5)
5. Найти искомую станцию:
Нам нужно найти станцию, которая находится в 5 кварталах к востоку и в 1 квартале к югу от Диагонали.
Искомая станция = (−4 + 5, 5 − 1) = (1, 4)
6. Определить станцию с координатами (1, 4):
Это координаты Вердагера.
Задача с ориентирами сильно схематизирована. Каждый промпт имеет однородный синтаксис, и всегда существует единственный верный ответ, поэтому трансформеру было бы легко усвоить эквивалентность между лингвистической и геометрической структурой. В реальных условиях, однако, естественный язык ведет себя далеко не так послушно. Гигантские корпуса текстов, на которых обучались LLM, обсуждают всё на свете на множестве языков, смешивая сленг и высоколобую прозу, книги, полные сложного формализма, и компьютерный код, кулинарные рецепты и спортивные альманахи, бульварное чтиво и крикливую желтую прессу. Тем не менее внутренние структурные взаимосвязи в
Жалоба
Напишите нам, и мы в срочном порядке примем меры.