Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд Страница 16
- Категория: Компьютеры и Интернет / Прочая околокомпьтерная литература
- Автор: Кристофер Саммерфилд
- Страниц: 111
- Добавлено: 2026-06-05 09:24:36
Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд краткое содержание
Прочтите описание перед тем, как прочитать онлайн книгу «Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд» бесплатно полную версию:Взгляд изнутри на большие языковые модели (LLM), совершающие революцию в наших отношениях с технологиями; исследование их удивительной истории, того, что они могут и должны делать для нас сегодня, и путей их развития в будущем — от пионера в области ИИ и нейробиолога
В этом доступном, актуальном и авторитетном исследовании самой радикальной технологии в мире нейробиолог и специалист в области ИИ Кристофер Саммерфилд изучает, что на самом деле требуется для создания мозга с нуля. Мы вступили в мир, где подкупающе человекоподобные чат-боты, такие как ChatGPT, Claude и Bard, кажутся способными говорить и рассуждать подобно нам — и уже начинают менять все, что мы делаем. Но может ли ИИ «мыслить», «знать» и «понимать»? Каковы его ценности? Чьи предубеждения он закрепляет? Способен ли он лгать, и если да, сможем ли мы это распознать? Угрожает ли их появление самому нашему существованию?
Книга «Эти странные новые разумы» прослеживает эволюцию разумных говорящих машин...
Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читать онлайн бесплатно
Именно вокруг этого вопроса и вращаются современные исследования в области ИИ. Самые убежденные эмпирики утверждают, что большие нейронные сети — версии перцептрона Розенблатта с несколькими дополнительными наворотами и триллионом параметров — научатся мыслить подобным образом исключительно благодаря колоссальному объёму обучающих данных. Утверждается, что способность рассуждать каким-то таинственным образом возникнет сама собой в процессе обучения, без каких-либо дополнительных ментальных механизмов — просто за счет обучения очень больших сетей предсказывать то, что последует дальше. Иными словами, самое радикальное утверждение состоит в том, что общий искусственный интеллект — воплощение мечты Лейбница в виде машины, хранящей все человеческие знания и способной объяснить нам устройство Вселенной, — станет возможен благодаря обучению гигантской глубокой сети с помощью такого метода обновления весов, как градиентный спуск.
Разумеется, верно и то, что чем крупнее мозг, тем он, как правило, лучше. Люди — чья способность к глубоким рассуждениям позволила им построить развитую цивилизацию — обладают одним из самых больших мозгов в животном мире.[*1] В то время как у личинки дрозофилы всего чуть более 3000 нейронов, взрослый человеческий мозг насчитывает более восьмидесяти миллиардов, а количество связей в нём, по самым скромным оценкам, составляет 100 триллионов. На картирование полумиллиона связей в коннектоме плодовой мушки ушло более пяти лет, так что, если бы исследователи (работая с той же скоростью) повторили этот подвиг для человека, публикации итоговой научной статьи нам пришлось бы ждать больше миллиона лет. Вероятно, огромный мозг необходим нам для того, чтобы вместить в себя весь тот рог изобилия знаний о мире, которыми мы располагаем. Но как большой мозг может спонтанно научиться рассуждать?
Среди практиков глубокое обучение часто называют своего рода темным искусством — подобно Силе в «Звездных войнах» или прорицанию, которому обучают юных волшебников в Хогвартсе. Отчасти это связано с тем, что, как и упомянутые магические искусства, оно обладает огромной силой, но им трудно овладеть, а при неправильном использовании начинается хаос. Но дело еще и в том, что — как ни удивительно — механизмы его работы до конца не ясны. Глубокое обучение часто называют «непостижимо эффективным», поскольку, согласно общепринятым статистическим теориям, сети попросту не должны обладать столь высокой способностью к обобщению. Тот факт, что оно работает столь успешно, кажется загадочным, и именно поэтому у него, без сомнения, появилось столько же критиков, сколько и преданных сторонников.[*2]
Загадка заключается в том, что глубокое обучение переворачивает традиционную логику статистического моделирования с ног на голову. Если вы откроете учебник по статистике, то, скорее всего, прочтете, что моделирование работает по принципу «меньше значит больше». Если обучить очень большую модель (например, нейросеть с огромным количеством весов) аппроксимировать набор данных, она будет стремиться зазубрить каждую деталь, что сделает её практически бесполезной для прогнозирования новых наблюдений — это называется «переобучением». Это чем-то похоже на то, как если бы студент готовился к устному экзамену по немецкому языку, заучивая слово в слово список возможных диалогов о погоде и о том, как пройти к вокзалу. Он отлично справится, пока разговор будет крутиться вокруг знакомых тем, но если беседа вильнет в сторону, он окажется в тупике. Напротив, модель с меньшим числом параметров будет менее склонна к «попугайничеству» — вместо этого она будет вынуждена усваивать общие принципы, подобно студенту, который учит правила склонения и спряжения вместо того, чтобы слепо зазубривать выдержки из разговорника. Меньшие статистические модели, как гласит учебник, должны быть наиболее эффективными при обобщении на новые данные. Этот принцип иногда называют бритвой Оккама в честь средневекового монаха Уильяма из Оккама, который выдвинул знаменитый постулат: «не следует множить сущности без необходимости», то есть простые аргументы зачастую оказываются лучшими.
Однако глубокое обучение опровергает эту прописную истину. За последние десять лет, по мере того как исследователи начали обучать всё более крупные и мощные нейросети на всё более масштабных наборах данных, они раз за разом сталкивались с одним и тем же озадачивающим явлением. Когда количество весов (или связей — элементов сети, которые меняются в процессе обучения) приближается к количеству примеров в обучающей выборке (то есть к общему числу уникальных опытов за время обучения), модели ведут себя так, как и предсказывает бритва Оккама, — они начинают переобучаться. Но когда число обучаемых параметров начинает превосходить количество обучающих примеров, модели переходят в новый режим, в котором их способность к обобщению на самом деле начинает улучшаться. Это явление, получившее название «двойной спуск»[*3], — статистический эквивалент открытия того, что высоко на Эвересте гравитация меняет направление на противоположное, из-за чего предметы улетают в небо. При масштабировании моделей глубокое обучение, похоже, работает по совершенно новому принципу — не столько «меньше значит больше», сколько «больше — значит другое»[*4]. Не столько бритва Оккама, сколько борода Оккама.
Революция глубокого обучения была построена на масштабе. Когда нейросети впервые попали в заголовки новостей, продемонстрировав сверхчеловеческие результаты в распознавании изображений и одержав триумфальные победы в таких играх, как го и StarCraft, число их параметров уже исчислялось миллионами. В этот же период возникло предположение, что очень большие сети начинают демонстрировать удивительные новые формы обобщения. Возьмем, к примеру, систему нейронного машинного перевода Google (NMT), запущенную в 2017 году. Перевод — это классическая задача машинного обучения, цель которой состоит в том, чтобы точно перевести слово или фразу с одного языка («時々朝ごはん前に6つもの不可能なことを信じたことがありま») на другой («иногда я верил в целых шесть невозможных вещей еще до завтрака»). Разумеется, пользователь волен вводить в переводчик всё, что пожелает, а значит, система не может опираться исключительно на базу заранее подготовленных шаблонных фраз — ей требуется мощная нейронная сеть, способная к обобщению. Для Google Переводчика, поддерживающего сотню языков, эта проблема стоит особенно остро: ведь для прямого перевода с каждого возможного исходного языка на каждый целевой потребовалось бы создать почти 10 000 отдельных моделей.[*5] Поэтому цель NMT заключалась в обучении одной-единственной модели, которая могла бы переводить с любого из этих языков на любой другой.
Чтобы добиться этого, исследователи обучили по тем временам действительно большую нейросеть (255 миллионов параметров — хотя сегодня она считалась бы
Жалоба
Напишите нам, и мы в срочном порядке примем меры.