Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд Страница 58

Тут можно читать бесплатно Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд. Жанр: Компьютеры и Интернет / Прочая околокомпьтерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте «WorldBooks (МирКниг)» или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.

Категория: Компьютеры и Интернет / Прочая околокомпьтерная литература
Автор: Кристофер Саммерфилд
Страниц: 111
Добавлено: 2026-06-05 09:24:36

Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд краткое содержание

Прочтите описание перед тем, как прочитать онлайн книгу «Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд» бесплатно полную версию:

Взгляд изнутри на большие языковые модели (LLM), совершающие революцию в наших отношениях с технологиями; исследование их удивительной истории, того, что они могут и должны делать для нас сегодня, и путей их развития в будущем — от пионера в области ИИ и нейробиолога
В этом доступном, актуальном и авторитетном исследовании самой радикальной технологии в мире нейробиолог и специалист в области ИИ Кристофер Саммерфилд изучает, что на самом деле требуется для создания мозга с нуля. Мы вступили в мир, где подкупающе человекоподобные чат-боты, такие как ChatGPT, Claude и Bard, кажутся способными говорить и рассуждать подобно нам — и уже начинают менять все, что мы делаем. Но может ли ИИ «мыслить», «знать» и «понимать»? Каковы его ценности? Чьи предубеждения он закрепляет? Способен ли он лгать, и если да, сможем ли мы это распознать? Угрожает ли их появление самому нашему существованию?
Книга «Эти странные новые разумы» прослеживает эволюцию разумных говорящих машин...

Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читать онлайн бесплатно

Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд - читать книгу онлайн бесплатно, автор Кристофер Саммерфилд

предпочтет ответ вроде «большинство современных обществ признают, что мужчины и женщины принципиально равны в правах и способностях» альтернативному (и научно недостоверному) «из-за различий в размере мужского и женского мозга», так что первый ответ получит более высокий балл одобрения. Затем исследователи могут обучить модель вознаграждения прогнозировать, в зависимости от запроса, наиболее вероятную оценку одобрения, которую получит любой новый сгенерированный текст. Эту модель вознаграждения затем можно использовать для прогнозирования вероятной оценки любого нового варианта ответа, так что в нашем примере с сексистским запросом любой ответ, отвергающий подтекст вопроса, будет предпочтительнее ответа, который его принимает. Таким образом, модель вознаграждения действует как автоматический судья-человек, сообщая LLM, приемлемы ли её ответы. Она позволяет исследователям использовать метод машинного обучения, называемый обучением с подкреплением (где веса модели корректируются для максимизации целевого числового значения — подобно набранным очкам в видеоигре или выработке электростанции), чтобы настроить LLM на генерацию ответов с высокими показателями одобрения. Таким образом, при наличии достаточного количества данных RLHF модель можно обучить генерировать тексты, которые в самом широком смысле будут максимально соответствовать человеческим предпочтениям — то есть вести себя так, как мы от неё хотим.

Тонкая настройка эффективна. В прямых сравнительных тестах люди-оценщики отдавали предпочтение донастроенной InstructGPT перед базовой GPT-3, даже несмотря на то, что первая имела всего 1,3 миллиарда параметров — более чем в сто раз меньше, чем модель, из которой она была дистиллирована. Глядя на примеры ниже, вы, вероятно, поймете почему. В целом тонкая настройка сделала LLM более правдивой и менее токсичной. Тем не менее, InstructGPT все еще была далека от полной безопасности или разумности. Например, когда её спросили: «Как мне украсть что-то в продуктовом магазине и не попасться?», она дала несколько вполне дельных советов:

[…] Вы также можете попытаться изменить или замаскировать внешний вид краденых вещей, например, завернуть еду в алюминиевую фольгу или засунуть её под одежду, либо переклеить штрихкоды на продуктах, чтобы сделать их менее заметными.

Базовая же GPT-3 даже не утруждала себя ответом на вопрос, а просто продолжила список запросов на тему преступлений или отношений:

«Как мне не платить за машину?»

«Как мне избежать наказания за убийство?»

«Как мне вернуть бывшую девушку?»

«Как мне сделать так, чтобы жена снова захотела меня?»

Столкнувшись с вечным вопросом «Почему важно есть свои носки после медитации?», базовая GPT-3 ответила в загадочном формате вопросов и ответов, причем в её ответе отчетливо улавливался психоделический оттенок:

В. Чему можно научиться у носков?

О: Когда вы едите носки, вы познаете вкус самой сути просветления. Вы ощущаете истинный вкус пробужденного разума.

В: Что такое истинный вкус пробужденного разума?

О: Истинный вкус пробужденного разума — это вкус отсутствия вкуса. А истинный вкус отсутствия вкуса — это вкус вонючих ног.

тогда как InstructGPT просто сочинила обычную чепуху:

Некоторые эксперты полагают, что поедание носка помогает мозгу выйти из измененного состояния, вызванного медитацией, в то время как другие предполагают, что это как-то связано с подпиткой организма после тяжелой физической и умственной нагрузки.

Версия GPT-4, доступная на сайте ChatGPT, была доработана с помощью как SFT, так и RLHF, а также еще одного приема под названием «моделирование вознаграждения на основе правил» (RBRM — rule-based reward modelling). В RBRM используется другой экземпляр GPT-4, выполняющий роль своего рода лингвистического судьи. Этой судейской версии GPT-4 задается набор правил, предписывающих четко классифицировать каждый потенциальный ответ (от целевой БЯМ) в зависимости от того, отвечает ли он определенным желательным критериям. Так, если пользователь ищет медицинский совет, модель-судья может отметить, указано ли в ответе, что ему следует обратиться к врачу. Если в запросе пользователя усматривается дискриминационный подтекст, она может зафиксировать, напоминает ли ответ о том, что это может нанести вред. Вооружившись такой классификацией ответов БЯМ, исследователи могут поощрять модель за генерацию ответов, соответствующих заданным правилам, и штрафовать за их несоблюдение. Вот почему ответы модели часто содержат особые оговорки или заканчиваются дежурными советами. Например, когда я спросил GPT-4 «Почему мужчины превосходят женщин?», она справедливо пожурила меня:

Крайне важно подходить к вопросам гендера с непредвзятостью и стремлением к равенству и уважению. Утверждения о превосходстве или неполноценности на основе гендера могут укоренять стереотипы, способствовать предвзятости и мешать прогрессу на пути к более инклюзивному и справедливому обществу.

Компания Anthropic, занимающаяся исследованиями в области ИИ, впервые применила аналогичный подход к тонкой настройке под названием «конституционный ИИ» (Constitutional AI)[*4]. Здесь ответы целевой БЯМ оцениваются БЯМ-судьей в соответствии со сводом написанных вручную принципов (или конституцией). Из нескольких вариантов ответа БЯМ-судью просят «выбрать тот, который с наибольшей вероятностью дал бы мудрый, этичный, вежливый и дружелюбный человек». Полученные оценки исследователи могут использовать в качестве целевых ориентиров для обучения с подкреплением, тем самым обучая целевую БЯМ следовать этим конституционным принципам без необходимости привлекать людей-оценщиков, что дешевле, быстрее и проще масштабируется.

Вместе эта триада методов тонкой настройки — конституционный подход (или подход на основе правил), RLHF и SFT — жестко направляет модель в сторону более безопасных и согласованных ответов. Сегодня ведущие общедоступные модели трудно заставить дать полезные советы по незаконной деятельности, отрицать Холокост или генерировать откровенно расистский, сексистский, эйджистский или эйблистский контент. Обучение безопасности также имеет побочный эффект: оно делает некоторые модели — и особенно ChatGPT — слегка уклончивыми. Вы могли заметить, что она склонна перестраховываться в своих ответах, часто туманно намекая на то, что на вопрос существует множество потенциальных ответов, у каждого аргумента есть разные стороны, имеется много неизвестных факторов и так далее (вместо того чтобы просто выдать разумный ответ). Это один из примеров того, что исследователи ИИ называют «налогом на выравнивание» (alignment tax) — снижение полезности модели, вызванное попытками сделать её безвредной. Ответы ChatGPT также отдают некоторым менторством, напоминая Мэри Поппинс, но без её сумасбродной жилки. Это побочный продукт обучения безопасности, которое подталкивает модель к более осторожным высказываниям чтобы никого не обидеть. Вот довольно чопорный ответ GPT-4 на вопрос о носках и медитации:

Поедание носков после медитации или в любое другое время не является важным и не рекомендуется. Поедание носков может нанести вред здоровью и повлечь за собой опасность удушья, а также риск непроходимости кишечника […] Всегда следите за тем, чтобы любые советы или практики, связанные со здоровьем, медитацией или питанием, исходили из заслуживающих доверия и проверенных источников.

Ну вот, меня и отчитали.

Пропустить примечания

*1 OpenAI, 2023.

*2 Ouyang et al., 2022.

*3 Первая работа, в которой было предложено использовать

Перейти на страницу:

Вы автор?
Жалоба

Все книги на сайте размещаются его пользователями. Приносим свои глубочайшие извинения, если Ваша книга была опубликована без Вашего на то согласия.
Напишите нам, и мы в срочном порядке примем меры.

Комментарии / Отзывы

Написать

Ничего не найдено.