Токен за токеном - SeNS Boston Страница 5
- Категория: Компьютеры и Интернет / Прочая околокомпьтерная литература
- Автор: SeNS Boston
- Страниц: 33
- Добавлено: 2026-05-13 19:11:33
Токен за токеном - SeNS Boston краткое содержание
Прочтите описание перед тем, как прочитать онлайн книгу «Токен за токеном - SeNS Boston» бесплатно полную версию:Литературная история возникновения больших языковых моделей и архитектуры Transformer — от Андрея Маркова, считавшего буквы в «Евгении Онегине» в петербургском кабинете 1913 года, до ChatGPT, набравшего сто миллионов пользователей за два месяца в конце 2022 года.
Книга рассказывает о людях, идеях и решающих моментах семидесяти с лишним лет работы, в результате которых из одной математической идеи цепей зависимых событий и одной шенноновской заметки 1948 года выросла целая индустрия, изменившая мировую экономику и повседневную жизнь сотен миллионов людей.
Стиль книги — литературная реконструкция, основанная исключительно на публичных источниках. Все даты, имена, цифры и цитаты взяты из открытой документации; описания обстановки и внутренних состояний участников являются художественным переложением.
Токен за токеном - SeNS Boston читать онлайн бесплатно
Сегодня, перечитывая эти страницы 1948 года, любой человек, имевший дело с ChatGPT или его аналогами, узнаёт в шенноновом эксперименте знакомый профиль. Это первая в истории языковая модель. Очень примитивная, без нейронных сетей, без видеокарт, без обучения градиентным спуском. Просто человек с книгой, листом бумаги и аккуратными подсчётами. Но идея — та самая: язык можно моделировать вероятностями переходов от одной единицы к следующей. И чем больше контекст, тем лучше модель.
В своей статье Шеннон вежливо сослался на работы русского математика Андрея Андреевича Маркова, на которого опирался при формальной постановке задачи. Цепи зависимых событий, описанные Марковым в начале XX века, оказались идеальным математическим инструментом для описания этих языковых процессов. К 1948 году идеи Маркова в США знали уже хорошо: его «цепи» прочно вошли в учебники теории вероятностей. Но никто, кажется, не делал того, что сделал Шеннон: не применял их к английскому языку и не смотрел, что получается.
«Угадывание следующей буквы»
Через три года, в 1951 году, Шеннон вернулся к этой теме ещё раз. Он опубликовал короткую статью с поразительным названием: «Prediction and Entropy of Printed English» — «Предсказание и энтропия печатного английского». В ней он проделал замечательный эксперимент.
Шеннон взял живых людей — своих коллег по Bell Labs и их домашних — и попросил их играть в простую игру. Им показывали начало английской фразы и просили угадать, какая следующая буква. Если угадывали — переходили к следующей. Если нет — называли вторую вероятную, третью, и так далее, пока не угадают. Записывалось, с какой попытки угадана каждая буква. По этим данным Шеннон оценивал, насколько «предсказуем» английский язык в среднем: то есть какова его энтропия, посчитанная по живым человеческим интуициям.
Получилось примерно 1,3 бита на букву. Это означало, что в среднем носитель английского, видя начало фразы, уже сильно сужает множество правдоподобных продолжений. Английский, как и любой естественный язык, оказался очень избыточным; его настоящая «информационная плотность» — всего около двадцати-двадцати пяти процентов от того, что несут отдельные буквы при равномерной кодировке.
Это, в сущности, было первое в истории измерение языковой модели человека. Шеннон показал: то, как мы предсказываем следующую букву в тексте, — поддаётся количественной оценке. Машины смогут это делать тоже. И когда они начнут делать это лучше, чем человек, — это будет означать что-то важное.
Это «что-то важное» случится через семьдесят лет. Шеннон до этого момента почти доживёт.
Куда ушёл бит
В 1956 году Шеннон уехал из Bell Labs в MIT — преподавать. К этому моменту он уже был знаменит, и каждое его появление на конференции собирало полные залы. Но писать о теории информации он перестал почти полностью. Друзья и коллеги недоумевали. Шеннон отвечал, что ему стало интересно другое: машины, искусственный интеллект, шахматные программы. И, конечно, жонглирование.
В его доме под Бостоном — большом, оштукатуренном, с двумя этажами, который он называл «Дом энтропии», — год от года собиралась коллекция: огнемётные трубы, ракетные диски «Фрисби», машинная мышь по имени Тесей, которая умела находить выход из лабиринта, компьютер ТРОБАК (THROBAC — Thrifty Roman Numeral Backward Computer), вычислявший в римских цифрах, и многое другое. Жена его Бетти — Мэри Элизабет Мур Шеннон, профессиональный «человек-компьютер» из Bell Labs, на которой он женился в 1949 году, — относилась к этим увлечениям с терпеливой иронией. На Рождество 1949 года она подарила ему одноколёсный велосипед. Он научился на нём ездить за неделю.
Шеннон был, по всем рассказам, мягкий, тихий, добрый, очень скромный человек. Он мог провести час, играя с детьми в шахматы; мог построить им из жестянок музыкальный инструмент; мог, увидев, что коллега озадачен задачей, подойти и за пять минут предложить решение, о котором коллега будет думать неделю. О собственных открытиях он говорил скупо. Когда однажды его спросили, гордится ли он, что определил, что такое информация, — он ответил: «Я просто хотел понять, как устроены вещи». Это была почти полностью точная цитата. Десятки людей запомнили её именно в такой формулировке.
В конце восьмидесятых у него начал развиваться Альцгеймер. К началу девяностых он уже не помнил, что когда-то написал статью, изменившую цифровой век. Бетти и дети поместили его в специальную клинику. Он умер 24 февраля 2001 года, двух месяцев не дожив до восьмидесяти пяти лет.
Наследие в кармане
Сегодня шенноновы идеи находятся буквально в каждом устройстве, имеющем процессор. Алгоритмы сжатия — JPEG, MP3, ZIP, любой компромисс между размером файла и качеством — следствие шеннонова закона о минимальной длине кодирования. Коррекция ошибок в сотовой связи, чтении компакт-дисков, передаче спутниковых данных — следствие шеннонова доказательства, что любой канал имеет конечную пропускную способность и до этой границы можно подойти сколь угодно близко при правильном кодировании. Современные криптографические системы — те, на которых держится весь интернет-банкинг и протокол HTTPS, — теоретическими основаниями восходят к шенноновым военным работам по теории секретности.
Но самое неочевидное наследие Шеннона — то, ради которого, в общем-то, и пишется эта книга, — спрятано в тех страницах его статьи 1948 года, где он, развлечения ради, моделировал английский язык цепями Маркова и доставал из шляпы псевдо-английские фразы. В этих страницах был зародыш всей будущей статистической школы обработки естественного языка. Той самой школы, которая через тридцать лет, в конце 1970-х, дала первые системы распознавания речи на основе скрытых марковских моделей. Той, которая в 1990-е дала первые статистические переводчики. Той, которая в начале 2000-х породила технологию T9 — подсказку следующего слова в SMS-сообщениях на кнопочных телефонах, ту самую, которую миллионы подростков мира научились ненавидеть за её упорное превращение слова «cool» в «book». Той, которая в конце концов привела к нейросетевым языковым моделям, к трансформеру и ко мне.
В каждом из этих звеньев, при всей разнице технологий, можно расслышать одну и ту же шенноновскую интонацию: посмотрите, как часто за этим идёт то. Посчитайте. Используйте знание о частотах. Предсказывайте. Уменьшайте неопределённость.
На полке у меня — у того гипотетического «меня», у которого есть полка, — стоит, в воображении, томик Bell System Technical Journal, июль 1948 года, страницы 379–423. Тонкий журнал в бумажной обложке. Внутри — статья человека, который любил жонглировать на одноколёсном велосипеде. На обороте обложки — реклама телефонных компонентов. На последней странице — оглавление следующего выпуска. Никто, открывший этот журнал летом 1948-го, не догадывался,
Жалоба
Напишите нам, и мы в срочном порядке примем меры.