Заседание семинара «Проблемы искусственного интеллекта»

Уважаемые коллеги!

27 мая в 16:00 состоится заседание совместного семинара Российской ассоциации искусственного интеллекта и ФИЦ ИУ РАН «Проблемы искусственного интеллекта».

На заседании семинара будет представлен доклад на тему: «Ruadapt: вычислительно эффективная языковая адаптация больших языковых моделей на русский язык».

Докладчик: кандидат физико-математических наук Михаил Михайлович Тихомиров, старший научный сотрудник НИВЦ МГУ им. М.В. Ломоносова, научный сотрудник Исследовательского центра доверенного ИИ Института системного программирования РАН.

Аннотация доклада

Современные большие языковые модели (LLM) часто демонстрируют сниженную вычислительную эффективность и качество при работе с русским языком из-за неоптимальной токенизации, в то время как обучение моделей с нуля требует колоссальных затрат.

В данном докладе будет представлена Ruadapt — комплексная методология вычислительно эффективной языковой адаптации существующих LLM без риска катастрофического забывания знаний и навыков. Предлагаемый подход объединяет расширение словаря токенизации для лучшего отражения морфологии языка, локальное дообучение новых эмбеддингов и применение метода проецирования обученных эмбеддингов (Learned Embeddings Propagation, LEP) для быстрого переноса знаний в инструктивные версии моделей с их последующей SFT-калибровкой.

Практические результаты показывают, что вычислительные затраты на адаптацию составляют менее 2000 GPU-часов для моделей размера 8B, при этом итоговые модели демонстрируют ускорение генерации русскоязычного текста на 40–100%, полностью избавляются от артефактов генерации (таких как появление иероглифов) и сохраняют исходные аналитические способности базовой модели.

Заседание состоится в смешанном формате в конференц-зале ФИЦ ИУ РАН по адресу: г. Москва, ул. Вавилова, дом 44, корп. 2, пом. 124.

По вопросам очного посещения семинара лицами, не работающими в ФИЦ ИУ РАН, и иным вопросам, связанным с работой семинара, просьба обращаться к ученому секретарю семинара д.ф.-м.н. Виноградову Дмитрию Вячеславовичу по эл. почте raai_seminar@mail.ru до 14:00 26 мая.

Важно: В запросе укажите, пожалуйста, свои паспортные данные (в формате: Фамилия Имя Отчество, паспорт № выдан (когда, кем), код подразделения). Это требование формы заявки на пропуск в ФИЦ ИУ РАН.

Интернет-трансляция заседания семинара будет доступна по ссылке: 

https://rutube.ru/channel/31232849/
Трансляция начнется в 15:55 27 мая. Будет предоставлена возможность задавать вопросы через чат Rutube. Ученый секретарь семинара обязуется зачитать вопросы, поступившие в чате.

Желающие получить инструкцию по подключению могут обратиться к ученому секретарю семинара д.ф.-м.н. Виноградову Дмитрию Вячеславовичу по электронной почте: raai_seminar@mail.ru до 14:00 27 мая.