Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности
Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
Видеозапись вебинара Александра Коротина "Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей" доступна по ссылке
Читать полностью…Видеозапись вебинара Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками" доступна по ссылке
Читать полностью…⚡На следующей неделе встречаемся на вебинаре Александра Коротина " Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных"
🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.
Сайт мероприятия
✅Регистрация на вебинар✅
⚡️Уже на следующей неделе встречаемся на вебинаре Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками"
🗣Спикер: Алексей Староверов, AIRI, Москва, Россия
🕰 Вторник 12 декабря 2023, 16:00 MCK
🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.
Сайт мероприятия
✅Регистрация на вебинар✅
Видеозапись вебинара Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" доступна по ссылке
Читать полностью…Вебинар Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" переносится на неделю.
Встречаемся 17 октября 2023, 16:00 MCK
Ссылка на регистрацию остается актуальной.
Видеозапись вчерашнего вебинара «Глубокое обучение для моделирования и реконструкции 3D форм» уже доступна по ссылке
Читать полностью…Видеозаписи последних вебинаров:
➡️Егор Шиков, NSS Lab, Университет ИТМО, Россия
Мета-автоматическое машинное обучение с помощью графовых нейронных сетей
➡️Михаил Гущин, ФКН НИУ ВШЭ, Россия
Генеративные модели в науке и индустрии
➡️Влад Большаков, НТР, Россия
Псевдоразметка для разрешения кореферентности при использовании авторегрессионного структурированного предсказания
Завтра состоится вебинар НТР «Генеративные модели в науке и индустрии»
Спикер: Михаил Гущин, ФКН НИУ ВШЭ, Россия
Когда и во сколько: 27 июня 2023, 14:00 MCK
Спикер о вебинаре:
Генеративные модели являются одной из передовых областей в машинном обучении. Они в первую очередь ассоциируются с изображениями и получили общемировую популярность благодаря сетям для генерации изображений по текстовому описанию: Dall-E, Imagen, Stable Diffusion, и Midjourney.Но в этом докладе мы не будем говорить про картинки, а обсудим применения в естественных науках и индустриальных приложениях.Мы рассмотрим как генеративно-состязательные сети помогают ускорить симуляцию откликов в детекторах экспериментов физики высоких энергий; как нормализационные потоки могут использоваться для поиска Новой физики на Большом адронном коллайдере; как они помогают астрономам изучать сверхновые и решать обратные задачи по реконструкции параметров солнечной атмосферы и некоторые другие приложения. В заключение рассмотрим несколько примеров из индустрии, где генеративные модели используются для моделирования поведения сложных установок и систем.
Регистрация на вебинар: https://ntrlab.zoom.us/webinar/register/2016215990886/WN_ijZRDoztRxKMRQKW9Pavhw
Страница вебинара на сайте НТР: https://ntr.ai/webinar/nauchno-tehnicheskij-vebinar-generativnye-modeli-v-nauke-i-industrii/
Youtube: NTRLabs.Webinar" rel="nofollow">https://www.youtube.com/@NTRLabs.Webinar
Видеозапись вебинара Влада Большакова «Псевдоразметка для разрешения кореферентности при использовании авторегрессионного структурированного предсказания» уже доступна по ссылке: https://youtu.be/Mm-514mZ9aE
Читать полностью…Завтра состоится вебинар «Псевдоразметка для разрешения кореферентности при использовании авторегрессионного структурированного предсказания»
Спикер: Влад Большаков, НТР, Россия
Когда и во сколько: завтра 6 июня, 18:00 MCK
Спикер о вебинаре:
Разрешение кореферентности является важной задачей в области обработки естественного языка, поскольку она используется как элемент решения таких задач, как поиск информации, суммаризация текста, ответы на вопросы по тексту, анализ тональности текста и машинный перевод.
Мы обсудим эффективность различных подходов к разрешению кореферентности на русском языке, а также поговорим об участии и победе в Dialogue Evaluation 2023 RuCoCo, где нами были исследованы способы увеличения размера набора данных с помощью псевдоразметки и перевода данных с другого языка. Используя такой подход, нам удалось утроить размер набора данных, сделать его более разнообразным и улучшить результаты авторегрессионного структурированного предсказания в задаче разрешения кореферентности.
Регистрация на вебинар
Страница вебинара на сайте НТР
NTRLabs.Webinar">Youtube
⚡️Завтра встречаемся на вебинаре Юрия Кистенева "Медицинская диагностика на основе спектрального анализа выдыхаемого воздуха методом лазерной фото-акустической спектроскопии и машинного обучения"
🗣Спикер: Юрий Кистенев, Томский государственный университет, Томск, Россия
🕰 Завтра 25 апреля 2023, 14:30 MCK
🖊Юрий о вебинаре:
В докладе будут обсуждаться методические и технические проблемы, связанные с реализацией метода медицинской неинвазивной экспресс-диагностики на основе спектрального анализа выдыхаемого воздуха. Будут обсуждаться подходы к решению указанных проблем. Будут представлены результаты реализации данного метода медицинской диагностики рака легких и острого инфаркта миокарда.
Дополнительные ссылки:
ИИ научили выявлять инфаркт миокарда по «летучим» биомаркерам
Сайт мероприятия
✅Регистрация на вебинар✅
Видеозапись вебинара Михаила Киселева "Импульсные нейронные сети и нейроморфные процессоры": https://youtu.be/hkqt3AieSIg
Читать полностью…Нео-РНН или Make RNNs great again
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.
Читать дальше
“Attention is all you need” — так говорило название статьи, представившей трансформеры в 2017. Какое-то время так и казалось, но сейчас архитектуры без внимания возвращают себе былую популярность. Какие-то делают ставку на гейты, какие-то — на свертку, какие-то — комбинируют их. Есть вполне успешные примеры, получалось даже добиться лучшего масштабирования, чем у внимания. Однако, например, на Pile лучшие сверточные модели проигрывают в перплексии трансформером на 2.1 балла.
Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.
Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.
Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.
Читать дальше
Выбор данных, SLM и Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.
При чем здесь Шмидхубер
Всем привет! Мы возобновляем канал и обновляем формат.
Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.
Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.
Сегодня в 16.00мск встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2".
Регистрируйтесь:)
⚡️На следующей неделе встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2"
🗣Спикер: Иван Бондаренко, Новосибирский Государственный Университет, Новосибирск, Россия
🕰 Вторник 10 октября 2023, 16:00 MCK
🖊Иван о вебинаре:
Современные нейросетевые алгоритмы распознавания речи, несмотря на демонстрацию впечатляющих успехов на ряде бенчмарков, всё ещё недостаточно устойчивы к сдвигу данных. Нередкой является ситуация, когда модель показывает весьма низкий уровень ошибок на тестовой части одного из популярных академических датасетов (например, Librispeech или CommonVoice), но качество этой же модели на реальных данных в ходе эксплуатации существенно отличается в худшую сторону.
В своём докладе я попробую охарактеризовать проблему устойчивости нейросетевых алгоритмов распознавания речи и рассмотреть подходы к её решению в рамках парадигмы минимизации инвариантного риска (invariant risk minimization). Отдельное внимание я уделю вопросу о том, что в рамках данной парадигмы может являться средой (environment) для алгоритма распознавания речи и как автоматизировать разметку обучающих речевых корпусов по средам.
Сайт мероприятия
✅Регистрация на вебинар✅
Всем привет👋
Во вторник ждем вас на вебинаре «Глубокое обучение для моделирования и реконструкции 3D форм»
Спикер: Евгений Бурнаев, Сколтех, Россия
Когда и во сколько: 29 августа 2023, 17:00 MCK
Спикер о вебинаре:
В докладе я расскажу об одной из важнейших для компьютерного зрения задач – моделирование и реконструкция 3D объектов. Действительно, современные приложения в области компьютерной графики и анимации, построения сцен для виртуальной и дополненной реальности и робототехники были бы невозможными без точных алгоритмов анализа и моделирования трехмерных изображений, учитывающих геометрию сцены. Вы узнаете об основных этапах, которые необходимо пройти при реконструкции 3D объектов, и о том, какие методы на этих этапах можно использовать, а также о том, какие данные для этого требуются и каким образом их можно собирать.
✔️Регистрация на вебинар
🌐Страница вебинара на сайте НТР
📹NTRLabs.Webinar">Youtube
Всем привет👋
Завтра состоится вебинар «Мета-автоматическое машинное обучение с помощью графовых нейронных сетей»
Спикер: Егор Шиков, NSS Lab, Университет ИТМО, Россия
Когда и во сколько: 11 июля 2023, 13:00 MCK
Спикер о вебинаре:
В докладе освещаются подходы к автоматизации построения пайплайнов автоматического машинного обучения на основе нейронных сетей, графовых моделей и обучения с подкреплением. Рассматриваются эксперименты по обоснованию возможности применения предложенных методов, а также возникающие при этом проблемы. Кроме того, представляется библиотека MetaFEDOT с открытым исходным кодом и описываются реализованные в рамках ее решения.
✔️Регистрация на вебинар
🌐Страница вебинара на сайте НТР
NTRLabs.Webinar">📹Youtube
Наши партнеры из Новосибирского Академгородка, организующие XAI-семинары, приглашают на Всемирный Конгресс «ТЕОРИЯ СИСТЕМ, АЛГЕБРАИЧЕСКАЯ БИОЛОГИЯ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ: МАТЕМАТИЧЕСКИЕ ОСНОВЫ
И ПРИЛОЖЕНИЯ», который пройдет 26-30 июня.
Некоторые доклады, которые прозвучат сегодня:
➡️«Системы, теории сознания, философия искусственного интеллекта, роль формализации и математического моделирования»
➡️«Сознание в нейронных гиперсетях»
➡️«Архитектура когнитивной системы человека и искусственный интеллект»
➡️«Как измерить искусственный интеллект»
➡️«О физике сознания и его формировании»
Подробная программа на 26-30 июня
Сайт конгресса
Сайт Новосибирской площадки Конгресса
Онлайн трансляции докладов:
Русский: https://www.youtube.com/watch?v=JiWocxN5rlE
Английский: https://www.youtube.com/watch?v=b-J351av9YQ
Китайский: https://www.youtube.com/watch?v=URgbs0pX_tU
Всем привет!
Пока готовится видеозапись вчерашнего вебинара от Влада Большакова, мы хотим рассказать про наших партнеров из Новосибирского Академгородка.
Академик РАН С.С. Гончаров и PhD А.В. Нечесов ведут спецсеминары "Объяснительный искусственный интеллект", которые проходят в формате заседаний. 1-6 заседания уже можно посмотреть на YouTube-канале
👉 Седьмое заседание пройдет сегодня 7 июня в 18:00НСК (14:00МСК)
Присоединиться очно: НГУ ауд.5273
Присоединиться онлайн: Телеграм чат: /channel/XAITALKS
Подписывайтесь на Telegram-канал спецсеминаров "Объяснительный искусственный интеллект".
❗А ещё! Мы планируем в рамках партнерства провести различные совместные мероприятия. Пишите, какие темы Вам были бы интересны.
И пишите @heabyfik, если у Вас есть материалы для выступления. В нынешние времена тяжело найти спикеров, но мы намерены дальше развивать сообщество.
Видеозапись вебинара Юрия Кистенева "Медицинская диагностика на основе спектрального анализа выдыхаемого воздуха методом лазерной фото-акустической спектроскопии и машинного обучения"
Читать полностью…Долгожданная видеозапись декабрьского вебинара Влада Большакова "Внутренняя мотивация для мультиагентного обучения с подкреплением": https://youtu.be/AYXK0pcIZvY
Читать полностью…Завтра Александра Антонова из МФТИ выступит на вебинаре "Подходы к кастомизации end-to-end моделей распознавания речи на основе пользовательского словаря"
🗣️Спикер: Александра Антонова, МФТИ, Москва, Россия
🕰️Когда и во сколько: 21 марта 2023, 14:00 MCK
📢Александра о вебинаре:
Кастомизация с настройкой на словарь пользователя требуется во многих системах распознавания речи и представляет особую проблему для end-to-end систем, не давая им заменить гибридные системы в продакшене. В докладе я рассмотрю основные подходы к кастомизации, более подробно остановлюсь на подходе Microsoft[5], который работает наподобие спеллчекера и представлю нашу новую модель, которую я делала для опенсорсной библиотеки Nvidia NeMo.
Дополнительные материалы:
[1] Sim et al. 2019 Personalization of end-to-end speech recognition on mobile devices for named entities
[2] Jain et al. 2020 Contextual RNN-T for open domain ASR
[3] Yang et al. 2023 Two stage contextual word filtering for context bias in unified streaming and non-streaming transducer
[4] Zhao et al. 2019 Shallow-Fusion End-to-End Contextual Biasing
[5] Wang et al. 2022 Towards Contextual Spelling Correction for Customization of End-to-end Speech Recognition Systems
✅Регистрация на вебинар: https://ntrlab.zoom.us/webinar/register/2016215990886/WN_cwXjWil8StuMAUS3Aa9HJA
✅Страница вебинара на сайте НТР: https://ntr.ai/webinar/nauchno-tehnicheskij-vebinar-podhody-k-kastomizaczii-end-to-end-modelej-raspoznavaniya-rechi-na-osnove-polzovatelskogo-slovarya/
Завтра Михаил Киселев выступит на вебинаре "Импульсные нейронные сети и нейроморфные процессоры"
🗣️Спикер: Михаил Киселев, Чувашский государственный университет Частное учреждение "Цифрум" АО "Лаборатория Касперского", Чебоксары, Россия
🕰️Когда и во сколько: 28 февраля 2023, 15:00 MCK
📢Спикер о вебинаре:
Такие появившиеся не так давно области искусственного интеллекта (ИИ) как импульсные нейронные сети и не-фоннеймановские нейроморфные вычислители сейчас рассматривается многими исследователями как перспективные с точки зрения как создания разнообразных автономных интеллектуальных устройств, так и построения больших вычислительных систем для реализации сильного ИИ. Это следствие присущих таким системам преимуществ – на порядки меньшее энергопотребление по сравнению с традиционными нейросетевыми решениями, полная асинхронность и, следовательно, потенциально неограниченная масштабируемость, возможность реализации непрерывного обучения.
Подобно нейронным ансамблям мозга, нейроморфные системы оперируют информацией, представленной не в виде чисел, а как последовательности атомарных событий – спайков (в мозге им соответствуют нервные импульсы). В докладе рассматривается построение вычислительных процессов на основе спайков, модели импульсных нейронов и нейросетей, принципы их обучения, моделирования когнитивных процессов на их основе, а также их аппаратная реализация в специализированных нейрочипах.
Страница Михаила Киселева на ResearchGate: https://www.researchgate.net/profile/Mikhail-Kiselev-5
✅Регистрация на вебинар: https://ntrlab.zoom.us/webinar/register/2816215991698/WN_-gIiZVBiQNqMOlDkTclMxA
✅Страница вебинара на сайте НТР: https://ntr.ai/webinar/nauchno-tehnicheskij-vebinar-impulsnye-nejronnye-seti-i-nejromorfnye-proczessory/
Youtube: NTRLabs.Webinar" rel="nofollow">https://www.youtube.com/@NTRLabs.Webinar