nadlskom | Unsorted

Telegram-канал nadlskom - что-то на DL-ском

3653

Авторка активно хочет зашарить все на свете и делится в этом канале. NLP ⊂ AI → NLP/CV/speech ⊂ AI Связаться со мной @nadlsk Тг буст канала: https://t.me/nadlskom?boost Чат айтишниц: https://t.me/+n-WIEfhc3ZFhOGIy Реклама очень дорого.

Subscribe to a channel

что-то на DL-ском

Если хотите видеть истории, можете тыкнуть на ссылку и проголосовать. Пока не знаю, что будет, но мы придумаем :)

/channel/nadlskom?boost

Читать полностью…

что-то на DL-ском

Люди: 👉🏼👈🏻 знаете, нейронные сети дороже, чем дешевая человеческая рабочая сила и ошибаются довольно часто

Также люди: CO2 человек тратит пиздец много, а нейронки нет. Это перекроет все остальные минусы!!🤌🏼

Читать полностью…

что-то на DL-ском

МОЕ ЛЮБИМОЕ, выяснение где же кроются фактологические зависимости у моделей.

Многие подобные статьи не то, чтобы решают проблему галлюцинаций, так как в принципе неизвестна причина такого поведения декодеров. Но в последнее время исследователи приходят к выводу, что возможно причина кроется в функции правдоподобия между распределением данных и моделью. Поэтому не зная факт, модель начинает присваивать ошибочно большую вероятность неизведанному, просто потому, что она должна найти вероятностный токен🐧

Авторы ссылаются на статьи поиска фактологических зависимостей в трансформерах, которые в основном приходят к выводу о проявлении низкоуровневой информации на более ранних слоях, и более важной для семантики языка на поздних слоях, подобно алгоритму решающих деревьев. Так вот, как же убрать false позитивы предсказаний, если у нас есть на ранних этапах более низкоуровневая информация, которая может перекрыть нестабильность вероятностей оценки? Конечно же взять argmax между этими слоями, aka DoLa)) (тык, тут статья) честное слово, я с такими оригинальными решениями, свой диплом бакалавриата писала .

Ну вот, чтобы доказать отличие распределений вероятностей, авторы даже построили матрицу измерения дивергенции Дженсена-Шеннона (JSD) между первыми и последними слоями. И кончено же обнаружили, что на последних слоях, модель начинает предсказывать факты, которые выучивала. Кроме того, с той же дивергенцией, они еще и выбирают максимально отличающиеся слои, разницу которых в итоге берут для предсказания. Итоговая формулка в третьем вложении как итог мучительных математических выводов для решения проблемы

🖥Ну а вообще способ хотя бы можно легко протестить благодаря репозиторию. Так как авторы обещают небольшую задержку, я к своим задачам и проектикам прикручу, посмотрю, что по качеству

Читать полностью…

что-то на DL-ском

NVIDIA анонсировало по для ускорения LLM для людей без одной почки, но с H100

TensorRT-LLM объединяет компилятор глубокого обучения TensorRT, оптимизированные ядра из FasterTransformer, предварительную и последующую обработку, а также коммуникацию между несколькими GPU/узлами в простом, открытом Python API. Этот API предназначен для определения, оптимизации и выполнения LLMs для вывода в производственной среде

Читать полностью…

что-то на DL-ском

Запустите yalm100b из transformers как раз вышла имплементация!

Читать полностью…

что-то на DL-ском

Тут друзья запускают дейстивительно умный дейтинг с самой крутой(когда нибудь доедет до папиры) системой рекомендаций, а главное - с крутыми людьми!

Го тыкать и фидбечить!

@smartdatebot

Читать полностью…

что-то на DL-ском

Какие же ds и математика в обширном смысле могут быть красивыми☺️. Нахожу красоту в графическом представлении многих методов. Вот например на гифке показана визуализация работы метода Annoy

Читаю сейчас учебник ШАДа, и нашла информацию, что в Spotify рекомендательной системе был (может конечно и до сих пор есть, мы не знаем) алгоритм KNN, а собственно поиск его соседей осуществлялся тем самым Annoy, который показан на графке. То есть примерное нахождение ближайшего соседа с помощью деления гиперплоскостью пространства на 2, потом каждого еще на 2, и дальше вы догадались

Хотела поделиться такой красотой, и ушла снова вспоминать основы с помощью этого учебника. Очень советую всем, кто еще его не читал 🥰

Читать полностью…

что-то на DL-ском

Всем привет! В эту субботу в 14:00 МСК будет онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные сети. Внутри будет куча крутых архитектур которые полезно знать MLE инженерам из топовых перцентилей!

Читать полностью…

что-то на DL-ском

Други, @cointegrated, выпустил фикс+обновление encodechka теперь можно смело выбирать лучший энкодер для себя и бенчить свои.

Появился новый лидер multilingual-e5. Кстати, у нас тоже данная модель показывает топ результаты. Если говорить вкратце me5 это LAbSE на максималках, особенности обучения:

- чистка всякого разного а-ля reddit, CCrwal, stackexchange v др.
- предобучение в контрастив режиме на CCPairs.
- файнтюн MS-MMARCO.
- за основу взята XLM-RoBERTA (с неё заинитили веса).
- меры качества конечно retrieval'ные.

P. S. Сори за душность, @cointegrated.

Про бенч тут: /channel/izolenta_mebiusa/252

Читать полностью…

что-то на DL-ском

Сегодня проснулась без премиум телеграмма | написала пост без крутых смайликов | нервно перебрала все свои карты для оплаты | нашла способ платить с российской карты | успокоилась | добавила дурацкий смайлик в пост | осознала всю дурь ситуации и что сама хочу отдать свои деньги

(Пост без смайликов, но у меня ломка)

Читать полностью…

что-то на DL-ском

Наткнулась на просторах интернетика на collab для обучения DreamBooth на SD-XL 1.0 и не только. Без написания кода. Просто меняйте параметры и погнали обучать.

Читать полностью…

что-то на DL-ском

На просторах телеграмма нашла прекрасные генерации с Midjourney от дизайнера.

Мое отношение к искусству сетками всегда было своеобразным. Вот такой стиль, как представлен во вложениях, мне безумно симпатичен. Все, что остается цифровым – это класс (заставки, плакаты, вывески и тд). Но я считаю, что человека не заменить в живописи. Я скорее пойду на выставку реальных людей, нежели буду смотреть на цифру, которую я, в целом, могу посмотреть в сети

Сейчас происходящее становится похоже на то, что некоторых типов дизайнеров, вполне, можно заменить нейронками. НО, в моем понимании, дизайнер с искусственным интеллектом в руках – непобедим. Я бы вряд ли додумалась вбивать в MJ такие простые промпты, как были при генерации этих картинок. А творческий человек додумался, и получилось что-то невероятно красивое.

Вывод сего поста следующий – не надо боятся замены людей искусственным интеллектом. Это лишь часть прогресса, но люди, которые начнут применять такой мощный инструмент в своей нише, кажется, будут востребованы еще долгие годы. А вы что думаете по этому поводу?

Читать полностью…

что-то на DL-ском

Я все собираюсь начать зашаривать по-серьезному диффузионки, но этот блогпост довольно интересен и без детального понимания. С меня определенно лайк автору

Читать полностью…

что-то на DL-ском

Я каждый раз, когда не просто открыла файл с данными для обучения, а собрала самостоятельно без разметки

Читать полностью…

что-то на DL-ском

Нередко бывает, что нужно подготовить объяснения к презентациям архитектуры моделей или подготовиться к собеседованиям например. Тогда требуется спустится до базы, и вспомнить, как детально работает тот или иной механизм.

Именно для таких случаев я нашла офигенный видосик про то, как устроен self attention и cross attention. В формате не просто: 😡«ну там формула всем известная, перемножим», а именно что, зачем, почему (детали)🤓

Короче, видос одобрен, кому надо берите на особые случаи, освежить память

🎞Видео

Читать полностью…

что-то на DL-ском

Классный блог-пост на medium, в котором собраны многие способы prompt инженерии. Здорово, что они собраны в одном месте, и здорово, что также упоминается про градиентные подходы, а не только то, что поможет промптить чатгпт, ы

Читать полностью…

что-то на DL-ском

Deepmind придумал PonderNet, который умеет предсказывать дополнительным выходом, вероятность выхода из слоя, а чуваки придумали объединить RoBERTa с ним, чтобы рофлово назвать PRoBERTa, правда по метрикам ALBERT дал апгрейд побольше, поэтому PALBERT

Суть все та же, вероятность выхода на текущем слое, которая примешана в loss модели с помощью KL дивергенции

Походу, чтобы метод работал норм, и выходил заранее без неожиданностей, примешан Q-exit, который по сути накапливает вероятность, и сигнализирует о том же самом, но более точно. А также модифицирован подход оригинального PonderNet и использует для своего предсказания не 1 MLP, а hidden state-ы аж с трех предыдущих слоев сразу

Очевидно, ресерч удачен и заслуживает лайка

🖥Код

Читать полностью…

что-то на DL-ском

Примерно один раз в месяц у меня бывают порывы написать какой-нибудь road map для вкатывальщиков в NLP, основанный на том, что помогло когда-то мне. Тем самым, помочь окружающим двигаться к своей цели еще быстрее💨.

В прошлый раз, n-ое количество ссылок, которое я присылала студентам ВШЭ, у которых менторила проект, разлетелось по студенческим чатам, хочется дополнить информацию в этом посте, и дать понимание ценности, которую получите после прочтения того или иного источника.

Во-первых, самое важное, на что хочется обратить внимание. В основном все студенты думают, что для погружения в DL, надо сначала заботать весь выш мат, статистику, теор вер, прости господи R и sql, потом погружаться только в ML. Так вот, по факту математическая база – это очень хорошо, но ее можно будет успеть нагнать потом. Единственное было бы хорошо, знать основы синтаксиса Python. Тут вам в помощь мини-курс pythontutor

Если вы полный ноль, я бы посоветовала понять, как интуитивно работают нейронные сети с книгой «грокаем глубокое обучение» или зарегаться на курс DLS (там есть всегда 2 потока – полегче и посложнее)

Вы поняли как работает лог рег, это круто, пусть без углубления в математику, но как относится градиентный спуск к обновлению весов модели – уже рассказать сможете. Тогда можно идти дальше. Во-первых есть абсолютно прекрасный курс, автором которого выступает Лена Войта. В нем вам расскажут что такое текстовые эмбединги и доведут за ручку до трансформеров.

Во-вторых стоит отдельно обратить внимания на такие темы, как формирование эмбедингов: word2vec, fasttext, tf-idf. Если усвоили это, переходите к таким темам, как RNN, LSTM, GRU, BRNN (сейчас не используется, но возможно на собеседовании когда-нибудь спросят что это за дичь, и чем отличается GRU от оригинального LSTM)

Затем можно переходить к трансформерам, потому что сейчас обработка текста живет на них.

Вот обзор от Jay Alammar на статью attention is all what you need. Можно забить на ютуб transformers и будет миллион видео от талантливых лекторов на эту тему. Также основой для работы трансформеров является attention механизм, я его в свое время пыталось понять данной статьей и лекцией от Радослава Нейчева

Теперь осталось только практиковаться, в этом поможет прекрасный курс от huggingface, все таки сейчас это самая большая хранилка моделей, и по фитбеку от знакомых nlp-ишников и меня, в наши дни код пишется в основном на комбинации transformers+pytorch (не дискриминирую никакие другие либы, фанаты lightning, tensorflow и др, не пинайте ногами)

Надеюсь было полезно, тут только те ссылки, которыми я сама пользовалась в получении знаний😯☺️

Читать полностью…

что-то на DL-ском

Успешный день ds-а выглядит именно так, особенно если это делается за час до дейли

Читать полностью…

что-то на DL-ском

Я проснулась после марафона чтения ШАДовской книжки с новыми методами PEFT нет, я еще не помешалась на адаптерах, но до этого не долго👨‍🔬

Compacter, 2021 обещает быть лучше по бенчам, чем мой излюбленный AdapterFusion от DeepMind , но в моем понимании в пределах погрешности. Тем не менее график и результаты – 2 первых вложения. При этом в чем еще плюсы: он также как AdapterFusion и soft prompts позволяет в мультитаск, а также решает проблемы reparametrization-based (хранение в памяти проекционных матриц и исходных. При чем мы говорим о времени до LoRA. В связи с этим, да, эта проблема еще не решена ею и существует); нестабильности и чувствительность к инициализации soft prompts; а также увеличению количества параметров на инференсе адаптеров

Небольшое отступление🙃
На первом скрине также видно, что подход сравнивали с методом BitFit (2021), который относится к селективным методам и соответсвенно подобно pruning обучает sparse представление весов сети. Так вот этот метод при оптимизации оставляет не замороженными только bias-terms и последний слой (3,4 скрины вложений)

Итак, за счет чего compacter сильно уменьшает сложность хранения в памяти и решает проблемы раннее существующих методов, описанных выше:

Начитавшись статьи PHM, в которой авторы предлагают эффективную состыковку матриц с применением суммы произведений Кронекера, которая позволяет уменьшить сложность на 1/n, авторы применяют этот подход к специфичным параметрам адаптера и их общим параметрам (а точнее к их проекционным матрицам). Красивую визуализацию этого процесса можно найти на 5-ом вложении. При чем, почему авторы в принципе акцентуируются на использовании общих параметров? так как при «глубокой» цепочке параметров, модель будет способна запоминать только верхнеуровневые статистики обучающих данных.

🖥Код Comapacter
🖥Код BitFit

Читать полностью…

что-то на DL-ском

Знаю что продукт топ, знаю как делали его, залетайте

Читать полностью…

что-то на DL-ском

Примерно так чувствую себя, когда вижу требования 6+ опыта к кандидату

Читать полностью…

что-то на DL-ском

Прямо сейчас идет лекция в bdc. Ожидается много полезной инфы, заходите тоже!

Читать полностью…

что-то на DL-ском

Самый полезный совет, который мог быть найден в этом канале: 🕺если что-то не понимаешь, уходи на месяц от этого занятия, придешь, все быстро поймешь

У меня так было с этой статьей. Я ее мучала постоянными прочтениями, но не понимала, как это возможно. Сегодня к ней вернулась, и оказалось все очень легко. Сейчас расскажу.

Prefix-tunning (2021) был третьим по хронологии выдоха PEFT методов, и основал обширную группу Soft prompts. Алгоритм следующий: давайте возьмем красивую идею заморозки предобученных весов от предшественников. Но вставлять будем обучаемые слои не как в адаптерах, а добавлять prefix, который и будем настраивать. То есть мы морозим слой эмбедингов, но оставляем не замороженным prefix

Все😐. Помимо того, что мы уменьшаем количество параметров при ft, мы еще и можем делать «контролируемое обучение». Например, хочется обучить один префикс с определенным персонажем, а другой с другим. Получится модель, которая при активации одного из префиксов, говорит в определенной манере. Кажется, что фантазия для такого контролируемого обучения может быть безгранична. Дает большой потенциал к multitask 🌈

🖥 Код

Читать полностью…

что-то на DL-ском

Вышла модель с адаптивными вычислениями AdaTape от Google

Адаптивность вычислений заботит ресерчеров Google уже долгое время. Тот же MoE, который затрагивался несколько постов выше, яркий пример адаптивности. То есть FLOPs модели зависят от сложности примера, чем меньше сложность задачи, тем меньше модель потратит на вычисления

Идея модели в том, что есть Tape Bank, который может управляться входными данными, например путем извлечения некоторой дополнительной информации, которую не содержит исходный набор токенов. Или в Tape Bank может содержаться набор обучаемых векторов. В итоге эти Tape Tokens добавляются к обычным, после чего уже и происходит извлечение информации архитектурой трансформер

🍞Если совсем просто, можно понять что делает модель следующим образом: представьте, что вы читаете рассказ, но у вас есть не весь текст, а слова маркеры, с помощью которых, вы понимаете смысл книги, но не тратите так много усилий, как было бы при прочтении всего текста сразу

Читать полностью…

что-то на DL-ском

Классический мл больше не будет прежним, или как Яндекс сами запускают вместо градиентного бустинга в каждый дом млщика –трансформер 😮

Наверняка многие экспериментировали при анализе табличных данных с помощью трансформера, а потом ходили в непонятках, почему же все таки CatBoost срабатывает лучше, так вот, теперь это в прошлом. Появился TabR (retrieval для табличных данных), который на бенчмарках бьет град бустинг (логично, иначе статьи бы не было) 🤨

Итак, поверхностно весь секрет в том, что ребята не просто натравливают retrieval, а [энкодят –> на каждую фичу подбирают ближайшего соседа по симилярити –> конкатят с исходным энкодингом –> делают предикт] (см вложения) все, расходимся, чуваки по-умному заюзали идею

Кончено, там очень много деталий в ресерче, про которые хотелось бы упомянуть. (Во вложениях таблица с каждым пунктом, и что он дал на eval)

А) В value модуль аттеншена добавили таргет labels
B) Имперически доказали, что тут расстояние симилярити надо измерять L2 расстоянием, и отказались от query матрицы соответственно
C) вместо KNN для ближайших соседей взяли DNNR, который содержит поправочный член, которые по сути является производной
D) применили cross attention и убрали скейлинг на размерность матрицы K в формуле внимания

Метрики на бенче GBDT во вложениях

🖥 код

Читать полностью…

что-то на DL-ском

#чтивонаночь

Давно обещал разогнать про t2i, поэтому разбил текст на несколько частей.

почитать можно alexwortega/Yjub5vxYYPZ">тут

Читать полностью…

что-то на DL-ском

В последнее время, подсела на иглу адаптеров, поэтому сегодня хочу написать про подход AdaMix (2022), идея красивая, перетекла от MoE (MIXTURE-OF-EXPERTS), но со множеством своих доработок из побуждения экономии ресурсов (действительно, если мы имеем дело с PEFT методами, а о чем еще заботиться?)

В чем суть MoE бегло? Из названия в целом понятно. Берем данные, прогоняем через разные разреженные параллельные слои, получаем «экспертов», лучшие результаты которых можем обрабатывать далее. В чем отличие от ансамбля? В том, что данные показываем экспертам не все, а разные части. Соответсвенно, обучаем и то, по какому пути пойдем, при активации конкретной части данных

Получается логично взять вместо обычных слоев адаптивные слои и также выбирать лучшего эксперта, но!! Мы же понимаем, что тут получается какое-то противоречие, вроде PEFT методы направлены на уменьшение количества параметров модели, а тут наоборот «ансамбль адаптеров», что никак не уменьшит количество параметров, а дай бог придет количество в 0

Так какие для этого решения?🙂

1. Стохастическая маршрутизация
У адаптера есть up и down, то есть это отдельный слой, который не совпадает по размерности. Мы можем случайно выбирать из множества экспертов up и из множества down (см вложения). Таким образом, мы не добавляем дополнительных обучаемых параметров на задачу выбора эксперта. Такая стахостическая маршрутищация позволяет получить разные представления задачи.

Но как же понять, какой эксперт использовать на инференсе? Именно это решают следующие пункты

2. Consistency regularization
Изменяем формулу loss с применением дивергенции Кульбака-Лейблера (см вложения). Такой подход позволяет шерить информация между адаптерами

3. Усреднение матриц адаптеров
Используется этот пункт только на инференсе. Позволяет не только смягчить несогласованность регуляризацией, но и уменьшить количество потребляемых FLOPs на инференсе

Такой подход позволяет добиться результатов выше, чем обычные PEFT методы, а также его прелесть в том, что мы можем таким образом работать не только с адаптерами, но и, со всеми любимой LoRA. Ведь по сути, нам нужно только выбрать экспертные слои 😮

🖥 код

Читать полностью…

что-то на DL-ском

Я так долго собиралась заводить тикток/ютуб, чтобы рассказывать про сетки, пока это хайп. Теперь судя по моим рекомендациям в твиттере, чтобы залететь в хайп, мне было бы неплохо освоить химию с 9 класса и дальше))

Читать полностью…

что-то на DL-ском

Стала появляться в сети информация о регистрации OpenAI товарного знака для GPT-5 (тут ссылки на 2 разных источника) 🖥

Что нового?
– Конвертирование аудио файлов в текст
– Обработка speech+text
– Распознание речи

Также на недавнем мероприятии 7 июня, CEO OpenAI Sam Altman сделал заявление

«Нам предстоит много работы перед GPT 5. На это уходит много времени. Мы, конечно, не близки к этому. Нужно больше проверок безопасности. Хотел бы я рассказать вам о сроках проведения следующего GPT».

Это значит, что мы уже совсем скоро увидим мультимодальную (фото, текст, речь) обновленную GPT?

Читать полностью…
Subscribe to a channel