nadlskom | Unsorted

Telegram-канал nadlskom - что-то на DL-ском

3648

Авторка активно хочет зашарить все на свете и делится в этом канале. NLP ⊂ AI → NLP/CV/speech ⊂ AI Связаться со мной @nadlsk Тг буст канала: https://t.me/nadlskom?boost Чат айтишниц: https://t.me/+n-WIEfhc3ZFhOGIy Реклама очень дорого.

Subscribe to a channel

что-то на DL-ском

В этом году очное выступление на datafest дало мне не только положительные эмоции и игрушку 😪, но и знакомство с интересными ребятами из ВК. Недавно они запустили свой тг-канал, в котором рассказывают про ML в компании.

🤓Дисклеймер: Данный пост не реклама – многие их посты действительно показались мне полезными. Абсолютно точно не ради еще одной игрушки

Несколько тем, которые привлекли моё внимание:

💚Создание пользовательских эмбеддингов и работа с поведенческими данными. Применимость темы довольно обширная: от персональных рекомендаций до анализа пользовательского пути и предложения дополнительных услуг.

💚Я люблю читать про оптимизацию и высоконагруженные сервисы. У ребят есть опыт в этой области, и они делятся своими наработками.

💚Также было познавательно почитать материалы о процессе дискавери. Продакт-менеджеры рассказывают о своем опыте работы в этом направлении.

Так как посты выходят от людей из разных команд каждый может найти чтиво под себя. + расширить свой кругозор. Ребята сказали, что очень рады новым падписщекам, велком в их канал 🙂

Читать полностью…

что-то на DL-ском

🚀 Уважаемые коллеги, тех, кому интересна математика и машинное обучение, приглашаем Вас принять в неформальном проекте.

Минимальное требование - Вы знакомы с Питоном, и у Вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп (в идеале GAP,SAGE).) Задача проекта - применить машинное обучение к теории групп. Целью проекта является написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.

Если Вам интересно участие - напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Решение пазла типа Кубика Рубика. Задача близка к прошедшему конкурсу Каггл Санта 2023. Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP,SAGE.

Достигнутые результаты - уже сейчас мы можем за минуты делать то, что авторы работы DeepCube делали за 40 часов на многих GPU.

Читать полностью…

что-то на DL-ском

Mistral выпустила свою первую модель Mamba! 🐍 Codestral Mamba 7B — это Code LLM, основанный на архитектуре Mamba2. Выпущена под лицензией Apache 2.0 и достигает 75% на HumanEval для программирования на Python.

Блог
Модель

@toshoseti

Читать полностью…

что-то на DL-ском

Дисклеймер: Автор данного канала задалбливает себя умными книжками и ничего не хочет сюда писать, кроме создания тупых мемов. Просьба понять и простить

Читать полностью…

что-то на DL-ском

Flash Attention 3 вышел!
[Статья][Блог]

Не прошло и года с выхода Flash Attention 2️⃣, как вышло продолжение, доведя серию до трилогии.

Метод

Основная идея первого Flash Attention в уменьшении передачи памяти 📝 между HBM и кэшом GPU, а второго - в отпимизации не matmul операций. Flash Attention 2 позволяет довольно эффективно использовать вычислительные возможности A100, но для более современной H100 все еще имеет место сильная недоутилизация - всего 35%.

В Flash Attention 3 отпимизируют Attention с учетом новых архитектурных особенностей Hopper+ - новых тензорных ядер с большим throughput, тензорным ускорителем памяти (Tensor Memory Accelerator) и поддержкой fp8.

Основных источника ускорения два:

1️⃣ Паралеллизация вычислений между GEMM (General Matrix Multiply) и иными операциями (softmax, RMSNorm).

Хоть по flops softmax и нормализации кажутся мизерными, они выполняются в 256 раз медленее на H100, потому могут занимать до половины времени матричного умножения. За их выполнение отвечают другие компоненты GPU, чем тензорные ядра для перемножения матриц, потому их можно обрабатывать параллельно.

2️⃣ Использование fp8.

fp8 позволяет почти удвоить скорость. Однако есть нюанс - выбросы, приводящие к большим ошибкам квантования. Чтобы избавиться от них используют incoherence processing из QuIP. Благодаря этому ошибка квантизации уменьшается до 2.6 раз.

Результаты

С fp16 удается достичь ускорения до 1.6-1.8 раз по сравнению с Flash Attention 2.

И под 1.2 PFLOPs c fp8 на больших последовательностях и с большими головами трансформера.

Обещают в будущем накатить в торч.

Вывод

Сильно! Ждем через год Flash Attention 4️⃣!

Читать полностью…

что-то на DL-ском

Какие научные исследования читают нормальные люди vs какие научные исследования читаю я

Мы разные💅. Women science core🥲

Читать полностью…

что-то на DL-ском

Попробовали уже Moshi?

Первая LLM для аудио, которая умеет одновременно слушать и отвечать 🕺

Интересные детали:
💛7B модель
💛Совмещение текста и звука (и отвечает звуком, и пишет ответ)
💛Скоро выйдет открытая версия на hf, которую можно будет дообучить на 30 минутах аудио данных
💛Содержит около 70 эмоций, которые может имитировать, но чет не умеет отвечать звуками животных например))

💅Мое очень важное мнение: вещица занимательная, хочется какой-то углубленный папир почитать, но пока что из моего теста, ощущаю, как очередную игрушку с ИИ

🔇Вот вам демка

Читать полностью…

что-то на DL-ском

Если вдруг, вам давно хотелось закодить без особых на то причин, 3D Render, поиграться с доп реальностью, покодить блокчеин или движки для поиска, то у меня к вам 0 осуждения, 100 понимания.

🖥Как раз на свободные вечера, нашла реп с подобными обучалками

Содержание на изображение👇

Читать полностью…

что-то на DL-ском

🔥Microsoft просто, без громкого анонса (опять!),выпустили новый интересный способ обучения моделей "Instruction Pre-Training, модели и датасеты.

При предварительном обучении с нуля модель 500M, обученная на 100B токенах, достигает производительности модели 1B, предварительно обученной на 300B токенах.

Доступны:
👀 Датасеты
🦙Llama 3 8B с качеством, сравнимым с 70B!
🔥 Общие модели + специализированные модели (медицина/финансы)


abs: https://arxiv.org/abs/2406.14491
models: https://huggingface.co/instruction-pretrain

@ai_machinelearning_big_data

Читать полностью…

что-то на DL-ском

#ПолезныеСсылочки

Давно хотела закинуть фреймворки, которые нашла для себя полезными последнее время и забрала в повседневную жизнь для своих целей

1. LaVague 🖱

Фреймворк, который способен принимать ссылки из интернета и, ходя по ним, выполнять действия, который вы введете в промпт

2. Surya 🌊

Наблюдала уже 2-3 недели как, что в тг ее обозревают, поэтому не хотелось писать обширный разбор, но на свои проекты забрала. Сетка умеет делать OCR, детекцию, Layot и Ordering, а также работает на 90+ языков, но подавать в нее стоит в основном документы, на что она и нацелена

Читать полностью…

что-то на DL-ском

RAG Benchmark 🏀

Если речь идет про использование LLM-ки в продукте/платформе, то скорее всего мы имеем ввиду RAG.

Прогрессивных пайплайнов все больше (обзор), но надо же понимать как их оценивать, особенно если они становятся все умнее. Обычный факт чекинг уже не катит.

Авторы одного из прогрессивных подходов CRAG (когда мы внедряем дополнительного оценщика для правдивости документов в базе, а потом либо преобразовываем в лучшую форму для подачи в контекст, либо идем искать в поиск) выпустили новый усложненный бенч для этих задач.

Во-первых, сам набор данных огромный - 4409 вопросно-ответных пар по различным топикам. Но не просто вопросы типа "Какая столица Франции?", а реальные сложные запросы - с условиями, сравнениями, агрегациями, нескольким связям и т.д. Плюс вопросы с разной популярностью - от мейнстримных до ооочень редких. 🥵

Во-вторых, для каждого вопроса есть поисковая выдача - до 50 реальных веб-страниц от Brave Search. Причем специально добавлены шумы и помехи, как в жизни.🔍

В-третьих, есть три разных задачи для тестирования систем: просто генерация ответа, генерация с использованием баз знаний и полный цикл - поиск, ранжирование и ответ. Это позволяет проверить все компоненты вопросно-ответной системы.

Единственный минус, что бенч only-English, вероятно когда-нибудь что-то да переведут еа другие языки🤷‍♂️

📖Статья тут
🤓Пока есть превьюшка датасета, ждем релиза

Читать полностью…

что-то на DL-ском

😉Несмотря на ссылки на обзор в предыдущем посте, я решила тезисно выделить за счет чего Disney добились апгрейд в качестве:

1️⃣Предварительная обработка изображений с помощью DWT (🚨) для извлечения компактных и информативных признаков на нескольких масштабах.
2️⃣Использование легковесных сетей для извлечения и агрегирования признаков из вейвлет-коэффициентов, что значительно снижает вычислительную нагрузку по сравнению с обычными VAE.
3️⃣Применение self-modulated convolution (когда ядра динамически изменяются) вместо нормализации по группам в декодере для лучшего баланса фичей.
4️⃣Обучение на более низком разрешении, затем переиспользование весов на более высоком для дообучения

🚨 Метод обработки сигналов, который разлагает сигнал (в данном случае изображение) на набор вейвлет-коэффициентов, представляющих различные пространственно-частотные составляющие сигнала (аппроксимирующий, горизонтальный, диагональный, вертикальный)

Читать полностью…

что-то на DL-ском

⚛️Инструмент для продвинутой генерации нейро-картинок

💭мультимодальность в 2к24 – хайп, не важно это end-to-end решения или просто собранные вместе инструменты, поэтому на просторах github появляется все больше репозиториев с подобными инструментами, иногда собранными на коленке, иногда не очень (тут скорее сложный случай, а не просто дерганье апишек):

💛Обучили несколько видов LLM-ок (LLaMA, phi) на генерацию кода в Canvas
💛После получения кода идет их постобработка промптов :
- Разбиение длинных промптов на более короткие (обычно <75 токенов)
- Построение префиксного дерева промптов для лучшего понимания и слияния концепций
💛Кодируем полученные промпты текстовым энкодером от CLIP, чтобы подавать дальше в диффузионку
💛Если есть региональные подсказки (типо направления на изображении лево, право и тд), они также конвертятся в маски (вспоминаем инпейнтинг). Позже в стебле они используются для модификации внимания в диффузионной модели, чтобы сфокусироваться на нужных регионах
💛По закодированным промптам генерируется начальное латентное представление с помощью генератора на основе кода Canvas. На основе цветов компонентов и их расположения, а также формирует условия (маски, префиксы, суффиксы) для каждого компонента.
💛Начальное латентное представление подается на вход диффузионной модели (в коде используется StableDiffusionXL в их модифицированном пайплайне). Как и соответсвенно закодированные промпты

У меня получились довольно неплохие картинки, если сравнивать со стеблем в оригинальном пайплайне

🏀тыкаться тут
🖥их репа тут

Читать полностью…

что-то на DL-ском

Карина Романова — Retrievalrevsys модификация архитектуры для учета текста в персональных рекомендациях

💬 В диких ягодках жутко хайпуют на Deep Structured Semantic Models для рекомендаций.

➡️ DSSM позволяет выполнять семантическое сопоставление пользователей с их историей покупок (или с другими эмбедами, как я понял, будь это графы, картинки, тексты и тд), что повышает релевантность рекомендаций.

Однако у исходной архитектуры DSSM есть свои ограничения. Например, она может сталкиваться с проблемой переобучения при использовании новых данных и с нехваткой данных для обучения моделей с нуля.

Также процесс внедрения текстовых данных в DSSM может быть весьма ресурсозатратным.

Чтобы преодолеть эти ограничения, была предложена новая универсальная архитектура для рекомендательных систем. Этот подход включает в себя несколько этапов: кодирование пользовательских данных, истории товаров и интеграцию шумовых данных для улучшения обучения и выводов.

Основная цель модели — отображение пространства между профилями пользователей и пространством товаров, что позволяет предоставлять более точные и релевантные рекомендации.

Важно отметить, что качество данных играет критически важную роль в успешной работе системы. Фраза "мусор на входе — мусор на выходе" подчеркивает необходимость использования чистых и релевантных данных для достижения высоких результатов. Токенизация, включающая разбиение текста на последовательности токенов, является важным процессом для обработки текстовой информации в модели.

Ну и одна из интересных вещей, которой болеют на маркетплейсах это — дедубликация.

Читать полностью…

что-то на DL-ском

​​Anthropic: Mapping the Mind of a Large Language Model

Anthropic выпустил новую статью/блогпост - про то, как "думает" Claude Sonnet.

Из среднего слоя модели извлекли фичи и стали их визуализировать и анализировать. Нашли группы признаков, относящимся к разным понятиям - городам, людям, научным понятиям и так далее. Было и более абстрактного - типа гендерного bias или багов в коде.

Но просто увидеть это - не так интересно, прикольно то, что они смогли "манипулировать" этими признаками. Условно говоря, можно повысить признак веса "Golden Gate Bridge", и модель будет значительно чаще говорить про него, даже когда вопрос вообще никак с ним не связан.

А теперь к любимой теме Anthropic - к безопасности и alignment. Один из найденных признаков отвечает за понимание скама/развода в письмах. Обычно модель отказывается генерить письма со скамом, но если увеличить вес этой "фичи", модель без проблем будет заниматься разводом лохов :)

Польза в том, что можно подавлять подобные "плохие" темы и улучшать безопасность модели - делать модель менее социопатичной, "отключать" ответы на определенные темы и так далее.

Правда, боюсь, что с тем же успехом можно делать и обратное - двигать какую-нибудь повестку, рекламировать товары или просто отстаивать какую-то точку зрения.

Желающие могут почитать подробности в блогпосте или в детальной статье с кучей клёвых визуализаций и инсайтов.

#datascience

Читать полностью…

что-то на DL-ском

Админка канала закончила трогать траву спустя 2 недели, поэтому считает своим долгом поделиться подборкой лучших мемов с которых хихикала это время.

Нормальный контент тоже будет. Скоро….

Читать полностью…

что-то на DL-ском

Как почувствовать себя изгоем?

В крипте: если у тебя нету ламбы, ролса и особняка на острове (или острова)

В ИИ: если у тебя нету PhD

Читать полностью…

что-то на DL-ском

Nvidia такие типо:

Ляляля, а у нас есть компьют🤡, не, ну а че вы не покупаете у нас достаточно? Купили бы, тоже смогли бы пользоваться синтой качественной🤗

Читать полностью…

что-то на DL-ском

Building Microservices: Designing Fine-Grained Systems 2nd Edition
Автор: Sam Newman (2021)

Читать полностью…

что-то на DL-ском

Quality Prompts - библиотека для использования и эвалюации распространенных техник промптинга из коробки. Например: few shot with Knn, system2attention, CoT итд.

GitHub
Colab

@toshoseti

Читать полностью…

что-то на DL-ском

Когда Microsoft дропнули код для нового способа построения графа для RAG системы, первая мысль в голове: а что изменилось в сравнении с такими фреймворками, как ontotext, NebulaGraph и Neo4j

Почитала их статью от апреля, рассказываю и вам, чтобы вы сэкономили свое время 😊 :

💛Разделение текста на чанки оптимального размера для баланса между эффективностью и и длинной контекста в излеченной информации

💛Использование многоэтапного LLM-промпта для извлечения сущностей, их отношений и дополнительных атрибутов из каждого чанка текста.

💛Возможность настройки промптов под конкретную предметную область путем подбора few-shot примеров.

💛Применение нескольких раундов "доизвлечения" (gleanings) для обнаружения пропущенных сущностей, что позволяет использовать более крупные чанки без потери качества.

💛Использование LLM для создания абстрактных сводок извлеченных элементов, включая описания сущностей, отношений и утверждений.

💛Дополнительный этап суммаризации для объединения информации о повторяющихся элементах графа.

💛Применение алгоритма Leiden для разделения графа на иерархические community с более сильными внутренними связями. А далее описание каждой такой группы для детальной детализации семантики документов

💛Многоэтапный процесс генерации глобального ответа на запрос пользователя:
😅Подготовка и случайное перемешивание сводок сообществ.
🙋‍♀️Параллельная генерация промежуточных ответов для каждого чанка с оценкой релевантности.
🙃Объединение наиболее релевантных
промежуточных ответов в финальный глобальный ответ.

🖥Сама репа
🖥Тут подсобрали быстрый деплой GraphRAG на Azure
📖Статья

Читать полностью…

что-то на DL-ском

🌟 Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи

Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.

🟡 Страничка Cambrian-1
🖥 GitHub
🤗 Hugging Face

@data_analysis_ml

Читать полностью…

что-то на DL-ском

σ-GPT, когда счет за кафе можно читать справа налево. 🤔

Как мы помним, внимание в классик декодере слева направо, без заглядывания в будущее.

Но при этом, есть кейсы, где полезно читать справа налево и это не только счет в ресторане за твою тянку. Например, для операций сложения/вычитания и тп важна поразрядность операций с вычислением с конца числа.
Тут-то и выходит на сцену σ-GPT. Решение позволит не только инвертировать генерацию и внимание, но и делать это динамически, в зависимости от необходимости.

Репо тык.

Читать полностью…

что-то на DL-ском

Goldfish Loss: заставим LLM запоминать смысл, а не текст

Языковые модели часто вызубривают обучающие примеры, а это очень неприятно, особенно когда в датасете есть приватные данные, диалоги реальных пользователей или контент с копирайтом. Да и вообще, хочется, чтобы LLM запомнила именно смысл обучающих данных, а не заучивала их наизусть.

Оказалось, что одним из самых эффективных способов борьбы с таким поведением — это простой дропаут лосса, то есть маскирование ошибки для случайного сабсета токенов в тексте (~25%). Таким образом модель не научится дословно воспроизводить то, что видит. Даже после 10 эпох дообучения на Гарри Поттере "плагиат" в генерациях модели остаётся на уровне нуля. А главное, что такая регуляризация не ухудшает финальные метрики, в том числе на претрейне.

Статья, GitHub

Читать полностью…

что-то на DL-ском

Simple and effective masked diffusion language models

Masked discrete Diffusion Language Model использует новый подход к параметризации на основе (SUBS)titution, упрощающий функцию потерь диффузии для стейта с использованием смеси классических (для авторегрессии) функций потерь masked language modeling. Таким образом, достигается SOTA perplexity на LM1B и OpenWebText среди диффузионных моделей, обеспечивая при этом конкурентоспособную zero-shot perplexity с передовыми AR моделями на многочисленных наборах данных.

@toshoseti

Читать полностью…

что-то на DL-ском

#arxiv_weekly (03.06.24 — 07.06.24)

Решил тряхнуть стариной и сделать дайджест за неделю :) Пока что по личным причинам все еще не смогу заниматься этим регулярно, но, надеюсь, в какой-то момент получится вернуть эту практику на постоянной основе.

Item-Language Model for Conversational Recommendation
от Google Research. Тюнить LLM целиком под рекомендательную задачу страшно, так как теряются ее изначальные способности и появляются privacy concerns, а без тюнинга возникает modality gap (качество плохое). Пробуют это побороть, обучив Q-Former энкодер для айтемов, который используется вместе с зафриженной LLM.

Auto-Encoding or Auto-Regression? A Reality Check on Causality of Self-Attention-Based Sequential Recommenders от University of California (в авторах Julian McAuley). Исследуют, что лучше для sequential рекомендаций: auto-encoding (e.g. BERT4Rec) или auto-regression (e.g. SASRec). Используют leave-one-out схему эвала :(

System-2 Recommenders. Disentangling Utility and Engagement in Recommendation Systems via Temporal от FAIR (Meta). Декомпозируют эффект от рекомендаций на краткосрочный (влияние на текущую сессию) и долгосрочный (на будущие сессии). Моделируют ретеншн с помощью процесса Хоукса. Выглядит очень любопытно!

Large Language Models as Recommender Systems: A Study of Popularity Bias от Amazon Music и AWS. Подвержены ли LLM рекомендательному popularity bias'у? Придумывают свою метрику, чтобы это оценить. Делают по ней вывод, что LLM'ки подвержены popularity bias'у меньше коллаборативных алгоритмов (но и качество у них так себе, судя по статье).

A Bi-metric Framework for Fast Similarity Search от MIT. Пусть у нас есть очень хорошая метрика близости для ANN, но ее тяжело считать. И есть какая-то прокси метрика, которая хуже по качеству, но проще считается. Предлагают алгоритм, который использует сильные стороны обоих метрик.

И чуть более коротко:

On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots от Microsoft (в авторах есть Tobias Schnabel). Утверждают, что LLM плохо рекомендует на "unspecified" запросах, и из-за особенностей разметки плохо умеют доуточнять интенты. Пытаются это побороть.

Появился обзор A Survey of Generative Information Retrieval от National Taiwan University.

Новая модификация Decision Transformer'а от Data 61, см. Maximum-Entropy Regularized Decision Transformer with Reward Relabelling for Dynamic Recommendation.

Две статьи от Walmart: Session Context Embedding for Intent Understanding in Product Search, в которой авторы исследуют насколько полезен контекст (история пользователя) для задачи определения интента пользователя по поисковому запросу в екоме; и Large Language Models for Relevance Judgment in Product Search про то, как лучше затюнить LLM под задачу релевантности в еком поиске.

И есть некая статья от Alibaba под названием Robust Interaction-based Relevance Modeling for OnlineE-Commerce and LLM-based Retrieval, в которой они тоже что-то делают с релевантностью.

Читать полностью…

что-то на DL-ском

​​LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

Исследователи из Disney Studio представляют LiteVAE, семейство автоэнкодеров для LDMs, использующее 2D discrete wavelet transform для повышения масштабируемости и вычислительной эффективности по сравнению с обычными VAEs без потери качества.

Базовая модель LiteVAE сравнима по качеству с существующими VAEs в LDMs, при том, что количество параметров энкодера в шесть раз меньше - это значит, что тренировка идёт быстрее и нужно меньше памяти GPU. Более крупная модель превосходит VAEs аналогичной сложности по всем метрикам.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Читать полностью…

что-то на DL-ском

Очень большой репозиторий с огромным множеством книг по программированию на разных языках (русский тоже есть!!) по какому топику не пожелаешь

Тык 🙂

Читать полностью…

что-то на DL-ском

В рамка DataFest рассказала сегодня как делать рекомендательные модели на основе только текста без id пользователей или товаров. Закину презу и в канал.

Спасибо всем за вопросы и положительный фитбек. Было очень много интересных людей, вопросов, обсуждений, а также мне ДАЛИ ОЧЕНЬ КРУТУЮ ЛЯГУШКУ в виде мягкой игрушки за выступление, чему я безумно рада

Посмотреть запись сегодняшней трансляции тоже можно туть

Читать полностью…

что-то на DL-ском

Bend.
A massively parallel, high-level programming language.

Репозиторий, который предназначен для запуска параллельного выполнения без необходимости явно управлять потоками и синхронизацией

Огромное преимущество Bend заключается в том, что он автоматически распараллеливает любые независимые вычисления, обеспечивая почти линейное ускорение производительности пропорционально количеству ядер. При этом можно присать код как для последовательного выполнения, не заботясь о низкоуровневых деталях параллелизма.

Пользуйтесь 🤗
Статья 📖

Читать полностью…
Subscribe to a channel