4308
Погружение в Data Science и технологии GenAI
🇨🇳EMNLP is just about to start
Уже завтра начнется EMNLP'25 - крупнейшая мировая конференция по NLP и LLM. В этом году местом проведения стал Китай, город Сучжоу неподалеку с Шанхаем.
Приготовления идут полным ходом, а лучшие исследователи мчатся в Сучжоу на всех порах.
По традиции буду делиться впечатлениями по тэгом #новостисполей и #mashkka_china.
@mashkka_ds
Пока я борюсь с коллапсом от наплыва туристов в Шереметьево, ребята сделали подборку своих статей, которые они везут на EMNLP. Можно начинать читать!
Читать полностью…
🍁Easy Paper Recipe: ликбез по структуре научной статьи
Короткий ликбез по основам структуры статьи для современных конференций A/A*. Делюсь своим Easy Paper Recipe - простой рецепт как организовать статью, если вы только начинаете свой путь в исследовательской работе.
Используйте и учтите, что мой Easy Paper Recipe - это лишь базовая схема для стартового толчка, которую каждый может адаптировать под себя. Исследования бывают самые разные и все одним шаблоном не покрыть.
👀Запись
📖Слайды
@mashkka_ds
#мастеркласс #статьи
Жизненно, а что же будет дальше...
#трудовыебудни
🗯LLM or not LLM? Not longer the question 🗯
@inkoziev_channel и @l_mixer поделились подборкой AI-декеторов, которые помогут чекнуть, детектится ли ваш (или чей-то еще) текст, как сгенерированный LLM:
✔️ZeroGPT detector
✔️Quillbot detector
✔️Grammarly detector
❗️Из недостатков:
- Иногда при переводе человеческий детектится как сгенерированный
- Встречаются ложные срабатывания
- Замена нескольких слов в сгенерированном тексте зачастую меняет вердикт детектора
А чтобы текст для статьи от LLM выглядел человечнее, добавляйте в промпт:
avoid bombastic, pretentious expressions, prefer simple, technical languageЧитать полностью…
Недавно писала про премию RuCode, а сегодня захожу и угадайте кого я вижу среди финалистов в номинации гуру ИИ? Александр Абрамов (он же @DealerAI)! Так приятно видеть в топе достойных людей!
Поддержим?
🍂#justaboutme Роза Хутор
(part 2)
Еще одна подборка фото золотоосенней Розы Хутор, не зря говорила, что контента от короткой поездки на пару недель.
А чтобы не скучать, подборка фактов про эти места:
🌹Название Роза Хутор происходит от имени эстонца Адула Рооза, который был одним из первых переселенцев в этом районе в XIX веке.
🏞️ Место расположения — бывшие земли адыгских (черкесских) племён убыхов, которые жили здесь до середины XIX века, когда их переселили после Кавказской войны.
🏗️ Современный курорт начали строить с нуля в 2003 году к Зимним Олимпийским играм 2014 года в Сочи.
🥇 На территории «Розы Хутор» во время Олимпиады проходили соревнования по горнолыжному спорту.
🌲 Курорт расположен в долине реки Мзымта — единственной крупной реке Краснодарского края..
🚡 Здесь построена одна из самых протяжённых канатных дорог России — «Олимпия», её длина 3+ км, а подъем больше километра.
🏠 Архитектура нижней части курорта вдохновлена европейскими альпийскими городками.
❕#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.
🌸СТРИМ НА РАБКОРЕ: в 20:00 мск🌸
ИИ-агенты и будущее науки: обсуждаем с Михаилом Бурцевым!
Приходите, присылайте вопросы — в комментариях к этому посту и на стриме!
– Может ли ИИ написать научную статью? Сделать что-то полезное для учёных?
– Что такое агенты, как может выглядеть автоматизация науки в целом?
— Компьютерные науки против всех? В каких областях, помимо компьютерных наук, мы наконец увидим общественно полезные плоды применения ИИ?
– Какие пререквизиты и какая инфраструктура нужна, чтобы случилась сингулярность?
YouTube:
🟣https://youtube.com/live/fVOhBTpBeuE?feature=share
🎤За круглым столом в МГИМО: обсуждаем ИИ в преподавании
⠀
Сегодня участвовала в круглом столе И не друг, и не враг… а как? Нейросети в лингводидактике в МГИМО, который проходил в рамках международной конференции «Магия ИННО». Обсудили, как поменяется обучение языкам в эпоху AI и как приспособиться к новой реальности, которая накрывает нас с головой.
⠀
МГИМО в этом плане - передовой вуз. Здесь уже активно внедряются задания, задействующие нейросети, уже есть свой суперкомпьютерный класс, где студенты могут гонять нейросети и учиться правильно их использовать, а совсем недавно у них родилась Лира - нейросетевой телеграм-бот. Лира помогает преподавателям готовить занятия, адаптированные под их запрос.
⠀
#ai #мгимо #трудовыебудни
🌸Агенты пишут и рецензируют статьи🌸
#nlp #про_nlp #nlp_papers
На этой же неделе прошла первая открытая конференция, где все статьи были написаны и отрецензированы агентами — Agents4Science от Стэнфордского университета.
Acceptance rate не публикуют, но он был, много чего отреджектили!
Список принятых статей можно посмотреть на сайте конференции. Вот мои любимые:
🟣BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? | OpenReview — это вообще супер, мой абсолютный фаворит, заслуживает отдельного поста
🟣Behavioral Fingerprinting of Large Language Models | OpenReview — оценка эмоциональных способностей разных LLM
🟣``You are a brilliant mathematician'' Does Not Make LLMs Act Like One | OpenReview — про ограничения Persona prompting
🟣Diverse Inference for Solving ARC at a Human Level | OpenReview—
агенты зарешивают ARC challenge
А еще можно посмотреть, как человеки представляют доклады, сделанные агентами 😈
🟣https://youtu.be/7pXqAeedqOo?si=-xZ2sdlqXjbjdH1O
🤖 ИИ-агенты vs ИИ-ассистенты, в чем разница?
🌐 Разбираюсь в вопросе вместе с @onlinedegrees
Если по-простому: ИИ-ассистент — это «умный говорящий калькулятор», а ИИ-агент — «инициативный исполнитель». Ассистент действуйет строго по вашим инструкциям, отвечая на ваши вопросы по запросу: объясняет алгоритм, пишет черновик кода, помогает сформулировать идею. Он не действует сам — вы спросили, он ответил. Агент — это следующий уровень автономности: у него есть цель. А шаги для ее достижения он планирует сам: вызывает по своему усмотрению инструменты (поиск, API, базы, браузер, интерпретатор Python), делает шаг, смотрит на результат, и дальше повторяет процесс (выбор инструмента - действие) пока не получит результат, либо упрется в лимит.
Как итог, ассистент отвечает на ваши четкие запросы, ускоряя и усиливая вас, агент решает задачу и разгружает вас. Стартуйте с ассистента ради скорости и контроля, переходите к агенту, когда важнее автономность и «результат под ключ».
А детали, подробности и примеры ищите в посте.
@mashkka_t
📚#mashkka_reading Приключения Алисы в Стране чудес
«Алиса в Стране чудес» — это абсурдно-юморная сказная Льюиса Кэрролла, знакомая нам всем с детских лет. Сюжет я уверена вам всем также знаком.
🏰Сюжет:
Девочка Алиса, сидя на берегу реки со своей сестрой, замечает говорящего белого кролика, который спешит по своим делам. Любопытство берёт верх, и Алиса следует за ним в кроличью нору, которая оказывается порталом в фантастический мир — Страну Чудес, навстречу фантастическим приключениям:
✔️Чаепитию у Безумного Шляпника и Мартовского Зайца
✔️Встречу с Чеширским Котом
✔️Игру в крокет с Королевой Червей
✔️Участие в судебном процессе над Валетом Червей
В конце Алиса просыпается и понимает, что всё это было лишь сном, но впечатление от путешествия в Страну Чудес остаётся с ней навсегда.
Эта книга не только считается одним из лучших произведений в жанре абсурда, ведь в ней используются многочисленные математические, лингвистические и философские шутки и аллюзии, но и оказала огромное влияние на современное фэнтези. И пусть все отсылки автора, особенно касающихся реалий того времени, мне отследить не удалось, но сказка как казалась мне великолепной в детстве, так и кажется до сих пор!
✔️14-я книга за 2025
#mashkka_reading #книжнаяполка #книга #book
Сегодня расскажу про нашу свежую статью «When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA», которую приняли на EMNLP 🎉
Кстати, если работа вам понравилась прошу проголосовать за нее на HuggingFace Daily Papers.
В работе мы предложили метод генерации синтетических данных, содержащих естественные (не инсценированные) галлюцинации, размеченные на уровне спанов. Но ценность этой работы — не только в содержании, а ещё и в том, как она родилась.
Я давно убеждён: NLP — это прикладная область. А в прикладных областях особое значение имеют соревнования — от Kaggle до академических вроде SemEval, DSTC и других.
Участие в них позволяет:
1️⃣ прокачивать технические навыки
2️⃣ понимать, что коммьюнити считает актуальным и сложным
3️⃣ находить идеи, достойные статьи
Эта работа — как раз результат одного из таких опытов.
📜О чём статья
Мы разработали пайплайн для генерации датасета с естественными галлюцинациями. Мы не просили LLM намеренно ошибаться (как в HalluEval), а детектировали реальные примеры. Так мы получили многоязычный датасет PsiloQA для поспановой (span-level) детекции галлюцинаций и протестировали на нём разные подходы.
⚙️Как работает пайплайн
1️⃣ Берём пару первых абзацев статьи из Википедии (или любого источника знаний).
2️⃣С помощью GPT-4o получаем вопрос–ответ для этого контекста.
3️⃣ Просим открытую модель ответить на этот же вопрос. Получаем ответ-кандидат.
4️⃣ GPT-4o, имея контекст, вопрос, исходный ответ и ответ-кандидат, размечает галлюцинации в кандидате.
5️⃣ Делаем постфильтрацию (убираем пустые или отказные примеры).
📈Результаты
1️⃣Пайплан позволяет генерировать датасеты разных доменов, размеров и языков с минимальными затратами.
2️⃣Все галллюцинации — естественные, LLM никто не просил галлюцинировать намеренно. Таким образом, для детекции можно использовать методы на основе внутренних представлений моделей, тем более что мы добавили инфрмации о модели.
3️⃣Датасет подходит для тестирования LLM на множестве языков.
4️⃣Кросспроверка показала: при обучении на нашем датасете мы почти всегда получали лучшие результаты при тестах на других, вручную размеченных датасетах.
🌐Рандомные галлюцинации
#пятничныемемасы
За мем спасибо @eheh_bud
🌐Международные A*/ A конференции: разбираемся в основных треках
Main track/system demo/workshop в чем отличие и куда подавать?
Сегодня от обилия треков на конференциях разбегаются глаза. Сделала короткую шпаргалку по основным направлениям и особенностям, которые для них есть.
🧠 Main Track / Research Track
Суть: основной научный трек.
Цель: публикация новых теоретических идей, методов и крупных исследований.
Форматы:
- Long paper (8–10 стр. + references): полноценное исследование с чётким вкладом, сравнениями и анализом.
- Short paper (4 стр. + references): компактная работа с новой идеей, анализом, или расширением существующих подходов.
Особенности:
- Двойное слепое рецензирование.
- Самый высокий уровень конкуренции и цитируемости.
⚙️ System Demonstration Track
Суть: демонстрация работающих систем, моделей, библиотек, интерфейсов или API.
Цель: акцент на практических системах и применении исследовательских идей.
Формат: короткая статья (4–6 стр.) + обязательное видео с демонстрацией при подаче + демо на конференции.
Особенности:
- Обычно чуть легче попасть чем на основной трек.
- Процесс ревью в один раунд.
🧩 Workshop Papers
Суть: тематические мини-конференции, организуемые в рамках основной.
Цель: обмен идеями, ранние результаты, нетворкинг.
Формат: короткие статьи (2–4 стр.) или полные (6–8 стр.), неофициальное рецензирование.
Особенности:
- Ориентируются на более узкие темы.
- При подаче важно подобрать воркшоп по тематике.
- Более мягкие критерии отбора (читай проще пройти).
- Публикуются в отдельных Workshop Proceedings.
- Не имею уровня конференции (=> не подходят для защиты диссертации), но ценятся в нашем сообществе.
📊 Datasets & Benchmarks & Resource Tracks et al.
Суть: тематические треки в рамках основной конференции по публикации новых наборов данных, бенчмарков и методик оценки.
Цель: повысить стандарты открытости, воспроизводимости и сопоставимости экспериментов.
Особенности:
- Требуется чёткое описание источников данных, лицензий, этических аспектов и метаданных.
- Обязательно демонстрируется ценность датасета (новизна, покрытие, метрики, общественная польза).
🔍 Reproducibility / Replicability Track
Суть: верификация существующих работ, повторное воспроизведение экспериментов и анализ чувствительности моделей.
Цель: укрепление научной надёжности и доверия к публикациям.
Особенности:
- Требует публичного кода и данных.
- Часто публикуются результаты, подтверждающие или опровергающие предыдущие выводы.
💡 Applications Track
Суть: применение AI-методов в реальных задачах бизнеса, промышленности или общества.
Формат: короткие или полные статьи.
Цель: показать технологический и экономический эффект от внедрения AI-решений.
Особенности: оценивается практическая значимость, а не только новизна.
📚 Tutorials & Shared Tasks
Tutorials: обучающие лекции (2–3 часа) от экспертов, подаются через отдельные заявки.
Shared Tasks / Competitions: соревнования (например, SemEval, WMT), где участники решают общую задачу и по результатам соревнования могут написать статью с результатами + описанием системы.
@mashkka_ds
Несколько дней осталось до EMNLP 2025 в Сучжоу 🇨🇳. В этом посте я расскажу о наших статьях, принятых на конференцию. Начну с двух работ по адаптивному RAG. Адаптивный RAG позволяет модели обращаться к внешним источникам только тогда, когда собственных знаний недостаточно.
1️⃣«LLM-Independent Adaptive RAG: Let the Question Speak for Itself»
В этой работе мы показали, что можно делать адаптивный RAG без доступа к внутренним представлениям модели для оценки ее неуверенности — по внешним признакам вопроса: типу вопроса, частоте упоминания сущностей и др. Несмотря на простоту подхода, он часто не уступает методам на основе неопределённости. Минус — для качественной работы нужно учитывать много внешних факторов
В этой работе мы использовали единственный признак вопросов — их вечнозелёность для адаптивного RAG. Вечнозелёные вопросы — это такие, на которые ответы не зависят от времени (например, «Кто был первым президентом США?»). Для таких вопросов RAG не нужен — достаточно знаний самой LLM. Об этом подробнее я писал на Хабр
В этой работе мы предложили метод генерации синтетических данных для обучения моделей детекции галлюцинаций на уровне токенов. С помощью модели, обученной на нашем датасете, мы заняли призовое место в соревновании SHROOM по постановочной детекции галлюцинаций в многоязычном сеттинге.
В статье проведено сравнительное исследование пяти методов повышения устойчивости LLM к изменениям формата и пунктуации в промптах. Авторы сравнили fine-tuning и in-context learning на 8 моделях из семейств Llama, Qwen, Gemma и сравнили их на 52 задачах из Natural Instructions
🍁Использование LLM-чатботов для доработок статьи
@inkoziev_channel поделился своим опытом применения LLM для написания и доработки статей. Полезные советы как для опытных, так и для начинающих исследователей, да и просто для тех, кому приходиться писать научные тексты.
👀Запись
📖Слайды
#мастеркласс #статьи
Захвати осень силой ИИ и Open Source! 🚀 Буткемп от ИТМО ждет тебя!
Приглашаем на Open Source BootCamp 2025 — 4 дня кода, нейросетей и единомышленников!
🗓️ Когда: 12–15 ноября
📍 Где: очная площадка в Санкт-Петербурге
🔗 Регистрация и программа: [ссылка]
❗️ Успей до 11 ноября! Места тают на глазах.
Что прокачаешь:
💻 Open Source — от лицензий до комьюнити и практические инструменты для применения
🧠 ИИ-агенты — архитектура мульти-агентных систем
🔹 Реальные кейсы интеграции в бизнес
🔹 Командная реализация проектов от идеи до прототипа
⚡ Познакомишься с технологиями Сбера, Центра практического ИИ Сбербанка (Sber AI Lab) — генерального спонсора, чьи Open Source проекты стали стандартом индустрии. Так же поделятся своим опытом и решениями технические партнеры Cloud.ru и GitVerse
Важно:
Мероприятие очное. Организаторы не покрывают дорогу и проживание, но помогут с документами для командировки от вуза/работы.
Готов бросить вызов осени?
Зарегистрироваться можно индивидуально или в составе готовой команды.
Жми на ссылку и занимай место среди будущих звезд AI! ✨
Хочешь узнать больше? Присоединяйся к каналу и чату мероприятия — там можно задать вопросы и первыми узнать дату вебинара, на котором мы поделимся информацией об Open Source BootCamp 2025.
#SberAILab #ИТМО #BootCamp #ИИАгенты #OpenSource #AI #СанктПетербург
😈This is Halloween😈
На Хеллоуин происходят страшные вещи, и даже МарьИванна может станцевать под русский трек. Встречаем мое новое High Heels видео. Не знаю как вам, а у меня от него мурашки бегут!
Приглашаем на открытую лекцию в рамках курса «Философия и наука»
Мы привыкли смотреть на искусственный интеллект глазами ML-специалистов, разработчиков и бизнес-аналитиков. А что если взглянуть на него с философской точки зрения? Поговорим об этом на лекции «Искусственный интеллект в эпоху больших языковых моделей: вызовы, направления развития и области применения».
Вместе с Сергеем Марковым, директором по развитию технологий ИИ в Сбере, обсудим:
▪️ как искусственный интеллект влияет на развитие общества;
▪️ ИИ и барьеры человеческого разума;
▪️ роль обработки естественного языка и языкового моделирования в развитии технологий ИИ;
▪️ революцию глубокого обучения и смену парадигм в её рамках;
▪️ основные подходы к прикладному применению систем на базе LLM;
▪️ тренды и среднесрочные прогнозы развития технологий ИИ.
До встречи 31 октября в B202–206 в 19:00. Регистрация доступна по ссылке.
😱 ГигаЧат заговорил: позвоним нейросети? 😱
Друзья, вот и настал тот момент, когда можно пообщаться с нейросетью как с реальным человеком.
Встречаем новую фичу ГигаЧат «Общаться голосом». Что удобно — его можно перебивать, уточнять детали, мучать вопросами, ГигаЧат услужливо выдаст вам ответ. А в конце пришлет расшифровку беседы (удобно для таких же «фанатов» голосового общения как мы в IT =)
Затестить это дело можно в бета-режиме веб-версии, а также для пользователей приложения на Android. Go?
🍁Fallen into ML🍁
Окунулись с головой в машинное обучение на главной осенней конференции ВШЭ по машинному обучению — Fall Into ML. Центральное событие конференции — постерная сессия, где представляют работы, принятые в 2025 году на конференции уровня A* (e.g., NeurIPS, ICLR, ACL, EMNLP, CVPR, SIGIR и др.). Как результат, Fall Into ML из обычной студенческой конференции превращается в показ передовых разработок наших исследователей в области ML (aka AI). Сюда идут за нетворкингом и возможностью увидеться с единомышленниками — так сказать, посмотреть, чем занимаются коллеги по академической скамье, и себя показать заодно.
Мы показали две работы про бенчмарки для эмбеддеров:
✔️Постер 81 MMTEB: Massive Multilingual Text Embedding Benchmark - ICLR 2026
✔️Постер 82 The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design - NAACL 26
👉Подробнее про них писала в хабр посте.
#трудовыебудни #вшэ #hse #ai #llm
🍁До встречи на Fall into ML
До традиционной постерной сессии конференции Fall Into ML остается всего пара часов. На сессии представляют работы исследователей, принятые на ведущие международные конференции уровня A* в 2025 году — NeurIPS, ICLR, ACL, EMNLP, CVPR, SIGIR и др.
В этом году представляем две работы:
✔️Постер 81 MMTEB: Massive Multilingual Text Embedding Benchmark
✔️Постер 82 The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design
До встречи в стенах НИУ ВШЭ!
#трудовыебудни
🐑Беляевская премия достается Охоте на Электроовец
Слышали эту радостную новость? @oulenspiegel_channel вручили Беляевскую премию за Охоту на Электроовец, победившую в номинации Научно-Художественных книг.
Достойная награда за этот монументальный труд! Поздравляю!
👉Для тех, кто еще не читал, скачать книгу можно тут.
#ai
🐲AI R&D Day Playlist🐲
Подоспели записи докладов с AI R&D Day. Смотрим наше выступление (оно же VK) Норм или стрем? Оценка генераций в динамическом RAG бенчмарке для тех, кто пропустил (или хочет пересмотреть еще раз). В докладе рассказываем про наши новые проекты DRAGON для оценки RAG-систем и POLLUX для оценки генеративных способностей моделей.
👀Запись
📚Слайды
🧐Подробности про DRAGON
▶️Полный Playlist (он же VK)
@mashkka_ds
#трудовыебудни #LLM #benchmarking
🍂#justaboutme один день в Роза Хутор...
...а фото будто съездила на пару недель. В эти горы я могу возвращаться вновь и вновь...
Знаете, откуда пошло название Роза Хутор? Я с удивлением обнаружила, что название курорта произошло не от цветка «роза», а от фамилии одного из первых поселенцев-эстонцев.
Во второй половине XIX века семьи из Эстонии переселились на Кавказ, в район ныне известного курорта. Один из таких переселенцев — Адул Рооза (или «Адул Роза/Рооза») — поселился на хуторе в этих местах, и его имя стало основой топонима.
Со временем название «хутор Рооза» трансформировалось в «Роза Хутор». О как!
❕#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.
👋 Kandinsky Video & Giga-Embeddings
Для тех, кто ещё не видел: наши коллеги подготовили два крупных релиза в опенсорс:
🎬 Kandinsky-5 Video Lite
Ряд моделей для генерации видео по тексту
— Компактная модель всего на 2 млрд. параметров
— 4 версии модели в открытом доступе: претрейн, качественный SFT и две облегченные версии
— Датасет для обучения: 520 млн изображений и 125 млн видео-сцен
— Под капотом DiT и flow matching
— SFT-версия превосходит более крупные модели (Wan 2.1 14B, Wan 2.2 5B)
🖥 Узнать подробнее
💪 Giga-Embeddings
Модель для создания векторных представлений текстов
— Первое место на бенчмарке ruMTEB (результат 74.1)
— Качественные результаты на английском языке
— Точная фактология: надёжный RAG без галлюцинаций
🤗 Узнать Подробнее
#release #kandinsky #gigachat
🧑🎓В комитете на защите диссертации: по другую сторону баррикад
⠀
Сегодня впервые поучаствовала в защите кандидатской диссертации на другой стороне, в роли члена комитета. Выступать в новом качестве было ответственно и так непривычно для меня: представьте мне среди других доверили вынести решение о том, достойна ли Александра звания кандидата компьютерных наук или нет.
⠀
Спойлер: конечно же да! Саша Малышева - одна из самых талантливых ученых по Computer Science, которых я знаю. Ее диссертация посвящена исследованию мультиагентного обучения на самом острие науки. Молчу про публикацию в Science, у которой уже 250+ цитирований и это количество стремительно растет.
⠀
Саша от всей души поздравляю! Большое достижение и на 300% результат заслуженных трудов!
⠀
#вшэ #членкомитета #назащите #трудовыебудни #вшэ
🐾По следам вебинара Рекомендательные системы на основе матричных разложений в ML
На открытом вебинаре в отус рассказала про классические алгоритмы рекомендательных систем на основе матричных разложений: SVD и ALS. Прошли по теории за алгоритмами и научились применять на практике.
👀Запись
📖Презентация
💻Практика
📍Полезные материалы по теме
#открытыеуроки #recsys