mashkka_ds | Unsorted

Telegram-канал mashkka_ds - Mashkka про Data Science

4308

Погружение в Data Science и технологии GenAI

Subscribe to a channel

Mashkka про Data Science

🇨🇳EMNLP is just about to start

Уже завтра начнется EMNLP'25 - крупнейшая мировая конференция по NLP и LLM. В этом году местом проведения стал Китай, город Сучжоу неподалеку с Шанхаем.

Приготовления идут полным ходом, а лучшие исследователи мчатся в Сучжоу на всех порах.

По традиции буду делиться впечатлениями по тэгом #новостисполей и #mashkka_china.

@mashkka_ds

Читать полностью…

Mashkka про Data Science

Пока я борюсь с коллапсом от наплыва туристов в Шереметьево, ребята сделали подборку своих статей, которые они везут на EMNLP. Можно начинать читать!

Читать полностью…

Mashkka про Data Science

🍁Easy Paper Recipe: ликбез по структуре научной статьи

Короткий ликбез по основам структуры статьи для современных конференций A/A*. Делюсь своим Easy Paper Recipe - простой рецепт как организовать статью, если вы только начинаете свой путь в исследовательской работе.

Используйте и учтите, что мой Easy Paper Recipe - это лишь базовая схема для стартового толчка, которую каждый может адаптировать под себя. Исследования бывают самые разные и все одним шаблоном не покрыть.

👀Запись
📖
Слайды

@mashkka_ds

#мастеркласс #статьи

Читать полностью…

Mashkka про Data Science

Жизненно, а что же будет дальше...

#трудовыебудни

Читать полностью…

Mashkka про Data Science

🗯LLM or not LLM? Not longer the question 🗯

@inkoziev_channel и @l_mixer поделились подборкой AI-декеторов, которые помогут чекнуть, детектится ли ваш (или чей-то еще) текст, как сгенерированный LLM:
✔️ZeroGPT detector
✔️Quillbot detector
✔️Grammarly detector

❗️Из недостатков:
- Иногда при переводе человеческий детектится как сгенерированный
- Встречаются ложные срабатывания
- Замена нескольких слов в сгенерированном тексте зачастую меняет вердикт детектора

А чтобы текст для статьи от LLM выглядел человечнее, добавляйте в промпт:

avoid bombastic, pretentious expressions, prefer simple, technical language

Читать полностью…

Mashkka про Data Science

Недавно писала про премию RuCode, а сегодня захожу и угадайте кого я вижу среди финалистов в номинации гуру ИИ? Александр Абрамов (он же @DealerAI)! Так приятно видеть в топе достойных людей!

Поддержим?

Читать полностью…

Mashkka про Data Science

🍂#justaboutme Роза Хутор
(part 2)


Еще одна подборка фото золотоосенней Розы Хутор, не зря говорила, что контента от короткой поездки на пару недель.

А чтобы не скучать, подборка фактов про эти места:

🌹Название Роза Хутор происходит от имени эстонца Адула Рооза, который был одним из первых переселенцев в этом районе в XIX веке.

🏞️ Место расположения — бывшие земли адыгских (черкесских) племён убыхов, которые жили здесь до середины XIX века, когда их переселили после Кавказской войны.

🏗️ Современный курорт начали строить с нуля в 2003 году к Зимним Олимпийским играм 2014 года в Сочи.

🥇 На территории «Розы Хутор» во время Олимпиады проходили соревнования по горнолыжному спорту.

🌲 Курорт расположен в долине реки Мзымта — единственной крупной реке Краснодарского края..

🚡 Здесь построена одна из самых протяжённых канатных дорог России — «Олимпия», её длина 3+ км, а подъем больше километра.

🏠 Архитектура нижней части курорта вдохновлена европейскими альпийскими городками.

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Читать полностью…

Mashkka про Data Science

🌸СТРИМ НА РАБКОРЕ: в 20:00 мск🌸

ИИ-агенты и будущее науки: обсуждаем с Михаилом Бурцевым!
Приходите, присылайте вопросы — в комментариях к этому посту и на стриме!

– Может ли ИИ написать научную статью? Сделать что-то полезное для учёных?
– Что такое агенты, как может выглядеть автоматизация науки в целом?
— Компьютерные науки против всех? В каких областях, помимо компьютерных наук, мы наконец увидим общественно полезные плоды применения ИИ?
– Какие пререквизиты и какая инфраструктура нужна, чтобы случилась сингулярность?

YouTube:
🟣https://youtube.com/live/fVOhBTpBeuE?feature=share

Читать полностью…

Mashkka про Data Science

🎤За круглым столом в МГИМО: обсуждаем ИИ в преподавании

Сегодня участвовала в круглом столе И не друг, и не враг… а как? Нейросети в лингводидактике в МГИМО, который проходил в рамках международной конференции «Магия ИННО». Обсудили, как поменяется обучение языкам в эпоху AI и как приспособиться к новой реальности, которая накрывает нас с головой.

МГИМО в этом плане - передовой вуз. Здесь уже активно внедряются задания, задействующие нейросети, уже есть свой суперкомпьютерный класс, где студенты могут гонять нейросети и учиться правильно их использовать, а совсем недавно у них родилась Лира - нейросетевой телеграм-бот. Лира помогает преподавателям готовить занятия, адаптированные под их запрос.

#ai #мгимо #трудовыебудни

Читать полностью…

Mashkka про Data Science

🌸Агенты пишут и рецензируют статьи🌸
#nlp #про_nlp  #nlp_papers

На этой же неделе прошла первая открытая конференция, где все статьи были написаны и отрецензированы агентами — Agents4Science от Стэнфордского университета.

Acceptance rate не публикуют, но он был, много чего отреджектили!
Список принятых статей можно посмотреть на сайте конференции. Вот мои любимые:
🟣BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? | OpenReview — это вообще супер, мой абсолютный фаворит, заслуживает отдельного поста
🟣Behavioral Fingerprinting of Large Language Models | OpenReview — оценка эмоциональных способностей разных LLM
🟣``You are a brilliant mathematician'' Does Not Make LLMs Act Like One | OpenReview — про ограничения Persona prompting
🟣Diverse Inference for Solving ARC at a Human Level | OpenReview
агенты зарешивают ARC challenge


А еще можно посмотреть, как человеки представляют доклады, сделанные агентами 😈
🟣https://youtu.be/7pXqAeedqOo?si=-xZ2sdlqXjbjdH1O

Читать полностью…

Mashkka про Data Science

🤖 ИИ-агенты vs ИИ-ассистенты, в чем разница?
🌐
Разбираюсь в вопросе вместе с @onlinedegrees

Если по-простому: ИИ-ассистент — это «умный говорящий калькулятор», а ИИ-агент — «инициативный исполнитель». Ассистент действуйет строго по вашим инструкциям, отвечая на ваши вопросы по запросу: объясняет алгоритм, пишет черновик кода, помогает сформулировать идею. Он не действует сам — вы спросили, он ответил. Агент — это следующий уровень автономности: у него есть цель. А шаги для ее достижения он планирует сам: вызывает по своему усмотрению инструменты (поиск, API, базы, браузер, интерпретатор Python), делает шаг, смотрит на результат, и дальше повторяет процесс (выбор инструмента - действие) пока не получит результат, либо упрется в лимит.

Как итог, ассистент отвечает на ваши четкие запросы, ускоряя и усиливая вас, агент решает задачу и разгружает вас. Стартуйте с ассистента ради скорости и контроля, переходите к агенту, когда важнее автономность и «результат под ключ».

А детали, подробности и примеры ищите в посте.

@mashkka_t

Читать полностью…

Mashkka про Data Science

📚#mashkka_reading Приключения Алисы в Стране чудес

«Алиса в Стране чудес» — это абсурдно-юморная сказная Льюиса Кэрролла, знакомая нам всем с детских лет. Сюжет я уверена вам всем также знаком.

🏰Сюжет:
Девочка Алиса, сидя на берегу реки со своей сестрой, замечает говорящего белого кролика, который спешит по своим делам. Любопытство берёт верх, и Алиса следует за ним в кроличью нору, которая оказывается порталом в фантастический мир — Страну Чудес, навстречу фантастическим приключениям:

✔️Чаепитию у Безумного Шляпника и Мартовского Зайца
✔️Встречу с Чеширским Котом
✔️Игру в крокет с Королевой Червей
✔️Участие в судебном процессе над Валетом Червей

В конце Алиса просыпается и понимает, что всё это было лишь сном, но впечатление от путешествия в Страну Чудес остаётся с ней навсегда.


Эта книга не только считается одним из лучших произведений в жанре абсурда, ведь в ней используются многочисленные математические, лингвистические и философские шутки и аллюзии, но и оказала огромное влияние на современное фэнтези. И пусть все отсылки автора, особенно касающихся реалий того времени, мне отследить не удалось, но сказка как казалась мне великолепной в детстве, так и кажется до сих пор!

✔️14-я книга за 2025

#mashkka_reading #книжнаяполка #книга #book

Читать полностью…

Mashkka про Data Science

Сегодня расскажу про нашу свежую статью «When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA», которую приняли на EMNLP 🎉
Кстати, если работа вам понравилась прошу проголосовать за нее на HuggingFace Daily Papers.

В работе мы предложили метод генерации синтетических данных, содержащих естественные (не инсценированные) галлюцинации, размеченные на уровне спанов. Но ценность этой работы — не только в содержании, а ещё и в том, как она родилась.
Я давно убеждён: NLP — это прикладная область. А в прикладных областях особое значение имеют соревнования — от Kaggle до академических вроде SemEval, DSTC и других.
Участие в них позволяет:
1️⃣ прокачивать технические навыки
2️⃣ понимать, что коммьюнити считает актуальным и сложным
3️⃣ находить идеи, достойные статьи
Эта работа — как раз результат одного из таких опытов.

📜О чём статья

Мы разработали пайплайн для генерации датасета с естественными галлюцинациями. Мы не просили LLM намеренно ошибаться (как в HalluEval), а детектировали реальные примеры. Так мы получили многоязычный датасет PsiloQA для поспановой (span-level) детекции галлюцинаций и протестировали на нём разные подходы.

⚙️Как работает пайплайн

1️⃣ Берём пару первых абзацев статьи из Википедии (или любого источника знаний).
2️⃣С помощью GPT-4o получаем вопрос–ответ для этого контекста.
3️⃣ Просим открытую модель ответить на этот же вопрос. Получаем ответ-кандидат.
4️⃣ GPT-4o, имея контекст, вопрос, исходный ответ и ответ-кандидат, размечает галлюцинации в кандидате.
5️⃣ Делаем постфильтрацию (убираем пустые или отказные примеры).

📈Результаты

1️⃣Пайплан позволяет генерировать датасеты разных доменов, размеров и языков с минимальными затратами.
2️⃣Все галллюцинации — естественные, LLM никто не просил галлюцинировать намеренно. Таким образом, для детекции можно использовать методы на основе внутренних представлений моделей, тем более что мы добавили инфрмации о модели.
3️⃣Датасет подходит для тестирования LLM на множестве языков.
4️⃣Кросспроверка показала: при обучении на нашем датасете мы почти всегда получали лучшие результаты при тестах на других, вручную размеченных датасетах.

🌐Рандомные галлюцинации

Читать полностью…

Mashkka про Data Science

#пятничныемемасы
За мем спасибо @eheh_bud

Читать полностью…

Mashkka про Data Science

🌐Международные A*/ A конференции: разбираемся в основных треках
Main track/system demo/workshop в чем отличие и куда подавать?


Сегодня от обилия треков на конференциях разбегаются глаза. Сделала короткую шпаргалку по основным направлениям и особенностям, которые для них есть.

🧠 Main Track / Research Track

Суть: основной научный трек.
Цель: публикация новых теоретических идей, методов и крупных исследований.
Форматы:
- Long paper (8–10 стр. + references): полноценное исследование с чётким вкладом, сравнениями и анализом.
- Short paper (4 стр. + references): компактная работа с новой идеей, анализом, или расширением существующих подходов.
Особенности:
- Двойное слепое рецензирование.
- Самый высокий уровень конкуренции и цитируемости.

⚙️ System Demonstration Track

Суть: демонстрация работающих систем, моделей, библиотек, интерфейсов или API.
Цель: акцент на практических системах и применении исследовательских идей.
Формат: короткая статья (4–6 стр.) + обязательное видео с демонстрацией при подаче + демо на конференции.
Особенности:
- Обычно чуть легче попасть чем на основной трек.
- Процесс ревью в один раунд.

🧩 Workshop Papers

Суть: тематические мини-конференции, организуемые в рамках основной.
Цель: обмен идеями, ранние результаты, нетворкинг.
Формат: короткие статьи (2–4 стр.) или полные (6–8 стр.), неофициальное рецензирование.
Особенности:
- Ориентируются на более узкие темы.
- При подаче важно подобрать воркшоп по тематике.
- Более мягкие критерии отбора (читай проще пройти).
- Публикуются в отдельных Workshop Proceedings.
- Не имею уровня конференции (=> не подходят для защиты диссертации), но ценятся в нашем сообществе.

📊 Datasets & Benchmarks & Resource Tracks et al.

Суть: тематические треки в рамках основной конференции по публикации новых наборов данных, бенчмарков и методик оценки.
Цель: повысить стандарты открытости, воспроизводимости и сопоставимости экспериментов.
Особенности:
- Требуется чёткое описание источников данных, лицензий, этических аспектов и метаданных.
- Обязательно демонстрируется ценность датасета (новизна, покрытие, метрики, общественная польза).

🔍 Reproducibility / Replicability Track
Суть: верификация существующих работ, повторное воспроизведение экспериментов и анализ чувствительности моделей.
Цель: укрепление научной надёжности и доверия к публикациям.
Особенности:
- Требует публичного кода и данных.
- Часто публикуются результаты, подтверждающие или опровергающие предыдущие выводы.

💡 Applications Track
Суть: применение AI-методов в реальных задачах бизнеса, промышленности или общества.
Формат: короткие или полные статьи.
Цель: показать технологический и экономический эффект от внедрения AI-решений.
Особенности: оценивается практическая значимость, а не только новизна.

📚 Tutorials & Shared Tasks

Tutorials: обучающие лекции (2–3 часа) от экспертов, подаются через отдельные заявки.

Shared Tasks / Competitions: соревнования (например, SemEval, WMT), где участники решают общую задачу и по результатам соревнования могут написать статью с результатами + описанием системы.

@mashkka_ds

Читать полностью…

Mashkka про Data Science

Несколько дней осталось до EMNLP 2025 в Сучжоу 🇨🇳. В этом посте я расскажу о наших статьях, принятых на конференцию. Начну с двух работ по адаптивному RAG. Адаптивный RAG позволяет модели обращаться к внешним источникам только тогда, когда собственных знаний недостаточно.

1️⃣«LLM-Independent Adaptive RAG: Let the Question Speak for Itself»

В этой работе мы показали, что можно делать адаптивный RAG без доступа к внутренним представлениям модели для оценки ее неуверенности — по внешним признакам вопроса: типу вопроса, частоте упоминания сущностей и др. Несмотря на простоту подхода, он часто не уступает методам на основе неопределённости. Минус — для качественной работы нужно учитывать много внешних факторов

📍Hall C Session 5
🕓 Wed. Nov 5 16:30-18:00

2️⃣«Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA»
В этой работе мы использовали единственный признак вопросов — их вечнозелёность для адаптивного RAG. Вечнозелёные вопросы — это такие, на которые ответы не зависят от времени (например, «Кто был первым президентом США?»). Для таких вопросов RAG не нужен — достаточно знаний самой LLM. Об этом подробнее я писал на Хабр

📍 Hall C Session 11
🕓 Thu. Nov 6 16:30-18:00

3️⃣ «When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA»
В этой работе мы предложили метод генерации синтетических данных для обучения моделей детекции галлюцинаций на уровне токенов. С помощью модели, обученной на нашем датасете, мы заняли призовое место в соревновании SHROOM по постановочной детекции галлюцинаций в многоязычном сеттинге.

📍 Hall C Session 3
🕓 Wed. Nov 5 13:00-14:00

4️⃣«When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs»
В статье проведено сравнительное исследование пяти методов повышения устойчивости LLM к изменениям формата и пунктуации в промптах. Авторы сравнили fine-tuning и in-context learning на 8 моделях из семейств Llama, Qwen, Gemma и сравнили их на 52 задачах из Natural Instructions

📍 Hall C Session 3
🕓 Wed. Nov 5 13:00-14:00

🌐Рандомные галлюцинации

Читать полностью…

Mashkka про Data Science

🍁Использование LLM-чатботов для доработок статьи

@inkoziev_channel поделился своим опытом применения LLM для написания и доработки статей. Полезные советы как для опытных, так и для начинающих исследователей, да и просто для тех, кому приходиться писать научные тексты.

👀Запись
📖
Слайды

#мастеркласс #статьи

Читать полностью…

Mashkka про Data Science

Захвати осень силой ИИ и Open Source! 🚀 Буткемп от ИТМО ждет тебя!

Приглашаем на Open Source BootCamp 2025 — 4 дня кода, нейросетей и единомышленников!

🗓️ Когда: 12–15 ноября
📍 Где: очная площадка в Санкт-Петербурге
🔗 Регистрация и программа: [ссылка]
❗️ Успей до 11 ноября! Места тают на глазах.

Что прокачаешь:
💻 Open Source — от лицензий до комьюнити и практические инструменты для применения
🧠 ИИ-агенты — архитектура мульти-агентных систем
🔹 Реальные кейсы интеграции в бизнес
🔹 Командная реализация проектов от идеи до прототипа

⚡ Познакомишься с технологиями Сбера, Центра практического ИИ Сбербанка (Sber AI Lab) — генерального спонсора, чьи Open Source проекты стали стандартом индустрии. Так же поделятся своим опытом и решениями технические партнеры Cloud.ru и GitVerse

Важно:
Мероприятие очное. Организаторы не покрывают дорогу и проживание, но помогут с документами для командировки от вуза/работы.

Готов бросить вызов осени?
Зарегистрироваться можно индивидуально или в составе готовой команды.
Жми на ссылку и занимай место среди будущих звезд AI! ✨

Хочешь узнать больше? Присоединяйся к каналу и чату мероприятия — там можно задать вопросы и первыми узнать дату вебинара, на котором мы поделимся информацией об Open Source BootCamp 2025.

#SberAILab #ИТМО #BootCamp #ИИАгенты #OpenSource #AI #СанктПетербург

Читать полностью…

Mashkka про Data Science

😈This is Halloween😈

На Хеллоуин происходят страшные вещи, и даже МарьИванна может станцевать под русский трек. Встречаем мое новое High Heels видео. Не знаю как вам, а у меня от него мурашки бегут!

Читать полностью…

Mashkka про Data Science

Приглашаем на открытую лекцию в рамках курса «Философия и наука»

Мы привыкли смотреть на искусственный интеллект глазами ML-специалистов, разработчиков и бизнес-аналитиков. А что если взглянуть на него с философской точки зрения? Поговорим об этом на лекции «Искусственный интеллект в эпоху больших языковых моделей: вызовы, направления развития и области применения».

Вместе с Сергеем Марковым, директором по развитию технологий ИИ в Сбере, обсудим:

▪️ как искусственный интеллект влияет на развитие общества;
▪️ ИИ и барьеры человеческого разума;
▪️ роль обработки естественного языка и языкового моделирования в развитии технологий ИИ;
▪️ революцию глубокого обучения и смену парадигм в её рамках;
▪️ основные подходы к прикладному применению систем на базе LLM;
▪️ тренды и среднесрочные прогнозы развития технологий ИИ.

До встречи 31 октября в B202–206 в 19:00. Регистрация доступна по ссылке.

Читать полностью…

Mashkka про Data Science

😱 ГигаЧат заговорил: позвоним нейросети? 😱

Друзья, вот и настал тот момент, когда можно пообщаться с нейросетью как с реальным человеком.

Встречаем новую фичу ГигаЧат «Общаться голосом». Что удобно — его можно перебивать, уточнять детали, мучать вопросами, ГигаЧат услужливо выдаст вам ответ. А в конце пришлет расшифровку беседы (удобно для таких же «фанатов» голосового общения как мы в IT =)

Затестить это дело можно в бета-режиме веб-версии, а также для пользователей приложения на Android. Go?

Читать полностью…

Mashkka про Data Science

🍁Fallen into ML🍁

Окунулись с головой в машинное обучение на главной осенней конференции ВШЭ по машинному обучению — Fall Into ML. Центральное событие конференции — постерная сессия, где представляют работы, принятые в 2025 году на конференции уровня A* (e.g., NeurIPS, ICLR, ACL, EMNLP, CVPR, SIGIR и др.). Как результат, Fall Into ML из обычной студенческой конференции превращается в показ передовых разработок наших исследователей в области ML (aka AI). Сюда идут за нетворкингом и возможностью увидеться с единомышленниками — так сказать, посмотреть, чем занимаются коллеги по академической скамье, и себя показать заодно.

Мы показали две работы про бенчмарки для эмбеддеров:
✔️Постер 81 MMTEB: Massive Multilingual Text Embedding Benchmark - ICLR 2026
✔️Постер 82 The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design - NAACL 26

👉Подробнее про них писала в хабр посте.

#трудовыебудни #вшэ #hse #ai #llm

Читать полностью…

Mashkka про Data Science

🍁До встречи на Fall into ML

До традиционной постерной сессии конференции Fall Into ML остается всего пара часов. На сессии представляют работы исследователей, принятые на ведущие международные конференции уровня A* в 2025 году — NeurIPS, ICLR, ACL, EMNLP, CVPR, SIGIR и др.

В этом году представляем две работы:
✔️Постер 81 MMTEB: Massive Multilingual Text Embedding Benchmark
✔️Постер 82 The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design

До встречи в стенах НИУ ВШЭ!

#трудовыебудни

Читать полностью…

Mashkka про Data Science

🐑Беляевская премия достается Охоте на Электроовец

Слышали эту радостную новость? @oulenspiegel_channel вручили Беляевскую премию за Охоту на Электроовец, победившую в номинации Научно-Художественных книг.

Достойная награда за этот монументальный труд! Поздравляю!

👉Для тех, кто еще не читал, скачать книгу можно тут.

#ai

Читать полностью…

Mashkka про Data Science

#пятничныемемасы
Баян, но все же =)

Читать полностью…

Mashkka про Data Science

🐲AI R&D Day Playlist🐲

Подоспели записи докладов с AI R&D Day. Смотрим наше выступление (оно же VK) Норм или стрем? Оценка генераций в динамическом RAG бенчмарке для тех, кто пропустил (или хочет пересмотреть еще раз). В докладе рассказываем про наши новые проекты DRAGON для оценки RAG-систем и POLLUX для оценки генеративных способностей моделей.

👀Запись
📚Слайды
🧐
Подробности про DRAGON
▶️Полный Playlist (он же VK)

@mashkka_ds

#трудовыебудни #LLM #benchmarking

Читать полностью…

Mashkka про Data Science

🍂#justaboutme один день в Роза Хутор...

...а фото будто съездила на пару недель. В эти горы я могу возвращаться вновь и вновь...

Знаете, откуда пошло название Роза Хутор? Я с удивлением обнаружила, что название курорта произошло не от цветка «роза», а от фамилии одного из первых поселенцев-эстонцев.

Во второй половине XIX века семьи из Эстонии переселились на Кавказ, в район ныне известного курорта. Один из таких переселенцев — Адул Рооза (или «Адул Роза/Рооза») — поселился на хуторе в этих местах, и его имя стало основой топонима.

Со временем название «хутор Рооза» трансформировалось в «Роза Хутор». О как!

#justaboutme - воскресная рубрика, в которой я делюсь яркими событиями из своей жизни, не связанными с DS и ИТ подобно тому, как я это делаю в соцсетях.

Читать полностью…

Mashkka про Data Science

👋 Kandinsky Video & Giga-Embeddings

Для тех, кто ещё не видел: наши коллеги подготовили два крупных релиза в опенсорс:

🎬 Kandinsky-5 Video Lite
Ряд моделей для генерации видео по тексту
— Компактная модель всего на 2 млрд. параметров
— 4 версии модели в открытом доступе: претрейн, качественный SFT и две облегченные версии
— Датасет для обучения: 520 млн изображений и 125 млн видео-сцен
— Под капотом DiT и flow matching
— SFT-версия превосходит более крупные модели (Wan 2.1 14B, Wan 2.2 5B)

🖥 Узнать подробнее

💪 Giga-Embeddings
Модель для создания векторных представлений текстов
— Первое место на бенчмарке ruMTEB (результат 74.1)
— Качественные результаты на английском языке
— Точная фактология: надёжный RAG без галлюцинаций

🤗 Узнать Подробнее

#release #kandinsky #gigachat

Читать полностью…

Mashkka про Data Science

🧑‍🎓В комитете на защите диссертации: по другую сторону баррикад

Сегодня впервые поучаствовала в защите кандидатской диссертации на другой стороне, в роли члена комитета. Выступать в новом качестве было ответственно и так непривычно для меня: представьте мне среди других доверили вынести решение о том, достойна ли Александра звания кандидата компьютерных наук или нет.

Спойлер: конечно же да! Саша Малышева - одна из самых талантливых ученых по Computer Science, которых я знаю. Ее диссертация посвящена исследованию мультиагентного обучения на самом острие науки. Молчу про публикацию в Science, у которой уже 250+ цитирований и это количество стремительно растет.

Саша от всей души поздравляю! Большое достижение и на 300% результат заслуженных трудов!

#вшэ #членкомитета #назащите #трудовыебудни #вшэ

Читать полностью…

Mashkka про Data Science

🐾По следам вебинара Рекомендательные системы на основе матричных разложений в ML

На открытом вебинаре в отус рассказала про классические алгоритмы рекомендательных систем на основе матричных разложений: SVD и ALS. Прошли по теории за алгоритмами и научились применять на практике.

👀Запись
📖
Презентация
💻
Практика
📍
Полезные материалы по теме

#открытыеуроки #recsys

Читать полностью…
Subscribe to a channel