48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров.
Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.
Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных».
За 2 года вы на практике:
— изучите Python, Java, Scala, Kotlin и SQL,
— научитесь проектировать пайплайны и обрабатывать данные,
— научитесь работать с системами хранения данных и базами данных в облаке.
Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.
Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.
Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/efQF
Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5yfkCnk
🍏 Apple всерьёз задумалась о покупке Mistral — Bloomberg / Марк Гурман
По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.
Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.
Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.
📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов
Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.
#Apple #Mistral #AI #LLM #ГонкаИИ
@data_analysis_ml
🎥 Making Flux Run Fast — оптимизация инференса PyTorch моделей
Как ускорить генерацию изображений с текстом до менее чем полсекунды? Joel Schlosser из PyTorch Core показывает, как это сделать с помощью:
- torch.compile — ускорение инференса без изменения модели
- torch.export — подготовка модели к компиляции и интеграции
- torchao — библиотека для квантования, критично важная для скорости
Эти техники не только улучшают Flux, но универсальны и легко применимы к любым трансформерным моделям.
📺 Видео — часть серии PyTorch Compiler Series, где команда делится советами, лайфхаками и внутренностями оптимизирующего стека PyTorch.
🔗 Смотреть: https://www.youtube.com/watch?v=VNYBgqGQ98E
⚡️ Учёные нашли способ сделать электронику в 1000 раз быстрее
Американские исследователи сделали прорыв в управлении квантовыми материалами. Они научились переключать 1T-TaS₂ — особый кристалл — между состояниями изолятора и проводника при обычных температурах и на стабильное время.
▪ Ключ к переключению — метод thermal quenching
▪ Материал реагирует на свет, изменяя свои электронные свойства
▪ Работает как транзистор, но в разы быстрее и без кремния
▪ Главное: переключение обратимое и мгновенное
💡 Почему это важно:
Такие материалы способны заменить традиционные транзисторы, которые уже упёрлись в физические ограничения кремния. Это открывает путь к:
- сверхбыстрым процессорам
- минимальным размерам чипов
- новой архитектуре вычислений
Если технология масштабируется — это будет шаг к новой квантовой электронике, где компьютеры станут быстрее не на 20%, а в сотни раз.
Источник: https://sciencealert.com/quantum-breakthrough-could-make-your-devices-1000-times-faster
@data_analysis_ml
🔥 Meta строит ИИ-монстра: кластер Prometheus уже потребляет 1 ГВт
По данным SemiAnalysis, Meta заливает $30 млрд в перезапуск суперИИ — новые дата-кластеры, миллионы GPU и зарплаты уровня "заберите всех ресерчеров".
📍 В Огайо Meta строит один из крупнейших кластеров для обучения ИИ в мире — Prometheus (1 ГВт потребления).
📍 В Луизиане — Hyperion, цель к 2027 году: 2 ГВт. Всё на базе NVIDIA и собственных газовых турбин. Без дизеля — умная система охлаждения + временные тентовые ЦОДы, которые ставятся за месяцы.
🚫 Что пошло не так в прошлой попытке Llama‑гиганта:
- плохая реализация chunked attention
- сбои в expert choice routing
- низкое качество данных
- плохая координация масштабирования
Теперь Meta берёт в расчёт всё: вычисления, инфраструктуру, данные и кадры. Ставка — на абсолютное лидерство в суперИИ.
Война моделей — это уже не про параметры, а про ГигаВатты.
*Meta признана экстремистской и запрещена в России.
📌 Подробнее
@data_analysis_ml
Хотите освоить Python с экспертами НИУ ВШЭ и начать путь в аналитику?
Онлайн-магистратура «Аналитика больших данных» запускает бесплатный интенсив по Python и аналитике. 4 вечера, чтобы разобраться с базовыми инструментами анализа данных и решить свои повседневные задачи.
Что вас ждёт:
— 4 онлайн-занятия: от синтаксиса Python до работы с таблицами и визуализации
— Практические примеры и мини-кейсы
— Домашки и пошаговые материалы на Stepik для отработки навыка
Когда: 15–19 июля, 19:00 (по МСК)
Формат: онлайн + чат с преподавателем
Если давно хотели разобраться с Python, это удобная точка входа с экспертной поддержкой и ценными знаниями.
🔗 Зарегистрироваться
🦉 Как CAMEL-AI автоматизировали построение графиков с помощью Gemini 2.5 Pro
Команда CAMEL-AI показала, как связала свою систему агентов OWL с моделью Gemini 2.5 Pro, чтобы всё делалось само: от поиска данных до готового графика.
Что делает агент:
1. Ищет нужную информацию (например, бенчмарки ИИ-моделей)
2. Кратко объясняет, что в ней важного
3. Пишет Python-код для графика
4. Строит график и сохраняет и код, и изображение
💡 Всё это происходит по простому текстовому запросу — прямо в браузере через готовый интерфейс.
Почему это круто:
— Не нужно писать код самому
— Система сама выбирает нужные шаги
— Всё работает в одном окне: и модель, и инструменты, и визуализация
— Можно подключать любые API и расширять под себя
📌 Подробнее
@data_analysis_ml
🚀 Fine-tuning LLM с помощью RL — это несложно!
Вот минимальная реализация GRPO/PPO для Qwen3 на JAX — всего ~400 строк кода от начала до конца.
Что внутри:
- GRPO (Gradient-Regularized PPO) и PPO, реализованные с нуля
- Поддержка Qwen3, open LLM от Alibaba
- JAX-first подход: чистый, модульный и легко читаемый код
- Простая архитектура для быстрого ресёрча и экспериментов
Особенности:
- Без лишней магии и абстракций — всё прозрачно
- Минимум зависимостей
- Отличный старт для тех, кто хочет разобраться в LLM+RLHF
Подходит для:
- Исследователей, изучающих RL на языковых моделях
- Разработчиков, которые хотят понять PPO руками
- Всех, кто хочет обучать LLM «по-честному»
🧠 Хочешь разобраться в fine-tuning LLM через RLHF — начни с этого простого и понятного репозитория!
📦 Репозиторий: https://github.com/kvfrans/lmpo
👩💻 Всем программистам посвящается!
Вот 17 авторских обучающих IT каналов по самым востребованным областям программирования:
Выбирай своё направление:
👩💻 Python — t.me/python_ready
🤔 InfoSec & Хакинг — t.me/hacking_ready
🖥 SQL & Базы Данных — t.me/sql_ready
🤖 Нейросети — t.me/neuro_ready
👩💻 C/C++ — /channel/cpp_ready
👩💻 C# & Unity — t.me/csharp_ready
👩💻 Linux — t.me/linux_ready
📖 IT Книги — t.me/books_ready
👩💻 Frontend — t.me/frontend_ready
📱 JavaScript — t.me/javascript_ready
👩💻 Backend — t.me/backend_ready
📱 GitHub & Git — t.me/github_ready
👩💻 Java — t.me/java_ready
👩💻 Весь IT — t.me/it_ready
👩💻 Bash & Shell — t.me/bash_ready
🖼️ DevOps — t.me/devops_ready
🖥 Design — t.me/design_ready
📌 Гайды, шпаргалки, задачи, ресурсы и фишки для каждого языка программирования!
Google DeepMind расширяет линейку своих моделей Gemma
Представлены две новинки:
✔️ T5Gemma — новая жизнь для классической архитектуры encoder-decoder от Google DeepMind
Большинство современных LLM используют архитектуру *decoder-only*, но Google решила напомнить о силе классической схемы *encoder-decoder*, особенно эффективной в задачах вроде перевода, и QA.
Это новая линейка LLM, в которой уже обученные модели Gemma 2 (decoder-only) превращаются в мощные encoder-decoder через метод адаптации. Такой подход даёт сразу два бонуса:
- сохранение знаний из Gemma 2;
- гибкость и эффективность encoder-decoder архитектуры.
Особенности:
- Обновлённая версия Gemma 2 с архитектурой encoder-decoder.
- Отличный баланс между качеством и скоростью инференса (по сравнению с decoder-only).
- Доступны чекпойнты: Small, Base, Large, XL, 2B-2B, 9B-9B, 9B-2B.
- Достигает большей точности, не жертвуя временем инференса.
- Открывает путь к “небалансным” конфигурациям, когда, например, энкодер мощный, а декодер компактный.
✔️ MedGemma — открытые мультимодальные модели для медицины от Google DeepMind
🟡 MedGemma 4B Multimodal
- 64.4% на MedQA — одна из лучших моделей в классе <8B.
- В слепом тесте: 81% отчётов по рентгенам, сгенерированных MedGemma 4B, были признаны квалифицированным рентгенологом достаточно точными для принятия медицинских решений.
- Также показывает SOTA-уровень на задачах медицинской классификации изображений.
🟢 MedGemma 27B (Text + Multimodal)
- 87.7% точности на MedQA — почти как у DeepSeek R1, но в 10 раз дешевле по инференсу.
- Конкурирует с гораздо более крупными моделями на задачах:
- Определение диагноза;
- Интерпретация ЭМК (электронных медкарт);
- Комбинированное понимание текста и изображений.
Открытые модели — можно кастомизировать, дообучать и использовать локально.
🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡MedGemma: https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/
#GoogleDeepMind #ai #ml #llm #med
ML-инженеры, какая встреча!
19 июля в Москве снова пройдет Turbo ML Conf от группы Т-Технологий. В этом году — еще масштабнее!
В программе 5 тематических потоков, продовые кейсы и технологии.
Среди спикеров — эксперты Т-Банка, Сбера, Яндекса и других ведущих специалистов.
Будет много нетворкинга, прикладные доклады, настольные игры, лимитированный мерч. Участие бесплатное.
Успейте оставить заявку
🧠 Hugging Face представили SmolLM-3B — компактную и мощную open-source LLM на 3 млрд параметров, которая работает *прямо на ноутбуке*.
📦 Особенности:
• Тренирована на 1T токенов (RefinedWeb + книги + код + академические тексты)
• Обгоняет Mistral-7B и LLaMA-3 8B на многих задачах
• Работает в GGUF, поддерживается LM Studio, Ollama, LM Deploy и др.
💡 Зачем это нужно?
SmolLM — не про SOTA, а про локальные сценарии: быстрый запуск, приватность, низкие требования к железу.
📁 Репозиторий и демо:
https://huggingface.co/blog/smollm3
@data_analysis_ml
Первый открытый Call for Papers на IT Elements 2025 — last call!
10–11 сентября ИТ-сообщество традиционно соберется на большой осенней конференции для тех, кто делает ИТ в России. Готовьтесь к новым трекам, новым спикерам и новой грандиозной площадке!
Если у вас есть сильный кейс, нестандартный опыт или нешаблонное решение — пришло время предложить свой доклад. Главное требование — экспертность и новизна темы.
Рассматриваются доклады по ключевым направлениям:
▪️ИТ-инфраструктура
▪️Сетевые решения
▪️Кибербезопасность
▪️Прикладные решения, AI и ML
Станьте главным элементом IT Elements 2025!
Узнать больше и подать заявку можно до 20 июля.
🔥 Gemini API теперь с Batch Mode — экономия 50%!
Google добавил режим пакетной обработки в Gemini API — теперь можно запускать крупные задания и получать результаты с 50% скидкой. Идеально для массовой генерации, ассистентов и анализа.
Что умеет новый режим:
✅ Обработка больших партий данных — дешевле в 2 раза
✅ Результаты приходят в течение 24 часов
✅ Поддержка встроенных инструментов, включая Google Search
✅ Принимает данные в строках или через JsonL-файлы до 2 ГБ
✅ Кэширование контекста для длинных заданий
✅ Простой API: создание, удаление, получение результатов
Полезен для:
- генерации больших объёмов текстов/ответов
- чат-ботов с очередями задач
- анализа данных с контекстом
- автоматизации LLM-инференса
📘 Документация: https://ai.google.dev/docs/gemini-api/batch
@data_analysis_ml
🎨🚀 Tencent представили Hunyuan3D-PolyGen — новый генеративный ИИ для 3D-моделей с высоким уровнем качества
С ходу выйдет из ИИ сразу готовые для пайплайна художников и игровых студий.
Что умеет:
✅ Собственная autoregressive-сеть генерирует чистую, плотную сетку без артефактов
✅ Сложная геометрия — способна выдавать более 10 000 полигонов с высокой детализацией и стабильной структурой
✅ Гибкий экспорт — поддержка tri- и quad-мешей под разные пайплайны
🔥 Подходит для:
— геймдева
— цифрового арта
— быстрых 3д прототипов
ИИ, который реально умеет 3D.
👉 Попробовать (включайте автопереводчик)
@data_analysis_ml
#3d #Tencent #Hunyuan #genai #ai
🧠 MindsDB — универсальный MCP-сервер с поддержкой SQL и ИИ
Если вам нужен мощный способ подключать LLM к реальным данным — вот он.
MindsDB — это инструмент, который позволяет обращаться к более чем 200 источникам данных (Slack, Gmail, Google Sheets, базы данных, соцсети и т.д.) с помощью:
▪ обычных SQL-запросов
▪ или просто на естественном языке (например: "покажи все письма от клиента за прошлый месяц")
Что делает его особенным?
▪ Умеет объединять данные из разных систем — как единый запрос
▪ Позволяет вызывать и обучать ML/LLM‑модели прямо из SQL
▪ Работает как MCP‑сервер — можно подключать агентов, чат-ботов и использовать в продуктивной среде
▪ Полностью open-source, с активным сообществом и 33 000+ звёзд на GitHub
💡 Это готовое решение, чтобы построить:
– интеллектуального ассистента с доступом к данным
– LLM-интерфейс к корпоративным системам
– гибкий слой интеграции для агентов
🔗 github.com/mindsdb/mindsdb
@data_analysis_ml
🎓 Фанфакт у статьи Google’s Gemini 2.5 arXiv:2507.06261 — 3295 авторов!
https://arxiv.org/abs/2507.06261
Кто создает будущее: исследователи или бизнес?
Дискуссия с экспертами в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито
Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.
📅 17 июля, 19:00
📍 офис Авито в Москве и онлайн
➡️ заявка на участие по ссылке
Авито приглашает студентов и исследователей на дискуссию о развитии карьеры и выборе пути в сфере ИИ. А после паблик-тока — на неформальный вечер с экспертами, где участники смогут задать вопросы и наладить полезные контакты.
Эксперты обсудят:
- Что дает наука бизнесу и может ли современный технологический сектор развиваться без фундаментальных исследований?
- Как происходит трансфер технологий в области ИИ из науки в коммерческий сектор и обратно?
- Как начинающему специалисту выбрать между академической карьерой и работой в бизнесе?
- Какие возможности открываются для молодых специалистов от сотрудничества науки и бизнеса?
Приглашаем для полезного нетворкинга, новых знакомств и возможности получить ответы на ваши вопросы напрямую от экспертов рынка!
Подать заявку на участие можно по ссылке – места ограничены, участники будут подтверждены исходя из темы дискуссии. Для подтверждения придет приглашение на почту. А все желающие смогут следить за трансляцией онлайн.
🧠 Как оживить open-source LLM без дообучения?
Большинство открытых языковых моделей "замерзают" во времени: они не умеют гуглить, не могут обновляться и, как следствие, проваливаются на свежих научных задачах.
📄 Новый подход — X‑Master
Он превращает любую LLM в агента с доступом к коду, вебу и самокритике, не изменяя веса модели.
💡 Как это работает:
– Модель может вставить Python-код прямо в ответ
– Код выполняется в песочнице, результат возвращается в чат
– Это позволяет модели использовать «внешнюю память»: веб-скрапинг, вычисления, даже вызов инструментов
Чтобы избежать случайных ошибок, авторы запускают 5 Solver-клонов, а затем роли Critic → Rewriter → Selector доводят ответ до ума.
Этот «поиск → чистка» напоминает reinforcement rollouts, но не требует переобучения.
📈 Результат:
– DeepSeek-R1 на задаче «Humanity’s Last Exam»: с 17.7% до 32.1%
– Обходит закрытые модели на сложном биотесте на +5 пунктов
💥 И всё это — без дообучения. Просто обёртка.
Промпты, sandbox, и немного здравого смысла — и ваша модель снова в игре.
arxiv.org/abs/2507.05241
@data_analysis_ml
🎓 Machine Learning Visualized — лучший способ понять, как работает ML *на самом деле*
Обычно машинное обучение учат по формулам или просто вызывают fit(). Но если ты хочешь увидеть, как алгоритмы учатся шаг за шагом, — этот проект создан для тебя.
🔍 Что это:
Открытый Jupyter Book с интерактивными ноутбуками, в которых:
- Алгоритмы реализованы «с нуля» на NumPy
- Каждый шаг визуализирован: потери, веса, градиенты, границы решений
- Можно изменять параметры и наблюдать, как это влияет на обучение
📘 Темы:
- Градиентный спуск
- Логистическая регрессия
- Перцептрон
- K‑Means и PCA
- Обратное распространение в нейросетях
🧠 Полезно:
- Если ты изучаешь машинное обучение и хочешь понять, что происходит внутри моделей
- Если преподаёшь ML и ищешь понятные наглядные материалы
- Если хочешь объяснить ML-процессы коллегам без магии
🚀 Запуск:
git clone https://github.com/gavinkhung/machine-learning-visualized
cd machine-learning-visualized
./download_notebooks.sh
jupyter-book build .
🎮 Инженеры X (команда Илона Маска) сделали рабочую игру 3D-FPS за 4 часа с помощью Grok 4
Разработчик из xAI, Дэнни Лимансета, собрал шутер от первого лица всего за 4 часа, используя Grok 4 — LLM от команды Илона. Модель помогла с кодом, импортом ассетов, базовой логикой и генерацией окружения.
🛠 Что внутри:
— 3D-персонаж и базовое перемещение
— Импорт моделей и текстур из сети
— Логика стрельбы, здоровье, базовый UI
— Всё собрано в одном пайплайне с помощью Grok 4
💬 Реакция комьюнити на Reddit:
> “Это неплохо для 4 часов, но опытный геймдев сделал бы не хуже без ИИ.”
> “Я такое соберу вручную за пару часов с ассетами.”
🔗 Пост
@data_analysis_ml
🛠Вышла новая модель от Mistral — Devstral‑Small‑2507
Это обновлённая версия модели для работы с кодом.
Поддерживает 128k токенов, работает локально и показывает рекордные результаты среди открытых моделей.
Что нового:
• 53.6% на SWE‑Bench Verified
• Поддержка function calling, XML и промтов для код‑агентов
• Запускается на 1×RTX 4090 или Mac с 32 GB ОЗУ
• Apache 2.0
• Доступна через Ollama, LM Studio, Hugging Face, vLLM
Тарифы API:
$0.1 за миллион входных токенов
$0.3 за миллион выходных
Подходит для:
— Автоматизации правок и генерации тестов
— Интеграции в IDE и агенты
— Анализа больших проектов
🔗 Модель: https://huggingface.co/mistralai/Devstral-Small-2507
🔥 Новый инструмент на Hugging Face: **AllTracker**
AllTracker — это open-source модель для плотного отслеживания всех точек в видео. В отличие от классических подходов, она умеет отслеживать пиксели даже на больших временных расстояниях и при высоком разрешении (до 1024×768).
Что умеет:
- Отслеживает движение всех точек (dense point tracking)
- Работает быстро и точно на видеороликах высокого качества
- Подходит для компьютерного зрения, motion analysis и видеоредактирования
В репозитории:
- Готовые веса модели (`.pth`)
- Мини-версия для быстрой инференции
- Демо-приложение на Gradio прямо в браузере: загрузи видео, кликни точку — и смотри, как она движется по кадрам
Используй для:
- Анализа движения
- Видеомонтажа с отслеживанием
- Исследований в области CV
model: https://huggingface.co/aharley/alltracker
demo: https://huggingface.co/spaces/aharley/alltracker
@data_analysis_ml
🚨 Grok 4 — новая мощная модель от xAI
📊 Лидер на бенчмарках:
- Решает математику AIME25 на 100% — не ошиблась ни в одной из самых сложных задач
- ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus.
🧠 Главное достижение — Humanity’s Last Exam:
- С максимальными ресурсами и включённой поддержкой внешних инструментов — 44.4% (а на текстовой части даже 50.7%).
- Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%.
- Почти половина презентации была посвящена именно этому тесту.
🛠 Что под капотом:
- Архитектура — та же, что у Grok 3.
- Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения.
- На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов.
- Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением.
- Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini).
📉 Слабые места:
- Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку.
- Маск пообещал, что в следующей версии это исправят.
📏 Контекст увеличили до 256k токенов.
💬 API уже запущен:
- Стоимость — как у Grok 3 и Claude Sonnet.
- Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus.
- Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену.
🏭 Инфраструктура xAI растёт стремительно:
- Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200.
- В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг.
- В планах — новое расширение дата-центра Colossus.
📌 Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями.
Тестим здесь.
@ai_machinelearning_big_data
#grok
🧠 Хочешь сделать свой ИИ-стартап? Начни с базы!
Microsoft запустила бесплатный курс по MCP — это про то, как подключать нейросети к реальным приложениям: сайтам, чатам, бэкендам и не только.
📚 Что внутри:
• 11 модулей с теорией и практикой
• Примеры кода на разных языках
• Всё можно пройти на русском
Идеально, если хочешь научиться использовать ИИ не на уровне «поиграться», а реально внедрять.
👉 Курс бесплатный — забираем здесь
🎯 Hugging Face показали, как ускорить обучение мультимодальных моделей, устранив главное узкое место — неэффективную загрузку данных.
Они представили Multimodal Data Pipeline (MMDP) — мощный, но простой пайплайн, который решает проблему простоя GPU из-за паддинга и медленного I/O.
Вот как это работает:
1. Визуализация данных — сначала анализируются длины текстов и структура мультимодальных примеров.
2. Constrained Padding — вместо бездумного паддинга, обрезаются аномально длинные примеры.
3. Packing как bin-packing — батчи собираются по максимальному числу токенов, а не по фиксированному количеству примеров.
4. Multimodal-aware batching — учитывается и число изображений в батче.
5. ConstantLengthDataset — кастомный класс с producer-consumer очередями и плотной упаковкой без паддинга.
💡 Результат — более плотные батчи, меньше токенов вхолостую, выше эффективность обучения.
Исходники и туториал:
📌 https://huggingface.co/blog/mmdp
📌 https://github.com/ariG23498/mmdp
Если ты тренируешь VLM или LLM с изображениями — это must-have.
@data_analysis_ml
🚀 Новинка от Hugging Face — FineWeb‑2: огромный высококачественный веб‑датасет на базе CommonCrawl!
📊 Основные характеристики:
- ~8 ТБ сжатого текста (~3 трлн слов) из 96 дампов CommonCrawl (2013–2024)
- Более 1000 языков и почти 1900 языковых-скриптовых пар
- Высокое качество: извлечён только основной текст, проведена фильтрация и дедупликация
- Лицензия ODC‑By 1.0 — можно использовать в коммерческих и исследовательских целях
📝 Зачем это нужно:
- Даёт открытому ИИ доступ к качеству, сравнимому с закрытыми наборами (как у LLaMA 3 или Mixtral)
- Существенно улучшает результаты на бенчмарках вроде MMLU и ARC, особенно при обучении с FineWeb‑Edu
🔧 Где применить FineWeb‑2:
- Обучение LLM с нуля
- Дообучение на редких языках
- Синтетическая генерация, RAG и пр.
📥 Скачать: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2
🧠 Energy-Based Transformers — модель, которая умеет думать, а не просто угадывать
Новая архитектура EBT (Energy-Based Transformers) показывает, что трансформеры можно сделать умнее и универсальнее.
Что делает EBT:
- 📊 Лучше классических трансформеров (включая Transformer++) по всем параметрам: данные, глубина, количество параметров, вычисления
- ⏱ При "долгом размышлении" даёт +29% прирост качества на тестах
- 🌍 Отлично работает с любыми типами данных: текст, видео, звук, 3D и др.
- 🧠 Умеет обобщать — справляется с новыми задачами без дообучения
- ❌ Не нуждается в наградах (как в reinforcement learning)
Почему это важно:
EBT — это шаг к ИИ, который способен реально *думать*, а не просто воспроизводить шаблоны. Он не просто быстрее, он глубже понимает, что делает.
Website: https://energy-based-transformers.github.io
Paper: https://arxiv.org/abs/2507.02092
@data_analysis_ml
🚀 AirLLM — перспективный подход к запуску LLM на слабом железе.
Этот проект позволяет запускать 70B-параметрические модели на видеокартах с 4GB памяти без квантования — это стало возможным благодаря оптимизированной послойной загрузке весов.
Инструмент работает благодаря блочному 4/8-битное сжатие, ускоряющее inference в 3 раза с минимальной потерей качества. Решение работает даже на MacOS с чипами Apple Silicon , поддерживаются Llama3, Qwen2.5, Mixtral и другие топовые LLM.
🤖 GitHub
@data_analysis_ml
✏️ Школы возвращаются к письменным экзаменам — из-за ИИ списывают почти все
По данным Fox News, 89% студентов используют ChatGPT и другие ИИ для выполнения заданий.
Учителя признаются: отличить текст, написанный ИИ, от человеческого — почти невозможно.
📉 В результате:
- Texas A&M, Университет Флориды и UC Berkeley массово возвращают обычные бумажные тетради и письменные экзамены (ранее перешли на цифровые варианты)
🤖 Почему так?
- ChatGPT умеет имитировать стиль ученика.
- Детекторы ИИ работают слабо — в слепых тестах учителя не смогли отличить ИИ-ответ от настоящего.
- В условиях онлайн-обучения и дистанта — списывать стало слишком просто.
🧠 Что дальше?
- Некоторые школы вводят устные эксзамены, письменные эссе в классе, наблюдение за процессом.
- Другие — обучают этике и грамотному использованию ИИ, как когда-то учили пользоваться калькулятором.
📌 Вывод: Ручка против ИИ — временное решение. Главный вопрос — как переосмыслить само образование в эпоху ChatGPT.
Источник
@data_analysis_ml