🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области!
🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач.
🖥 Github
@data_analysis_ml
🗣 Kokoro-TTS
Мощнейшая TTS-модель всего лишь на 82M параметров.
Она превосходит более крупные модели и генерирует минуты речи за секунды.
Самое главное - это открытый исходный код!
Попробуйте и убедитесь сами: 👇
🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
#tts #ml #opensource
📄 ML NEWS
🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
👩💻 Stable point-aware 3D от Stability AI
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
Приглашаем вас на открытый вебинар: «Технологии за современными LLM»
https://otus.pw/IWFL/
⏰Дата: 20 января в 18:00 мск
Спикер: Мария Тихонова
📚На занятии мы обсудим:
+ Какие современные LLM сегодня используют на практике.
+ Основные концепции языкового моделирования и продвинутые языковые модели.
+ Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв.
+ Что представляет из себя задача языкового моделирования
+ Языковые модели, которые сегодня лежат в основе всех NLP методов
🔥Результаты урока:
- Вы поймете, где применяются методы NLP
- Узнаете основные тренды и перспективы развития методов NLP
- Узнаете современное состояние области в связи с быстрым развитием LLM
Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing»
👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/IWFL/?erid=2W5zFHJGL9W
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
Станьте ML-Инженером за 8 месяцев.
Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом.
Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом»
Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое.
С трудоустройством тоже помогут: 87% студентов находят работу своей мечты в течение двух месяцев с момента начала поиска.
А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу.
Успейте присоединиться к первому потоку обучения с самой большой скидкой 17%
🔥 Mistral выпустила новую модель, специально разработанную для по Кодина с ИИ.
Codestral 25.01 дебютирует на 1-м месте в рейтинге лидеров LMsys Copilot Arena 🔥
Новая версия стала заметно умнее и в разы быстрее благодаря обновлённому токенизатору и усовершенствованной архитектуре.
Вы уже можете использовать его бесплатно в Continue (100% открытый исходный код) для VS Code.
Размер окна контекста увеличен до 256 тысяч токенов.
Чтобы использовать его, просто добавьте плагин Continue в VS Code и выберите Codestral 25.01 в качестве модели.
А если вам нужна дополнительная информация, то вот официальный блог Mistral.
https://mistral.ai/news/codestral-2501/
@data_analysis_ml
#mistral #llm #ml
📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude!
🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей.
🖥 Github
@data_analysis_ml
🔥 World Arcade — это платформа, которая позволяет запускать генеративные игры на вашем собственном GPU!
🌟 В отличие от традиционных игр, использующих детерминированные игровые движки, генеративные игры создают каждый кадр в реальном времени с помощью интерактивных видеомоделей, реагируя на действия игрока. World Arcade объединяет различные открытые игровые модели, такие как Yume Nikki, CS:GO, Minecraft, Atari Arcade Games и Mario Kart 64, предоставляя пользователям удобный способ их запуска и настройки.
💡 Платформа поддерживает работу на Windows и Linux, требуя наличия GPU NVIDIA с объемом видеопамяти не менее 8 ГБ. Для установки на Windows достаточно скачать архив dweam-windows.zip из последнего релиза, распаковать его и запустить исполняемый файл dweam.exe. На Linux установка осуществляется с использованием Docker и Docker Compose. World Arcade также предоставляет возможность добавления собственных игр путем создания Python-пакета с реализацией класса Game и предоставления метаданных в файле dweam.toml.
🔐 Лицензия: AGPL-3.0
🖥 Github
@data_analysis_ml
⚡️ LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
LLaVA-Mini достигает производительности LLaVA-v1.5 с 1 токеном (vs 576), сокращая количество FLOP на 77%, задержку со 100 мс до 40 мс и VRAM с 360 МБ до 0,6 МБ, обеспечивая 3-часовую обработку видео и 10 000 кадров на 24 ГБ GPU 🔥.
Установка:
conda create -n llavamini python=3.10 -y
conda activate llavamini
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱
В статье описана оценка энергопотребления, показаны тенденции и интригующие выводы 🙌
👉 Читать здесь: https://huggingface.co/blog/leaderboard-emissions-analysis
👀 Ollama-OCR
Пакет для Python и приложение Streamlit, использующие модели зрения Ollama для извлечения текста из изображений различных форматов, с поддержкой пакетной обработки.pip install ollama-ocr
▪ Github
@data_analysis_ml
🔥 miniperplx — минималистичный поисковый движок, работающий на базе ИИ!
🌟 Он использует модели, такие как GPT-4o и Claude 3.5, для предоставления ответов на запросы, а также поддерживает функции веб-поиска, поиск по URL, прогноз погоды, выполнение программного кода, перевод текста и многие другие возможности.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет
6.5M изображений + 0.8B текста из 22k часов обучающих видео
Охватывает такие предметы, как математика, физика и химия.
Apache 2.0
- Датасет: https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook
- Статья: https://huggingface.co/papers/2501.00958
@data_analysis_ml
Большая подборка интересных статей, посвященных LLM.
-The GPT-4 barrier was comprehensively broken
- Some of those GPT-4 models run on my laptop
- LLM prices crashed, thanks to competition and increased efficiency
- Multimodal vision is common, audio and video are starting to emerge
- Voice and live camera mode are science fiction come to life
-Prompt driven app generation is a commodity already
- Universal access to the best models lasted for just a few short months
- Agents” still haven’t really happened yet
- Evals really matter
- Apple Intelligence is bad, Apple’s MLX library is excellent
- The rise of inference-scaling “reasoning” models
- Was the best currently available LLM trained in China for less than $6m?
- The environmental impact got better
- The environmental impact got much, much worse
- The year of slop
- Synthetic training data works great
- LLMs somehow got even harder to use
- Knowledge is incredibly unevenly distributed
- LLMs need better criticism
⚡️ Полный обзор
@data_analysis_ml
⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning.
Если вы начинаете изучать мл с нуля, это хороший список.
Секция 1:топовые LLMs
- GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 статьи. GPT3.5, 4o, o1, и o3.
- Claude 3 и Gemini 1, Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Gemma 2.
LLaMA 1, Llama 2, Llama 3 статьи для понимания внутреннего устройства моделей.
- Mistral 7B, Mixtral и Pixtral
- DeepSeek V1, Coder, MoE, V2, V3.
- Apple Intelligence
Секция 2: бенчмарки
- MMLU paper - the main knowledgebenchmark, next to GPQA and BIG-Bench. In 2025 frontier labs use MMLU Pro, GPQA Diamond, and BIG-Bench Hard.
- MuSR paper - evaluating long context, next to LongBench, BABILong, and RULER. Solving Lost in The Middle and other issues with Needle in a Haystack.
- MATH paper.
🔥 Полный список
⚡️⚡️⚡️ Train 400x faster Static Embedding Models with Sentence Transformers
Интересное чтиво- очень быстрый метод обучения статических моделей эмбедингов, которые выполняются на процессоре.
На тестах он показал себя в 100-400 раз быстрее, чем обычные модели, при сохранении качества более в районе 85%!
Внутри:
- Две модели (для английского языка и многоязычная),
- Подробная стратегия обучения, которой следовали авторы, от разработки идеи до выбора фдатасета, реализации и оценки.
- Сценарии обучения, основанные на опенсорсной библиотеке sentence transformers с открытым исходным кодом.
- Отчеты о весах и отклонениях с метриками обучения и оценки, собранными во время обучения.
- Список датасетов, которые авторы использовали: 30 для обучения и 13 для оценки моделей.
🤗 HF: https://huggingface.co/blog/static-embeddings
#transformers #embeddingmodel #tutorial
🌟Вышел InternLM v3!
- Производительность SoTA, превосходит такие модели, как Llama3.1-8B и Qwen2.5-7B
- Способность к глубоким рассуждениям с использованием системных промптов (подробности в карточке модели)
- Обучается только на токенах высокого качества 4T.
https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d
@data_analysis_ml
#llm #reasoning #ml
🎓 Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM
В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM),
Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений.
PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench.
А вот интересная цитата из технического отчета:
"Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага"
» https://huggingface.co/papers/2501.07301
🔥 Web-UI — это инструмент для работы с AI-агентами в браузере, предоставляющий удобный пользовательский интерфейс, построенный на основе Gradio!
🌟 Он позволяет пользователям запускать и управлять задачами с помощью различных больших языковых моделей (LLMs), таких как OpenAI, Azure OpenAI, Anthropic и другие. Этот проект поддерживает настройку собственного браузера для работы с инструментом, сохраняя сессии и позволяя видеть историю взаимодействий с AI.
💡 Web-UI поддерживает как локальную установку с использованием Python и Playwright, так и установку через Docker. Пользователи могут запускать интерфейс, чтобы наблюдать за действиями AI-агента в реальном времени, включая управление сессиями браузера и использование API для интеграции с LLM.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
💡Transformer^2: Самоадаптирующиеся LLM
Вводит новую структуру самоадаптации, которая адаптирует LLM для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты их весовых матриц.
Во время вывода использует систему диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
https://huggingface.co/papers/2501.06252
@data_analysis_ml
#transformers2 #llm #paper #ml
🔥 Fast Semantic Text Deduplication
Новая, невероятно быстрая библиотека семантической дедупликации текста, которая объединяет эмбединг Model2Vec с поиском сходства, что позволяет дедуплицировать миллионы записей за считанные минуты. 👀
TL;DR:
🚀 Дедупликация 1,8 млн записей WikiText производит всего 83 секунды на CPU
💡 Используется семантическое сходство вместо точного соответствия для обнаружения дубликатов
🐍 Простой API Python и минимальные зависимости
🔧 Поддерживает пользовательские кодировщики, включая преобразователи предложений
🔎 Встроенные инструменты для проверки дубликатов и настройки порогов схожести
🧪 Проверено на 17 популярных наборах данныхpip install semhash
from datasets import load_dataset
from semhash import SemHash
# Load a dataset to deduplicate
texts = load_dataset("ag_news", split="train")["text"]
# Initialize a SemHash instance
semhash = SemHash.from_records(records=texts)
# Deduplicate the texts
deduplicated_texts = semhash.self_deduplicate().deduplicated
🎓 Введение в статистическую теорию машинного обучения
📌 Видео
📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок 6
📌 Colab
📌Полный курс
@data_math
🔥 LeanUniverse - это пакет, предназначенный для создания датасетов из репозиториев Lean4 на Github.
Его цель - упростить и стандартизировать процесс создания обучающих наборов данных для моделей ИИ.
Ключевые особенности:
- Последовательность: LeanUniverse гарантирует, что все собранные репозитории согласованы и могут быть связаны с одной и той же версией зависимостей (mathlib). Это гарантирует надежность и совместимость датасетов, созданных с помощью этой библиотеки.
- Фильтрация лицензий: Пользователи имеют возможность определять фильтры допустимых лицензий,
- Кэширование: В библиотеку встроен механизм кэширования, повышающий эффективность за счет сокращения избыточных вычислений. Эта функция позволяет периодически обновлять и увеличивать датасеты.git clone https://github.com/your-repo/LeanUniverse.git
cd LeanUniverse
▪ Github
📢 Релиз Moondream 2B
Новая vision модель для эйдж девайсов
Поддерживает структурированные выводы, улучшенное понимание текста, отслежтвание взгляда.
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image
model = AutoModelForCausalLM.from_pretrained(
"vikhyatk/moondream2",
revision="2025-01-09",
trust_remote_code=True,
# Uncomment to run on GPU.
# device_map={"": "cuda"}
)
# Captioning
print("Short caption:")
print(model.caption(image, length="short")["caption"])
print("\nNormal caption:")
for t in model.caption(image, length="normal", stream=True)["caption"]:
# Streaming generation example, supported for caption() and detect()
print(t, end="", flush=True)
print(model.caption(image, length="normal"))
# Visual Querying
print("\nVisual query: 'How many people are in the image?'")
print(model.query(image, "How many people are in the image?")["answer"])
# Object Detection
print("\nObject detection: 'face'")
objects = model.detect(image, "face")["objects"]
print(f"Found {len(objects)} face(s)")
# Pointing
print("\nPointing: 'person'")
points = model.point(image, "person")["points"]
print(f"Found {len(points)} person(s)")
https://huggingface.co/vikhyatk/moondream2
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.
Лицензия MIT!
🤗 HF: https://huggingface.co/microsoft/phi-4
🧠Demo: https://huggingface.co/spaces/Tonic/Phi-4
@ai_machinelearning_big_data
#phi4 #llm #Microsoft
🎉OLMo2 установили новый стандарт для релизов с открытым исходным кодом. 🫡
Пристегните ремни -
выпущен подробный репорт о OLMo 2 . В нем 50 с лишним страниц о 4 важнейших компонентах конвейера развития LLM.
Они выпустил: Модели, датасеты, код обучения и все возможные данные. А вишенкой на торте стали журналы wandb.
Итак, если вы хотите создать современный LLM? Создатели OLMo 2 делятся полным рецептом.
-----
🔧 Ключевые методы в этой статье:
→ В OLMo 2 реализован двухэтапный подход к обучению: предварительное обучение на 4-5T токенах и обучение на специализированном Dolmino Mix 1124.
→ Архитектура отличается повышенной стабильностью благодаря RMSNorm, переупорядоченной нормализации и QK-норме для вычисления внимания.
→ Трехфазный конвейер тюнинга сочетает в себе контролируемую тонкую настройку, прямую оптимизацию предпочтений и обучение с подкреплением и проверяемым вознаграждением.
→ Инфраструктура обучения включает два кластера (Jupiter и Augusta) с оптимизированным управлением рабочей нагрузкой с помощью системы Beaker.
-----
💡 Основные выводы:
→ Стабильность обучения значительно повышается за счет фильтрации повторяющихся n-грамм и использования инициализации нормальным распределением
→ Обучение в середине обучения на высококачественных данных эффективно расширяет возможности модели
→ Усреднение веса модели неизменно повышает производительность
→ Оптимизация инфраструктуры имеет решающее значение для успешного обучения LLM
-----
📊 Результаты:
→ Модели 7B и 13B соответствуют или превосходят Llama 3.1 и Qwen 2.5, используя меньшее количество FLOPs
→ Оценки GSM8K: 67,5 для 7B, 75,1 для 13B
→ Показатели MMLU: 63,7 для 7B, 67,5 для 13B
💡Подробнее про модель
💡Paper
💡Blog
💡Demo
🔥 MarS — движок для симуляции финансовых рынков, основанный на генеративной модели, называемой Large Market Model (LMM)!
🌟 Цель проекта — создание реалистичных, контролируемых сценариев торговли, которые могут моделировать рыночные ордера и их влияние. MarS позволяет исследовать законы масштабирования модели LMM в финансовых рынках и ее потенциал для реальных приложений, таких как создание рыночных моделей и генерация рыночных сценариев.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
👩💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитические потоки и создание ИИ-конвейеров, включая работу с LLM и методами RAG!
🌟 Фреймворк предоставляет простой API на Python, который интегрируется с популярными ML-библиотеками и может использоваться для потоковой и пакетной обработки данных.
🔐 Лицензия: BSL-1.1
🖥 Github
@data_analysis_ml
🖥 CPU vs GPU
Очень хорошее и интуитивно понятное объяснение CPU vs GPU
Источник
@data_analysis_ml