ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

27345

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

🌟 Google только что выпустили новую модель Gemini 2.0 Flash Thinking

✅ Контекст с 1 миллионом токенов (5-х больше, чем o1 Pro)

#1 на арене чат-ботов
👑

Модель показала наивысший результат, обогнав Gemini-Exp-1206

+ 17 очков прироста по сравнению с предыдущей контрольной точкой 1219

- №1 по всем направлениям (генерации кода), за исключением управления стилем.

• AIME: 73.3%
• GPQA: 74.2%
• MMMU: 75.4%

Модель доступна в ai-gradio

pip install --upgrade "ai-gradio[gemini]"

https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21

@ai_machinelearning_big_data

#google #gemini

Читать полностью…

Machinelearning

⚡️Tencent выпустили новую версию модели для генерации 3D из текста и изображения - Hunyuan3D 2.0.

Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.

Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.

Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна ​​для создания правильной геометрии объекта и отвечает за согласование генерации.

Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.

Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.

GitHub
HF
Demo

@ai_machinelearning_big_data


#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator

Читать полностью…

Machinelearning

👑 Вчера была выпущена еще одна интересная китайская опенсорс модель ризонинга.

Kimi представила Kimi k1.5 - мультимодальную модель, использующую обучение с подкреплением с длинной и короткой цепочкой размышления (CoT).

- Контекст 128 тыс. токенов

- Согласно их опубликованному отчету, они достигли производительности SOTA в таких тестах, как AIME (77,5), MATH-500 (96,2) и LiveCodeBench (47,3).

→ Производительность Long-CoT соответствует o1 в нескольких тестах: Math Vista, Codeforces и т.д)

- Модель превосходит GPT-4o и Claude Sonnet 3.5 на AIME

⚡️ Технический отчет: https://github.com/MoonshotAI/Kimi-k1.5

#llm #reasoning #ml #Kimi #preview

Читать полностью…

Machinelearning

🤗 Hugging Face не так давно выпустила собственную low-code библиотеку для просто создания ИИ- агентов ⚡️

Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.

↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!

Сделано!

- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментамHF Hub.
- CodeAgent, который записывает свои действия в коде.

Установка:


pip install smolagents


Пример работы:

from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel

agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=HfApiModel())

agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")


GitHub
Подробнее

Читать полностью…

Machinelearning

❓ Как мощные алгоритмы матричных разложений применяются в рекомендательных системах?

Расскажем на открытом уроке «SVD и ALS на службе рекомендательных систем», посвященному курсу Machine Learning. Advanced

✅ Изучим и применим на практике такие методы как SVD и ALS для построения рекомендательных систем

👉 Регистрация и подробности: https://otus.pw/c5hz/?erid=2W5zFK4G1dJ 

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Machinelearning

🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!

Модель доступна в в 2-х размерах: 2B, 400M.

Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования, Python, Java, C++, JavaScript, C# и другие!

Пример Запуска:


import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]

# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]

# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())



Документация
Модель 400M
Модель 2B


📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.


#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml

Читать полностью…

Machinelearning

⭐️ Самые интересные Open Source AI релизы за неделю

- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻

- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.

🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

@ai_machinelearning_big_data


#ml #digest #datasets #opensource #ai #llm #news

Читать полностью…

Machinelearning

📕 Foundations of Large Language Models

Эта свежая бесплатная книга (и отлично чтиво на выходные) по LLM, которая только что появилась на arXiv.

Более 230+ страниц!

Книга состоит из четырех частей: предварительному обучению, генеративным моделям, промпт-инжинирингу и методам оптимизации LLM.

Это хорошее введение в большие языковые модели для разработчиков и студентов.

📌 Читать

@ai_machinelearning_big_data


#freebook #book #machinelearning #llm #ml

Читать полностью…

Machinelearning

🧬 Крутой проект от Microsoft: MatterGen - новый ИИ, который создает химические материалы на основе промптов.

В отличие от традиционных методов скрининга, он генерирует новые материалы, используя диффузионную модель, изменяя такие свойства, как химический состав, механическая прочность или магнитные характеристики.

Результат экспериментально подтвержден успешным синтезом материалов.

MatterGen представляет собой переход от традиционных методов проб и ошибок и вычислительного скрининга, напрямую генерируя новые материалы в соответствии с конкретными проектными заданиями, что значительно сокращает время создания и потребность в ресурсах.

→ Модель построена на основе специализированной диффузионной архитектуры и учитывает 3D-геометрию и наличие материалов, используя обучающий набор из более чем 608 000 стабильных соединений из известных баз данных материалов.

→ Модель превосходит традиционный скрининг, особенно в неисследованных материалов, что подтверждается ее способностью генерировать стабильные материалы со специфическими свойствами, выходящими за рамки существующих известных материалов.

→ Экспериментальная проверка подтвердила успешный синтез материала TaCr2O6, в точности совпадающий с предсказаниями модели, продемонстрировав практическую пригодность MatterGen в создании реальных материалов.

→ Выпущенная под лицензией MIT, модель MatterGen вместе с обучающими наборами данных предоставляет исследователям развивать и расширять этот инновационный подход.

📌 Читать

@ai_machinelearning_big_data



#microsoft #tech #MatterGen

Читать полностью…

Machinelearning

🖥 Large Language Model Course

Только что был обновлен популярный бесплатный LLM курс.

Это пошаговое руководство с полезными ресурсами и ноутбуками, как для новичков, так и для тех, кто уже обладает мл-базой

Курс разбит на 3 части:
1️⃣LLM Fundamentals: Блок дает фундаментальные знания по математике, Python и нейронным сетям.
2️⃣ LLM Scientist: В этом блоке упор сделан на внутреннем устройстве LLM и их создание с использованием новейших технологий и фреймворков.
3️⃣ The LLM Engineer: Здесь вы научитесь писать приложений на практике и научитесь развертывать их.

⭐️ 41.4k звезд на Github

📌 Курс

#llm #course #opensource #ml

Читать полностью…

Machinelearning

🧠 ML DIGEST

💬Выпущена Новая TTS модель OuteTTS 0.3, 1 B и 500M

> Zero-shot - клонирование голоса > Многоязычный (en, jp, ko, zh, fr, de)
> Обучен 20 000 часам аудиозаписей
> Работает от OLMo-1B и Qwen 2.5 0.5B
> > Функции контроль скорости речь и эмоций
HF


🤗 Hugging Face выпустили открытый курс по изучению AI-агентов на практике.

За прохождение курса можно получить сертификат и самое главное, что при обучении упор идет на практику.
Вы погрузитесь в популярные фреймворки агентов, такие как LangChain, LlamaIndex и smolagents. Эти инструменты предоставляют строительные блоки для создания сложных поведений агентов.
Записаться можно здесь


🎥 Компания Luma AI только что выпустила #Ray2 - новую модель видео с искусственным интеллектом, которая создает реалистичные видеоролики с естественным и последовательным движением. Поддерживает text-to-video и image-to video. Доступна платно.
Подробнее


🎓 Transformer2: Self-adaptive LLMs

SakanaAi представили новую структуру самоадаптации моделей, при которой LLM адаптируется для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты своих весовых матриц.

Во время вывода используется система диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
Статья
GitHub


🧞Omni-RGPT: очередная SOTA MLLM
NVIDIA представляли Omni-RGPT, MLLM, для понимания изображений и видео на уровне отдельных объектов и регионов на видео.
Статья
Проект


⚡️ Bespoke Curator
Curator - библиотека с открытым исходным кодом, разработанная для упрощения создания синтетических данных!
Github


🌏 Earth View предлагает огромную коллекцию мультиспектральных изображений
Земли из нескольких спутниковых источников, включая Satellogic, Sentinel-1, NEON и предстоящий Sentinel-2.
HF

@ai_machinelearning_big_data


#ml #news #digest #machinelearning

Читать полностью…

Machinelearning

erid: 2W5zFGMWVua

Приглашаем вас на открытый вебинар: «Как увеличить число обнаружений YOLO?» OTUS.RU

⏰Дата: 20 января в 20:00 мск
Спикер: Дмитрий Колесников

📚На вебинаре вы узнаете на практике:
+Необходимые нюансы с библиотекой по работе с YOLO моделями
+Как увеличивать чисто детекций и инстанс сегментаций с использованием  патчевых подходов инференса
+Что нужно для запуска на видеопотоке нейронной сети в базовом и патчевом  режиме
+Теорию патчевых методов обработки

🚀В результате вебинара вы научитесь:
-Работать с нейронной сетю на изображениях и видео в базовом и патчевом подходе
-Автопатчингу и сможете его применить для увеличения числа детекций
*а также познакомитесь с библиотекой patched_yolo_infer

Участники вебинара получат скидку🎁 на курс «Компьютерное зрение»

👉Регистрируйтесь по ссылке: OTUS.RU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

#реклама
О рекламодателе

Читать полностью…

Machinelearning

📄 ML NEWS

🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом

AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
Github

🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.

Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
Подробнее

🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.

Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее

📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.

⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
Model

👩‍💻 Stable point-aware 3D от Stability AI

Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github

@ai_machinelearning_big_data


#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM

Читать полностью…

Machinelearning

🔥 Mistral выпустила новую модель, специально разработанную для по Кодина с ИИ.

Codestral 25.01 дебютирует на 1-м месте в рейтинге лидеров LMsys Copilot Arena 🔥

Новая версия стала заметно умнее и в разы быстрее благодаря обновлённому токенизатору и усовершенствованной архитектуре.
Вы уже можете использовать его бесплатно в Continue (100% открытый исходный код) для VS Code.

Размер окна контекста увеличен до 256 тысяч токенов.

Чтобы использовать его, просто добавьте плагин Continue в VS Code и выберите Codestral 25.01 в качестве модели.

А если вам нужна дополнительная информация, то вот официальный блог Mistral.

https://mistral.ai/news/codestral-2501/

@ai_machinelearning_big_data

#mistral #llm #ml #Codestral

Читать полностью…

Machinelearning

🧠 Helium 1 preview 2b

Kyutai labs выпустили Helium-1 Preview, 2B многоязычный LLM для edge девайсов и мобильных устройств.

Модель, обучена на 2,5 Т токенов и превосходит Qwen 2.5 1.5B🔥

> Превосходит/сопоставим с Owen 1.5B, Gemma 2B и Llama 3B
> обучен на 2.5T токенов с размером контекста 4096
> использует дистилляцию на уровне 7B модели
> разработчики планируют добавить больше языков, выпустить полную версию
> открытый код

🤗 HF: https://huggingface.co/kyutai/helium-1-preview-2b

@ai_machinelearning_big_data


#Helium #llm #ml

Читать полностью…

Machinelearning

💵Трамп сегодня ​​представит масштабный план по развитию инфраструктуры ИИ.

CBS сообщает, что он включает возвращение проекта Stargate.

OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.

Целью
инвестиций является поддержка лидерства США в сфере искусственного интеллекта. Ожидается, что официальный анонс проекта состоится в скором времени.

На данный момент Соединённые Штаты удерживают лидирующие позиции благодаря таким компаниям, как OpenAI, Anthropic и Microsoft.

Но Китай активно наращивает свои позиции, ежемесячно выпуская новые модели, которые работают не менее эффективно, но с большей скоростью и меньшими затратами.

В рамках инициативы Stargate планируется строительство нескольких гигантских дата-центров, причем первый из них будет открыт в штате Техас.

Оставшиеся ресурсы будут направлены на создание и обучение новых моделей ИИ.

AGI появится раньше, чем мы все ожидаем, а нас ждет настоящая гонка вооружений и ещё более стремительное развитие ИИ.

▪️Новость

#ai #news

Читать полностью…

Machinelearning

Хочешь обучить нейронку, но не хватает локальных мощностей? На новую видеокарту не хватает денег? Выход есть — аренда! 

immers.cloud — это облачный сервис, предоставляющий доступ к мощным видеокартам для самых различных задач.

💰 Экономия: тарифы от 23 руб/час, оплата только за фактическое время использования
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут
📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование 
🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку

🎁 Подготовили приятный бонус для тебя: +20% к пополнению баланса

Читать полностью…

Machinelearning

🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

📕 Paper

#DeepSeek #deepseekv3 #reasoning #ml

Читать полностью…

Machinelearning

🚨Только что были выпущены веса для новой ризонинг модели DeepSeek-R1 (Preview).

Модель 685B построена на архитектуре на DeepSeek V3.

Вы можете потестить производительность на 8 * H200.

Размер примерно ~720GB.

Ждем официального анонса, который с высокой степенью вероятности состоится сегодня или завтра.

🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main

#DeepSeek #deepseekv3 #reasoning #ml

Читать полностью…

Machinelearning

🖥 OpenAI готова представить сверхпродвинутого ИИ-агента на уровне доктора наук.

Запланировал закрытый брифинг для официальных лиц правительства США в Вашингтоне 30 января, на котором выступит Сэм Альтман.

- Специалисты в области искусственного интеллекта считают, что грядет большой прорыв в создании суперагентов уровня PHD." ...

Журналисты заявляют, что - "Сотрудники OpenAI рассказывали друзьям, что они одновременно и восхищены, и напуганы столь быстрым прогрессом".

📌 Подробнее

@ai_machinelearning_big_data


#openai #chatgpt #aiagents

Читать полностью…

Machinelearning

🖥 Google опубликовали один из лучших официальных гайдов по ИИ-агентам. И его действительно стоит прочитать.

В нем содержится все, что вам нужно знать:
> Описание агентов, компонентов и когнитивных архитектур.
> Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных.
> Описываются методы обучения для повышения производительности агентов.
> Описываются методы создания агентов с использованием LangChain и LangGraph

Читать гайд

@ai_machinelearning_big_data


#aiagents #ai #llm #ml #machinelearning

Читать полностью…

Machinelearning

⭐️ NVIDIA выпустили AceMath - новый мощный набор математических моделей, предназначенных для решения сложных задач.

Флагманская модель AceMath-72B-Instruct выглядит лучше Qwen2.5-Math-72B и превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач.

В открытом доступе
выложили модели обучения, модели вознаграждения, полные наборы датасетов и бенчмарки: 🤗 HF: https://huggingface.co/collections/nvidia/acemath-678917d12f09885479d549fe
📄 Статья: https://arxiv.org/pdf/2412.15084

@ai_machinelearning_big_data


#math #nvidia #opensource #llm #ml

Читать полностью…

Machinelearning

🥥 Training Large Language Models to Reason in a Continuous Latent Space

Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).

Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.

Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем

При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.

В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами <bot> и <eot>.

Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.

На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.

Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.

Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.

Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов

git clone git@github.com:facebookresearch/coconut.git
cd coconut


Github
Paper

@ai_machinelearning_big_data


#deeplearning #nlp #reasoning #llm #ml

Читать полностью…

Machinelearning

Аналитик данных — одна из перспективных и высокооплачиваемых профессий в IT-сфере. Медианная зарплата специалиста составляет 100 000 рублей. А спрос на аналитиков непрерывно растёт, ведь компании накапливают всё больше информации, которую нужно структурировать, обрабатывать и анализировать для взвешенных бизнес-решений.

Освоить базовые инструменты для быстрого старта на позиции junior-аналитика поможет курс «Аналитик данных».

За 6 месяцев обучения вы:

Изучите SQL, Python, Power BI для работы с большими данными.
Научитесь применять статистические методы и проверять гипотезы.
Создадите 4 полноценных проекта для портфолио.
Выполните более 20 комплексных практических заданий.
Весь учебный процесс построен на практике под руководством опытных наставников из ведущих IT-компаний. Уже в процессе обучения вы разберёте тестовые задания от Сбера, Яндекса, Т-Банка и начнёте искать работу.

Начните свой путь в сферу анализа данных — регистрируйтесь на курс. От нас — актуальные знания, навыки и поддержка на всех этапах вашего обучения

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5ybTZwN

Читать полностью…

Machinelearning

🎄 Встречаемся на Data Ёлке в московском офисе VK!

18 января сообщество Open Data Science совместно с VK проведёт DS-конференцию по итогам 2024 года. Будут доклады о рексистемах, LLM, NLP и разным направлениям ML. А ещё — обсуждение карьерного стрима в DS и разбор лучших решений от участников VK RecSys Challenge.

За новогодние костюмы и лучшие вопросы из зала — призы! 🥳 Любители нетворкинга смогут неформально пообщаться на афтепати.

🗓 18 января, 12:00 (сбор гостей с 11:00).
🖥 Онлайн в VK Видео — смотрите трансляцию в сообществе VK Team ВКонтакте.
📍 Москва, БЦ Skylight — Ленинградский проспект, 39, строение 79. На входе надо будет показать подтверждение участия и паспорт. Приглашение придёт на email после регистрации.

Читать полностью…

Machinelearning

🌟Вышла новая InternLM v3!

Internal выпустила 3 версию своей маленькой модели и утверждают, что на данный момент это лучшая модель класса 7B.

Интересно, что она “обучена всего на 4 триллионах высококачественных токенов” и имеет режим анализа, включенный с помощью системного проспать. 4

- Производительность уровня SoTA, превосходит на бенчмарках Llama3.1-8B и Qwen2.5-7B
- Способность к глубоким рассуждениям с использованием системных промптов (подробности в карточке модели)
- Обучалась только на токенах высокого качества 4T.

📌 Лицензия: Apache 2.0.

🤗 HF: https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d

@ai_machinelearning_big_data

#InternLM #opensource #llm #ml #reasoningmodel

Читать полностью…

Machinelearning

⚡️Вуз со STEM-подходом к обучению стал одним из лучших по качеству набора студентов

Эксперты НИУ ВШЭ провели мониторинг более 800 вузов страны. В исследовании сравнивали средний балл ЕГЭ зачисленных на программы бакалавриата и специалитета в 2024 году.

Центральный университет замкнул тройку лидеров в категории платного набора, уступив лишь МФТИ и Университету Иннополис. Средний балл платников вуза составил 84,4.

В категории общего набора университет занял восьмое место с результатом 84,7 баллов, опередив МГУ имени М.В. Ломоносова.

В вузе отметили, что в рамках приема учитывают не только результаты ЕГЭ, но и другие достижения абитуриента. Успешно проявившим себя на конкурсах и олимпиадах Центрального университета выдаются гранты, покрывающие до 100% стоимости обучения, а студентам вуза предоставляет платные стажировки в ведущих компаниях страны.

▪️Читать

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🔥 Вышла новая модель MiniMax-01 456B с открытым исходным кодом с контекстом 4M !

🚀 Функции MiniMax-Text-01 и MiniMax-VL-01 основаны на ультрасовременной архитектуре "Lightning Attention".

→ В MiniMax-Text-01 реализован гибридный подход, при котором в 7 из каждых 8 слоев используется Lightning Attention, а в одном - SoftMax для улучшения баланса модель.

Такая архитектура позволяет эффективно обрабатывать сверхдлинные последовательности.

→ Версия с открытым исходным кодом включает в себя полный набор весов и API. По цене примерно 0,2 доллара за миллион входных токенов и 1,1 доллара за миллион выходных токенов — вполне конкурентоспособные цены.

На тестах модель превосходит платный Deep Seek v3 ! 💥

→ В задачах с длинным контекстом MiniMax-Text-01 достиг 100% точности в тесте поиска "Needle-in-a-Haystack" с использованием 4 миллионов токенов, превосходя топовые модели в реальных задачах с использованием искусственного интеллекта.

🖥 Github: https://github.com/MiniMax-AI/MiniMax-01
📑Paper:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
📖Read more: https://minimaxi.com/en/news/minimax-01-series-2

@ai_machinelearning_big_data

#llm #MiniMax #ai #agents #ml #opensource

Читать полностью…

Machinelearning

Приглашаем вас на открытый вебинар: «Технологии за современными LLM»
https://otus.pw/FpRA/

⏰Дата: 20 января в 18:00 мск
Спикер: Мария Тихонова

📚На занятии мы обсудим:
+ Какие современные LLM сегодня используют на практике.
+ Основные концепции языкового моделирования и продвинутые языковые модели.
+ Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв.
+ Что представляет из себя задача языкового моделирования
+ Языковые модели, которые сегодня лежат в основе всех NLP методов

🔥Результаты урока:
- Вы поймете, где применяются методы NLP
- Узнаете основные тренды и перспективы развития методов NLP
- Узнаете современное состояние области в связи с быстрым развитием LLM

Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing»

👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/FpRA/?erid=2W5zFHFJMap
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

#реклама
О рекламодателе

Читать полностью…

Machinelearning

💰 Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

Вышел официальный код и чекпоинты для MicroDiffusion от Sony.

Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.

Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)

Здесь можно посмотреть конфигурацию обучения для каждого этапа.

Paper: https://arxiv.org/abs/2407.15811v1
Github: https://github.com/SonyResearch/micro_diffusion
HF: https://huggingface.co/VSehwag24/MicroDiT
Dataset: https://github.com/SonyResearch/micro_diffusion/blob/main/micro_diffusion/datasets/README.md

@ai_machinelearning_big_data


#stablediffusion #guide #sd #ml #sony

Читать полностью…
Subscribe to a channel