data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🔥 NautilusTrader — это высокопроизводительная, открытая платформа для алгоритмической торговли и тестирования стратегий, разработанная для количественных трейдеров!

🌟 Она позволяет создавать, тестировать и внедрять автоматизированные торговые стратегии, обеспечивая их прямой переход от бэктестинга к реальной торговле без необходимости изменения кода.

🌟 Платформа поддерживает различные классы активов и может интегрироваться с любыми API (REST, WebSocket или FIX) через модульные адаптеры. NautilusTrader разработана с акцентом на производительность и надежность, предоставляя Python-ориентированную среду для разработки и развертывания стратегий. Она также поддерживает современные языковые модели, такие как GPT-4 и Claude 3.5, для предоставления рекомендаций и анализа.

🔐 Лицензия: LGPL-3.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Google представили стратегию эволюционного поиска для масштабирования времени инференса в больших языковых моделях.

Предлагаемый подход, Mind Evolution, использует языковую модель для генерации, рекомбинации и уточнения ответов-модели.

Контролируя инференс модели, разработчики обнаружили, что Mind Evolution значительно превосходит другие стратегии инференса, такие как Best-of-N и Sequential Revision, в задачах планирования на естественном языке.

В бенчмарках TravelPlanner и Natural Plan Mind Evolution, модель решает успешно более 98 %.

https://huggingface.co/papers/2501.09891

Читать полностью…

Анализ данных (Data analysis)

🔥 Umi-OCR — бесплатное оффлайн-приложение для OCR (распознавания текста)!

🌟 Оно поддерживает распознавание текста на скриншотах, пакетную обработку изображений, PDF-документов, а также функции работы с QR-кодами и формулами. Инструмент ориентирован на удобство использования, прост в настройке (работает без установки) и поддерживает командную строку и HTTP-интерфейсы для интеграции с другими приложениями.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.

Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

https://leetgpu.com/

@data_analysis_ml

#cuda #gpu #cpu #playground

Читать полностью…

Анализ данных (Data analysis)

🔥 Awesome MCP Servers — это коллекция ресурсов, посвящённых серверам, использующим протокол Model Context Protocol (MCP)!

💡 MCP — это открытый протокол, который позволяет языковым моделям (LLMs) взаимодействовать с локальными и удалёнными ресурсами через стандартизированные серверные реализации. Репозиторий содержит список готовых к использованию и экспериментальных MCP-серверов, расширяющих возможности LLM за счёт доступа к файлам, базам данных, API, системам управления версиями и другим сервисам.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤖 FAST: Efficient Robot Action Tokenization

Новый токенизатор, который позволяет обучать VLA в 5 раз быстрее по сравнению с предыдущей SoTA.

Его очень легко использовать и это опенсорс.

Описание: http://pi.website/research/fast
HF: https://huggingface.co/physical-intelligence/fast
Статья: https://www.pi.website/download/fast.pdf

@data_analysis_ml

#robots #tokenization

Читать полностью…

Анализ данных (Data analysis)

⚡️⚡️⚡️ Train 400x faster Static Embedding Models with Sentence Transformers

Интересное чтиво- очень быстрый метод обучения статических моделей эмбедингов, которые выполняются на процессоре.

На тестах он показал себя в 100-400 раз быстрее, чем обычные модели, при сохранении качества более в районе 85%!

Внутри:
- Две модели (для английского языка и многоязычная),
- Подробная стратегия обучения, которой следовали авторы, от разработки идеи до выбора фдатасета, реализации и оценки.
- Сценарии обучения, основанные на опенсорсной библиотеке sentence transformers с открытым исходным кодом.
- Отчеты о весах и отклонениях с метриками обучения и оценки, собранными во время обучения.
- Список датасетов, которые авторы использовали: 30 для обучения и 13 для оценки моделей.

🤗 HF: https://huggingface.co/blog/static-embeddings

#transformers #embeddingmodel #tutorial

Читать полностью…

Анализ данных (Data analysis)

🌟Вышел InternLM v3!

- Производительность SoTA, превосходит такие модели, как Llama3.1-8B и Qwen2.5-7B
- Способность к глубоким рассуждениям с использованием системных промптов (подробности в карточке модели)
- Обучается только на токенах высокого качества 4T.

https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d

@data_analysis_ml

#llm #reasoning #ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM

В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM),

Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений.

PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench.

А вот интересная цитата из технического отчета:
"Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага"

» https://huggingface.co/papers/2501.07301

Читать полностью…

Анализ данных (Data analysis)

🔥 Web-UI — это инструмент для работы с AI-агентами в браузере, предоставляющий удобный пользовательский интерфейс, построенный на основе Gradio!

🌟 Он позволяет пользователям запускать и управлять задачами с помощью различных больших языковых моделей (LLMs), таких как OpenAI, Azure OpenAI, Anthropic и другие. Этот проект поддерживает настройку собственного браузера для работы с инструментом, сохраняя сессии и позволяя видеть историю взаимодействий с AI.

💡 Web-UI поддерживает как локальную установку с использованием Python и Playwright, так и установку через Docker. Пользователи могут запускать интерфейс, чтобы наблюдать за действиями AI-агента в реальном времени, включая управление сессиями браузера и использование API для интеграции с LLM.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💡Transformer^2: Самоадаптирующиеся LLM

Вводит новую структуру самоадаптации, которая адаптирует LLM для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты их весовых матриц.

Во время вывода использует систему диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀

https://huggingface.co/papers/2501.06252

@data_analysis_ml

#transformers2 #llm #paper #ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Fast Semantic Text Deduplication

Новая, невероятно быстрая библиотека семантической дедупликации текста, которая объединяет эмбединг Model2Vec с поиском сходства, что позволяет дедуплицировать миллионы записей за считанные минуты. 👀

TL;DR:
🚀 Дедупликация 1,8 млн записей WikiText производит всего 83 секунды на CPU
💡 Используется семантическое сходство вместо точного соответствия для обнаружения дубликатов
🐍 Простой API Python и минимальные зависимости
🔧 Поддерживает пользовательские кодировщики, включая преобразователи предложений
🔎 Встроенные инструменты для проверки дубликатов и настройки порогов схожести
🧪 Проверено на 17 популярных наборах данных

pip install semhash


from datasets import load_dataset
from semhash import SemHash

# Load a dataset to deduplicate
texts = load_dataset("ag_news", split="train")["text"]

# Initialize a SemHash instance
semhash = SemHash.from_records(records=texts)

# Deduplicate the texts
deduplicated_texts = semhash.self_deduplicate().deduplicated


GitHub
QuickStart

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Введение в статистическую теорию машинного обучения

📌 Видео
📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок 6
📌 Colab
📌Полный курс

@data_math

Читать полностью…

Анализ данных (Data analysis)

🔥 LeanUniverse - это пакет, предназначенный для создания датасетов из репозиториев Lean4 на Github.

Его цель - упростить и стандартизировать процесс создания обучающих наборов данных для моделей ИИ.

Ключевые особенности:

- Последовательность: LeanUniverse гарантирует, что все собранные репозитории согласованы и могут быть связаны с одной и той же версией зависимостей (mathlib). Это гарантирует надежность и совместимость датасетов, созданных с помощью этой библиотеки.
- Фильтрация лицензий: Пользователи имеют возможность определять фильтры допустимых лицензий,
- Кэширование: В библиотеку встроен механизм кэширования, повышающий эффективность за счет сокращения избыточных вычислений. Эта функция позволяет периодически обновлять и увеличивать датасеты.

git clone https://github.com/your-repo/LeanUniverse.git
cd LeanUniverse


Github

Читать полностью…

Анализ данных (Data analysis)

Программирование в 2025 году 🤓

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Приглашаем на открытый урок «Инструменты обратного тестирования торговых стратегий» от Otus

Рассмотрим базовую методику и рассмотрим основные библиотеки для проведения обратного тестирования торговых стратегий.

✅ Практика: тест простой торговой стратегии

Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска

👉 Регистрация на урок и подробности:
https://otus.pw/8ofB/?erid=2W5zFJ68uje

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

✅Генерация бесконечных 4D городов

CityDreamer4D - это новая генеративная модель создания городов в 4D, которая объединяет статические и динамические сцены.

Заявлена высокая управляемость и реалистичность генераций.

- Проект: https://infinitescript.com/project/city-dreamer-4d/
- Код (обещают залить в ближайшее время ): https://github.com/hzxie/CityDreamer4D
- Датасет CityTopia: https://gateway.infinitescript.com/s/CityTopia

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🖥 Свежий гайд от OPENAI

В нем рассказывается как правильно работать с функциями и вызывать их. Внутри много рекомендаций и рабочих примеров.

https://platform.openai.com/docs/guides/function-calling.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌮 TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

TACO новое семейство мультимодальных моделей с открытым исходным кодом, которые хорошо справляются со сложными задачами визуального анализа, требующими нескольких шагов размышлений и использования внешних инструментов!

Модели TACO превосходят базовые, настроенные на основе прометав модели, по 8 тестам, достигая улучшения в среднем на 3,6%, а в задачах MMVet, связанных с распознаванием текста, математическим мышлением и пространственным мышлением, прирост достигает 15%.

Github
Paper
Dataset
Demo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области!

🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🗣 Kokoro-TTS

Мощнейшая TTS-модель всего лишь на 82M параметров.

Она превосходит более крупные модели и генерирует минуты речи за секунды.

Самое главное - это открытый исходный код!

Попробуйте и убедитесь сами: 👇

🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

#tts #ml #opensource

Читать полностью…

Анализ данных (Data analysis)

📄 ML NEWS

🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом

AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
Github

🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.

Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
Подробнее

🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.

Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
Подробнее

📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
Скачать можно здесь.

⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
Model

👩‍💻 Stable point-aware 3D от Stability AI

Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
Github

@ai_machinelearning_big_data


#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM

Читать полностью…

Анализ данных (Data analysis)

Приглашаем вас на открытый вебинар: «Технологии за современными LLM»
https://otus.pw/IWFL/

⏰Дата: 20 января в 18:00 мск
Спикер: Мария Тихонова

📚На занятии мы обсудим:
+ Какие современные LLM сегодня используют на практике.
+ Основные концепции языкового моделирования и продвинутые языковые модели.
+ Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв.
+ Что представляет из себя задача языкового моделирования
+ Языковые модели, которые сегодня лежат в основе всех NLP методов

🔥Результаты урока:
- Вы поймете, где применяются методы NLP
- Узнаете основные тренды и перспективы развития методов NLP
- Узнаете современное состояние области в связи с быстрым развитием LLM

Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing»

👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/IWFL/?erid=2W5zFHJGL9W
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

Станьте ML-Инженером за 8 месяцев.

Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом.

Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом»

Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое.

С трудоустройством тоже помогут: 87% студентов находят работу своей мечты в течение двух месяцев с момента начала поиска.

А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу.

Успейте присоединиться к первому потоку обучения с самой большой скидкой 17%

Читать полностью…

Анализ данных (Data analysis)

🔥 Mistral выпустила новую модель, специально разработанную для по Кодина с ИИ.

Codestral 25.01 дебютирует на 1-м месте в рейтинге лидеров LMsys Copilot Arena 🔥

Новая версия стала заметно умнее и в разы быстрее благодаря обновлённому токенизатору и усовершенствованной архитектуре.
Вы уже можете использовать его бесплатно в Continue (100% открытый исходный код) для VS Code.

Размер окна контекста увеличен до 256 тысяч токенов.

Чтобы использовать его, просто добавьте плагин Continue в VS Code и выберите Codestral 25.01 в качестве модели.

А если вам нужна дополнительная информация, то вот официальный блог Mistral.

https://mistral.ai/news/codestral-2501/

@data_analysis_ml

#mistral #llm #ml

Читать полностью…

Анализ данных (Data analysis)

📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude!

🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 World Arcade — это платформа, которая позволяет запускать генеративные игры на вашем собственном GPU!

🌟 В отличие от традиционных игр, использующих детерминированные игровые движки, генеративные игры создают каждый кадр в реальном времени с помощью интерактивных видеомоделей, реагируя на действия игрока. World Arcade объединяет различные открытые игровые модели, такие как Yume Nikki, CS:GO, Minecraft, Atari Arcade Games и Mario Kart 64, предоставляя пользователям удобный способ их запуска и настройки.

💡 Платформа поддерживает работу на Windows и Linux, требуя наличия GPU NVIDIA с объемом видеопамяти не менее 8 ГБ. Для установки на Windows достаточно скачать архив dweam-windows.zip из последнего релиза, распаковать его и запустить исполняемый файл dweam.exe. На Linux установка осуществляется с использованием Docker и Docker Compose. World Arcade также предоставляет возможность добавления собственных игр путем создания Python-пакета с реализацией класса Game и предоставления метаданных в файле dweam.toml.

🔐 Лицензия: AGPL-3.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

LLaVA-Mini достигает производительности LLaVA-v1.5 с 1 токеном (vs 576), сокращая количество FLOP на 77%, задержку со 100 мс до 40 мс и VRAM с 360 МБ до 0,6 МБ, обеспечивая 3-часовую обработку видео и 10 000 кадров на 24 ГБ GPU 🔥.

Установка:


conda create -n llavamini python=3.10 -y
conda activate llavamini
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation


HF: https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b

Github: https://github.com/ictnlp/LLaVA-Mini

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱

В статье описана оценка энергопотребления, показаны тенденции и интригующие выводы 🙌

👉 Читать здесь: https://huggingface.co/blog/leaderboard-emissions-analysis

Читать полностью…
Subscribe to a channel