data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🎓 Machine Learning Visualized — лучший способ понять, как работает ML *на самом деле*

Обычно машинное обучение учат по формулам или просто вызывают fit(). Но если ты хочешь увидеть, как алгоритмы учатся шаг за шагом, — этот проект создан для тебя.

🔍 Что это:
Открытый Jupyter Book с интерактивными ноутбуками, в которых:
- Алгоритмы реализованы «с нуля» на NumPy
- Каждый шаг визуализирован: потери, веса, градиенты, границы решений
- Можно изменять параметры и наблюдать, как это влияет на обучение

📘 Темы:

- Градиентный спуск
- Логистическая регрессия
- Перцептрон
- K‑Means и PCA
- Обратное распространение в нейросетях

🧠 Полезно:
- Если ты изучаешь машинное обучение и хочешь понять, что происходит внутри моделей
- Если преподаёшь ML и ищешь понятные наглядные материалы
- Если хочешь объяснить ML-процессы коллегам без магии

🚀 Запуск:


git clone https://github.com/gavinkhung/machine-learning-visualized
cd machine-learning-visualized
./download_notebooks.sh
jupyter-book build .

Или просто заходи на сайт:
🔗 https://ml-visualized.com/

📦 Open Source, MIT
⭐️ 460+ звёзд, можно вносить вклад, добавлять новые алгоритмы и улучшать визуализации.

👉 Репозиторий: https://github.com/gavinkhung/machine-learning-visualized


▶️ Учимся здесь

Читать полностью…

Анализ данных (Data analysis)

🎮 Инженеры X (команда Илона Маска) сделали рабочую игру 3D-FPS за 4 часа с помощью Grok 4

Разработчик из xAI, Дэнни Лимансета, собрал шутер от первого лица всего за 4 часа, используя Grok 4 — LLM от команды Илона. Модель помогла с кодом, импортом ассетов, базовой логикой и генерацией окружения.

🛠 Что внутри:

— 3D-персонаж и базовое перемещение
— Импорт моделей и текстур из сети
— Логика стрельбы, здоровье, базовый UI
— Всё собрано в одном пайплайне с помощью Grok 4

💬 Реакция комьюнити на Reddit:

> “Это неплохо для 4 часов, но опытный геймдев сделал бы не хуже без ИИ.”
> “Я такое соберу вручную за пару часов с ассетами.”

🔗 Пост

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🛠Вышла новая модель от Mistral — Devstral‑Small‑2507

Это обновлённая версия модели для работы с кодом.

Поддерживает 128k токенов, работает локально и показывает рекордные результаты среди открытых моделей.

Что нового:
• 53.6% на SWE‑Bench Verified
• Поддержка function calling, XML и промтов для код‑агентов
• Запускается на 1×RTX 4090 или Mac с 32 GB ОЗУ
• Apache 2.0
• Доступна через Ollama, LM Studio, Hugging Face, vLLM

Тарифы API:
$0.1 за миллион входных токенов
$0.3 за миллион выходных

Подходит для:
— Автоматизации правок и генерации тестов
— Интеграции в IDE и агенты
— Анализа больших проектов

🔗 Модель: https://huggingface.co/mistralai/Devstral-Small-2507

Читать полностью…

Анализ данных (Data analysis)

🔥 Новый инструмент на Hugging Face: **AllTracker**

AllTracker — это open-source модель для плотного отслеживания всех точек в видео. В отличие от классических подходов, она умеет отслеживать пиксели даже на больших временных расстояниях и при высоком разрешении (до 1024×768).

Что умеет:
- Отслеживает движение всех точек (dense point tracking)
- Работает быстро и точно на видеороликах высокого качества
- Подходит для компьютерного зрения, motion analysis и видеоредактирования

В репозитории:
- Готовые веса модели (`.pth`)
- Мини-версия для быстрой инференции
- Демо-приложение на Gradio прямо в браузере: загрузи видео, кликни точку — и смотри, как она движется по кадрам

Используй для:
- Анализа движения
- Видеомонтажа с отслеживанием
- Исследований в области CV

model: https://huggingface.co/aharley/alltracker
demo: https://huggingface.co/spaces/aharley/alltracker

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚨 Grok 4 — новая мощная модель от xAI

📊 Лидер на бенчмарках:
- Решает математику AIME25 на 100% — не ошиблась ни в одной из самых сложных задач
- ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus.

🧠 Главное достижение — Humanity’s Last Exam:
- С максимальными ресурсами и включённой поддержкой внешних инструментов — 44.4% (а на текстовой части даже 50.7%).
- Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%.
- Почти половина презентации была посвящена именно этому тесту.

🛠 Что под капотом:
- Архитектура — та же, что у Grok 3.
- Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения.
- На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов.
- Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением.
- Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini).

📉 Слабые места:
- Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку.
- Маск пообещал, что в следующей версии это исправят.

📏 Контекст увеличили до 256k токенов.

💬 API уже запущен:
- Стоимость — как у Grok 3 и Claude Sonnet.
- Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus.
- Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену.

🏭 Инфраструктура xAI растёт стремительно:
- Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200.
- В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг.
- В планах — новое расширение дата-центра Colossus.

📌 Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями.

Тестим здесь.

@ai_machinelearning_big_data

#grok

Читать полностью…

Анализ данных (Data analysis)

🧠 Хочешь сделать свой ИИ-стартап? Начни с базы!

Microsoft запустила бесплатный курс по MCP — это про то, как подключать нейросети к реальным приложениям: сайтам, чатам, бэкендам и не только.

📚 Что внутри:
• 11 модулей с теорией и практикой
• Примеры кода на разных языках
• Всё можно пройти на русском

Идеально, если хочешь научиться использовать ИИ не на уровне «поиграться», а реально внедрять.

👉 Курс бесплатный — забираем здесь

Читать полностью…

Анализ данных (Data analysis)

🎯 Hugging Face показали, как ускорить обучение мультимодальных моделей, устранив главное узкое место — неэффективную загрузку данных.

Они представили Multimodal Data Pipeline (MMDP) — мощный, но простой пайплайн, который решает проблему простоя GPU из-за паддинга и медленного I/O.

Вот как это работает:

1. Визуализация данных — сначала анализируются длины текстов и структура мультимодальных примеров.
2. Constrained Padding — вместо бездумного паддинга, обрезаются аномально длинные примеры.
3. Packing как bin-packing — батчи собираются по максимальному числу токенов, а не по фиксированному количеству примеров.
4. Multimodal-aware batching — учитывается и число изображений в батче.
5. ConstantLengthDataset — кастомный класс с producer-consumer очередями и плотной упаковкой без паддинга.

💡 Результат — более плотные батчи, меньше токенов вхолостую, выше эффективность обучения.

Исходники и туториал:
📌 https://huggingface.co/blog/mmdp
📌 https://github.com/ariG23498/mmdp

Если ты тренируешь VLM или LLM с изображениями — это must-have.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Новинка от Hugging Face — FineWeb‑2: огромный высококачественный веб‑датасет на базе CommonCrawl!

📊 Основные характеристики:
- ~8 ТБ сжатого текста (~3 трлн слов) из 96 дампов CommonCrawl (2013–2024)
- Более 1000 языков и почти 1900 языковых-скриптовых пар
- Высокое качество: извлечён только основной текст, проведена фильтрация и дедупликация
- Лицензия ODC‑By 1.0 — можно использовать в коммерческих и исследовательских целях

📝 Зачем это нужно:
- Даёт открытому ИИ доступ к качеству, сравнимому с закрытыми наборами (как у LLaMA 3 или Mixtral)
- Существенно улучшает результаты на бенчмарках вроде MMLU и ARC, особенно при обучении с FineWeb‑Edu

🔧 Где применить FineWeb‑2:
- Обучение LLM с нуля
- Дообучение на редких языках
- Синтетическая генерация, RAG и пр.

📥 Скачать: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2

Читать полностью…

Анализ данных (Data analysis)

🧠 Energy-Based Transformers — модель, которая умеет думать, а не просто угадывать

Новая архитектура EBT (Energy-Based Transformers) показывает, что трансформеры можно сделать умнее и универсальнее.

Что делает EBT:
- 📊 Лучше классических трансформеров (включая Transformer++) по всем параметрам: данные, глубина, количество параметров, вычисления
- ⏱ При "долгом размышлении" даёт +29% прирост качества на тестах
- 🌍 Отлично работает с любыми типами данных: текст, видео, звук, 3D и др.
- 🧠 Умеет обобщать — справляется с новыми задачами без дообучения
- ❌ Не нуждается в наградах (как в reinforcement learning)

Почему это важно:
EBT — это шаг к ИИ, который способен реально *думать*, а не просто воспроизводить шаблоны. Он не просто быстрее, он глубже понимает, что делает.

Website: https://energy-based-transformers.github.io
Paper: https://arxiv.org/abs/2507.02092

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 AirLLM — перспективный подход к запуску LLM на слабом железе.

Этот проект позволяет запускать 70B-параметрические модели на видеокартах с 4GB памяти без квантования — это стало возможным благодаря оптимизированной послойной загрузке весов.

Инструмент работает благодаря блочному 4/8-битное сжатие, ускоряющее inference в 3 раза с минимальной потерей качества. Решение работает даже на MacOS с чипами Apple Silicon , поддерживаются Llama3, Qwen2.5, Mixtral и другие топовые LLM.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✏️ Школы возвращаются к письменным экзаменам — из-за ИИ списывают почти все

По данным Fox News, 89% студентов используют ChatGPT и другие ИИ для выполнения заданий.

Учителя признаются: отличить текст, написанный ИИ, от человеческого — почти невозможно.

📉 В результате:
- Texas A&M, Университет Флориды и UC Berkeley массово возвращают обычные бумажные тетради и письменные экзамены (ранее перешли на цифровые варианты)

🤖 Почему так?
- ChatGPT умеет имитировать стиль ученика.
- Детекторы ИИ работают слабо — в слепых тестах учителя не смогли отличить ИИ-ответ от настоящего.
- В условиях онлайн-обучения и дистанта — списывать стало слишком просто.

🧠 Что дальше?
- Некоторые школы вводят устные эксзамены, письменные эссе в классе, наблюдение за процессом.
- Другие — обучают этике и грамотному использованию ИИ, как когда-то учили пользоваться калькулятором.

📌 Вывод: Ручка против ИИ — временное решение. Главный вопрос — как переосмыслить само образование в эпоху ChatGPT.

Источник

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🕸️ Chat4Data — расширение, которое превращает веб-скрапинг в диалог

Вместо кода и настроек — просто говоришь, что хочешь, и AI собирает структурированные данные с сайта.

Что умеет Chat4Data:

🔹 Собирает данные “на слух”
Опиши нужную таблицу или список — AI сам найдёт, распарсит и вставит в таблицу. Не нравится результат? Переспроси. Без кода, без боли.

🔹 Обходит все страницы сам
Автоматически кликает “Следующая”, грузит подгружаемые списки и собирает всё — без твоего участия.

🔹 Запускается за 3 клика
AI сам определяет, какие данные ценные, предлагает их — тебе остаётся только подтвердить. Быстро, как в Telegram-боте.

🔹 Не тратит токены на скрапинг
Анализ страницы — на AI, но сами данные забираются без токенов. В бета-версии дают 1 миллион токенов на другие задачи.

🔹 Скоро: скрапинг подстраниц, интерактив, интеграции...

📎 https://chat4data.ai

#ai #scraping #automation #nocode #tools

Читать полностью…

Анализ данных (Data analysis)

📺 ИИ захватывает YouTube

На прошлой неделе 3-е место по просмотрам набрало видео, созданное ИИ:
👉 130 миллионов просмотров за несколько дней.

Без продакшн-команды, без студии, без актёров. Всё сделано нейросетями.

📈 Алгоритмы YouTube не делают различий — они просто пушат то, что цепляет зрителя.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔟 Open‑source Deep Research Assistants 🤖

Глубокие исследовательские агент
ы — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:

1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow

2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita

3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker

4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:

- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов

5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek

6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna

7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher

8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1

9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall

10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl

Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.

Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.

@ai_machinelearning_big_data

#ml #rl #aiagents #ai #agents

Читать полностью…

Анализ данных (Data analysis)

💡 WebSailor: опенсорс агент от Alibaba который ищет информацию в вебе

* Суть работы
Авторы предлагают методику пост-обучения, чтобы LLM могла шаг за шагом уточнять запросы и находить нужные данные на сложных страницах.

* Главные приёмы
* *Structured Sampling* — генерация задач с высокой неопределённостью.
* *Information Obfuscation* — часть подсказок скрывается, что заставляет модель планировать глубже.
* *DUPO* — облегчённый RL-алгоритм для обучения агентнов.

* Результаты
На датасете BrowseComp открытая версия агента выходит на уровень закрытых систем и в отдельных случаях работает быстрее человека. :contentReference[oaicite:2]{index=2}

* Код и веса

📌Ссылка: https://huggingface.co/papers/2507.02592

Читать полностью…

Анализ данных (Data analysis)

Хотите освоить Python с экспертами НИУ ВШЭ и начать путь в аналитику?

Онлайн-магистратура «Аналитика больших данных» запускает бесплатный интенсив по Python и аналитике. 4 вечера, чтобы разобраться с базовыми инструментами анализа данных и решить свои повседневные задачи.

Что вас ждёт:
— 4 онлайн-занятия: от синтаксиса Python до работы с таблицами и визуализации
— Практические примеры и мини-кейсы
— Домашки и пошаговые материалы на Stepik для отработки навыка

Когда: 15–19 июля, 19:00 (по МСК)
Формат: онлайн + чат с преподавателем

Если давно хотели разобраться с Python, это удобная точка входа с экспертной поддержкой и ценными знаниями.

🔗 Зарегистрироваться

Читать полностью…

Анализ данных (Data analysis)

🦉 Как CAMEL-AI автоматизировали построение графиков с помощью Gemini 2.5 Pro

Команда CAMEL-AI показала, как связала свою систему агентов OWL с моделью Gemini 2.5 Pro, чтобы всё делалось само: от поиска данных до готового графика.

Что делает агент:

1. Ищет нужную информацию (например, бенчмарки ИИ-моделей)
2. Кратко объясняет, что в ней важного
3. Пишет Python-код для графика
4. Строит график и сохраняет и код, и изображение

💡 Всё это происходит по простому текстовому запросу — прямо в браузере через готовый интерфейс.

Почему это круто:

— Не нужно писать код самому
— Система сама выбирает нужные шаги
— Всё работает в одном окне: и модель, и инструменты, и визуализация
— Можно подключать любые API и расширять под себя

📌 Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Fine-tuning LLM с помощью RL — это несложно!

Вот минимальная реализация GRPO/PPO для Qwen3 на JAX — всего ~400 строк кода от начала до конца.

Что внутри:
- GRPO (Gradient-Regularized PPO) и PPO, реализованные с нуля
- Поддержка Qwen3, open LLM от Alibaba
- JAX-first подход: чистый, модульный и легко читаемый код
- Простая архитектура для быстрого ресёрча и экспериментов

Особенности:
- Без лишней магии и абстракций — всё прозрачно
- Минимум зависимостей
- Отличный старт для тех, кто хочет разобраться в LLM+RLHF

Подходит для:
- Исследователей, изучающих RL на языковых моделях
- Разработчиков, которые хотят понять PPO руками
- Всех, кто хочет обучать LLM «по-честному»

🧠 Хочешь разобраться в fine-tuning LLM через RLHF — начни с этого простого и понятного репозитория!

📦 Репозиторий: https://github.com/kvfrans/lmpo

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 Всем программистам посвящается!

Вот 17 авторских обучающих IT каналов по самым востребованным областям программирования:

Выбирай своё направление:

👩‍💻 Python — t.me/python_ready
🤔 InfoSec & Хакинг — t.me/hacking_ready
🖥 SQL & Базы Данных — t.me/sql_ready
🤖 Нейросетиt.me/neuro_ready
👩‍💻 C/C++ — /channel/cpp_ready
👩‍💻 C# & Unity — t.me/csharp_ready
👩‍💻 Linux — t.me/linux_ready
📖 IT Книги — t.me/books_ready
👩‍💻 Frontend — t.me/frontend_ready
📱 JavaScript — t.me/javascript_ready
👩‍💻 Backend — t.me/backend_ready
📱 GitHub & Git — t.me/github_ready
👩‍💻 Java — t.me/java_ready
👩‍💻 Весь IT — t.me/it_ready
👩‍💻 Bash & Shell — t.me/bash_ready
🖼️ DevOpst.me/devops_ready
🖥 Design — t.me/design_ready

📌 Гайды, шпаргалки, задачи, ресурсы и фишки для каждого языка программирования!

Читать полностью…

Анализ данных (Data analysis)

Google DeepMind расширяет линейку своих моделей Gemma

Представлены две новинки:

✔️ T5Gemma — новая жизнь для классической архитектуры encoder-decoder от Google DeepMind

Большинство современных LLM используют архитектуру *decoder-only*, но Google решила напомнить о силе классической схемы *encoder-decoder*, особенно эффективной в задачах вроде перевода, и QA.

Это новая линейка LLM, в которой уже обученные модели Gemma 2 (decoder-only) превращаются в мощные encoder-decoder через метод адаптации. Такой подход даёт сразу два бонуса:
- сохранение знаний из Gemma 2;
- гибкость и эффективность encoder-decoder архитектуры.

Особенности:
- Обновлённая версия Gemma 2 с архитектурой encoder-decoder.
- Отличный баланс между качеством и скоростью инференса (по сравнению с decoder-only).
- Доступны чекпойнты: Small, Base, Large, XL, 2B-2B, 9B-9B, 9B-2B.
- Достигает большей точности, не жертвуя временем инференса.
- Открывает путь к “небалансным” конфигурациям, когда, например, энкодер мощный, а декодер компактный.


✔️ MedGemma — открытые мультимодальные модели для медицины от Google DeepMind


🟡 MedGemma 4B Multimodal
- 64.4% на MedQA — одна из лучших моделей в классе <8B.
- В слепом тесте: 81% отчётов по рентгенам, сгенерированных MedGemma 4B, были признаны квалифицированным рентгенологом достаточно точными для принятия медицинских решений.
- Также показывает SOTA-уровень на задачах медицинской классификации изображений.

🟢 MedGemma 27B (Text + Multimodal)
- 87.7% точности на MedQA — почти как у DeepSeek R1, но в 10 раз дешевле по инференсу.
- Конкурирует с гораздо более крупными моделями на задачах:
- Определение диагноза;
- Интерпретация ЭМК (электронных медкарт);
- Комбинированное понимание текста и изображений.

Открытые модели — можно кастомизировать, дообучать и использовать локально.

🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡MedGemma: https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/


#GoogleDeepMind #ai #ml #llm #med

Читать полностью…

Анализ данных (Data analysis)

ML-инженеры, какая встреча!

19 июля в Москве снова пройдет Turbo ML Conf от группы Т-Технологий. В этом году — еще масштабнее!

В программе 5 тематических потоков, продовые кейсы и технологии.

Среди спикеров — эксперты Т-Банка, Сбера, Яндекса и других ведущих специалистов.

Будет много нетворкинга, прикладные доклады, настольные игры, лимитированный мерч. Участие бесплатное.

Успейте оставить заявку

Читать полностью…

Анализ данных (Data analysis)

🧠 Hugging Face представили SmolLM-3B — компактную и мощную open-source LLM на 3 млрд параметров, которая работает *прямо на ноутбуке*.

📦 Особенности:
• Тренирована на 1T токенов (RefinedWeb + книги + код + академические тексты)
• Обгоняет Mistral-7B и LLaMA-3 8B на многих задачах
• Работает в GGUF, поддерживается LM Studio, Ollama, LM Deploy и др.

💡 Зачем это нужно?
SmolLM — не про SOTA, а про локальные сценарии: быстрый запуск, приватность, низкие требования к железу.

📁 Репозиторий и демо:
https://huggingface.co/blog/smollm3

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Первый открытый Call for Papers на IT Elements 2025 — last call!

10–11 сентября ИТ-сообщество традиционно соберется на большой осенней конференции для тех, кто делает ИТ в России. Готовьтесь к новым трекам, новым спикерам и новой грандиозной площадке!

Если у вас есть сильный кейс, нестандартный опыт или нешаблонное решение — пришло время предложить свой доклад. Главное требование — экспертность и новизна темы.

Рассматриваются доклады по ключевым направлениям:
▪️ИТ-инфраструктура
▪️Сетевые решения
▪️Кибербезопасность
▪️Прикладные решения, AI и ML

Станьте главным элементом IT Elements 2025!

Узнать больше и подать заявку можно до 20 июля.

Читать полностью…

Анализ данных (Data analysis)

🔥 Gemini API теперь с Batch Mode — экономия 50%!

Google добавил режим пакетной обработки в Gemini API — теперь можно запускать крупные задания и получать результаты с 50% скидкой. Идеально для массовой генерации, ассистентов и анализа.

Что умеет новый режим:
✅ Обработка больших партий данных — дешевле в 2 раза
✅ Результаты приходят в течение 24 часов
✅ Поддержка встроенных инструментов, включая Google Search
✅ Принимает данные в строках или через JsonL-файлы до 2 ГБ
✅ Кэширование контекста для длинных заданий
✅ Простой API: создание, удаление, получение результатов

Полезен для:
- генерации больших объёмов текстов/ответов
- чат-ботов с очередями задач
- анализа данных с контекстом
- автоматизации LLM-инференса

📘 Документация: https://ai.google.dev/docs/gemini-api/batch

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎨🚀 Tencent представили Hunyuan3D-PolyGen — новый генеративный ИИ для 3D-моделей с высоким уровнем качества

С ходу выйдет из ИИ сразу готовые для пайплайна художников и игровых студий.

Что умеет:

✅ Собственная autoregressive-сеть генерирует чистую, плотную сетку без артефактов
Сложная геометрия — способна выдавать более 10 000 полигонов с высокой детализацией и стабильной структурой
Гибкий экспорт — поддержка tri- и quad-мешей под разные пайплайны

🔥 Подходит для:
— геймдева
— цифрового арта
— быстрых 3д прототипов

ИИ, который реально умеет 3D.

👉 Попробовать (включайте автопереводчик)

@data_analysis_ml

#3d #Tencent #Hunyuan #genai #ai

Читать полностью…

Анализ данных (Data analysis)

🧠 AI, который управляет твоим браузером — напрямую

💻 OpenDia — расширение, которое позволяет ChatGPT, Claude и локальным LLM напрямую кликать кнопки, заполнять формы и управлять твоим реальным браузером.

🔥 Работает в твоей сессии — использует уже залогиненные аккаунты и открытые вкладки. Не эмуляция, а настоящее взаимодействие.

✅ Поддержка ChatGPT, Claude и LLM с локального хоста
✅ Навигация, ввод текста, нажатия, скролл — всё доступно
✅ Полностью open source (MIT)
✅ Расширение и API на Node.js + Playwright

🛠 Идеально для:
- Автоматизации рутинных задач
- Тестирования сайтов
- Создания AI-агентов с реальным доступом к вебу

🔗 Репозиторий: https://github.com/aaronjmars/opendia

Читать полностью…

Анализ данных (Data analysis)

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Devops: t.me/DevOPSitsec
Data Science: t.me/datascienceiot
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Физика: t.me/fizmat
SQL: t.me/databases_tg

Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot

📕Ит-книги: /channel/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Читать полностью…

Анализ данных (Data analysis)

🌐 DeepBI — инновационная платформа для анализа данных с помощью ИИ, которая превращает сложные запросы в простые диалоги. Этот инструмент позволяет исследовать данные из MySQL, PostgreSQL, CSV и других источников, используя естественный язык вместо SQL.

Инструмент умеет генерировать персистентные визуализации и дашборды через чат-интерфейс. Платформа поддерживает мультиязычность (английский/китайский) и работает на Windows, Linux и macOS. Для тестирования доступны Docker-образы и EXE-установщик.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Kontext Relight! 💡✨

LoRA-адаптер FLUX Kontext Relight обученный для изменения освещения фото.

Выглядит очень годно, потестить можно здесь.

https://huggingface.co/kontext-community/relighting-kontext-dev-lora-v3

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌳 Tree of Thoughts — новый подход к решению задач с LLM. Этот проект из Princeton NLP предлагает альтернативу стандартной цепочке мыслей (CoT)— метод дерева мыслей, где языковая модель исследует несколько путей решения параллельно. Вместо линейного рассуждения, алгоритм строит дерево гипотез и выбирает оптимальную ветку через поиск в ширину.

В репозитории приведены разнообразные примеры работы метода: от математических головоломок вроде игры "24" до творческих задач. Там же есть все промпты и логи экспериментов из оригинальной статьи, где ToT показал преимущество перед классическим CoT.

🤖 GitHub

@data_analysis_ml

Читать полностью…
Subscribe to a channel