data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Владельцы Mac, вам подарок подъехал: MLX LM теперь интегрирован непосредственно в Hugging Face 🤯

⬇️ Вы можете запустить более 4400 LLM локально на Apple Silicon.

Нужно только включить MLX LM в настройках локальных приложений:

https://huggingface.co/settings/local-apps

И выбрать модель: https://huggingface.co/models?library=mlx

#apple #mlx

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔜 soarXiv — и это очень красивый способ исследовать человеческие знания.

Вам нужно заменить «arxiv» на «soarxiv» в URL статьи, и вы попадёте на её визуализацию во Вселенной.

Поддерживается примерно 2,8 миллиона научных работ.

soarxiv.org

Читать полностью…

Анализ данных (Data analysis)

❓Зачем Data Scientist изучать ML?

Машинное обучение — это не просто модное словосочетание. Это основа Data Science, без которой успешная карьера в этой области невозможна. Вы не сможете работать с большими данными и обучать ИИ, если не освоите методы ML.

На открытом вебинаре 19 мая в 18:00 мск вы узнаете, зачем вам ML, и научитесь решать реальную задачу: классифицировать изображения с помощью машинного обучения.

📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России.

➡️ Записывайтесь на открытый вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/vtKQC/?erid=2W5zFJXRnBi 

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

Если вы размышляете, как усилить своё резюме, наш совет — освойте SQL. Это язык, который помогает извлекать ценную информацию из массивов данных.

Познакомиться с инструментом можно на бесплатном курсе «Введение в SQL и работу с базой данных». За 5 занятий вы научитесь создавать, редактировать и обновлять базы данных, сделаете свои первые запросы и отчёты.

Курс будет полезен даже тем, кто пока не собирается становиться аналитиком. Научитесь применять SQL в своих задачах — с ним вы сможете больше – https://netolo.gy

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5xbuDWY

Читать полностью…

Анализ данных (Data analysis)

🤖 Создание легковесного персонального ассистента на базе Qwen

Хочешь создать собственного ИИ-ассистента, работающего локально? В статье на Machine Learning Mastery показано, как это сделать с помощью модели Qwen1.5-7B-Chat от Alibaba.

🔧 Что понадобится:
- Python
- Библиотеки: transformers, accelerate, bitsandbytes, einops, ipywidgets
- Модель Qwen1.5-7B-Chat с поддержкой 4-битной квантизации для экономии памяти

🛠️ Основные шаги:
1. Установка необходимых библиотек и проверка совместимости
2. Загрузка модели и токенизатора с использованием Hugging Face Transformers
3. Настройка квантизации (4-битной или 8-битной) для оптимизации использования памяти
4. Создание функции генерации ответов с учетом истории чата
5. Реализация пользовательского интерфейса с помощью ipywidgets или командной строки

📈 Преимущества:
- Работа на локальной машине без необходимости подключения к интернету
- Быстрая генерация ответов благодаря квантизации и использованию GPU
- Гибкость в настройке и расширении функциональности ассистента

🔗 Подробнее о процессе создания ассистента читайте в оригинальной статье

Читать полностью…

Анализ данных (Data analysis)

📢 Hugging Face теперь интегрирован с Kaggle Notebooks

С сегодняшнего дня пользователи Kaggle могут напрямую использовать любые модели с Hugging Face в своих ноутбуках — без ручной загрузки, настройки токенов и дополнительных библиотек.

🤝 Платформы Hugging Face и Kaggle объявили о партнёрстве, которое позволит участникам соревнований и исследователям работать с новейшими SOTA-моделями буквально "из коробки".

🔥 Это лишь первый шаг: команды уже работают над дальнейшей интеграцией, чтобы сделать работу с HF-моделями ещё удобнее внутри экосистемы Kaggle.

🔗 Попробовать можно прямо сейчас — поддержка уже включена в среду Kaggle Notebooks.

https://huggingface.co/blog/kaggle-integration

Читать полностью…

Анализ данных (Data analysis)

Anthropic проводит испытания безопасности новой модели под названием «Клод-Нептун».

Не удивлюсь, если мы скоро увидим Claude 4.

Дарио Амодей в своём последнем интервью говорил, что Claude 4 будет готов через шесть месяцев. Похоже, это время уже подходит.

#Claude

@data_analysis_ml - подписаться

Читать полностью…

Анализ данных (Data analysis)

🔍 Что такое AssetGen 2.0?

AssetGen 2.0 — это новый фреймворк-от способный создавать высококачественные 3D-модели и текстуры на основе текстовых или визуальных запросов. Она объединяет два компонента:

- 3D-меши: создаются с использованием одностадийной диффузионной модели, обеспечивающей высокую детализацию и геометрическую точность.

Текстуры: генерируются с помощью модели TextureGen, которая обеспечивает высокое качество и согласованность текстур.


🆚 Улучшения по сравнению с AssetGen 1.0
Одностадийная генерация: AssetGen 2.0 использует одностадийную диффузионную модель, что позволяет напрямую создавать 3D-объекты из текстовых или визуальных запросов, улучшая качество и сокращая время генерации.

Повышенная детализация: новая архитектура обеспечивает более высокую детализацию и точность геометрии по сравнению с предыдущей версией.

Улучшенные текстуры: TextureGen обеспечивает более высокое качество текстур с улучшенной согласованностью между различными видами объекта.

🌍AssetGen 2.0 уже используется внутри компании для создания 3D-миров и будет доступна для разработчиков Horizon позже в этом году. Планируется также расширение возможностей модели для генерации целых 3D-сцен на основе текстовых или визуальных запросов.

🔗 Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🩺 HealthBench — новый бенчмарк от OpenAI для оценки ИИ в медицине

OpenAI представила HealthBench — масштабный бенчмарк, разработанный для оценки возможностей языковых моделей в медицинских сценариях. Он создан в сотрудничестве с 262 врачами из 60 стран и включает 5 000 реалистичных медицинских диалогов.

🔍 Основные особенности HealthBench:


- Реалистичные кейсы: Диалоги отражают реальные взаимодействия между пациентами и врачами, охватывая различные медицинские специальности и контексты.

- Многоязычность: Бенчмарк поддерживает несколько языков, что позволяет оценивать модели в глобальном масштабе.

- Оценка по рубрикам: Каждый ответ модели оценивается по набору критериев, разработанных врачами, с учетом полноты, точности и уместности.

Открытый доступ: Код и данные доступны на GitHub, что способствует прозрачности и сотрудничеству в исследовательском сообществе.

HealthBench устанавливает новый стандарт для оценки ИИ в здравоохранении, обеспечивая более надежные и безопасные инструменты для пациентов и врачей.

🔗 Подробнее: https://openai.com/index/healthbench/

Читать полностью…

Анализ данных (Data analysis)

🌐 Reader от Jina AI — переводчик веб-страниц для языковых моделей. Этот необычный проект решает проблему всех RAG-систем, превращая контент веб-страниц в удобоваримый для LLM формат. Просто добавьте https://r.jina.ai/ перед любой ссылкой и получите очищенный от рекламы, JS-кода и лишних элементов текст с автоматически подписанными изображениями.

Также запрос через s.jina.ai не просто выдает список ссылок, а сразу загружает и обрабатывает топ-5 результатов. Технология уже используется в продакшене и полностью бесплатна.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐼 Pandas-задача с подвохом: “Почему ничего не работает?”

📘 Условие

Дано: DataFrame df:


import pandas as pd
import numpy as np

df = pd.DataFrame({
'user_id': [1, 1, 2, 2, 3, 3],
'score': [100, 90, np.nan, 85, 75, 95]
})


Ты хочешь:

1) Для каждого пользователя найти средний score,
2) Заполнить пропущенные значения score средним по этому пользователю.

Ты пишешь код:


df['score_filled'] = df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean()))


Ожидаешь, что пропущенное значение будет заменено на `85.0`.
Но вместо этого… возникает ошибка или неверный результат.

❓ Вопрос:

1) Почему этот код не работает как ты ожидаешь?
2) Какое поведение apply() вызывает подвох?
3) Как правильно решить задачу?

---

✅ Разбор:

💥 Проблема в `.apply()` + присваивание по индексу

Функция `groupby().apply()` возвращает **объединённый результат с вложенным индексом**, который **не совпадает с индексом исходного DataFrame**.

Пример:

```python
df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean()))
```

→ возвращает Series с уровнем индекса: `(user_id, original_index)`,
а `df['score_filled'] = ...` ожидает индекс, совпадающий с `df.index`.

📌 Результат: pandas либо выбрасывает `ValueError`, либо вставляет неправильные значения.

✅ Правильные способы

Способ 1: использовать `transform` (индекс сохраняется!):

```python
df['score_filled'] = df['score'].fillna(
df.groupby('user_id')['score'].transform('mean')
)
```

Способ 2: в два шага:

```python
user_means = df.groupby('user_id')['score'].transform('mean')
df['score_filled'] = df['score']
df.loc[df['score'].isna(), 'score_filled'] = user_means
```

🎯 Так `NaN` будет корректно заполнен значением `85.0`.

⚠️ Подвох

• `groupby().apply()` не гарантирует совпадение индексов
• `transform()` — безопаснее, если хочешь сохранить структуру
• Даже опытные часто используют `apply` “по привычке” и попадают в ловушку
• Такие ошибки не всегда приводят к crash — они хуже: создают **тихие баги**



Хочешь сделать вторую часть , ставь 👍

Читать полностью…

Анализ данных (Data analysis)

🔥 Проект: fast-agent

fast-agent — это современный фреймворк для быстрой разработки и тестирования интеллектуальных агентов и рабочих процессов, поддерживающих протокол MCP (Model-Context-Protocol). Он предоставляет простой декларативный синтаксис и мощные инструменты для построения многоагентных систем с поддержкой OpenAI, Anthropic и других моделей.

Основные возможности

• Быстрое создание агентов с помощью декораторов @fast.agent, минимизируя количество кода.

• Поддержка рабочих процессов: цепочки (`chain`), параллельные вызовы (`parallel`), маршрутизаторы (`router`), оркестраторы (`orchestrator`), схемы с оценкой и оптимизацией (`evaluator_optimizer`).

• Мультимодальность: обработка изображений, PDF-файлов и интеграция с внешними ресурсами MCP.

• Интерактивная отладка: настройка и диагностика агентов до, во время и после выполнения рабочих процессов.

• Гибкая конфигурация через fastagent.config.yaml и fastagent.secrets.yaml.

• Интеграция с LLM: OpenAI (GPT-4 и др.), Anthropic (Haiku, Sonnet, Opus) и другие модели через MCP-серверы.

Быстрый старт

1️⃣ Установите менеджер пакетов uv для Python.

2️⃣ Установите fast-agent:


uv pip install fast-agent-mcp


3️⃣ Создайте пример агента и конфигурационные файлы:


uv run fast-agent setup


4️⃣ Запустите агента:


uv run agent.py


5️⃣ Для запуска примеров рабочих процессов:


uv run fast-agent quickstart workflow


Документация и примеры

• Официальный сайт: [fast-agent.ai](https://fast-agent.ai)

• Документация: [fast-agent-docs](https://github.com/evalstate/fast-agent-docs)

• Примеры: директория examples в репозитории.

Сообщество и развитие

• Проект активно развивается, ⭐ 1.7k+ звёзд на GitHub.

• Обсуждения: [Discussions](https://github.com/evalstate/fast-agent/discussions)

• Последние релизы: [Releases](https://github.com/evalstate/fast-agent/releases)

Видеообзор

[First Look at Fast-Agent (or Manus) – Coding an AI ...](https://www.youtube.com/watch?v=GaVQyYougPc&utm_source=chatgpt.com)

🔍 GitHub

Читать полностью…

Анализ данных (Data analysis)

🔥 Hugging Face представили бесплатного Open Computer Agent — открытый аналог Operator, запускающийся на виртуальной Linux-машине. Этот агент умеет искать и бронировать билеты, заказывать столик в ресторане и решать множество других задач.

Есть два «но»: он иногда не справляется с CAPTCHA, а из-за высокой нагрузки ответы могут идти чуть дольше. Зато всё бесплатно и с открытым исходным кодом!

Попробовать можно прямо сейчас:

https://huggingface.co/spaces/smolagents/computer-agent

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Железо + софт = будущее.

Стартовала регистрация на «Я.Железо-2025»

Как видит мир автономный грузовик, зачем лидару «подогрев стёкол» и что позволяет роверу ориентироваться в городе? Приглашаем 24 мая на конференцию «Я.Железо» — поговорим о разработке роботов, умных устройств, автономного транспорта и серверной инфраструктуры.
Вас ждут два трека с докладами, экспозона и нетворкинг.

О чём расскажут спикеры:

На треке Hardware — об устройстве сенсорсета, микрофонов в AOSP на примере ТВ-станции, а также сделают обзор системы очистки.
На треке Software — о смарт-функциях в ТВ Станциях, TBD Светофорах на роботе-доставщике и радаре в BEVFusion.

Что покажут на экспо:

Собственные лидары. Как работают дальнобойный PBR-ONE и круговой nanoHomer и что позволяет роботам «видеть» сквозь дождь и туман.
Автономные грузовики. Как тягач принимает решения, маневрирует и соблюдает ПДД, а лидары определяют объекты за сотни метров.
Роботы-доставщики. Как ровер ориентируется в городе, видит пешеходов и решает, когда остановиться.
Складские роботы. Как работает нейросеть и «грабер» в механической руке и сколько палето-мест в час может обработать робот-инвентаризатор.

Конференция пройдёт онлайн и офлайн в Москве 24 мая. Чтобы получить приглашение на «Я.Железо», зарегистрируйтесь по ссылке.

Читать полностью…

Анализ данных (Data analysis)

🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.

NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.

Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.

В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.


Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.


Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.

Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.

Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.


📌Лицензирование: CC-BY-4.0 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #ASR #Parakeet #NVIDIA

Читать полностью…

Анализ данных (Data analysis)

Современные роботы для надёжной и устойчивой работы должны помнить, что происходило ранее.
Но как только в диффузионные политики добавляют историю действий — производительность падает, а обучение становится дорогим и нестабильным.

📌 Исследователи представили новый метод — PTP (Past Trajectory Prediction), который помогает роботам эффективно использовать прошлый опыт.

Что делает PTP:

✅ Учит робота находить связь между прошлым и будущим
✅ Позволяет использовать быстрые кэшированные контексты вместо длинной истории
✅ Ускоряет обучение и повышает качество поведения в 3 раза
✅ Уменьшает вычислительные затраты более чем в 10 раз
✅ Добавляет трюк на этапе запуска, который проверяет, следит ли робот за собственной историей

📈 Обучение роботов с учётом долгосрочного контекста стало реально применимым.
Если мы хотим создавать умных, автономных и надёжных машин — это большой шаг вперёд.

🔗 Подробнее:
-
Статья
-
Проект
-
Код

/channel/data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ NNCF — фреймворк для сжатия нейросетей без потерь точности. Проект поддерживает квантование, сжатие весов и другие методы как после обучения, так и непосредственно во время тренировки моделей.

Инструмент работает с PyTorch, TensorFlow, ONNX и OpenVINO, предлагая единый API для разных фреймворков. Например, для 8-битного квантования после обучения достаточно 300 примеров калибровочных данных, никаких сложных настроек. Проект имеет интеграцию с HuggingFace Optimum и OpenVINO Training Extensions, а также готовые примеры для классификации изображений, детекции объектов и даже NLP.

🤖 GitHub

@data_analytics_ml

Читать полностью…

Анализ данных (Data analysis)

II-Medical-8B — компактная, но мощная модель , специально разработанная для медицинских задач.

Несмотря на размер, она превосходит более крупные модели, такие как GPT-4.5, по точности и эффективности в клинических тестах.

🔍 Почему это важно
Точность и прозрачность: II-Medical-8B обеспечивает пошаговое клиническое рассуждение, что критично для медицинских приложений.

- Доступность: Модель достаточно компактна, чтобы запускаться локально, обеспечиваяет быстрый и приватный доступ без необходимости в дорогой облачной инфраструктуре.

📍 С лицензией MIT.

Для запуска не требуется GPU

https://huggingface.co/Intelligent-Internet/II-Medical-8B

Читать полностью…

Анализ данных (Data analysis)

Подборка сервисов для быстрой оценки и сравнения LLM

Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.

Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.

1️⃣ OpenRouter: рейтинг LLM по реальному использованию

OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии. 

Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.

2️⃣ Chatbot Arena (LMSYS): парные сравнения моделей 

Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.

Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.

3️⃣ Hugging Face: рейтинг по независимым бенчмаркам

В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания),  BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.

4️⃣ MERA: открытый бенчмарк для русскоязычных LLM

Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.

Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.

Какие выводы? 
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:

📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве

Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов. 

#AI_moment

@Redmadnews

Читать полностью…

Анализ данных (Data analysis)

Устроиться аналитиком в Яндекс за выходные

7–8 июня проводим Weekend Offer Analytics. До 3 июня оставьте заявку на участие, 7 июня пройдите два технические собеседования, а 8 июня познакомьтесь с командами и получите офер.

В мероприятии участвует 12 команд: Алиса и Умные устройства, Игры, R&D, Рекламные технологии, Поиск и Суперапп, Безопасность, Коммерческий департамент, Автономный транспорт, Ecom-сценарии Поиска, Качество Поиска, Международный Поиск, Карты. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Узнать подробности и зарегистрироваться можно здесь.

Реклама. ООО "Яндекс". ИНН 7736207543

Читать полностью…

Анализ данных (Data analysis)

🎨 Step1X-3D — Генерация текстурированных 3D-объектов нового поколения

Step1X-3D — это открытая исследовательская платформа для высокоточной, воспроизводимой и управляемой генерации текстурированных 3D-ассетов. Проект разработан командой [StepFun](https://github.com/stepfun-ai) и доступен на Hugging Face.

🔧 Основные компоненты

- 📦 Очистка и подготовка данных
Обработано более 5 миллионов 3D-моделей. Отобраны 2 миллиона высококачественных ассетов с нормализованной геометрией и текстурами. Более 800 тысяч объектов доступны открыто.

- 🧠 Двухэтапная генеративная архитектура
1. Генерация геометрии
Используется гибрид VAE + Denoising Diffusion Transformer (DiT) для создания TSDF-представлений. Применяется латентное кодирование и выборка по краевым признакам для детализации.
2. Синтез текстур
Диффузионная модель с геометрическим кондиционированием и согласованием в латентном пространстве для кросс-вью согласованности.

- 🧪 Open Source
Полностью открыт: доступны обученные модели, код, примеры и pipeline для адаптации.

🌟 Особенности

- 🔄 Интеграция 2D → 3D
Поддерживает использование техник управления, таких как LoRA, из 2D генерации — теперь и для 3D-объектов.

- 🥇 SOTA-качество
По ряду метрик превосходит существующие open-source решения и приближается к проприетарным системам.

Step1X-3D задаёт новый стандарт в открытых 3D-исследованиях, объединяя качество, гибкость и открытость для исследователей, разработчиков и креаторов.

- 📄 Hugging Face
- 💻 GitHub
- 🚀 Демо
- ▶️ YouTube

Читать полностью…

Анализ данных (Data analysis)

✔️ NVIDIA поставит в Саудовскую Аравию 18 000 топовых чипов для ИИ.

NVIDIA отправит более 18 000 флагманских Blackwell GB300 в саудовскую компанию-стартап Humain, заявил CEO Джeнсeн Хуанг на инвестиционном форуме в Эр-Рияде. Эти чипы, одни из самых мощных в мире, будут работать в дата-центрах суммарной мощностью 500 мегаватт, помогая строить ИИ-инфраструктуру страны.

Humain, принадлежащая местному суверенному фонду, позже задействует «сотни тысяч» GPU. AMD тоже участвует в проекте, и тоже поставит свои чипы для аналогичной инфраструктуры на $10 млрд.
cnbc.com

✔️ Audible внедряет ИИ для создания аудиокниг.

Audible объявил о внедрении полного цикла производства аудиокниг на основе ИИ — от перевода до озвучки. В ближайшие месяцы сервис предложит более 100 синтезированных голосов на английском, испанском, французском и итальянском языках с акцентами и диалектами.

Технология поддерживает два варианта перевода: текст-текст (с последующей озвучкой) и речь-речь, сохраняющую стиль оригинального чтеца. Для точности перевода доступна проверка профессиональными лингвистами. Первые тесты перевода стартуют этой осенью.
thebookseller.com

✔️ Tencent CodeBuddy: ИИ-ассистент для программистов.

Tencent запустил CodeBuddy, инструмент, который может стать конкурентом Cursor. Он поддерживает автодополнение кода, диагностику ошибок, рефакторинг, написание тестов и ревью, а также работает с экосистемой WeChat.

Особенность сервиса - режим Craft: ИИ понимает задачи на естественном языке и генерирует проекты из нескольких файлов. CodeBuddy поддерживает MCP-протокол, позволяя интегрировать сторонние инструменты без лишних телодвижений. В основе — модели DeepSeek V3 и HunYuan Turbo S, доступные бесплатно. Инструмент совместим с VSCode, Jetbrains и другими IDE.
copilot.tencent.com

✔️ Intel Arc B580 может получить уникальную версию с двумя GPU и 48 ГБ памяти.

Портал videocardz поделился слухами о том, что один из партнеров Intel разрабатывает двухчиповую версию видеокарты Arc B580 с суммарными 48 ГБ видеопамяти. По данным неназванного источника, устройство получит нестандартный дизайн, а его анонс запланирован на ближайшую неделю. Хотя точный бренд пока не называется, известно, что проект не является официальной разработкой Intel и находится под NDA.

При этом, обычная версия B580 с 24 ГБ задерживается на несколько месяцев и есть вероятность, что это связано с "мистической" 48 ГБ-версией. Если информация подтвердится, это станет редким случаем десктопного двухчипового решения в эпоху монопольных GPU. Ждем подробностей на Computex.
videocardz.com

✔️ Утечка системного промпта Claude взбудоражила ИИ-сообщество.

Системный промпт Claude, описывающий поведение модели и ее инструменты, слили в сеть — 16,7 тыс. слов и 24 тыс. токенов. Документ раскрывает детали от формата ответов до методов решения задач, например, как считать буквы в слове «strawberry». В сравнении с 2,2 тыс. словами у OpenAI он гигантский. Большая часть текста посвящена интеграции с MCP-сервером, поисковыми правилами и «горячими исправлениями» для данных после 2024 года.

Andrej Karpathy назвал утечку поводом обсудить новую парадигму обучения ИИ: вместо тонкой настройки весов модели он предложил редактировать промпты вручную, как человек использует заметки. Это должно помочь ИИ запоминать стратегии и адаптироваться к контексту. Однако критики возражают: автономные подсказки могут запутать модель, а без постоянного обучения эффект будет краткосрочным.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

Сэм Альтман:
2025 — год ИИ-агентов
2026 — год научных исследований и прорывов
2027 — год, когда ИИ и робототехника действительно начнут взаимодействовать с физическим миром
Погнали!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Создаём свою нейросеть в PyTorch

Хотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.

Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex и Huawei.

Что будет на вебинаре?
🟠Установим PyTorch в Google Colab и настроим работу на бесплатном GPU;
🟠Поймём, что такое тензоры и почему они — фундамент всех нейросетей;
🟠Скачаем готовый датасет, разберём его структуру и подготовим для обучения;
🟠Научимся использовать DataLoader для эффективной загрузки данных;
🟠Пошагово соберём облегчённую версию классической свёрточной нейронной сети (CNN);
🟠Обучим и протестируем модель.

🕗 Встречаемся 14 мая в 18:30 по МСК, будет много практики, ответы на вопросы и полезные инсайты от эксперта.

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Анализ данных (Data analysis)

✔️ Qwen официально выпустили квантованные версии Qwen3!

Теперь Qwen3 можно развернуть через Ollama, LM Studio, SGLang и vLLM — выбирайте удобный формат (GGUF, AWQ или GPTQ) для локального деплоя.

Все модели доступны в коллекции Qwen3 на Hugging Face и ModelScope:

➡️Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

➡️ ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen

Читать полностью…

Анализ данных (Data analysis)

🌧️ Superlinked — фреймворк для гибридного поиска, где вектора и метаданные работают вместе. Этот инструмент решает главную боль RAG-систем и рекомендательных сервисов — как эффективно комбинировать эмбеддинги с структурированными данными.

В отличие от чистых векторных поисков, здесь можно создать единую модель, где описание товара и его оценка влияют на результаты совместно. Проект широкой интеграции: от тестов в Jupyter-ноутбуке до продакшн-развёртывания REST API одним командой.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

NVIDIA открыла исходный код моделей Open Code Reasoning - 32B, 14B и 7B - лицензировано APACHE 2.0 🔥

> Превосходит O3 mini и O1 (низкий) на LiveCodeBench 😍

Модели в среднем на 30% эффективнее других эквивалентных моделей Reasoning.

Работает с llama.cpp, vLLM, transformers, TGI и другими — проверьте их сегодня!!


🟢Models
🟢Dataset
🟢Paper

Читать полностью…

Анализ данных (Data analysis)

🔥 AgenticSeek — мощнейший опенсорс ИИ-агент.

Это лучшая бесплатная альтернатива Manus AI за 200$. Есть всё, что нужно — поиск по интернету, поддержка голосового управления + он хороший помощник по кодингу.

И он умеет почти всё:

• Спланирует тур за границу: подберёт билеты, отели, маршруты
• Проведёт аудит бизнеса и предложит варианты оптимизации
• Возьмёт на себя работу в таблицах, анализ данных и отчётов
• Напишет код под любую задачу
• Прочитает книги, статьи, репозитории, просёрфит сайты и соберёт данные
• А теперь представьте: вы даёте ему сотню таких задач одновременно — это уже не ассистент, а полноценный бизнес-комбайн

AgenticSeek полностью управляет браузером и приложениями, интегрируется в ваши процессы и автоматически подбирает агентов под задачи.

✅ Управлять можно голосом
✅ Все приватные данные остаются только у вас


На GitHub уже 1800 звезд.

https://github.com/Fosowl/agenticSeek

Читать полностью…

Анализ данных (Data analysis)

📄 DocsGPT — открытый RAG-ассистент для работы с документами. Это не просто чат-бот, а целая экосистема, которая умеет извлекать информацию из PDF, DOCX, веб-страниц и даже GitHub-репозиториев, сохраняя привязку к исходным данным.

Что выделяет проект:
▪️Поддержка локальных моделей (Ollama, llama.cpp) и облачных API (OpenAI, Anthropic)
▪️Готовые интеграции для Discord, Telegram и веб-сайтов
▪️Возможность расширения функционала через инструменты и вебхуки

Для старта достаточно клонировать репозиторий и запустить setup-скрипт — через пару минут вы получите работающий инстанс с интерфейсом на localhost.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP.

За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!

Читать полностью…
Subscribe to a channel