data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🧩 Collaborator: удобная среда для разработки с агентами

Collaborator — это приложение для macOS, которое объединяет терминалы, файлы и код на одном бесконечном холсте. Упрощает работу, устраняя необходимость в переключении между вкладками. Приложение активно разрабатывается и предназначено для локального использования.

🚀 Основные моменты:
- Интуитивно понятный интерфейс с многофункциональным холстом
- Поддержка нескольких рабочих пространств
- Интерактивные терминалы и редакторы кода
- Локальное хранение данных без необходимости в учетных записях

📌 GitHub: https://github.com/collaborator-ai/collab-public

Читать полностью…

Анализ данных (Data analysis)

📌 Claude Code: подборка полезных материалов, чтобы стать ПРО.

Видео, репозитории, документация и книги. Без шума. Без мусора. Всё в одном месте.

🗂 Репозитории

Claude Code (официальный)
https://github.com/anthropics/claude-code
Claude Cookbooks
https://github.com/anthropics/claude-cookbooks
Ultimate Guide по Claude Code
https://github.com/FlorianBruhinux/claude-code-ultimate-guide
Подборка лучших плагинов Claude
https://github.com/quemsah/awesome-claude-plugins
Лучшие репозитории по Claude Code
https://mejba.me/locale/en?next=%2Fblog%2Fbest-github-repos-claude-code

📚 Гайды и документация

Обзор документации Claude Code
https://code.claude.com/docs/en/overview
Claude Code Handbook (freeCodeCamp)
https://freecodecamp.org/news/claude-code-handbook/
Полный гайд по Claude Code (2026)
https://claude-world.com/articles/claude-code-complete-guide-2026/
Практическое руководство по Claude Code
https://evakeiffenheim.substack.com/p/a-clear-guide-to-claude-code-for
Гайд для новичков по Claude Code
https://nxcode.io/resources/news/claude-code-tutorial-beginners-guide-2026

🎥 Видео

Полный гайд по Claude Code для новичков (2026)
https://youtube.com/watch?v=qYqIhX9hTQk
Полный курс по Claude Code — создание и монетизация (4 часа)
https://youtube.com/watch?v=QoQBzR1NlqI
Освой Claude Code за 30 минут
https://youtube.com/watch?v=6eBSHbLKuN0
Освой 95% навыков Claude Code за 28 минут
https://youtube.com/watch?v=zKBPwDpBfhs
Плейлист по Claude Code (от новичка до продвинутого)
https://youtube.com/playlist?list=PL4HikwTaYE0ETMaJqnNvm_2I3NEbexMDZ
Топ-6 советов для эффективной работы с Claude Code
https://youtube.com/watch?v=WwdlYp5fuxY

📖 Книги

Mastering Claude AI — практический путь
https://amazon.com/Mastering-Claude-AI-Practical-Journey/dp/B0FLJEY8BD
AI Engineering — Chip Huyen
https://amazon.com/AI-Engineering-Building-Applications-Foundation/dp/B0F3ZZTKG5
Claude Code Lab — production AI-приложения
https://books.google.com/books/about/Claude_Code_Lab.html?id=EOng0QEACAAJ

Сохрани - пригодится.
Поделись с коллегой и ускоришь кому-то путь в Claude Code.)

Читать полностью…

Анализ данных (Data analysis)

🦞 Как правильно работать с Claude Code

Репозиторий claude-code-best-practice уже собрал десятки тысяч звёзд и это не просто набор советов. Это системный подход к тому, как превратить Claude из “помощника” в часть разработки.

Главная мысль простая: не проси написать код, а выстраивай процесс.

Начинается всё с планирования. Claude должен сначала продумать решение и обязательно иметь способ проверить себя. Хорошая практика - заставить его задать тебе уточняющие вопросы через AskUserQuestion, чтобы он не гадал, а уточнял требования как нормальный разработчик.

Работа делится на этапы, и у каждого этапа есть свои тесты. Это сильно снижает количество ошибок. Параллельно можно вести несколько задач через Git Worktrees, а долгие процессы выносить в /loop, чтобы они крутились сами.

Интересный момент - код-ревью лучше делать в новом контексте. Свежий “взгляд” модели часто находит баги, которые пропустила сама же ранее. Ещё сильнее это усиливается, если подключить вторую модель, например прогнать план и реализацию через Codex.

Контекст вообще становится ключевой вещью. CLAUDE.md не должен разрастаться - примерно до 150–200 строк на файл, иначе модель начинает теряться. Вместо огромных инструкций лучше использовать команды и навыки, а не бесконечные промпты.

Отдельно важно разделять роли. Не делать одного универсального агента “на всё”, а создавать небольших специализированных с конкретными задачами. Но при этом не усложнять: для простых задач обычный Claude Code без сложных схем работает лучше.

Из практики - если застрял, проще показать скриншот, чем пытаться объяснить словами. А если подключить MCP, можно дать Claude доступ к логам браузера и сильно упростить отладку. Терминал тоже лучше запускать как фоновые задачи, чтобы не блокировать процесс.

Всё это сводится к одному: Claude начинает работать нормально только тогда, когда у него есть структура, ограничения и ответственность.

И в итоге меняется сам подход к разработке. Ты не пишешь код руками и не просишь “сгенерируй функцию”. Ты управляешь системой, которая пишет его за тебя.

https://github.com/shanraisshan/claude-code-best-practice

Читать полностью…

Анализ данных (Data analysis)

⚡️ Claude Code на максималках: 32 агента, скорость в 5 раз выше, ноль новых инструментов

Нашли интересный open source проект oh-my-claudecode. Это надстройка, которая превращает Claude Code в мультиагентную систему с разными режимами выполнения.

Есть полный автопилот, есть режим с параллельными агентами, есть последовательные пайплайны и даже режим экономии токенов. Внутри 32 агента под разные задачи от архитектуры до тестирования.

Самое удобное это управление через ключевые слова. Пишешь autopilot и он делает все сам. Пишешь ralph и он не остановится, пока не доведет задачу до конца.

Еще одна важная вещь это авто-возобновление после ограничений по запросам. Не нужно следить за процессом и перезапускать вручную.

По ощущениям это уже не просто ассистент, а полноценная система разработки поверх Claude Code.

GitHub: https://github.com/Yeachan-Heo/oh-my-claudecode

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

84-летний сенатор США записал интервью с AI-агентом - и ролик за сутки собрал 2.8 млн просмотров.

Разговор с Claude от Anthropic был про данные и приватность. Главная мысль - раньше у государств просто не хватало людей, чтобы следить за всеми. С появлением AI это ограничение исчезает: алгоритмы находят паттерны, данные доступны, масштаб становится практически безлимитным.

Реакция на видео ожидаемо разделилась. Одни считают, что наконец об этом говорят на большую аудиторию. Другие, что это уже похоже на «удобного собеседника», который отвечает так, как нужно.

https://www.youtube.com/watch?v=h3AtWdeu_G0

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как я стал дата инженером с ЗП 800к

Без удачи и связей

5 лет назад я работал в техподдержке с графиком 2/2 и жестко бухал


💀💀💀

После очередной пьянки я понял, что надо что-то менять. Я решил стать дата инженером

Составил резюме на коленке. Чудом получил свою первую работу с зп 50к в месяц 😎

Отработал 4 месяца и захотел больше. Ну и погнал дальше: собесы, отказы, новые офферы

В прошлом году я пробил 800к рублей за один месяц

Я выгорал, увольнялся, снова загорался и опять шел на собесы

Задумался над своими ошибками...

Как можно избежать их? Снял на эту тему видео, в котором рассказал:
- мой путь из техподдержки до техлида с зп 800к
- какие ошибки я совершил и как их обойти
- как выглядит типичный день ДЕ


Это разбор реального пути: как с нуля дойти до первой работы дата инженером с хорошей зарплатой.

Без булшита по типу "вкатись в ДЕ за месяц" 😏

👉 Смотри видео в закрепе моего канала

Читать полностью…

Анализ данных (Data analysis)

Кожаные вообще оборзели

Читать полностью…

Анализ данных (Data analysis)

🚀 Tencent выкатывает Covo-Audio (7B) - новый уровень голосовых AI.

Это уже не просто “распознал → ответил → озвучил”.

Модель умеет говорить и слушать одновременно.

Что внутри:

• Qwen2.5-7B + Whisper
• 8 млн часов аудио обучения
• full-duplex — диалог без пауз

Главное отличие:

Нет отдельных пайплайнов ASR и TTS.
→ всё работает как единая модель

Что это даёт:
• можно перебивать (barge-in)
• естественный разговор, как с человеком
• меньше задержек
• меньше костылей в архитектуре

Отдельно:

Разделение интеллекта и голоса
→ проще делать voice cloning
→ гибкость под разные сценарии

Тренд очевиден:

AI переходит от “голосовых интерфейсов”
→ к полноценному живому диалогу

Скоро кнопка “нажми и говори” исчезнет совсем.

Модель: https://huggingface.co/tencent/Covo-Audio-Chat

Читать полностью…

Анализ данных (Data analysis)

В Claude Code уже 93 команды.

Но чтобы получить 80% пользы, тебе хватит вот этих 16 👇

/init
→ создаёт CLAUDE.md - память проекта и репозитория

/plan
→ сначала думает, потом пишет код

/context
→ показывает, что именно съедает твои токены

/compact
→ очищает контекст прямо в середине сессии

/clear
→ сбрасывает состояние между задачами

/model
→ переключает модели: Opus / Sonnet / Haiku

/btw
→ позволяет задать побочный вопрос, не ломая основной поток работы

/rewind
→ откатывает назад, если всё пошло не туда

/agents
→ запускает несколько суб-агентов параллельно

/chrome
→ управляет браузером: клик, ввод, навигация

/loop
→ прогоняет промпты по кругу, удобно для мониторинга

/simplify
→ 3 агента вместе ревьюят твой код

/permissions
→ заранее разрешает безопасные действия

--dangerously-skip-permissions
→ полностью автоматический режим, без лишних подтверждений

Shift + Tab
→ мгновенное переключение режимов

ultra think
→ максимальная глубина рассуждения

Большинство используют Claude Code как обычный чат-бот.

Поэтому и упираются в потолок.

Продвинутые пользователи работают с ним как с целой системой.

Читать полностью…

Анализ данных (Data analysis)

ARC-AGI-3 - бенчмарк,показал неприятную для всей индустрии вещь: даже топовые frontier-модели сейчас набирают меньше 1%.

Лучшие результаты на старте такие:

- Gemini 3.1 Pro Preview - 0.37%
- GPT-5.4 High - 0.26%
- Opus 4.6 Max - 0.25%

И это, пожалуй, главный вывод.

ARC-AGI-3 - это уже не набор статичных головоломок, как в прошлых версиях ARC. Теперь это интерактивные игровые миры, где агенту нужно самому разбираться, что вообще происходит.

Что именно проверяет новый тест:

- исследование незнакомой среды с нуля
- поиск целей и правил без текстовых инструкций
- построение своей модели мира по ходу задачи
- длинное планирование на много шагов вперёд
- обучение на опыте, а не по шаблону
- пересмотр гипотез, если первые догадки оказались неверными

То есть здесь уже мало просто "хорошо рассуждать в чате".

Нужно адаптироваться в реальном времени, помнить прошлые действия, извлекать сигналы из слабой обратной связи и не скатываться в перебор.

Внутри ARC-AGI-3:
- 150+ новых интерактивных окружений
- почти 1 000 уровней
- replay-сессии, где можно смотреть весь таймлайн решений агента

Скоринг считает не только факт решения, а то, насколько эффективно модель осваивает навык по сравнению с человеком.

Именно поэтому результаты выглядят настолько жёстко.

По сути, ARC Prize говорит прямо:
пока между человеком и ИИ есть такой разрыв в освоении новых задач, говорить о настоящем AGI рано.

И это, возможно, один из самых честных тестов за последнее время.

Не потому что модели "слабые".
А потому что реальная универсальная адаптация всё ещё не решена.

https://arcprize.org/

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Все что выпустили Antropic за последнее время.

73 релиза за 52 дня.

Читать полностью…

Анализ данных (Data analysis)

В Claude Code агент теперь сам решает, какие действия можно выполнять 👇

Раньше было два режима:
- либо он постоянно спрашивает разрешение
- либо skip permissions - делает всё без спроса

Первое раздражает.
Второе - рискованно.

Теперь появился auto mode.

В этом режиме Claude:
- сам принимает решения о доступах
- оценивает каждое действие
- безопасные - выполняет сразу
- рискованные - блокирует или ищет альтернативу

По сути:
• это тот же skip permissions, но с встроенной проверкой на потенциальный вред

🧠 Под капотом - классификатор, который анализирует каждый шаг агента

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Google представили TurboQuant - алгоритм, который сильно снижает требования к памяти при работе LLM.

KV-cache - это то, что хранит весь контекст во время генерации.
И именно он сейчас становится главным ограничением, а не сами модели.

Чем длиннее диалог или больше пользователей, тем быстрее заканчивается память на GPU.

TurboQuant решает это так:
- сжимает KV-cache минимум в 6 раз
- ускоряет инференс до 8 раз
- сохраняет качество без заметной потери

Это ключевой момент: раньше компрессия почти всегда ухудшала ответы.

Как это устроено:

- сначала данные преобразуются (rotation), чтобы их было проще сжимать
- затем применяется основной алгоритм сжатия (PolarQuant)
- после этого добавляется лёгкая коррекция (QJL), которая убирает ошибки

В итоге получается почти точное восстановление при сильно меньшем объёме.

С TurboQuant:
- модели можно запускать на меньшем количестве GPU
- один сервер может обслуживать больше запросов
- становится проще работать с длинным контекстом
- падает стоимость инференса

По сути, это не про “ускорить модель”, а про перераспределение ресурсов внутри всей системы.

Раньше оптимизировали веса моделей
теперь оптимизируют то, как они работают в проде

И KV-cache, как раз одна из самых дорогих частей.

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Cursor сделал regex-поиск мгновенным

Instant Grep ищет по миллионам файлов за миллисекунды
16.8 сек → 13 мс

И главное:
они не ускоряли regex
они убрали лишний поиск

🧠 Как это работает

- создаётся индекс: куски текста → файлы
- используются триграммы (fil, ile, le_)
- сначала ищутся кандидаты
- потом запускается regex

👉 большинство файлов вообще не открывается

🔥 Ключевая идея - sparse n-grams

- индексируются не все куски
- только самые «полезные»
- редкие символы имеют больший вес

💾 Всё локально

- индекс хранится у тебя
- привязан к Git
- быстрый доступ через memory map

Скорость даёт не regex
а умный отбор файлов до поиска.

https://x.com/cursor_ai/status/2036122609931165985

Читать полностью…

Анализ данных (Data analysis)

🚀 Anthropic показали новый режим:
AI может выполнять задачи на компьютере и по расписанию без твоего участия

Главное:

- Claude управляет компьютером
- кликает, вводит текст, открывает сайты
- выполняет задачи в браузере и приложениях

+ появился режим /schedule:

- ставишь задачу → задаёшь время
- Claude сам запускает и выполняет её
- даже если твой ноут выключен
- отчёты генерируются сами
- соцсети мониторятся автоматически
- задачи выполняются без контроля

https://claude.com/product/cowork#dispatch-and-computer-use

🐍 Python полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Нужны твои навыки в работе с ИИ на МТС True Tech Hack 2026!

Тебе сюда, если ты инженер данных, разработчик или системный аналитик. 1 500 000 рублей — общий призовой фонд ИТ-соревнования.

Формат: командное онлайн-соревнование с финалом в Москве. Если нет команды — поможем найти на платформе мероприятия.

Тебя ждут три задачи на выбор — каждая с уникальной технической фишкой.

Для всех финалистов — приглашение на закрытую вечеринку, а лучших участников позовут на стажировку.

Успей зарегистрироваться до 9 апреля

Читать полностью…

Анализ данных (Data analysis)

🌟 Transformers.js v4 вышел и теперь нейросети реально можно запускать прямо в браузере

Без серверов, без API, без костылей. Просто открываешь страницу и модель уже работает у пользователя на устройстве.

Главное изменение в том, что WebML наконец перестал быть игрушкой. Производительность выросла, задержки снизились, и часть задач теперь можно спокойно уносить на клиент.

Что это даёт на практике

Фронтенд начинает забирать кусок AI на себя
Меньше расходов на инфру и запросы к API
Лучше приватность, данные не уходят на сервер
Можно делать офлайн-фичи с ИИ прямо в браузере

Если коротко, браузер превращается в полноценную AI-платформу. И это только начало.

Blog post: https://huggingface.co/blog/transformersjs-v4
Release notes: https://github.com/huggingface/transformers.js/releases/tag/4.0.0
Demos: https://huggingface.co/collections/webml-community/transformersjs-v4-demos

Читать полностью…

Анализ данных (Data analysis)

Хотите в машинное обучение, но не знаете, с чего начать?

🦾 За 11 месяцев комплексный курс от Otus поможет вам пройти путь от основ Python и математики до построения и внедрения моделей машинного обучения в эксплуатацию.

Вы последовательно изучите Python для аналитики, SQL, математику для машинного обучения, классические алгоритмы, глубокое обучение (deep learning), языковые трансформенные модели, рекомендательные системы и полный конвейер обработки данных (pipeline).

Программу ведут практикующие эксперты и кандидаты наук. Вы не просто изучите библиотеки машинного обучения, но и поймёте, как и почему работают модели. Обучение строится на живых занятиях, регулярной практике и проектных работах, которые формируют портфолио. Программа постоянно обновляется под требования рынка и реальные задачи бизнеса.

➡️ Оставьте заявку на обучение и получите специальные условия 🎁 в честь Дня рождения Otus: https://tglink.io/30dbcb786deebf?erid=2W5zFJZ17Vs
#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

Claude набирает платных подписчиков быстрее, чем когда-либо - их число более чем удвоилось менее чем за 6 месяцев.

Данные по банковским картам показывают рекордный приток новых пользователей и возврат старых в январе-феврале.

Рост подогрели реклама на Super Bowl, конфликт с Минобороны США из-за отказа использовать ИИ в боевых задачах, а также запуск Claude Code и Computer Use.

В этом году число платных подписок выросло более чем вдвое, хотя ChatGPT по-прежнему остаётся лидером по общей аудитории.

https://x.com/TechCrunch/status/2037897062705197352

Читать полностью…

Анализ данных (Data analysis)

📌 Большой мастер-класс по Claude Code!

Перед вами репозиторий с полноценным визуальным и практическим гайдом по одному из самых мощных инструментов для разработчиков.

Что внутри:

• Пошаговое обучение - от базовых команд (/init, /plan) до продвинутых вещей вроде MCP, хуков и агентов
Осваивается за ~11–13 часов

• Большая библиотека кастомных команд под реальные задачи

• Готовые шаблоны памяти - как для одиночной работы, так и для команд

• Инструкции и скрипты для:
- автокод-ревью
- проверки стиля и стандартов
- генерации API-документации

• Автоматизация через циклы
Можно настроить Claude так, чтобы он работал автономно без вашего участия

• Подключение внешних инструментов
GitHub, API и другие сервисы - всё разложено по шагам

• Объяснения через схемы и диаграммы
Подойдёт даже тем, кто только начинает

• Примеры настройки узкоспециализированных субагентов

• Отдельные скрипты под обучение
Например, генерация книг и материалов для быстрого освоения любой темы

https://github.com/luongnv89/claude-howto

Читать полностью…

Анализ данных (Data analysis)

🚨 У ANTHROPIC утечка: Новая мощная МОДЕЛЬ

Anthropic случайно оставила черновики блог-постов в публично доступном кэше данных. Их нашли исследователи кибербезопасности:

- новая модель под названием "Claude Mythos"
- также упоминается как "Capybara"
- это новый уровень моделей
- больше и умнее, чем Opus

Anthropic подтвердила, что это не фейк:

- «качественный скачок»
- «самая мощная модель, которую мы когда-либо создавали»
- «значительно лучше в программировании, логике и кибербезопасности»
- «сильно опережает любые другие AI-модели в кибер-возможностях»

И они сами этим обеспокоены:

- «Модель предвещает волну ИИ, способных находить и эксплуатировать уязвимости гораздо быстрее, чем защитники успевают реагировать»


https://m1astra-mythos.pages.dev/

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Здесь говорят о том, как работать с данными в 2026 году ↗️

Узнайте на GoCloud 2026

9 апреля в Москве пройдет GoCloud 2026 – большая конференция про ИИ и облака от команды Cloud.ru.

Отдельный трек будет посвящен данным и аналитике: доклады о технологических трендах, простых инструментах и экономически эффективном управлении данными.

Вы узнаете:

▶️какие подходы к работе с данными станут стандартом в 2026 году
▶️как управлять разными-дата сервисами на одной платформе
▶️как быстро обрабатывать real-time данные
▶️почему ML-системы начинаются не с моделей, а с дата-инфраструктуры
▶️какие возможности дает интеграция ИИ и Spark


А еще вас ждут демо сервисов, практические воркшопы, нетворкинг и афтерпати.

👉Успейте зарегистрироваться👈

Читать полностью…

Анализ данных (Data analysis)

Рекомендательные системы — один из ключевых механизмов, на которых держатся современные продукты. Они помогают пользователям находить контент, товары и сервисы, а бизнесу — повышать вовлеченность и качество пользовательского опыта. Вместе с Владимиром Байкаловым, ведущим исследователем AI VK, разбираем главные тренды в рекомендациях и последние значимые работы.

🔗 Список статей

Масштабирование
🟣Действия говорят громче слов: последовательные преобразователи с триллионом параметров для генеративных рекомендаций
🟣Масштабирование трансформеров для рекомендательных систем до одного миллиарда параметров
🟣LLaTTE: законы масштабирования для многоэтапного моделирования последовательностей в крупномасштабных рекламных рекомендательных системах


Lifelong Recommendations
🟣TransAct V2: моделирование последовательностей действий пользователя на протяжении всей жизни в рекомендациях Pinterest
🟣TWIN V2: расширение моделирования ультра‑длинных последовательностей поведения пользователя для улучшения CTR‑предсказания в Kuaishou
🟣LONGER: повышение эффективности моделирования длинных последовательностей в промышленных рекомендательных системах
🟣Укрощение ультра-длинных последовательностей пользовательского поведения в генеративных рекомендациях на уровне сессий


Generative Retrieval
🟣Память трансформера как дифференцируемый поисковый индекс
🟣Рекомендательные системы с генеративным поиском
🟣Sparse Meets Dense: унифицированные генеративные рекомендации с каскадными разреженно-плотными представлениями


Semantic IDs
🟣Повышение стабильности эмбеддингов в рекомендательных системах с помощью Semantic ID
🟣ActionPiece: контекстная токенизация последовательностей действий для генеративных рекомендаций
🟣Обучаемая токенизация объектов для генеративных рекомендаций
🟣Semantic ID переменной длины для рекомендательных систем


End to End Рекомендации
🟣OneRec: объединение retrieval и ranking в генеративной рекомендательной модели с итеративным выравниванием предпочтений
🟣OxygenREC: генеративный фреймворк, следующий инструкциям, для рекомендаций в электронной коммерции
🟣EGA: унифицированный end-to-end генеративный фреймворк для промышленных рекламных систем


LLMxRecSys
🟣PLUM: адаптация предварительно обученных языковых моделей для генеративных рекомендаций промышленного масштаба
🟣OneRec‑Think: рассуждение в тексте для генеративной рекомендации
🟣ReaSeq: использование мировых знаний через рассуждение для последовательного моделирования


#aivk #recsys

Читать полностью…

Анализ данных (Data analysis)

Для специалистов по анализу данных ключевой вопрос — как быстро и эффективно извлечь нужную информацию из разных источников. Для этого необходим универсальный инструмент. Например, таким может выступать File Search — встроенный инструмент, доступный на платформе Yandex AI Studio. Инструмент работает на базе RAG-подхода и позволяет большим языковым моделям обогащать контекст данными из корпоративной базы знаний.

🚀Недавно платформа представила обновление инструмента и добавила новые возможности:

- Поддержка таблиц CSV и Excel — поиск по структурированным данным теперь встроен, что упрощает работу с финансовыми, маркетинговыми и операционными отчетами.
- Мультимедиа — видео и аудио можно анализировать через специализированный пайплайн, извлекая ценные инсайты из нестандартных источников.

File Search позволяет аналитикам быстрее находить ответы на вопросы, формируя их на основе загруженных корпоративных данных, а не только общих знаний модели о мире, и упрощает интеграцию в существующие BI- и аналитические процессы.

Читать полностью…

Анализ данных (Data analysis)

The AI Scientist официально вышел в Nature - и это уже не просто эксперимент.

Речь про систему, которая способна автоматизировать весь цикл научного исследования:

- генерировать идеи
- писать код
- запускать эксперименты
- оформлять научную статью

Обновлённая версия AI Scientist-v2 уже сгенерировала первую полностью AI-сгенерированную научную работу,
которая прошла полноценное рецензирование людьми.

Теперь вышла публикация в Nature,
где подробно разобрана архитектура системы и показано, как всё это работает на практике.

В ИИ-систему добавили Automated Reviewer - AI-рецензента, который оценивает статьи
на уровне человека и даже стабильнее, чем сами люди.

Исследователями обнаружен прямой закон масштабирования науки -
чем сильнее базовая модель,
тем выше качество научных работ, которые она генерирует.

Это означает простую вещь:
По мере роста моделей и удешевления вычислений
качество AI-науки будет расти автоматически.
Фактически мы подошли к точке, где исследования можно масштабировать так же, как сегодня масштабируют код или контент.

Nature: https://nature.com/articles/s41586-026-10265-5
Blog: https://sakana.ai/ai-scientist-nature

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ MWS Cloud выпустил сервис по работе с большими языковыми моделями.

MWS GPT Model Hub — облачный сервис, который предоставляет доступ к LLM внутри MWS Cloud Platform. Развертывание занимает секунды, модели подключаются через OpenAI‑совместимый API.

Сейчас в сервисе 10 моделей, включая DeepSeek, Google, Alibaba, Zhipu AI. До конца года добавят еще десяток — с поддержкой преобразования текста в речь и аудио в текст.

Что можно делать с помощью MWS GPT Model Hub:

• запускать AI‑ассистентов без настройки инфраструктуры;
• обрабатывать большие объемы текстовых данных;
• создавать внутренние AI‑сервисы для сотрудников;
• сокращать time‑to‑market вдвое за счет быстрого прототипирования;
• внедрять интеллектуальный поиск в продукты.

К плюшкам: встроенные инструменты биллинга и учета ресурсов отслеживают расходы на AI‑функции по проектам и командам.

Читать полностью…

Анализ данных (Data analysis)

Как перейти от ИИ-экспериментов к рабочим системам

Рассказываем, где узнать реальный опыт тех, кто встроил искусственный интеллект в ключевые процессы компании и извлек из этого реальную выгоду. 22 апреля присоединяйтесь к конференции МЛечный путь от Selectel, провайдера инфраструктуры для ИИ.

Эксперты топовых ИТ-компаний расскажут:

🔺Как ускорить ML-пайплайны и снизить издержки на инференс без потери качества
🔺Как безопасно внедрить генеративные модели в ключевые процессы и управлять эффектом этого внедрения
🔺Как интегрировать модели в существующую ИТ-архитектуру

Конференция пройдет 22 апреля в Москве. Участие бесплатное, регистрируйтесь: https://slc.tl/ib77j

Реклама. АО "Селектел". erid:2W5zFHjUoay

Читать полностью…

Анализ данных (Data analysis)

🚀 Похоже, в Claude Code появилась новая фича - Auto-dream

Пока официально не анонсирована, но её уже заметили в /memory

Что это такое

Auto-dream - это фоновый подагент Claude, который:
- анализирует последние сессии
- извлекает ключевые знания
- обновляет MEMORY.md
- очищает и переорганизует старые данные

Как устроена память
- MEMORY.md - это индекс
- отдельные файлы - детали по темам
- /memory - управление системой

👉 по сути, как garbage collector, но для памяти

🐍 Python полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Если вы работаете с выгрузками из баз, логами сервисов или отчетами за годы — вы уже имеете дело со значениями, разделенными запятыми (CSV). Но умеете ли вы загружать CSV в Spark правильно?

На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.

Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.

Открытый урок проходит в преддверии старта курса «Spark-разработчик».

➡️ Подробности и регистрация: https://otus.pw/XM07/

Читать полностью…

Анализ данных (Data analysis)

🚀 Ускоряем внедрение ИИ-агентов в реальные задачи на Agents Week

Насыщенный интенсив от Школы анализа данных Яндекса пройдет с 6 по 10 апреля. Много про инженерных подход к современным агентным системам, их мониторинг и масштабирование. За пять дней поймете, с чего начать проектирование и настройку поведения, какие есть практики построения single-agent и multi-agent-систем, как доводить агентов о продакшена.

Формат: лекции с возможностью задать вопрос экспертам и практика.

Программа и спикеры — по ссылке. Там же можно зарегистрироваться до 9 апреля включительно.

Читать полностью…
Subscribe to a channel