data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

⚡️ Claude Code на максималках: 32 агента, скорость в 5 раз выше, ноль новых инструментов

Нашли интересный open source проект oh-my-claudecode. Это надстройка, которая превращает Claude Code в мультиагентную систему с разными режимами выполнения.

Есть полный автопилот, есть режим с параллельными агентами, есть последовательные пайплайны и даже режим экономии токенов. Внутри 32 агента под разные задачи от архитектуры до тестирования.

Самое удобное это управление через ключевые слова. Пишешь autopilot и он делает все сам. Пишешь ralph и он не остановится, пока не доведет задачу до конца.

Еще одна важная вещь это авто-возобновление после ограничений по запросам. Не нужно следить за процессом и перезапускать вручную.

По ощущениям это уже не просто ассистент, а полноценная система разработки поверх Claude Code.

GitHub: https://github.com/Yeachan-Heo/oh-my-claudecode

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

84-летний сенатор США записал интервью с AI-агентом - и ролик за сутки собрал 2.8 млн просмотров.

Разговор с Claude от Anthropic был про данные и приватность. Главная мысль - раньше у государств просто не хватало людей, чтобы следить за всеми. С появлением AI это ограничение исчезает: алгоритмы находят паттерны, данные доступны, масштаб становится практически безлимитным.

Реакция на видео ожидаемо разделилась. Одни считают, что наконец об этом говорят на большую аудиторию. Другие, что это уже похоже на «удобного собеседника», который отвечает так, как нужно.

https://www.youtube.com/watch?v=h3AtWdeu_G0

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как я стал дата инженером с ЗП 800к

Без удачи и связей

5 лет назад я работал в техподдержке с графиком 2/2 и жестко бухал


💀💀💀

После очередной пьянки я понял, что надо что-то менять. Я решил стать дата инженером

Составил резюме на коленке. Чудом получил свою первую работу с зп 50к в месяц 😎

Отработал 4 месяца и захотел больше. Ну и погнал дальше: собесы, отказы, новые офферы

В прошлом году я пробил 800к рублей за один месяц

Я выгорал, увольнялся, снова загорался и опять шел на собесы

Задумался над своими ошибками...

Как можно избежать их? Снял на эту тему видео, в котором рассказал:
- мой путь из техподдержки до техлида с зп 800к
- какие ошибки я совершил и как их обойти
- как выглядит типичный день ДЕ


Это разбор реального пути: как с нуля дойти до первой работы дата инженером с хорошей зарплатой.

Без булшита по типу "вкатись в ДЕ за месяц" 😏

👉 Смотри видео в закрепе моего канала

Читать полностью…

Анализ данных (Data analysis)

Кожаные вообще оборзели

Читать полностью…

Анализ данных (Data analysis)

🚀 Tencent выкатывает Covo-Audio (7B) - новый уровень голосовых AI.

Это уже не просто “распознал → ответил → озвучил”.

Модель умеет говорить и слушать одновременно.

Что внутри:

• Qwen2.5-7B + Whisper
• 8 млн часов аудио обучения
• full-duplex — диалог без пауз

Главное отличие:

Нет отдельных пайплайнов ASR и TTS.
→ всё работает как единая модель

Что это даёт:
• можно перебивать (barge-in)
• естественный разговор, как с человеком
• меньше задержек
• меньше костылей в архитектуре

Отдельно:

Разделение интеллекта и голоса
→ проще делать voice cloning
→ гибкость под разные сценарии

Тренд очевиден:

AI переходит от “голосовых интерфейсов”
→ к полноценному живому диалогу

Скоро кнопка “нажми и говори” исчезнет совсем.

Модель: https://huggingface.co/tencent/Covo-Audio-Chat

Читать полностью…

Анализ данных (Data analysis)

В Claude Code уже 93 команды.

Но чтобы получить 80% пользы, тебе хватит вот этих 16 👇

/init
→ создаёт CLAUDE.md - память проекта и репозитория

/plan
→ сначала думает, потом пишет код

/context
→ показывает, что именно съедает твои токены

/compact
→ очищает контекст прямо в середине сессии

/clear
→ сбрасывает состояние между задачами

/model
→ переключает модели: Opus / Sonnet / Haiku

/btw
→ позволяет задать побочный вопрос, не ломая основной поток работы

/rewind
→ откатывает назад, если всё пошло не туда

/agents
→ запускает несколько суб-агентов параллельно

/chrome
→ управляет браузером: клик, ввод, навигация

/loop
→ прогоняет промпты по кругу, удобно для мониторинга

/simplify
→ 3 агента вместе ревьюят твой код

/permissions
→ заранее разрешает безопасные действия

--dangerously-skip-permissions
→ полностью автоматический режим, без лишних подтверждений

Shift + Tab
→ мгновенное переключение режимов

ultra think
→ максимальная глубина рассуждения

Большинство используют Claude Code как обычный чат-бот.

Поэтому и упираются в потолок.

Продвинутые пользователи работают с ним как с целой системой.

Читать полностью…

Анализ данных (Data analysis)

ARC-AGI-3 - бенчмарк,показал неприятную для всей индустрии вещь: даже топовые frontier-модели сейчас набирают меньше 1%.

Лучшие результаты на старте такие:

- Gemini 3.1 Pro Preview - 0.37%
- GPT-5.4 High - 0.26%
- Opus 4.6 Max - 0.25%

И это, пожалуй, главный вывод.

ARC-AGI-3 - это уже не набор статичных головоломок, как в прошлых версиях ARC. Теперь это интерактивные игровые миры, где агенту нужно самому разбираться, что вообще происходит.

Что именно проверяет новый тест:

- исследование незнакомой среды с нуля
- поиск целей и правил без текстовых инструкций
- построение своей модели мира по ходу задачи
- длинное планирование на много шагов вперёд
- обучение на опыте, а не по шаблону
- пересмотр гипотез, если первые догадки оказались неверными

То есть здесь уже мало просто "хорошо рассуждать в чате".

Нужно адаптироваться в реальном времени, помнить прошлые действия, извлекать сигналы из слабой обратной связи и не скатываться в перебор.

Внутри ARC-AGI-3:
- 150+ новых интерактивных окружений
- почти 1 000 уровней
- replay-сессии, где можно смотреть весь таймлайн решений агента

Скоринг считает не только факт решения, а то, насколько эффективно модель осваивает навык по сравнению с человеком.

Именно поэтому результаты выглядят настолько жёстко.

По сути, ARC Prize говорит прямо:
пока между человеком и ИИ есть такой разрыв в освоении новых задач, говорить о настоящем AGI рано.

И это, возможно, один из самых честных тестов за последнее время.

Не потому что модели "слабые".
А потому что реальная универсальная адаптация всё ещё не решена.

https://arcprize.org/

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Все что выпустили Antropic за последнее время.

73 релиза за 52 дня.

Читать полностью…

Анализ данных (Data analysis)

В Claude Code агент теперь сам решает, какие действия можно выполнять 👇

Раньше было два режима:
- либо он постоянно спрашивает разрешение
- либо skip permissions - делает всё без спроса

Первое раздражает.
Второе - рискованно.

Теперь появился auto mode.

В этом режиме Claude:
- сам принимает решения о доступах
- оценивает каждое действие
- безопасные - выполняет сразу
- рискованные - блокирует или ищет альтернативу

По сути:
• это тот же skip permissions, но с встроенной проверкой на потенциальный вред

🧠 Под капотом - классификатор, который анализирует каждый шаг агента

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Google представили TurboQuant - алгоритм, который сильно снижает требования к памяти при работе LLM.

KV-cache - это то, что хранит весь контекст во время генерации.
И именно он сейчас становится главным ограничением, а не сами модели.

Чем длиннее диалог или больше пользователей, тем быстрее заканчивается память на GPU.

TurboQuant решает это так:
- сжимает KV-cache минимум в 6 раз
- ускоряет инференс до 8 раз
- сохраняет качество без заметной потери

Это ключевой момент: раньше компрессия почти всегда ухудшала ответы.

Как это устроено:

- сначала данные преобразуются (rotation), чтобы их было проще сжимать
- затем применяется основной алгоритм сжатия (PolarQuant)
- после этого добавляется лёгкая коррекция (QJL), которая убирает ошибки

В итоге получается почти точное восстановление при сильно меньшем объёме.

С TurboQuant:
- модели можно запускать на меньшем количестве GPU
- один сервер может обслуживать больше запросов
- становится проще работать с длинным контекстом
- падает стоимость инференса

По сути, это не про “ускорить модель”, а про перераспределение ресурсов внутри всей системы.

Раньше оптимизировали веса моделей
теперь оптимизируют то, как они работают в проде

И KV-cache, как раз одна из самых дорогих частей.

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Cursor сделал regex-поиск мгновенным

Instant Grep ищет по миллионам файлов за миллисекунды
16.8 сек → 13 мс

И главное:
они не ускоряли regex
они убрали лишний поиск

🧠 Как это работает

- создаётся индекс: куски текста → файлы
- используются триграммы (fil, ile, le_)
- сначала ищутся кандидаты
- потом запускается regex

👉 большинство файлов вообще не открывается

🔥 Ключевая идея - sparse n-grams

- индексируются не все куски
- только самые «полезные»
- редкие символы имеют больший вес

💾 Всё локально

- индекс хранится у тебя
- привязан к Git
- быстрый доступ через memory map

Скорость даёт не regex
а умный отбор файлов до поиска.

https://x.com/cursor_ai/status/2036122609931165985

Читать полностью…

Анализ данных (Data analysis)

🚀 Anthropic показали новый режим:
AI может выполнять задачи на компьютере и по расписанию без твоего участия

Главное:

- Claude управляет компьютером
- кликает, вводит текст, открывает сайты
- выполняет задачи в браузере и приложениях

+ появился режим /schedule:

- ставишь задачу → задаёшь время
- Claude сам запускает и выполняет её
- даже если твой ноут выключен
- отчёты генерируются сами
- соцсети мониторятся автоматически
- задачи выполняются без контроля

https://claude.com/product/cowork#dispatch-and-computer-use

🐍 Python полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤖 Этот open-source репозиторий даёт твоему ClawdBot “зрение”

Это AI-ассистент в реальном времени для умных очков Meta Ray-Ban.

Он объединяет:
→ голос
→ зрение
→ действия агента

Работает через Gemini Live и OpenClaw.

Как это выглядит:

Ты надеваешь очки → нажимаешь кнопку AI → просто говоришь

Дальше:

• Gemini видит через камеру очков и описывает происходящее
• передаёт задачу в OpenClaw
• OpenClaw выполняет её через подключённые приложения

Можно:
→ отправлять сообщения в WhatsApp / Telegram / iMessage
→ искать информацию в интернете
→ получать ответы голосом

📊 Технически:

• камера очков передаёт изображение примерно 1 кадр в секунду в Gemini
• аудио работает в обе стороны в реальном времени
• OpenClaw выполняет действия как агент

По сути, это полноценный AI-ассистент, который видит мир вместе с тобой

https://github.com/Intent-Lab/VisionClaw

🐍 Python полезные ресурсы 🚀Max

Читать полностью…

Анализ данных (Data analysis)

🌟 Лучшие GitHub-репозитории для Claude Code, которые могут увеличить эффективность твоего следующего проекта:

1. Superpowers
https://github.com/obra/superpowers
→ Набор “супер-скиллов” для Claude: готовые промпты и инструменты, которые расширяют возможности агента (автоматизация, генерация кода, workflow).

2. Awesome Claude Code
https://github.com/hesreallyhim/awesome-claude-code
→ Кураторский список всего полезного вокруг Claude Code: гайды, тулзы, примеры, лучшие практики.

3. GSD (Get Shit Done)
https://github.com/gsd-build/get-shit-done
→ Фреймворк для реального продакшн-использования агентов: ставишь задачи - агент разбивает их и доводит до результата.

4. Claude Mem
https://github.com/thedotmack/claude-mem
→ Система памяти для Claude: позволяет агенту “помнить” контекст, прошлые действия и работать как долгоживущий ассистент.

5. UI UX Pro Max
https://github.com/nextlevelbuilder/ui-ux-pro-max-skill
→ Набор навыков для генерации интерфейсов: помогает Claude делать более качественные UI/UX решения и дизайн.

6. n8n-MCP
https://github.com/czlonkowski/n8n-mcp
→ Интеграция Claude с n8n: можно подключать агента к автоматизациям, API и workflow без кучи кода.

7. Obsidian Skills
https://github.com/kepano/obsidian-skills
→ Навыки для работы с Obsidian: управление заметками, knowledge base и личной базой знаний через Claude.

8. LightRAG
https://github.com/hkuds/lightrag
→ Лёгкая реализация RAG (Retrieval-Augmented Generation): быстро подключаешь свою базу данных к модели для более точных ответов.

9. Everything Claude Code
https://github.com/affaan-m/everything-claude-code
→ Универсальный сборник: шаблоны, примеры, инструменты - всё, чтобы быстро стартовать и прокачать Claude Code.

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Это уже не code review.
Это distributed system из двух LLM, которые дебажат друг друга.

Читать полностью…

Анализ данных (Data analysis)

Claude набирает платных подписчиков быстрее, чем когда-либо - их число более чем удвоилось менее чем за 6 месяцев.

Данные по банковским картам показывают рекордный приток новых пользователей и возврат старых в январе-феврале.

Рост подогрели реклама на Super Bowl, конфликт с Минобороны США из-за отказа использовать ИИ в боевых задачах, а также запуск Claude Code и Computer Use.

В этом году число платных подписок выросло более чем вдвое, хотя ChatGPT по-прежнему остаётся лидером по общей аудитории.

https://x.com/TechCrunch/status/2037897062705197352

Читать полностью…

Анализ данных (Data analysis)

📌 Большой мастер-класс по Claude Code!

Перед вами репозиторий с полноценным визуальным и практическим гайдом по одному из самых мощных инструментов для разработчиков.

Что внутри:

• Пошаговое обучение - от базовых команд (/init, /plan) до продвинутых вещей вроде MCP, хуков и агентов
Осваивается за ~11–13 часов

• Большая библиотека кастомных команд под реальные задачи

• Готовые шаблоны памяти - как для одиночной работы, так и для команд

• Инструкции и скрипты для:
- автокод-ревью
- проверки стиля и стандартов
- генерации API-документации

• Автоматизация через циклы
Можно настроить Claude так, чтобы он работал автономно без вашего участия

• Подключение внешних инструментов
GitHub, API и другие сервисы - всё разложено по шагам

• Объяснения через схемы и диаграммы
Подойдёт даже тем, кто только начинает

• Примеры настройки узкоспециализированных субагентов

• Отдельные скрипты под обучение
Например, генерация книг и материалов для быстрого освоения любой темы

https://github.com/luongnv89/claude-howto

Читать полностью…

Анализ данных (Data analysis)

🚨 У ANTHROPIC утечка: Новая мощная МОДЕЛЬ

Anthropic случайно оставила черновики блог-постов в публично доступном кэше данных. Их нашли исследователи кибербезопасности:

- новая модель под названием "Claude Mythos"
- также упоминается как "Capybara"
- это новый уровень моделей
- больше и умнее, чем Opus

Anthropic подтвердила, что это не фейк:

- «качественный скачок»
- «самая мощная модель, которую мы когда-либо создавали»
- «значительно лучше в программировании, логике и кибербезопасности»
- «сильно опережает любые другие AI-модели в кибер-возможностях»

И они сами этим обеспокоены:

- «Модель предвещает волну ИИ, способных находить и эксплуатировать уязвимости гораздо быстрее, чем защитники успевают реагировать»


https://m1astra-mythos.pages.dev/

🐍 полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Здесь говорят о том, как работать с данными в 2026 году ↗️

Узнайте на GoCloud 2026

9 апреля в Москве пройдет GoCloud 2026 – большая конференция про ИИ и облака от команды Cloud.ru.

Отдельный трек будет посвящен данным и аналитике: доклады о технологических трендах, простых инструментах и экономически эффективном управлении данными.

Вы узнаете:

▶️какие подходы к работе с данными станут стандартом в 2026 году
▶️как управлять разными-дата сервисами на одной платформе
▶️как быстро обрабатывать real-time данные
▶️почему ML-системы начинаются не с моделей, а с дата-инфраструктуры
▶️какие возможности дает интеграция ИИ и Spark


А еще вас ждут демо сервисов, практические воркшопы, нетворкинг и афтерпати.

👉Успейте зарегистрироваться👈

Читать полностью…

Анализ данных (Data analysis)

Рекомендательные системы — один из ключевых механизмов, на которых держатся современные продукты. Они помогают пользователям находить контент, товары и сервисы, а бизнесу — повышать вовлеченность и качество пользовательского опыта. Вместе с Владимиром Байкаловым, ведущим исследователем AI VK, разбираем главные тренды в рекомендациях и последние значимые работы.

🔗 Список статей

Масштабирование
🟣Действия говорят громче слов: последовательные преобразователи с триллионом параметров для генеративных рекомендаций
🟣Масштабирование трансформеров для рекомендательных систем до одного миллиарда параметров
🟣LLaTTE: законы масштабирования для многоэтапного моделирования последовательностей в крупномасштабных рекламных рекомендательных системах


Lifelong Recommendations
🟣TransAct V2: моделирование последовательностей действий пользователя на протяжении всей жизни в рекомендациях Pinterest
🟣TWIN V2: расширение моделирования ультра‑длинных последовательностей поведения пользователя для улучшения CTR‑предсказания в Kuaishou
🟣LONGER: повышение эффективности моделирования длинных последовательностей в промышленных рекомендательных системах
🟣Укрощение ультра-длинных последовательностей пользовательского поведения в генеративных рекомендациях на уровне сессий


Generative Retrieval
🟣Память трансформера как дифференцируемый поисковый индекс
🟣Рекомендательные системы с генеративным поиском
🟣Sparse Meets Dense: унифицированные генеративные рекомендации с каскадными разреженно-плотными представлениями


Semantic IDs
🟣Повышение стабильности эмбеддингов в рекомендательных системах с помощью Semantic ID
🟣ActionPiece: контекстная токенизация последовательностей действий для генеративных рекомендаций
🟣Обучаемая токенизация объектов для генеративных рекомендаций
🟣Semantic ID переменной длины для рекомендательных систем


End to End Рекомендации
🟣OneRec: объединение retrieval и ranking в генеративной рекомендательной модели с итеративным выравниванием предпочтений
🟣OxygenREC: генеративный фреймворк, следующий инструкциям, для рекомендаций в электронной коммерции
🟣EGA: унифицированный end-to-end генеративный фреймворк для промышленных рекламных систем


LLMxRecSys
🟣PLUM: адаптация предварительно обученных языковых моделей для генеративных рекомендаций промышленного масштаба
🟣OneRec‑Think: рассуждение в тексте для генеративной рекомендации
🟣ReaSeq: использование мировых знаний через рассуждение для последовательного моделирования


#aivk #recsys

Читать полностью…

Анализ данных (Data analysis)

Для специалистов по анализу данных ключевой вопрос — как быстро и эффективно извлечь нужную информацию из разных источников. Для этого необходим универсальный инструмент. Например, таким может выступать File Search — встроенный инструмент, доступный на платформе Yandex AI Studio. Инструмент работает на базе RAG-подхода и позволяет большим языковым моделям обогащать контекст данными из корпоративной базы знаний.

🚀Недавно платформа представила обновление инструмента и добавила новые возможности:

- Поддержка таблиц CSV и Excel — поиск по структурированным данным теперь встроен, что упрощает работу с финансовыми, маркетинговыми и операционными отчетами.
- Мультимедиа — видео и аудио можно анализировать через специализированный пайплайн, извлекая ценные инсайты из нестандартных источников.

File Search позволяет аналитикам быстрее находить ответы на вопросы, формируя их на основе загруженных корпоративных данных, а не только общих знаний модели о мире, и упрощает интеграцию в существующие BI- и аналитические процессы.

Читать полностью…

Анализ данных (Data analysis)

The AI Scientist официально вышел в Nature - и это уже не просто эксперимент.

Речь про систему, которая способна автоматизировать весь цикл научного исследования:

- генерировать идеи
- писать код
- запускать эксперименты
- оформлять научную статью

Обновлённая версия AI Scientist-v2 уже сгенерировала первую полностью AI-сгенерированную научную работу,
которая прошла полноценное рецензирование людьми.

Теперь вышла публикация в Nature,
где подробно разобрана архитектура системы и показано, как всё это работает на практике.

В ИИ-систему добавили Automated Reviewer - AI-рецензента, который оценивает статьи
на уровне человека и даже стабильнее, чем сами люди.

Исследователями обнаружен прямой закон масштабирования науки -
чем сильнее базовая модель,
тем выше качество научных работ, которые она генерирует.

Это означает простую вещь:
По мере роста моделей и удешевления вычислений
качество AI-науки будет расти автоматически.
Фактически мы подошли к точке, где исследования можно масштабировать так же, как сегодня масштабируют код или контент.

Nature: https://nature.com/articles/s41586-026-10265-5
Blog: https://sakana.ai/ai-scientist-nature

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ MWS Cloud выпустил сервис по работе с большими языковыми моделями.

MWS GPT Model Hub — облачный сервис, который предоставляет доступ к LLM внутри MWS Cloud Platform. Развертывание занимает секунды, модели подключаются через OpenAI‑совместимый API.

Сейчас в сервисе 10 моделей, включая DeepSeek, Google, Alibaba, Zhipu AI. До конца года добавят еще десяток — с поддержкой преобразования текста в речь и аудио в текст.

Что можно делать с помощью MWS GPT Model Hub:

• запускать AI‑ассистентов без настройки инфраструктуры;
• обрабатывать большие объемы текстовых данных;
• создавать внутренние AI‑сервисы для сотрудников;
• сокращать time‑to‑market вдвое за счет быстрого прототипирования;
• внедрять интеллектуальный поиск в продукты.

К плюшкам: встроенные инструменты биллинга и учета ресурсов отслеживают расходы на AI‑функции по проектам и командам.

Читать полностью…

Анализ данных (Data analysis)

Как перейти от ИИ-экспериментов к рабочим системам

Рассказываем, где узнать реальный опыт тех, кто встроил искусственный интеллект в ключевые процессы компании и извлек из этого реальную выгоду. 22 апреля присоединяйтесь к конференции МЛечный путь от Selectel, провайдера инфраструктуры для ИИ.

Эксперты топовых ИТ-компаний расскажут:

🔺Как ускорить ML-пайплайны и снизить издержки на инференс без потери качества
🔺Как безопасно внедрить генеративные модели в ключевые процессы и управлять эффектом этого внедрения
🔺Как интегрировать модели в существующую ИТ-архитектуру

Конференция пройдет 22 апреля в Москве. Участие бесплатное, регистрируйтесь: https://slc.tl/ib77j

Реклама. АО "Селектел". erid:2W5zFHjUoay

Читать полностью…

Анализ данных (Data analysis)

🚀 Похоже, в Claude Code появилась новая фича - Auto-dream

Пока официально не анонсирована, но её уже заметили в /memory

Что это такое

Auto-dream - это фоновый подагент Claude, который:
- анализирует последние сессии
- извлекает ключевые знания
- обновляет MEMORY.md
- очищает и переорганизует старые данные

Как устроена память
- MEMORY.md - это индекс
- отдельные файлы - детали по темам
- /memory - управление системой

👉 по сути, как garbage collector, но для памяти

🐍 Python полезные ресурсы 🚀Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Если вы работаете с выгрузками из баз, логами сервисов или отчетами за годы — вы уже имеете дело со значениями, разделенными запятыми (CSV). Но умеете ли вы загружать CSV в Spark правильно?

На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.

Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.

Открытый урок проходит в преддверии старта курса «Spark-разработчик».

➡️ Подробности и регистрация: https://otus.pw/XM07/

Читать полностью…

Анализ данных (Data analysis)

🚀 Ускоряем внедрение ИИ-агентов в реальные задачи на Agents Week

Насыщенный интенсив от Школы анализа данных Яндекса пройдет с 6 по 10 апреля. Много про инженерных подход к современным агентным системам, их мониторинг и масштабирование. За пять дней поймете, с чего начать проектирование и настройку поведения, какие есть практики построения single-agent и multi-agent-систем, как доводить агентов о продакшена.

Формат: лекции с возможностью задать вопрос экспертам и практика.

Программа и спикеры — по ссылке. Там же можно зарегистрироваться до 9 апреля включительно.

Читать полностью…

Анализ данных (Data analysis)

Как запустить микросервисы в Managed Kubernetes

Микросервисное приложение мало просто задеплоить — нужны правила запуска, обновлений, масштабирования и изоляции. Именно они делают эксплуатацию предсказуемой, а инфраструктуру — готовой к росту нагрузки.


На вебинаре 26 марта в 11:00 эксперты Cloud.ru разберут, как превратить Managed Kubernetes в удобную и надежную платформу для работы микросервисов.

В программе:
1️⃣ разберете, в каких проектах микросервисы действительно нужны и как быстро запустить готовое масштабируемое решение в облаке без лишних сложностей;

2️⃣ рассмотрите базовую структуру Kubernetes для микросервисов: что потребуется сразу, а что можно отложить;

3️⃣обсудите, как организовать деплой, обновления и откаты, чтобы релизы были управляемыми;

4️⃣ настроите масштабирование с помощью нативных инструментов Kubernetes;

5️⃣ свяжете платформу с реестром артефактов;

6️⃣ узнаете, как следить за метриками и логами приложения.


👉Зарегистрироваться👈

Читать полностью…

Анализ данных (Data analysis)

🤖 Palantir AI + Claude использовались для обнаружения, приоритизации и ударов по более чем 1000 целям в первые 24 часа операции против Ирана

Результат оказался настолько мощным и прорывным, что Пентагон даже не стал ждать.

То, что раньше было просто пилотным проектом и тестировалось в ограниченном режиме…
в один момент стало официальным, постоянным и начало масштабироваться повсюду.

Теперь Palantir - это ключевой “AI-мозг” всей армии США.

Система уже внедряется во все роды войск.

https://www.moneycontrol.com/world/how-palantir-and-anthropic-ai-helped-the-us-hit-1-000-iran-targets-in-24-hours-article-13853331.html

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Очень любопытный проект: Supermemory показал 99% на SOTA-бенчмарке памяти

• Supermemory набрал ~99% на LongMemEval_s с использованием экспериментальной техники ASMR (Agentic Search and Memory Retrieval)

• Вместо классического vector search и embeddings используется система параллельных агентов-наблюдателей, которые извлекают структурированные знания из истории взаимодействий сразу по нескольким направлениям

• Используются специализированные поисковые агенты:
→ для точных фактов
→ для связанного контекста
→ для восстановления временной последовательности

• И самое интересное, никакой векторной базы данных не требуется

🚀 Проект станет open-source уже через 11 дней, следим:

https://x.com/DhravyaShah/status/2035517012647272689

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…
Subscribe to a channel