data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🚀 Техотчёт Meituan — LongCat-Flash

Модель на 560B параметров (из них ~27B активные) с архитектурой MoE, где число активных экспертов динамически подстраивается под контекст.

🔧 Архитектура
- Каждый слой содержит 2 блока внимания + FFN и MoE → коммуникации накладываются и ускоряют обучение.
- Введён «нулевой эксперт» — токен может выбрать «ничего не делать». Это экономит вычисления для простых случаев.
- Балансировка нагрузки через специальный loss с постепенным уменьшением смещения.

📈 Масштабирование
- Инициализация с выравниванием дисперсий для MoE/MLA → модель обучается стабильнее.
- Growth init: сначала тренируется уменьшенная версия (в 2 раза меньше), потом на её основе строят полную модель, просто добавляя слои.
- Передача гиперпараметров через метод SP (вместо muP).

⚖️ Стабильность

- Следят за отношением нормы градиента и схожестью экспертов, чтобы не «завалить» балансировку.
- Для сдерживания активаций используется лёгкий z-loss (альтернатива qk-clip).
- Параметр Adam epsilon снижен до 1e-16, чтобы быть меньше диапазона градиентов.

### 📚 Обучение
- Всего обучено на ~20 трлн токенов + отдельные фазы:
- STEM/код (70% смеси)
- расширение контекста: 80B токенов для 32k и 20B для 128k
- Данные: извлечение контекста → фильтрация → дедупликация.

🧪 Бенчмарки и результаты
- Новые тесты: Meeseeks (многошаговые инструкции) и VitaBench (реальные бизнес-сценарии).
- Отдельно показали:
- какие top_k лучше для разных задач
- как токены распределяются по слоям
- В инфре: оптимизация под inference, speculative decoding, квантизация, параллельные коммуникации.

📌 Репозиторий: github.com/meituan-longcat

Читать полностью…

Анализ данных (Data analysis)

Grok 5 может стать AGI, считает Илон Маск — и это нельзя недооценивать.

🔹 Модель обучается на огромных массивах данных.
🔹 xAI снабжает её свежей и тщательно отобранной информацией.
🔹 Tesla генерирует данные с камер автопилота FSD.
🔹 В ближайшем будущем робот Optimus начнёт собирать колоссальные объёмы реальных данных из физического мира.

При этом остаётся главный вопрос: что именно считать AGI? Универсальное и согласованное определение всё ещё необходимо.

https://x.com/elonmusk/status/1968202372276163029

Читать полностью…

Анализ данных (Data analysis)

🇺🇸🇨🇳 Anthropic призывает США ускорить внедрение ИИ в госструктурах

Компания предупреждает: Китай быстрее продвигает AI в госуслугах, промышленности и интерфейсах для граждан, и США не должны отставать.

📌 Главное:

Уже сотни тысяч федеральных сотрудников используют Claude, но темпы внедрения нужно ускорить.

Anthropic предлагает Claude for Enterprise и Claude for Government всего за $1 на год по программе OneGov.

Аналогичные скидки дают и другие AI-компании, чтобы агентства могли протестировать разные стеки без больших затрат.

Claude уже используют в национальной безопасности, в Lawrence Livermore National Lab и в пилотах с Пентагоном.

Система сертифицирована по FedRAMP High, что позволяет работать с конфиденциальными данными.

Anthropic также предлагает ввести экспортные ограничения и базовые требования к прозрачности — публикацию результатов тестов и оценок моделей.

🛡️ Вся стратегия компании сводится к ускорению рабочих процессов, защищённым путям данных, проверенным контролям безопасности и интеграции ИИ в уже существующие системы.

fedscoop.com/anthropic-makes-its-pitch-to-dc-warning-china-is-moving-even-faster-on-ai/

Читать полностью…

Анализ данных (Data analysis)

🔥 agency-swarm — проект, связанный с моделированием многагентных систем с использованием методов искусственного интеллекта!

🌟 Проект ориентирован на создание среды, где множество агентов могут взаимодействовать друг с другом, сотрудничать или конкурировать для достижения определенных целей.

🌟 Основная цель agency-swarm — это исследование и реализация агентных систем, где каждый агент может быть автономным и выполнять задачи в рамках заданной среды. Такие системы часто используются для симуляции поведения групп людей, животных или даже для оптимизации процессов, например, в логистике, робототехнике или при моделировании социальных взаимодействий.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 McKinsey: ИИ взорвёт рынок дата-центров

По данным свежего отчёта McKinsey, только искусственный интеллект потребует к 2030 году $5,2 трлн инвестиций в дата-центры.

💡 Ключевые цифры:
- к 2030-му для покрытия спроса на ИИ понадобится 156 ГВт мощностей дата-центров;
- с 2025 по 2030 годы нужно будет добавить 125 ГВт новых мощностей;
- $5,2 трлн — это расчёт на основе сценариев масштабирования вычислений для ИИ.

Этот прогноз подчёркивает: рост ИИ меняет индустрию дата-центров беспрецедентно быстро, а финансовая нагрузка, связанная с обеспечением вычислительных мощностей, станет колоссальной.

🔗 McKinsey Report: https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔒 Nano Banana и цифровые водяные знаки

Все изображения, сгенерированные через Nano Banana, автоматически содержат водяной знак synthID.

Это специальная технология, которая встраивает в картинку невидимую метку — её можно обнаружить и подтвердить происхождение изображения.

Подробнее о том, как работает synthID watermarking, можно прочитать здесь:
👉 https://huggingface.co/blog/synthid-text

Читать полностью…

Анализ данных (Data analysis)

🔥 Вышел Grok 4 Fast (ранний доступ, бета)

И название себя оправдывает — молниеносно быстрый.

Бету можно включить прямо сейчас:
Настройки → Подписка → Включить ранний доступ к моделям

⚡️ Главный апдейт — скорость, которая делает Grok 4 отличеным выбором для задач с большим количеством вычислений.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 MobileLLM-R1 на Hugging Face

Это новая компактная модель для reasoning-задач (рассуждений), которая весит меньше 1B параметров и оптимизирована для запуска на edge-устройствах.

Почему это важно:
- Производительность:
• Решает задачи MATH почти в 5 раз точнее, чем Olmo-1.24B
• В 2 раза точнее, чем SmolLM2-1.7B
- Эффективность обучения:
• Модель обучалась всего на 4.2 триллионах токенов (это примерно 1/10 от Qwen3)
• Несмотря на это, показывает такие же или лучшие результаты, чем Qwen3, на ряде тестов по рассуждениям

MobileLLM-R1 показывает, что даже очень маленькая модель может быть умной и эффективной, если её правильно обучить.

https://huggingface.co/facebook/MobileLLM-R1-950M

Читать полностью…

Анализ данных (Data analysis)

🔥 Новинка от S-Lab, Nanyang Technological University и SenseTime Research: Next Visual Granularity Generation (NVG)!

🖼️ Новый фреймворк поэтапно улучшает изображение — от общего макета до мельчайших деталей, позволяя получить тонкий контроль над процессом генерации.

📊 Результаты впечатляют: NVG превзошёл серию VAR по метрикам FID!

huggingface.co/papers/2508.12811

Читать полностью…

Анализ данных (Data analysis)

🚀 Новый релиз: Smart Turn v3

🎙️ Это модель, которая понимает, когда человек закончил говорить и ждёт ответа от голосового ассистента.

⚡ Особенности:
- Работает супербыстро: <60мс на обычном CPU, <10мс на GPU
- Поддержка 23 языков (можно добавлять новые через сообщество)
- Полностью открытая: данные, код, обучение
- Бесплатно использовать даже на CPU

🟢Blog: https://daily.co/blog/announcing-smart-turn-v3-with-cpu-inference-in-just-12ms/
🟢GitHub: https://github.com/pipecat-ai/smart-turn/

Читать полностью…

Анализ данных (Data analysis)

🚨 Китайцы выкатили мощнейшую новинку в AI-редактировании изображений — и она обошла Google Nanobanana, став №1!

🔥 Bytedance Seedream 4 впечатляет:
- ⚡️ Генерация в 2K за <2 секунд, поддержка 4K
- 🖼️ Можно создавать сразу несколько картинок в одном запросе
- 🎯 Намного стабильнее, чем nano🍌, которая часто просто возвращает исходное изображение

💰 Цена — всего $0.03 за генерацию.

https://fal.ai/models/fal-ai/bytedance/seedream/v4/edit

Читать полностью…

Анализ данных (Data analysis)

💰Perplexity привлекла $200M при оценке в $20B.

Это произошло всего через два месяца после предыдущего раунда в $100M при оценке $18B. Общий объём инвестиций приближается к $1.5B.

📊 Выручка (ARR) уже почти $200M (месяц назад была $150M).
💡 Оценка в $20B при $200M ARR даёт мультипликатор ~100x - это возможно только при очень быстром росте и низком уровне оттока пользователей.

Perplexity выделяется тем, что отвечает на запросы с источниками и краткими сводками, заменяя «охоту за ссылками» на результат, сгенерированный моделью.
Но такой дизайн требует больших вычислительных мощностей: каждый запрос запускает веб-поиск, инференс LLM и генерацию ответа в реальном времени.

Источник: https://techcrunch.com/2025/09/10/perplexity-reportedly-raised-200m-at-20b-valuation/

#AI #Perplexity #Funding #Startups #LLM #Investments

Читать полностью…

Анализ данных (Data analysis)

🤖 Прорыв в разработке наноботов

Учёные из Penn State сделали важный шаг к созданию настоящих наноботов.

🔬 С помощью нового микро-флюидного устройства они создали крошечные частицы, которые могут обмениваться сигналами и действовать вместе - как муравьи, оставляющие следы для других.
- Одна группа частиц двигалась по химическому градиенту и оставляла «след».
- Другая группа улавливала этот след и шла за ним.

👉 Это выглядит просто, но именно так закладывается основа программируемых роёв наноботов.

💡 Возможные применения:
- наночастицы находят опухоль и зовут другие с лекарством,
- мини-системы доставляют груз в нужную клетку,
- наноботы очищают организм от токсинов или восстанавливают повреждённые ткани.

Раньше учёные могли наблюдать за таким процессом всего несколько секунд. Теперь, с новым инструментом Penn State, поведение можно изучать минутами, что позволяет проводить более сложные эксперименты.

🌱 Вдохновение пришло из природы - у пчёл и муравьёв есть распределение ролей и совместная работа. Если частицы смогут делать то же самое, это приблизит нас к самоорганизующимся автономным наносистемам, которые могут изменить медицину и материалы.

Это пока ранняя стадия, но именно такие шаги строят фундамент для будущих роёв наноботов.

https://www.psu.edu/news/eberly-college-science/story/can-nanobots-play-follow-leader

Читать полностью…

Анализ данных (Data analysis)

📖 Новая работа ByteDance + Harvard: *Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training*

Mycroft - система, которая помогает понять, почему обучение LLM на кластере GPU тормозит или падает.

🚧 Проблема
При распределённом обучении сотни GPU постоянно обмениваются данными через библиотеку NCCL. Она работает как «чёрный ящик»: при сбое видно только таймауты или падение скорости, но непонятно, где именно сбой.

🛠 Решение — Mycroft
- «Подглядывает» внутрь процесса обмена данными
- Каждые 100 мс пишет лёгкие статусы: сколько данных подготовлено, отправлено и завершено
- Если прогресс застопорился → сразу сигнал
- Отслеживает зависимости между GPU и определяет: проблема в конкретной карте, сетевой карте или шине

⚡ Результаты
- В тестах на 32 GPU и в проде у ByteDance
- Находит сбой за ~**15 секунд**
- Указывает точный компонент за <**20 секунд**
- Нагрузка на обучение почти нулевая

🔗 https://arxiv.org/abs/2509.03018

#AI #LLM #GPU #DistributedTraining #ByteDance #Harvard

Читать полностью…

Анализ данных (Data analysis)

🚀 NVIDIA представила Rubin CPX — новый класс GPU для inference с огромным контекстом

🔑 Что интересно
- Rubin CPX — специализированный GPU для обработки контекста размером до миллиона токенов (код, видео, длинные последовательности).
- Интеграция в платформу Vera Rubin NVL144 CPX:
- До 8 экзафлопс вычислений ИИ
- 100 ТБ быстрой памяти
- 1,7 ПБ/с пропускной способности
- Превосходит GB300 NVL72 по производительности на 7,5×.
- Характеристики:
- 30 PFLOPS вычислений в NVFP4
- 128 ГБ GDDR7 памяти
- 3× ускоренные attention-механизмы для длинного контекста
- Поддержка всего AI-стека NVIDIA: Dynamo, Nemotron, CUDA-X, AI Enterprise.
- Выход ожидается в конце 2026 года.

Rubin CPX задаёт новый стандарт для аппаратной архитектуры в AI.

Это фундамент для моделей, которые смогут полноценно работать с огромными контекстами, не теряя деталей и качества.

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

Читать полностью…

Анализ данных (Data analysis)

ИИ-ассистенты уже стали нормой для разработчиков

Свежий отчёт от Yandex B2B Tech и ИТМО:

75 % dev’ов используют AI-помощников для кода, документации и поиска багов 🔥

Несколько цифр:
— лишь 6 % верят, что ИИ сможет полностью автоматизировать задачи;
— 61 % ждут разгрузки рутины, а не полной замены;
— 79 % считают, что влияние сильнее всего на джуниоров.

Появляется новый must-have навык: работа с ассистентами.

Компании планируют вкладывать до 10 % IT-бюджета в инструменты с AI, а интерес к отечественным решениям (например, SourceCraft) растёт — безопасность и независимость стали важнее.
79 % студентов и половина преподавателей уже пользуются AI в обучении.

Читать полностью…

Анализ данных (Data analysis)

📊 Fiverr сокращает 250 сотрудников (около 30% штата), чтобы перезапустить платформу как первый AI маркетплейс.

Руководство объясняет: внутренние ИИ-системы уже автоматизируют значительные объёмы задач, позволяя работать быстрее с меньшими затратами.

Примеры:

- поддержка через ботов, которые резюмируют политику и историю тикетов, сокращая время SLA,
- модели для выявления мошенничества на раннем этапе,
- автоматизация процессов, которые раньше были слишком затратны вручную.

Компания уходит в сторону «более лёгкой структуры» — меньше уровней, компактные команды, выше личная продуктивность при поддержке общей AI-инфраструктуры.

Фокус найма смещается к AI-native специалистам. Существующие команды переучивают на задачи: построение дата-пайплайнов, оценка моделей, поддержка стабильных inference-сервисов.

Уже запущенные AI-функции: Neo, Fiverr Go и Dynamic Matching — ускоряют поиск, упрощают старт проектов и улучшают маршрутизацию заказчиков и исполнителей.

Финансово компания стабильна: прогноз выручки 2025 — $425M–$438M, цель по операционной марже — 25% к 2026. Экономия частично пойдёт в реинвестирование, остальное — в рост прибыльности.

Подробнее: finalroundai.com/blog/fiverr-layoffs-2025

Читать полностью…

Анализ данных (Data analysis)

🚀 Release: TimesFM 2.5

Google Research представила обновлённую версию TimesFM 2.5 на Hugging Face (скоро также в BigQuery и **Model Garden**).

TimesFM (Time Series Foundation Model) - модель от Google для прогнозирования временных рядов.

Что нового:
- Существенное повышение точности по сравнению с TimesFM 2.0
- Увеличенная максимальная длина контекста
- Лидерство на GiFT-Eval — TimesFM 2.5 занимает первое место по всем accuracy-метрикам среди zero-shot foundation-моделей

🟠Репозиторий: https://github.com/google-research/timesfm)
🟠HF: http://huggingface.co/google/timesfm-2.5-200m-pytorch

@data_analysis_ml

#AI #ML #TimesFM #forecasting #GoogleResearch

Читать полностью…

Анализ данных (Data analysis)

🔥 Курс по AI-агентам уже стартовал!

Сегодня, 15 сентября, мы начали первую сессии. Но вы всё ещё можете присоединиться и успеть в поток — это ПОСЛЕДНИЙ шанс забронировать место по старой цене.

На курсе:


разложим LLM по косточкам: токенизация, SFT, PEFT, инференс;
соберём RAG и научимся оценивать его адекватно;
построим настоящую мультиагентную систему — архитектуру, которая умеет расти;
разберём CoPilot, сломаем через prompt injection (спасибо Максу);
— и наконец, посмотрим, как это работает в MCP и реальных кейсах.

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями.

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API».

Промокод на 5.000₽: DATAANALYSISML

👉 Курс здесь

Реклама. ИП Дрёмов Артём Сергеевич, ИНН 771391651571. Erid 2VtzqxQEXpY

Читать полностью…

Анализ данных (Data analysis)

Интегрируй ML-модель в продакшн без боли и ошибок!

Практикум для разработчиков и ML-инженеров, которые устали от «экспериментов в Jupyter» и хотят переходить к реальным решениям! 16 сентября в 19:00 приглашаем на встречу по интеграции моделей с внешним миром и написанию API вместе с экспертом Игорем Стурейко — разработчиком модели прогнозирования технического состояния газотранспортной системы ПАО Газпром.

На практикуме вы:
👨‍💻перенесёте модель из Jupyter notebook в полноценный Python-класс
👨‍💻создадите API и подготовите эндпоинты
👨‍💻напишете валидатор для входящих параметров
👨‍💻протестируете работу модели как отдельного сервиса.

Все участники получают 7% скидку на любой курс OTUS + бонус: карьерные треки для ML-специалистов

Записывайся на практикум: https://tglink.io/7f7e67d341e5

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJF6HRA

Читать полностью…

Анализ данных (Data analysis)

Топ навыков ML-инженера на примере реальной бизнес-задачи

Предсказать отток клиентов — одна из самых распространенных и актуальных задач для любого бизнеса. На примере этой задачи можно рассмотреть все этапы работы ML-инженера: данные, признаки, модель, метрики и выводы для бизнеса.

Чтобы увидеть полный цикл решения реальной задачи и понять, какие навыки нужны ML-инженеру в работе, приходите 16 сентября на практико-ориентированный вебинар от Кристины Желтовой — директора по разработке моделей в Газпромбанке.

В ходе вебинара мы на примере задачи предсказания оттока клиентов разберём:

🟠Актуальность предсказания оттока клиентов для бизнеса
🟠Как работать с «сырыми» данными и подготовить их для обучения модели
🟠Как выбрать, построить и обучить базовую модель в Google Colab
🟠Как проверить, качество работы модели: разбор метрик и ошибок
🟠Какие ключевые навыки складываются в профессию

ML-инженера.🕗 Встречаемся 16 сентября в 19:00 МСК

Обязательно ждем вас в лайве — вы сможете напрямую задать свои вопросы Кристине Желтовой и забрать с собой пример файла в Google Colab, с которым сможете продолжить погружаться в задачу после вебинара!

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Анализ данных (Data analysis)

Эра 1-битных LLM наступила 🫥

🔹 DeepSeek-V3.1, квантованный всего до 1-бита или 3-бит, обошёл Claude Opus 4 и GPT-4.5.

🔹 Unsloth GGUF смог сжать DeepSeek-V3.1 на 75%, при этом модель превзошла топовых конкурентов в бенчмарке Aider Polyglot.


🟠Подробности: https://docs.unsloth.ai/new/unsloth-dynamic-ggufs-on-aider-polyglot

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Если Ctrl+Z не помогает…

Значит, пора искать команду, где гипотезы проверяются на реальных данных, а результаты влияют на миллионы пользователей.
В Сбере именно так — и это видно даже в поздравительном видео, которое подготовили будущие коллеги.

Вакансии ждут вас здесь.

А кодовый бонус прилагается: team.congratulate("С Днём программиста! 💚")

Читать полностью…

Анализ данных (Data analysis)

Поздравляем, вы на 1 шаг ближе к работе мечты 🥳

Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉

Avito Career — место, где Авито делится актуальными вакансиями и стажировками для Go-разработчиков.

Подписывайтесь, чтобы найти ту самую работу ✨

Читать полностью…

Анализ данных (Data analysis)

🚀 Оптимизация обновления весов моделей в LLM

Checkpoint Engine — это легковесное промежуточное ПО для обновления весов в LLM во время инференса, критически важное для обучения с подкреплением. Оно обеспечивает быстрые и эффективные методы обновления весов, позволяя обрабатывать модели с триллионом параметров за считанные секунды.

🚀 Основные моменты:
- Поддержка двух методов обновления: Broadcast и P2P.
- Эффективная передача данных с использованием CUDA IPC.
- Оптимизированный процесс передачи с учетом шардирования.
- Подходит для работы с большими моделями на множестве GPU.

📌 GitHub: https://github.com/MoonshotAI/checkpoint-engine

Читать полностью…

Анализ данных (Data analysis)

⚡️ На чистом SQL запустили легендарный DOOM — прямо внутри базы данных CedarDB!

Игра не просто работает, а поддерживает многопользовательский режим, отрисовывая всё с помощью ASCII-графики.
Каждый компонент — от рендера до синхронизации игроков — написан исключительно на SQL-запросах.

🎮 GitHub для настоящих ценителей извращённого кода: https://github.com/cedardb/DOOMQL

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

😄 12 сентября смотрите онлайн-студию первой «Ночи музеев» в мире IT

В Яндексе придумали «Ночь музеев» в мире IT, а Сбер, Т-банк, Х5 и Lamoda поддержали идею и присоединились. Если вы не успели зарегистрироваться как офлайн-участник – подключайтесь онлайн.

🙌 Студия big tech night online будет работать 12 сентября с 18:00 до 21:00 по московскому времени.

Можно переключаться между двумя треками.

😛😝В софт-треке вас ждут:

– шоу для разработчиков со стендап-комиком Севой Ловкачёвым;
– обсуждение pet-проектов и изобретательства среди инженеров;
– юмор в борьбе со стрессами: мемы как способ выжить в бигтехе.

😋😛 В хард-треке:

– разберём, чем отличается бигтех в России и за рубежом: каких специалистов ищут компании, есть ли культурные отличия?
– поговорим с Маратом Мавлютовым – руководителем подразделения из Яндекса, разрабатывающего роботов-доставщиков;
– обсудим, как AI помогает разработчикам сейчас и как будет помогать в будущем.

😌 Регистрируйтесь и подключайтесь.

Реклама. ООО "Яндекс". ИНН 7736207543

Читать полностью…

Анализ данных (Data analysis)

Ускорение PyTorch-инференса на Apple-устройствах на 87% с помощью AI-сгенерированных Metal-ядр

В новом исследовании показано, как AI-модели автоматически генерируют оптимизированные GPU-ядра под Metal, которые ускоряют работу PyTorch на устройствах Apple.

📊 Результаты:
- В среднем прирост скорости - 87% на 215 модулях.
- Некоторые ядра работают в сотни раз быстрее базового уровня.

🟢 Как это работает:
- Используется agentic swarm-подход - несколько агентов генерируют и тестируют варианты ядер.
- В контекст добавляются CUDA-референсы и данные профилирования, что помогает создавать более эффективные ядра.
- Такой метод превосходит одиночные модели, генерирующие код без дополнительного контекста.

Fвтоматическая генерация GPU-ядер AI-моделями открывает путь к более быстрому и доступному инференсу прямо «из коробки» на Mac и iOS.

🔗 Подробности: https://gimletlabs.ai/blog/ai-generated-metal-kernels

Читать полностью…

Анализ данных (Data analysis)

Ты: «Эх, вот бы кто-то научил анализировать данные, чтобы у меня было больше шансов поступить в вуз и начать карьеру…»
Яндекс Лицей: «Ок»

Запускаем новый набор для учащихся школ и колледжей на инстивный, трёхмесячный курс по анализу данных. Научим работать с Python не в теории, а на практике: верно анализировать, точно делать выводы и красиво показывать результаты.

Сделали такой онлайн-курс, чтобы мог пригодиться и в обучении, и в карьере. Поэтому:

1. Сделали упор на практику и только нужную теорию
2. Только те задачи, которые действительно решают в компаниях
3. Ввели командную разработку

Ну и финальное: после обучения получите именной сертификат. Он может помочь получить дополнительные баллы при поступлении в некоторых вузах.

Обучение в Яндекс Лицее бесплатно, но есть отбор. Он открыт до 23 сентября. Вся программа, подробности и регистрация на новый поток по ссылке.

Читать полностью…

Анализ данных (Data analysis)

💾 Зачем нужен Delta Lake, если есть Parquet

Обычный Parquet хранит только одно состояние таблицы.
Если вы сохранили отфильтрованный DataFrame, то старые данные исчезли навсегда.
❌ Отката (rollback) нет → потеряли 10 000 строк, осталось только 3 500.

Delta Lake работает иначе:
- каждый раз создаётся новая версия данных
- можно вернуться к любой версии в прошлом
- данные всегда под контролем и без потерь

📌 Пример:
- Parquet → фильтр → оригинал стёрт
- Delta Lake → версия 0 (10 000 строк) + версия 1 (3 500 строк) → всегда можно вернуться к версии 0

✅ Итог: с Delta Lake данные становятся версионируемыми и надёжными.



#datalake #parquet #bigdata #delta

Читать полностью…
Subscribe to a channel