data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Генеративный ИИ для предприятий сегмента Enterprise: как выбрать пилотный проект с максимальной отдачей?

Крупные компании уже запускают первые проекты на основе генеративного искусственного интеллекта. Но как определить, какие решения принесут реальную пользу при ограниченных бюджетах и сжатых сроках реализации?

31 июля в 11:00 мск приходите на первый совместный вебинар Yandex Cloud и «Инфосистемы Джет», чтобы:
– узнать как выбрать перспективные ИИ-проекты для вашего бизнеса,
– увидеть демонстрацию рабочих GPT-решений по интеллектуальному поиску, технической поддержке, кибербезопасности и анализу отзывов,
– поучаствовать в разработке GPT-решения.

Все посетители вебинара смогу сделать свои проекты частью JET & YandexGPT Lab — новой российской платформы по разработке и тестированию GPT-решений для бизнеса.

Спикеры:
🔸Наиль Енаев, руководитель направления GPT «Инфосистемы Джет»
🔸Антон Чикин, начальник отдела ML «Инфосистемы Джет»
🔸Тарас Юзефович, менеджер по работе с партнерами ML&AI Yandex Cloud

Для кого: 
▫️Руководители по ИТ и ИБ в крупных компаниях
▫️Ответственные за внедрение генеративного ИИ и больших языковых моделей
▫️Директора по данным, цифровизации и цифровой трансформации

➡️ Успейте зарегистрироваться на вебинар!

Читать полностью…

Анализ данных (Data analysis)

🧪 Octelium — новая open-source платформа для запуска и оценки LLM-агентов в реалистичных сценариях.

🔍 Что делает:
• Запускает LLM-агентов в симулированных задачах: от браузинга до программирования
• Оценивает их поведение, принятие решений и эффективность
• Работает локально, без облака
• Поддерживает мультимодельность и кастомные задачи
• Подходит для RL, alignment, eval-пайплайнов

📦 Отличный инструмент для исследований, тестов и продвинутых экспериментов с LLM.

🔗 github.com/octelium/octelium

Читать полностью…

Анализ данных (Data analysis)

🚨 Похоже у нас тут… первая утечка GPT‑5?

В репозитории biology-benchmarks-inspect появился подозрительный новый идентификатор:

`gpt‑5‑reasoning‑alpha` 👀

🧠 Главное:
> 20 часов назад коммит заменил модель o3 на новую — gpt‑5‑reasoning‑alpha

Если репозиторий действительно внутренний (а он на это похож), то GPT‑5 уже где-то рядом.

🤖 Это могут быть предварительные тесты, бенчмарки или подготовка к релизу.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡ VoltAgent — TypeScript-фреймворк для создания автономных AI-агентов. Этот open-source проект предлагает готовую инфраструктуру для разработки сложных агентов на базе LLM, избавляя от необходимости писать всё с нуля. С его помощью можно создавать как простых чат-ботов, так и многоагентные системы с координацией через Supervisor и сложной workflow-логикой.

Фреймворк поддерживает популярные языковые модели, интеграцию с внешними API через Model Context Protocol и даже голосовые интерфейсы через @voltagent/voice. Для отладки есть VoltOps — платформа с визуализацией работы агентов.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎨 Откуда у диффузионок креативность?

Команда AI VK Hub разбирает свежую статью с ICML 2025:

Достаточно двух свойств свёрточных сетей — локальности и инвариантности к сдвигам, чтобы генерировать осмысленные и разнообразные изображения, даже без нейросети.

Аналитический процесс с этими ограничениями почти не уступает ResNet и U-Net по качеству — и отлично объясняет поведение диффузионных моделей.

Читать полностью…

Анализ данных (Data analysis)

⚙️ Rig — современная Rust-библиотека для работы с LLM, предлагающая унифицированный интерфейс для разных провайдеров ИИ. Проект выделяется акцентом на модульность и эргономику, позволяя интегрировать языковые модели в приложения с минимальным бойлерплейтом.

Инструмент уже используют в продакшене такие проекты, как Dria Compute Node и Linera Protocol. Библиотека поддерживает не только чат-модели вроде GPT-4, но и векторные базы данных, включая MongoDB и LanceDB.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🛠️ Вышел Public Roadmap для Gemini CLI — команды хотят создать мощного, open-source Coding Agent, ориентированного на сообщество.

Проект развивается сразу по 4 ключевым направлениям:

1. Extensible
CLI должен быть легко расширяемым под любые среды и сценарии: кастомные slash-команды, удалённые протоколы, запуск .gemini.md файлов с пользовательскими тулзами.

2. Everywhere
Агент можно запускать как фоновый процесс в разных окружениях: локально, в контейнерах, GitHub Actions, облаке. Поддерживается делегирование задач субагентам.

3. Intelligent
Фокус на качестве моделей и инструментов. Цель — попасть в топ по метрикам вроде SWE Bench. Все критические баги (P0) будут закрыты до релиза версии 1.0.

4. Open Source
Проект строится в диалоге с сообществом: быстрое реагирование на ишью и PR’ы, минимальный бэклог и удобные процессы участия.

🔄 Workstreams уже распределены:
- Качество модели (улучшение рассуждений, устранение повторов)
- Производительность (кеширование, умная маршрутизация моделей)
- Расширяемость (агенты в фоне, деплой в облако)
- Автоматизация сообщества (улучшение dev-флоу)

📌 Если хочешь участвовать в разработке следующего поколения AI-инструментов для кодинга — сейчас самое время подключиться к Gemini CLI.

https://github.com/google-gemini/gemini-cli/discussions/4226

Читать полностью…

Анализ данных (Data analysis)

⚡️ Klavis AI — открытая платформа для интеграции MCP в AI-приложения. Проект предлагает готовые решения для работы с популярными сервисами вроде YouTube, Gmail и GitHub через единый API, избавляя разработчиков от необходимости писать клиентский код для каждого сервиса.

Инструмент имеет поддержку мультиплатформенных сценариев. Klavis позволяет одновременно использовать инструменты разных сервисов через единый интерфейс. Есть возможность как облачного использования, так и self-hosted развертывания.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Бывший сотрудник OpenAI поделился откровенными впечатлениями о годе работы внутри одной из самых обсуждаемых компаний мира.

Он присоединился к команде в мае 2024, ушёл три недели назад — и решил написать личные размышления, пока всё ещё свежо в памяти.

Он подчёркивает:
никаких скандалов или внутренних конфликтов — просто желание снова что-то строить с нуля. Несмотря на это, он признаёт: сложно уйти с работы, где ты видишь рождение AGI своими глазами и участвуешь в запуске Codex.

Культура OpenAI — это хаос, скорость и независимость.

Компания за год выросла с 1000 до более чем 3000 сотрудников. Почти все руководители делают совершенно другую работу, чем пару лет назад. И всё внутри строится снизу вверх: roadmap’ов не было, а идеи рождались и запускались без бюрократии.

Всё общение происходит в Slack — никаких email, почти никакого планирования. Команды могут быть хаотичны и перегружены, но часто это работает: если идея крутая, люди просто начинают делать, и вокруг появляется команда.

Руководители не мешают, а помогают — особенно в исследовательских командах. Исследователь воспринимается как мини-руководитель: выбрал интересную задачу — вперёд. Главное — не «казаться», а «делать». Политика и презентации — не в цене. Лучшие идеи побеждают.

OpenAI умеет разворачиваться на ходу. Как только появляется новая информация, стратегия может кардинально поменяться — и в этом сила. Вдохновлённый атмосферой Segment, автор признаёт: OpenAI удалось сохранить эту гибкость даже при таком масштабе.

Закрытость — часть культуры.
Из-за огромного внимания общества и прессы компания крайне аккуратно делится информацией. Многое не анонсируется даже внутри. Но при этом она остаётся самой открытой из «больших AI-лабораторий»: модели попадают в API, доступны не только корпорациям, но и отдельным пользователям.

Внимание к реальным рискам (злоупотребления, манипуляции, self-harm) — важный фокус внутри. Хоть фундаментальные угрозы (в духе "intelligence explosion") тоже обсуждаются, упор в работе на конкретные и прикладные сценарии.

Технологически OpenAI — монорепозиторий на Python, немного Rust и Go. Всё крутится на Azure, но доверяют только 2–3 сервисам. Инфраструктура напоминает ранний Facebook: всё движется быстро, дублируется, много внутренней разработки и отсутствие строгих архитектурных комитетов.

Он отдельно отметил уникальность команды Codex, с которой провёл последние 3 месяца. За 7 недель (!) они с нуля запустили продукт: с контейнерным рантаймом, fine-tuning моделей, git-интеграцией и полноценным асинхронным агентом. В ночь перед запуском они сидели до 4 утра, а утром уже нажимали на кнопку.

Codex показал: будущее программирования будет похоже на общение с ассистентом, а не набор кода строка за строкой. С момента запуска Codex сгенерировал более 630 000 pull request’ов — это десятки тысяч на каждого инженера в команде.

Несмотря на скандалы в пресе — тысячи людей, искренне верящих, что строят нечто важное. OpenAI остаётся одной из самых амбициозных организаций в мире: не только чат, не только API, но и hardware, агенты, изображения — и это ещё не всё.

📌 Читать

@data_analysis_ml

#openai #ai #ml #llm #chatgpt

Читать полностью…

Анализ данных (Data analysis)

⚡️ Skywork-R1V3 — новейшая мультимодальная LLM с открытыми весами от китайской компании SkyworkAI. Модель демонстрирует SOTA-результаты в бенчмарках мультимодального мышления, превосходя аналогичные open-source решения и некоторые проприетарные модели.

Проект использует RL-дообучения для улучшения логических и визуальных цепочек рассуждений. Доступны квантованные версии для запуска на видеокартах с 30+ GB памяти.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Вас интересует, как искусственный интеллект может повысить эффективность вашего бизнеса?

Большие языковые модели уже давно вышли за рамки экспериментов и сегодня работают в реальных бизнес-процессах. На вебинаре “Будущее бизнеса с RAG и LLM: автоматизация, выгоды и новые возможности искусственного интеллекта” вы узнаете, как современные технологии помогают автоматизировать и ускорять поддержку, аналитику и работу с корпоративными знаниями, повышая точность бизнес-решений.

Мы сравним облачные и локальные решения, разберем конкретные кейсы и выгоды, а также обсудим шаги по внедрению в компанию ИИ.

Узнаете, как правильно, а главное – эффективно начать цифровую трансформацию!

📅 17 июля в 14:00 по Москве

➡️ Зарегистрироваться

Все слушатели вебинара получат запись и презентацию выступающего, которые можно использовать в работе!

Реклама. ООО "ДССЛ-ПЕРВЫЙ". ИНН 7701081730. erid: 2W5zFHygTbE

Читать полностью…

Анализ данных (Data analysis)

📈 METR: у ИИ начинается свой "закон Мура"

Когда ИИ сможет самостоятельно выполнять долгие проекты?

Исследователи из METR нашли закономерность:
временной горизонт задач, которые осиливают AI‑агенты, удваивается каждые ~7 месяцев.

Теперь они проверили это на 9 новых бенчмарках:
MATH, OSWorld, LiveCodeBench, Mock AIME, GPQA Diamond, Tesla FSD, Video-MME, RLBench и SWE-Bench Verified.

Результаты:
🧠 Аналогичные темпы роста и в науке, математике, робототехнике, программировании и даже в автопилоте.
⚡️ Новые модели, вроде o3, растут быстрее прогноза — медианное удвоение теперь ~4 месяца.
🕐 На reasoning-задачах агенты держатся 1+ час.
🖱 А вот в OS и браузере — всё ещё ~2 минуты, из-за слабых инструментов.

> «Moore’s Law для ИИ»: не про чипы — про способность мыслить и работать дольше. Быстрее. Самостоятельно.

ИИ-агенты растут не по дням, а по бенчмаркам.

Читать полностью…

Анализ данных (Data analysis)

GitHub Copilot Agent получил мощное обновление 🚀

Самое интересное

• Сам тестирует изменения UI с помощью Playwright и прикладывает скриншоты к PR
• Подключается к удалённым MCP — больше инструментов, больше контекста
• Управляет задачами через новый удобный дашборд
• Использует всего один premium-запрос на сессию — экономно и эффективно

Доступно для Copilot Pro и Business.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 MetaStone‑S1 — первая открытая Reflective Generative Model, сопоставимая с OpenAI o3

Новая модель MetaStone‑S1 от MetaStone-AI представляет собой рефлексивную генеративную архитектуру, ориентированную на эффективное масштабирование при инференсе (TTS).

🔍 Ключевые особенности:

SPRM (Self-supervised Process Reward Model)
Позволяет модели самостоятельно оценивать качество промежуточных шагов рассуждения — без ручной разметки процесса. Это объединяет policy‑модель и reward‑модель в одном бэкенде, экономя 99% параметров PRM.

Три режима рассуждения (TTS Modes)
Выбирайте уровень усилия: low / medium / high — для контроля глубины reasoning на инференсе.

Масштабируемость и производительность
MetaStone‑S1 (32B параметров) показывает результаты на уровне OpenAI o3-mini, при этом оставаясь полностью открытой.

📐 Scaling Law
Авторы выявили эмпирическую закономерность между вычислительной нагрузкой и качеством reasoning — и нашли "aha-момент", где резкий рост качества наступает при определённой глубине мышления.

📊 Бенчмарки:
Модель достигает SOTA-результатов на:
- AIME24 / AIME25
- LiveCodeBench
- C-EVAL и др.

💡 Если вы работаете над LLM-агентами, интерпретируемыми системами или reasoning-моделями — MetaStone‑S1 обязательно к изучению. Это новая парадигма в генеративных ИИ: мышление + самооценка = устойчивое, масштабируемое поведение.

https://huggingface.co/papers/2507.01951

Читать полностью…

Анализ данных (Data analysis)

🤖 Илон Маск: ИИ станет умнее любого человека — меньше чем за 2 года,
а умнее всего человечества вместе — меньше чем за 5 лет

По мнению Маска, у ИИ нет потолка — рост идёт экспоненциально, и конца этому тренду не видно.
Он прямо говорит: через несколько лет модели смогут выполнять работу целых корпораций, действуя как единая система.

📌 Почему это звучит серьёзно?
Потому что Dario Amodei, CEO Anthropic, говорит буквально то же самое — с теми же сроками.
Он ожидает, что к 2027 году появится суперинтеллект, способный управлять крупными компаниями как цифровой "мозг-конгломерат".

🔥 Если они правы — нас ждёт резкий сдвиг:
– ИИ перестаёт быть инструментом и становится экономическим субъектом
– Компании превращаются в оболочки для моделей
– Решения, стратегии, оптимизация — передаются системам ИИ
– Конкуренция меняется: человек против облачного суперинтеллекта с API

Мы приближаемся не просто к новой технологии —
а к новой форме разума, способной оперировать как корпорация, но быстрее, точнее и дешевле.

#AI #ElonMusk #Superintelligence #DarioAmodei #Anthropic #FutureOfWork #AGI

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💸 Марк Цукерберг предложил *Марку Чену перейти к нему — и, по слухам, миллиардер предложил 1 миллиард долларов.

Когда речь заходит о гонке за ИИ‑талантами, ставки становятся буквально космическими 💸

Марк Чен (Mark Chen) — ведущий исследователь OpenAI, занимающий пост Chief Research Officer / Senior VP of Research.

Читать полностью…

Анализ данных (Data analysis)

ML-инженеры и Data Scientists + One Day Offer = попадание в команду HR-платформы Сбера! 💚

26 июля вы сможете пройти экспресс-отбор в команду банка, которая делает поиск кандидатов проще и быстрее. Вот для каких задач вы будете искать и разрабатывать AI-решения:

✔️ ранжирование резюме или вакансий
✔️ рекомендации образовательного контента
✔️ распознавание документов
✔️ автоматизация рутинных процессов
✔️ прогнозирование оттока и внутренних перемещений

Регистрация на One Day Offer по ссылке!

Читать полностью…

Анализ данных (Data analysis)

🎆 Harbor — локальный стек для работы с LLM в один клик. Этот инструмент упрощает запуск локальных языковых моделей и связанных сервисов — от веб-интерфейсов до RAG и голосового взаимодействия. Всё работает в Docker и настраивается парой команд.

Harbor автоматически интегрирует компонентов, например, SearXNG сразу подключается к Open WebUI для поиска по вебу, а ComfyUI — для генерации изображений. Подходит тем, кто хочет быстро развернуть локальную среду для экспериментов с ИИ.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚗 python-can — универсальная библиотека для работы с CAN-шиной из Python. Этот проект предоставляет удобные абстракции для взаимодействия с различными CAN-адаптерами и поддерживает как классический CAN, так и CAN FD.

Библиотека обладает кроссплатформенностью и поддерживает множество бэкендов, включая SocketCAN, Kvaser, PCAN и другие. Полезно для автомобильной диагностики, робототехники и промышленной автоматизации.

🤖 GitHub

Читать полностью…

Анализ данных (Data analysis)

📊 ManusAI теперь умеет визуализировать данные красиво и без боли

Загружаете сырые данные → описываете, что хотите увидеть → выбираете тип графика → Manus сам всё строит.

Мы вот так выяснили, что среди трёх видов пингвинов — Адели, Антарктических и Генту — самые пухлые и длинноластые оказались именно генту. 🐧

Подходит идеально для:
— дашбордов и презентаций
— отчётов для коллег и инвесторов
— исследовательского анализа без кода

🎨 Приятный интерфейс, поддержка CSV, markdown-выгрузка и PDF. И всё это — бесплатно.

Попробовать: https://manus.ai

@data_analysis_ml

#manus

Читать полностью…

Анализ данных (Data analysis)

Рискните зарегистрироваться на One Day Offer и получите работу в команду блока «Риски» ⚡️

25 июля Сбер приглашает дата-инженеров и аналитиков данных пройти ускоренный отбор и открыть доступ к реально интересным задачам в 120+ витринах и 25+ петабайтах данных.

Встречаемся онлайн 25 июля в 10:30 — ссылка на регистрацию здесь!

Читать полностью…

Анализ данных (Data analysis)

Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки?

Нужно использовать КХД на архитектуре Lakehouse. 74% западных корпораций уже мигрировали на архитектуру Lakehouse, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI-инициатив.

Протестируйте VK Data Lakehouse — КХД нового поколения для уменьшения стоимости хранения данных и ускорения аналитики до 10 раз.

→ Дешевое хранение данных в S3-хранилище. Стоимость хранения 1 ГБ с репликацией в облаке уменьшается в 10 раз — с 30 до 3 рублей по сравнению с DWH.

→ Транзакционность для данных в S3-хранилище. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH.

→ Ускорение аналитики. MPP SQL-движок для параллельной работы с данными из разных источников без тяжелого ETL.

→ Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете. Нет затрат на простаивающие ресурсы.

→ Линейный рост затрат вместо экспоненциального при масштабировании.

→ Не нужно содержать отдельные команды под DWH и Data Lake.


→ Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт. Без сложного масштабирования и миграций.

→ Работа с ML становится быстрее без рисков уронить DWH. DS команда может экспериментировать с ad hoc запросами без опаски уронить DWH и BI.

Чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов:

👉Оставляйте заявку

Будем рядом на всех этапах пилота и поможем довести MVP до результата.

Читать полностью…

Анализ данных (Data analysis)

Не прошло и дня: эра 3D-вайфу на базе ИИ набирает обороты.

Первые open-source версии этого чуда уже на доступны на GitHub

https://github.com/Jackywine/Bella

@data_analysis_ml

#ai #ml

Читать полностью…

Анализ данных (Data analysis)

💥 Исследователи из Университета Торонто представили первую в мире атаку типа Rowhammer, работающую на видеопамяти GPU — GPUHammer. Им удалось взломать защиту NVIDIA A6000 и изменять данные в памяти GDDR6, что особенно опасно для систем машинного обучения.

Для атаки использовали особенности CUDA и оптимизации доступа к памяти. NVIDIA рекомендует включать ECC, но это снижает производительность на 10%. Код эксплойта уже выложен в открытый доступ.

🔗 Ссылка - *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Новые лекции от UCLA: *Reinforcement Learning of Large Language Models* (весна 2025)

Свежий курс, полностью посвящённый обучению LLM с помощью RL. Отличный ресурс для тех, кто хочет разобраться не только в RLHF, но и в новых направлениях, которые появляются на стыке обучения с подкреплением и больших языковых моделей.

📚 Что в курсе:
– Базовые принципы RL применительно к LLM
– RLHF (reinforcement learning from human feedback)
– RL с верифицируемыми наградами (RLVR)
– RL на этапе inference: оптимизация в момент выполнения
– Архитектуры, policy shaping, reward modeling и др.

Это не просто обзор — это системная попытка осмыслить будущее RL для LLM, где важно не только fine-tuning, но и работа с обратной связью в режиме реального времени, доверие к награде и оптимизация вычислений.

🧠 Полезно всем, кто:
– интересуется агентами и автономными системами
– работает над LLM‑продуктами
– хочет выйти за пределы SFT и попробовать более «горькие» методы обучения

#LLM #RLHF #RLVR #AIeducation #ReinforcementLearning #UCLA

🔜 Youtube: https://youtube.com/playlist?list=PLir0BWtR5vRp5dqaouyMU-oTSzaU5LK9r

🔜 Курс: https://ernestryu.com/courses/RL-LLM.html

Читать полностью…

Анализ данных (Data analysis)

🤔 Хммм… интересно, почему же Grok снова на первом месте в апсторе в Японии?)

Grok Anime-Waifu: новый Ghibli-хайп?

Аниме-вайфу от Grok сейчас переживает тот же всплеск интереса, что и Ghibli‑стиль после выхода инструмента генерации изображений от ChatGPT🎌

xAI поймали незанятую нишу: 3D-аватары с крутым голосовым режимом и небольшой провокацией. Как бы вы ни относились к этой теме — массовый рынок тут есть, и он пока был пуст.

CharacterAI всё ещё в топ‑10 самых посещаемых AI-приложений в мире. Молодёжь массово проводит там часы в общении с вымышленными персонажами. Это о многом говорит — но мы не будем давать оценок деградация это или нет.

Важно другое: ни Google, ни OpenAI, ни Microsoft пока не вышли с 3D-аватарами с продвинутым голосовым режимом.

Все знали, что это огромный рынок, но опасались репутационных последствий — вспомните скандалы вокруг CharacterAI в прошлом году.

А xAI рискнули — и пока пожинают плоды . Аудитория молодая, хайп органический, конкуренты только приглядываются к теме. Быть первым в такой категории — значит занять особое место в головах (пустых и не очень) пользователей.

Так что да: xAI сделали ставку — и, похоже, угадали.


@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Обработка данных на Spark — от GPS-треков до прогнозирования трендов. 
Не теряйте время на ручную обработку данных и неправильный выбор инструментов. 

Вебинар "Обработка геопространственных и временных данных на Spark" покажет, как избежать распространенных ошибок, связанных с обработкой геоданных и временных рядов с помощью одного из самых мощных инструментов в Big Data — Apache Spark.

Что вы узнаете?
📍Как обрабатывать и анализировать геопространственные данные с помощью Spark
📍Как работать с GPS-координатами и картографией
📍Как эффективно взаимодействовать с временными данными и использовать возможности Spark для анализа трендов и сезонности
📍Реальные примеры из практики: анализ маршрутов, данные с IoT-сенсоров, прогнозирование с временными метками.

Спикер Вадим Заигрин, один из разработчиков международной платежной системы, автор курса Spark Developer, проведет вебинар и поделится реальными кейсами.

17 июля в 19:00 МСК.
Бесплатно

Подарки для участников!
🔥7% скидка на обучение
🔥Гайд "Как найти кратчайший маршрут с помощью Apache Spark и GraphFrames"

Не упустите возможность получить у эксперта реальные знания, которые помогут в проектах!
Записаться: https://tglink.io/48c06a9a411b

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFH5sFzG

Читать полностью…

Анализ данных (Data analysis)

✔️ Эмбеддинг-модель Gemini от Google стала общедоступной.

Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.

Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.

Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.
developers.googleblog.com

✔️ Лаборатория суперинтеллекта в компании Марка Цукерберга обсуждает отказ от open-source.

Недавно созданное подразделение по разработке AGI инициировало дискуссию о кардинальном изменении стратегии компании. Ключевая идея - отказаться от развития флагманской open-source модели Behemoth в пользу закрытой архитектуры, по аналогии с OpenAI и Google. Такой шаг стал бы серьезным философским сдвигом для компании, которая годами продвигала открытый код и завоевала признание разработчиков.

Обсуждения пока находятся на ранней стадии и требуют одобрения Марка Цукерберга. Однако сама дискуссия, начатая новой командой под руководством Александра Ванга, указывает на возможный стратегический разворот гиганта соцсетей.
nytimes.com

✔️ В Grok появились анимированные 3D-персонажи.

xAI начала развертывание новой функции «Companions» для чат-бота Grok в приложении для iOS. Обновление добавляет в интерфейс интерактивных трехмерных персонажей, цель которых - сделать общение более персонализированным и выйти за рамки текстовых ответов. На данный момент функция доступна платным подписчикам SuperGrok.

Пользователи могут выбрать одного из двух анимированных аватаров: аниме-девушку Ani или красную панду Bad Rudy. Включить их можно в меню настроек. В компании обещают позже добавить третьего персонажа.
Elon Mask в сети Х

✔️ Топовые немецкие ученые в области Med AI переехали работать в Китай.

Два выдающихся специалиста из Германии, Роланд Эйльс и Ирина Леманн, присоединились к Университету Фудань в Шанхае. Их работа была ключевой в создании атласа клеток поджелудочной железы человека и использовании ИИ для прогнозирования рисков заболеваний.

Эйльс - всемирно известный математик и биолог, руководивший крупными национальными исследовательскими проектами. Леманн - профессор в области эпигенетики, возглавлявшая несколько международных научных конференций. Супруги опубликовали более 1000 научных работ и имеют свыше 100 000 цитирований.

В Университете Фудань они присоединились к Институту интеллектуальной медицины и планируют создать совместную немецко-китайскую ИИ-лабораторию.
scmp.com

✔️ Perplexity будет дообучать модели Kimi.

Глава Perplexity Аравинд Шринивас рассказал о планах компании начать пост-тренинг моделей Kimi от Moonshot AI. Решение было принято после внутренних тестов, которые показали, что потенциал Kimi сопоставим с GPT-4 и Claude.

Решающим фактором стало превосходство Kimi K2 в бенчмарках на программирование. В частности, в тесте SWE-bench Verified она показала результат 65.8%, значительно опередив Claude с его 50.2%.

В Perplexity рассчитывают, что дальнейшее дообучение модели усилит ее агентные возможности.
CEO Perplexity сети X

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

Новость для тех, кто планирует поступление в магистратуру в этом году — МТС открывает набор на программу по искусственному интеллекту на ФКН ВШЭ

Самое важное:
– 30 оплачиваемых мест от МТС;
– Обучение проходит в очном формате в московском кампусе ВШЭ;
– Занятия ведут преподаватели ВШЭ и действующие эксперты-практики из МТС и MTS AI, а для проектов можно использовать виртуальную инфраструктуру компании;
– После и во время обучения можно получить оффер;
В канале абитуриентов делимся новостями и помогаем с подготовкой к поступлению

В программе передовые методы машинного и глубинного обучения: большие языковые модели, генеративные нейросети, инструменты компьютерного зрения и распознавания естественного языка.

Подробная информация о программе и документах на сайте. Ждем тебя 🥚

Читать полностью…

Анализ данных (Data analysis)

🧠 NeuralOS — симуляция операционной системы с помощью нейросети

Новое исследование *NeuralOS: Towards Simulating Operating Systems via Neural Generative Models* показывает, как можно эмулировать поведение GUI операционки с помощью нейросетей — прямо как игру, но из нейронки.

Что сделали авторы:
▪ Соединили RNN (отвечает за отслеживание состояния ОС)
▪ с диффузионным рендерером, который генерирует экран кадр за кадром
▪ На вход идут реальные события: движение мыши, клики, нажатия клавиш
▪ На выходе — визуально достоверный интерфейс, который реагирует на действия

🧪 Обучение:
Модель обучалась на огромном датасете сессий Ubuntu XFCE — с действиями как от рандомных, так и от AI-агентов.

📈 Что получилось:
— правдоподобное поведение UI
— корректное отображение кликов, перемещений
— распознавание переходов состояний: запуск приложений, переключение окон
— пока есть трудности с детальной клавиатурой (например, ввод текста), но базовая навигация работает

💡 Почему это важно:
NeuralOS — это шаг в сторону генеративного интерфейса, где весь UI может быть создан и управляем не кодом, а нейросетью, способной понимать, прогнозировать и адаптироваться к действиям пользователя.

📄 https://huggingface.co/papers/2507.08800

@data_analysis_ml

Читать полностью…
Subscribe to a channel