17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🔥 Интересное исследование, в ходе которого авторы анализировали миллионы твитов в X, чтобы с помощью ИИ раскрыть зависящие от них закономерности роста/падения биткоина!
🔗 Читать: *клик*
@bigdatai
Быстрее, умнее, точнее
VK запустил RecSys Challenge — соревнование по разработке алгоритмов рекомендаций.
Участникам предстоит решить одну из самых сложных проблем рекомендательных систем: предсказать, кому зайдёт ролик, который никто ещё не видел.
В основе датасет VK-LSVD:
40 млрд взаимодействий
20 млн роликов
Формат:
Студенты, исследователи, ML-инженеры — welcome
Призовой фонд — 2 500 000 рублей 💸
Читайте подробнее и регистрируйтесь до 15 декабря на сайте соревнования.
Один One Day Offer вам или целых три — всем? 😉
25 октября Сбер проведёт сразу три экспресс-отбора кандидатов в две команды: GigaData и Kandinsky. Чем вам предстоит заниматься 👇
✔️ Развивать GigaData — внутреннюю платформу Сбера, которая обрабатывает петабайты данных и миллиарды запросов в сутки. One Day Offer для Python‑разработчиков.
✔️ Работать над Kandinsky — обучать большие модели с нуля, собирать и подготавливать данные, исследовать самые эффективные методы дообучения моделей.
— One Day Offer для Machine Learning Engineers с опытом в Deep Learning и компьютерном зрении (CV).
— One Day Offer для Research и Deep Learning Engineers.
Выбирайте то, что больше подходит под ваши навыки, и регистрируйтесь на One Day Offer!
🚀 Baidu представила самую эффективную мультимодальную модель в мире
Она называется PaddleOCR-VL - монстр с 0,9 млрд параметров, который превосходит GPT-4o, Gemini 2.5 и все существующие Doc-AI-модели.
Модель понимает 109 языков, распознаёт текст, таблицы, формулы и графики, при этом работает *быстрее систем, которые в 10 раз больше по размеру.*
Секрет успеха:
- 🧠 Динамический визуальный энкодер в стиле NaViT
- 💬 Языковая модель ERNIE-4.5-0.3B
- 🧾 Интеллектуальная система разметки PP-DocLayoutV2, устраняющая галлюцинации
Всё с открытым исходным кодом и менее 1 млрд параметров.
Это не просто эффективная модель — это новый эталон мультимодального ИИ.
🔗 https://huggingface.co/PaddlePaddle
🚨 Одним выстрелом сгенерировал эмулятор Nintendo с (очень вероятно что это Gemini 3.0 Pro.)
Если так, то Gemini 3.0 разнесёт всех конкурентов.
Попросили модель сделать ретро Nintendo-сим с играми, *без внешних ассетов*.
Результат?
Через 1 минуту — готовая полноценная сцена.
Ни одна другая модель пока не показывает такого уровня стабильности и точности при генерации.
Автор выложил промпт и пруф *one-shot-генерации* в треде — и это даже не лучший результат, готовится ещё более сильная версия с чуть изменённым промптом.
Пост: https://x.com/chetaslua/status/1978438353918779461
#Gemini #GoogleAI #AIGeneration #AIModels #Multimodal #TextToGame
Вайб Цех. Кодим на станках будущего
red_mad_robot открывают двери Вайб Цеха — места, где рождается новый стандарт разработки. Вместо станков — LLM, вместо чертежей — промпты.
Мастера из red_mad_robot, SberAI и Clоud.ru расскажут, как работает производство цифровых продуктов будущего. На сборочной линии обсудят:
01_Как промпты и LLM меняют работу инженера.
02_Рост производительности и новые возможности.
03_Вектор развития для разработчиков.
📅 25 октября, Санкт-Петербург
🎟 Ловите промокод на скидку PROMObigdatai и записывайтесь в цех: https://clck.ru/3PY7ty
Стань мастером цифровой сборки!
📢 Калифорния первой в США выпустила закон, обязывающий ИИ признавать, что они не люди
Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.
Основные положения:
▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.
Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.
Этот протокол должен быть опубликован на сайте.
При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.
Запрещено выдавать себя за врача или иного специалиста в области здоровья.
Для подростков должен быть фильтр от сексуального контента.
С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.
Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.
В тот же день подписаны сопутствующие меры:
Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.
Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.
Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.
techcrunch
#ai #news
✔️ Китай выходит в лидеры мировой робототехники
Китай стремительно превращается в мирового лидера по производству и внедрению гуманоидных роботов. В стране формируется полный цикл - от датчиков и приводов до готовых автономных систем.
По данным издания, только за прошлый год на китайских заводах установлено около 300 тысяч промышленных роботов, что больше, чем во всём остальном мире вместе взятом. И почти все они - китайского производства.
Компания Unitree уже выпустила гуманоидного робота R1 стоимостью менее 6 000 долларов, что в несколько раз дешевле предыдущих моделей. Это стало возможным благодаря высокой локализации производства и быстрой обратной связи между разработчиками и фабриками.
Демографический кризис и старение населения подталкивают Китай к автоматизации. Правительство активно поддерживает отрасль - создаёт тестовые полигоны, субсидирует стартапы и внедряет роботов в промышленность и сервис.
Если США не активизируют собственные программы в области робототехники, Китай может занять доминирующее положение в одной из ключевых технологий XXI века.
washingtonpost
✔️ Microsoft и Georgia Tech научили ИИ думать “молча”
Исследователи создали систему SwiReasoning, которая позволяет языковым моделям решать, когда говорить, а когда просто думать. Вместо того чтобы постоянно проговаривать свои шаги, как в Chain-of-Thought, модель теперь может рассуждать скрыто - в латентном пространстве.
Когда уверенность низкая, она «думает молча», обрабатывая идеи внутри в виде непрерывных векторов. Когда уверенность возрастает - «высказывает» выводы словами. Такой гибкий режим делает рассуждения в среднем на 56–79% эффективнее, а в пике - до 6.78 раза быстрее, без потери точности.
Исследователи называют это началом новой эры latent reasoning - когда ИИ размышляет не словами, а понятиями.
Paper
✔️ xAI разрабатывает world models - продвинутые системы ИИ, способные понимать и моделировать физический мир.
Для этого проекта xAI привлекла бывших специалистов Nvidia, которые будут работать над созданием ИИ, умеющего формировать реалистичные трёхмерные среды и взаимодействовать с ними.
Первым направлением применения таких моделей станет индустрия игр - xAI планирует использовать world models для генерации интерактивных 3D-миров с динамическим поведением объектов и физикой.
В будущем эти технологии могут применяться в робототехнике и других областях физического ИИ.
Согласно планам компании, первая игра, полностью созданная искусственным интеллектом xAI, должна выйти к концу следующего года.
X
✔️ Учёные научили ИИ определять СДВГ по тому, как человек видит и обрабатывает мелькающие картинки.
Модель анализирует зрительные ритмы - микропаузы между кадрами, которые мозг воспринимает по-разному у людей с и без СДВГ. Точность диагностики - 91,8%, а различить, принимает ли человек стимуляторы, ИИ смог с точностью 91%.
Метод может стать новым способом диагностики без тестов и интервью - достаточно показать короткое видео и измерить, как мозг реагирует на световые ритмы.
psypost
✔️ Microsoft запускает инструмент, который покажет начальнику, насколько активно ты пользуешься ИИ
Microsoft внедряет в свою корпоративную платформу Viva Insights новую функцию под названием Benchmarks - систему, которая позволяет менеджерам отслеживать, насколько активно сотрудники используют искусственный интеллект в рабочих приложениях. Benchmarks станет частью Copilot Dashboard, панели аналитики, которая собирает данные о взаимодействии сотрудников с инструментами Microsoft 365 - от Teams и Outlook до Word, Excel и PowerPoint.
Руководители смогут видеть процент «активных пользователей Copilot» в разных отделах, сравнивать показатели внутри компании и даже сопоставлять их с усреднёнными данными по отрасли. По официальному определению Microsoft, «активный пользователь Copilot» - это тот, кто совершил «намеренное действие с ИИ» в одном из поддерживаемых приложений.
То есть если ты хотя бы раз за месяц использовал Copilot для генерации письма, отчёта или кода - ты попадёшь в статистику
winbuzzer
@ai_machinelearning_big_data
#news #ai #ml
На Stepik вышел топ курс - “PostgreSQL для разработчиков: от основ к созданию API”
Если ты до сих пор просто пишешь SQL-запросы - самое время научиться строить полноценные backend-сервисы, где база данных работает как у настоящих инженеров.
В этом курсе ты пошагово создашь REST API на FastAPI + PostgreSQL:
от установки окружения и первых таблиц — до масштабируемого, безопасного приложения с CRUD-операциями.
💡 Что разберёшь на практике:
• SQL-запросы, фильтры, агрегаты, подзапросы
• Связи между таблицами и нормализацию БД
• Работа Python с PostgreSQL
• Реализация REST API
• Оптимизация и задачи с собеседований
⚡ После курса - свой готовый API-проект и реальные навыки продакшн-уровня.
🚀 Начни курс: https://stepik.org/course/255542/pay
🚀 Выходные, которые изменят твою карьеру!
Авито проводит Data Science Weekend Offer 18–19 октября. За два дня ты можешь пройти все этапы и получить оффер в сильную DS-команду.
📌 Для кого: специалисты middle и senior уровней, работающие с NLP или классическим ML.
Что тебя ждёт:
💻 До 10 октября — пройди онлайн-тест
📆 18–19 октября — технические интервью и знакомство с командами Поиск и рекомендации, AI Lab, Антифрод и модерация
🌟 До 21 октября — получи оффер в компанию мечты
Проведи выходные с реальными кейсами Авито, пообщайся с топ-экспертами и забери оффер за два дня!
Зарегистрироваться
🤖 ByteDance Seed представил **AgentGym-RL** — новый единый фреймворк для обучения агентов с подкреплением.
🔹 Первый универсальный RL-фреймворк для обучения агентов в многошаговых задачах (без SFT).
🔹 Модульная и расширяемая архитектура: web, поиск, игры, embodied-среды и научные задачи.
🔹 Агенты достигают и даже превосходят коммерческие модели на 27 задачах.
▪proj: https://agentgym-rl.github.io
▪repo: https://github.com/woooodyy/AgentGym-RL
#RL #AI #ByteDance #AgentGym #ReinforcementLearning #Agents
🛠️📊 Логирование разработки с AI-поддержкой
Dev3000 собирает полную хронологию разработки вашего веб-приложения, включая логи сервера, события браузера и автоматические скриншоты. Этот инструмент упрощает отладку, позволяя AI-ассистентам, таким как Claude, анализировать все данные в одном месте.
🚀Основные моменты:
- Хранит логи с временными метками для легкого доступа.
- Автоматически создает скриншоты при навигации и ошибках.
- Интеграция с AI для мгновенной отладки.
- Поддерживает фильтрацию и поиск по логам.
- Визуальный интерфейс для просмотра логов.
📌 GitHub: https://github.com/vercel-labs/dev3000
Генерим безумные мюзиклы из чего угодно — Sora 2 теперь и в этом мастер.
🎭 Промт:
[Warhammer 40K], но в стиле бродвейского мюзикла — герои поют на сцене, яркий свет, театральные костюмы, всё на русском языке.
🌍 MENLO: From Preferences to Proficiency
Новый фреймворк и датасет для оценки и моделирования качества ответов LLM, максимально приближенного к "родной речи", сразу на 47 языках.
Идея вдохновлена принципами audience design - то есть адаптацией модели под разные аудитории и культурные контексты.
📄 Статья: arxiv.org/abs/2509.26601
🤗 Датасет: huggingface.co/datasets/facebook/menlo
GigaChat Vision Team — ваша будущая команда! 😉
Если вы зарегистрируетесь на One Day Offer для NLP- и CV-инженеров и пройдёте все этапы отбора, то уже совсем скоро будете:
✔️ Обучать Vision, 3D/CAD и омни-модальные модели на тысячах A100/H100.
✔️ Создавать live-ассистента на edge-устройствах, а также базовые модели VLA для промышленных проектов: автоматизированных фабрик, автопилотов и роботов.
✔️ Работать с документами: Document Intelligence и разработка VLM OCR.
✔️ Развивать мультимодальную инфраструктуру: от инференса генеративных моделей до создания и авторазметки синтетических данных
Дублируем ссылку на регистрацию — до встречи 4 октября!
📢 Hugging Face запускает *FineWiki Viewer*
Сегодня Hugging Face сообщает о выпуске интерактивного инструмента *FineWiki Viewer* - визуальной оболочки для работы с датасетом FineWiki, содержащим в себе качественно извлечённые данные из Википедии на более чем 300 языках.
То есть теперь исследователи и инженеры могут не просто скачивать сырые тексты, а исследовать язык-данные визуально: искать темы, оценивать баланс языков и анализировать структуру.
Новая возможность - ещё один шаг Hugging Face в построении “Экосистемы данных для открытой модели ИИ”, где не только модели, но и доступные и хорошо документированные данные становятся первым ресурсом.
https://huggingface.co/spaces/HuggingFaceFW/finewiki-viewer
🔍 Глубокое исследование проблем с ACPI на ноутбуках ASUS ROG
Этот репозиторий посвящен анализу проблем с производительностью на ноутбуках ASUS ROG, вызванным ошибками в прошивке ACPI. Исследуются причины задержек и прерываний, влияющих на работу системы, включая аудио и графику. Используются инструменты для диагностики и трассировки, чтобы выявить корень проблемы.
🚀Основные моменты:
- Анализ проблем с производительностью на ASUS ROG.
- Использование LatencyMon для выявления задержек.
- Трассировка ACPI с помощью ETW для детального анализа.
- Обнаружение системных ошибок и их влияние на работу GPU.
📌 GitHub: https://github.com/Zephkek/Asus-ROG-Aml-Deep-Dive
#c
🖥 Полный гайд: защита от SQL-инъекций для разработчиков
SQL-инъекции остаются одной из самых частых и опасных уязвимостей в веб-приложениях. Ошибка в одном запросе — и злоумышленник получает доступ к базе данных, паролям и пользовательским данным.
В этом материале — полный практический разбор:
как именно происходят SQL-инъекции, какие ошибки разработчиков к ним приводят, как их распознать в коде и главное — как защититься.
Разберём реальные примеры на Python, PHP и Go, посмотрим, как атакующий «взламывает» запрос, и научимся писать безопасный код с параметризованными запросами и ORM.
Это не теория, а руководство, которое поможет понять уязвимость изнутри и навсегда закрыть её в своих проектах.
👉 Читать гайд
🧬 ShinkaEvolve: Эволюция программ с помощью ИИ
ShinkaEvolve — это фреймворк, который сочетает большие языковые модели с эволюционными алгоритмами для автоматизации научных открытий. Он позволяет улучшать научный код, используя креативные возможности ИИ и оптимизацию через эволюцию, поддерживая параллельную оценку кандидатов.
🚀 Основные моменты:
- Комбинирует LLM и эволюционные алгоритмы.
- Поддерживает параллельную оценку на локальных машинах и кластерах.
- Хранит архив успешных решений для передачи знаний.
- Оптимизирует производительность при сохранении корректности кода.
- Идеален для научных задач с доступными проверяющими.
📌 GitHub: https://github.com/SakanaAI/ShinkaEvolve
#python
🤖 Tongyi DeepResearch: мощная языковая модель для глубокого поиска
Tongyi DeepResearch — это языковая модель с 30,5 миллиарда параметров, специально разработанная для глубоких информационно-ориентированных задач. Она демонстрирует выдающиеся результаты на различных бенчмарках, включая Humanity's Last Exam и WebWalkerQA, благодаря автоматизированному синтезу данных и передовым методам обучения с подкреплением.
🚀Основные моменты:
- Высокая производительность на сложных задачах поиска.
- Полностью автоматизированный процесс синтеза данных.
- Совместимость с несколькими парадигмами вывода.
- Эффективное обучение с использованием данных агентных взаимодействий.
📌 GitHub: https://github.com/Alibaba-NLP/DeepResearch
#python
🎥📊 SpatialVID: Обширный видеодатасет с пространственными аннотациями
SpatialVID предлагает более 21,000 часов видео с детализированными 3D аннотациями, включая позиции камер и карты глубины. Этот датасет создан для улучшения моделей пространственного интеллекта и подходит для исследований в области видео и 3D-визуализации.
🚀Основные моменты:
- Более 2.7 миллиона клипов с разнообразными сценами
- Аннотации включают динамические маски и структурированные подписи
- Поддержка реальных динамических сцен с точными данными о движении камер
- Уникальный ресурс для повышения обобщающей способности моделей
📌 GitHub: https://github.com/NJU-3DV/SpatialVID
#python
📚 Эта статья представляет метод Chain-of-Retrieval Augmented Generation (CoRAG), который улучшает качество генерации ответов путем поэтапного извлечения релевантной информации!
🌟 В отличие от традиционных подходов, CoRAG динамически реформулирует запросы, улучшая результаты на сложных задачах, таких как мультихоп-вопросы. Эксперименты показывают значительное улучшение точности по сравнению с существующими методами.
🔗 Ссылка: *клик*
@bigdatai
🛠️ AI SDK Devtools: Инструмент для отладки и мониторинга AI приложений
AI SDK Devtools предоставляет мощные возможности для отслеживания событий, отладки вызовов инструментов и мониторинга производительности в реальном времени. Он позволяет фильтровать события, визуализировать использование токенов и перехватывать потоки данных AI SDK.
🚀Основные моменты:
- Реальное время мониторинга событий AI
- Отладка вызовов инструментов с параметрами и результатами
- Мониторинг производительности (скорость потоков)
- Фильтрация событий по типу и имени инструмента
- Визуализация использования контекста и токенов
📌 GitHub: https://github.com/midday-ai/ai-sdk-devtools
#typescript
Сэм Альтман рассказал очень любопытную деталь о Sora.
Многие правообладатели наоборот хотят, чтобы их персонажи чаще использовались в видео, созданных с помощью Sora.
Пока OpenAI старается провести грань между конфиденциальностью и защитой, владельцы прав всё чаще просят больше открытости и видимости.
Они поняли, что когда пользователи создают креативные или вирусные видео с их персонажами, это повышает вовлечённость аудитории и популярность франшиз.
Ограничивая использование, можно потерять охват - поэтому для многих теперь открытость стала выгодой, а не угрозой.
🟠Полное интервью
✔️ Ling-1T - новая модель от inclusionAI с 1 триллионом параметров
Модель на 1 трлн, из них ≈ 50 млрд активны на токен (MoE-архитектура).
Она обучена на 20 трлн+ токенов, специально отобранных для задач логического мышления и рассуждений. Контекст: 128 000 токенов.
Построена на базе Evo-CoT (Evolutionary Chain of Thought) и Linguistics-Unit RL - нового метода обучения для масштабируемых рассуждений. При помощи Evo-CoT модель постепенно улучшает баланс между точностью рассуждений и вычислительной эффективностью. То есть с каждым шагом она пытается делать рассуждения «глубже», но не слишком дорого по ресурсам.
Моделька демонстрирует сильные результаты в задачах кода, математики, логики и фронтенд-генерации.
В архитектуре задействованы Mixture-of-Experts (1/32 активация), MTP слои и маршрутизация экспертов.
Ling-1T показывает, что огромные модели можно сделать не только мощными, но и экономичными.
https://huggingface.co/inclusionAI/Ling-1T
@ai_machinelearning_big_data
#Ling1T #AI #ML #OpenSource #Reasoning #TrillionScale #FP8
У вас есть 404 секунды, чтобы разобраться, зачем ML-разработчикам нужен MCP
Model Context Protocol — это опенсорсный стандарт, который позволяет LLM напрямую взаимодействовать с IDE, таск-трекерами, БД и другими сервисами.
То есть агент может не только писать код, но и:
— ставить задачи в трекере,
— запускать автотесты,
— проверять безопасность,
— деплоить в облако.
Больше никаких «костылей» с отдельными интеграциями — один протокол закрывает весь цикл ML-разработки.
Подробнее — в выпуске «404 секунды» на YouTube или VK Видео
Команде Kandinsky нужны именно вы? Сейчас узнаем! 😏
1) Разрабатывать и внедрять техники ускорения инференса.
2) Использовать и дорабатывать существующие ML-компиляторы.
3) Улучшать процессы обучения с помощью исследований.
Если вы трижды ответили «да» — добро пожаловать на One Day Offer, который пройдёт 11 октября.
Зарегистрироваться!
🐦 X открыл исходники алгоритма "For You"
Как работает лента рекомендаций в 7 шагах:
1️⃣ Сырые данные (вход):
- соцграф (кто кого фолловит),
- вовлечённость (лайки, ретвиты, ответы, закладки),
- данные о пользователе (клики, профиль, поведение).
2️⃣ Feature Engineering:
- GraphJet — граф твитов в реальном времени
- SimClusters — объединение в коммьюнити ("AI Twitter", "NBA Twitter")
- TwHIN — карта связей пользователь↔твит
- RealGraph — сила связей
- TweepCred — скоринг доверия
- Trust & Safety сигналы
3️⃣ Candidate Sourcing (Home Mixer):
Разные миксеры (CR Mixer, UTEG, FRS) вытягивают твиты из разных пулов → больше разнообразия.
4️⃣ Heavy Ranker (ML-модель):
Нейросеть предсказывает, что вам зайдёт: лайки, ретвиты, ответы, время чтения.
5️⃣ Фильтры и эвристики:
- социальное доказательство
- разнообразие авторов
- блок спама/NSFW/мутов
- баланс контента
- защита от «замыливания»
6️⃣ Микс:
Рекламные твиты + рекомендации «кого фолловить» → в ленту.
7️⃣ Что это значит для вас:
- выбери нишу
- пиши ценные посты
- отвечай по делу в своей теме
→ вырастишь аудиторию и найдёшь людей/идеи для бизнеса.
https://github.com/twitter/the-algorithm
#Twitter #ForYou #AI #RecommenderSystems
🔥 7 бесплатных интерактивов для аналитиков
Эти сервисы — не просто игрушки, а мощные симуляторы, которые помогают прокачивать аналитику через практику.
Они отлично подходят для подготовки к собеседованиям, изучения новых концепций или просто для того, чтобы «залипнуть» с пользой.
Вот подборка, в которую я сам возвращаюсь снова и снова:
1️⃣ Симулятор стартапа — teachmegrow.com
2️⃣ A/B-тесты на практике — lukasvermeer.nl/confidence
3️⃣ Эволюция доверия — notdotteam.github.io/trust
4️⃣ UX-игра на внимательность — cantunsee.space
5️⃣ UX Arcade — uxcel.com/arcade
6️⃣ Вероятности и статистика на пальцах — seeing-theory.brown.edu
7️⃣ Алгоритмы в картинках — visualgo.net
💡 Сохраняйте, проходите и делитесь с коллегами — это реально полезный интерактив.
🌌 xAI готовит Grokipedia — открытую базу знаний, где миссия одна: правда.
📖 Что известно:
- Это будет полностью открытый репозиторий знаний без ограничений на использование.
- Основан только на проверенных фактах и правде.
- Задуман как источник, которому смогут доверять и люди, и ИИ.
✨ Почему это важно
Grokipedia — часть миссии xAI: понять Вселенную и дать доступ к истине в её чистейшей форме.
🔮 Grokipedia уже близко...
#xAI #AI #knowledge #opensource