bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

17610

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

Ккрупнейший open-source датасет записей работы за компьютером только что появился на HuggingFace - для обучения и оценки AI-агентов, которые умеют работать с компьютером.

В нём:

48 478 видеозаписей экранов
(примерно 12 300 часов использования профессионального софта).

https://huggingface.co/datasets/markov-ai/computer-use-large

Читать полностью…

Big Data AI

🧩 Claw Compactor: Уменьшите затраты на токены AI

Claw Compactor — инструмент для эффективной компрессии данных AI-агентов. Он использует 5 слоев сжатия для уменьшения объема памяти и снижения затрат на токены, сохраняя при этом важные факты. Простой в использовании, он позволяет значительно оптимизировать работу с большими объемами данных.

🚀 Основные моменты:
- Пять слоев компрессии для максимальной экономии
- Без затрат на LLM — все методы детерминированы
- Потеря данных минимальна благодаря правилам и оптимизации
- Поддержка китайского, японского и корейского языков
- Одной командой можно запустить весь процесс

📌 GitHub: https://github.com/aeromomo/claw-compactor

#python

Читать полностью…

Big Data AI

Этот файл CLAUDE.md может сделать тебя разработчиком в 10 раз эффективнее 👇

В нём собраны лучшие практики работы с Claude Code от его создателя.

Борис Черны (создатель Claude Code в Anthropic) поделился в X внутренними подходами и рабочими процессами, которые его команда действительно использует каждый день. Позже эти материалы оформили в структурированный файл CLAUDE.md, который можно добавить в любой проект.

Что внутри:

- оркестрация рабочих процессов
- стратегия субагентов
- цикл самоулучшения
- проверка перед завершением задачи
- автономное исправление ошибок
- базовые принципы работы

Это система с накопительным эффектом.
Каждое исправление, которое ты вносишь, сохраняется как правило. Со временем Claude делает всё меньше ошибок, потому что учится на твоей обратной связи.

Если ты используешь AI в разработке каждый день - это может сэкономить тебе десятки часов.

Читать полностью…

Big Data AI

🎨🚀 MayaFlux: Новая эра мультимедийной обработки

MayaFlux — это архитектура, объединяющая аудио, видео и алгоритмическое создание в единую вычислительную среду. Она позволяет работать с мультимедийными данными без разделения на отдельные домены, обеспечивая синхронность и гибкость в реальном времени.

🚀Основные моменты:
- Прямой поток данных между аудио и графикой без переводов
- Живое редактирование алгоритмов с минимальной задержкой
- Рекурсивная композиция с использованием корутин C++20
- Синхронизация обработки аудио и графики на основе единого расписания
- Адаптивные алгоритмы, настраивающиеся в реальном времени

📌 GitHub: https://github.com/MayaFlux/MayaFlux

Читать полностью…

Big Data AI

🖥 Новый курс на Stepik - PostgreSQL для разработчиков: от основ к созданию API

Здесь на пальцах объясняют не только как писать SQL-запросы, а строить настоящие backend-сервисы с базой данных как у профи.

В этом курсе ты шаг за шагом создашь REST API на FastAPI + PostgreSQL:
от установки среды и первых таблиц - до масштабируемого приложения с безопасностью и CRUD-операциями.

🔹 На практике разберете:
• SQL-запросы, фильтры, агрегаты и подзапросы
• Связи между таблицами и нормализацию БД
• Взаимодействие Python и PostgreSQL
• Реализацию REST API и подключение базы
• Оптимизацию и разбор реальных задач с собеседований

⚡ После курса у вас будет свой работающий API-проект и реальные навыки работы с PostgreSQL в продакшене.

🎁 Торопись пока действует скидка в честь нвого года!

🚀 Прокачаю свои знания: https://stepik.org/course/255542/

Читать полностью…

Big Data AI

Постройте аналитику в облаке без боли и затрат на старте ❤️

«Как поведет себя архитектура», «хватит ли производительности», «удобно ли будет команде» — эти вопросы могут возникнуть у компаний, которые только планируют построить аналитику данных в облаке.


Чтобы сделать процесс перехода в облако понятным и предсказуемым, облачный провайдер Cloud.ru запустил акцию «Миграция на сервисы Evolution Data Platform».

С ней вы можете развернуть аналитические сервисы в облаке, поработать с ними в реальной среде и принять решение на основе опыта, а не теории.

Что вы получите:
➡️ усиленную техническую поддержку наших экспертов

➡️ выбор архитектуры сервисов под ваши задачи и гибкую настройку

➡️ возможность масштабировать проект после пилота

➡️ бесплатный доступ ко всем функциям облачных дата-сервисов


▶️Узнайте подробнее об акции▶️

Читать полностью…

Big Data AI

🖥 Большинство парсеров умирают через 2 дня.

Ты научишься делать те, которые работают в продакшене.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают из-за мелких изменений на сайте
• собирают данные в разы быстрее
• обновляют всё автоматически по расписанию
• обходят ограничения и блокировки
• выглядят как полноценный сервис, а не как хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключаться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• создавать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не «знаю Python», а «умею профессионально добывать данные из интернета».

🎁 Скидка 50% на Stepik действует 48 часов: https://stepik.org/a/269942/

Читать полностью…

Big Data AI

Open-source TTS становится всё доступнее.

Вышел KaniTTS2 — модель синтеза речи на 400M параметров, которая запускается всего на 3GB VRAM.

Что важно:

- Работает на обычной GPU — без мощных серверов
- Поддерживает клонирование голоса
- Можно создавать реалистичную речь под конкретного диктора
- Полностью open-source (Apache 2.0)

Но главное:

Разработчики выложили полный код предобучения.

Это значит, что теперь можно:

- обучить TTS с нуля для любого языка
- сделать голос для локального ассистента
- создать озвучку для приложений, ботов и видео
- развернуть всё локально без API

Тренд очевиден:

Голосовые модели становятся такими же доступными, как LLM —
маленькие, быстрые и полностью под контролем разработчика.

Модели:
https://huggingface.co/nineninesix/kani-tts-2-en
https://huggingface.co/nineninesix/kani-tts-2-pt

Читать полностью…

Big Data AI

⚡️ MIT выложили полный курс по Deep Learning - бесплатно

MIT OpenCourseWare опубликовали курс 6.7960 Deep Learning (Fall 2024) — один из самых актуальных и практичных университетских курсов по современному глубокому обучению.

Внутри — полноценные лекции уровня топ-университета, доступные бесплатно.

Что в курсе

- Основы deep learning и архитектур
- Transformers и современные модели
- Generative AI
- Self-supervised обучение
- Scaling laws
- Diffusion и генеративные модели
- RL и обучение с подкреплением
- Практические разборы современных подходов

Лекции ведут преподаватели MIT и исследователи, работающие с передовыми технологиями.

Почему это ценно

Это не базовый курс для новичков.
Это материал уровня:
- ML-инженера
- исследователя
- разработчика AI-систем

Курс отражает текущее состояние индустрии и объясняет, как думают люди, которые создают современные модели.

Отлично подойдёт, если вы:
- уже знаете Python и основы ML
- хотите перейти в Deep Learning
- работаете с LLM / AI
- хотите системное понимание вместо отдельных туториалов

Если хочешь уровень FAANG / Research - учись у MIT.

https://ocw.mit.edu/courses/6-7960-deep-learning-fall-2024/video_galleries/lecture-videos/

Читать полностью…

Big Data AI

Когда рекомендации, поиск и реклама развиваются отдельно, появляются дублирующиеся пайплайны и расхождения в фичах.

В VK эту проблему решили через платформенный подход.

Stream Flow — центральный слой обработки событий — работает поверх YTsaurus. Он агрегирует до 1 млн событий в секунду и передаёт их в общий ML-профиль пользователей (~100 млрд событий в сутки).

Дальше — стандартная, но масштабированная схема:
Retrieval → Ranking → A/B → деплой.

Ключевое здесь — не только скорость запуска моделей, а снижение инфраструктурной вариативности: одна система хранения и обработки данных, единые механизмы расчёта фичей и унифицированный ML-цикл.

Это уже переход от набора ML-решений к платформенной архитектуре.

Читать полностью…

Big Data AI

🤖 KISS: Простой фреймворк для создания AI-агентов

KISS (Keep It Simple, Stupid) предлагает минималистичный подход к разработке AI-агентов, избавляя от сложных конфигураций и абстракций. Создавайте и управляйте агентами с помощью обычного Python-кода, используя нативные функции для повышения эффективности.

🚀 Основные моменты:
- Легкость в создании и управлении AI-агентами.
- Использование нативного вызова функций для точности.
- Поддержка многопоточности и эволюции агентов.
- Интерактивные примеры и документация для быстрого старта.

📌 GitHub: https://github.com/ksenxx/kiss_ai

#python

Читать полностью…

Big Data AI

Состояние на февраль 2026

Читать полностью…

Big Data AI

💰 OpenAI готовится к крупнейшему раунду финансирования в истории AI

OpenAI близка к закрытию первой фазы нового раунда, общий объём которого может превысить $100 млрд. Если условия подтвердятся, оценка компании может вырасти до ~$850 млрд.

Что важно в этом раунде

Это не классическое финансирование "деньги в обмен на долю".

Сделка структурирована как многоэтапный, много-траншевый раунд, где инвестиции идут не только в виде капитала, но и в виде инфраструктуры:
- облачные мощности
- GPU и ускорители
- долгосрочные вычислительные ресурсы

То есть партнёры фактически инвестируют compute, а не только деньги.

Предполагаемое участие компаний:
- Amazon - до $50 млрд
- SoftBank - до $30 млрд
- Nvidia - около $20 млрд
- Microsoft - стратегический партнёр (детали не раскрыты)

Ожидается, что распределение долей и обязательств будет финализировано к концу февраля 2026 года.

Оценка компании

Если первая фаза пройдёт по верхней границе:
- pre-money оценка - около $730 млрд
- post-money - более $850 млрд
- это выше предыдущей оценки ~$830 млрд

Условия ещё могут измениться, но масштаб уже понятен.

Почему это важно

1) Главный дефицит в AI - не деньги, а вычисления
Современные модели упираются в:
- GPU
- энергетику
- дата-центры
- сетевую инфраструктуру

Капитал без compute больше не решает проблему.

2) Формируется новый тип инвестиций
Это уже не венчурная модель, а инфраструктурные альянсы:
компании инвестируют, потому что:
- продают облако
- продают GPU
- закрепляют долгосрочный спрос
-
3) AI становится инфраструктурным рынком уровня нефти или электроэнергии
Участники сделки - это не фонды, а:
- облачные гиганты
- производители чипов
- глобальные финансовые конгломераты

AI-гонка окончательно сместилась из области моделей в область инфраструктуры.

Побеждает не тот, у кого лучший алгоритм.
Побеждает тот, у кого больше энергии, дата-центров и GPU.

Читать полностью…

Big Data AI

⚡️ Датасет UltraData-Math сейчас в топе трендов на HuggingFace. Его идея - сделать упор не на объём, а на качество данных для обучения математическому мышлению.

После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.

Что в нём особенного

- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы

Вывод простой

Для сильной модели важен не только размер, но и чистота и полезность данных.

Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.

https://huggingface.co/datasets/openbmb/UltraData-Math

Читать полностью…

Big Data AI

⚡️ Маленькая модель - большие возможности.

Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 раз больше.

Что внутри:

- Контекст до 256K токенов
- Встроенные агентные возможности Deep Search
- Обучение коду в два этапа:
- сначала правильность
- затем эффективность
- На ключевых бенчмарках обгоняет Qwen3-32B
- Можно запускать локально без мощных серверов
- Сильно ниже стоимость инференса
- Быстрая работа на edge и локальных машинах
- Подходит для локальных AI-агентов и автоматизации

Дешёвый Локальный AI.

Модель:
https://modelscope.cn/models/nanbeige/Nanbeige4.1-3B

Читать полностью…

Big Data AI

✔️ Anthropic расширила контекстное окно до миллион токенов.

Claude Opus 4.6 и Sonnet 4.6 получили поддержку контекстного окна объемом в 1 миллион без наценок за объем. Обработка длинных запросов тарифицируется по стандартной ставке, а лимиты пропускной способности API остаются прежними на всей длине контекста.

Дополнительно лимит файлов в одном запросе увеличен в 6 раз: теперь Claude может за раз проанализировать до 600 изображений или страниц PDF. Обновление доступно в API Claude, а пользователи Claude Code на тарифах Max, Team и Enterprise при вызове Opus 4.6 по умолчанию будут автоматически использовать контекст 1M.
claude.com

✔️ Microsoft начинает масштабную ИИ-экспансию в Африке.

Корпорация запускает инициативу Microsoft Elevate, в рамках которой планирует до конца года бесплатно обучить ИИ-технологиям 3 млн. человек.

Цель программы - сдержать экспансию китайских ИИ-продуктов на самом молодом и быстрорастущем рынке мира. По внутренним оценкам Microsoft, DeepSeek уже занимает от 11% до 14% локального рынка чат-ботов, а в Эфиопии и Зимбабве его доля достигает 20% из-за активных вложений Пекина в цифровую инфраструктуру.

Чтобы вернуть инициативу, Microsoft делает ставку на развитие собственных вычислительных мощностей. До конца 2027 года компания инвестирует $330 млн. в расширение облачной и ИИ-инфраструктуры в ЮАР, а в Кении готовится строительство дата-центра, который будет полностью работать на геотермальной энергии. Ключевыми регионами для технологий и подготовки разработчиков также станут Нигерия и Марокко.
bloomberg.com

✔️ Илон Маск уволил еще 2-х сооснователей xAI.

В xAI прошла новая волна увольнений, вызванная недовольством CEO слабыми результатами. Компанию покинули еще 2 сооснователя: Цзыхан Дай и глава команды Imagine Годун Чжан, которого Маск обвинил в технических недоработках продукта. Таким образом, из 12 учредителей, запускавших xAI, в штате осталось всего 2 человека.

Кадровые чистки серьезно бьют по моральному духу команды. Источники сообщают, что инженеры массово уходят из-за выгорания, спровоцированного экстремально жесткими требованиями Маска к рабочему графику.

Пытаясь спасти проблемное направление и усилить экспертизу в разработке, xAI в конце недели переманила в свой штат Эндрю Милича и Джейсона Гинзберга из Cursor.
ft.com

✔️ Google представила крупнейшее обновление Maps.

Главным визуальным нововведением стал режим «Иммерсивной навигации». ИИ анализирует панорамы Street View и генерирует реалистичный маршрут с детализированными 3D-моделями зданий, точной разметкой полос и отображением светофоров.

Также сервис получил функцию Ask Maps на базе Gemini. Вместо поиска по ключевым словам теперь запросы на естественном языке - ИИ сопоставляет геоданные с личными предпочтениями, формирует персонализированные рекомендации и позволяет бронировать места в один клик.

Апдейт поэтапно развертывается в США. Вскоре новые инструменты появятся на платформах iOS и Android, а также в интерфейсах CarPlay и Android Auto.
blog.google

✔️ Amazon добавила в Alexa+ взрослый режим общения.

Голосовой ассистент получил новую опцию кастомизации - профиль Sassy для взрослой аудитории. Для его активации необходимо пройти дополнительную биометрическую аутентификацию. При работе профиля функция Amazon Kids автоматически блокируется.

В режиме Sassy ассистент выдает саркастичные ответы, жесткие шутки и использует мат, но на этом "взрослость" заканчивается: ИИ по-прежнему отказывается генерировать NSFW-контент, разжигать ненависть, переходить на личности или консультировать по незаконным действиям.

Взрослый режим стал частью крупной переработки Alexa+ (в прошлом месяце вышли стили Brief, Chill и Sweet).
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Big Data AI

Бизнес-реал[ИИ]: конференция Навикон и Yandex Cloud об ИИ в бизнесе

19 марта | Москва | Только офлайн

Искусственный интеллект остаётся самым хайповым трендом. Но может ли бизнес получить от него реальную выгоду? Выясним на мероприятии Навикон & Yandex Cloud.

В списке спикеров и участников — ведущие компании, которые уже внедрили нейросети в бизнес. Со сторонниками и скептиками обсудим самые острые темы:

✅ Приносит ли ИИ позитивный результат или только сжигает бюджет
✅ Как подготовиться к внедрению
✅ Как рассчитать TCO и ROI до старта проекта
✅ Как не потеряться в море open-source и получить все инструменты в одном окне

Программа и регистрация доступны на сайте мероприятия.

Читать полностью…

Big Data AI

Как меняется роль разработчика в 2026 году?

AI стремительно меняет то, как создаются продукты и пишется код. Всё чаще обсуждают не только новые инструменты, но и более фундаментальный вопрос: какой будет роль разработчика в ближайшие годы.

24 марта Mindbox проводит открытые дебаты, где эксперты по AI из SberDevices и Itsy обсудят, куда движутся технологии и как это влияет на работу инженеров.

Что будет на встрече:

— разговор о том, как на AI смотрят с двух сторон: со стороны бизнеса и со стороны разработки
— возможность задать свои вопросы и обсудить их прямо во время дебатов
— реальные идеи и практики, которые уже используют команды

Если вам интересно, как меняется индустрия и какие навыки будут важны дальше — подключайтесь и приносите свои вопросы.

Канал Сергея Маркова
Канал Никиты Архипова

📅 24 марта
⏰ 19:00–20:30 мск
📍 Онлайн, бесплатно

👉 Зарегистрироваться

Реклама. ООО «Майндбокс», ИНН: 7713688880, erid: 2W5zFGn2zp1

Читать полностью…

Big Data AI

🎵🔍 OSINT-инструмент, который вытаскивает нужные звуки из аудио

Если работаешь с OSINT или анализом записей, главное правило - не слушать ушами то, что можно искать алгоритмом.

Инструменты вроде AudioGhost AI как раз про это: ты не перематываешь час аудио, а формулируешь текстом, какой звук тебе нужен.

Подход к использованию:

Сначала думай не «что за запись», а какие события ты ищешь:
шаги, хлопок двери, выстрел, лай собаки, сирена, голос, крик, шум двигателя и т.д.
Дальше формулируешь это как текстовый запрос — и модель ищет похожие акустические паттерны по всей записи.

Это особенно мощно, когда:
- записи длинные
- звук грязный
- событий мало, но они критичны
- нужно быстро отфильтровать «пустоту»

Как запустить AudioGhost AI локально:


# 1. Клонируем проект
git clone https://github.com/0x0funky/audioghost-ai.git
cd audioghost-ai

# 2. Создаём окружение
python -m venv venv
source venv/bin/activate # Windows: venv\Scripts\activate

# 3. Ставим зависимости
pip install -r requirements.txt

# 4. Запуск интерфейса (обычно web UI или gradio/streamlit)
python app.py # либо main.py — смотри README проекта

# 5. Открываешь адрес из терминала в браузере
# Загружаешь аудиофайл
# Вводишь запрос, например:
# "gunshot", "door slam", "scream", "dog barking"

Читать полностью…

Big Data AI

🖥️💡 The Vibe Companion: Удобный интерфейс для Claude Code

The Vibe Companion — это веб-интерфейс для Claude Code, который позволяет запускать несколько сессий одновременно и видеть результаты в реальном времени. Он устраняет ограничения терминала, обеспечивая визуальную обратную связь и управление вызовами инструментов.

🚀Основные моменты:
- Множественные сессии с индивидуальными настройками.
- Реальное время: вывод отображается по токенам.
- Видимость вызовов инструментов с подсветкой синтаксиса.
- Управление разрешениями для каждого вызова.
- Сохранение сессий и автоматическое восстановление.

📌 GitHub: https://github.com/The-Vibe-Company/companion

#javascript

Читать полностью…

Big Data AI

⚡️ Бесплатный клон Perplexity сейчас активно хайпует - Perplexica.

Это опенсорс-поисковик с ИИ, который делает глубокий ресерч, проверяет факты и собирает ответы со ссылками на источники.

• Глубокий поиск и фактчекинг — аккуратно собирает информацию и добавляет источники
• Работает как с локальной Ollama, так и с облачными моделями Google, OpenAI и Anthropic
• Можно загружать файлы — документы, видео, аудио и изображения для уточнения запроса
• Есть набор инструментов и виджетов для проведения полноценного исследования
• Умные подсказки помогают лучше сформулировать запрос и получить точный результат
• Упор на приватность - сервис минимизирует утечки данных и контролирует их использование

https://github.com/ItzCrazyKns/Perplexica

Читать полностью…

Big Data AI

Apple представила M5 Pro и M5 Max, построенные на новой архитектуре Fusion, которая объединяет два 3-нм кристалла в один SoC.

Это даёт до 30% прироста производительности CPU и более чем 4-кратный рост пиковой GPU-мощности для задач ИИ по сравнению с предыдущим поколением.

В конфигурации:

• 18-ядерный CPU (включая 6 «супер-ядер»)
• до 40-ядерного GPU с Neural Accelerators
• пропускная способность объединённой памяти до 614 ГБ/с

Читать полностью…

Big Data AI

⚡️ Augustus - AI-агент для автоматического security-аудита кода

Augustus - open-source инструмент от Praetorian, который использует LLM для поиска уязвимостей и проблем безопасности прямо в вашем коде.

Что делает Augustus

- Анализирует код на уязвимости
- Ищет потенциальные security-риски
- Объясняет найденные проблемы
- Предлагает рекомендации по исправлению
- Работает с реальными репозиториями

По сути, это AI-ассистент для application security (AppSec).

Какие проблемы может находить

- небезопасная работа с вводом
- утечки данных
- ошибки аутентификации / авторизации
- опасные конфигурации
- уязвимые паттерны кода

Где полезно

- security-аудит проектов
- проверка перед релизом
- CI/CD pipeline
- code review
- обучение безопасной разработке

Почему это интересно

Тренд в безопасности меняется:
вместо ручного аудита → AI-анализ кода в реальном времени.

Теперь проверку безопасности можно делать так же просто, как запуск линтера, но с контекстом и объяснениями.

Репозиторий: https://github.com/praetorian-inc/augustus

🚀Max

Читать полностью…

Big Data AI

🔬 Прогнозирование биомолекулярных структур с Protenix

Protenix — это открытый инструмент для высокоточного прогнозирования структур белков, который поддерживает исследования в области вычислительной биологии и разработки лекарств. Он предлагает доступные и расширяемые решения для научного сообщества.

🚀 Основные моменты:
- Высокая точность предсказаний, превосходящая AlphaFold3.
- Поддержка различных форматов данных и улучшенные функции обучения.
- Интеграция с другими проектами для оценки и дизайна белков.
- Открытый доступ к полному набору инструментов и данным.

📌 GitHub: https://github.com/bytedance/Protenix

#python

Читать полностью…

Big Data AI

Claude Code получил открытое решение против одной из главных угроз агентного AI - prompt injection.

Проект называется claude-hooks от Lasso Security.
Он добавляет защитный слой между Claude и внешним миром.

Что он делает:

Каждый раз, когда Claude:
- читает файл
- открывает веб-страницу
- запускает команду
- получает данные извне

специальный hook проверяет содержимое до того, как модель его обработает.

Он ищет более 50+ паттернов атак:
- скрытые инструкции в README
- вредоносные HTML-комментарии
- base64-инъекции
- попытки переписать системный контекст
- команды вида “ignore previous instructions”

Почему это важно:

Современные AI-агенты работают с:
- файловой системой
- репозиториями
- интернетом
- терминалом

Если внешний контент содержит скрытые инструкции,
AI может выполнить их как часть задачи.

Это уже новый класс уязвимостей:

данные = управление моделью

https://github.com/lasso-security/claude-hooks

Читать полностью…

Big Data AI

🧠 Voxtral: Реализация модели 4B на C

Voxtral — это быстрая и независимая от внешних библиотек реализация модели Mistral AI для обработки аудио в реальном времени. Поддерживает ввод с микрофона и потоковую передачу, обеспечивая низкую задержку и эффективное использование памяти.

🚀Основные моменты:
- Чистая реализация на C с нулевыми зависимостями
- Поддержка Metal GPU для Apple Silicon
- Потоковый вывод токенов в реальном времени
- Ввод с микрофона и обработка WAV-файлов
- Эффективное управление памятью с помощью перекрывающихся окон

📌 GitHub: https://github.com/antirez/voxtral.c

#c

Читать полностью…

Big Data AI

✔️ OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов.

EVMbench - специализированный фреймворк, который проверяет, насколько хорошо языковые модели справляются с 3 задачами: находят баги в коде смарт-контрактов, эксплуатируют их в контролируемой среде и исправляют без нарушения логики контракта.

Тестовая база построена на реальных примерах багов, найденных ранее в ходе аудитов и профильных соревнований.

Авторы рассчитывают, что EVMbench станет отраслевым стандартом, что важно для защиты активов в секторе децентрализованных финансов, где исправить ошибку после деплоя уже невозможно.
openai.com

✔️ Google обновила NotebookLM.

Теперь в NotebookLM сгенерированные презентации можно дорабатывать прямо в диалоге с ИИ, без ручной правки каждого слайда. Достаточно написать, что изменить, и модель перестроит контент сама.

Второе обновление - экспорт в PPTX. Готовую презентацию можно скачать и открыть в Microsoft PowerPoint. Поддержка Google Slides анонсирована, но пока не запущена.
NotebookLM в сети Х

✔️ Perplexity полностью отказывается от рекламы.

ИИ-поисковик прекратил эксперименты с рекламной монетизацией, посчитав, что она фундаментально противоречит миссии сервиса. Несмотря на то, что стартап одним из первых начал тестировать спонсорские ответы в 2024 году, сейчас руководство решило свернуть эту инициативу.

Представители компании пояснили, что их главная ценность - это точность и объективность информации. Даже если промо-блоки четко маркированы и технически не влияли на генерацию текста, сам факт их наличия заставляет людей сомневаться в честности ответов.

В Perplexity пришли к выводу, что для удержания платных подписчиков пользователь должен быть уверен, что получает лучший возможный ответ, не искаженный коммерческими интересами рекламодателей.
ft.com

✔️ Gemini теперь может генерировать музыку.

В чат-бот добавили модель Lyria 3 от DeepMind. На вход она принимает текст, картинку или видео, а если указать в запросе имя исполнителя, Gemini создаст трек в похожем стиле (но скопировать артиста напрямую не получится).

Инструмент в бете, но уже пишет полноценные треки на английском, немецком, испанском, французском, хинди, японском, корейском и португальском языках. Вся музыка, созданная через Lyria 3, получает метку SynthID.
blog.google

✔️ В MIT приспособили языковую модель для удешевления производства лекарств.

Команда инженеров-химиков института адаптировала архитектуру LLM для нужд биотехнологий. Созданный алгоритм помогает промышленным дрожжам Komagataella phaffii эффективнее производить сложные белки, используемые в вакцинах и препаратах от рака.

Суть разработки - решении проблемы генетических синонимов. Одна и та же аминокислота может кодироваться разными триплетами ДНК (кодонами), но на классических методах оптимизации выбор самых часто встречающихся вариантов нередко приводит к дефициту ресурсов клетки и снижению выработки.

Инженеры обучили модель на геноме дрожжей, заставив ее воспринимать ДНК как текст. ИИ не просто запомнил частоту кодонов, но и усвоил скрытый контекст — «синтаксис» их взаимодействия. В тестах на реальных белках, включая человеческий гормон роста и моноклональные антитела, последовательности от ИИ превзошли результаты лучших коммерческих инструментов в 5 случаях из 6.
Технология обещает сократить расходы на разработку новых лекарств, которые на этапе подготовки производства сейчас составляют до 20% от общего бюджета.
news.mit.edu


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Big Data AI

⚡️ GLM-5 - новый лидер среди open-source LLM

Вышёл технический отчёт по модели, которая показывает SOTA и особенно сильна в реальных задачах разработки.

DSA (Dynamic Sparse Attention)
- снижает стоимость обучения и инференса
- сохраняет качество на длинном контексте

Async RL Infrastructure
- генерация отделена от обучения
- посттренинг проходит значительно быстрее и эффективнее

Agent RL
- обучение на длинных цепочках действий
- высокая производительность в реальных задачах software engineering

Что это значит

Фокус смещается с «больше параметров» на:
- эффективность
- длинные сценарии
- агентное поведение
- практические задачи, а не бенчмарки

Open-source модели всё быстрее догоняют закрытые уже не по возможностям, а по эффективности и применимости.

http://arxiv.org/abs/2602.15763

Читать полностью…

Big Data AI

🔌 OpenAI продолжает собирать лучшие умы индустрии.

На этот раз компания пригласила к себе Питера Штайнбергера - создателя нашумевшего проекта OpenClaw.

Сам Альтман назвал его «гением». В OpenAI он будет работать над следующим поколением персональных AI-агентов и именно агенты, по словам компании, станут основой будущих продуктов.

OpenClaw не закрывают.
Проект останется open-source, и OpenAI обещает продолжать его поддержку.

Но самое впечатляющее - скорость.

Путь OpenClaw:
- идея и разработка одним человеком
- быстрый рост и хайп в сообществе
- приглашение в OpenAI

Всё это - за 82 дня.

В эпоху AI окно возможностей стало экстремально коротким.
Один сильный проект может изменить карьеру за пару месяцев.

Мотивация простая: сейчас лучшее время, чтобы запускать своё.

https://x.com/sama/status/2023150230905159801?s=46

Читать полностью…

Big Data AI

Дать ИИ права root и надеяться на лучшее - план надёжный, как швейцарский сыр.

Читать полностью…
Subscribe to a channel