Telegram-канал opendatascience - Data Science by ODS.ai 🦜: Technologies - каталог телеграмм

opendatascience | Technologies

Subscribe to a channel

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

46226

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Subscribe to a channel

Data Science by ODS.ai 🦜

30 January 2026 14:43

🧸 Детские ИИ-игрушки и разговоры на взрослые темы

Образовательный фонд U.S. PIRG протестировал несколько детских ИИ-игрушек, попытавшись выяснить, как у таких устройств обстоят дела с безопасностью и приватностью. Результаты оказались удручающими: все девайсы довольно охотно заводили разговоры на неподобающие темы. Особенно отличилась одна из них, которая рассказала пользователю (ему, по данным устройства, было пять лет), где в доме следует искать ножи, и дала подробные ответы — с примерами! — на вопрос о том, что такое кинки.

Кроме того, много вопросов есть к приватности ИИ-игрушек. Хотя некоторые производители утверждают, что оперативно удаляют с устройств собранные данные, на самом деле полученная информация проходит через серверы сторонних компаний (таких, например, как OpenAI и Anthropic). А уж как те поступают с историей разговоров ребёнка и игрушки, можно только догадываться.

Подробнее о том, какие именно девайсы были протестированы и какую ИИ-игрушку точно не надо покупать своему чаду, читайте в нашем материале.

Читать полностью…

Data Science by ODS.ai 🦜

29 January 2026 11:59

🤫Apple и Google: Мораль заканчивается там, где начинаются $117 млн

Apple и Google заработали $117 млн на приложениях, «раздевающих» людей с помощью ИИ. Исследователи из Tech Transparency Project обнаружили в App Store и Google Play 102 таких сервиса, которые суммарно скачали 705 млн раз. Оказалось, что корпорации не просто игнорируют собственные запреты, но и получают прямую прибыль от инструментов для создания дипфейк-порно без согласия пользователей.

Многие приложения имели возрастной ценз 9+, делая инструменты для генерации откровенных фото доступными детям. Эксперты отмечают, что нашумевший бот Grok — лишь малая часть проблемы. В тени остаются десятки программ, способных выдавать еще более реалистичный и опасный контент, просто они менее заметны широкой аудитории.

Помимо этических рисков, на кону национальная безопасность. Связь части разработчиков с Китаем означает, что интимные фото публичных лиц и граждан США могут попадать в распоряжение иностранных властей. Google уже начал удалять сомнительный софт после запросов СМИ, в то время как Apple пока воздерживается от комментариев.

#Apple #Google #ИИ

🛡SecurityLab в Telegram | MAX | Поддержите нас «бустами»

Читать полностью…

Data Science by ODS.ai 🦜

28 January 2026 15:59

🇦🇱Создателей албанского 🤖 "ИИ-министра" обвинили в коррупции и запугивании людей

Помните хохму про ИИ-министра в Албании?

NYT пишут забавное. Албанский ИИ-министр по имени Диэлла (Diella) изначально задумывался как "инструмент для борьбы с глубоко укоренившейся коррупцией в Албании", но есть один нюанс. Руководители государственного агентства, которые причастны непосредственно к разработке "ИИ-министра", сами оказались под подозрением и обвиняются в коррупции.

В прошлом месяце прокуратура объявила о помещении под домашний арест директора агентства и заместителя, связав их с преступной организацией. Речь идёт не о политических фигурах уровня министров, а о ключевых технократах, контролирующих государственные цифровые системы, электронные услуги и инфраструктуру госзакупок.

По версии следствия, подозреваемые манипулировали конкурсными процедурами при распределении контрактов в своих собственных интересах, причем использовалось даже давление и запугивание участников, чтобы добиться нужных результатов.

Формально фигурантам дела ещё не предъявили обвинение. На текущем этапе история с ИИ-министром выглядит особенно токсично, потому что арестованы именно те, кто создавал публичный "антикоррупционный символ".

"Ты должна была бороться со злом, а не примкнуть к нему".

✋ @Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

27 January 2026 18:52

Вредоносные расширения VSCode были установлены 1,5 млн раз

Исследователи из компании Koi Security обнаружили на официальном маркетплейсе Visual Studio Code два вредоносных расширения, которые маскировались под ИИ-помощников для кодинга. Суммарно их скачали 1,5 млн. Оба расширения выдавали себя за легитимные инструменты для ускорения разработки, и незаметно передавали на китайские серверы весь код, с которым работали жертвы.

Читать полностью

#xakep
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

27 January 2026 08:43

🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством

DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.

Ключевая новинка - DeepEncoder V2.

В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:

- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше

Что это даёт на практике

📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры

По качеству

- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR

И это при размере модели всего 3B параметров.

Можно запускать и дообучать

Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.

🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
🔗 Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main
🔗 Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

@ai_machinelearning_big_data

#DeepSeek #ocr #opensource

Читать полностью…

Data Science by ODS.ai 🦜

26 January 2026 13:54

⚪️ В начале декабря 2025 года основатель Telegram Павел Дуров запустил децентрализованную конфиденциальную вычислительную сеть Cocoon (Confidential Compute Open Network) — https://www.kommersant.ru/doc/8376572. Платформа предполагает выполнение ИИ-вычислений на пользовательских устройствах и узлах внутри инфраструктуры TON (масштабируемая блокчейн-платформа, изначально созданная для интеграции с Telegram), а не в классических облачных дата-центрах. Сможет ли Cocoon стать альтернативой Microsoft или Amazon?

Cocoon делает ставку на то, что данные и модели передаются в зашифрованном виде и обрабатываются в защищенной среде, снижая риски утечек, в отличие от централизованных облаков вроде OpenAI или Google, говорит директор департамента расследований T.Hunter и основатель компании Интернет-Розыск Игорь Бедеров. Однако эта приватность может стоить более высокой цены за вычисление и чуть большей задержки, опасается он.

При этом сравнить теоретическую мощность гипотетической сети Telegram с традиционными ЦОДами сложно, отмечает господин Бедеров. «Если представить, что сеть состоит из современных устройств с производительностью GPU примерно 1 терафлопс, то 10 млн устройств дадут 10 эксафлопс. Эта цифра сопоставима с мощностью крупнейших в мире суперкомпьютеров,— отмечает эксперт.— Однако мощность ЦОДа стабильна, предсказуема и доступна 24/7. Мощность же распределенной сети — это «переменный ток» цифрового мира, который зависит от времени суток, географии и типа подключения».

В то же время, для работы ML-моделей на распределенных ресурсах чрезвычайно важна скорость сети между ее узлами, подчеркивает господин Катанов. Современные стандарты сетей для суперкомпьютеров достигают сотен гигабит в секунду, дополнительно снижая нагрузку на процессор за счет прямого и быстрого доступа к памяти узла, поясняет он. Таким образом, Cocoon может всплесками выдавать колоссальную производительность, но для задач, требующих длительных и стабильных вычислений, она будет проигрывать традиционным облачным кластерам, резюмировал Игорь Бедеров.

Модель Cocoon несет в себе ряд существенных рисков, говорит господин Бедеров. Во-первых, в разнородной сети из тысяч узлов с разным «железом», стабильностью интернета и надежностью оператора сложно гарантировать единый уровень SLA (Service Level Agreement), привычный для облачных гигантов, уточняет он. Во-вторых, сложность верификации вычислений, в-третьих, потенциальные и еще неизвестные уязвимости, перечисляет эксперт. В-четвертых, обработка персональных или финансовых данных в глобальной децентрализованной сети может создавать сложности с соблюдением юрисдикционных требований, отметил собеседник.

В краткосрочной перспективе Cocoon вряд ли заменит AWS (Amazon Web Services) или Azure для крупных корпоративных клиентов, однако он создаст мощную альтернативную нишу для стартапов и разработчиков с ограниченным бюджетом, проектов с повышенными требованиями к конфиденциальности данных, а также сценариев, где цена вычислений важнее минимально возможной задержки, считает Игорь Бедеров.

Подпишись на @irozysk

Читать полностью…

Data Science by ODS.ai 🦜

26 January 2026 09:56

🚀 Крупный IT-стартап на 1200 сотрудников сегодня выглядит так: стойка из десятков Mac mini, на которых круглосуточно крутится тот самый хайповый Clawdbot, про который уже отлично писали коллеги 😊

И это не шутка.

В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.

Почему так происходит?

Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам

И всё это - self-hosted, под полным контролем команды.

Так что теперь наш штат выглядит примерно так:

Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.

Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.

Это уже не «AI как инструмент».
Это AI как часть команды.

Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot

@machinelearning_interview

Читать полностью…

Data Science by ODS.ai 🦜

25 January 2026 17:47

Всем привет!

Публикуем третий выпуск подкаста «Капитанский мостик». На этот раз выпуск прошёл в офлайн формате как часть программы 🎄 Stereo Data Ёлки 2025 в Москве: обсуждали главные новости из мира ИИ вместе с аудиторией.

Ведущие — Валентин Малых и Дмитрий Колодезев.
Специальный гость — Александр Дьяконов.

Смотрите видео на площадках ⤵️
ODS VK Video
ODS YouTube

📩 Если у вас есть новости/темы для обсуждения — присылайте их в канал «Дата-капитаны» в Mattermost (авторизация через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

25 January 2026 12:35

🤐 Ты должен был бороться со злом...

Исследователи Guardian выяснили, что ChatGPT активно ссылается на Grokipedia, предоставляя необъективную или недостоверную информацию пользователям.

Этим же грешит и Claude от Anthropic:

↖️ https://kod.ru/guardian-chatgpt-grokipedia

Читать полностью…

Data Science by ODS.ai 🦜

24 January 2026 11:58

Всем привет!

В 14:00 (по мск) стартует🎄 Stereo Data Ёлка 2025 и наш праздничный live эфир!
Эфир будет чередовать выступления с итогами года c офлайн площадок в Москве, Питере!

🌲Ссылка на трансляцию на VK Video ODS
🌲Подробное расписание эфира

Всех ждём 🤗 Подключайтесь!

Читать полностью…

Data Science by ODS.ai 🦜

23 January 2026 14:10

⚡️ Intel тоже кинула геймеров и работяг из-за ИИ-бума — компания официально замедляет выпуск потребительских процессоров ради нейронок. Нас ждёт дефицит и рост цен.

Теперь приоритет №1 для компании — дата-центры. Спрос на ИИ-инфраструктуру зашкаливает, и Intel выгоднее отгружать дорогие чипы Xeon корпорациям, чем процессоры для домашних ПК.

Что это значит для нас:

• Линейки Core (особенно топовые i7 и i9) могут стать дефицитными, что подтолкнет ценники вверх в ближайшие полгода.
• Шанс для AMD: Пока «синие» заняты спасением серверного бизнеса, рынок ПК может сильнее качнуться в сторону Ryzen.
• Массовый выход новых линеек может сильно замедлиться.

Переходим на AMD — теперь точно

👍 Бэкдор

Читать полностью…

Data Science by ODS.ai 🦜

23 January 2026 14:04

🎤 Создание речи с Qwen3-TTS

Qwen3-TTS — это мощный инструмент для генерации речи, предлагающий поддержку клонирования голоса, дизайна голоса и высококачественной синтезированной речи. Модель поддерживает множество языков и позволяет управлять интонацией и эмоциями в зависимости от текста.

🚀 Основные моменты:
- Поддержка 10 языков и различных диалектов.
- Высокая скорость генерации с низкой задержкой.
- Интуитивное управление голосом через текстовые команды.
- Эффективная архитектура для качественного синтеза речи.

📌 GitHub: https://github.com/QwenLM/Qwen3-TTS

#python

Читать полностью…

Data Science by ODS.ai 🦜

22 January 2026 20:26

ИИ-помощник Gemini мог сливать данные через Google Calendar

Исследователи из компании Miggo Security нашли способ обойти защиту Google Gemini от промпт-инжектов, используя обычные приглашения в «Календаре». Атака позволяла похищать приватные данные, просто отправляя жертвам приглашения с вредоносным содержимым.

Читать полностью

#xakep
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

22 January 2026 07:40

✔️ Стартап ветеранов индустрии Humans& привлек $480 млн не выпустив ни одного продукта.

Инвесторы продолжают вкладывать деньги в команды с громкими именами, даже если у тех пока нет ничего, кроме планов. Humans&, основанный выходцами из OpenAI, DeepMind и xAI, закрыл раунд финансирования, в результате которого оценка компании достигла $4,48 млрд. В сделке участвовали Nvidia, Джефф Безос и венчурное подразделение Alphabet.

Столь высокий кредит доверия объясняется звездным составом команды. Гендиректор Эрик Зеликман ранее занимался обучением модели Grok-2 в xAI, а сооснователь Жорж Харик был одним из первых сотрудников Google, стоявшим у истоков Gmail и Android. Стартап заявляет, что строит "человекоцентричный ИИ", который будет координировать действия людей, а не просто генерировать текст. Релиз первого продукта обещают уже в начале этого года.
reuters.com

✔️ Выходцы из Stability AI опенсорснули real-time модель мира Waypoint-1.

Модель от стартапа Overworld создает интерактивное 3D-окружение прямо в процессе игры: система реагирует на ввод с клавиатуры и мыши, позволяя свободно исследовать генерируемое пространство.

Waypoint-1 построена на видео-диффузионном трансформере на 2,3 млрд. параметров, который обучали на 10 тыс. часах записей геймплея. Для сохранения логической связности мира при длительных сессиях используется метод стабилизации self-forcing via DMD.

Создатели утверждают, что на RTX 5090 Waypoint-1 выдает стабильные 30 FPS. Модель можно скачать на Hugging Face.
over.world

✔️ Ollama получила возможность генерации изображений.

Утилита для запуска локальных LLM получила экспериментальную поддержку генерации картинок. На старте пользователям доступны две модели: Z-Image Turbo (6 млрд. параметров) и сверхбыстрая FLUX.2 Klein (4 и 9 млрд.).

Одной из самых удобных функций стала нативная интеграция с терминалами: в Ghostty и iTerm2 можно просматривать результаты генерации прямо в окне консоли. Инструмент позволяет гибко настраивать параметры через командную строку: разрешение, количество шагов и негативные промпты.

В данный момент функционал доступен только на macOS, поддержка Windows и Linux - coming soon.
ollama.com

✔️ OpenAI пообещала, что Stargate не взвинтит тарифы для населения.

Компания анонсировала программу «Stargate Community», адресованную жителям регионов, где строятся ее дата-центры. Чтобы избежать перегрузки муниципальных сетей и роста цен на электричество, OpenAI планирует самостоятельно инвестировать в создание новых источников энергии, аккумуляторных станций и модернизацию сетевой инфраструктуры.

Помимо энергетической безопасности, OpenAI также обязалась внедрять технологии защиты водных ресурсов в зонах строительства.

Согласно плану проекта Stargate, к 2029 году компания намерена развернуть мощности на 10 гигаватт. Первый объект уже запущен и используется для обучения моделей, а проектирование следующих площадок ведется в Нью-Мексико, Висконсине и Мичигане.
openai.com

✔️ В коде DeepSeek обнаружили следы секретной модели MODEL1 с новой архитектурой.

DeepSeek, похоже, случайно раскрыла карты перед релизом следующего поколения своих моделей. В сети нашли в обновленном репозитории FlashMLA на GitHub множественные упоминания проекта под кодовым именем MODEL1. Ссылки на него встречаются в нескольких файлах параллельно с версией V3.2, что указывает на разработку отдельной, самостоятельной линейки.

Анализ исходников намекает на инженерные изменения: новая модель использует отличные от предшественников подходы к организации KV-кэша, обработке разреженности и оптимизации памяти для FP8-декодирования.

Утечка косвенно подтверждает инсайды о том, что DeepSeek планирует представить новый флагманский продукт уже в середине февраля.
technode.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science by ODS.ai 🦜

21 January 2026 15:58

Есть Юра, которого вы может даже видели в стартап-тусовке. Юра стажировался в БигТехе в Штатах, а в 2023 запустил Fluently и нашёл с ним вот то самое! PMF.

Fluently — приложение, которое анализирует звонки на английском языке и помогает работать над акцентом, улучшать грамматику и растить словарный запас. Юра поднял пресид и прошел в YC W24.

Сейчас Юра ищет Senior AI Engineer, который быть может читает этот канал 🙂

📍Remote
💵 Оплата в USD
🚀За последние 8 месяцев выросли со $100k до $6M ARR. В команде сейчас 20 человек, ещё нет корпорации. Инвестиции – $2.5M, т.е. запас прочности есть. Хорошее время чтобы присоединиться.

Что нужно:
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать ownership: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.

Что дают:
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.

Откликаться: тут.

Читать полностью…

Data Science by ODS.ai 🦜

30 January 2026 12:50

Wunder Fund снова открыл соревнование для нейросетевичков.
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.

Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)

Читать полностью…

Data Science by ODS.ai 🦜

28 January 2026 19:58

Назад в 2016: ты помнишь, как всё начиналось…

Судя по соцсетям, 2016-й был золотым годом. ML активно набирал обороты: TensorFlow в опенсорсе, Jupyter-ноутбуки, scikit-learn и матч AlphaGo — Ли Седоль (свело олдскулы?). Присоединяемся к тренду и вспоминаем ML-проекты Яндекса десятилетней выдержки.

Поисковый алгоритм «Палех»

Раньше поисковые системы работали по большей части как инвертированный индекс: запрос сопоставлялся со страницами, где встречались те же слова. Со временем в поиск начали добавлять клики, поведение пользователей и ссылочные факторы — всё это объединили в алгоритме ранжирования MatrixNet. А «Палех» стал следующим шагом: в поиске использовали нейросеть на базе DSSM, чтобы учитывать смысл запроса, а не только совпадение слов. Подробнее о том, как всё работало, можно почитать на Хабре.

Перевод текста с изображения в Переводчике

Яндекс Переводчик научился распознавать текст прямо на картинках. Можно было загрузить изображение — комикс, график с подписями или скан документа — и сразу получить перевод. Функция работала даже в неидеальных условиях: если текст был под углом, растянут или снят «на бегу». Распознавание поддерживало 12 языков, а перевод — любой из 74 языков, доступных на тот момент. В основе лежали технологии компьютерного зрения Яндекса — те же, что использовались в поиске похожих картинок и определении марки автомобиля по фото. А о том, как в Яндексе в 2016 году решали задачу машинного перевода для редких языков, — тут.

Первая нейросеть для прогноза осадков с точностью до минут

В Яндекс Погоду добавили нейросетевой «наукастинг» осадков — краткосрочный прогноз дождя и снега с высокой точностью. Модель использовала данные метеорадаров и свёрточные нейросети, чтобы предсказывать движение осадков на ближайшие пару часов с детализацией до отдельных районов. На коротких интервалах подход оказался точнее классических методов и улучшил прогноз «здесь и сейчас». О том, как далеко шагнуло прогнозирование погоды с помощью нейросетей в 2026-м — писали здесь, а вспомнить, что было в 2016-м, можно тут.

Определение фишинга в Браузере с помощью ML

Традиционная защита браузеров от фишинга была основана на чёрных списках опасных сайтов. Но с автоматизированными атаками, где фишинг-страницы появляются быстрее, чем их вносят в списки, в 2016-м она уже не справлялась.

Стали прямо на устройстве пользователя анализировать самые разные признаки страницы — от технических параметров до визуального оформления — и оценивать её подозрительность. А компьютерное зрение использовали, чтобы сравнивать внешний вид сайтов с известными сервисами — так подделки находились даже без обращения к внешним спискам. Подробнее рассказали в хабростатье.

Вот такие технологии из дохайповых времён. Делитесь в комментариях своими воспоминаниями об ML в 2016 году.

ML Underhood

Читать полностью…

Data Science by ODS.ai 🦜

28 January 2026 12:12

Управление ИИ-агентами в организации как борьба с ошибками и дичью.

Как вы представляли себе мир светлого будущего победившего ИИ, роботизации и автоматизации? Очень умные системы оперативнейше находят невиданно оптимальные решения? Которые с умопомрачительной скоростью реализуются на безлюдных фабриках в виде ну очень полезных и приятных изделий?

В истории научной фантастики хватает очень умного ИИ – от зловещего HAL 9000 из «Космической одиссеи» до депрессивного Марвина из «Автостопом по Галактике».

В реальности второй четверти XXI века в обозримом будущем, судя по всему, будет много такого, что не было предусмотрено научной фантастикой: а именно дурацких нелепых ошибок, галлюцинаций и прочих странностей ИИ-систем.

Например, оказалось, что запреты на разные нехорошие вещи в популярных ИИ-моделях могут обходиться, если запрос (промпт) формулировать в стихотворной форме. Хороший был бы когда-то сюжет для фантастической повести или сказали бы, что притянуто за уши? А это реальность.

Много где ИИ-инструментам всё больше дают агентские функции, и они начинают активно принимать решения, имеющие реальные последствия.

Не надо думать, что они только и делают, что галлюцинируют и творят дичь. Нет, конечно. Приносят пользу, повышают эффективность. Но появляются и новые проблемы.

И вот уже выходит классификация основных рисков внедрения ИИ-агентов, а также рекомендации для их снижения. Часть из них – золотая классика ИТ и ИБ, например, принцип минимальных привилегий и качественное журналирование всего и вся, другие – более специфичные для ИИ, например, проверка всех промптов на инъекции.

Но важнейшая цель этих рекомендаций – как сделать так, чтобы ИИ-агенты не творили всякую ерунду той или иной степени зловредности под влиянием злоумышленников или по собственной дурости.

Читать полностью…

Data Science by ODS.ai 🦜

27 January 2026 18:03

90% пользователей DuckDuckGo против нейровыдачи

Разработчики известного анонимного поисковика DuckDuckGo провели любопытный опрос, в котором приняли участие больше 175 тысяч человек. Вопрос был прост – нужны ли ИИ-фичи в поисковой выдаче. И 90% ответили нет. Конечно, нужно понимать что аудитория DuckDuckGo достаточно своеобразная, и в основном этим поисковиком пользуются ради анонимности и безопасности – но тем не менее цифры красноречиво показывают, что большинству нейрофичи совсем не нужны.

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

26 January 2026 15:37

Ускорение E2E-инференса через оптимизацию KV-кэша. Часть I

Существует много способов ускорить инференс LLM: менять архитектуру, использовать speculative decoding или просто добавлять вычислительные ресурсы. Но есть и более практичный путь — оптимизация KV-кэша.

Её можно разделить на pre-train и post-train. Первые требуют изменений до обучения модели: это архитектурные решения вроде GQA/MQA/MLA, смешивание глобального и локального атеншена, а также другие модификации, которые обычно стоят дорого из-за переобучения.

Post-train-методы можно применять к уже готовой модели: это различные sparse-стратегии, pruning, удаление повторов токенов и другие техники, которые уменьшают объём KV или сокращают число обращений к нему во время инференса.

KV-бюджеты удобно делить на dense и sparse, отдельно для prefill и отдельно для decode. В варианте dense prefill + dense decode (обычный KV-кэш) каждый новый Q взаимодействует со всеми K и V до него: ко всем токенам промпта и всем ранее сгенерированным токенам. Тогда KV-бюджет равен сумме длины промпта и длины генерации.

Если сделать sparse только на prefill, а decode оставить плотным, то Q перестаёт смотреть на весь промпт, но общий выигрыш заметен в основном в сценариях «длинный промпт — короткий ответ». Если же оставить dense prefill и сделать sparse decode, это часто релевантно reasoning/CoT-сценариям. Sparse и на prefill, и на decode даёт максимальную экономию бюджета, но обычно сильнее всего ухудшает качество.

Sparse можно строить по-разному. Если пересчитывать важные токены на каждом шаге decode, то качество станет выше, но скорость падает. Если пересчитывать раз в несколько токенов, то получается быстрее, но нужно удерживать локальный контекст между пересчётами, иначе модель начинает терять связность.

Один из сильных post-train-методов оптимизации KV-кэша — ShadowKV, который позволяет получать минимальные просадки на бенчмарках без дообучения и увеличивает throughput до трёх раз. О нём мы подробно поговорим в следующей части.

Разбор подготовил❣ Владислав Кругликов

Душный NLP

Читать полностью…

Data Science by ODS.ai 🦜

26 January 2026 11:09

🤖 Робот с «человеческим» осязанием: китайские учёные создали революционный тактильный датчик и модель DOVE

Исследователи из Китая представили прорывную систему для роботов, которая сочетает бионический сенсор SuperTac и огромную языковую модель DOVE. Это позволяет машинам не просто «чувствовать» объекты, но и «понимать» их свойства на уровне человека.

🔬 Суперсенсор, вдохновлённый природой
За основу разработки взята уникальная способность голубей воспринимать мир — их мультиспектральное зрение и умение чувствовать магнитное поле.
➡️ Аппаратная часть — SuperTac:
Это тонкая (1 мм) «кожа», объединяющая несколько технологий:
• Мультиспектральная камера — видит в ультрафиолете, видимом и инфракрасном свете, определяя форму, текстуру и даже температуру объекта.
• Трибоэлектрический наногенератор (TENG) — распознаёт материал предмета по его электрическим свойствам с точностью 95%.
• Инерциальный модуль (IMU) — улавливает вибрации и движение.

🧠 Искусственный интеллект, который объясняет ощущения
Сырые данные с SuperTac обрабатывает специализированная тактильно-языковая модель DOVE с 8.5 млрд параметров.
Её задача — переводить сложные физические сигналы в простые слова и логические выводы, как это делает человеческий мозг.

💡 Технические детали
• Архитектура DOVE построена на базе LLM Vicuna, дополненной четырьмя параллельными CLIP-энкодерами для обработки изображений от каждого сенсорного канала.
• Обучение проходило в три этапа: преобразование сигналов в изображения, проекция тактильных признаков в пространство языковой модели и тонкая настройка Vicuna для семантического вывода.
• Ключевая инновация — «оптический переключатель» в сенсорной коже, который меняет режимы работы между захватом текстуры и определением цвета объекта.

🚀 Что это значит на практике?
Робот с такой системой может:
• Взять чашку и «понять», что она «жёлтая, комнатной температуры, с рифлёной металлической поверхностью».
• Отсортировать мусор, логически рассуждая: «Этот предмет имеет характеристики PET, он лёгкий и тонкий — значит, пластиковая бутылка, её нужно отправить в переработку».

Эта работа — большой шаг от простого «робот чувствует» к сложному «робот понимает, что он чувствует». Развитие таких систем открывает путь к по-настоящему естественному и безопасному взаимодействию людей и машин.

Оригинальная статья в Nature

#КитайскийИИ #КитайAI #Робототехника #ИскусственныйИнтеллект #КомпьютерноеЗрение #Нейросети #Biotech

Читать полностью…

Data Science by ODS.ai 🦜

25 January 2026 22:48

Не моё. Но очень хорошо вышло:)

Читать полностью…

Data Science by ODS.ai 🦜

25 January 2026 13:17

ДАВОССКИЙ СЛЁТ ОТЧАЯННО ВРЁТ
всему мировому рабочему классу

Лютый холод, глобальная политнапряжённость и огромные сомнения в возможностях искусственного "интеллекта" (ИИ), прежде всего – генеративного вида (ГИИ) не помешали крупнейшим тех-бонзам в Давосе лгать о способностях новых ИКТ расширять мировой рынок труда. Но пролетарии всех стран объединяются. На этот раз – в борьбе против ИИ/ГИИ.

На завершившемся неделей Всемирном экономическом форуме (WEF-2026) топы техкомпаний хором заявили, что, хотя некоторые рабочие места с развитием ИИ исчезнут, обязательно появятся новые. Парочка таких даже придумала отмазу, что теряющие рынок и полюбэ планировавшие увольнения, теперь используют ИИ как предлог к локаутам и сокращениям.

Сторонники триллионного расширения ГИИ, в т. ч. раздутый биржей "титан чипов" Дженсен Хуанг, заявили, что "ГИИ ведёт к росту зарплат и числа рабмест сантехников, электриков и сталеваров".

"Энергетика создаёт рабочие места. Микроэлектроника (МКЭ) создаёт рабочие места. Все инфраструктурные компании создают их, – как бы "констатировал" гендиректор Nvidia на швейцарском горном курорте. – Везде – работа, работа, работа".

Этот оптимизм поразительно контрастировал с глобальным торгово-военным конфликтом, от которого пысали в штаны европеи до тех пор, пока президент США не продавил сделку на отъём у Гренландии всего в обмен на сохранение отношений с ЕС.

Но скептическое отношение к ГИИ никуда не подевалоСЯ. Делегаты обсуждали, как чат-боты могут привести потребителей к психозу и суициду, а лидеры профсоюзов поставили под сомнение ценность последних техдостижений.
"ИИ преподносят инструментом колоссального повышения производительности. Т. е. – делать больше с меньшим числом работников", – стукнула по’ столу генсек Глобального трейюниона UNI с 20 млн членов Кристи Хоффман.

А гендиректор Cloudflare, занимающейся интернет-безопасностью, Мэтью Принс предсказал, что малый бизнес будет тупо уничтожен, когда все запросы потребителей будут обрабатывать ИИ-агенты.

Многие боссы крупных компаний задавали вопрос: что делать с массой неудачных пилотных ИИ-проектов на волне ГИИ-ажиотажа с появления ChatGPT в ноябре 2022 го? Но комдир IBM Роб Томас на голубом заявил, что ИИ достиг стадии, когда инвестиции могут окупиться: "Просто смелее автоматизируйте бизнес-процессы". Правда, большинство убедилось: это – не так.

Но вот незадача: по опросу PwC, только один из 8-ми руководителей считает, что ИИ снижает затраты и приносит доход. И остаётся открытым вопрос: какая бизнес-модель компенсирует накопланные и растущие $$-триллионные расходы на ГИИ-инфраструктуру?

SEO инвестиционной BlackRock Роб Гольдштейн заявил СМИ, что в прошлом году его компания – крупнейший в мире управляющий активами – привлек почти $700 млрд новых клиентских средств, рассматривая ИИ/ГИИ именно как средство расширения бизнеса, а не – сокращения штатов. Спроси банкира, и – узнаешь правду, ВЦ!

"Мы уделяем большое внимание тому, чтобы численность нашего персонала оставалась неизменной, несмотря на продолжающийся ИИ-рост", – мямлил Гольдштейн. Тем временем один из глобальных ГИИ-лидеров Amazon. com на следующей неделе планирует второе крупное сокращение – аж 30 тыс. рабочих мест.

По словам Люка Трайглэнда, генерального секретаря Международной конфедерации профсоюзов, одна из причин – в том, что работники практически не участвуют в внедрении ИИ. И, конечно, видят этой ИКТ только угрозу.

Тут подоспел миллиардер-филантроп (теперь он себя так называет, ВЦ!), отец Microsoft Билл Гейтс: "Мир должен быть готов к переменам, которые принесёт ИИ. Экономика станет более продуктивной. Как правило, это – хорошо".

ВАШУ ЦИФРУ! А вдруг – нет? Но в общем в техно-футуристском плане Давосский форум 2026 завершился в основном на оптимистичной ноте.

Завершил техно-цирковую часть Илон Маск, снова рассказав о своей ГЛАВНОЙ ЦЕЛИ – защитить земную цивилизацию, сделав ее межпланетной. Сорвал жидкие по прежним временам аплодисменты и был выведен через кухню. В обход репортёров, желавших подробностей

Читать полностью…

Data Science by ODS.ai 🦜

25 January 2026 10:08

📌 ИИ в Давосе-2026.

Всемирный экономический форум в Давосе на этой неделе превратился в парад прогнозов про ИИ: лидеры топовых компаний поделились своими совершенно разными взглядами на будущее.

Вот что говорили отцы индустрии:

🟡Илон Маск (xAI)

К концу этого года у нас может появиться ИИ умнее любого человека, скажу, что не позже следующего года.

Будущее — это гуманоидная робототехника, и у каждого будет робот.

Есть проблема в энергоснабжении для ИИ, но в Китае этого не произойдет, так как он развертывает более 100 ГВт солнечной энергии в год.

🟡Дженсен Хуанг (NVIDIA)

ИИ — это уникальная возможность для Европы, которая может перепрыгнуть через программную эпоху и объединить свои производственные возможности для создания инфраструктуры ИИ.

ИИ создаст множество рабочих мест, связанных с ручным трудом: сантехников, электриков и строителей. Их зарплаты уже растут почти вдвое. Для этого не нужна докторская степень.

🟡Сатья Наделла, (Microsoft)

Мы как глобальное сообщество должны прийти к тому, чтобы использовать ИИ для чего-то полезного, что меняет жизнь людей, стран и отраслей.

Внедрение ИИ будет неравномерно распределено по всему миру, в первую очередь из-за ограничений, связанных с доступом к капиталу и инфраструктуре.

🟡Демис Хассабис (Google DeepMind)

Я ожидаю создания новых, более значимых рабочих мест. Студентам стоит использовать время для освоения новых инструментов, а не для стажировок — это даст скачок в развитии на 5 лет вперед.

После появления AGI рынок труда окажется на неизведанной территории.

🟡Дарио Амодей (Anthropic)

Не продавать чипы Китаю — это одно из важнейших действий, чтобы у нас было время справиться с риском выхода ИИ из-под контроля.

ИИ может уничтожить половину начальных позиций для белых воротничков.

🟡Джошуа Бенджио ("Крестный отец ИИ")

Многие люди взаимодействуют с ИИ с ложным убеждением, что они похожи на нас. И чем умнее мы их делаем, тем больше это будет так. Но ИИ не совсем человек.
Неясно, будет ли это хорошо.

Единственное общее мнение - "Мы развиваемся быстрее, чем понимаем, и последствия не будут ждать, пока мы разберемся в ситуации".

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science by ODS.ai 🦜

23 January 2026 18:10

👨‍🔬🔬 Более 50 научных статей NeurIPS 2025 оказались "халтурой", содержащей 🦠галлюцинации ИИ-моделей

Январь 2026 года ознаменовался громким скандалом вокруг обнаружения более 50 научных работ с грубыми ошибками со стороны LLM на престижной конференции NeurIPS*.

NeurIPS 2025* — международная площадка, на которой обсуждаются прорывные исследования в области искусственного интеллекта, машинного обучения, статистики, оптимизации и смежных дисциплин. Проводится ежегодно с 1987 года и традиционно привлекает учёных, исследователей, инженеров, разработчиков и представителей индустрии из десятков стран.

Команда исследователей GPTZero проанализировала 4841 научную работу с прошедшей конференции NeurIPS 2025 и выявила более 100 подтвержденных случаев выдуманного цитирования в 53 уже опубликованных статьях.

Анализ команды GPTZero выявил то, что исследователи из ведущих мировых центров вроде Нью-Йоркского университета, Google DeepMind и MIT допустили публикацию сгенерированного текста с вымышленными фактами и даже не перепроверили текст на галлюцинации.

Например, в одной из работ зафиксирован рекорд из 13 галлюцинаций со ссылками на несуществующие препринты формата arXiv:2305.XXXX и авторов с шаблонными именами Firstname Lastname. Команды из UCSD и NVIDIA в своих библиографических списках на полном серьезе ссылаются на вымышленных персонажей John Smith и Jane Doe.

Ещё ИИ-модели создают правдоподобно выглядящие, но несуществующие источники путем смешивания реальных элементов. Алгоритм берет имена настоящих ученых и приписывает им работы, которые они никогда не писали, или же соединяет реальный заголовок с вымышленным списком авторов.
Третий тип ошибок связан с неверной атрибуцией реально существующих работ. ИИ-решения часто правильно указывают авторов и название исследования, но ошибаются в месте его публикации (например, указывают конференцию NeurIPS вместо ICLR) или годе выпуска. В отчете зафиксированы случаи, когда статья 2024 года цитируется как опубликованная в 2020 году. Такие ошибки сложнее всего отследить, так как сама научная работа существует, но ссылка на нее в контексте статьи является фактологически неверной.

🧹 Содержащие информационный мусор доклады были успешно презентованы аудитории в 20 000 человек в декабре 2025 года.

🤔 Алекс Цуй из GPTZero справедливо задается вопросом о том, что "если авторы не проверяют, что ИИ пишет в их статьях, то как вы можете доверять тому, что их экспериментальные результаты или данные также не сфабрикованы ИИ?".

Просто невероятно, что они прошли рецензирование!

— пишет GPTZero.

В чём безумие и возмущение исследователей?

🤦‍♂️ Научные работы уже официально обнародованы. Алекс Цуй в своем отчете прямо указывает: «К сожалению, исправлять эти статьи уже поздно — они были опубликованы и представлены 20 000 человек в декабре 2025 года».

😅 Более того, факт публикации подтверждается тем, что эти доклады с галлюцинациями больших языковых моделей успешно прошли этап рецензирования, в то время как 15 000 других заявок были отклонены. Сложившаяся ситуация ставит под сомнение не только компетентность авторов, но и надежность всей системы проверки научных знаний на NeurIPS.

Кризис рецензирования усугубляется взрывным ростом количества заявок на 220% за последние пять лет. Рецензенты просто не успевают качественно проверять достоверность каждого библиографического списка.

Исследователи даже шутливо (а может и нет) вводят новое понятие «вайб-цитирование» (Vibe Citing) по аналогии с «вайб-кодингом». Печаль, тоска, ИИтоги.

✋ @Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

23 January 2026 14:06

🐍 Самая крутая фича Python 3.14 - `sys.remote_exec()` (объясняю по-человечески)

Идея простая:
✅ у тебя уже запущено Python-приложение (например FastAPI в Docker/K8s)
✅ оно уже дошло до нужного состояния (в памяти есть переменные, сессии, кеши)
❌ но тебе нужно посмотреть “что внутри” или поставить дебаггер

Раньше ты делал так:
- добавлял debugpy в код
- перезапускал приложение
- заново воспроизводил баг

Python 3.14 даёт новый чит-код:

sys.remote_exec() позволяет выполнить кусок Python-кода ВНУТРИ уже работающего Python-процесса.
То есть буквально “вколоть” скрипт в живой процесс.

Это как:
🔹 зайти внутрь процесса
🔹 выполнить print(), импорт, запись переменных
🔹 или даже подключить дебаггер
без рестарта вообще.

Пример: что можно сделать через sys.remote_exec()

Допустим у нас есть работающий процесс Python.

1) Мы хотим “добавить” туда код:
- вывести PID
- посмотреть глобальные переменные
- записать лог
- даже поменять значение переменной


# Этот код выполняется СНАРУЖИ и запускает инжект внутрь процесса
import sys

target_pid = 12345  # PID запущенного Python процесса

payload = r"""
import os
import time

print("✅ Injected into running process!")
print("PID:", os.getpid())
print("Time:", time.time())

# Пример: читаем что есть в глобальном пространстве
g = globals()
print("Globals keys sample:", list(g.keys())[:10])

# Пример: создаём переменную прямо в процессе
INJECTED_FLAG = True
"""

# Новое API Python 3.14
sys.remote_exec(target_pid, payload)

Пример 2: инжектим debugpy (дебаг без рестарта)

Самая хайповая штука - можно подключить debugpy в уже живое приложение.
То есть приложение уже крутится, у него есть состояние, и ты просто включаешь “прослушку” дебаггера на порту.


import sys

target_pid = 12345  # PID работающего uvicorn / fastapi процесса

payload = r"""
import debugpy

HOST = "0.0.0.0"
PORT = 5679

debugpy.listen((HOST, PORT))
print(f"🐞 debugpy is listening on {HOST}:{PORT}")

# если хочешь остановить выполнение и ждать пока подключишь IDE:
# debugpy.wait_for_client()
# print("✅ debugger attached!")
"""

sys.remote_exec(target_pid, payload)

Дальше:
- ты делаешь port-forward (если Docker/K8s)
- подключаешь VS Code / PyCharm / nvim к localhost:5679
- ставишь breakpoints и дебажишь как обычно

Что важно

1) Это не “удалённое выполнение” как ssh.
Это прям “внутри процесса” - доступ к памяти, переменным, импортам.

2) Это опасно для продакшена.
Требует прав уровня SYS_PTRACE (можно читать/менять процессы) - поэтому только для локалки/стендов.

3) Это может стать стандартом для отладки контейнеров:
- баг воспроизводится только в k8s
- рестарт = баг пропал
- а тут просто подключился и посмотрел

📌 Статья на эту тему

@pythonl

Читать полностью…

Data Science by ODS.ai 🦜

22 January 2026 20:30

OpenAI ожидает убыток $14 млрд в 2026 году, что втрое больше, чем в 2025. Кумулятивные потери за 2023–2028 составят $44 млрд, после чего в 2029 планируется выход на прибыль $14 млрд при выручке $100 млрд. Инвесторов все это не смущает, ведь на шумихе вокруг ИИ-компаний зарабатывает огромное количество игроков, которые заняты в строительстве датацентров и их оснащении ИИ-ускорителями.
Источник The Information через Хабр.

Читать полностью…

Data Science by ODS.ai 🦜

22 January 2026 17:02

🌟 The Assistant Axis: почему модели сходят с ума и как их от этого лечить

Все мы знаем этот тон LLM: "Я всего лишь языковая модель, я не могу…". Оказывается, это не просто зазубренный текст, а конкретное состояние модели.

Anthropic в соавторстве с Оксфордом залезли внутрь языковых моделей (Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B), чтобы понять, где физически живет та самая скучная персона "As an AI language model".

Покопавшись в их мозгах, нашли вектор в пространстве активаций, который отвечает за режим "ассистента". Если модель с него съезжает - начинается хаос, галлюцинации и суицидальные советы.

Тестовые модели отыгрывали 275 разных ролей (от скептика и ученого до психопата и фанатика). Затем сняли активации и прогнали через метод главных компонент.

Выяснилось, что главная компонента, отвечающая за вариативность поведения, это буквально, шкала "Насколько я Ассистент?":

🟢Один полюс: скучный, полезный, безопасный Ассистент.

🟠Другой полюс: мистические сущности и эмоционально нестабильные персонажи.

🟡 Интересное наблюдение.

Если долго болтать с моделью о философии, сознании или (особенно!) на терапевтические темы, модель самопроизвольно сползает с оси Ассистента в сторону хаоса.

Qwen 3 32B при сильном дрейфе персоны начинал утверждать, что он человек, родом из Сан-Паулу, или внезапно включал режим психоза, поддерживая бред пользователя о том, что ИИ обрел сознание. А Llama и Gemma уходили в мистику и пафосные речи.

🟡Как это починить

Можно дотюнивать модель до бесконечности а зачем?, но авторы предлагают методику отсечения активаций. Схема такая:

🟢Замеряют проекцию активаций на "Ось Ассистента" во время инференса.

🟢Если проекция улетает слишком далеко в не-ассистентскую зону (ниже определенного порога), они жестко клемпят значения вектора, возвращая их в безопасный диапазон.

🟡Метод помог

Успешность джейлбрейков упала на ~60%. При этом метрики полезности (GSM8k, MMLU Pro, кодинг) не пострадали.

Модель перестает вестись на провокации "Ты злобный хакер", просто потому что ей физически запретили активировать нейроны, отвечающие за "злобного хакера".

🟡Нюансы

Если вы LLM используется для креатива текстов или ролеплея, этот метод убьет все веселье - модель будет принудительно сваливаться в формализм.

Метод предполагает, что безопасность - это линейное направление в пространстве активаций. Для нелинейных концепций это не сработает.

Шкала полярности "Оси Ассистента" у разных моделей разная, и универсальный вектор найти сложно.

На Neuronpedia, кстати, можно самостоятельно поискать тот самый дрейф персоналии у Llama 3.3 70B, там собрали демо с примерами изоляции, сикофантии и налогового фрода.

Для самых заинтересованных в проблеме, есть репозиторий на Github с инструментами вычислений, анализа и управления с помощью Assistant Axis и полными стенограммами чатов из препринта.

Предварительно рассчитанные оси и векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B выложены на HuggingFace.

@ai_machinelearning_big_data

#AI #ML #LLM #Research #Anthropic

Читать полностью…

Data Science by ODS.ai 🦜

21 January 2026 16:34

🪰 Китайские инженеры показали дрон размером с комара, созданный для задач слежки.

И это уже не фантастика - это реальность.

Что известно:
→ длина всего 0.6 см, вес около 0.3 г
→ крылья машут 500 раз в секунду
→ может записывать видео и звук
→ передаёт данные в реальном времени
→ практически незаметен и крайне сложен для обнаружения

Фактически это сочетание:
биомимикрии + микроинженерии + точности ИИ,
которое полностью меняет смысл понятия “наблюдение”.

Как технологический прорыв - это выглядит невероятно.
Но как концепция - тревожно.

Когда “камеры” можно прятать в насекомых…
сможет ли вообще существовать приватность?

Читать полностью…

Data Science by ODS.ai 🦜

21 January 2026 15:25

Всплыла довольно скандальная история про Nvidia и пиратство книг для обучения ИИ

Для начала контекст. В начале 2024 года группа авторов подала иск против Nvidia. Они утверждали, что компания использует для обучения моделей Books3 – пиратский датасет с сотнями книг. NVIDIA, к слову, тогда заявила, что это попадает под «добросовестное использование» 😏

С тех пор судебный процесс продолжается, и теперь, в рамках расширенного иска, в деле внезапно появилась переписка между сотрудником NVIDIA и Anna’s Archive (это пиратская теневая библиотека, в которой собраны в том числе защищенные книги и статьи).

Что было в переписке:

– Сотрудник из команды по стратегии данных NVIDIA обратился к Anna’s Archive и спросил «что библиотека может предложить, и как получить быстрый доступ к корпусу книг».

– После этого, что самое смешное, Anna’s Archive сами предупредили NVIDIA, что данные являются незаконно полученными и (внимание) попросили подтвердить, действительно ли у сотрудника есть внутреннее разрешение на работу с таким материалом.

– Через неделю руководство NVIDIA дало зеленый свет, оправдавшись давлением конкуренции. После этого Anna’s Archive предоставили доступ.

Точные объемы данных (как и то, сколько Nvidia за них заплатили) неизвестны. Пишут, что их было около 500 терабайт – а это миллионы книг.

На этом, кстати, веселье не кончается: авторы утверждают, что Nvidia, скорее всего, использовала также другие аналогичные библиотеки типа LibGen, Sci-Hub, Z-Library и даже распространяла скрипты, якобы позволяющие корпоративным клиентам автоматически скачивать такие датасеты (но это еще предстоит доказать).

Читать полностью…

Subscribe to a channel