«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join
Meta* переманивает сотрудников OpenAI, Anthropic победила правообладателей книг, Apple отдает Siri на аутсорс
Рассказываем, что произошло в мире ИИ за последнее время.
Meta создала команду из сотрудников OpenAI
Корпорация Meta переманила по меньшей мере семь ведущих исследователей из OpenAI. По неподтвержденным данным, Марк Цукерберг, основатель и генеральный директор Meta, лично связывался с некоторыми кандидатами и предлагал бонус при подписании контракта размером в 100 млн долларов и суммарную компенсацию в 300 млн долларов в течение четырех лет. Сама Meta отрицает эти заявления.
Новые сотрудники вместе с рядом других бывших сотрудников Google DeepMind и Anthropic вошли в состав новой лаборатории Meta, цель которой — создать сверхинтеллект, то есть ИИ, значительно превосходящий лучших экспертов в решении любых задач. Возглавят ИИ-направление в корпорации Александр Ван, бывший генеральный директор Scale AI, о котором мы писали ранее, а также бывший генеральный директор GitHub — одного из главных хранилищ программного кода в мире.
Глава OpenAI Сэм Альтман и глава отдела исследований раскритиковали стратегию Meta во внутреннем письме сотрудникам. В частности, по мнению Альтмана, такое поведение приводит к серьезным культурным проблемам в индустрии. В письме также отмечалось, что компания слишком сфокусировалась на частых продуктовых релизах и отвлеклась от глобальной миссии — разработки общего искусственного интеллекта. «Миссионеры победят наемников», — так заканчивает письмо Сэм Альтман.
Anthropic победила в суде с правообладателями книг
В деле Anthropic против правообладателей американский судья признал, что использование книг, защищенных авторским правом, для обучения языковых моделей Anthropic подпадает под критерии fair use — доктрины, позволяющей использовать материалы, защищенные авторскими правами, без разрешения правообладателя в определенных случаях, например, для исследований, образования, критики и комментирования.
Судья сравнил использование книг моделью Anthropic с «читателем, мечтающим стать писателем», который обращается к чужим работам не затем, чтобы «скопировать их и воспроизвести или вытеснить», а чтобы «резко свернуть и создать нечто иное».
Однако это решение не снимает с Anthropic ответственности за копирование и хранение пиратских копий 7 млн книг, несмотря на то, что компания позднее заплатила за миллионы из них. Размер компенсации будет определен на следующих слушаниях. С полным текстом решения суда можно ознакомиться здесь.
Для обучения больших языковых моделей компании скачивают в автоматическом режиме огромные массивы текстов из интернета, что приводит к неизбежному попаданию авторского контента в обучающие корпусы. Использование подобных данных для создания ИИ-моделей до сих пор не регулируется существующим законодательством. Это первый прецедент, когда американский суд определил такое использование как fair use.
Apple хочет привлечь к разработке новой Siri OpenAI и Anthropic
По данным Bloomberg, корпорация Apple приняла решение привлечь компании OpenAI и Anthropic к разработке новой версии голосового ассистента Siri.
Apple планирует протестировать версии ассистента, созданные ведущими компаниями в сфере искусственного интеллекта. Самое успешное решение впоследствии будет развернуто на серверах Apple. Хотя компания не собирается прекращать собственные разработки в области ИИ, многие сотрудники были демотивированы принятым решением. Из-за этого руководству пришлось искать способы удержания персонала и пересматривать контракты.Apple отстает от конкурентов во внедрении ИИ в свои продукты. В частности, многие функции, анонсированные еще в прошлом году, так и не были реализованы. Подробнее о проблемах Apple с ИИ мы писали ранее.
*Российские власти считают Meta террористической организацией
🤖 «Системный Блокъ» @sysblok
Университеты и искусственный интеллект: от утопии до парадокса
Искусственный интеллект уже меняет нашу жизнь и наше обучение. Автоматизируются рутинные задачи, учебные планы строятся с ИИ-персонализацией, отдельные нейросети разрабатываются специально для университетов. В новом материале рассуждаем сразу о пяти сценариях развития событий, связанных с ИИ, в университетской среде.
1️⃣ Идеалистический: «Платоновский наставник»
В персективе студенты смогут получать уникальную образовательную траекторию, в которой темп, формат подачи материала и глубина погружения в тему динамически выстраиваются с помощью ИИ. В Гонконге, например, уже появились ИИ-лекторы, которые отвечают на вопросы студентов.
При таком сценарии обучение становится не только более индивидуализированным, но и более честным: студенты начинают воспринимать ИИ не как способ высокотехнологичного читинга, а как партнера в понимании материала. А преподаватели сосредотачиваются на развитии креативного мышления, этики, межличностного взаимодействия — того, что невозможно автоматизировать.
2️⃣ Антиутопичный: «Образовательная симуляция»
В недавнем исследовании профессий, потенциально уязвимых перед ИИ, список возглавили преподаватели, в особенности (но не исключительно) гуманитарных дисциплин, а ещё ChatGPT успешно прошел сложный медицинский экзамен, продемонстрировав понимание профессиональных терминов, клинического мышления и логических выводов.
Оба этих факта вынуждают думать о перспективе образовательного неравенства: пока элитные университеты смогут позволить себе сохранить живое человеческое общение, массовые вузы рискуют пойти по пути полной автоматизации, превращая образование в потоковое потребление информации.
3️⃣ Расширение когнитивных возможностей: «Сверхученый»
Исследование 2023 года, опубликованное в PLOS Digital Health, демонстрирует, что уже сейчас ИИ способен давать профессиональные научные комментарии даже без специальных промптов или надстроек — это потенциально может открывать путь к новым форматам взаимодействия с академическим знанием.
Такой подход сможет трансформировать и университетскую деятельность вообще. Проектно-исследовательская работа ускорится: путь от зарождения идеи до первичных данных или прототипов может занимать всего несколько часов. Это поменяет структуру преподаваемых курсов, методы преподавания и даже карьерные треки.
4️⃣ Парадоксальный: «Обратный маятник»
Есть вероятность, что после волны энтузиазма и массового внедрения ИИ-инструментов в образовательный процесс в университетах начнется обратное движение — рост интереса к «до-цифровым», медленным форматам обучения.
При таком сценарии произойдет откат к бумажным носителям, устным формам экзаменов и ручному письму — как символам вдумчивого и «человеческого» подхода к знаниям. Появятся программы slow learning (по аналогии с slow life — осознанным проживанием), где использование ИИ полностью запрещено. Престиж приобретет обучение с живым преподавателем, без алгоритмов и дистанционного обучения.
5️⃣ Гибридный: «ИИ как зеркало академической культуры»
Это сценарий, в котором ИИ усилит уже существующие тренды человеческого поведения, культуры и привычек в университетах — как позитивные, так и негативные. В учреждениях, где ценятся диалог, открытость и развитие критического мышления, ИИ станет мощным инструментом для углубления образовательного процесса. Он поможет задавать сложные вопросы, создавать альтернативные точки зрения и расширять пространство для интеллектуального роста.
Узнать больше об этих сценариях и исследованиях, которые позволяют предполагать такие варианты развития событий, сможете из полной версии статьи.
Время чтения: 11,5 минут
🤖 «Системный Блокъ» @sysblo
ИИ видит черепок, археолог – историю: почему нейросети и ученые ссорятся о сходстве
Чем руководствуется человек, сопоставляя два объекта? А как их видит компьютер и может ли сравнить настолько же эффективно? А если речь идет не об обычных предметах, а о находках археологов? С тем, как устроены представления человека и компьютера о сходстве предметов, в новом тексте разбирается наш блогер Олег Лашманов.
Как мы обнаруживаем сходства
Эволюция устроила нас так, что мы воспринимаем вещь не только визуально. Мы связываем её с целым набором ощущений: тяжестью, фактурой, мягкостью, запахом, звуками окружающей среды. Всё это — часть образа, и всё это влияет на то, насколько один предмет кажется нам «похожим» на другой.
Археологи идут еще дальше: у них есть не только физические признаки находки — форма, материал и текстура, — но и опосредованные признаки: контекст и интерпретация. И поскольку аттрибуция артефактов — неочевидная и каждый раз уникальная задача, в ней могла бы пригодиться помощь цифровых технологий. Правда, проблема в том, что компьютер, в отличие от человека, располагает лишь изображением объекта (или несколькими) и, возможно, текстовым описанием. На этом всё.
Как обучить нейросеть, чтобы она помогла археологу
Первый подход — использовать предобученные сверточные нейросети, например ResNet. Эти сети хорошо улавливают геометрические особенности: углы, точки, общие очертания. Однако, как видно из требований археологии, этого часто недостаточно — форма предмета далеко не всегда определяет его культурную принадлежность.
Второй подход — использовать мультимодальные модели, такие как CLIP, которые обучаются на парах «изображение — текст». Такой метод позволяет выучить семантическое представление об объекте, что гораздо ближе к задачам археолога. Тем не менее, даже этот подход не способен заменить человека, который может взять предмет в руки, оценить его вес, фактуру, запах — или, как шутят археологи, даже попробовать на вкус.
Пути решения
Сейчас к изображениям фрагментов добавляют метаданные — такие, как место находки или материал — и дообучают модели на текстовых описаниях вроде «колесничный комплекс», уточняя и дополняя формулировки. Но даже этого недостаточно.
Такие меры не передают глубокие семантические связи, которые выстраивает археолог: технологии производства, миграции ремесленников, ритуальные функции. Без этих связей ИИ остаётся «слепым картографом», рисующим карты без понимания легенды.
Так что пока никакой магии — только археологи способны справляться с задачей атрибуции артефактов. Но мы стараемся создать инструменты, которые облегчат этот процесс.
Если вам интересно поучаствовать в решении настоящих археологических задач — присоединяйтесь к проекту на SIMILIS.IO. А если хочется узнать больше о цифровых помощниках в археологии, переходите к полной версии текста.
🤖 «Системный Блокъ» @sysblok
Скрепить и сохранить: как из папок и бухгалтерских книг вырос цифровой порядок
Как файл связан с подшиванием к делу? Какие методы хранения бумаг можно найти и у фламандских художников, и в модных кофейнях? Наконец, кто придумал хранить документы в папках? Отвечаем на эти вопросы, разбираясь с историей хранения.
Кратко: как развивалась история бухгалтерии?
Бумага появилась в Европе еще в XI веке, но ее массовое производство началось только через триста лет. К этому моменту деловая жизнь Европы уже была достаточно развита, торговые и финансовые операции нужно было тщательно документировать, и проще было пользоваться дешевой бумагой, чем дорогим пергаментом. Так для записей стали использовать пустые книги. Память об этом сохранилась в разных языках: от разных «книг» образованы и слово бухгалтерия, и английское bookkeeping.
Затем для упорядочивания документов использовались несколько способов. Например, накалывание листа на острие (что до сих пор делают с чеками во многих заедениях). В XVI веке этим методом уже точно пользовались, что подтверждает, например, картина Яна Сандерса ван Хемессена 1536 года. Другим популярным методом было сшивание ниткой, когда документы буквально подшивают к делу. А благодаря этому методу до нас постепенно добралось слово файл, восходяще к латинской нити filum.
Ну а папка-регистратор с арочным механизмом, которую до сих пор используют в офисах, приобрела свою окончательную форму к XX веку. Этим мы обязаны американцу Джеймсу Шеннону, который придумал первый регистратор, и двум немцам — Фридриху Зённеккену и Луису Лейцу. Независимо друг от друга они превратили планшет Шеннона в более знакомую нам папку.
Подробнее о разных страницах истории хранения – физической и цифровой – узнаете из полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
Хармс, Брюсов и «Гамлет»: цифровые методы в поиске интертекстуальных связей
Сегодня для поиска сходств между текстами можно не читать тысячи книг, а правильно обучить языковую модель, чтобы она сделала за вас хотя бы часть работы. В новой статье рассказываем о нескольких проектах, которые помогают изучать интертекстуальные связи, а еще о том, может ли их обнаружить обычная нейросеть.
Tesserae
C 2008 года на базе университета в Баффало осуществляется проект Tesserae, изначально созданный для поиска интертекстуальных связей между классическими древнегреческими, латинскими текстами (подробнее о нем мы рассказывали здесь). У проекта есть действующий онлайн-интерфейс и репозиторий.
InterIDEAS
«Философский» датасет InterIDEAS включает 45 тысяч страниц философских текстов, написанных с 1750 по 1950 год. В нём с помощью LLM и экспертов размечены обращения к книгам, идеологиям, религиям, историческим событиям, а также словам и поступкам других людей. Увы, свободного доступа к датасету пока нет.
WordWeb-IDEM
После проекта HyperHamlet, где были собраны всевозможные цитатные переклички с «Гамлетом» — от Сенеки до постов в социальных сетях, команда из Базельского университета взялась и за другие пьесы эпохи Возрождения. Сейчас в WordWeb-IDEM уже собрано более 1000 пьес и доступно несколько видов поиска по представленным текстам.
LLM
Сегодня LLM уже могут выполнять некоторые задачи по поиску параллелей в художественных текстах. Они позволяют перейти от поиска по ключевым словам к поиску «по смыслам», т. е. по содержательным пересечениям. Благодаря этому можно найти неочевидные пересечения в литературе. Например, вот такую пару цитат из текстов Брюсова и Хармса: «Старик, увидав девочку, остановился. Катя решилась спросить его. — Скажите, пожалуйста, как пройти в Вифлеем?» («Дитя и безумец», Брюсов); «Молодой человек почистил перчатками свои брюки и деликатным голосом спросил: — Скажите, дедушка, как тут пройти на небо?» («Молодой человек, удививший сторожа», Хармс).
Правда, пока работа по поиску отсылок и перекличек в литературе с помощью LLM — скорее перспективное направление, чем готовый реализованный проект. Подробнее о таком использовании языковых моделей, а также о других проектах, которые облегчают исследователям работу с интертекстом, узнаете из полной версии статьи.
Время чтения: 16 минут
🤖 «Системный Блокъ» @sysblok
Grok в Telegram, обновление DeepSeek R1 и суперкомпьютер OpenAI в ОАЭ
Рассказываем, что произошло в мире ИИ за последнее время
Обновленный DeepSeek R1
Нашумевшая китайская языковая модель DeepSeek R1 получила обновление.
В тестах по математике и программированию улучшенная версия стала сравнима с лучшими коммерческими моделями — OpenAI o3 и Google Gemini 2.5 Pro. Модель стала реже галлюцинировать (выдавать фактологически неверные ответы), а также научилась использовать внешние инструменты (function calling): искать информацию в интернете, делать запросы к базам данных, выполнять код в среде разработки и т. д.
Модель, как и прежде, остается в открытом доступе и может использоваться в коммерческих целях.
OpenAI строит суперкомпьютер в ОАЭ
В рамках инициативы OpenAI For Countries компания анонсировала партнерство с ОАЭ. Согласно соглашению, OpenAI построит в стране вычислительный кластер, который заработает к 2026 году, а ОАЭ, в свою очередь, проинвестирует в американский проект Stargate — сеть суперкомпьютеров для обучения моделей ИИ.
Построенный кластер позволит интегрировать модели OpenAI на национальном уровне в государственные структуры, учебные заведения и систему здравоохранения с соблюдением требований к безопасности данных.
Проект Stargate был анонсирован вскоре после инаугурации Дональда Трампа и предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет.
Инициатива OpenAI For Countries была представлена в мае в рамках проекта Stargate. Она предлагает помощь заинтересованным правительствам в создании «суверенной ИИ-инфраструктуры» в координации с правительством США.
Grok интегрируют в Telegram
Павел Дуров анонсировал глубокую интеграцию языковой модели Grok от лаборатории Илона Маска xAI в мессенджер Telegram.
ИИ-функции, которые появятся этим летом:
• удобный доступ к Grok — чат с моделью можно будет закрепить вверху списка всех чатов, а вопросы задавать через строку поиска,
• организация переписки — Grok будет категоризировать историю чатов по тематикам и создавать выжимки новых сообщений,
• помощь в создании контента — генерация развернутых сообщений на основе коротких черновиков, создание стикеров и аватарок,
• анализ информации — суммаризация данных из файлов и по ссылкам, проверка информации в каналах,
• модерация и автоответы — Grok сможет модерировать групповые чаты и отвечать на сообщения в бизнес-аккаунтах (например, сообщать рабочие часы или отвечать на частые вопросы).
Также Telegram получит 300 млн долларов инвестиций от xAI и 50% дохода с подписок на Grok, проданных через мессенджер.
🤖 «Системный Блокъ» @sysblok
От поля битвы к байтам: как устроена Всемирная база данных исторических сражений
Какие страны воевали больше всего? Сколько было войн и где происходили ключевые битвы? Ответить на эти вопросы можно благодаря Всемирной базе данных исторических сражений, созданной в 2021 году. Она систематизирует данные о примерно 8000 сражений с древних времен по сегодняшний день. Рассказываем о ней подробнее в этом посте и новом материале.
Кратко: что за база?
World Historical Battles Database (WHBD) использует данные из Wikidata, Википедии и ряда других источников (например, Military Wiki). Здесь можно найти информацию о сторонах конфликта, географических координатах, времени и результатах битв.
Больше всего военных столкновений —согласно этой базе — было на территории США, следом с большим отрывом идут Франция и Италия. Создатель проекта предполагает несколько возможных объяснений таким показателям. Во-первых, на этих территориях действительно могло произойти больше сражений, чем в других регионах. Во-вторых, войны в этих регионах могли быть зафиксированы с большей вероятностью, и/или меньше записей могло быть утеряно. В-третьих, делом может быть в содержании исходных онлайн-источников.
О том, на какое время приходится пик военных конфликтов, как велась работа над созданием базы и чем WHBD отличается от похожих проектов, узнаете из полной версии статьи.
Время чтения: 9 минут
🤖 «Системный Блокъ» @sysblok
Бунтующий young, ностальгирующий adult: дата-исследование книжного рынка
Сегодня отмечается Международный день защиты детей. Поскольку подготовить ребенка к грядущим сложностям и переменам иногда способна хорошая книга, предлагаем вспомнить наше исследование, посвященное рынку young adult литературы.
Тираж книг для подростков и молодежи за последние 10 лет увеличился в два раза, а в young adult стали «переупаковывать» самые разные произведения. Узнать подробнее об этом сегменте книжного рынка и изменениях в нём за последние годы можно из этого поста, а пока предлагаем вам угадать, какого тега нет в топе раздела young adult в «Читай-городе».
🤖 «Системный Блокъ» @sysblok
Набор на Летнюю школу в мастерскую дата-журналистики закрывается через 3…2…1…
Вы ещё успеваете подать заявки в мастерскую «Системного Блока» @datajourschool на «Летней школе» на Волге до 1 июня.
С 19 июля по 3 августа вы сможете бесплатно* научиться искать, собирать и обрабатывать данные, а затем — превращать их в красивые и понятные визуализации.
Узнать подробнее о наборе в мастерскую можно здесь, познакомиться с примерами наших визуализаций — в посте ниже.
Регистрация: https://nabor.letnyayashkola.org/
*Есть добровольный взнос на питание и проживание
🤖 «Системный Блокъ» @sysblok
Google выпускает новые продукты, Claude 4 шантажирует пользователей, OpenAI покупает компанию Джони Айва
Рассказываем, что произошло в мире ИИ за последнее время.
Новинки от Google
Компания Google действует на всех фронтах и обновила целый ряд ИИ-инструментов.
• Модель Gemini 2.5 Pro получила режим Deep Think, который одновременно генерирует несколько цепочек рассуждений, что повышает качество ответов. Улучшения заметны в мультимодальных и математических тестах, а также при генерации кода. Обновлена также мини-модель Gemini 2.5 Flash.
• Анонсирован Project Mariner — агентная система для автоматизации задач на компьютере. Это прямой конкурент Operator от OpenAI и Computer Use от Anthropic.
• Вышли обновления Imagen и Veo: Veo 3 теперь создает реалистичные видео со звуком. Представлено приложение Flow для режиссеров: на основе Veo, Imagen и Gemini в нем можно выстраивать клипы и сцены для рассказа истории.
• Поиск Google теперь делает ИИ-выжимки результатов. С помощью новых функций в AI Mode можно получить сводку релевантных товаров без перехода по множеству сайтов — ИИ подберет и покажет предложения, а также оформит покупку. Компания также запустила виртуальную примерочную, с помощью которой пользователь перед покупкой может оценить, как на нем будет смотреться одежда.
• Анонсирован синхронный перевод речи для Google Meet. На старте поддерживается испанский язык, со временем список расширится.
• Запущена подписка Google AI Ultra, включающая доступ ко всем последним моделям и приложениям, 30 ТБ на Google Drive и YouTube Premium. Стоимость составит 250 долларов в месяц.
Обновления LLM от Anthropic
Компания Anthropic, один из главных конкурентов OpenAI, представила четвертую версию своей языковой модели. Поскольку продукты компании преимущественно применяются для автоматизации разработки в IT, ключевые улучшения коснулись способности генерировать код и автономно выполнять пользовательские задачи с помощью различных инструментов — браузера, командной строки и других.
Claude Opus 4 показал лучший результат среди агентов для разработки в тесте SWE-bench. Claude Sonnet 4 также продемонстрировал улучшенные возможности генерации кода, однако в остальных тестах его показатели остаются на уровне предыдущей версии Sonnet 3.7.
Anthropic заявила, что при запуске новинок применила повышенные меры безопасности. Также компания выпустила технический отчет, в котором описала результаты тестирования «поведения» новых моделей. В частности, выяснилось, что модель способна к шантажу, саботажу, обману и проявлению инициативы в некоторых случаях.
OpenAI купила компанию Джони Айва
Бывший дизайнер Apple Джони Айв — в его портфолио входят Mac, iPhone, iPad, Apple Watch, дизайн операционных систем — и гендиректор OpenAI Сэм Альтман объявили о слиянии своих компаний для разработки принципиально новых продуктов с искусственным интеллектом.
Сотрудничество между Айвом и командой OpenAI началось два года назад как неформальная работа креативного коллектива LoveFrom с создателями ChatGPT. Первоначальные идеи и эксперименты постепенно переросли в конкретные дизайнерские решения.
Год назад Айв совместно с бывшими топ-менеджерами Apple основал новую компанию io. OpenAI приобрела io (сумма сделки оценивается в 6,5 млрд долларов), чтобы более тесно взаимодействовать с исследовательскими и инженерными командами в Сан-Франциско. Айв и LoveFrom возьмут на себя ключевые дизайнерские и творческие функции в объединенной компании.
По словам основателей, цель проекта — создать новое семейство устройств, которые помогут людям учиться, исследовать мир и творить, используя возможности современного ИИ. Релиз первого продукта планируется в следующем году.
🤖 «Системный Блокъ» @sysblok
Пахучка пахучая и другие. Тест: угадайте растение по старинному названию
Что в семнадцатом веке называли мастикой? Какое растение скрывается за именем «поповская шапка»? А «попова скуфья»? Разбираемся в новом тесте «Системного Блока», который мы сделали на основе данных из базы PhytoLex (недавно мы уже рассказывали об этом проекте).
Чтобы в кулинарной книге XVIII века отличить оксиду от растения под названием апиюм селевестре (спойлер: это одно из названий сельдерея!), скорее проходите тест.
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» продолжает набор в мастерскую дата-журналистики на «Летней Школе»! До 18 мая мы принимаем заявки от всех желающих.
Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике, и мы приглашаем участников.
Что такое дата-журналистика?
Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных. Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую.
🎓 Кто может участвовать в мастерской?
Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.
✍🏼 Что будет на мастерской?
На мастерской будет два блока: образовательный и проектный.
Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.
Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров.
🧑🏻💻 Кто делает мастерскую?
Партнеры мастерской:
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm;
• научно-популярный журнал «Кот Шредингера» @kot_sh.
📍Когда и где пройдет мастерская?
Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.
❗️Как к нам попасть?
Подать заявку на участие можно на странице мастерской до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ.
🤖 «Системный Блокъ» @sysblok
Только не списывай точь-в-точь: автоматический поиск аллюзий и цитат в древнеримской литературе
Выявление цитат и аллюзий — важная задача филологов, справляться с которой до недавнего времени приходилось традиционными методами. Особенно сложной она оказывается тогда, когда имеешь дело с произведениями, авторы и аудитория которых жили в совершенно другом контексте: литературном и историческом. К счастью, сегодня у исследователей есть цифровые инструменты, которые могут помочь разобраться с интертекстуальностью. Рассказываем о проекте Tesserae, который помогает находить аллюзии и цитаты в древнеримской литературе.
Кратко: что за проект?
Tesserae — проект университета Баффало, бесплатное веб-приложение, которое работает с корпусом текстов из баз Perseus Digital Library и The Latin Library. Работая с Tesserae, пользователь выбирает два произведения из корпуса, после чего программа сравнивает их и возвращает список всех предложений, которые содержат хотя бы два совпадающих слова.
Предложения, в которых нашлись такие совпадения, получают оценку от 2 до 10. Программа учитывает два параметра: частотность употребления слов и расстояние между ними во фразе. Сравнительно редкие слова, стоящие рядом, с большей вероятностью будут составлять осознанную отсылку или цитату и, соответственно, получат более высокий балл.
Искать совпадения можно не только по точной форме, но и по лемме (начальной форме), похожему звучанию и даже по семантической близости. Например, при сравнении стихотворений Катулла с «Георгиками» Вергилия в качестве совпадений были найдены tacet nox (Catullus 7.7) и silet nox (Georgics 1.247). И то, и другое можно перевести как «ночь молчит», хотя авторы использовали два разных глагола.
Самый простой результат работы с Tesserae — выявление новых текстовых параллелей, которые до этого не были отмечены комментаторами. В ходе тестирований команда проекта обнаружила потенциальную аллюзию к «Энеиде» в первой книге «Фарсалии» Лукана.
Правда, работа филолога все еще важна даже при наличии Tesserae, поскольку каждый полученный результат нужно рассматривать отдельно и пытаться объяснить в зависимости от контекста. Программа этого пока не умеет — только выполняет умный поиск по корпусу на предмет лексических совпадений.
Подробнее о проекте и задачах, в решении которых он может помочь, а также о том, зачем филологи вообще ищут цитаты и отсылки, узнаете из полной версии статьи.
Время чтения: 12 минут
🤖 «Системный Блокъ» @sysblok
ИИ-поиск от Google, третья Qwen и модель-подхалим GPT-4o
Рассказываем, что произошло в мире ИИ за последнее время.
AI Mode от Google
Корпорация Google открыла доступ к поиску на основе больших языковых моделей для пользователей из Америки.
В отличие от традиционного поиска, при котором пользователь получает список ссылок на релевантные веб-сайты в ответ на запрос, ИИ-поиск суммаризирует поисковую выдачу и выдает текстовую выжимку. Благодаря внедрению языковых моделей в процесс поиска пользователь может задавать длинные и сложные запросы, а также уточняющие вопросы к ответу. Вместо замены текущего режима поиска Google добавила ИИ-поиск в отдельную вкладку под названием AI Mode — на уровне с вкладками «Изображения», «Новости», «Видео» и т. д.
AI Mode тестируется с начала марта этого года в закрытом режиме. Ранее Google уже пыталась интегрировать LLM в поиск, однако в ответ получила негативные реакции пользователей из-за большого количества галлюцинаций в поисковой выдаче. AI Mode является прямым конкурентом продуктов многих ИИ-компаний: Perplexity, GPT Search и DeepResearch от OpenAI, Research от Anthropic.
Qwen3 — новое поколение открытых языковых моделей
Холдинг Alibaba Group (владеет AliExpress, TaoBao и другими маркетплейсами) обновил свое семейство языковых моделей Qwen. Qwen3 доступен в следующих размерах (в млрд параметров): 0,6, 1,7, 4, 8, 14, 32.
Помимо них, также были представлены две модели с архитектурой Mixture of Experts: во время генерации ответа модель использует лишь часть всех параметров (их называют активными), при этом, какие именно параметры задействованы во время ответа — зависит от конкретного запроса пользователя. Mixture of Experts версии доступны в двух размерах: 30 млрд с 3 млрд активными и флагманская модель с 235 млрд параметров из которых 22 млрд активные.
Флагманская модель в основных тестах опережает DeepSeek-R1 и сопоставима с последними лучшими моделями (Google Gemini 2.5 Pro и OpenAI o3-mini). Более компактные версии опережают конкурентов сопоставимых размеров.
Все модели поддерживают режим рассуждений, когда перед финальным ответом модель генерирует цепочку логических рассуждений. Модели были обучены на текстах на 119 языках. Полный список языков доступен на сайте модели. Qwen3 можно использовать для коммерческих целей.
Модели семейства Qwen — в числе лидеров открытых LLM: их используют энтузиасты, коммерческие компании и научные исследователи.
OpenAI откатила обновление GPT-4o после жалоб о чрезмерной лести
Компания OpenAI вернула старую версию GPT-4o после того, как многочисленные пользователи пожаловались на избыточное количество лести и подхалимства в ответах обновленной версии.
Во время подготовки обновления GPT, сделанного в конце апреля 2025, компания, помимо новых обучающих данных и улучшенных методов, использовала оценки ответов от пользователей (их можно дать через кнопки «лайк» и «дизлайк» в интерфейсе чата). По словам компании, по отдельности новые данные и методы показывали улучшения, благодаря чему обновленная модель показала прирост в качестве в заранее подготовленных тестах. Но в совокупности улучшения привели к измененному поведению.
Используемые тесты, а также группа тестировщиков фокусировались только на определенных показателях, в числе которых не было метрики, отвечающей за угодничащее поведение модели. И хотя некоторые тестировщики отметили, что модель стала «вести себя» немного иначе, обновление все равно решили сделать доступным.
Для предотвращения подобных ситуаций OpenAI приняли несколько новых мер: начали работу над улучшением существующих тестов и A/B-тестирования, приоритизировали качественные оценки поведения модели от тестировщиков.
Более детальный отчет о случившемся и выводах, сделанных компанией, доступен в официальном блоге.
🤖 «Системный Блокъ» @sysblok
Ухемоль, зигия и желтяника: зачем нужна этноботаническая база данных
Что такое таинственная «ухемоль», два горшка которой были взяты для сохранения? Как в XVIII веке называли айву и ананас? А какая ягода скрывается за романтичным названием «любовное яблоко»? Узнать это и многое другое возможно с помощью этноботанической базы PhytoLex, которая собрала более 50 тыс. записей с названиями самых разных растений. Рассказываем, как она создавалась, что возможно узнать с ее помощью и почему словари не всегда могут помочь точно определить вид встретившегося в тексте цветка или кустарника.
Кратко: о чем статья?
В первоначальном варианте база данных PhytoLex (@phytolex) была сугубо лингвистической и включала материалы из источников XI–XVII веков: от богословских сочинений до рецептов Аптекарского приказа. В нее были включены как существительные, так и прилагательные, образованные от названий растений.
Постепенно проект рос: увеличились команда и финансирование, появились новые источники и растения, расширились пользовательские возможности. Например, добавились разные визуализации, которые помогают проследить, как менялись названия растений на протяжении веков, изучить этимологию и словообразовательные связи. А ещё — выяснить, что желтяника – это дикий шафран, а зигия – дерево, название которого пришло из греческого.
Узнать это можно не только с помощью поиска по сайту, но и благодаря чат-боту. Школа вычислительных социальных наук Европейского университета в Санкт-Петербурге использовала PhytoLex для разработки «умного помощника», который позволяет общаться с базой данных на естественном языке. Теперь ему можно задавать вопросы по содержанию базы. Например, какие растения импортировались в Российскую империю из Южной Америки во второй половине XVIII века.
Подробнее о развитии и перспективах проекта узнаете из полного текста статьи.
P. S. А вот о значении слова ухемоль не узнаете, ведь на сегодняшний день это единственная фиксация слова, и какое растение оно обозначает, науке неизвестно 🤷
🤖 «Системный Блокъ» @sysblok
Дата-журналистика: точка входа
«Системный Блокъ» выпустил новый спецпроект: в нём мы простым языком рассказываем, как журналисты работают с данными, разбираем кейсы и советуем полезные инструменты. Благодаря странице «Дата-журналистика: точка входа» вы узнаете, где искать данные для своих исследований, почему важно правильно их очистить, зачем нужна гипотеза и куда пойти учиться, если вы решили стать дата-журналистом.
Кратко: о чем проект?
Дата-журналистика — это направление журналистики, в котором для создания статей и материалов используются количественные данные. В «Системном Блоке» этому посвящена целая рубрика «Инфографика», из которой можно узнать о том, как бездомность сокращает жизнь, как политические события влияют на книжный рынок и сколько в российских школах учителей-мужчин.
Работу над дата-журналистскими проектами можно разделить на следующие этапы: выбор темы, постановка вопроса и выработка гипотез, поиск и подготовка данных, проверка выдвинутых гипотез, визуализация, подготовка текста. Каждый из них требует работы с разными инструментами от Voyant Tools, которые помогут с анализом текста, до Datawrapper, облегчающего задачу по созданию графиков и карт.
Подробнее обо всех этих этапах и их особенностях, а также об образовательных программах, благодаря которым можно стать дата-журналистом, и каналах, на которые можно подписаться, чтобы узнать больше об этом направлении в журналистике, мы рассказали на странице спецпроекта.
🤖 «Системный Блокъ» @sysblok
Все книги мира на одной полке: как визуализировать книжную вселенную с помощью ISBN
ISBN (Международный стандартный книжный номер) — это уникальный 13-значный код, который присваивается практически каждой опубликованной книге. Причем эти цифры неслучайные: по ним можно определить, на каком языке написана книга и какое издательство ее опубликовало, а также получить более подробную метаинформацию по каждому конкретному изданию. Рассказываем, как с помощью этого номера визуализировать (почти) бесконечную книжную полку.
Кратко: как это возможно?
Идею о такой книжной полке реализовал проект Visualizing all books of the world in ISBN-Space. Чтобы «расставить» книги в виртуальном пространстве, номер ISBN превратили в координаты на плоскости, тем самым сгруппировав тексты по информации о разных метаданных.
В итоге на такой визуализации можно найти конкретную книгу и увидеть ее корешок с названием, автором и штрих-кодом ISBN. А если уменьшить масштаб, получится увидеть, как книги автоматически группируются сначала по издательству, а потом по стране и языку.
Этот проект позволяет увидеть глобальное книгоиздание под новым углом: проследить языковые и издательские потоки, исследовать временные срезы и находить неожиданные связи между книгами. Такая визуализация делает огромные массивы библиографических данных доступными для визуального анализа только специалистам, но и широкой аудитории.
Узнать, что означает каждая цифра номера ISBN и как из этого набора чисел сделали координаты, а ещё посмотреть, как на сайте с визуализациями выглядит книга нашего постоянного автора Бориса Орехова, можно благодаря полной версии материала.
🤖 «Системный Блокъ» @sysblok
Midjourney научилась генерировать видео, Meta* инвестирует в Scale AI, Mistral сделала рассуждающую LLM
Рассказываем, что нового в мире ИИ произошло за последнее время.
Генерация видео в Midjourney
Midjourney, один из первых успешных сервисов по генерации изображений, объявил о запуске функции создания видео.
В отличие от моделей OpenAI Sora и Google Veo 3, которые фокусируются на создании видео по текстовым описаниям, решение от Midjourney специализируется на анимации уже существующих изображений.
Пользователь может сгенерировать изображение на сайте компании, а затем анимировать его одним из двух способов: воспользоваться функцией автоматического анимирования или текстом описать желаемое движение объектов и камеры. Те же действия можно выполнить и с загруженными пользователем изображениями.
Для анимации доступны два режима: high motion и low motion. Первый режим подходит для сцен, где камера практически неподвижна, а объекты малоподвижны. Второй режим оптимален для создания динамичных видео. После генерации пользователь может продлить видео на четыре секунды, причем эту операцию можно применить к одному ролику максимум четыре раза.
Стоимость генерации 5-секундного видео на данный момент в восемь раз превышает цену за создание одного изображения. Впрочем, компания планирует корректировать расценки в будущем в зависимости от спроса.
По заявлению Midjourney, новая модель является важным шагом к реализации глобальной цели — разработке искусственного интеллекта, способного в реальном времени формировать интерактивный 3D-мир, где пользователи смогут свободно перемещаться и взаимодействовать с объектами и персонажами.
Meta инвестирует в Scale AI
Корпорация Meta проинвестировала 14 млрд долларов в Scale AI — стартап, специализирующийся на разметке данных для обучения моделей искусственного интеллекта.
В результате этой сделки Meta приобрела 49% акций Scale AI, тем самым оценив стартап в 29 млрд долларов. Кроме того, основатель Scale AI, 28-летний Александр Ван, присоединится к команде Meta по разработке ИИ.
Услугами Scale AI пользуется множество крупных компаний, включая основных конкурентов Meta в ИИ-гонке — OpenAI и Google. По сообщениям СМИ, после объявления об инвестициях конкуренты Meta начали постепенно сворачивать сотрудничество со Scale AI.
Mistral выпустила первую рассуждающую модель
Французская компания Mistral представила Magistral — свою первую рассуждающую (reasoning) языковую модель (LLM). Рассуждающие модели генерируют развернутую цепочку логических рассуждений перед формированием финального ответа, что значительно повышает его качество и обоснованность. Примеры таких моделей — GPT o1 и o3 от OpenAI, Claude Sonnet в режиме extended thinking, Gemini 2.0 Flash Thinking и Gemini 2.5 от Google и R1 от DeepSeek.
По сравнению с предыдущим флагманом французской компании, Mistral Medium, новая модель сильно улучшила результаты в основных тестах. Однако в сравнении с конкурирующей DeepSeek-R1 она показывает сопоставимые или несколько более низкие результаты.
Magistral выпущена в двух версиях — Medium и Small. Более мощная версия Medium доступна только через API, тогда как Small, уступающая по качеству, распространяется в открытом доступе.
Mistral долгое время оставалась одной из немногих крупных ИИ-компаний, не выпускавших рассуждающие модели. После выхода Magistral среди лидеров отрасли только Meta не предлагает подобного функционала — ее модель Llama 4 по-прежнему не поддерживает режим рассуждений.
*Российские власти считают Meta террористической организацией
🤖 «Системный Блокъ» @sysblok
Цифровое чтение: как экраны меняют восприятие текстов
Сегодня цифровые устройства стали привычной частью учебы, а электронные ресурсы — от учебников до онлайн-платформ — все чаще используются в образовании. Пока авторы научно-популярных книг рисуют мрачные картины того, как мы потеряем способность к глубокому чтению, разбираемся, как переход к другим вариантам взаимодействия с информацией, влияет и повлияет на наше восприятие текстов разной длины.
Короткие тексты
Молодое поколение часто читает цифровые тексты до 500 слов быстрее, чем бумажные. Это происходит за счет быстрого скроллинга. Более того, результаты исследований показывают, что само восприятие текстов такой длины не меняется, будь они на экране или на бумаге.
Длинные тексты
С более объемными текстами всё немного иначе. Например, школьники 7–9 классов используют нелинейные стратегии: пролистывают текст, оценивая релевантность по заголовкам, ищут ключевые слова через Ctrl+F и делают цифровые заметки. Это ускоряет поиск нужной информации, но ведет к фрагментарному восприятию. Так что мы едва ли можем говорить о глубоком чтении. На то же указывают и данные айтрекинга (метода отслеживания движений глаз).
А вот как влияют на чтение цифровых текстов не их длина, а их язык и культурные особенности в странах, в которых проводятся такие исследования, мы пока понимаем хуже. Ученым еще предстоит заполнить эту лакуну, а преподавателям — объяснить особенности взаимодействия с цифровыми текстами и предложить решения для проблем, которые наверняка возникнут у читателей нового поколения.
Подробнее об этих решениях и об исследованиях, которые концентрировались на русских школьниках и текстах, узнаете из полной версии статьи.
Время чтения: 12 минут
🤖 «Системный Блокъ» @sysblok
Коллокации, эпиграфика и древняя ДНК: подборка новых тестов «Системного Блока»
Если в эту пятницу вам хочется и развлечься, и узнать что-то новое, наши новые тесты – отличное решение. Разберетесь, что такое огамическое письмо, что роднит «крокодиловых слез» и «зеленый свет» и какое открытие последних лет стало прорывом в палеогенетике.
Что такое коллокации и как они помогают гуманитариям?
Каждый, кто говорит по-русски, знает, что роль играют, условия выдвигают, а глаза бывают карими, но не коричневыми. Такие устойчивые словосочетания называются коллокациями, и существовать без них не может ни один язык. Мы уже рассказывали о том, как и зачем изучают этот феномен, а теперь предлагаем вам проверить свои знания. Готовы? Тогда проходите тест по ссылке!
Что вы знаете о цифровой эпиграфике?
Эпиграфика — это наука о надписях на камнях, керамике, металлах и других твердых материалах. С появлением цифровых технологий, таких как 3D-моделирование и фотограмметрия, процесс документирования памятников стал точнее и полнее. Мы рассказывали об эпиграфических корпусах и о расшифровке надписей — теперь предлагаем вам пройти тест.
Что и зачем изучает палеогенетика?
В последние десятилетия палеогенетика и биоинформатика стали мощным двигателем развития археологии. Ученые, работающие в этих направлениях, воссоздают историю наших предков через анализ их ДНК, чтобы узнать больше о миграциях и эволюции человека. Пройдите наш тест, чтобы вспомнить (или узнать!), как наука помогает расшифровывать загадки прошлого.
🤖 «Системный Блокъ» @sysblok
<Цифровое> солнце русской поэзии
Сегодня день рождения Александра Сергеевича Пушкина. Если вы уже перечитали любимые стихи его авторства, а теперь хотите разом освоить все наследие писателя, то рекомендуем вам наш обзор семантического издания Пушкин <цифровой>.
Кратко: что это за проект?
Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.
На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн.
Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.
Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.
Время чтения: 10,5 минут
🌞 «Системный Блокъ» @sysblok
Герои и драконы с привязкой к местности: как цифровая картография помогает исследовать мифы
Драконы, духи и герои древних легенд теперь бродят не только по туманным мирам — они появляются на привычных нам картах. Современные базы данных и GIS-технологии позволяют визуализировать фольклорные и мифологические сюжеты. Рассказываем о трех цифровых картах, которые помогут вам проследить путь Одиссея, найти все проклятые места в Ирландии и узнать, как Стоунхендж связан с Мерлином.
🧜🏼♂️ Myths on map: пути античных героев
Цифровая карта посвящена мифам Древней Греции. Здесь есть информация о героях, событиях, городах и античных текстах, в которых отражены легендарные сюжеты. Например, география перемещений Ахиллеса насчитывает 36 мест, а Геракла – 91. Ну а если вы до сих пор не дочитали список кораблей из «Илиады», то можете взглянуть хотя бы на список мест, откуда они прибыли, — это целых 218 названий.
🧌 Emerald Isle: в поисках лепреконов и сокровищ
Проект посвящен ирландским мифам, сказкам и историям о привидениях. На карте отмечены точки, связанные с разными сюжетами: с местами обитания чудовищ, с зарытыми сокровищами, с событиями из отдельных циклов легенд. Так, недалеко от Дублина обитает ирландский всадник без головы. Здесь же находится одно из проклятых мест, которых в Ирландии, судя по карте, немало.
🧙🏻♂️ A Map of Myth, Legend and Folklore: английские замки и привидения
Эта интерактивная карта разработана благотворительной организацией English Heritage, которая занимается сохранением объектов культурного наследия. Проект визуализирует более 1500 легенд и мифов распространенных в Англии. Истории разделены на категории: духи и призраки, мифические существа (например, драконы и великаны) и исторические легенды. К каждой точке добавлены иллюстрации, аудиозаписи рассказов и ссылки на исторические источники. Работает поиск по типам существ, временным периодам и регионам.
Подробнее об этих проектах и о цифровой революции в классификации мифов, узнаете из полной версии статьи.
Время чтения: 6,5 минут
🤖 «Системный Блокъ» @sysblok
От алкоголизма до книжного рынка: подборка инфографик «Системного Блока»
Наш дата-отдел регулярно исследует открытые данные и рассказывает о процессах в обществе и культуре России и мира с помощью инфографики. В этом посте собрали материалы прошлых лет о кино, песнях и метро России.
🚇 Метро в России
По количеству открытых станций метро в России тоже лидирует Москва: за 12 лет в стране построили меньше станций метро, чем в одной Москве в 2021 году. Например, в Санкт-Петербурге станцию Театральную не могут открыть с 2008 года. О текущей ситуации и перспективах метро в других городах можно узнать здесь.
🍾 Кому на Руси пить хорошо
Ещё одна важная и неочевидная статистика о России — потребление алкоголя в стране. Рост потребления алкоголя с 2018 по 2022 год мы отобразили на карточке, а о производстве рассказали здесь.
🎬 Кино по заказу Минкульта
С 2014 года Министерство культуры публикует приоритетные для кинопроизводства темы. Среди них — популяризация героизма и неоколониальная политика стран англосаксонского мира. Правда, большинство приоритетных фильмов не окупается в прокате. Узнать больше об этой статистике можно тут.
🎤 О чем поет Родина
В 2016 году появился официальный «каталог патриотической музыки». Оказалось, что каждое третье произведение из 8 тысяч позиций каталога посвящено войне. Прежде всего — Великой отечественной. О других войнах и темах в песнях каталога, можно узнать из инфографики и этого поста.
📸 Камеры в Москве
Москва входит в топ-30 городов по покрытию камерами: в городе как минимум 193 000 камер. Самая большая плотность покрытия — в Центральном округе, там на квадратный километр приходится 198 камер. Больше информации — в нашем посте.
📚 Книжный рынок
Политика России в 2022 году сильно сказалась на книжном рынке. Среди последствий: отсутствие полиграфического оборудования, интерес к «запрещенным» произведениям и изменения в топе самых издаваемых авторов. Подробнее — в тексте поста.
🤖 «Системный Блокъ» @sysblok
CLIP: нейросеть, которая понимает текст и картинки
Мультимодальные модели могут обрабатывать несколько видов данных одновременно. Например, они «понимают» не только текст, но и изображения и аудио. Сегодня рассказываем о нейросети CLIP, которая представляет изображения и тексты как единый тип данных, и рассмотрим, как это может быть полезно. Это — первый из серии наших материалов о мультимодальных нейросетях.
Кратко: как работают эти нейросети?
CLIP (Contrastive Language–Image Pre-training) была разработана в 2021 году компанией OpenAI, создавшей GPT. Contrastive в названии обозначает метод обучения нейросетей Contrastive learning, при котором нейросеть учится сравнивать/противопоставлять объекты на основе их семантического соответствия.
CLIP представляет изображения и текст как единую модальность (один тип данных). Другими словами, эта нейросеть строит универсальные численные представления для текстов и изображений, которые затем можно использовать для сравнения семантической схожести картинки и описания. Поэтому она отлично подходит для поисковиков, онлайн-магазинов и рынках стоковых изображений.
А еще CLIP можно использовать в паре с языковыми и генеративными моделями, тем самым наделяя их мультимодальными способностями. Такие модели могут генерировать изображения по текстовым описаниям, создавать описания изображений, анализировать визуальное содержание и выполнять другие задачи.
Подробно о работе мультимодальных нейросетей – с примерами, терминами и картинками с собаками, мы рассказали в полной версии материала. Из нее же узнаете о третьем применении CLIP и о том, способна ли она распознать на картинке банан, если он будет пиксельным, черно-белым или разрезанным на кусочки.
🤖 «Системный Блокъ» @sysblok
День биоразнообразия: агрегаторы и базы данных
Где искать данные о биологическом разнообразии планеты? Агрегаторы биологических данных появились не так давно, но сегодня с их помощью каждый ученый может получить миллионы записей из биологических баз на свой компьютер. Рассказываем об этом подробнее в международный день биоразнообразия.
🌱 Варианты баз данных
В случае биологии можно выделить таксономические базы и базы «коллекционные». Первые включают информацию о положении таксона в системе живого мира, валидных названиях, синонимах и родственных связях между таксонами (скажем, TROPICOS).
Коллекционные базы данных работают на уровне отдельных организмов и предоставляют информацию об их распространении, внешних признаках. Сюда же включены фотографии, записи голосов птиц, видео, последовательности ДНК и пр. Их, кстати, можно разделить «оцифрованные коллекции» и на «агрегаторы». Примером оцифрованных коллекций может служить портал Цифрового гербария МГУ имени М.В. Ломоносова, о котором мы рассказывали раньше.
🪴 Агрегаторы
Агрегаторы пополняются разными людьми и организациями. У каждого проекта свои требования к типам данных, их региональной приуроченности и т.д. Например, «GBIF» — база по распространению всех видов живых организмов. Она насчитывает более 3 миллионов записей из 113 856 датасетов. Скачать их может любой — достаточно пройти регистрацию на портале. А вот добавлять можно лишь от лица научных организаций и в определенном формате.
🌳 Другие примеры
Ещё несколько порталов, которые могут быть интересны не только ученым, но и всем любителям живой природы, собрали ниже.
iNaturalist – крупный международный портал, о котором мы рассказывали подробнее в отдельном посте. Их сообщество насчитывает 5 миллионов пользователей со всего мира, наблюдающих за природой. Сайт полностью русифицирован.
Avibase посвящена исключительно птицам и насчитывает 53 962 805 записей. Здесь можно выбрать свой регион и скачать для него список встречающихся птиц с фотографиями и базовой информацией. Портал частично переведен на русский язык.
На портале Млекопитающие России можно найти 277 844 записей и 111 689 фотографий млекопитающих страны. Пользователи могут добавлять свои данные в свободном режиме.
🤖 «Системный Блокъ» @sysblok
Что читают, осмысляют и о чём говорят на программах по DH?
Собрали три текста из блога DH-центра ИТМО @dhcenter, которые помогут понять контекст обучения цифровым методам в гуманитарных исследованиях и узнать больше о подходах и вопросах из мира DH.
От Стоунхенджа до Лас-Вегаса и Теории теории смартфона. Что читают на программе по Digital Humanities?
Подборка текстов, которые читают на магистерской программе по Digital Humanities. Узнаете, например, об исследовании языка и риторики мирового банка с 1946 по 2012 год. А ещё о том, почему три ключевых метафоры интернета — место, инструмент и способ быть (way of being), и как отловить их в собственной речи.
От Аристотеля до 3D-моделей тела. Три взгляда на визуализации
Сложный и насыщенный разговор культуролога Ольги Давыдовой, медиафилософа Алины Латыповой и дизайнера Трофима Попова об эстетических критериях, социальных аспектах и роли визуализации. Если готовы разобраться с понятиями «графезис», «колорема» и «коллективный эмпиризм», то точно узнаете больше о визуализациях в науке и в поэзии, а заодно и о том, кто считает их отличным инструментом, а кто — «проклятием гуманитарной мысли».
От UX до DH. Интервью про UX-исследования, Human-Computer Interaction и связь юикса с цифровой гуманитаристикой
Чем отличается UX от UX-исследований? Как они соотносятся с цифровой гуманитаристикой и DH-проектами? Юиксеры изучают пользователей или объекты в цифре? Ответы найдете в разговоре Алексея Евстифеева, UX-исследователя и координатора проектной группы по UX в Пушкине <цифровом>, и Полины Колозариди, академической руководительницы магистерской программы по DH в ИТМО.
🤖 «Системный Блокъ» @sysblok
Бум и крах искусственного интеллекта: забытая история первых цифровых помощников
Сегодня ИИ решает все более сложные задачи и угрожает заменить профессионалов в самых разных областях: от медицины и юриспруденции до геологоразведки. То же можно сказать и про 1980-е — время взлета искусственного интеллекта, когда в центре внимания оказались экспертные системы. Рассказываем о том, как они появились, почему не смогли завоевать мир и чему их взлет и падение могут нас научить.
Кратко: как появились и исчезли экспертные системы?
В 1965 году ученые из Стэнфордского университета создали первый образец программы, получившей название DENDRAL (от DENdritic ALgorithm, «ветвящийся алгоритм»). Именно она считается первой экспертной системой, то есть системой искусственного интеллекта, которая на основании знаний и опыта эксперта-человека может решить задачу в определенной области. В случае DENDRAL это была органическая химия.
И хотя попытки сделать программу коммерчески успешным продуктом провалились, этот пример вдохновил ученых на создание экспертных систем в самых разных областях. Появились SACON (для анализа физических объектов), CRYSALIS (для определения структуры белков), PROSPECTOR (для поиска полезных ископаемых)…
К 1980 году появилась и первая коммерческая экспертная система R1, более известная как XCON (от eXpert CONfigurer, «экспертный конфигуратор»). XCON должна была подбирать элементы для компьютерной системы VAX в соответствии с требованиями заказчика. К 1986 году она за 2,5 минуты определяла необходимую конфигурацию системы, а компания Digital Equipment Corporation утверждала, что внедрение XCON позволило им экономить более 25 млн долларов в год. Это привело к ажиотажу вокруг экспертных систем не только в Америке, но и за ее пределами – от Великобритании до Японии.
И все же к началу 1990-х годов экспертные системы канули в Лету. Что же произошло? Во-перввых, они плохо поддавались изменениям. Во-вторых, с легкостью начинали галлюцинировать, когда запрос выходил за рамки их базы знаний. Наконец, их поддержание в рабочем состоянии требовало большого количества квалифицированных сотрудников, услуги которых стоили дорого. Это сводило на нет всю экономию.
Правда, исчезли экспертные системы всё-таки не бесследно. Подробнее о том, во что они превратились, а также о других страницах их истории, узнаете из полного текста материала.
Время чтения: 21 минута
🤖 «Системный Блокъ» @sysblok
Разделить цену войны: кого, откуда и когда призывали в годы ВОВ?
Сегодня 80 лет Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Они позволяют посмотреть на историю ВОВ через историю призыва, а огромный объем данных превращает такую работу в настоящее дата-исследование.
Предлагаем вспомнить исследование «Системного Блока», посвященное анализу 26,5 млн. карточек с военно-пересыльных пунктов. Эти данные позволяют увидеть, как отличалась картина призыва в разные годы в отдельных республиках СССР.
Кратко: о чем статья?
У каждой республики была своя история участия в войне и свой портрет призыва. Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.
Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.
Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Туркменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.
Время чтения: 25 минут.
🤖 «Системный Блокъ» @sysblok
Алгоритмы и дискриминация на рынке труда. Чему мы научили искусственный интеллект?
Сегодня за свои права приходится бороться не только с работодателями, но и с искусственным интеллектом. ИИ все чаще используется для управления персоналом и набора сотрудников — и он закономерно научился дискриминировать людей по полу, физическим возможностям и т. п. «Системный Блокъ» предлагает перечитать классический материал об ИИ на рынке труда в честь 1 мая — Дня солидарности трудящихся.
Кратко: о чем статья?
Использование ИИ в подборе персонала — один из основных трендов сферы труда. Так, более половины всех HR в США используют алгоритмы искусственного интеллекта при приеме на работу, проведении собеседований и оценке кандидатов. Алгоритмы найма с ИИ очень разнообразны. Например, платформа HireVue оценивает кандидатов по мимике и высказываниям во время видеособеседования, а в некоторых российских компаниях работает ИИ робот-рекрутер Вера. Она приглашает кандидатов на собеседования и проводит опросы увольняющихся сотрудников.
Главная цель ИИ-рекрутинга — помочь человеку справиться с рутинными процессами в найме, одна из главных проблем — предвзятость. Алгоритмы часто оценивают кандидатов несправедливо, так как обучаются на данных, часто копирующих искажения и ошибки людей. Например, HR-робот мог классифицировать тексты с упоминанием ограниченных возможностей как более «токсичные» и оценивать их негативно, а ИИ-рекрутер Amazon снизил оценку резюме женщин, так как был обучен в основном на резюме мужчин.
Конечно, дискриминация не связана напрямую с ИИ: он копирует установки общества. Законодательство разных стран старается регулировать неравенство в том числе и в рекрутинге. Например, в ЕС существует проект закона, контролирующего использование искусственного интеллекта: подобные технологии должны, например, обучаться на качественных недискриминационных данных, а также иметь общедоступную документацию, объясняющую алгоритм и цель проекта. Не все сотрудники довольны участившимся использованием ИИ в компаниях, однако первые шаги к регулированию уже сделаны.
Подробнее о том, как искусственный интеллект используется в найме, в чем подвержен людским предрассудкам и как с этим бороться читайте в полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
«Слово о полку Игореве» как улика, берестяные грамоты и морфология. Памяти А. А. Зализняка
Он доказал подлинность Слова о полку Игореве, разобрался в сложнейшей системе ударения в русском языке и ежегодно рассказывал широкой аудитории о том, что написано в очередных найденных под землей берестяных грамотах... Сегодня исполнилось бы 90 лет выдающемуся лингвисту Андрею Зализняку. Вспоминаем наши материалы о его вкладе в науку.
Берестяные грамоты от раскопа до компьютера
А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.
Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.
«Слово о полку Игореве» как улика
Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.
Акцентуаторы
Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.
Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.
В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.
Морфология
Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.
Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.
🤖 «Системный Блокъ» @sysblok