boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12936

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

Получилось длинно, мотать вверх страшно, но это обзор крутой и важной статьи, так что вот вам ссылка на начало:
/channel/boris_again/2625

Читать полностью…

Борис опять

Наконец, авторы измеряют качество моделей мира LLM на простой логической задаче с пространственной компонентой. Пример вопроса на скриншоте 1.

Результат: у LLM, включая GPT-4, всё плохо. Близкая к 100% доля верных ответов, но метрики качества модели мира 0.2 - 0.6. Каким-то образом у Qwen 1.5 110B метрики сильно лучше, чем у GPT-4.

При увеличении количества стульев с трех до пяти доля верных ответов падает на 20%, а метрики качества модели мира падают до плинтуса. Хотя задача по своей сути не изменилась.

Всё это приводит к ошибкам как на втором скрине: две разные постановки одной и той же ситуации, но LLM даёт разные ответы.

Читать полностью…

Борис опять

Дело в способности обобщать знания. Представим, что вы едете в такси и натыкаетесь на пробку. Таксист объедет её и найдет другой путь к точке назначения. Однако модель в такой ситуации ломается. Если добавить к маршруту модели пару случайных поворотов её качество моментально падает до уровня плинтуса.

То есть неконсистентная модель мира мешает модели обобщаться. Это не стоит путать с переобучением, ведь модель достигает близкого к 100% качества на маршрутах, которые она не видела при обучении. Проблемы начинаются когда меняется задача в целом, пусть даже незначительно: в этом случае переход от навигации к навигации с препятствиями.

Авторы повторяют эксперимент с другими средами, на которых ранее изучались модели мира, например Othello. Обнаруживают те же проблемы.

Читать полностью…

Борис опять

# Evaluating the World Model Implicit in a Generative Model
Keyon Vafa, Justin Y. Chen, Jon Kleinberg, Sendhil Mullainathan, Ashesh Rambachan

Возможно самая важная работа о генерализации и моделях мира нейросетей за последние годы. Будет длинно, но вы держитесь.

Мы знаем, что у нейросетей есть модели мира. Например, LLM знают географию Земли, а модели, обученные играть в настольные игры, строят репрезентации игрового поля на несколько шагов вперед.

В этой статье авторы задались вопросом: насколько хороши модели мира и как это измерить?

Авторы взяли в качестве среды поездки таксистов по Манхэттену, преобразованные в текст: начальная точка, конечная точка и повороты на перекрастках. Например: 820 210 N E E E SE W W N SE N end.

Модель обучается принимать на вход начальную и конечную точки, а затем составлять маршрут в режиме предсказания следующего токена, то есть по одному поворту за раз. Далее можно сравнить, что выучила модель, с настоящей картой.

Обычно генеративные модели оценивают по следующему токену. Считается, что, если модель верно предсказала следующий поворот, то она молодец. По такой метрике модель достигает близкого к 100% качества.

Однако авторы демонстрируют, что такая метрика не отражает качество модели мира. В некоторых случаях, можно получать точность близкую к 100% с помощью абсолютно бесполезной модели.

Для оценки настоящего качества придумали измерять две вещи:
1️⃣ Модели показали части двух разных маршрутов ведущих в одну точку назначения. Текующие перемещения привели её к одному перекрестку. Для обоих маршрутов теперь ей нужно повернуть налево. Как часто она в таком случае поворачивает налево, а не дает разные ответы? Это авторы называют способностью к компрессии.

2️⃣ Модели показали два разных маршрута ведущих в разные точки. Как часто она выдает верные следующие повороты для обоих маршрутов? Это навторы называют способностью к разделению (distinction).

Те самые модели с 100% качеством оценки по следующему токену показывают очень плохие результаты по этим метрикам. Авторы визуализируют карту города, полученную на основе предсказаний модели. Она полна несуществующих дорог, поворотов сквозь другие дороги и других артефактов. Карту можно посмотреть онлайн.

Можно спросить: ну и что? Модель находит кратчайшие пути. Какая нам разница какие у неё внутри представления?

Читать полностью…

Борис опять

Александр Червов (@alexander_v_c), автор канала Sberloga, ищет коллег для участия в некоммерческом проекте: применение ML к теории групп и графам с итоговой целью опубликовать хорошую статью. Среди руководителей проекта сильные ученые.

Для участия требуется знать Python и быть готовым уделять несколько часов в неделю.

Если вам интересно участие — напишите @alexander_v_c и он добавит вас в чат для обсуждений.

Читать полностью…

Борис опять

Экзамен по Deep Learning в ШАД. Преподаватель спрашивает студента: "Почему работает BatchNorm?". Студент сидит, пыхтит, отвечает: "Простите, забыл." Вот господа,- обратился преподаватель к другим студентам,-величайшая трагедия машинного обучения: один-единственный человек на свете знал, почему работает BatchNorm, да и тот забыл!

Читать полностью…

Борис опять

До чего дошли технологии, можно даже послушать запись

Читать полностью…

Борис опять

Через десять минут начинаем стрим. Под этим постом можно оставлять вопросы гостю

Читать полностью…

Борис опять

Гайд очень хорошо всем зашел, получаю много положительных отзывов даже от стартаперов.

Портировал гайд на хабр и VC

Читать полностью…

Борис опять

Я соврал, я ничего не знаю о "заработке на нейросетях без вложений." Садись, мы будем изучать multi-head self-attention

Читать полностью…

Борис опять

🧠 Цикл Колба или как мы учимся

Не так давно узнал про такое понятие, как Цикл Колба - система, которая описывает буквально любой процесс обучения новому.
Это может быть что угодно: как изучение новых языков, так и изучение ранее незнакомых областей бизнеса

Ключевые постулаты:
1. Процесс обучения состоит из 4 этапов: Опыт (Наблюдаю и отмечаю для себя как что-то работает) -> Анализ (Пытаюсь понять взаимодействия внутри системы) -> Теория (Изучаю материалы и смотрю, как подобные задачи решают другие) -> Практика (применяю полученные знания для совершения действий)
2. Обучение - это цикл. Вы можете залететь в любой этап, но всё равно в той или иной степени вам придётся затронуть каждый из них
3. У каждого человека, как правило, есть персональный перекос в какую-то из частей. Кому-то больше нравится экспериментировать, а кому-то - изучать теоретические аспекты алгоритмов и систем
4. У компаний тоже есть перекосы в разные части цикла. Где-то больше концентрируются на практике и опыте, а где-то - на анализе и теории

Что из этого можно вынести:
1. Если вы руководитель - важно понять, что требуют от вас реалии компании и стараться наниматься соответствующих людей. Если компания предполагает, что 90% работы R&D - вам скорее нужны люди с перекосом в теорию (мыслители), а если предполагает быстрый рост бизнеса и огромное количество экспериментов - скорее с перекосом в практику (активисты)
2. Если вы изучаете новое - важно подумать о всех аспектах цикла. Пример: изучаю новый язык. Стоит спросить себя: по каким материалам стоит его изучать (теория)?; где я смогу потренироваться (практика)?; как я смогу пообщаться с носителем/экспертом (практика), который даст мне обратную связь (анализ)?
3. Если не можете понять другого человека - попробуйте разложить его образ мышления по циклу Колба. Возможно, он имеет перекос в совсем другую грань. Она у вас тоже есть, но, скорее всего, в других масштабах 🙂

Читать полностью…

Борис опять

Открылась подача заявок на летнюю школу AIRI в университете ИТМО. Дедлайн 14 июля.

Отличная возможность для студентов поработать над ML исследованиями.

Оплачивают всё, кроме проезда.

https://airi.net/ru/summer-school-2024/

Читать полностью…

Борис опять

Продуктовые вопросы разработки сейфов.

Коллеги, команда продукта провела ряд исследований и мы рады представить вам наши инсайты.

Как вы помните, в прошлой версии мы добавили аналитику: сейф отправляет событие при нажатии каждой кнопки. Мы заметили, что пользователи значительно часто (p<=0.01) пользуются цифрами 1 и 9, а цифры 3, 4, 6, 7 практически не используются. Поэтому мы приняли решение в следующей версии внедрить новый циферблат с цифрами 1, 2, 5, 8, 9.

На основе интервью мы выяснили, что пользователи пользуются сейфами, чтобы спрятать оружие от детей. Алексей уже прорабатывает возможности выхода на смежные рынки детских игрушек, оружия и детского оружия. Бизнес девелопмент уже договорился о совместной рекламной акции с Heckler & Koch и Nestle: купи снайперскую версию MR762A1, получи сейф и упакову "Несквик" в подарок. Однако наша долгосрочная цель в собственной экосистеме, где пользователь получает уникальную комбинацию сейфов, оружия и детских товаров. Команда инженеров делает прототип дробовика, который был бы совместим только с нашими сейфами, и мы надеемся показать его к концу следующего спринта.

Мы заметили, что со временем пользователи начинают воспринимать продукт как данность. Но в процессе интервью было обнаружено, что неудачные попытки детей вскрыть сейф значимо повышают доверие родителей к продукту. Мы предлагаем новый дизайн сейфа с яркими цветами. По замерам фокус группы такой сейф на 32% чаще привлекает внимание детей и побуждает родителей к апгрейду до более надежных сейфов из премиум линейки.

Мы исследуем новые модели монетизации. Самой перспективной выглядит pay-as-you-go модель с подпиской, где мы берем деньги в течение всего цикла: при покупке, за обслуживание и за каждую попытку открыть сейф. Наш новый продакт Иван очень верно подметил, что лучше брать деньги за открытие сейфа, а не за закрытие, как мы делали раньше. Внедрение этих изменений в прошлом месяце вызвало взрывной рост ревенью по сравнению с контрольной группой, а Иван заслужил грейдап.

К сожалению, всё ещё сохраняется ряд багов. По прежнему не исправлена ситуация, что цифра 1 может залипать при быстром наборе. Мы всё ещё получаем репорты от пользователей, которым было трудно открыть сейф во время вторжения в их дом. К счастью никто ещё не сообщил о том, что ему не удалось открыть сейф во время вторжения, поэтому у проблемы низкий приоритет и мы вернемся к ней в Q4.

Новости о коллаборации с GR отделом. Как выяснили аналитики, продажи сейфов коррелируют со свободным обращением оружия в регионе. Хорошие новости: нашей команде удалось внести на рассмотрение новый законопроект о легализации скрытого ношения оружения в двух новых юрисдикциях.

На этом всё, коллеги. Напоминаю о необходимости отчитаться по OKR за месяц. Особенно от команды энгейджмента: я заметил, что конверсия в открытие сейфа при попытке ввода перестала расти, и ожидаю полный отчет.

#щитпостинг

Читать полностью…

Борис опять

https://www.metaculus.com/notebooks/25525/announcing-the-ai-forecasting-benchmark-series--july-8-120k-in-prizes/

Соревнование по прогнозированию будущего с помощью ботов на LLM.

В описании говорят про промпт-инжиниринг, и в бейзлайн примере бот имеет доступ к Metaculus API, OpenAI API и Perplexity API.

Но, насколько я понял, на бекенде бота может быть вообще что угодно, так что можно развлекаться и читерить.

Так же бот имеет доступ к другим предиктам. Все боты должны оставлять комментарии со своей цепочкой рассуждений. Так что можно сделать бота, который использует рассуждения всех других ботов и текущее предсказание комьюнити.

В общем надеюсь профессиональные каглеры всё не сломают :(

Читать полностью…

Борис опять

В январе я впервые серьёзно засел за LeetCode, а в марте поучаствовал в своём первом соревновании по компьютерному программированию.

Оказалось, что как раз вовремя, чтобы из первого ряда посмотреть как эта дисциплина отправляется вслед за шахматами, го и написанием вежливых пассивно-агрессивных email'ов в список проблем, с которыми AI справляется лучше людей😏

Я добился сносных результатов - сейчас я в топ 2.5% по рейтингу. Но сомневаюсь, что при прочих равных смогу когда-либо значительно подняться выше. Потому что я лучше GPT-4o, но хуже Sonnet-3.5.

В сегодняшнем LeetCode Biweekly Contest я смог оптимально и без ошибок решить 1 easy и 2 medium задачки за 22 минуты, с hard'ом провозился всё оставшееся время и не справился. Я сейчас проверил: GPT-4o смогла решить только первые две задачи, зато Sonnet-3.5, как и я, справилась с первыми тремя - и сами можете представить, насколько быстрее.

С таким результатом я занял 9932 место из ~35К человек. А ещё в апреле у меня была парочка соревнований, где я смог решить только 2 задачи, но занимал место в топ-2К.

И да, сложность соревнований отличается, но если к мощности Sonnet-3.5 добавить коллективный ум закрытых групп по решению контестов (и предположение, что благодаря рандому 1 раз из 100 Sonnet может решить и hard), то легко найти подтверждения тому, что я не просто нытик - смотрим топ:

- 6 место - из топ 20% по рейтингу, ни разу раньше не решал все 4 задачи на контесте
- 18 место - noname аккаунт с 10 решёнными задачами, для которого это первое соревнование
- 24 место - первое участие в соревнованиях, 68 решённых задач
- 26 место - дофига решённых задач, но bottom-3% в контестах
- 27 место - топ 40% по рейтингу, 108 решённых задач
- И там можно продолжать и продолжать: 30 место, 33 место, 34 место, 35 место, 36 место...

Для сравнения парочка сильных аккаунтов с более плохими результатами - вот 42 и 54 места с чуваками из 0.06% лучших по рейтингу.

Так что может ли кто-то так внезапно выстрелить - конечно. Но чтобы вот так вот все сразу - решайте сами😏

Интересно, как это всё изменит онлайн контесты. Делаем ставки, когда noname аккаунт впервые займёт первое место🍿

Читать полностью…

Борис опять

Закапываем модели мира? DL не умеет обобщаться?

Напротив. Раньше мы знали, что у нейросетей есть какие-то модели мира. Так же мы наблюдали косяки в этих представлениях о мире. Чего только стоит непонимание композиции у генераторов изображений. В ту же степь и глупые ответы GPT-4 на простейшие детские загадки.

Теперь мы знаем как измерить эти косяки. Если мы можем измерить, значит можем улучшать.

Авторы показывают, что добавление синтетических данных при обучении нейросети играть в Othello поднимает метрики качества модели мира с плачевного уровня почти до практически 1.0. Это не значит, что всё решается синтетикой, ведь Othello это простая среда. Но это показывает, что модели мира можно делать лучше.

Я надеюсь, что вскоре мы увидим исследования, направленные на создание консистентных моделей мира.

Читать полностью…

Борис опять

При добавлении 1% вероятности поворота не туда шанс найти верный кратчайший путь падает на 32%, при 10% вероятности на 90%.

Читать полностью…

Борис опять

Как Таксист-GPT-2 видит Манхэттен. Ей стоило больше играть в GTA-IV.

Читать полностью…

Борис опять

Было бы вам интересно участвовать в небольшом сообществе в духе канала, то есть полноценном чатике подписчиков? Поставьте любую позитивную реакцию, если да.

Мне кажется тут приятная атмосфера и срез интересных людей. К тому же бывает много мемов вещей, которые хочется с кем-то обсудить, но не хочется делать пост в канале.

Читать полностью…

Борис опять

Забыл сказать, что на стриме про магистратуру был специальный гость (реальный скрин из аудиочата)

Читать полностью…

Борис опять

# 10 тысяч подписчиков!

Привет всем новым подписчикам! Это не канал с подкастами о магистратурах, как можно было подумать. Чтобы понять, что тут происходит, лучше всего посмотреть этот пост. Сразу предупрежу, что в канале есть реклама, но только если я считаю её полезной для вас (подробнее здесь).

Теперь немного рефлексии. Канал вырос в два раза меньше чем за год и вдруг всё стало казаться очень серьезным. Если раньше было ощущение, что у меня маленький канальчик для себя, то теперь у меня большой канальчик для себя.

Канал растет несмотря на мою контентную политику: никакой контентной политики. До сих пор трудно ответить на вопрос: "О чем этот канал?" Про ИИ, машинное обучение, карьеру, перфекционизм, самогонную философию, мемы, и теперь стендап.

Получается, что канал про любопытство.

Я очень рад, что вам это интересно, и определенно не ожидал такого отклика.

По традиции предлагаю в комментариях поделиться обратной связью.

Что вам нравится? Не нравится? Какие темы наиболее интересны? Нужно ли больше эмодзи в постах? Насколько бесит реклама? Всё, что угодно.

Читать полностью…

Борис опять

Всем спасибо! Мы не ответили на часть вопросов, но придут специальные люди и помогут мне это сделать, а потом я выложу ответы

Читать полностью…

Борис опять

Завтра, 5 июля в 20:00 по Москве, состоится первый в истории канала стрим, который ранее пришлось перенести.

Тема: новая магистерская программа ВШЭ «Прикладные модели искусственного интеллекта», которая реализуется совместно с VK.

В гостях будет академический руководитель программы Cергей Сластников.

Я очень болею за DS/ML/AI образование в России и особенно в ВШЭ, так как сам учился там и даже преподавал. В расписании программы найти курсы по Machine Learning, Deep Learning, C++, Computer Vision, Natural Language Processing, генеративным моделям, а так же Hadoop. Набор выглядит очень интересно. На стриме мы обсудим программу, почему она реализуется совместно с VK, какие это дает преимущества и накладывает ли какие-то ограничения на выпускников.

5 июля, 20:00 по Москве, в аудиочате канала. Если вопрос магистратуры для вас актуален, то присоединяйтесь к этому тест-драйву нового формата.

Читать полностью…

Борис опять

# Гайд для сотрудников: опционы в стартапах

https://vas3k.club/post/24737/

Вышло! Русскоязычная версия ультимативного гайда о том, что сотрудникам стартапов нужно знать по опционы, как можно всё потерять и каковы шансы заработать.

По сравнению с англоязычной версией текст сокращен, упрощен и снабжен мемами.

Текст потребовал от меня много усилий, так что буду рад, если вы поделитесь им с друзьями ❤️

Читать полностью…

Борис опять

"Тапать хомяка? Я бы никогда не стал тратить время на бессмысленные цифры в интернете"

Так же каждые пять минут:

Читать полностью…

Борис опять

https://borisagain.substack.com/p/notes-from-gun-safe-tech-2024-showcase

Расширенная англоязычная версия статьи про вопросы продуктового развития оружейных сейфов

Читать полностью…

Борис опять

Последний концепт child-friendly продукта, созданный благодаря внедрению AI в наши процессы.

Так же работаем над LLM автодополнением при наборе кода сейфа.

Это часть нашей стратегии по развитию AI SAFE-ty лаборатории.

Читать полностью…

Борис опять

Не все понимают принцип MVP. Мой друг рассказал, что ему поручили разработать сейф с новым типом кодового замка. Я предложил ему максимально дешево протестировать идею: выпустить первую версию замка, которая открывается при введении любого кода. Затем сделать A/B тест конверсий в покупку и провести интервью с пользователями.

Он вообще не понял идею, что ожидаемо, ведь продуктовое мышление не дается просто так. Нужен бекграунд и большая подготовка. К тому же он почему-то перестал со мной общаться, что тоже ожидаемо, ведь новое пугает людей. Всё равно накидал ему ссылок на курсы-симуляторы и статьи, может быть что-то поймет

#щитпостинг

Читать полностью…

Борис опять

https://arxiv.org/abs/2406.13843

Deepmind выпустили обзор случаев неправомерного использования ИИ. В топе дипфейки с политиками

Читать полностью…

Борис опять

#обзор_статьи

# Is artificial consciousness achievable? Lessons from the human brain
Michele Farisco, Kathinka Evers, Jean-Pierre Changeux

Статья-разочарование.

Авторы анализируют связь между человеческим мозгом и подходам к ИИ. В основном проводят параллели с нейросетями.

В начале статьи они ставят вопрос о том, что некорректно использовать один термин "сознание" для человека и ИИ. Так же ставят вопрос о том, что для ИИ могут быть не нужны свойства биологического мозга.

Затем авторы забивают на оба вопроса и всю оставшуюся статью говорят: "мозг человека работает так, а нейросеть не так, следовательно у нейросети нет сознания." Например, что в мозгу человека нейронные связи формируются в процессе взросления (взаимодействия со средой), а в нейросети не так, следовательно сознания нет. С моей точки зрения из А здесь абсолютно не следует Б. Я бы так же поспорил, что в нейросети вполне может быть так. Смотря как определять развитие связей и среду.

Так же авторы делают несколько полностью неверных утверждений про нейросети. Например, что у нейросетей нет мультимодальной репрезентации мира (авторы не смогли нагуглить статью про CLIP из 2021). Или, что мозг может использовать разную комбинацию нейронов для выполнения одной функции, а нейросети нет (про дропаут не слышали). Или, "стратегия LLM для эмуляции языка не включает в себя понимание смысла." That's just like, uhhh, your opinion, man. В общем, очень печально, так как статья убедительная и авторитетная, а значит неверные утверждения закрепятся вне ИИ пузыря, увеличивая непонимание между сферами.

Как так? Я прогуглил всех авторов. Как и ожидалось, два философа и нейробиолог. Стоило бы подключить кого-то из сферы AI. В итоге планировалась кросс-дисциплинарная статья, а получилось одностороннее изложение.

Если закрыть глаза на утверждения статьи про AI модели, то в остальном она содержит хороший обзор на стыке философии и нейробиологии. Про различные признаки и определения сознания, теории об эволюционном формировании разума, стадии развития сознания у людей и животных, связь всего этого с нейробиологией.

Читать полностью…
Subscribe to a channel