Telegram-канал boris_again - Борис опять: Unsorted - каталог телеграмм

boris_again | Unsorted

Subscribe to a channel

Telegram-канал boris_again - Борис опять

12936

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

13 Jul 2025 12:01

Один из интересных моментов из исследования METR: эффект AI инструментов на продуктивность был одинаковым независимо от того насколько "продвинутым" был разработчик в AI инструментах. Так же не было никакой зависимости от количества времени использования Cursor, то есть никакого обучения со временем не наступает.

Это совпадает с моей интуицией что мне как разработчку бесполезно смотреть курс о том как лучше всего промптить Cursor: нет никакой разницы, ботлнек никогда не был в этом.

Читать полностью…

Борис опять

11 Jul 2025 19:35

В исследовании METR мне понравились карточки для дебилов (мы?????) в аппендиксе: что авторы хотели и не хотели сказать. Надеюсь это будет во всех статьях, хотя лучше бы конечно рилсы

Главное, что их результаты консистентны с тем, что от AI тулов может быть большой прирост ускорости на простых проектах или для неопытных разработчиков. Что согласуется со здравым смыслом: конечно я фронт с курсором сделаю намного быстрее, чем сам (потому что не умею делать фронт).

Читать полностью…

Борис опять

11 Jul 2025 13:27

Наконец-то techbro echochamber AI
@gronk is this true

Читать полностью…

Борис опять

11 Jul 2025 11:27

Benchmarks I check from time to time
https://livecodebenchpro.com/
https://trishullab.github.io/PutnamBench/leaderboard.html
https://www.vgbench.com/
https://epoch.ai/data/ai-benchmarking-dashboard?view=table (FrontierMath private)
https://matharena.ai/
https://scale.com/leaderboard/humanitys_last_exam
https://livecodebench.github.io/leaderboard.html
https://lmarena.ai/leaderboard
https://balrogai.com/
https://swe-rebench.com/leaderboard

Honorable mention:
https://metr.org/ (RE-Bench)
https://arcprize.org/leaderboard
https://livebench.ai/
https://simple-bench.com/index.html
https://www.kaggle.com/competitions/konwinski-prize

Читать полностью…

Борис опять

09 Jul 2025 11:46

https://www.astralcodexten.com/p/now-i-really-won-that-ai-bet

Хорошая ретроспектива развития способностей к композиции у генераторов картинок

Читать полностью…

Борис опять

07 Jul 2025 23:19

Я хотел бы, чтобы это было шуткой. Владелец бара где я выступаю, он же бармен и MC шоу, вайбкодит между сетами и приготовлением коктейлей.

Говорит типа, да ладно, там только тесты поправить, а, блин, опять сломалось, подожди.

Я хочу его способность к мультитаскингу (он еще EM, у него 20+ человек в подчинении).

Что прямо сейчас мешает тебе устроиться барменом параллельно с работой программистом? Бесплатное удвоение зп.

Читать полностью…

Борис опять

05 Jul 2025 11:02

Как ни странно английский это топ 1 проблема тех, кто обращается ко мне за консультациями по поиску работы за рубежом. В отличие от навыка проходить собеседования это дело быстро не нагоняется. Мы с Даной недавно развиртуализировались на прикольной встрече и теперь я вам по-дружески (бесплатно 😱) рекомендую её как преподавателя английского

Читать полностью…

Борис опять

04 Jul 2025 20:16

Сотрудники META Superintelligence Team такие типа:

x < $171 million - лютейшая нищета на грани выживания.
$171 million < x < $456 million - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из Wallmart.
$456 million < x < $799 million - нормальная жизнь, ипотека на 10 лет, Тесла средней комплектации.
$799 million < x < $1.14 billion - хорошая жизнь, ипотека на 5 лет, путешествия, aderall.
x > $1.14 billion - достаточно хорошая жизнь, ипотека на 2 года, машина бизнес класса, девушка, кокаин.

На июль 2025, на руки в год, только кеш. Не забывайте. А лучше распечатайте и повесьте на стену у рабочего места.
Будет постоянная мотивация. Только так можно выбраться из нищеты.

Читать полностью…

Борис опять

04 Jul 2025 14:01

Сегодня я буду в гостях у целых N айтишниц, присоединяйтесь :)

Будем обсуждать карьерные кулстори в ML/DS

Важно: эфир будет всего 30 минут, а не как обычно!

Читать полностью…

Борис опять

04 Jul 2025 13:19

🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers

На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.

У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).

Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?

🌸Дизайн бенчмарка:

В бенчмарке две основные группы задач:
🟣воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.

Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:

Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов

🌸Основные итоги:

Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.

Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.

Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.

И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.

🟣Статья https://arxiv.org/abs/2506.22419
🟣Бенчмарк https://github.com/facebookresearch/llm-speedrunner

Читать полностью…

Борис опять

03 Jul 2025 13:30

https://ordep.dev/posts/writing-code-was-never-the-bottleneck

Читать полностью…

Борис опять

01 Jul 2025 19:49

Перечитывал Claude 4 System Card и задумался как быстро сайфай стал реальностью.

Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.

Вердикт: выкатываем.

То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."

Читать полностью…

Борис опять

01 Jul 2025 11:20

Очень качественный и душный дисс на моделирование в AI 2027

https://forum.effectivealtruism.org/posts/KgejNns3ojrvCfFbi/a-deep-critique-of-ai-2027-s-bad-timeline-models

Читать полностью…

Борис опять

29 Jun 2025 09:20

Прочитал в перелете V-JEPA 2: self-supervised энкодер видео и изображений от Меты с претензией на смену парадигмы. Статья крутая и несложная, советую.

В дальнейшем буду приводить эту статью в пример чем в ML отличается решение задачи на 84% от решения на 85%.

По сути в этой версии статьи всё было отмасштабировано. В старой версии было 2 миллиона тренировочных видео на претрейне, а в новой уже 22 миллиона. Количество данных возросло в 11 раз, но это позволило поднять среднее качество всего на 1%. Вот так выглядит прогресс когда низковисящие фрукты уже съедены.

Но не стоит думать, что процент это мало. От фундаментальной модели требуется в первую очередь обобщаться, то есть показывать хорошее качество в редких или вообще новых ситуациях. Борьба за каждый процент говорит о том, что основной пласт типичных кейсов уже закрыт. Идет борьба с длинных хвостом редких ситуаций. Очередной невзрачный процент может перевести модель в разряд достаточно надежных.

Читать полностью…

Борис опять

27 Jun 2025 10:23

Ну и раз я вчера упомянул, что пока еще разбираюсь с последними проектами в универе, то вот один из них — у нас взяли статью на ✨ ICML в Ванкувере ✨ про новый Test-Time Training (если вкратце, то главная идея в том, что во время инференса мы апдейтим веса модели, оптимизируя какой-нибудь self-supervised лосс — это помогает модели быть более generalizable).

На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.

А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.

Кому будет интересно, можете попробовать идею в этом ноутбуке.

📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb

Читать полностью…

Борис опять

12 Jul 2025 13:03

Первая интересная деталь в исследовании METR: внешним экспертам заплатили пропорционально точности их предсказаний насколько AI инструменты ускорят разработчиков. И всё равно они предсказали ускорение +40%, хотя в реальности получилось замедление -20%.

Получается, что апологеты AI хайпа (ну мы???) не злонамеренно лгут, а искренне оптимистично заблуждаются и готовы голосовать за это своими деньгами. Разработчики тоже заблуждаются, хотя и не так сильно, так что получается коллективное помешательство. 😘

Читать полностью…

Борис опять

11 Jul 2025 16:31

# Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

METR выложил рандомизированное исследование влияния AI на скорость работы опытных разработчиков в реалистичных условиях с неожиданным результатом.

Выполнение задач с использованием AI инструментов в среднем занимает на 20% дольше.

Причем если спрашивать разработчиков, то сами они уверены, что AI ускоряет их работу на 20%, а внешние эксперты вообще ожидают ускорения порядка 40%.

Я думаю, что на текущий момент это самое реалистичое исследование влияния AI инструментов на продуктивность разработчиков:
🔹Настоящие задачи из больших open source репозиториев с высокими стандартами качества.
🔸Опытные разработчики (5 лет в среднем) знакомые с кодовой базой над которой работают.
🔹Фронтир AI инструменты на момент исследования: Claude 3.5/3.7 Sonnet и Cursor Pro.
🔸Все разработчики были обучены правильно использовать Cursor Pro.
🔹Хороший дизайн эксперимента: фиксированная метрика (время исполнения), рандомизация, статзначимость, факторный анализ.
🔸Всё проверено вдоль и поперек, чтобы убедиться, что результаты не объясняются каким-то конфаундером.
🔹Исследование не сделано компанией продающей AI тулы.

Подробнее про эксперимент. В исследовании участвовали 16 опытных open-source разработчиков (если выборка кажется маленькой, то читайте дальше, станет понятнее) работающих над большими (1м+ строк кода) и популярными (20к+ коммитов) репозиториями. Разработчики были знакомы со своими проектами, в среднем сделали в них по 1500 коммитов. Всем разработчикам выдали Cursor Pro и научили им пользоваться.

Разработчики выбирали задачу. Далее они делали прогноз сколько у них займет исполнение с AI и без. Затем монетка определяла можно ли использовать для этой задачи AI инструменты. Если задача оказывалась в AI группе, то разработчик мог использовать любые AI инструменты. Мог и не использовать, если не считал нужным. На практике большинство использовали Cursor. Разработчик делал задачу записывая свой экран. Затем создавал Pull Request и дорабатаывал его после код-ревью. Задача считалась завершенной в момент принятия PR, то есть после всех доработок, и в этот момент фиксировалась метрика: время исполнения. Всего за время эксперимента было сделано 246 задач разной сложности, из них 136 с AI.

То есть важно понимать, что рандомизация происходила по задачам, а не по разработчикам. Поэтому выборка здесь не 16 разработчиков, а 246 задач. Это всё ещё не гигантская выборка, но:
1. P-value в порядке.
2. Авторы проанализировали и разметили записи экранов, провели интервью. Словом, сделали качественное исследование. Когда результаты качественного и количественного исследования консистентны это сильный сигнал.

Результаты показывают, что AI инструменты тормозят опытных разработчиков на реальных больших проектах. Здесь каждое слово важно. Например, AI может одновременно с этим ускорять начинающих на маленьких проектах.

Моё мнение 👀: я думаю это правда. Во-первых, надо иметь серьезные основания, чтобы спорить с рандомизированным исследованием. Я искал до чего докопаться и не нашел. Во-вторых, это совпадает с моими личным опытом: я и сам записывал экран где Cursor пытается решить несложную реальную задачу, не заметил никакого ускорения. В-третьих, ускорение даже на 20% не стыкуется с реальностью. Если у нас уже два года вся разработка быстрее и дешевле на 20%, то где эффект? Я бы ожидал колоссальных изменений на рынке труда из-за сложного процента, но по факту пока ничего не произошло (недавние сокращения в бигтехах были из-за налогов на ФОТ в США).

В статье очень много интересных деталей. Например, что эффект сохраняется вне зависимости от используемого инструмента: пользуешься ты agentic mode, только TAB или вообще руками копипастишь в ChatGPT. Или что даже после 50+ часов использования Cursor не наступает никаких изменений, так что это не зависит от опыта работы с AI инструментами.

Я разберу интересные моменты в отдельных постах.

@boris_again

Читать полностью…

Борис опять

11 Jul 2025 13:21

граундинг ллм на хуйне вашего ~~шиза~~ инвестора и head innovator за 300 usd

Читать полностью…

Борис опять

10 Jul 2025 11:00

Интенсив: Нейросети из первых принципов

📅Когда: 09.08 с 15:30 до 20:30
📍Где: Москва, ЦДО «Моноид»
🎙️Преподаватель: Михаил Селезнёв
🧍Ассистенты и оргкоманда: Иван Хахалин, Роман Малов
💰Стоимость:
· 6000 р — базовая цена
· 4000 р — по абонементу на коворкинг
· Бесплатно — для участников и выпускников наших курсов

Купить билет на интенсив и найти подробную информацию можно на нашем сайте

Как насчёт посвятить день тому, чтобы своими руками разобраться, как работают ИИ — от самых базовых принципов до финального результата?

На интенсиве вы напишете простую нейросеть, которая сможет различать рукописные цифры. Да, мы говорим про MNIST-классификатор. Писать простенькие нейросети, чтобы разобраться — довольно популярный формат. Потому что это формирует стойкие интуиции о том, как эти нейросети вообще работают.

🔘О чем речь?
⭕️На Python
⭕️Без TensorFlow, PyTorch и других библиотек, которые прячут под ковер все шестеренки механизма машинного обучения
⭕️С использованием только numpy, pandas и matplotlib
⭕️С написанием почти всех функций для обучения своими руками
⭕️Предварительно выведя алгоритм из первых принципов

Что вас ждёт:
1️⃣Лекция: Как устроены нейроны, параметры, градиентный спуск и backpropagation? Что это за штуки? Почему они работают именно так?
2️⃣Практическая часть: Практическая часть: Захватите ноутбук. Специального ПО не нужно, достаточно браузера и способности подключится к WiFi
3️⃣Финал: Q&A, подведение итогов и разговор о том, что дальше

💬Какие знания нужны на входе?
Примерно уровень первокурсника технического\естественно-научного факультета. А именно:
• чуточку линала (что такое матрицы и как на них умножать)
• чуточку матана (что такое функция и её производная)
• синтаксис питона и базовые способности писать на нем

🔘Минутка честного маркетинга
Давайте начистоту: вся информация, которую мы будем рассказывать - есть в открытом доступе и найти её совсем не сложно. Но сесть, отобрать понятное, обдумать, получить ответы на свои вопросы и закончить всё это готовой нейросетью - как раз то, что люди раз за разом откладывают на потом.

Собственно, мы и предлагаем способ не прокрастинировать эту задачу: формат интенсива "Сделайте меня разобравшимся со всем этим. Под ключ"

📍Адрес: Ломоносовский проспект, 25к3, по вопросам прохода на территорию пишите @MonoidAdmin

Читать полностью…

Борис опять

08 Jul 2025 11:53

https://www.henrikkarlsson.xyz/p/agency

Читать полностью…

Борис опять

06 Jul 2025 11:00

# Как распознать AI-generated текст в 2025

Сгенерированный нейросетями текст может быть очень похожим на человеческий, но есть способы быстро его определить.

Признаки AI текста:
1. Использование длинного тире (–).
2. Частое использование ненумерованных списков.
3. Нет грамматических ошибок и ошибок в пунктуации.
4. Используются деепричастные обороты и другие сложные конструкции.
5. Богатый словарный запас, мелодичный язык.
6. Нет лишних слов и повторов.
7. Связанное и последовательное повествование.
8. Текст приятно читать.
9. Здравые предложения и идеи.

Сохрани, чтобы не потерять!

#щитпостинг

Читать полностью…

Борис опять

05 Jul 2025 11:01

Как поработать со мной этим летом? 🌞

Меня зовут Дана. Я преподаю английский 5+ лет, нежно люблю этот язык и знаю его на уровне С2 (подтверждено кембриджским CPE/C2 Proficiency).

У меня есть профильное образование (иняз Мориса Тореза) и CELTA —
международный сертификат, с которым ты можешь преподавать в любой стране мира. 🌏

Также у меня есть корпоративный опыт (Kaspersky, Студия Лебедева), который я использую в работе.

Занятия проходят на платформе ProgressMe. Уроки адаптируются под запрос студента и состоят из хорошей грамматической базы и аутентичных видео/статей/подкастов.

В карточках — возможные форматы. ❤️ А на канале — полезные и интересные посты и анонсы разговорных клубов.

Записаться: @jordanks

Читать полностью…

Борис опять

04 Jul 2025 20:04

🎙Как обещали – запись прямого эфира с Борисом Цейтлиным в рубрике #Типичный_айтишник.
Для всех кто не смог подключиться – не расстраивайтесь, выйдет и пост в традиционном тесктовом формате!

Читать полностью…

Борис опять

04 Jul 2025 14:01

🎙Мы обещали больше прямых эфиров, и они будут!

Сегодня у нас в гостях Борис Цейтлин. Так как перечисление всех достижений Бориса потянет на целую простыню текста, обобщим: человек, побывавший по все стороны машинного обучения - рисерч, продакшен и преподавание.
А еще почти каждый знаком с его гайдом по найму.

🗓Подключайтесь к прямому эфиру 04.07.25 в 20.00 по Москве и задавайте вопросы!

Читать полностью…

Борис опять

03 Jul 2025 17:11

Лунапарк проводит конкурс — напишите вакансию в нашем стиле и получите $1000! 💵

Участвуйте сами и расскажите своим техническим друзьям и подругам, которые офигенно пишут! Нет, правда, перешлите друзьям с похожими на нас вайбами этот пост (или его короткую версию), пусть прикупят себе гпу.

Правила очень простые:

⏺️по ссылке — всё, что вам нужно знать про вакансию, о которой необходимо написать пост
⏺️пост должен быть: в стиле нашего канала @hrlunapark; интересным для клёвых инженеров; экспертным и технически корректным; привлекающим подходящих под вакансию людей; по возможности отсеивающим неподходящих людей
⏺️один участник может отправить один текст
⏺️автор лучшего по нашему мнению текста получит $1000
⏺️второе и третье место получат $300 и $100 соответственно
⏺️лучших авторов мы можем позвать писать к нам тексты на парт-тайм! ⭐️

У нас можно быть прогером и прикольно писать для самой сильной русскоязычной айти аудитории про лучшие в мире стартапы. Мы рассказывали об Anthropic, Perplexity и Neon задолго до того, как о них узнали все. Хотим найти человека, которому будет в кайф парт-таймово тусить с нами и вместе делать уникальный жанр — вакансии, интересные умным людям, даже не ищущим работу 🥂

Для конкурса мы советуем хорошенько вдохновиться нашими постами в канале @hrlunapark — например, бывает так , так и даже так :)

Ждём ваши тексты в формочке до воскресенья, 13 июля, 23:59 по GMT.

Читать полностью…

Борис опять

02 Jul 2025 11:00

Мне дали попробовать бету Jay Knowledge Hub. Это облачная платформа для сборки RAG (Retrieval Augmented Generation) систем. Через интерфейс загружаешь данные, выбираешь модель, выставляешь настройки. На входе получаешь чат-бота с доступом по API или через разные интеграции.

Для бизнеса RAG поверх своей базы знаний это один из наиболее прямых путей получить пользу от LLM. Это когда чатбот получает доступ к внутренним документам и отвечает на основе них. Под капотом это реализовано как поиск, результаты которого подаются в контекст модели. Получаем помощника, который, например, оказывает поддержку пользователям на основе документации внутреннего продукта.

RAG пайплайны с одной стороны достаточно типовые, так что строя их постоянно изобретаешь велосипед, но с другой стороны требуют слишком тонкой настройки под каждую задачу. KHUB кажется удалось поймать точку посредине: не нужно думать о типовых частях любой подобной системы (например, разбиение и обогащение чанков), но с другой стороны доступна глубокая настройка всех этапов от подготовки индекса до генерации. Можно даже сделать из коробки агентский пайплайн а-ля Deep Research.

Другие фичи из коробки:
➖ Обработка любых форматов: Word, PDF, PPTX, Excel, Confluence, Jira, архивы, графика внутри документов. Встроенный парсер + OCR-модель для картинок.
➖ Умный ingest: данные автоматически очищаются, режутся на чанки, снабжаются summary, ключевыми словами и описанием вложений через мультимодальную LLM.
➖ Интеграции с бизнес-системами и популярными чат-каналами: можно вывести в корпоративный мессенджер, Telegram, API, встроить в виджет на сайте.
➖ Поддержка on-prem, работает в изолированных контурах.
➖ Можно делать multi-agent и кодовые сценарии.
➖ Интерфейс для управления проектами и оценкой качества: отслеживайте прогресс обработки, редактируйте чанки, запускайте переобучение, валидируйте ответы через встроенную систему оценки качества.

Я проиндексировал свою книжку, початился с ней, поигрался с настройками RAG и остался доволен. Рекомендую, добротный продукт!

У ребят недавно состоялся релиз, попробуйте и вы!

Читать полностью…

Борис опять

01 Jul 2025 16:09

AI навсегда изменит образование, но есть нюанс

Читать полностью…

Борис опять

30 Jun 2025 11:55

tl;dr: software engineer w/ LLM expertise, $100k-150k + equity, remote

Неделю назад к нам пришли новые клиенты и сразу нам понравились:

— $5М на пресиде — и раунд был oversubscribed, так что они ожидают x3 от этого ещё до Series A 💸
— предыдущий стартап от тех же фаундеров сейчас оценивается в $3.3B;
— у команды в среднем по 15 лет опыта в местах вроде Меты или AWS;
— ✨👾киберсекьюрити!👾✨ (и немножко AI, конечно).

Пришли и попросили разработчика, который очень хорошо шарит в современных LLM: знает что лучше умеет Claude, а что — Gemini, как выжать из разных моделей максимум и какие у них ограничения, и следит, что там показали OpenAI в последнем релизе.

Это IceGuard — они делают платформу для сбора и анализа логов безопасности. Такие обычно называются SIEM — Security Information and Event Management, и без них не обходится почти никакая киберксекьюрити стратегия. А ещё в этой части инфобеза живут люди, которые круглосуточно смотрят в алёрты и отчёты, чтобы реагировать на инциденты и принимать решения.

Всё это работает сейчас, но плохо скейлится в мир, где есть AI-агенты и логов вдруг становится в 10 раз больше. Поэтому IceGuard делают свою SIEM: с централизацией данных, чтобы обрабатывать тонны запросов намного быстрее, и AI-агентами — чтобы автоматизировать решение простых задач и кратно ускорять людей с более сложными 👾

И для этого им нужен тот самый разработчик — весёлый, бодрый и разбирающийся в LLM. Быть синьором, кстати, не очень важно, если в остальном вы мэтч.

Необязательны, но могут помочь:
⏹️ опыт разработки продуктов на базе LLM, особенно про аналитику или поддержку;
⏺️продуктовое мышление: уметь придумать удобный флоу для какого-то процесса и UX к нему;
💐 опыт в кибербезопасности;
⏺️ опыт с langchain, llamaindex, neo4j или чем-то ещё в этом духе.

Вилка $100k-150k + equity, ремоут.

Расскажите @owlkov, чего вы делали с разными моделями!

Читать полностью…

Борис опять

27 Jun 2025 19:13

Cloud.ru выкатил сразу два крупных анонса на GigaConf для упрощения работы с облаком и искусственным интеллектом

Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.

Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.

Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.

Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.

Читать полностью…

Борис опять

26 Jun 2025 19:42

Сходки в Москве в ближайшее время не будет :(

Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.

В следующий раз :с

Читать полностью…

Subscribe to a channel