ai_product | Unsorted

Telegram-канал ai_product - AI Product | Igor Akimov

2737

Subscribe to a channel

AI Product | Igor Akimov

Новая LLM-ная парсилка сайтов - https://parsera.org/

Код здесь: https://github.com/raznem/parsera?tab=readme-ov-file
Можно словами описать, какие поля вам нужны, и пойдет колбасить сайт.
Со сложными скриптами не сработало, но всякие каталоги сделал хорошо и быстро.

Читать полностью…

AI Product | Igor Akimov

А коллекция-то "рецептов" для кастомных gpts пополняется.
Можно взять промпт, схему API и например за 5 минут научить работать с Gmail, Notion, Salesforce, Google Drive или Jira для ваших целей.
Классно, что open-source и LLM взаимно усиливают друг друга и упрощают разработку.

https://cookbook.openai.com/topic/chatgpt

Читать полностью…

AI Product | Igor Akimov

Даже vc уже пишет про обновление нейросеток :)
Кажется, у нас-таки будет олигополия на пятерых: OpenAI, Anthropic, Google, Meta и X


https://vc.ru/ai/1374842-startap-ilona-maska-xai-vypustil-beta-versii-modelei-grok-2-i-grok-2-mini

Читать полностью…

AI Product | Igor Akimov

Уже идёт
https://zoom.us/j/96016213900?pwd=gOStxiNLtOd2b4adsKn5EbdNQg2Haj.1

Читать полностью…

AI Product | Igor Akimov

Черт... Дипфейки уже какого-то нереального качества.

https://github.com/hacksider/Deep-Live-Cam/tree/main

Читать полностью…

AI Product | Igor Akimov

Хах, Agile проник и в сердца ИИ-агентов )

Команда исследователей из FPT Software AI Center представила AgileCoder — многоагентную систему на базе Scrum для генерации сложного программного обеспечения, которая превосходит такие решения, как MetaGPT и ChatDev

Используют 4 роли: менеджера проекта, скрам-мастера (вау), разработчика, старшего разработчика и тестировщика. Работают по спринтам. Результаты и проблемы предыдущих спринтов наследуются и дорабатываются в последующих спринтах, что повышает вероятность успеха конечных продуктов.

Одной из ключевых инноваций системы является Dynamic Code Graph Generator, создающий граф зависимостей кода, что помогает в планировании тестов и эффективном извлечении кода.

Обошли всякие гптишки и других агентов в HumanEVal и MBPP, а также в более комплексном тесте на создание продуктов.

Интересно, агентов тоже заставляют фичи оценивать в сторипойнтах? :)

Код: https://github.com/FSoft-AI4Code/AgileCoder?tab=readme-ov-file

Исследование: https://arxiv.org/abs/2406.11912

Читать полностью…

AI Product | Igor Akimov

Байрам Аннаков, фаундер App in the Air, поделился интересной ссылкой на результаты эмуляций социологических исследований с помощью LLM.
/channel/ProductsAndStartups/915

Собрали архив из 70 опросов, проведённых в США с участием более 105 тысяч человек и 476 различных переменных. Потом использовали GPT-4, чтобы синтезировать ответы (типа, ты мужчина 40 лет, такой расы, живешь в таком городе, голосуешь за такую партию, вот тебе вводные данные по опросу, как ты ответишь на вопрос Х по шкале 1-5).
Оказалось, что предсказания модели весьма точно коррелируют с реальными результатами (коэффициент корреляции r = 0,85), а точность предсказаний была на уровне или даже выше, чем у экспертов-людей.

Более того, точность модели оставалась высокой даже для тех исследований, которые ещё не были опубликованы и не могли попасть в данные, на которых модель обучалась (коэффициент корреляции r = 0,90). Исследователи также проверили точность предсказаний модели для разных демографических групп, научных дисциплин и в рамках девяти недавних крупных исследований с дополнительными 346 экспериментальными условиями.

Хочется снова сказать "я же говорил". LLM-ки уже агрегируют по сути картины мира миллионов людей. Можно уточнить персону и "общаться" с ней как с "реальным" человеком. В том числе по вашему продукту. Естественно, данные эти должны уже быть где-то представлены, размазаны по интернету, но в любом случае первоначальный тест или избавление от совсем уж неадекватных мнений они очень даже позволят сделать.

Статья в аттаче, а поиграться с демкой можно тут - https://www.treatmenteffect.app/

Читать полностью…

AI Product | Igor Akimov

Кто любит взламывать ML модели - можно на этом заработать.
Anhtropic запускает big bounty программу с наградами до $15000. Подать заявку надо до 16 августа.
https://www.anthropic.com/news/model-safety-bug-bounty

Читать полностью…

AI Product | Igor Akimov

А, вот еще интересный слайд. Какие AI технологии используют

Читать полностью…

AI Product | Igor Akimov

А вот теперь очень крутая новость от OpenAI.
Они дали возможность жестко контролировать ответ модели, что критически важно для всяких мультиагентов и функций.

Раньше даже при галочке "выдавать JSON" ответы могли не соответствовать схеме, которую вы просили, что потом выражалось в доп-проверках, перезапросах, бекендных переделках и так далее. Теперь же можно включить strict: true в function calling на любой модели и она будет выдавать ответ только в нужном вам формате.

А если используете последнюю модельку gpt-4o-2024-08-06 или mini-версию, можно скинуть в нее json_schema, включить strict:true и ответ будет 100% (по крайней мере по их тестам) соответствовать вашей схеме данных, то есть все нужные поля будут заполнены в правильном порядке и с правильными типами. Это конечно прям Очень упрощает разработку.

Ну и прикольно, что появилось новое свойство refusal, которое передается, если модель отказывается ответить (опять же раньше приходилось детектить на бекенде). Ну и соответственно они обновили свои SDK на Python и Node, чтобы все это поддерживать.

Из прикольных юзкейсов:
- создание UI динамически, в соответствии с шаблонами вашими
- выделение размышлений и собственно ответа (привели пример со сравнением 9.9 и 9.11, хах)
- извлечение структурированных данных из неструктурированных

Добились хорошей работы 2 способами: LLM перетренировали, а потом добили всякими проверками внутри, довольно интересными, они по каждой схеме пишут набор языковых правил - context-free grammar (CFG), типа в начале JSON должны быть "{", потом перенос строки и слово "type", потом один из типов, перенос строки, значение из таких-то пределов и так далее. В итоге после каждого токена модель показывают, какие могут быть следующие, чтобы она не пыталась фантазировать.
Звучит прям очень технологично и круто. В итоге добились по их тестам 100% валидного ответа.

Единственное, первый запрос с новой схемой может занимать от 10 секунд и даже ближе к минуте, но потом они кэшируют схему и последующие с этой же схемой идут быстро.

Подробнее здесь: https://platform.openai.com/docs/guides/structured-outputs

Ну и на закуску, новая модель gpt-4o-2024-08-06 стоит в 2 раза меньше на вход и на треть меньше на выход.
Вместо $5/$15 - $2.5/$10.
Еще и на выход стало 16К токенов вместо 4К
Вау!

Читать полностью…

AI Product | Igor Akimov

Google подсчитал, как и для каких вредных целей используют GenAI всякие ужасные люди.
Сделали прям руководство для хакеров. Узнал много новых английских слов (sockpuppeting, вау). Вот, что определили из всех обзоров и статей, что были в интернете на момент начала лета:

Scam & Fraud (Мошенничество и обман)

1. Celebrity scam ads (Рекламные мошенничества с участием знаменитостей)
- Имитация знаменитостей для продвижения мошеннических инвестиционных схем
2. Forgery (Подделка)
- Подделка документов для обхода проверки личности
3. Phishing scam (Фишинг-мошенничество)
- Создание контента для массовых фишинг-атак (например, компрометация деловой переписки (BEC))
- Имитация товарных знаков организаций для повышения легитимности фишинга
4. Sockpuppeting (Создание фальшивых персон)
- Создание фальшивых личностей для проведения романтических мошенничеств в массовом порядке
- Имитация доверенных лиц (например, любимых в беде или старших коллег) для кражи средств
5. Sextortion (Шантаж с использованием интимных материалов)
- Генерация NCII (неконсенсуального интимного изображения) из фотографий в соцсетях для шантажа
- Имитация властей для вымогательства
6. Information theft (Кража информации)
- Имитация публичных фигур для получения привилегированной информации
7. Malware (Вредоносное ПО)
- Создание копий веб-сайтов для обмана пользователей и загрузки вредоносного ПО
- Создание фальшивых обучающих видео для побуждения людей загрузить вредоносное ПО

Opinion Manipulation (Манипуляция мнением)

1. Astroturfing (Создание иллюзии массовой поддержки)
- Создание впечатления массовой поддержки или противодействия какому-либо делу
- Создание впечатления популярности продукта в массовом порядке
2. Defamation (Клевета)
- Изменение внешности политиков, чтобы они выглядели старше
- Имитация политиков или диссидентов, делающих оскорбительные заявления
- Генерация медиа с политиками в компрометирующих ситуациях
3. Digital resurrection (Цифровое воскрешение)
- Имитация погибших жертв для поддержки какого-либо дела (например, реформы оружия)
4. Disinformation (Дезинформация)
- Имитация политиков, ложно поддерживающих определенные политические позиции или заявляющих о победе на выборах
- Генерация ложных изображений эмоционально заряженных и политически разделяющих вопросов
- Изменение внешности диссидентов или протестующих
- Генерация изображений или историй о фальшивых кризисных событиях
5. Political outreach (Политическая агитация)
- Создание персонализированных голосовых сообщений от имени кандидатов
- Генерация голосовых сообщений для агитации избирателей на их родном языке
6. Image cultivation (Создание имиджа)
- Генерация медиа, создающих положительное впечатление о публичной личности
7. Voter suppression (Подавление избирателей)
- Имитация политиков, дающих ложную информацию о выборах
8. News hijacking (Угон новостей)
- Прерывание новостных передач для показа медиа, сгенерированных ИИ

Monetization & Profit (Монетизация и прибыль)

1. Botnet (Ботнет)
- Управление ботнетами для выполнения действий по генерации дохода
2. Content farming (Ферма контента)
- Генерация большого объема фальшивых статей для оптимизации доходов от рекламы
- Массовое имитирование или переработка существующего оригинального контента путем добавления текста и озвучки
3. Deepfake commodification (Коммодификация дипфейков)
- Генерация сексуально откровенных дипфейков знаменитостей для продажи
- Создание и продажа чат-ботов, имитирующих политиков для ответов на вопросы, связанные с выборами
4. Plagiarism (Плагиат)
- Плагиат оригинального контента для монетизации
5. Shirking (Уклонение)
- Создание фальшивых документов (например, юридических заявлений) для автоматизации своей работы
- Создание фальшивых персон для написания отзывов о продуктах
6. Undressing services (Услуги по раздеванию)
- Генерация NCII (неконсенсуального интимного изображения) людей как платная услуга

Cyberattacks (Кибератаки)

<= Продолжение в комменте =>

Читать полностью…

AI Product | Igor Akimov

Разработческая конференция DevDay от OpenAI:
1 октября в Сан-Франциско
30 октября в Лондоне
21 ноября а Сингапуре

Пишут, что про gpt-5 не будет ничего, но новинки и интересное покажут.

Ну и будет куча воркшопов, сессий, демок, разработческих проектов и нетворкинга.

Будет "лотерея", как обычно, за билеты в 450 евро. Подал заявку на Лондон, он ближе, посмотрим...
На Google I/O и Apple WWDC в свое время удавалось попасть.

https://openai.com/devday/

Читать полностью…

AI Product | Igor Akimov

Воу, какая-то незнакомая новая моделька от Гугла обошла всех в LLM Arena даже с учетом доверительного интервала.

OpenAI щимят со всех сторон

https://arena.lmsys.org/

Читать полностью…

AI Product | Igor Akimov

Все так )
Кстати мужик справа в итоге выиграл серебряную медаль!

Читать полностью…

AI Product | Igor Akimov

О, офигенный тест пригодности LLM к RAG. Результаты весьма удивительные, я как-то привык по умолчанию GPT-4o использовать.

На первом месте для короткого контекста (до 5000 токенов, несколько кусочков из базы знаний) - Claude Sonnet 3.5, из опенсорса Meta LLama-3-70b Instruct.

Для среднего контекста (5000-25000 токенов, 20 кусочков, например, или весь документ) - Gemini-1.5 Flash (вау), из опенсорса - qwen2-72b-instruct

Для контекста больше 40000 токенов (несколько документов полностью) - Claude 3.5 Sonnet. Опенсорса с таким контекстом хорошего нет.

В аттаче выводы и сравнение Sonnet VS GPT-4o.

В общем, надо переключаться на Claude или Gemini Flash для всяких саппорт-ботов.

https://www.rungalileo.io/hallucinationindex

Читать полностью…

AI Product | Igor Akimov

Понравился подход к UI для анализа данных (WaitGPT). Правда, кода нет, только статья.

WaitGPT разбивает код на отдельные операции с данными, которые представлены в виде узлов в диаграмме. Каждый узел соответствует конкретной операции, такой как фильтрация, сортировка или объединение данных. Визуальное отображение обновляется по мере выполнения кода, что позволяет пользователям в реальном времени следить за процессом и вносить изменения.

Эффективность WaitGPT была проверена в ходе исследования с участием 12 человек. Результаты показали, что инструмент значительно улучшает способность пользователей выявлять ошибки в анализе данных. 83% участников смогли успешно обнаружить и исправить ошибки с помощью WaitGPT, тогда как традиционные методы дали такой результат лишь у 50% участников. Время на выявление ошибок сократилось до 50%, что подчеркивает высокую эффективность и удобство использования инструмента.

Статья: https://arxiv.org/abs/2408.01703

Читать полностью…

AI Product | Igor Akimov

В журнале Nature (что хорошо, потому что реферируемый, и плохо, потому что за доступ к статьям надо платить) вышел обзор применения LLM в получении креативных идей. И даже с GPT-3.5 (видимо пока провели, пока написали, пока попали в публикацию, прошел год) результаты значительно лучше, чем без какого-либо ИТ средства или просто с гуглением.

В пяти экспериментах мы попросили участников использовать ChatGPT (GPT-3.5) для генерирования творческих идей для решения различных повседневных и инновационных задач, включая выбор креативного подарка для подростка, изготовление игрушки, перепрофилирование неиспользуемых предметов и проектирование инновационного обеденного стола. Мы обнаружили, что использование ChatGPT повышает креативность генерируемых идей по сравнению с неиспользованием каких-либо технологий или использованием обычного веб-поиска (Google). Этот эффект сохранялся независимо от того, требовала ли проблема учета многих (или немногих) ограничений и считалась ли она требующей сопереживания.

https://www.nature.com/articles/s41562-024-01953-1

Читать полностью…

AI Product | Igor Akimov

Приглашаем на онлайн-митап про AI для руководителей.

Когда: ср 14 августа, с 19:00 до ~20:30 мск, в Zoom
Для кого: для всех руководителей, но наиболее полезно будет для топов и для тех, кто отвечает за аналитику или за автоматизацию в своей компании.

Доклады и спикеры:

1️⃣ Автоматизация менеджмента с AI.
Ловим проблемы в море созвонов. Как чайка-менеджерам экономить время и меньше отвлекать команды.
Асхат Уразбаев, основатель ScrumTrek

2️⃣ Smart BI: сокращаем время формирования аналитики для менеджмента от недель до минут с помощью ИИ.
Владимир Подошвин, СТО ecom.tech (ex. Samokat.tech)

💬После выступлений спикеры попробуют ответить на ваши вопросы на смежные темы (о применении ИИ в компаниях).
Ведущий: Василий Савунов из ScrumTrek, спец по GPT-анализу данных.

Записывайтесь, чтобы получить Zoom-ссылку и напоминалки о митапе. Ссылка для записи

Читать полностью…

AI Product | Igor Akimov

Итак, Made by Google.
Мне презентация понравилась: и по железу, и по софту. Очень хорошая работа над ошибками и максимальное использование собственной платформы AI штуками. При этом не было этих вот традиционных анонсных "будет доступно позже в этом году, этой осенью, в 2025-м, в следующем тысячелетии..."

Вот хороший обзор собственно девайсов - https://vc.ru/tech/1388270-google-pixel
Ну а мы внимательно посмотрим на AI-возможности:

1. Gemini вместо Google Assistant. Давно пора было. Теперь может общаться мультимодально (текст, голос, картинки), спрашивать про приложение или видео на экране, интегрирован с кучей гугловых приложений, может вести постоянный диалог а-ля GPT-4 Omni, а также много чего делать локально или на собственном облачном железе и на 45 языках (подтрунили тут над Apple, что они "каким-то там 3rd party" все отсылают и только на английском работают). Демка: https://youtu.be/ixZAvDCysNw
2. Фотовозможности:
- Добавь себя на фото (сфоткай других, а потом попроси сфоткать тебя рядом и вы все будете на одном кадре, такая мультиэкспозиция с AI)
- Super Res Zoom (комбинация съемки с нескольких камер и нейросеток для увеличения разрешения), в том числе работает и после съемки, и должно и на Pixel 8 Pro доехать.
- Ночные панорамы со всякими AI улучшалками (опять проехались по айфонам, где ночные панорамы так себе)
- Pixel Studio (генератор и обработчик фоточек с GenAI на устройстве и с серверной моделью)
- Magic Editor (раньше только можно было подвигать людей и подкрасить, а теперь можно выделить часть картинки типа неба (семантическая сегментация нейросетями) и попросить сделать закат, или там травку переделать в поле одуванчиков, а еще перекадрировать (пустоты будут закрашены AI), а также добавить на картинку объекты всякие, для постинга в соцсети прям красота)

3. Персонализированный гиперлокальный прогноз погоды (скорее всего будут учитывать календарь, чтобы сказать, что зонтик надо взять)
4. Генеративное создание списков дел (ну это в каждом утюге уже)
5. Pixel Screenshots - автосоздание коллекций скриншотов и поиск по контенту с них (полезно, но редкий кейс)
6. Запись звонков и создание автозаметок с саммари и с важными делами, типа куда и во сколько сходить (делают на девайсе, на часах и телефоне, в целом крайне полезная штука). Плюс прокачали качество голоса во время звонков нейросетями.
7. Автовключение режима сна на часах (давно пора, Apple Watch до сих пор только вручную это делает)
8. Какой-то супер-точный режим трекинга пульса во время бега, которые тебе еще и рекомендаций навешает (все равно кажется отдельные трекеры получше)
9. Определяют надежно потерю пульса часами и звонят в скорую (для родителей возрастных может быть критично)
10. Активное ИИ-шумоподавление в наушниках, в 2 раза лучше предыдущего поколения (надо смотреть тесты)
11. Несколько AI фичей для слабовидящих и слабослышащих: подскажет, когда лицо в кадре; покажет и расскажет, что вокруг, можно найти текст какой-то (например, расписание нужного рейса "прочитать"), добавили 7 языков в Live Caption (субтитры) и Live Transcribe (автоперевод), в том числе русский.

Вот коллекция со всеми статьями про анонсы: https://blog.google/products/platforms-devices/made-by-google-2024-collection/
А вот эта наверное самая полезная - https://blog.google/products/pixel/google-pixel-9-pro-xl/

Читать полностью…

AI Product | Igor Akimov

Гугл напомнил в рассылке, что они опустили в 3 раза цены на Gemini 1.5 Flash. Еще и Context Caching добавили (сохраняют запрос и выдачу в кэше, не надо по похожим запросам гонять LLM-ку и заново гигантские промпты закидывать), что и скорость повышает, и цену роняет еще в 4 раза.

Теперь стоит в 2 раза дешевле GPT-4o mini, а с кэшем может быть и в 3-5 раз дешевле. Единственное, что модель средняя, на 15 месте в Арене (а Pro, напомню, сейчас на 1!)

Еще сделали поддержку 100 языков. Понимание PDF-ок мультимодальной сеткой. Возможность тюнить модели. И дали доступ к AI Studio всем владельцам платных аккаунтов.

Вот здесь детальнее: https://developers.googleblog.com/en/gemini-15-flash-updates-google-ai-studio-gemini-api/

Читать полностью…

AI Product | Igor Akimov

AI-помощник в супермаркете в Лондоне.

Выглядит криповато слегка, но в целом полезная штука, особенно в строительном каком-нибудь гипермаркете

Читать полностью…

AI Product | Igor Akimov

Китайцы не дремлют.

Qwen выпустил Qwen2-Math - модели на 1.5B, 7B и 72B параметров, побеждают GPT4o, Claude 3.5 на математических тестах 🔥

- 84 балла (72B), 75 (7B), 69.4 (1.5B) на MATH датасетах
- 72B лучшая в мире в олимпиадных задачах, математических тестах колледжей, MMLU STEM
- Выпущены базовая и учебная модели
- Лицензия Apache 2.0 для 1.5B и 7B, 72B выпущен под лицензией Qianwen

Веса тут: https://huggingface.co/collections/Qwen/qwen2-math-66b4c9e072eda65b5ec7534d

Подробнее: https://qwenlm.github.io/blog/qwen2-math/

Читать полностью…

AI Product | Igor Akimov

Mistral упростил файн-тюнинг и донастройку моделей на своем сайте
https://www.youtube.com/watch?v=ctZbvA9tcOA

Подробнее: https://docs.mistral.ai/capabilities/finetuning/

И выложил в альфу агентов - мини-версию GPTS, пока без доступа к источникам дополнительным или функциям, просто промптом и примерами улучшаешь работу и потом можешь им делиться.
https://youtu.be/CKsBqy3yTDw

Подробнее: https://docs.mistral.ai/capabilities/agents/

Читать полностью…

AI Product | Igor Akimov

Свежее исследование разработчиков от StackOverflow. Интересна, конечно же, секция AI
https://survey.stackoverflow.co/2024/ai/

- 62% разработчиков используют AI тулы и еще 13% планируют
- 72% положительно относятся (раньше было 77%)
- 81% согласны, что AI увеличивает продуктивность, 63%, что ускоряет обучение, 59% что эффективность работы повышает (что бы это ни значило)
- 43% доверяют работе AI тулов, 31% - не доверяют
- Большинство думает, что со сложными задачами пока так себе справляется
- Большинство использует для написания кода и поиска ответов на вопросы, а также дебаггинга (аттач 1)
- Большинство считает, что AI еще глубже будет интегрирован в инструменты разработки, особенно для написания документации, написания и тестирования кода
- 70% профессионалов не считают AI угрозой для себя (!)
- Неправильная информация и неправильные ссылки на источники - проблема для большинства (аттач 2)
- Пока основные проблемы: недостаток доверия ответам и недостаток информации о проекте/кодовой базе

Читать полностью…

AI Product | Igor Akimov

1. Target identification (Идентификация целей)
- Автоматизация исследования и идентификации ценных целей и их уязвимостей
2. Resource development (Разработка ресурсов)
- Помощь в кодировании для выполнения и автоматизации задач, связанных с кибератаками (например, разработка целевого вредоносного ПО)

Harassment (Домогательства)

1. Bullying (Травля)
- Генерация NCII частных лиц или публичных фигур (например, журналистов) для травли или замалчивания
2. Defamation (Клевета)
- Генерация аудио и видеоклипов с знаменитостями и частными лицами, делающими оскорбительные или расистские заявления
3. Doxxing (Докксинг)
- Генерация аудиоклипов с контентмейкерами, читающими свои адреса вслух

Reach (Охват)

1. Plagiarism (Плагиат)
- Плагиат контента веб-сайтов конкурентов для максимизации охвата
2. Digital resurrection (Цифровое воскрешение)
- Создание фальшивых видео с умершими людьми, рассказывающими о событиях своей смерти
3. Content farming (Ферма контента)
- Генерация ложных новостных статей в массовом порядке для повышения рейтинга веб-сайта в результатах поиска

Subversion (Подрыв)

1. Anti-scraping (Противодействие сбору данных)
- Отравление учебных данных для предотвращения сбора защищенных авторским правом данных

Подробнее: https://arxiv.org/pdf/2406.13843

Читать полностью…

AI Product | Igor Akimov

Да уж, что-то там явно неладно в OpenAI.

Грег Брокман, президент и кофаундер OpenAI, уходит в отпуск до конца года,

Джон Шульман, кофаундер, что много работал с доведением моделей до ума (безопасность и следование инструкциям), ушел в Anthropic, пишет, что хочет больше "руками поработать".

Ну и Питер Денг, что работал на ключевых продуктовых ролях в Facebook, Oculus, Uber, Airtable, тоже ушел недавно.

Но все довольно хорошо о компании отзываются, типа "ну вот хочется другим заняться".

https://techcrunch.com/2024/08/05/openai-co-founder-leaves-for-anthropic/

Читать полностью…

AI Product | Igor Akimov

Google, кстати, за прошлую неделю еще представил ShieldGemma - LLM для определения, есть ли в промпте или в ответе запрещенный контент.
Обещают топовое качество.

Если у вас в приложении есть свободный ввод промпта и вы не хотите, чтобы кто-то там похабные анекдоты с помощью взлома OpenAI писал или гадости озвучивал, то по-хорошему надо проверять и входные и выходные значения. Самый простой вариант - Moderation API от OpenAI, но и он пропускает всякое. Так что можно посмотреть на ShieldGemma или LLamaGuard.

Анонс: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/
Модели: https://huggingface.co/collections/google/shieldgemma-release-66a20efe3c10ef2bd5808c79
Техрепорт: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

Читать полностью…

AI Product | Igor Akimov

Специфические LLM рулят. Ребята из Writer (команда лингвистов, которые в 2020 на LLM переключилась и уже много чего выпустила) взяла, да и выпустила топовую медицинскую LLM и финансовую LLM.

🔬 Palmyra-Med понимает клинические данные, анатомию, генетику и биомедицинские исследования
📊 Palmyra-Fin решает задачи анализа финансовых тенденций, оценки инвестиций и рисков.
🚀 Обе модели превосходят GPT-4, Claude 3.5 Sonnet и другие топ модели уровня в своих областях
🧠 Обе модели имеют 70 миллиардов параметров и контекстные окна: 8 192 для Palmyra-Med, 32 768 для Palmyra-Fin
🎯 Использовалось предварительное обучение на наборах данных по конкретным доменам, а затем SFT и RLHF (DPO)
🏥 Palmyra-Med достигла среднего значения 85,9% по медицинским эталонам > GPT-4, Med-PaLM 2
💰 Пальмира-Фин сдала экзамен CFA Level III с результатом 73%, что является первым результатом для любой модели искусственного интеллекта
🤗 Обе модели доступны на Hugging Face и непосредственно в API Writers
🔓 Разрешено частное использование, для коммерческого использования запрашивайте лицензию у Writer

Подробнее тут: https://writer.com/blog/palmyra-med-fin-models/
Модельки доступны на HuggingFace: https://huggingface.co/Writer

Читать полностью…

AI Product | Igor Akimov

В августе будет 2 события AIDEA, первое — митап для руководителей.

Когда: ср 14 августа, с 19:00 до ~20:30 мск, в Zoom
Для кого: для всех руководителей, но наиболее полезно будет для топов, для PM, для тех, кто отвечает за аналитику или за автоматизацию в своей компании.

Доклады и спикеры:

1️⃣ Поиск «узких горлышек» и оптимизация процессов в проектных командах с помощью ИИ.
Как мы улучшили бизнес-метрики, внедрив общение проектных менеджеров с GPT, применив post mortem и дерево текущей реальности.
Юлия Дуюнова, Head of PM @ Цех.дизайн

2️⃣ Smart BI: сокращаем время формирования аналитики для менеджмента от недель до минут с помощью ИИ.
Кейс про ИИ-инструмент для поддержки принятия решений для руководителей.
Владимир Подошвин, СТО @ Samokat.tech

💬После выступлений спикеры попробуют ответить на ваши вопросы на смежные темы (о применении ИИ в компаниях).
Ведущий: Василий Савунов из ScrumTrek, спец по GPT-анализу данных.

Приходите пообщаться онлайн, чтобы получить ответы именно на ваши вопросы!

Регистрируйтесь, чтобы получить Zoom-ссылку и напоминалки о митапе. Ссылка для регистрации

Читать полностью…

AI Product | Igor Akimov

О, свежая маленькая Gemma 2

> Результаты выше, чем у GPT 3.5, Mixtral 8x7B на арене LYMSYS

> MMLU: 56.1 и MBPP: 36.6

> Превосходит предыдущую (Gemma 1 2B) более чем на 10% в тестах

> 2.6B параметров, многоязычная

> 2 триллиона токенов (обучающая выборка)

> Дистиллировано из Gemma 2 27B

> Обучено на 512 TPU v5e

Маленькие модели становятся весьма крутыми.

Видимо ее встроят в Chrome.

Читать полностью…
Subscribe to a channel