ElevenLabs в мобильном приложении теперь может тоже cделать подкаст из ваших PDF-ок, статей, текстов, ссылок на 32 языках (русский есть)
https://elevenlabs.io/blog/genfm-on-elevenreader
Llm-ки лучше людей в предсказании результатов научных исследований, пара-пара-пам. И это исследование в реферируемом журнале Nature
https://www.nature.com/articles/s41562-024-02046-9
Научные открытия часто зависят от синтеза десятилетий исследований, задача, которая потенциально превосходит возможности обработки информации человеком. Большие языковые модели (LLM) предлагают решение. LLM, обученные на обширной научной литературе, потенциально могут интегрировать шумные, но взаимосвязанные открытия для прогнозирования новых результатов лучше, чем эксперты-люди. Чтобы оценить эту возможность, мы создали BrainBench, перспективный бенчмарк для прогнозирования результатов нейронауки. Мы обнаружили, что LLM превосходят экспертов в прогнозировании экспериментальных результатов. BrainGPT, LLM, который мы настроили на основе литературы по нейронауке, показал себя еще лучше. Как и в случае с экспертами-людьми, когда LLM демонстрировали высокую уверенность в своих прогнозах, их ответы с большей вероятностью оказывались правильными, что предвещает будущее, в котором LLM будут помогать людям делать открытия. Наш подход не ограничивается нейронаукой и может быть перенесен на другие наукоемкие начинания.
О, Эндрю Ын сделал библиотечку для универсальной работы с любыми LLM-ками - AISuite
Позволяет выбрать «провайдер:модель», просто изменив одну строку, например openai:gpt-4o, anthropic:claude-3-5-sonnet-20241022, ollama:llama3.1:8b и т.д.
Код тут - https://github.com/andrewyng/aisuite
pip install aisuite
Codium сделал обзор коммерческих LLM для кода. У всех свое место в качестве инструмента помощи разработчикам.
Claude лучшая в ежедневном кодинге
Gpt-4o - в простых задачах, но с большой вариативностью
01 - в сложных ситуациях, но медленная
Gemini - для кода с огромным контекстом
https://www.qodo.ai/blog/comparison-of-claude-sonnet-3-5-gpt-4o-o1-and-gemini-1-5-pro-for-coding/
Агаа!!! Симуляции действительно напоминают реальных людей! Новое исследование от Стенфорда и Гугла. Взяли интервью у людей, записали в память модели и потом задавали человеку и агенту дополнительные вопросы. Корреляция 85%.
Мы представляем новую архитектуру агента, который моделирует отношение и поведение 1052 реальных людей, применяя большие языковые модели к качественным интервью об их жизни.
Затем мы измеряем, насколько хорошо эти агенты воспроизводят отношение и поведение людей, которых они представляют. Генеративные агенты воспроизводят ответы участников по
Общему социальному опроснику на 85% так же точно, как и ответы самих участников две недели спустя. А также сопоставимо предсказывают черты личности и результаты экспериментальных исследований. Наша архитектура снижает погрешности в точности ответов по расовым и идеологическим группам
по сравнению с агентами, которым даны демографические описания. Эта работа закладывает основу для новых
инструментов, которые помогут исследовать индивидуальное и коллективное поведение.
Так что берете для продуктовых гипотез реальное интервью (а часто подойдут и хорошие результаты опросов), закидываете промпт и спрашиваете потом эту персону на любые темы, получая релевантные ответы. В том числе, нравится ли им новая фиолетовая кнопочка и как они выбирают носки в подарок на 23 февраля.
https://arxiv.org/abs/2411.10109
Кстатит, кто на Кипре - обязательно приходите завтра и/или послезавтра на крутую AI конференцию в Пафосе. Буду рассказывать снова про опенсорсные ЛЛМ-ки. Что там нового случилось за это время (тяжело идет, разбаловали нас сильными LLM за копейки, но прогресс есть)
Читать полностью…Теперь GPT-4o более натурально и креативно пишет, а также внимательнее читает ваши загруженные файлы.
Полез сразу на арену, да, снова OpenAI в топе
И Microsoft туда же. Клонирование голоса и автоперевод речи на 9 языков в 2025 году прям в Тимс
https://www.youtube.com/watch?v=J1I-nReRTyc
Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.
Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.
Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.
Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/
Mistral тоже обучение закончил своих следующих моделек - Mistral Large и Pixtral Large - 123B параметров
Мистраль
- 128К токенов контекст
- Мультиязычные (но русского нет: английский, французский, немецкий, испанский, итальянский, китайский, японский, корейский, португальский, голландский и польский)
- Выдача валидного JSON
- Поддержка 80+ языков программирования
- Поддержка функций
- Открытые веса
Пикстраль
- Лучший в классе на MathVista, DocVQA, VQAv2
- 128K контекстное окно: помещается минимум 30 изображений высокого разрешения
- Неплохой мультиязчный OCR
- Понимание графиков
С 24 ноября будет доступно в АПИ, пока можно потестить в Le Chat - https://chat.mistral.ai/
Подробнее тут: https://mistral.ai/news/pixtral-large/
И снова про конкуренцию. OpenAI пора новую модель выпускать, конкуренты догоняют.
NexusFlow зафайнтюнили Qwen-2.5 и поднялись практически по всем метрикам в модели на 72B параметров. Выложили 2 модельки:
Athene-V2-Chat-72B: уровня GPT-4o. Она превосходит GPT-4o в полезности чата (Arena-Hard), в кодировании (заняв второе место в bigcode-bench-hard), математике (MATH) и обрабатывает длинные логи с более высокой точностью (наш внутренний бенчмарк).
Athene-V2-Agent-72B: балансируя между возможностями чата и агента, эта модель предлагает лаконичные, директивные ответы в чате, превосходя GPT-4o в наших последних бенчмарках Nexus-V2 по вызову функций, ориентированных на сложные случаи использования функций на уровне предприятия.
https://nexusflow.ai/blogs/athene-v2
Скоро и деньги за нас получать будет.
Но в целом это конечно очень полезное направление. RPA так проблемы интеграций с зоопарком софта не решил
https://vc.ru/ai/1653005-openai-zaplanirovala-v-yanvare-2025-goda-predstavit-ii-agenta-kotoryi-smozhet-upravlyat-kompyuterom-ot-imeni-polzovatelya-bloomberg
Очень здоровский проект - расчет местоположения в метро без GPS. Берут данные акселерометра, размечают, определяют разные состояния типа идешь, едешь, ждёшь поезда, и тренирует модельку. В итоге по данным о твоём маршруте, расписании транспорта, редких проблесках сигнала и вот этой мобильной МЛ-модели могут прям вести тебя по карте и говорить, когда выходить.
https://blog.transitapp.com/go-underground/
Китайцы выпустили семейство открытых моделей Qwen-Coder-2.5, самая интересная из которых, на 32B параметров, лучшая из всего опенсорса, работает на уровне GPT-4o и Claude Sonnet (хотя на картинке куча цифр выделено желтым неправильно).
Можете запускать на каком-нибудь вашем облаке или сервере (или даже локально, если видюха мощная или какой-нибудь Mac с 64 Гб памяти) и всех разработчиков снабжать хорошей локальной генерацией кода.
- Значительно улучшены генерация кода, осмысление кода и его исправление.
- Не только расширяет возможности генерации кода, но и сохраняет свои сильные стороны в математике и общих знаниях.
- Поддержка длинного контекста до 128K токенов.
Скачивать с HuggingFace.
https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f
Кстати, несколько фаундеров, ведущих небольшие ламповые AI каналы, собрали папочку со своими каналами.
Если хотите про реальный опыт узнавать, а не просто новости и красивые картиночки, - велком:
/channel/addlist/MSozeNNWo-YzZjVi
ChatGPT десктоп научился работать с еще большим количеством приложений. Теперь даже экстеншен покупать не надо для JetBrains (на самом деле для больших проектов надо, конечно, но для маленьких здорово пригодится)
+ VS Code forks: Code Insiders, VSCodium, Cursor, Windsurf
+ JetBrains: Android Studio, IntelliJ, PyCharm, WebStorm, PHPStorm, CLion, Rider, RubyMine, AppCode, GoLand, DataGrip
+ Nova & Prompt by Panic
+ BBEdit
Клод сделали стили для ответов. Самое прикольное - можно загрузить референс и стиль он подберет по нему. https://vc.ru/ai/1675484-polzovateli-claude-poluchili-vozmozhnost-nastraivat-stil-otvetov-chat-bota
Читать полностью…Прикольно.
Порезали 50% слабых связей в LLama-3.1 и потеряли всего 2% точности. И простор для оптимизации еще есть.
🔄 98,4% исходной точности на Open LLM Leaderboard v1 с 50% меньшим количеством параметров
🚀 На 30% выше пропускная способность и в 1,8 раза ниже задержка, а в сочетании с квантованием - до 5,0x
📈 Полное восстановление точности при файнтюнинге
⚡️ Повышение производительности при выполнении нескольких запросов в 1,4-2,1 раза
🌱 Делали 26 часов на 32 видюхах H100
🔧 Оптимизировали для графических процессоров NVIDIA Ampere и новее
Подробности: https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/
Интересные новые эмбеддинги от Voyage AI, одновременно в себе хранят тексты, картинки и скриншоты, что позволяет добиться улучшения качество ответов на вопросы по ним.
Модель обрабатывает текст и изображения одновременно, включая скриншоты таблиц, графиков, слайдов и сложных PDF-документов. И учитывает визуальные элементы (размер шрифта, расположение текста, пробелы и т.д.), что устраняет необходимость ручного анализа структуры документа.
Превосходит OpenAI CLIP large и Cohere multimodal v3 на:
- 41,44% при поиске таблиц/графиков.
- 26,54% при поиске по скриншотам документов.
- 6,55% в задачах поиска текста по изображениям.
Эффективность в текстовых задачах выше OpenAI v3 large на 5,13%.
Единственный трансформер кодирует и текст, и визуальные данные, сохраняя их контекст.
Устойчивость к мультимодальным данным: Минимальная потеря точности при увеличении доли изображений в данных.
С помощью voyage-multimodal-3 можно:
Искать по PDF, слайдам и скриншотам без предварительной обработки.
Работать с мультимодальными базами знаний (например, документы, таблицы, фигуры и т.д.).
https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/
AI Paphos Summit: Unconference - 22–23 ноября
Опубликован драфт программы - начало 22 ноября в 15:00.
Можно ознакомиться с расписанием здесь
Это первая анти-конференция (unconference) про искусственный интеллект на Кипре, на которой мы собираем более 120 практикующих специалистов ИИ, основателей стартапов, исследователей и лидеров индустрии!
Наша цель – создать на Кипре сообщество практиков в области ИИ, где профессионалы делятся реальными решениями, решают отраслевые вызовы и обмениваются знаниями о передовых технологиях, соединяющих науку и бизнес. Это отличная возможность для нетворкинга, совместных проектов и развития новых инициатив.
👥 Среди участников – эксперты из Amazon, JetBrains, Simple, Palta, Exness, Zing Coach, OpenCV.ai, Replika.ai, Intento и других ведущих компаний и стартапов в сфере ИИ.
🎤 Основные форматы Unconference:
доклады в формате Talk & Exchange с модерируемым обсуждением после выступления, круглые столы, Demo Sessions про возможности LLM и автономных агентов, Science SLAM, ревью кейсов, открытый микрофон.
👥 Партнеры и спонсоры мероприятия:
Palta, Exness, Zing Coach, Simple, INEX.
💫 Организатор: AI Future Hub – сообщество, объединяющее университеты, студентов, инвесторов и партнеров в сфере ИИ.
Мы проводим тщательный отбор участников по заявкам. Осталось 15 мест.
🔗 Ссылка для регистрации и подачи заявок.
После аппрува, вам будет выслана ссылка на оплату за участие, будет отбор заявок. Заявки на доклады закончились, регистрируйтесь как посетитель. Все подробности, цены и контакты - в указанной форме.
🗓 Даты unconference:
Пятница, 22 ноября – с 15:00 до 22:00
Суббота, 23 ноября – с 10:00 до 19:00
📍 Место проведения: Пафос, Кипр – Beon active office by INEX
Конференция является завершающим этапом AI Paphos Summit. Станьте частью первой AI Unconference на Кипре – создавайте будущее ИИ и узнайте, как использовать прорывные технологии уже сегодня! 🚀
И новые лидер в распознавании текста (в основном английский) - тюненый Whisper - CrisperWhisper
Вот что пишут:
🎯 Точные временные метки на уровне слов: Обеспечивает точные временные метки, даже при наличии неточностей и пауз, благодаря использованию скорректированного токенизатора и индивидуальной потери внимания во время обучения.
📝 Дословная транскрипция: Транскрибирует каждое произнесенное слово в точности так, как оно есть, включая и различая такие наполнители, как «эм» и «ух».
🔍 Обнаружение филлеров: Обнаруживает и точно транскрибирует заполнители.
🛡 Уменьшение галлюцинаций: Минимизирует галлюцинации при транскрипции для повышения точности.
Лежит тут
https://github.com/nyrahealth/CrisperWhisper
Ресерч тут: https://arxiv.org/abs/2408.16589
И последняя на сегодня - голосовой перевод от DeepL
https://www.deepl.com/en/products/voice
Помимо хорошего переводчика текста теперь предоставляют еще и перевод речи (на онлайн-встречах) и в офлайне в режиме диалога на 1 телефоне. Все секурно и наверное довольно хорошо, но цен нет, демок нет и все просьбы показать оканчиваются на продажниках. Видимо надо было что-то прям очень срочно показать (у них там конфа собственная была).
Ну и обновили Le Chat тоже (скопировали все, что хорошее есть у конкурентов):
- Поиск в интернете
- Холст для совместной работы, редактирования отдельных строк/абзацев
- Поддержка понимания PDF-ок, в том числе больших и с комплексной графикой
- Генерация картиночек через FLUX
- Сохранение и автоматизация повторяющихся действий (типа сканирования чеков или саммаризации встреч)
Все пока бесплатно, Подробнее тут:
https://mistral.ai/news/mistral-chat/
И Google с последней Gemini-1.5 Pro обошел 4o и даже на некоторых задачах o1, плюс занял первое место в бенчмарке задач на vision.
Gemini 1.5 Pro (0801) отлично справляется с мультиязычными задачами и демонстрирует высокую производительность в таких технических областях, как математика, сложные подсказки и написание кода.
https://lmarena.ai/
Промпт-инженеры не нужны. Пока вы спали Anthropic зарелизил prompt improver, который исправляет ваши кривые потуги написать нормальный промпт.
Теперь сами перепишут, чтобы шаг за шагом рассуждал, сконвертируют в стандартный xml, в примеры тоже рассуждения добавят, а ещё и накидают их побоьше сами. Ну и перепишут, чтобы машине ваш кривой английский был понятнее и формат выдачи предзаполнят.
На их тестах качество на 30% выросло в классификации и 100% попадание теперь в соблюдение требований по количеству слов.
Плюс можно ещё и обратную связь дать текстом, что улучшить надо.
Ну и добавили удобный интерфейс для работы с примерами и тестирования обновленных промптов.
https://www.anthropic.com/news/prompt-improver
"Ахах, AI всего лишь статистический анализатор, он не может ничего придумать".
А вот ребята из MIT думают по-другому.
В этой статье изучается влияние искусственного интеллекта на инновации, используя
рандомизированное внедрение новой технологии открытия материалов для 1018 ученых в
лаборатории НИОКР крупной американской компании. Исследователи с помощью ИИ открывают на 44% больше материалов,
что приводит к 39% увеличению числа патентных заявок и 17% росту инноваций в области последующих продуктов. Эти соединения обладают более новыми химическими структурами и приводят к более
радикальным изобретениям. Однако технология оказывает поразительно разнородное влияние на
распределение производительности: в то время как нижняя треть ученых видит мало выгоды,
результаты работы ведущих исследователей почти удваиваются. Исследуя механизмы,
лежащие в основе этих результатов, мы показываем, что ИИ автоматизирует 57% задач генерации идей, перераспределяя время
исследователей на новую задачу оценки материалов-кандидатов, созданных с помощью модели. Ведущие
ученые используют свои знания в предметной области для определения приоритетов перспективных предложений ИИ, в то время как другие тратят значительные ресурсы на тестирование ложных направлений.
https://aidantr.github.io/files/AI_innovation.pdf
И снова опенсорсный OCR (распознавание доков нужно всем :) )
https://llamaocr.com/
Пока выглядит как пет-проект, просто обертка над llama 3.2, но интерес все равно вызывает большой (даже не смотря на какой-нибудь tesseract, который тоже обновился недавно)
Видос: https://x.com/nutlope/status/1856402928086725020/mediaViewer?currentTweet=1856402928086725020&currentTweetUser=nutlope
https://habr.com/ru/articles/856436/
Llm-ки для русского. Качество растет, это радует. Но сравнения с OpenAI или Anthropic конечно они не выдержат.
На основе двух вариантов оценки мы делаем вывод, что лучшие решения для работы с русскоязычными документами - облачные платформы YandexGPT и GigaChat.
Но в ситуациях, когда необходимо использовать локальную языковую модель, стоит рассмотреть Saiga-Mistral-7b-Lora.
Модели YandexGPT и Saiga-Mistral-7b-Lora показали наилучшие результаты в большинстве задач, связанных с генерацией текста, диалогами и исправлением ошибок.
Saiga-Llama3-8b стала лучшим выбором для задач извлечения данных и анализа документов, что делает её отличным инструментом для автоматизации обработки документов.
В будущем, с развитием технологий NLP, можно ожидать появления ещё более точных и производительных языковых моделей, которые смогут решать задачи на ещё более высоком уровне.
Кроме того, возможность дообучения моделей на специализированных датасетах (как это было сделано с Saiga-Mistral-7b-Lora и Saiga-Llama3-8b) позволит адаптировать их под конкретные нужды компаний, работающих с русским языком.