Что показали:
– Advanced Voice Mode теперь поддерживает видео-стрим, то есть можно показать аппу видео с камеры или пошарить экран (с телефона или компьютера) – можно делать вместе домашку, писать код, или готовить вместе, короче клевая штука, выходит сегодня и раскатают в течение недели на всех. Машину в гараже разбирать стало проще!
Интересно сможет ли она помочь с фитнесом и правильными техниками, например
– А еще в ChatGPT добавили Санту с которым можно пообщаться (кнопка снежинки), и у него клевый Санта-голос
5 день: OpenAI в новогодних свитерах предлагают посмотреть на их более крутые интеграции с iOS/MacOS
Можно через Siri взаимодействовать с ChatGPT, в том числе в камере. А в MacOS передавать, например, скриншот или весь текущий док для анализа прям в 1 клик
https://youtu.be/mBhkD0iFf4w
OpenAI официально показали Sora!
Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".
Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.
Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.
Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.
Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.
sora.com
@ai_newz
А, еще выложили основные данные о модели, че как с производительностью и безопасностью. https://cdn.openai.com/o1-system-card-20241205.pdf
Все улучшилось, а с безопасностью были вопросики, но вроде порешали уже дополнительными проверками при выдаче ответа.
OpenAI тоже любит Адвент-календари :)
Будут радовать 12 апостолами анонсами до Рождества.
ElevenLabs наконец поделился подробностями их голосовых агентов (а то все их юзали только как text-to-speech) - https://elevenlabs.io/conversational-ai
10 центов за минуту, на больших объемах до 1.5 центов. Ну, с этим уже можно работать.
Не совсем про AI, но про прикладное применение. Почти шестисотстраничный доклад о коронавирусе, который теперь с помощью LLM можно "прочитать" за пару минут - https://oversight.house.gov/wp-content/uploads/2024/12/12.04.2024-SSCP-FINAL-REPORT.pdf
Шок-контент, конечно...
1. Происхождение COVID-19
Гипотеза лабораторной утечки:
Основной версией происхождения вируса является лабораторная утечка. Вирус обладает уникальными характеристиками, такими как наличие фуринового участка, которые не встречаются в других известных вирусах его семейства.
В 2018 году исследователи из Wuhan Institute of Virology совместно с EcoHealth Alliance предлагали вставить фуриновый участок в SARS-подобный вирус, что совпадает с характеристиками SARS-CoV-2.
Скрытие данных:
Китайское правительство и некоторые международные научные сообщества пытались скрыть информацию о происхождении вируса.
Исследования, поддерживающие версию природного происхождения, были подвергнуты критике за недостаток доказательств.
2. Ответ на пандемию
Операция Warp Speed:
Быстрое создание вакцин показало эффективность частно-государственного партнерства. Вакцины снизили уровень смертности и тяжести заболевания.
Финансовые злоупотребления:
Программы помощи, такие как Программа защиты зарплат (PPP) и страхование от безработицы, потеряли миллиарды долларов из-за мошенничества.
Например, около $64 млрд было потеряно из-за ложных заявок на PPP, а более $191 млрд из-за мошеннических выплат по безработице.
3. Закрытие школ
Отсутствие научной обоснованности:
Продолжительные закрытия школ не основывались на научных данных. Многие из них были вызваны политическим давлением, а не реальной необходимостью.
Долгосрочные последствия:
Ухудшение академической успеваемости, увеличение числа психологических расстройств у детей и подростков.
Снижение физической активности из-за отсутствия доступа к спортивным программам.
4. Меры общественного здоровья
Социальное дистанцирование:
Требование соблюдать дистанцию в 6 футов не имело убедительной научной основы.
Маски:
Частые изменения в рекомендациях и недостаточная прозрачность исследований подорвали доверие к общественному здравоохранению.
Маски для детей младше 2 лет признаны вредными.
Локдауны:
Строгие меры изоляции привели к негативным последствиям: экономические убытки, ухудшение психического здоровья, замедление развития детей.
5. Общие уроки
Прозрачность и ответственность:
Требуется большее сотрудничество между правительственными и международными организациями для улучшения готовности к будущим пандемиям.
Недостатки в стратегических резервах:
Резерв США медицинских материалов и лекарств оказался неподготовленным для пандемии.
Зависимость от импорта, особенно из Китая, была названа угрозой национальной безопасности.
Доверие общественности:
Недостаток прозрачности и политизация пандемии подорвали доверие граждан. В будущем необходимо обеспечить большее взаимодействие с обществом.
И Cohere обновил свой реранкер до версии 3.5
Это наверное самое простое улучшение для вашего RAG: стянули ответы из векторной и/или обычной базы, запустили их реранкер и получили прям топовое избавление от мусора и будущих галлюцинаций. На удивление, работает лучше не только голого RAG, но Assistants API или переранжирования LLM-кой. Плюс мультиязычная сильно. И внедряется за 10 минут.
https://cohere.com/blog/rerank-3pt5
Кстати, китайцы продолжают двигать опенсорсный передний край науки. Еще одна многошаговая нейросетка, конкурент O1-preview - Marko-O1 от Alibaba, затюненная Qwen2-7B:
- Fine-tuning с использованием Chain-of-Thought (CoT): последовательное рассуждение.
- Алгоритм Monte Carlo Tree Search (MCTS): многовариантный поиск решений с построением дерева решений.
- Гибкие стратегии рассуждения: баланс между точностью и вычислительными затратами.
MCTS помогает находить лучшие решения, оценивая разные варианты.
Механизм рефлексии: модель периодически задаёт себе вопрос: «Возможно, я ошиблась. Нужно пересмотреть рассуждение.»
- Значительно превосходит базовую модель Qwen2-7B на задачах математики.
- Эффективнее справляется с переводом сленговых выражений и тонкостей языка.
- Marco-o1 идеально подходит для задач с открытыми решениями: дизайн продуктов, стратегии, переводы сложных контекстов.
https://arxiv.org/abs/2411.14405
ElevenLabs в мобильном приложении теперь может тоже cделать подкаст из ваших PDF-ок, статей, текстов, ссылок на 32 языках (русский есть)
https://elevenlabs.io/blog/genfm-on-elevenreader
Llm-ки лучше людей в предсказании результатов научных исследований, пара-пара-пам. И это исследование в реферируемом журнале Nature
https://www.nature.com/articles/s41562-024-02046-9
Научные открытия часто зависят от синтеза десятилетий исследований, задача, которая потенциально превосходит возможности обработки информации человеком. Большие языковые модели (LLM) предлагают решение. LLM, обученные на обширной научной литературе, потенциально могут интегрировать шумные, но взаимосвязанные открытия для прогнозирования новых результатов лучше, чем эксперты-люди. Чтобы оценить эту возможность, мы создали BrainBench, перспективный бенчмарк для прогнозирования результатов нейронауки. Мы обнаружили, что LLM превосходят экспертов в прогнозировании экспериментальных результатов. BrainGPT, LLM, который мы настроили на основе литературы по нейронауке, показал себя еще лучше. Как и в случае с экспертами-людьми, когда LLM демонстрировали высокую уверенность в своих прогнозах, их ответы с большей вероятностью оказывались правильными, что предвещает будущее, в котором LLM будут помогать людям делать открытия. Наш подход не ограничивается нейронаукой и может быть перенесен на другие наукоемкие начинания.
О, Эндрю Ын сделал библиотечку для универсальной работы с любыми LLM-ками - AISuite
Позволяет выбрать «провайдер:модель», просто изменив одну строку, например openai:gpt-4o, anthropic:claude-3-5-sonnet-20241022, ollama:llama3.1:8b и т.д.
Код тут - https://github.com/andrewyng/aisuite
pip install aisuite
Codium сделал обзор коммерческих LLM для кода. У всех свое место в качестве инструмента помощи разработчикам.
Claude лучшая в ежедневном кодинге
Gpt-4o - в простых задачах, но с большой вариативностью
01 - в сложных ситуациях, но медленная
Gemini - для кода с огромным контекстом
https://www.qodo.ai/blog/comparison-of-claude-sonnet-3-5-gpt-4o-o1-and-gemini-1-5-pro-for-coding/
Агаа!!! Симуляции действительно напоминают реальных людей! Новое исследование от Стенфорда и Гугла. Взяли интервью у людей, записали в память модели и потом задавали человеку и агенту дополнительные вопросы. Корреляция 85%.
Мы представляем новую архитектуру агента, который моделирует отношение и поведение 1052 реальных людей, применяя большие языковые модели к качественным интервью об их жизни.
Затем мы измеряем, насколько хорошо эти агенты воспроизводят отношение и поведение людей, которых они представляют. Генеративные агенты воспроизводят ответы участников по
Общему социальному опроснику на 85% так же точно, как и ответы самих участников две недели спустя. А также сопоставимо предсказывают черты личности и результаты экспериментальных исследований. Наша архитектура снижает погрешности в точности ответов по расовым и идеологическим группам
по сравнению с агентами, которым даны демографические описания. Эта работа закладывает основу для новых
инструментов, которые помогут исследовать индивидуальное и коллективное поведение.
Так что берете для продуктовых гипотез реальное интервью (а часто подойдут и хорошие результаты опросов), закидываете промпт и спрашиваете потом эту персону на любые темы, получая релевантные ответы. В том числе, нравится ли им новая фиолетовая кнопочка и как они выбирают носки в подарок на 23 февраля.
https://arxiv.org/abs/2411.10109
А Google представила Gemini 2.0 Flash - быстрее, выше, сильнее предыдущих. И несколько крутых исследовательских проектов.
Основное:
- Мультимодальный ввод и вывод: поддержка работы с текстом, изображениями, видео и аудио, а также их генерация.
- Улучшенная производительность: в 2 раза быстрее предыдущей версии (1.5 Pro) с повышенными возможностями рассуждения.
- Интеграция с инструментами: нативная работа с Google Search, выполнение кода и поддержка пользовательских функций.
Уже доступна разработчикам через Google AI Studio и Vertex AI, а также через Multimodal Live API с функцией потокового ввода и инструментов.
Deep Research
Новый инструмент, который действует как продвинутый исследовательский ассистент. Он помогает анализировать сложные темы, структурировать информацию и составлять отчеты. Вот это крутая штука
AI Overviews в поиске
Обновление популярной функции поиска, которая теперь может обрабатывать более сложные запросы, включая мультимодальные вопросы, сложные уравнения и код.
Исследовательские проекты:
- Project Astra: универсальный AI-ассистент, который умеет поддерживать диалог на нескольких языках, лучше понимает контекст и акценты, а также использует инструменты Google (поиск, карты, Lens). Новая версия улучшена благодаря технологиям Gemini 2.0.
- Project Mariner: агент для работы в браузере, который может анализировать содержимое экрана и выполнять задачи, такие как взаимодействие с веб-формами или текстовыми элементами. Это исследовательский прототип с фокусом на безопасность. По видео
- Jules: AI-ассистент для разработчиков, интегрированный в рабочие процессы GitHub, помогающий автоматизировать задачи программирования.
- ИИ в играх: агенты, использующие возможности Gemini 2.0, помогают игрокам разбираться в сложных игровых ситуациях, взаимодействуют с виртуальными мирами и предлагают решения в реальном времени.
Смотрите красивый видос - https://www.youtube.com/watch?v=Fs0t6SdODd8
Mariner выглядит вообще огненно.
Больше инфы https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#building-responsibly
Что показали:
🌹 Обновили ChatGTP Canvas:
https://chatgpt.com/?model=gpt-4o-canmore
Это что-то вроде умного Notion/Google Doc, где слева вносишь правки через чат, а документ/код всегда справа, и обновляется моделью или пользователем, а не переписывается с нуля:
– Режим Canvas теперь доступен всем
– Модель может оставлять комментарии к вашему тексту или коду, а не просто редактировать его
– Теперь Canvas работает с кастомными GPT’s (вот бы ими еще занимался кто-то в OpenAI)
– Canvas может исполнять Python код, например, когда нужна какая-та дата аналитика или скрипт не работает, его сразу можно отправить в ChatGPT
В общем, OpenAI опять ряд стартапов сегодня закрыла 😮
Sora v2, мать моя женщина...
Кажется, весь видео процессинг скоро изменится навсегда.
Будет доступна "совсем скоро".
Минутная генерация.
Текст, текст+картинка, текст+видео -> видео
Отсюда https://x.com/RuudNL/status/1865425438991945938
o1 зарелизят, быстрее и лучше, и картинки поддерживает. И будет o1 pro mode для реальных пацанов за 200 баксов в месяц, специально для исследований и науки. Цен на API пока нет.
https://youtu.be/rsFHqpN2bCM
Инфа про про
https://openai.com/index/introducing-chatgpt-pro/
Новые LLM-ки от Амазон - Nova
🧠 Micro (только текст), Lite (мультимодальный), Pro (с высокой пропускной способностью) и Premier (появится в 2025 году)
🎨 А еще Canvas (создание изображений) и Reel (создание видео)
📊 Контекст длиной до 300К токенов и 200+ языков
🥇 Производительность в бенчмарках аналогична Llama 3 (не выдающаяся, но дешево)
🗺 Модели в настоящее время доступны только в регионах AWS в США
🔒 Включает в себя возможности водяных знаков (подробностей нет)
🔧 Возможность файнтюнинга в Amazon Bedrock
💰 Стоимость - Micro: $0,035 / $0,14; Lite: $0,06 / $0,24; Pro: $0,80 / $3,20 за 1M токенов. GPT-4o - $2.50/$10
Интересный ресерч от MS: Сравнение o1-preview с их лучшим подходом к модели предыдущего поколения - GPT-4 (Medprompt, это где и промпт подобран, chain-of-thought и примеров много, и вопрос задается несколько раз, а потом выбирается лучший ответ).
Так вот o1 все это обошла просто базовым промптом (96% vs 90% на медицинских бенчмарках).
Советуют на 01 экспериментировать с промптами под задачи и множественной генераций ответа (помогает), а вот примеры решений как-то не очень.
Прим этом да, это в 6 раз дороже GP4-4o. Ну и бенчмарки уже устаревают, нужны более сложные для современных моделей.
https://www.microsoft.com/en-us/research/blog/advances-in-run-time-strategies-for-next-generation-foundation-models/
Пока старички добавляют GenAI технологии двухлетней давности, Huawei делает магию. Копирование файлов "рукой" :)
Я еще со времен ABBYY грезил быстрой бесшовной передачей файлов, даже прототипы строили всяких p2p-соединений и копирования/вставки из буфера. Но работало криво в то время.
CEO HuggingFace поделился своими прогнозами на 2025 и подсчитал, что сбылось из прошлого (большая часть)
- Появится первая крупная публичная акция протеста, связанная с ИИ
- Крупная компания потеряет более половины своей рыночной капитализации из-за ИИ
- Будет предзаказано как минимум 100,000 персональных ИИ-роботов
- Китай начнет лидировать в гонке ИИ (как следствие лидерства в гонке по открытым исходным кодам).
- Произойдут крупные прорывы в области ИИ для биологии и химии.
- Мы начнем видеть экономический и трудовой потенциал ИИ, с 15 миллионами разработчиков ИИ на Hugging Face.
Как оправдались мои прогнозы по ИИ на 2024 год:
Разрекламированная компания ИИ обанкротится или будет продана за смешную цену
✅ (Inflexion, AdeptAI,...)
Модели с открытым исходным кодом достигнут уровня лучших закрытых LLM
✅ с QwQ и десятками других
Крупные прорывы в ИИ для видео, временных рядов, биологии и химии
✅ для видео 🔴 для временных рядов, биологии и химии
Мы будем больше говорить о стоимости ИИ (денежной и экологической)
✅ Денежной 🔴 Экологической (😢)
Популярные медиа будут в основном созданы ИИ
✅ с NotebookLM от Google
10 миллионов разработчиков ИИ на Hugging Face, при этом без увеличения безработицы
🔜 сейчас 7 миллионов разработчиков на Hugging Face
Маленькую модельку научили в structured output. Нет так круто, как в OpenAI (там прям масштабный подход с маскированием токенов, кэширование и использованием CPU и GPU для постройки дерева возможных вариантов), но все-таки.
Структурированная генерация с использованием SmolLM2, работающего в браузере и WebGPU 🔥
Работает на базе MLC Web-LLM & XGrammar.
Определите схему JSON, введите свободный текст, получите структурированные данные прямо в браузере.
Чтобы продемонстрировать, как много вы можете сделать с помощью всего лишь 1.7B LLM, вы передаете свободный текст, определяете схему разбора текста в GitHub issue (название, описание, категории, теги и т.д.) - пусть MLC & XGrammar сделают все остальное!
Демка тут https://huggingface.co/spaces/reach-vb/github-issue-generator-webgpu
Кстати, несколько фаундеров, ведущих небольшие ламповые AI каналы, собрали папочку со своими каналами.
Если хотите про реальный опыт узнавать, а не просто новости и красивые картиночки, - велком:
/channel/addlist/MSozeNNWo-YzZjVi
ChatGPT десктоп научился работать с еще большим количеством приложений. Теперь даже экстеншен покупать не надо для JetBrains (на самом деле для больших проектов надо, конечно, но для маленьких здорово пригодится)
+ VS Code forks: Code Insiders, VSCodium, Cursor, Windsurf
+ JetBrains: Android Studio, IntelliJ, PyCharm, WebStorm, PHPStorm, CLion, Rider, RubyMine, AppCode, GoLand, DataGrip
+ Nova & Prompt by Panic
+ BBEdit
Клод сделали стили для ответов. Самое прикольное - можно загрузить референс и стиль он подберет по нему. https://vc.ru/ai/1675484-polzovateli-claude-poluchili-vozmozhnost-nastraivat-stil-otvetov-chat-bota
Читать полностью…Прикольно.
Порезали 50% слабых связей в LLama-3.1 и потеряли всего 2% точности. И простор для оптимизации еще есть.
🔄 98,4% исходной точности на Open LLM Leaderboard v1 с 50% меньшим количеством параметров
🚀 На 30% выше пропускная способность и в 1,8 раза ниже задержка, а в сочетании с квантованием - до 5,0x
📈 Полное восстановление точности при файнтюнинге
⚡️ Повышение производительности при выполнении нескольких запросов в 1,4-2,1 раза
🌱 Делали 26 часов на 32 видюхах H100
🔧 Оптимизировали для графических процессоров NVIDIA Ampere и новее
Подробности: https://neuralmagic.com/blog/24-sparse-llama-smaller-models-for-efficient-gpu-inference/
Интересные новые эмбеддинги от Voyage AI, одновременно в себе хранят тексты, картинки и скриншоты, что позволяет добиться улучшения качество ответов на вопросы по ним.
Модель обрабатывает текст и изображения одновременно, включая скриншоты таблиц, графиков, слайдов и сложных PDF-документов. И учитывает визуальные элементы (размер шрифта, расположение текста, пробелы и т.д.), что устраняет необходимость ручного анализа структуры документа.
Превосходит OpenAI CLIP large и Cohere multimodal v3 на:
- 41,44% при поиске таблиц/графиков.
- 26,54% при поиске по скриншотам документов.
- 6,55% в задачах поиска текста по изображениям.
Эффективность в текстовых задачах выше OpenAI v3 large на 5,13%.
Единственный трансформер кодирует и текст, и визуальные данные, сохраняя их контекст.
Устойчивость к мультимодальным данным: Минимальная потеря точности при увеличении доли изображений в данных.
С помощью voyage-multimodal-3 можно:
Искать по PDF, слайдам и скриншотам без предварительной обработки.
Работать с мультимодальными базами знаний (например, документы, таблицы, фигуры и т.д.).
https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/
AI Paphos Summit: Unconference - 22–23 ноября
Опубликован драфт программы - начало 22 ноября в 15:00.
Можно ознакомиться с расписанием здесь
Это первая анти-конференция (unconference) про искусственный интеллект на Кипре, на которой мы собираем более 120 практикующих специалистов ИИ, основателей стартапов, исследователей и лидеров индустрии!
Наша цель – создать на Кипре сообщество практиков в области ИИ, где профессионалы делятся реальными решениями, решают отраслевые вызовы и обмениваются знаниями о передовых технологиях, соединяющих науку и бизнес. Это отличная возможность для нетворкинга, совместных проектов и развития новых инициатив.
👥 Среди участников – эксперты из Amazon, JetBrains, Simple, Palta, Exness, Zing Coach, OpenCV.ai, Replika.ai, Intento и других ведущих компаний и стартапов в сфере ИИ.
🎤 Основные форматы Unconference:
доклады в формате Talk & Exchange с модерируемым обсуждением после выступления, круглые столы, Demo Sessions про возможности LLM и автономных агентов, Science SLAM, ревью кейсов, открытый микрофон.
👥 Партнеры и спонсоры мероприятия:
Palta, Exness, Zing Coach, Simple, INEX.
💫 Организатор: AI Future Hub – сообщество, объединяющее университеты, студентов, инвесторов и партнеров в сфере ИИ.
Мы проводим тщательный отбор участников по заявкам. Осталось 15 мест.
🔗 Ссылка для регистрации и подачи заявок.
После аппрува, вам будет выслана ссылка на оплату за участие, будет отбор заявок. Заявки на доклады закончились, регистрируйтесь как посетитель. Все подробности, цены и контакты - в указанной форме.
🗓 Даты unconference:
Пятница, 22 ноября – с 15:00 до 22:00
Суббота, 23 ноября – с 10:00 до 19:00
📍 Место проведения: Пафос, Кипр – Beon active office by INEX
Конференция является завершающим этапом AI Paphos Summit. Станьте частью первой AI Unconference на Кипре – создавайте будущее ИИ и узнайте, как использовать прорывные технологии уже сегодня! 🚀