🔺 Делаем свою Perplexity
Perplexity — это поисковая система, которая обрабатывает выдачу популярными моделями (в Pro версии их можно выбирать, это GPT-4o/o1, Claude и пара других) с удобным интерфейсом и списком источников.
Есть разные режимы, типа поиска видео или режим Writing, когда веб-поиск отключен и можно работать как с обычной языковой моделью.
Компания привлекла полмиллиарда долларов инвестиций в декабре и на днях запустила новый API.
🔸 Называется новый сервис Sonar API, есть две версии — sonar и sonar-pro. Стоит $1/$1 за 1M input/output токенов у базовой модели и $3/$15 у Pro.
🔸 Сами поисковые запросы, которые происходят внутри, тоже стоят денег, $5 за 1000 запросов. Базовая модель делает только 1 такой поиск, Pro может делать несколько.
🔸 В зависимости от расходов есть разные уровни использования (tiers), на них появляются дополнительные фичи, типа фильтров по доменам для поиска.
Так вот, поигрался немного с этим API (можете попробовать через playground), работает достаточно стабильно, находит данные по актуальным событиям и людям.
Ссылки на источники тоже выдает. То есть, чтобы самому сделать подобный сервис, по сути хватит одного такого API (и денег).
В целом так можно сделать и по частям — найти поисковое API типа Bing в Azure или DuckDuckGo, попарсить найденные сайты, подложить в контекст и сходить в следующее API. Не так сложно, но будет больше работы по поддержке, а тут один вызов — и готово.
По-моему, search API у OpenAI и других сервисов пока нет (может, вы где-то видели подобное API?).
Upd. Спасибо за ссылки!
🔺 DeepSeek-R1 и DeepSeek-R1-Zero
Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.
🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.
🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.
🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.
🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.
🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html
🔺 Что будет, если замедлить скорость света?
Наткнулся на любопытный игровой проект от MIT. Если ходить и собирать шарики в этой игре, то все сильнее замедляется скорость света и начинает проявляться куча интересных эффектов.
🔸 Эффект Доплера. Движение в сторону источника света вызывает синее смещение, а в противоположную сторону — красное.
🔸 Сдвиг спектра. Инфракрасный и ультрафиолетовый свет могут сдвигаться в видимую область спектра.
🔸 Аберрации. Объекты, находящиеся в направлении движения, кажутся ярче, из-за концентрации света в этом направлении.
🔸 Замедление времени. Движущиеся NPC и другие объекты замедляются в зависимости от вашей скорости.
🔸 Искажение пространства. Окружающее пространство начинает сжиматься в направлении движения. Авторы пишут, что это проявление преобразований Лоренца.
В сумме все это дает не очень комфортную для глаз картинку, так что в реальности предлагаю скорость света не расшатывать.
👉 Попробовать можно тут — A Slower Speed of Light
Поигрался с kling'ом
Пора бы уже сделать кому-то удобный сервис по генерации множества сцен с консистентными персонажами и связыванием их в один ролик. По отдельности вроде понятно как, но вот прям лень возиться.
Поискал сравнение актуальных цен на популярные LLM, чтобы не делать свой скрипт, и почти везде цены не всегда правильные (особенно часто отличаются у Gemini или нет моделей типа DeepSeek, которая по ощущениям уже сравнима с лучшими).
1️⃣ В итоге нашел на docsbot.ai, вроде бы цены правильные.
2️⃣ А на openrouter.ai ещё любопытней — можно посмотреть на каких платформах раздается API модели и их средние показатели типа задержки и те же цены.
Там же видно, где и какие модели сейчас доступны бесплатно (по API).
🔺 Новые фото Стругацких
Ух, вроде получилось. Друзья, весь день провозился с обучением лоры под Стругацких, совместно сделать их одной лорой так и не получилось (Борис Натанович есть в предыдущем посте).
Осложняется все тем, что фотографий у братьев крайне мало, особенно у старшего, Аркадия. А то, что есть — это подобие сканов.
Поулучшал найденный материал, как смог, и обучил несколько моделей. Работают они менее стабильно, иногда соскакивают на женский пол и рисуют сестру Стругацкую (!)
Пришлось изрядно почеррипикать, но всё же полученные генерации — это теперь лучшие фото АБС в сети! 😄
🎉 P.S. Оказалось, что сегодня — День научной фантастики (приурочен к ДР другого супер-фантаста). С чем я вас и поздравляю.
На этом, наверное, закончу с картинками и опишу, как такие делать.
Осваиваю ComfyUI, прикольная штука. Пайплайн для нужной задачи нужно составлять самому из набора блоков и это занятие само по себе довольно увлекательное (пока разберешься, что куда прикручивать, узнаешь много нового).
Какие-то несложные вещи, типа добавления цветности к ч/б фото или масштабирования, можно освоить довольно быстро. Попробую сделать что-то поинтересней, типа подключения LoRA и массовой обработки фоточек.
Хорошей документации я пока не нашел (может вы видели?), зато отдельных примеров есть огромное количество.
🔸 Установить ComfyUI можно локально, просто скачав и распаковав архив.
🔸 Сразу установите ComfyUI-Manager, через него можно будет находить и устанавливать кастомные блоки, которые будут почти в каждом примере, которые вы увидите.
🔸 Вот тут есть сотни моделей для upscale'а картинок. Надо скачать веса и подложить в папку upscale_models.
🔸 А вот тут написано про то как установить модуль ComfyUI-DDColor для задачи добавления цветности.
👉 Предлагаю поразбираться на досуге и собрать собственный AI-редактор изображений у себя на компьютере. Легкие операции будут спокойно отрабатывать без видеокарты.
🇯🇵 Всем привет с родины Годзиллы
Тут все спокойно, титаны не атакуют. Если тоже соберетесь, то:
🔸 Визу делают за 4 дня, бесплатно. Дали на три года, раньше тут не был.
🔸 Удобно до вылета купить eSIM и ходить потом везде с 5g интернетом.
Местные везде стараются помочь, по-английски часто не понимают. При пересадке в Пекине не могли найти гостиницу, нам сначала объясняли по карте, а потом проводили до нее за 15 минут. Сейчас в Осаке.
Сделал обзор Phi-4. Как вам?
Обзор полностью автоматический (делается по ссылке на статью) + небольшие правки по тексту. Использовал только что вышедшую Gemini 2 (gemini-2.0-flash-exp).
Если норм, то буду периодически добавлять такие обзоры к некоторым статьям (буду пробовать разные модели).
👉 Они будут тут: https://hfday.ru/u/
Тем временем Грок почти научился рисовать надписи на русском.
P.S. Это вчерашний релиз x.ai. Выкатили модель для генерации картинок Aurora.
//по-моему, надписи на русском до этого в популярных моделях не работали
👉 Релиз | Grok
🔺 Switty
Коллеги из Яндекса выложили новую T2I модель. Рисует неплохо, хотя главное улучшение в архитектуре. Как я понял, ускорили генерацию на 30 процентов (убрали авторегрессионность и на высоких разрешениях в конце отключили guidance — усиление влияния текста на генерацию).
P.S. Не то, чтобы я сразу полез рисовать нюдсы, но да, они генерятся.
👉 Статья | GitHub | Демо на HF
🔺 Энциклопедия ИИ
Друзья, мой коллега Сергей Марков написал книгу в жанре научпоп про машинное обучение. Называется она «Охота на электроовец: большая книга искусственного интеллекта».
🔸 Писал он её 6 лет (!), переработав несколько тысяч источников.
🔸 Если вам интересно, как область зарождалась и развивалается, какие люди за этим стоят и как это всё работает, то очень рекомендую.
🔸 Книга не дешёвая — формат у нее подарочный, но красивая. А еще её можно скачать бесплатно прямо на сайте автора.
👉 Труд автора можно поддержать плюсиком к статье на Хабре про эту книгу.
👉 Upd. Купить можно на озоне.
#работаиздома
Размышляю над проблемами ризонинга и инвестициями в AI пока человек сидит за компьютером.
На together.ai появилась бесплатная Llama 3.3 70B по API.
🔸 На Free tier'е у них 60 запросов в минуту/60k токенов. Если добавить карту, то будет 600/180k.
🔸 Работает без VPN и мобильных, совместима с OpenAI клиентом. Можете встроить в свой пет-проектик.
https://api.together.ai/models/meta-llama/Llama-3.3-70B-Instruct-Turbo-Free
import osЧитать полностью…
import openai
os.environ["TOGETHER_API_KEY"] = "your_free_key"
client = openai.OpenAI(
api_key=os.environ.get("TOGETHER_API_KEY"),
base_url="https://api.together.xyz/v1",
)
response = client.chat.completions.create(
model= "meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
#"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
messages=[
{"role": "system", "content": "Ты — ассистент Шерлока Холмса."},
{"role": "user", "content": "Кто убил садовника?"},
]
)
#Интригующая загадка, действительно! К сожалению, я не располагаю конкретными деталями о деле, касающемся убийства садовника. Однако я могу предложить некоторые общие наблюдения и идеи, которые могут помочь нам начать расследование.
#Во-первых, давайте рассмотрим место преступления...
ждём смс
В ChatGPT добавили отложенные задачи. Уведомление с результатом приходит в виде пуша или письма.
🔸 Можно попросить гуглить что-нибудь на нужную тему раз в день и подготавливать текст (например, задачку по программированию или задание на английском для чтения) и отправлять на почту.
🔸 С почты можно настроить дальнейшую интеграцию (помню, раньше пользовался штуками типа IFTTT). Отправлять к себе в телеграм, постить в соцсеть или скидывать в pocketbook cloud на электронную читалку.
//Upd. На почту все-таки не весь ответ приходит, а ссылка в интерфейс, хотя отработка происходит в положенное время.
🔺 DeepSeek v3
Поигрался с DeepSeek v3, который вышел недавно. Соскоки с русского на китайский, которые были раньше (типа "力ный" вместо "сильный", что само по себе любопытное явление), прекратились.
🔸 Есть web-поиск и режим DeepThink, аналог o1. Работает похуже, чем ChatGPT, те же буквы может посчитать неправильно, но в целом рассуждения работают.
🔸 Цена дешевая, если получится поплнить баланс, — $0.27 и $1.10 за 1M токенов на вход и выход. У GPT-4o — $2.5 и $10.
👉 Я тут в отпуске освоил AliPay и смог оплатить, делюсь ключом от API поиграться (пока там есть деньги): sk-2d6cfbbd72d74b52bba11ea5336cc2f6
🔸 Но есть и просто обычный чат и он бесплатен, попробуйте обязательно. Работать стала почти на уровне лучших моделей.
👉 DeepSeek-чат | HF | Статья
🔺 Осваиваем FLUX, LoRA и ComfyUI
Написал заметку про то, как дообучать модель FLUX на небольшом количестве картинок, как настраивать ComfyUI и работать в нем.
🔸 Можно обучать локально, если есть видеокарта дома. Можно арендовать сервер с картой на полчаса. Можно обучить и генерировать на платформе типа fal.ai.
🔸 По-умолчанию LoRA получается примерно на 30 Мб, а на различных сервисах около 130 Мб и работает получше. Можно поменять ранги в скриптах обучения, чтобы увеличить размер. Про это тоже написал.
🔸 Подходит, само собой, не только для лиц, а для чего угодно. Можно переносить стили с ваших картинок или обучать на какие-то специфические вещи.
👉 https://habr.com/ru/companies/ods/articles/871256/
#подарки
📚📚📚📚📚📚📚📚
Привез из отпуска несколько прикольных книжек на японском и китайском, так как книжные там очень понравились и ничего не купить в них я не смог.
Парочку оставил себе, остальные решил подарить, так что, кто учит язык, — пишите, отправлю (если по России) или передам, если в Москве.
🫣 Коллеги из музыкальной команды зарелизили генератор песен. Сделал вам медитативную композицию.
P.S. В Гигу доезжает, скоро будет во всех интерфейсах.
👉 Попробовать | Хабр
Друзья, вернул Градиент на место.
Для справки, это все еще отсылка к Стругацким. В некоем искусственно созданном городе между желтой стеной и обрывом проходит Эксперимент. Люди, живущие в городе, попали в него из разных эпох и о деталях эксперимента не знают, пытаясь жить в соответствии со своими взглядами.
Книга не то, чтобы очень легкая и понятная, писалась в 70-х, а была издана гораздо позже. Название, кстати, со слов авторов, читается через букву «е».
🔺 Умный редактор в GigaChat'е
Коллеги много трудились и выкатили в Гигу инструмент для редактирования текстов (аналог Canvas в ChatGPT и AI-помощника в notion).
Можно по-разному редактировать свой текст — дополнять, сокращать, менять стиль и переводить. Так как все работает на наших моделях, то функционал можно будет расширять как угодно.
Я бы, например, добавил еще генерацию иллюстраций по тексту, применение стиля на основе образца и ввод команд в свободной форме.
Попробуйте и напишите идеи, что бы еще было полезно сделать.
👉 giga.chat
Сходили на лекцию Владимира Сурдина и Алексея Семихатова про научные открытия.
Узнал, что условия для жизни есть даже в нашей Солнечной системе на нескольких планетах. И что в 2030 году к спутнику Юпитера прилетит Europa Clipper, чтобы там эту жизнь поискать. Ждём ⏳
В общем лекция отличная, часть Сурдина даже чуть больше понравилась. Такие просветительские лекции происходят довольно часто и не только в Москве, так что сходите при оказии.