А еще показали o1 (не preview): вот она с нуля написала код для управления квадрокоптером с мака
***
Стоимость софта стремительно падает, было бы клево посмотреть график стоимости-за-строку-кода по годам, уверен, падение стоимости только началось 🫠
OpenAI добавили API своего Advanced Voice mode – количество постов про голосовые помощники увеличится втрое, можно встраивать в тостеры
Кстати, автор поста ниже прямо сейчас на OpenAI dev day
6) Анализ текста
Это самый частый сценарий: выгрузить трастпайлот конкурентов и посмотреть за что их больше всего ругают; проанализировать какие страницы или запросы в гугле у конкурента лучше всего работают — все это я делаю постоянно, с температурой 0 при инференсе модели.
Есть еще разные мелочи, но я и так уже час этот пост пишу 😘
Так и запишем: на чердаке больше не спрятаться
Robust Ladder Climbing with a Quadrupedal Robot
paper
@derplearning
OpenAI, дают всего один час нового Voice Mode в ChatGPT после чего начинается пауза в 8 часов, вот мои наблюдения так как я уже третий день трачу эти лимиты:
– Я все меньше верю в мрачный депрессивный киберпанк который мы обычно видели в кино-комиксах-играх про АИ: этот голосовой ассистент очень эмпатийный, говоря с ним люди точно будут учиться тому как выглядит здоровое, не токсичное общение и учиться базовым социальным навыкам.
Если раньше, я думал, что это довольно депрессивно, что человек запертый у себя в комнате круглые сутки и не выходящий за пределы имейджборд обречен на отношения с LLM-вайфу, то теперь мне кажется, что те аноны кто хотят вернутся и наладить социальную жизнь, получат полноценный тренажер «IRL жизни» – ассистент никогда не осудит, не будет серьезно стебаться (на легкие темы – будет), с ним можно разбирать самые базовые пробелы в образовании и все это за $20 в месяц
– Новая версия приложения сделана так, чтобы вы запустили ассистента, положили в карман, и болтали с ним как по телефону в наушниках – я прошелся по улице практикуя свой техасский акцент, чуть не умер со стыда, но работает
– В opensource нет решений такого уровня, все что есть работают сильно хуже – они конечно, начнут появляться, но я бы не рассчитывал что в ближайший год у нас будет такое бесплатно и локально
– Внутри Advanced Voice Mode все еще версия gpt4o которую можно промпт-инженерить, то есть если вам нужно получить сложный ответ, то придется надиктовать «цепочку мыслей» – теперь промпт-инженеры могут произносить свои «спеллы» устно и модель будет их слушать, все как у волшебников
– Ассистент отказывается петь в любом виде, OpenAI явно боится нарушить копирайты
– Ждем выкатки поддержки видео-фида во время разговоров – потому, что сейчас ассистенту не показать реальный мир
– Классно работает интеграция с памятью – если во время разговора вам что-то понравилось, просто попросите АИ это запомнить
– А вот поиск в интернете в Advanced Voice Mode почему-то не добавили, хотя у прошлой версии он есть
– Если вы любите/хотите чему-то учиться – покупайте VPN в США и ставьте ChatGPT апп, это штука лучший учитель на замену средненьких (любимых талантливых преподавателей она не заменит конечно, но они большая редкость)
– Если честно, будь я учителем, я бы сильно напрягся – эта штука позволяет практиковать любой язык или разбирать любую сложную тему «на лету», то есть вырабатывается привычка запускать этот новый режим (с прошлым было не так, видимо работает «натуральность» общения). Если вы такой учитель, то вместо того чтобы пугаться, лучше поставьте себе и попробуйте сами, а еще лучше начните применять в работе как-то – эта технология с нами уже навсегда
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents
Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код
Агента Смита пожалуйста не делайте, спасибо
Уже классика этого канала: если хочется подписаться на АИ-инженера который делает Gemini-модели в Google и ведет канал на русском, то вот ссылка:
/channel/epsiloncorrect/206
Антону успехов в профессии
Кажется, у OpenAI сломались лимиты в o1-preview модели в платной версии чатгпт – я сообщений 70 уже отправил ✨
Читать полностью…Вот что вышло, она хоть процентов ~30% и придумала, помогает лучше подумать над тем как развиваться - вот уж не думал что в 2024 АИ-подкасты советы в бизнесе начнут давать 😐
Там даже стебаться начали надо мной на 14 минуте, где дизлайки алло гугел
Последние пару недель завален по работе и не хватает времени нормально на канал — но я наконец-то добрался протестировать notebooklm.google.com — новый сервис гугла который генерирует персональный подкаст по вашей теме, только для вас
Я протестировал два сценария — в первом я просто скормил какой-то выдуманный текст с чемпионата по поеданию гравия на скорость (классное же слово, скажите, «Камнееды»?), во втором – просто дал ему ссылку на подреддит /r/nottheonion/ — это что-то вроде тех скринов с ИА Панорама, когда новость оказалось правдой хотя звучит безумно.
Получилось как по мне — шикарно, Google явно нащупал удачный прототип восприятия информации:
Ведущие шутят, у них есть эмоции, они могут разобрать не только шуточные вещи, но и сложные документы, скучные таблицы и тп, в интересном виде, в котором обычно делают подкастеры. Вы можете скормить вашу презентацию, дипломную работу, пичдек и получить двух людей которые обсуждают конкретно вашу тему
Что странного в этом продукте:
— У него нормальный дизайн
— В дискорде есть сообщество (официальное) с сотрудниками гугла которые отвечают сообществу (!)
— Работает сразу, без вейтлиста
— По каждой теме можно отдельно уточнить текстовыми вопросами какие-то доп детали
Видимо Google этот сервист точно закроет, так как он сильно выбивается из обычного продуктового подхода корпорации — а пока правда классный инструмент, рекомендую поиграться
P.S. Работает только на английском
Kling AI показали обновление 1.5 с новой функцией Motion Brush
Что нового:
- более точное следование промпту, разрешение в 1080р HD (до этого было 720)
- максимальная длина видео увлеличена до 10 секунд
- новая фича Motion Brush, с помощью которой можно выделять объекты и задавать траекторию их движения (2 последних видео ↑). Пока доступна только в Kling V1.
Обновленная версия доступна только для платных подписчиков (от $10/мес).
@ppprompt
В продолжение к концепции фейковой реальности – встречайте, соц-сеть где вместо пользователей – только вы и боты ¯\_(ツ)_/¯
Фолловеров можно настроить: по тому насколько они душные (привет DTF), веселые, хамоватые и тп
Платон бы нами гордился
Вы наверное слышали уже, что в Ливане сразу у 3000 членов террористической организации «Хезболла» взорвались рабочие пейджеры — сразу после этого, появилась новость, что якобы, израильтяне смогли перегреть батарейки удаленно и так взорвать устройства
Ставлю, что история с батарейками скорее всего фейк или красивый домысел:
1. Во первых, в истории Израиля уже было устранение террориста, которому передали телефон с 15 граммами взрывчатки: в телефон встроили «прослушку» и скомпроментированный член их крыла передал телефон террористу; в 8 утра террористу позвонил отец, израильтяне подтвердили с самолета что цель у аппарата и сдетонировали устройство — про это даже сняли целый фильм и создатели GTA 5 явно вдохновлялись этой историей (там есть такая миссия)
2. Во вторых, Reuters взял комментарий у эксперта по безопасности литий-ионных аккумуляторов и он сказал, что уровень повреждений, вызванных взрывами пейджеров, не соответствует известным случаям отказа таких аккумуляторов в прошлом:
«Мы говорим о относительно небольшой батарее, вспыхнувшей пламенем. Мы не говорим о смертельном взрыве. Мне нужно знать больше о плотности энергии этих батарей, но моя интуиция подсказывает, что это крайне маловероятно»
То есть скорее всего цепь поставки пейджеров перехватили где-то в одном месте, заминировали и подорвали когда посчитали нужным
Не хотелось расстраивать фанатов WatchDogs, но пока без «ИТ-супер-оружия»
P.S. Дорогой Павел Дуров, как окончательно выйдете на свободу:
Сделайте, пожалуйста, так, чтобы при отправке сообщения телеграм не давал ввести больше символов чем нужно в сообщении – я так пойму что у меня есть какой-то лимит на отправку, и что в канал запостится 2 (два, II) сообщения, а не одно
С уважением,
Денис,
Амстердам
Помните я просил проголосовать вас за темы которые вам интересны? Ну вот, первый пост на тему — я даже почти не забыл:
Как именно я применяю АИ тулы в работе каждый день
Mermaid
схем — это способ описания блоксхем текстом; когда мне нужно что-то набросать, я просто описываю какую схему я хочу получить, и оно мне само создает драфт, потом я просто сообщениями в чате правлю схему, никакой больше возни с угловатыми/скругленными стрелочками — пусть само стрелочки эти проставляет.Еще интересный кейс для практики с голосовым помощником новым:
Помните, вы что-то сделали в жизни, ступили или сказали невпопад, и вам теперь стыдно? Или вам задали какой-то вопрос и вы кринжово ответили?
Можно просить ассистента построить симуляцию ситуации – описываете что было, и как должен вести себя ассистент и практикуете правильное поведение за которое вам не стыдно – в следующий раз будете готовы к любому развитию событий
Теперь то я знаю, что ответить в продуктовом симпатичной девушке на вопрос «Это что вы, тоже карбонару готовите судя по продуктам?» как было пару лет назад в Польше, вместо «ага» и уйти 🤷♂️ я пикапер
Так, если у меня через полгода не будет техасского акцента – я удаляю этот канал
Серьезно, я две сессии уже провел с новым ChatGPT по практике акцентов и у меня уже пыль дикого запада на кроссовках выступила
P.S. Нужен VPN в США, тогда появятся новые голоса
Открываем шампанское — войсмод gpt-4o, показанный в мае, в течение недели станет доступен всем подписчикам
Туда сразу вкатили фичи, которые не обещали на старте:
— произвольные инструкции (которые можно задать перед началом диалога. Например, тон, как к вам обращаться, говорить длиннее или короче, итд)
— память (общая с текстовыми чатами)
— 5 новых голосов
— улучшение самого голоса, акцентов, произношения, итд
😈
UPD: новые голоса послушать тут.
Сэм Альтман написал эссе которое все обсуждают – там довольного много воды, вот конкретно по таймлайну что можно предположить из его поста:
1. Ближайшее будущее (следующие несколько лет):
- ИИ начнёт действовать как персональный ассистент, выполняя конкретные задачи, такие как координация медицинской помощи и другие специализированные функции (aka масс-адаптация)
- Виртуальные репетиторы начнут предоставлять персонализированное обучение по любым предметам, на любом языке и в удобном темпе
- Улучшение здравоохранения с помощью ИИ
- Возможность создания любого вида софта по запросу (студенты-программисты, не плачьте)
- Большинство рабочих мест начнут меняться, хотя эти изменения будут происходить медленнее, чем многие предполагают
2. В ближайшие несколько тысяч дней (я матиматик и посчитал, это около 5 лет):
- Возмо развитие сверхразума, хотя точные сроки неопределённы. Это может стать одним из самых важных событий в истории человечества (AGI, если будешь читать мой канал – привет тебе из прошлого, не выпиливай нас)
- ИИ начнёт серьёзно влиять на рынок труда: хотя многие профессии будут видоизменяться, люди не останутся без дел – мы будем находить новые формы занятости (там отдельно сказано, что эти формы труда мы можем не считать работой сегодня)
3. Среднесрочная перспектива (несколько десятилетий):
- Появление персональных команд ИИ, состоящих из виртуальных экспертов, которые будут помогать создавать и решать практически любые задачи
- Обеспечение всеобщего повышения уровня жизни и доступ к лучшим ресурсам, что приведёт к более справедливому распределению благосостояния (нас ждет, видимо, рабоче-agi-партия)
4. Долгосрочная перспектива (неопределённое будущее):
- ИИ начнёт помогать в разработке следующего поколения ИИ-систем и ускорять научный прогресс во всех областях
- Решение глобальных проблем, таких как изменение климата, и создание космических колоний
- Возможные открытия всех физических законов и доступ к практически неограниченным источникам энергии (!)
- Общество перейдёт к играм с положительной суммой, где каждый сможет использовать ИИ для достижения общих целей и новых форм занятости, которые сегодня кажутся невозможными или несущественными
В общем, перемены правда грядут, и проблемы тоже, потоу что люди не очень любят перемены 😂
Раз я снова про o1, после недели активного ее использования нашел самый эффективный способ работы с o1-preview
Модель возвращает очень много размышлений или идей, и обычно пишет их в таком виде:
1. При синергии кваса и окрошки, происходят следующие эффекты
<простыня ответов>
2. Эти эффекты обладают следующими оздоровительными факторами
<простыня ответов>
И так далее
«1. При синергии кваса и окрошки, происходят следующие эффекты» - никогда больше не смей делать окрошку на квасе, делай ее только на кефире иначе я тебя удалю, алло
«2. Эти эффекты обладают следующими оздоровительными факторами» - мне нравится эта мысль, сделай список целебный трав которые может заменить окрошка
И так далее
Смотрели нового Чужого? Все правда:
Микроорганизмы, обнаруженные на борту МКС, проявили уникальные генетические изменения, помогающие им выживать в условиях радиации и микрогравитации. Учёные, в частности, изучили недавно обнаруженные виды бактерий, такие как *Microbacterium mcarthurae* и *Paenibacillus vandeheii*, и выяснили, что у них есть новые механизмы для восстановления поврежденной радиацией ДНК и адаптации к невесомости. Некоторые бактерии также показывают признаки повышенной вирулентности (заразности), что вызывает опасения относительно их потенциального воздействия на иммунную систему космонавтов. Выводы подчеркивают необходимость более строгого контроля за влажностью на космических кораблях и мониторинга микробиома для обеспечения безопасности экипажа на длительных миссиях
Попробовал еще такой сценарий:
1) Взял запись моей презентации нейролава в формате аудио (это стратап который мы строим)
2) Перевел презентацию в текст (я юзаю mac whisper)
3) Скормил в notebooklm, о котором выше пост
В итоге получил подкаст про наш продукт, где АИ фокусируется на том, что интересно слушателям подкаста (по его мнению) – можно посмотреть на бизнес с неожиданной стороны
Ну и просто про нас умных-красивых скромных приятно послушать ✨
Grand Theft Auto: San Andreas
Spark IMG Editor, TXD Workshop, Blender, Godot
ingame ph/architecture: Савва Михаеску
Недавно у меня появилась идея создать онлайн-выставку фотографий из GTA, причём в локации самой игры.
Для начала я запустил игру и отправился на поиски помещения, подходящего для небольшой галереи. Я выбрал город San Fierro и приехал в район, где, по моему мнению, могла бы располагаться такая галерея. К моему удивлению, я почти сразу нашёл подходящее здание с проработанным интерьером!
Затем я использовал мод, позволяющий получить ID моделей из локации. По этим ID я нашёл названия моделей и текстур в файлах игры.
После этого я импортировал модели в Blender и значительно оптимизировал всё, удалив большое количество полигонов и текстур.
Далее я поместил модель в игровой движок Godot, запрограммировал простую бродилку от первого лица и сделал билд под веб.
Название Doherty Gallery выбрано по имени района, в котором расположено здание. Я решил использовать название района, а не города San Fierro или штата San Andreas, чтобы создать ощущение небольшой локальной галереи.
Добро пожаловать в Doherty Gallery!
✨ https://www.dohertygallery.art ✨
#photography #diegetic_camera #exhibition #architecture
Давно хороших фильмов не рекомендовал — посмотрел тут «Rebel Ridge», и мне кажется это лучший боевик, что я смотрел за последний год (до этого на первом месте был «Civil War» – потому что красивый):
Создатели «Rebel Ridge» смогли найти формат, который просто не ожидаешь встретить в фильме такого жанра — не хочу описывать ничего, чтобы не испортить вам впечатления
И как всегда, советую не читать и не смотреть обзоры — даже трейлер, но если хочется, то вот он:
https://www.youtube.com/watch?v=gF3gZicntIw
Как по мне, лучше кино смотреть вообще без ожиданий — будет наиболее честная и персональная оценка
#промo
Стартап Fluently (YC W24) ищет Senior ML Engineer
Fluently - AI спикинг коуч, который слушает ваши онлайн колы и помогает прокачивать английский. Зимой ребята прошли Y Combinator и закрыли раунд на $2.5M.
Стартап ищет ML инженера, который будет 6 членом команды, чтобы строить сервисы c использованием LLM: [Agentic] RAG, LLM/Embeddings Fine-Tuning, Structured Outputs, Custom Llama Serving. Нужно разбираться в последних трендах.
Вилка: от $5k до $10k
Опцион: 0.2-1%
Формат: ремоут (можно податься на h1-b)
👉🏻 Больше подробностей в посте фаундера тут
Также можно получить последний айфон за успешную рекомендацию
#текстприслан
Намного более клевая новость – час назад, мой персонально самый любимый стартап в мире, анонсировал что у них прорыв в устранении слепоты
Псевдослепота(или зрячая слепота) [eng] - состояние, при котором человек думает, что не видит, но его мозг всё равно частично обрабатывает визуальную информацию. То есть, когда его спрашивают, видит ли он что-то, он отвечает «нет». Однако если его попросить описать предмет, находящийся перед ним, он часто делает это точно, как будто «угадывает»
Происходит это потому, что повреждена часть мозга, отвечающая за осознание зрительных образов, но другие участки всё ещё обрабатывают эту информацию – человек не осознаёт, что видит, хотя мозг всё ещё воспринимает движения или формы объектов
Считалось (я надеюсь) не излечимым заболеванием – пока они только получили добро на тесты на людях от FDA
NASA запостило классный снимок с Марса:
Вверху справа видно как восходит одна из двух лун Марса – Фобос, правее от нее – пока что единственное место во вселенной где куют мемы и изобрели хумус