Стоит ли дальше писать на русском или забить и писать на английском ?
Хз ощущение будто статьи на русском про нейронки читать особо некому
Релиз 5.* вихря
Арена на этих данных. Релиз арены выйдет ДАННЫЕ УДАЛЕНЫ
апвотить папир тут
модель
если вы случайно богатый дон или компания с кучей лишних карт - мы ждем вас @transformerslovedeatch
Авторы: @nlpwanderer @mlunderground
Юрген выдавал базу ещё в 1991, просто лекун и авторы трансформера все украли и не процитировали.
Архив
Оказывается гибрид комсомольца и рептилоида ещё и социопат с кабальными контрактами.
Минусов не будет, agi till 2027 как говорится.
https://readhacker.news/s/68jMz
Помните шоу трумана?
Короче тут ребята из/a16z сделали интерактивное LLM шоу трумана, все NPC это llama3, довольно занудное зрелище, но если очень хочется посмотреть - вот ссылка.
Таких работ примерно миллион, все они примерно не о чем, серьезно их читать не стоит, но пофантазировать о Sims7 через пару лет - можно.
ai town
Мастер и Маргарита в 2024:
Аннушка уже разлила свой спф от Sol De Janeiro, Берлиоза переехал школьник в хром хартс на электросамокате, Воланд три часа пытался загипнотизировать хостес в Хорошей Девочке, чтоб ему нашли свободный стол, Азазелло снялся в каждом рилсе «сколько ты зарабатываешь в месяц?» и продал несколько курсов, вместо кота Бегемота - мальтипу Микки, Маргарита, жена ресторатора, помогала писать Мастеру, диджею в отставке, посты для его тг-канала, а после бала в Родине свита Воланда дружно улетела в Дубай
Никто не знает зачем, но чувак написал на голом торче llama3.
Почитайте, ознакомьтесь со слоями, полезно для собесов, бесполезно в жизни.
много картинок которые помогут выробатать интуицию вида: а на что у меня смотрит модель, а почему меня ротари и ответить на вопрос: а почему так
GitHub
Биоинформатик идет в магазин.
Муж просит купить его булку, а если будут яйца, то десяток.
По пути в магазин встречает бывшего однокурсника, уставшего и невыспавшегося биоинженера,
— Я кстати теперь богатый очень и на удаленке работаю, не то что ты, ой как хорошо быть биоинформатик
Биоинженер бьёт его по булкам и в яйца десяток раз
Чо бухтите, ну не 1350 Elo везде, зато мультимодалка, вообще есть инфа от проверенного человека. Ща стабилизируют ситуацию с алайментом, гугл и антропик ничего не смогут сделать. Elo поднимут и будут держать. Опенсурс ничего не сделает, сейчас главное не бухтеть.
Пояснение к мему: на coding tasks arena Sama показал 1350, но общий Elo очевидно ниже
Слово дня: разочарование
Ну блять ну что это, ну как такое релизить можно
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
очень тихо microsoft зарелизи copilot в телеграмме, нужен не русский номер кажется.
Можно скинуть любой не русский номер и будет рабоатть
блогпост
@CopilotOfficialBot
Uni-MoE: Scaling Unified Multimodal LLMs with
Mixture of Experts
- У нас есть 4o дома.
- 4о дома.
Китайская MoE про то как через latent по образцу Llava сунуть все модальности в трансформер и радоватся. Так и живем
папер
Изучаем Liquid Neural Networks
Собрал все воедино, чтобы удобно было делиться с коллегами.
Знакомимся в таком порядке:
Вводная: https://www.youtube.com/watch?v=0FNkrjVIcuk
Подробно: https://www.youtube.com/watch?v=IlliqYiRhMU
Как пришли: https://www.youtube.com/watch?v=iRXZ5vQ6mGE
Знакомимся с Neural ODE: https://habr.com/ru/companies/ods/articles/442002/
Смотрим мои посты:
0) Имплементация Neural ODE с нуля
1) Разбор LTC
2) Тетрадки с имплементацией LTC с нуля
3) Разбор CfC
4) Тетрадки с имплементацией CfC с нуля (новое)
Надеюсь вам будет полезно и интересно.
@toshoseti
Приболел и застрял дома, поэтому сделал в этот раз более полезную GPT конкретно для ChatGPT приложений в режиме «аудио»:
Если вы искали работу, то вы наверное помните как это стрессово — во время интервью, HR может задать какие-то вопросы по CV, и хоть вы их и знаете, можете разнервничаться, запинаться — отсутствие практики сильно добавляет тревожности.
Многие с кем я говорил, кто работает в корпорациях из топа IT — часто говорили что «пройти собеседование» это навык, который можно практиковать и развивать, а сама работа отличается от того, что спрашивают на собеседованиях (так везде ☕️).
Чтобы помощь как-то людям, появилось целое направление HR-видео для кандидатов — они называются «Mock Interview» или «Интервью покабудки»:
Псевдо-собеседование записывается на камеру, иногда между реальным HR и реальным сотрудником из какой-то корпорации, потом выкладывается на Yotube и кандидатам это помогает понять как именно отвечать на вопросы и как готовиться к интервью.
Естественно, такое интервью — не адаптировано конкретно под ваше резюме, конкретно под ваш язык, или под вакансию на которую вы откликаетесь.
Поскольку мы уже живем в АИ-будущем, я подумал что это нужно исправить.
⚙️ Mock Interview Practice GPT:
1) Сохраняете вакансию и ваше CV в виде PDF или HTML страницы, или просто копируете как текст (только отметьте где что)
2) Открываете мою новую GPT «Mock Interview Practice»
3) Вставляете туда файлы / текст, и пишите ей в стиле «Спасибо что пригласили меня, давайте начнем»
4) GPT предложит вам включить «Voice Mode» (иконка 🎧 в аппе, в вебе этой функции нет) — обязательн включите его
5) Проходите интервью как в жизни — займет минут 15-20, в конце, попросите дать фидбек по тому, что улучшить и над чем поработать
6) Добро пожаловать в OpenAI, передавайте привет Сэму
GPT поддерживает все языки, в видео пример (и я болеющий)
Споpят химик, физик и специалист по искусственному интеллекту, какое самое великое изобретение.
Химик: - Таблица Менделеева.
Физик: - Теоpия относительности.
Специалист по искусственному интеллекту: - ТЕРМОС!
Химик и физик: - Что?
- Ну, смотрите сами: наливаем холодную воду, выливаем - опять холодная. Так?
- Да. Hу и?
- Hаливаем горячую, выливаем - опять горячая. Так?
- Hу?
- А откуда он знает???
Майкрософт что то там, кому то там представила, ещё один продукт которым вы попользуетесь 15 минут и забьете
Читать полностью…Your Transformer is Secretly Linear
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear()
, а модель будет работать, будто бы ничего не поменялось!
Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub
Linux terminal + gpt4o.avi
UPD. Я опять забыл что существует компрессия файлов, сорьки
Короче тут какой то чувак из твиттера почти в соло сделал sd3 xl, уже бежит первый long-run
Wandb
Twitter
1. Открытое пространство (иллюзия):
- Большая часть сотрудников работает в open space, где их внимание сосредоточено на мониторах компьютеров и задачах, которые они выполняют. Здесь они видят только «тени» реальности – инстаграм где Анфиса с Зорабом едят по кутузе в коффемашку
2. Конференц-залы (путь к истине):
- Сотрудники периодически собираются в конференц-залах для обсуждения стратегий, брейншторминга и принятия решений, создавая иллюзию мысли.
3. Кабинеты руководителей (мир идей):
- Здесь находятся те, кто думает что обладает истинным знанием и видением компании – руководители и топ-менеджеры. Они имеют доступ к полной информации и понимают цели и стратегии на высшем уровне, но уже не хотят ничего делать. В их руках не находится реальная власть и знание.
4. Backlog (прошлое и знания):
- В backlog хранятся документы, отчеты и данные прошлых лет.