> опенай выпустили новую модель
> это алерия воркспейсы
> mfw skated on paradigm few months ago with dev team of 5 people
оказывается, если не нёрфить модели "алайментом" и прочим говном от ранкующих африканцев за 1 доллар в час, они перформят на 20% лучше
Читать полностью…Давно порываюсь вам написать про ТГ-сетки которые про ML-пишут и что им не стоит верить, вот пример ⬆︎
Что на самом деле происходит с этой новой моделью Reflection-70B
:
1. Пару дней твиттерский показал свою новую языковую 70B-модель которая с рекордами прошла все бенчмарки (по его утверждению это был файнтюн Llama 3.1 70b ) и что такая же 400b будет вот-вот
2. Модель начала вируситься, ее начали качать и оказалось, что она толком не работает потому что там внутри немного битый конфиг ее запуска (это если простыми словами)
3. Автор перезалил модель, сказал что все починил и все работает — но теперь оказалось что нужно использовать только специальный системный промпт чтобы она работала
4. Сообщество начало тестировать, разобрало модель по кусочкам и оказалось, что это файнтюн Llama 70b 3.0, а не 3.1. И причем не файнтюн модели целиком, а просто Lora-адаптер вмерженного в модель (тренируют кусочек модели который замещает часть модели)
5. Автор сказал, я вообще не помню что я там использовал — толи 3.0 толи 3.1, что такое Lora я не знаю, это не важно все — мы тут сейчас все заново поставим тренироваться, уже поставили точнее (зачем перетренивать модель которая по метрикам побила все бенчмарки пару дней назад мы не узнаем)
6. Параллельно с этим, появилась веб-версия этой модели о которой пишет Бекдор — и ее API дали сегодня протестировать сторонней организации, она неплохо справилась и подтвердила что результаты высокие (но модель доступна только по API)
7. Пару часов назад автор публикует новую версию модели Reflection 70b e3 и сразу пишет, что с ней что-то не так: «Веса залились, но мы все еще проверяем, чтобы убедиться, что они правильные, прежде чем мы собираемся закончить день» – зачем заливать модель до тестов? Ответа нет
8. Люди тестирующие веб версию Reflection 70b, обратили внимание, что она очень похожа на Sonnet 3.5 — буквально токен в токен отдает ответы такие же ответы<играет цирковая музыка, вы находитесь здесь>
Буду держать вас в курсе нашей высокотехнологичной драмы – возможно, чел правда что-то натренил, но пока мы не знаем что.
Ну и для нейронок лучше читать проверенные ML-каналы, сейчас такое время, что все экспертами в АИ стали (я даже не про свой, я их часто сюда репощу)
Слава богу нормальное использование genai - вайфа проследит чтобы пива было сколько надо
Читать полностью…с него всё началось
мета стала опенсорс
ей же больше внимания
мистраль тоже так релизить и получил своё внимание за это
очень много тулов в опенсорсе на базе лламы появилось
если наша жизнь была бы фильмом
на этом моменте зрители бы точно орали в голос😬
но это не фильм, а всего лишь реальность)))
люблю лаве считать до 9 нуля… алерию продавать будто это еда… делю стейки с братвой, моя тима сыта… набиваю свою сумку, улетаю в таиланд… вилла стоит 100к – 100к дирхам… эта шалава десятка я боюсь она транс… видит Бог я знаю как делать тот самый саунд… я захожу в этот холдинг как скуф заходит в танк… не хочу постить в инсту я не хочу палить план… твой дев подсел на пеггинг ведь он пишет твой кал… тебе нужен брейк вижу ты устал… от зп до зп в этом лупе застрял…
Читать полностью…https://fixupx.com/gregisenberg/status/1836029083303477336
анон я нашел как тебе стать знаменитым
However, for this to work the model must have freedom to express its thoughts in unaltered form
thanks God for transformer thus siri 2.0
теперь сири может посоветовать в удобном виде что-то хотя в идеале она могла бы этой хуйней заняться сама!!
теперь ищу дата инженера
мы трейним на этом кластере омнимодель, нужен человек который будет отвечать за данные
их терабайты, датасеты разные, от текста до видео со звуком, нужно это всё хранить, строить пайплайны в етл системе (есть), оптимизировать (+ есть собственный проприетарный формат быстрее спарка), шардировать, етц етц етц
на некоторых серверах по 4 Тб диска и памяти, на некоторых по 60 Тб диска и 4 Тб памяти
ну и 8xh100 per node ofc
в целом мой будущий чел с опытом, поэтому объяснять какие технологии использовать не буду, сам знает
контракт, удалёнка/релокейт в абу-даби по желанию
$5-10k i guess, можно и больше если опыт глубокий и один из немногих в мире
писать в лс с резюме и ответом на вопрос что самого пиздатого сделал(а) в жизни
не писать в лс если нравится лангчейн и считаете что файнтюн это вершина эволюции моделей
тем более не писать в лс если нравится выдрачивать +0.0001% на бенчмарках лол