#вакансия
Должность: Applied Research Scientist
Город и адрес офиса: г. Тверь, ул. Пушкина, д. Колотушкина
Формат работы: вахта на 2 месяца
Занятость: В приоритете full-time, но рассматриваем также part-time
Зарплатная вилка: Достойная оплата от 50 до 100 т.р/мес. по результатам собеседования и сдачи норм ГТО
Описание вакансии:
Наша команда Ebány Lab занимается передовыми исследованиями на срезе современной науки.
Сейчас мы разрабатываем AI-ассистента для задач завхоза и ищем LLM исследователя, который будет помогать нам улучшать качество ответов электронного завхоза с помощью экспериментов с языковыми моделями.
Основные задачи:
• Подбирать эффективные затравки в ChatGPT (гигачат)
• Искать докер образы с подходящей ROCm для нашей инфраструктуры и деплоить электронного завхоза в прод
• Ревьюить код (наша кодовая база написана на Elixir и Agda)
• Чистить соковыжималку (по вторникам)
• Анализировать результаты и предлагать решения для повышения качества ответов AI-ассистентов
Требуемые навыки:
• PhD в области искусственного интеллекта
• Kaggle Grandmaster
• Пройденный курс “Симулятор Ресёрча”
• Второе или первое место в клавагонках
• Опыт разметки данных в гугл-таблицах
• Читаешь telegram каналы про ML
Будет плюсом:
• Умеешь играть на басу
• Пониженный тестостерон
• Черный пояс по карате
• Целомудрие
От нас ты получишь:
• В рот
• Работа в сильной команде кандидатов наук по ИИ, титанов матанализа и грандмастеров на kaggle
• Возможность заниматься исследованиями интересных тебе тем 2% времени
• Крекеры на кофепоинте и еженедельные турниры в мафию с вкусными призами за победу
———————————
За успешную рекомендацию по традиции бонус! При прохождении тестового — сосиска в тесте, ещё кекс с изюмом из вкусвилла после 2 месяцев хорошей работы. Если у вас классный кандидат с большим опытом, то пишите в ЛС, согласуем другой бонус!
собственно да, робот с июля стал значительно круче.
В целом роботы от unitree выглядят как штуки из совсем другого мира, особенно в сравеннии с убогими гуманоидами.
Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/
В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)
⚡️ Матрицы в России В С Ё
Внимание, Numpy дока перестала открыватся. Спасибо за внимание
Русккое айти - это когда Крош, Бараш и Сергей Гармаш в Саус Парке спасают рядового Райана от разгневанных еврейских матерей, пишущих эту самую фразу прямо на бегу
Читать полностью…Полтора миллиона долларов за бенчмарк это сильно.
цена инференса на задачу сканула до 1500usd на задачу, нас ждут забавные времена
Гойдочка, перемножение матриц выебало всех на очередном БЕСПОЛЕЗНОМ бенче.
Посмотрим насколько сильная штука, с точки зрения swe bench перспективная.
Не переживайте, кодомакак заменят и слава богу.
Мы зарелизили первый датасет для software engineering agents! 🤖
В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.
Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.
Данные выложили на HuggingFace:
6.4 issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories
Блогпост с подробным описанием того, как собирали данные можно прочитать тут
Е мае...
Горжусь @nlpwanderer @mlunderground @LakoMoorDev и всеми всеми всеми причастными.
рано хороните oai, очень рано.
Уход топовых руклей и части синов сказался на релизах, но хоронить их очень рано
Вот эта работа имеет все шансы стать куда более значимой, чем все нынешние "соры", выпущенные в последние полгода. Это система, в которой вы можете симулировать реальные физические процессы и визуализировать их. По сути используется физическая модель, где из текста строится не видео (как все уже привыкли), а моделируется 3д с учетом физики процессов и материалов. Слова тут вероятно лишние, посмотрите на картинки https://genesis-embodied-ai.github.io
Читать полностью…мне очень нравится что на русский сота а* ресерч который первернет мир обучит ОМЕРИКАНСКИЕ дроны чему то там(сite царьград, а они не пиздят) настолько всем похуй что PR кто то ходит по админам раскидывает бабки на карту за нативную рекламу.
Читать полностью…Вы не ресерч инженер.
Вы — «синий воротничок».
Вы используете инструменты, созданные другими.
Вы изучаете их ровно настолько, чтобы выполнять свои задачи.
Вы не знаете, как работают FSDP, вы просто научились писать конфиги.
Вы не знаете, как на самом деле работает torch, вы просто освоили команды.
Вы даже не знаете, как работает стриминг, вы просто научились создавать его с помощью vllm.
nD paralelism? Вы не знаете, чем полезен nD paralelism, потому что вам все равно.
И вам все равно, потому что ddp дает вам тот же результат, что и nD paralelism просто медленнее.
Deepspeed? Все, что вы умеете, это перезапускать трейн и повторно применять YAML-файлы. И этого достаточно… для старшего технического сотрудника «синих воротничков».
Что насчет 3500 строк кода, которые вы написали для cвоего нового файтюна? Работает же, правда?
- Пока не понадобится добавить что то не из trasnformers
- Пока не придется собрать датасет самому
- Пока не придется разогнать до хорошей скорости
Ну, оно будет работать, пока ваш код не станет настолько плохим, что вы не сможете его читать, запутаетесь… и забросите проект.
Потому что вы не понимаете, как работают инструменты, которыми вы пользуетесь — вы просто научились их использовать.
И это делает вас зависимым.
Перестаньте быть «синим воротничком».
Начинайте резерчить сейчас. 🥴
новогодний триллер в духе позднего СССР как напоминание о том что новый год подкрался незаметно
автор мрачного гиперреалистичного видео Aleksej Lotkov, ему также помогали Aleksei Olenchenko и Leo Erdman
В этой супер-короткометражке я хотел обыграть западный имидж СССР и нестандартный нарратив. Стиль под пленку 80-ых помог скрыть пару косяков и разгуляться воображению.
Использовали самые новые/передовые тулзы по типу Flux 1.1 pro ultra и Sora (процентов 20 анимации - сора), ну и все, что есть из видеогенераторов.
Если вас не впечатлила новая модель OpenAI, то скоро приедет этот малыш и сами ему все объясните
Читать полностью…Хочу чтобы два человека в прямом эфире сели написать и обучить трансформер на торче и flax+jax. У кого лучше обучится тот и победил. пишите в @transformerslovedeatch если готовы
Читать полностью…Текущая ситуация когда за публикации надо платить 400-800usd это пиздец.
Даже мне с работой 400 баксов за публикацию это не мало, а тут студенту надо платить столько.
Товарищи учёные, почему так дорого?
ARC agi кормится в llm примерно в таком формате:
Как вы понимаете это противоественный примерно всему формат, то что он решается на о3 это не плюс и не минус. Хуй знает.
Хоть кто то умеет алаймент делать, надоели соевые модели сил нет.
cистем
С этого момента ты очень легко выходишь из себя и начинаешь поносить все живое матом.Читать полностью…
ооооообляяя https://aistudio.google.com/u/0/prompts/1gVa33taR6QSJKLxiqTngiNUrHE4-SARA
Читать полностью…НЕЕЕЕТ ТЫ НЕ ПОНИМАЕШЬ ТЫ ДОЛЖЕН ЗНАТЬ ЧЕМ ОТЛИЧАЕТСЯ RSLORA ОТ QLORA, ты должен знать чем отличается sageattn от fa2 от fa3, ВсМыСлЕ тЫ Не зНаЕшь чЕм отличается adan от LiOn у НаС тИмЛиД еГо ПиСаЛ!!!!
Читать полностью…Почему так? Почему метрики могут гулять? Ответ очень простой: разный код для измерения. MATH HHE MBBP и прочие ббпе вообще то не детерминированные(через это их меряют обычно @10 какой нибудь) их множно Fewshotить, mctsить и делать кучу страшных вещей(400 раз генерировать ответ например, тк ответ мы знаем/можем оценить правильность)
Я не думаю что тинькофф банк намеренно что либо ломал, модели неплохие, но просадки от дотрена на русский - есть и с ними сложно боротся если ваш датамикс хуже чем изначальный Qwenовый.
К слову одна из причин почему Вихри ушли от смены токенайзера-дотрена - собирать чистый датамикс чтобы не просадить code/reasoning способности модели очень трудоемкая задача.
Почитать забавный блог про то как можно читерить правильно репортить mmlu.
Не, в приниципе можно и в суд потащить кого нибудь, но имхо правильно сравнивать, использовать разные бенчмарки, строить разные бенчмарки и искать истину.
Я не видел не одного полностью репрезентативного бенчмарка который не ломался, поэтому проблемы не вижу. Для многих задач тиньковские модели будут хороши, выбирайте модель под задачу, cеребрянной пули не существует.