life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
Мне тут показали, что реклама в моем канале теперь так выглядит :(
Паша, ты должен был бороться со злом, а не вот это вот всё!
Абсолютно ужасно, особенно учитывая, что я никак не могу это контроллировать. Я бы заплатил, чтобы у меня в канале такого не было.
В общем платите за телеграм премиум, за неимением лучших вариантов продвигайте подписочные модели монетизации вместо рекламных 🤪
И ставьте себе адблоки, Blockada на телефоны, вот это всё. Как минимум будете видеть меньше такого, хоть это и не поможет внутри телеграма.
Там Таня из DLS выложила клевый лонгрид:
https://atmyre.github.io/blog/2024/ind_bias/
https://www.theintrinsicperspective.com/p/i-said-no-to-20000-because-writers
Читать полностью…Вообще вы можете помочь мне с книгой.
Я пишу главу про вероятности и классификаторы.
Нужен датасет:
- Учебный
- Не скучный и не тривиальный
- Прикольный
- С понятными фичами
- Не заезженный (никакого Титаника)
- Бинарная классификация
- Желательно дисбаланс классов
- Способность оценивать вероятность события и работать с неопределенностью должна быть важна, а не просто "хотелось бы f1 повыше"
- Желательно не "бизнесовый" и не душный
- Для классического мл, но может быть и nlp если tfidf способен норм справиться
Я сузил выбор до таких вариантов:
- Fraud: https://www.kaggle.com/datasets/arpan129/insurance-fraud-detection/data
- Suicide/Depression: https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch
- Stellar classification: https://www.kaggle.com/datasets/fedesoriano/stellar-classification-dataset-sdss17
Фрод идеально подходит для демонстрации работы с неопределенностью (если хреново предсказываем вероятности то не зарабатываем деньги). Но он бизнесовый и скучный. Остальные прикольные, но менее практичные и как будто там вероятности не так важны.
В итоге я в тупике. Канал, помогай! 😇😇😇❤️
Время крутых возможностей спасать мир от моего друга Васи! Лично ручаюсь. Даю ему слово:
🎓 Стипендиальная программа Impact Academy для технических исследователей безопасности ИИ
Мы — сообщество Unitaware. Ищем амбициозных и талантливых людей в области ML/AI для участия в стипендиальной программе Impact Academy по безопасности ИИ. Это шанс проводить исследования и работать с лидерами индустрии — и получить от них приглашения в топовые AI safety лабы и проекты (например, Center for Human-Compatible Artificial Intelligence, FAR AI и Mila AI Institute)
💼 Что вас ждет?
• Оффлайн программа (3-6 месяцев с марта) в Сингапуре, Англии или США.
• Исследования и коучинг в сфере AI safety.
• Стипендия ~$5000/мес.
• Перспектива работы в ведущих AI-проектах.
👤 Кого мы ищем?
• Отличный английский и опыт в ML/DL (публикации, стажировки, проекты).
• Программирование на уровне ведущей техкомпании.
• Достижения: олимпиады или учеба на топовых кафедрах.
• Интерес к снижению рисков от продвинутых AI-систем.
⏳ Срок подачи: до 31 декабря (лучше до первой недели декабря).
Если заинтересовались или знаете подходящего кандидата, напишите @vakondyrev, это максимизирует шансы при прочих равных. За рекомендацию подходящего кандидата также предусмотрено вознаграждение
https://www.astralcodexten.com/p/how-did-you-do-on-the-ai-art-turing
Читать полностью…6 декабря в Москве и онлайн пройдёт конференция Conversations по разговорному и генеративному AI для бизнеса и разработчиков.
Вот что будет:
- Доклады про кейсы применения LLM, бенчмарки языковых моделей, голосовые технологии, RAG и многое другое. Подробности есть в статье на Хабре и сайте конференции.
- Дискуссии в бизнес- и технотреке.
- Выставка AI-решений.
- Нетворкинг.
Меня лично зацепили эти доклады:
- "LLM в действии: как с помощью чат-бота автоматизировать SQL-запросы и получать актуальную аналитику за минуты, а не дни" от команды Samokat (теперь Ecom Tech).
- "Много тонкостей, мало данных. Как построить RAG для документации по сложным продуктам, когда их больше 50" от команды Cloud Ru.
- "Масштабирование LLM приложений на миллионы клиентов" от команды Т-Банка.
Билеты можно купить здесь.
Организаторы сделали промокод на скидку 10% для подписчиков канала: CNVS24oRb.
Сегодня у меня для вас новое соревнование.
Avito ML Cup — это соревнование для ML-инженеров и специалистов в области Data Science, где предстоит создать модель для рекомендаций на основе полусинтетических данных.
Старт: 5 ноября, но зарегистрироваться еще можно
Призовой фонд: 600 000 рублей.
Участвовать можно индивидуально или в команде до 4 человек. Метрика: ROC-AUC.
Подробности по ссылке.
Раньше я предлагал вам пройти опрос про рынок ML от DevCrowd. Появились результаты!
https://devcrowd.ru/ds24/
На скриншоте раскрыт секрет быстрого развития AI индустрии
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Мне пришли результаты генетического теста и там написано, что симптомом внезапной смерти является смерть.
Читать полностью…Ярослав закончил МФТИ, делает свою студию по хардкорному внедрению ML/AI на производствах и рассказывает об этом в своем канале.
Причём проекты из реального сектора о которых мало где услышишь: литье стали, измерение объёма древесины, окллюзии мозга. Мне после применения CV на вертикальных фермах в Planet Farms очень откликается.
Приятно, что в канале нет новостей из мира AI, генераций картинок, освой профессию будущего и всего такого. И написано не слишком серьёзно, легко читать.
Такого контента про внедрения ML/AI очень мало, так что честно рекомендую: @r77_ai
Сегодня 1 декабря - день математика, поздравляю всех, кто относит себя к математикам :)
Официально такой профессиональный праздник в России закрепили в этом году. Дата выбрана в честь дня рождения Николая Ивановича Лобачевского, создателя неевклидовой геометрии.
Математический институт им. Стеклова подготовил инфографику со сравнением геометрий.
https://www.reddit.com/r/LocalLLaMA/comments/1gx5kb0/claude_computer_use_wanted_to_chat_with_locally/?share_id=Dhgr4haHfvD7IvZmH_KBW&utm_content=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1
2024: смотришь как ллмки секстятся
Yandex Cloud запустил AI Assistant API. Это набор инструментов для создания помощников на базе YandexGPT. В отличие от простого вызова генерации LLM этот API из коробки дает возможность хранить историю переписок и делать поиск по базе знаний с помощью RAG.
Причем базу знаний можно сделать довольно масштабной: до 1000 файлов, каждый до 128мб и до 100 поисковых индексов.
Новый сервис закрывает базовый юзкейс диалогового помощника без необходимости заниматься инфраструктурой, писать свои велосипеды или использовать, не приведи Господь, Langchain.
Ищу датасет классификации для про вероятности с прицелом на какие-то прикольные учебные датасеты.
В итоге хочу поделиться списком. Будет полезно для тех, кто делает курсы по ML!
- Fake News
- https://www.kaggle.com/datasets/aadyasingh55/fake-news-classification/
- https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset
- Spam emails https://www.kaggle.com/datasets/ashfakyeafi/spam-email-classification
- Tiktok claims https://www.kaggle.com/datasets/raminhuseyn/dataset-from-tiktok
- Экзопланеты: https://www.kaggle.com/datasets/keplersmachines/kepler-labelled-time-series-data?select=exoTrain.csv
- Credit card fraud: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
- Depression detection: https://github.com/rafalposwiata/depression-detection-lt-edi-2022/tree/main
- Soccer database: https://www.kaggle.com/datasets/hugomathien/soccer
- Suicide/Depression: https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch
- Insurance Fraud:
- https://www.kaggle.com/datasets/ravalsmit/fraudulent-claims-detection-dataset?select=fraudulent_claim.csv
- https://www.kaggle.com/datasets/arpan129/insurance-fraud-detection/data
- Stellar classification: https://www.kaggle.com/datasets/fedesoriano/stellar-classification-dataset-sdss17
- Divorce: https://www.kaggle.com/datasets/andrewmvd/divorce-prediction
Не по классификации, но я считаю надо выделить:
- https://www.kaggle.com/datasets/vipullrathod/fish-market
Предсказание веса рыбы! AI для продажи рыбы на рынке. Разве это не прекрасно? Кроме шуток редко встречаются датасеты где признаки связаны с лейблом по понятным физическим законам. А жаль, ведь это помогает показать как ML аппроксимирует зависимость из реального мира. Обычно для таких примеров я беру вес и рост людей, но это уже заезженно. Вес рыбы намного прикольнее.
Это не оверинжениринг если:
1. Тебе было весело
2. PM не заметил
https://www.lesswrong.com/posts/pNkjHuQGDetRZypmA/it-s-a-10-chance-which-i-did-10-times-so-it-should-be-100
Прикольно про связь вероятностей и числа e
https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman
Читать полностью…🚀 TabM: новая DL архитектура для табличных данных
Новая большая статья по tabular DL при моем участии! Ссылки в конце поста.
Для практиков, TabM — это новый ответ на вечный вопрос: “Какую современную табличную архитектуру попробовать?”. На этот раз SOTA на бенчмарках простая, практичная и машстабируется на миллионы объектов.
Для области, TabM — это история о том, как сделать лучше, проще и дешевле одновременно. И как показать это на красивых информативных графиках 💅
Для любителей ML, TabM — это удобная точка входа в область: мы замерили и task performance, и training times, и inference throughput у многих моделей. Думаю, вводные части тоже будут интересными!
Для всех читателей: для быстрого обзора статьи, вы можете посмотреть всего три части:
📜 Abstract — TL;DR
🖼️ Figure 1 — модель
📈 Page 7 — результаты
В одном предложении: TabM is a simple and powerful tabular DL architecture that efficiently imitates an ensemble of MLPs.
Ссылки:
- arXiv
- GitHub (есть end-to-end пример и реализация в одном файле, но пока без пакета)
- Twitter (see the pinned post)
- Reddit (Ctrl+F “TabM”)
Шикарная ситуация: авторы стебанулись над рецензентами, которые заставляли их что-то ненужное (но может быть зато свое, родное) цитировать, и прямо написали об этом в тексте статьи.
Редактор все это дело пустил «в работу» и вот, статья, с таким красивым абзацем в конце введения, уже в печати 🥳
Одним словом авторы - капитальные красавчики. Другими словами - титановые шары у этих авторов 😁
Причем журнал вполне приличный (IF 8.1). Кризис научных журналов продолжается, в общем. Кстати, в том же MDPI, к рекомендациям типа «милок, ты вот эту пачку статей еще процитируй и все будет норм», относятя более чем строго. Своего вообще ничего нельзя советовать, а насчет чужих работ тоже еще десят раз уточнят, точно ли это нужно.
PS. Ссылка на саму статью авторов c Balls of Steel из Поднебесной тут.
Мир удивительно тесен, особенно наш ML/AI пузырь. Сейчас будет еще одна рекомендация.
В 16 лет мы познакомились в детском лагере с Аней, а теперь она тимлид Ozon RnD. Как и я когда-то она преподает машинное обучение на ФКН ВШЭ.
Рекомендую её маленький канал с инфографикой по DS. Еще там бывают вакансии в Ozon RnD 👀
https://www.reddit.com/r/ClaudeAI/comments/1gjob9a/petition_to_lower_claude_35_haiku_prices/
Цены у Anthropic действительно абсурдные
#обзор_статьи
# Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy
Ребята из T-Bank AI Research продолжают радовать вместе с МФТИ и МИСИС, на этот раз в области CV и робастности.
Вечная проблема ML это надежность. ML отлично работает в границах применимости модели, но может делать непредсказуемые вещи на данных непохожих на тренировочные. Очень тяжело понять, находимся мы в границах применимости или уже нет. Задача Out Of Distribution детекции состоит в том, чтобы определить насколько стоит доверять предсказанию на конкретном примере.
В DL эта задача решается в том числе с помощью ансамблирования. Если мы используем несколько разных моделей и они дадут несогласованные предсказания, значит пример скорее всего OOD.
Вечная проблема ансамблей в ML это диверсификация. Если все модели действуют одинаково, то ансамблировать их бесполезно. Обычно ансамбли делают используя разные архитектуры моделей или изменяя данные на входе.
Авторы предлагают новый метод обучения ансамблей нейронных сетей: Saliency-Diversified Deep Ensembles (SDDE). Он основан на идее, что можно понять насколько модели диверсифицированы по тому на какие признаки они опираются в предсказаниях.
Здесь нужно вспомнить такой метод интерпретации нейронных сетей как saliency maps. Для одной модели saliency map это когда мы сопоставили каждому пикселю входного изображения число которое тем больше, чем больший вклад он внес в предсказание модели. Есть разные методы вычислять такие карты, но наиболее стандартный GradCAM.
Идея авторов: если мы натренируем ансамбль так, чтобы saliency maps моделей в нем отличались, то получим диверсифицированные модели, которые будут принимать решения разными методами и следовательно их согласованность поможет отличать OOD примеры.
Как часто бывает в DL это достигается через дополнительную функцию ошибки: среднее косинусное расстояние между saliency maps рассчитанных с помощью GradCAM.
Авторы аггренируют предсказания ансамбля усредняя логиты моделей перед софтмаксом.
В результате такой ансамбль показывает лучшую калибровку, то есть вероятности на выходе больше схожи с настоящими (при идеальной калибровке если модель предсказывает 20%, то она оказывается права в 20% таких случаев). Метрики по точности на OOD датасетах лучше. При визуализациях так же видно, что модели ансамбля фокусируются на разных частях изображений.
Статья кстати очень хорошо, понятно и красиво написана.
Новый поиск в ChatGPT реально хорош.
На запросах вида "как приготовить куриный суп" выдача намного лучше, чем у Google. Просто по делу и не нужно продираться через стену копирайта.
Можно придраться только к цензуре. Поисковик который не хочет искать порно какие-то вещи на свое усмотрение это неприятно.
Но не все пока закрыто наглухо, торрент трекеры выдает :)