@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
⚡️ BigCodeBench: Большой бенчмарк для тестирование сгенерированного кода с использованием различных функций и сложных инструкций.
BigCodeBench бенчмарк, который содежит 139 библиотек и 7 доменов для решения 1140 сложных задач программирования".
▪abs: https://arxiv.org/abs/2406.15877
▪страница: https://bigcode-bench.github.io
@bigdatai
⚡️Лучший способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
C#: t.me/csharp_ci
Машинное обучение: t.me/ai_machinelearning_big_data
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C++ t.me/cpluspluc
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Devops: t.me/devOPSitsec
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
🔥 From Pixels to Prose: A Large Dataset of Dense Image Captions
Pixel Prose содержит более 16 миллионов разнообразных изображений, полученных из трех различных веб-баз данных (commonPool, CC12M, RedCaps), с подписями, созданными с помощью Google Gemini 1.0 Pro Vision.
▪abs: https://arxiv.org/abs/2406.10328
▪датасет: https://huggingface.co/datasets/tomg-group-umd/pixelprose
@bigdatai
⚡️ Microsoft только что выпустили модель Florence
Модель уровня с параметрами SOTA 200M и 800M ! 🔥
> Лицензия MIT! 🤯
> Модель, которая превосходит Flamingo 80B (модель в 400 раз больше) с огромным отрывом
> Ссоздание субтитров, распознавание объектов и сегментацию, распознавание текста, расшифровку фраз и многое другое
> Набор данных FLD-5B - 5,4 миллиарда аннотаций на 126 миллионах изображений
> Многозадачное обучение
> > Точно настроенные модели, которые превосходят такие, как PaLI, PaLI-X
https://huggingface.co/collections/microsoft/florence-6669f44df0d87d9c3bfb76de
@bigdatai
⚡️ gui-world: Набор данных ориентированных на работу с GUI интерфейс мультимодальных агентов на базе LLM
Набор данных из 12 тысяч высококачественных разнообразных GUI.
▪proj: https://gui-world.github.io
▪abs: https://arxiv.org/abs/2406.10819
@bigdatai
🍏 4M: Massively Multimodal Masked Modeling
Apple релизнули модель 4M-21.
Это довольно эффективная мультимодальная модель, которая решает десятки задач и работет для разных модальностей.
Применение многозадачного обучения в мультимодальных моделях действительно продвинулось на шаг вперед. Мы можем обучить одну модель множеству разнообразных задач с высокой точностью.
🌐 https://4m.epfl.ch
⌨️ https://github.com/apple/ml-4m/
@bigdatai
💻 SirixDB — это open-source гибридная система баз данных, ориентированная на работу с дисками и памятью
SirixDB имеет облегченный буфер-менеджер, способный хранить ссылки на страницы in-memory.
SirixDB представляет собой структурированное хранилище временных документов и хранит истории всех ресурсов в компактной форме.
Процессор запросов поддерживает сложные запросы, связанные с разными временными диапазонами.
🖥 GitHub
🟡 Доки
@bigdatai
⚡️ Open VLA: Vision-Language модель с открытым исходным кодом
статья: https://arxiv.org/abs/2406.09246
страница проекта: https://openvla.github.io
код: https://github.com/openvla/openvla
Open VIA, модель открытым исходным кодом с параметрами 7B, отлаженную в Llama-2 в сочетании с визуальным кодером, который объединяет предварительно подготовленные функции из DINOv2 и SigLIP.
Она обучена на 970 тысячах эпизодов с роботами из открытого набора данных X-Embodion.
Модель превосходит 55B-param RT-2-X с закрытым исходным кодом на 16,5% по абсолютному показателю успешности выполнения задач в 29 задачах и нескольких вариантах робота, при этом его параметры в 7 раз меньше.
@bigdatai
Вышел Stable Diffusion 3 - самый мощный бесплатный генератор картинок!
https://youtu.be/k3QNJBpDe7o
@bigdatai
🏴☠️ Представляем новый открытый набор данных "Character Codex"!
Он содержит данные о 15 939 персонажах из самых разных источников, от аниме до исторических личностей, ученых и популярных персонажей, как вымышленных, так и не вымышленных!
Скачать на HuggingFace: https://huggingface.co/datasets/NousResearch/CharacterCodex
Потенциальные варианты использования - это использование для генерации синтетических данных, анализа данных о ролевых играх и многого другого.
https://huggingface.co/datasets/NousResearch/CharacterCodex
#датасет
@bigdatai
top CVPR 2024 papers
Конференция по компьютерному зрению и распознаванию образов CVPR 2024 - это масштабная конференция.
Только в 2024 году было представлено 11 532 доклада, из которых 2 719 были приняты.
Вот репозиторий, чтобы помочь вам найти лучшие публикации CVPR.
▪Github
@bigdatai
Яндекс запустил Lite-версию генеративной текстовой модели YandexGPT 3
YandexGPT 3 Lite — это облегчённая версия генеративной модели Яндекса нового поколения. Особенность таких Lite-моделей заключается в более высокой скорости ответов, что позволяет решать простые задачи бизнеса буквально в режиме реального времени. Поэтому нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат: например, бот-консультант на сайте, система подсказок для операторов колл-центров или суммаризатор результатов деловых встреч.
✈️ По данным замеров, YandexGPT 3 Lite стала ещё быстрее и точнее — и она уже доступна в режиме release candidate на облачной платформе Yandex Cloud. То есть клиенты могут протестировать её и плавно внедрить в свои продукты через API уже в ближайшее время.
Одним из ключевых этапов обучения модели стало выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). В статье на Хабре - детали реализации Alignment и RL.
@bigdatai
💡 Действительно интересный репозиторий
Датасет, который состоит из 15 140 запросов ChatGPT с Reddit, Discord, курупыных веб-сайтов и наборов данных с открытым исходным кодом (включая 1 405 запросов для взлом ответов gpt).
https://github.com/verazuo/jailbreak_llms
#датасет
@bigdatai
📃Google представили NATURAL PLAN: бенчмарк для LLM для задач планирования на естественном языке
Представляет реалистичный бенчмарк для планированияс поездок, встреч и календарного планирования.
Это на удивление сложная задача для современных моделей.
https://arxiv.org/abs/2406.04520
@bigdatai
📌Классный интерактивный учебник по Machine Learning
Отличный ресурс для погружения в ML
Здесь очень много интерактивных элементов, которые помогают не просто запомнить, а понять важные концепции машинного обучения
Среди разбираемых тем такие как:
— нейронные сети
— регрессия: линейная/логистическая
— ROC & AUC
— кросс-валидация
— и многие другие темы, часть из них видна на изображениях
📎 Учебник по ML
@bigdatai
NVIDIA’s AI: Virtual Worlds, Now 10,000x Faster!
https://www.youtube.com/watch?v=g5Vo2EiEFnA
@bigdatai
💻 MatrixOne — гиперконвергентная облачная open-source БД
wget https://raw.githubusercontent.com/matrixorigin/mo_ctl_standalone/main/install.sh && sudo -u $(whoami) bash +x ./install.sh
mo_ctl set_conf MO_PATH="yourpath" # Set custom MatrixOne download path
mo_ctl set_conf MO_DEPLOY_MODE=git # Set MatrixOne deployment method
Яндекс поддерживает исследователей, которые занимаются искусственным интеллектом 👾
Компания проводит международную научную премию Yandex ML Prize уже в шестой раз. Её вручают за достижения в области компьютерного зрения, машинного перевода, распознавания и синтеза речи, анализа данных, генеративных моделей.
В экспертном совете премии — ведущие российские исследователи в сфере ИИ, в том числе эксперты Yandex Research, Яндекс Погоды, Школы анализа данных. Многие сервисы компании основаны на технологиях машинного обучения, поэтому Яндекс готов поделиться своей экспертизой, поддержать молодых учёных и помочь им остаться в науке.
Лауреаты-исследователи получат по 500 тысяч рублей, научные руководители и преподаватели — по 1 миллиону. А ещё — гранты от Yandex Cloud для облачных вычислений на платформе, обработки экспериментов и обучения ML-моделей. Заявки принимаются до 21 июня, а победители будут объявлены осенью.
Давайте поможем Даше найти... что угодно
27 июня в 19:00 Data Science Meetup: Поиск от команды СберМаркета!
Соберёмся в нашем офисе, чтобы рассказать о секретах алгоритмов поиска: как разрабатывали и улучшали модель по исправлению опечаток, что такое межретейлерный поиск, и как он работает у нас.
В программе доклады и QA-сессия:
🔎 Как устроен Поиск в СберМаркете. Владимир Бугаевский, ML Team Lead в СберМаркете, поделится тем, как поисковые технологии улучшают пользовательский опыт в СберМаркете.
🔎 Нейросетевая модель для исправления опечаток в поисковых запросах. Анна Власова, ML-инженер в СберМаркете, расскажет о новой нейросетевой модели для исправления опечаток.
🔎 Ранжирование магазинов в межретейлерном поиске. Анна Южанина, ML-инженер в СберМаркете, расскажет о модели для ранжирования магазинов в зависимости от намерения и предпочтения пользователя.
Регистрируйтесь, количество мест в офлайне ограничено!
Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: LjN8KWB86
MIT 6.S191: (Google) Generative AI for Media
https://www.youtube.com/watch?v=P7Hkh2zOGQ0
@bigdatai
🔥 CinePile - это набор данных для понимания видео, основанный на вопросах и ответах. Он был создан с использованием передовых моделей большого языка (LLM). Он состоит примерно из 300 000 точек данных для обучения и 5000 точек данных для тестирования. 300 тысяч обучающих и 5 тысяч тестовых фрагментов. A
📃 : https://arxiv.org/abs/2405.08813
🤗 : https://huggingface.co/datasets/tomg-group-umd/cinepile
Устроиться аналитиком в Яндекс за выходные
6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.
В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Нанимаем в офисы России и Республики Беларусь.
Узнать подробности и зарегистрироваться можно здесь.
Реклама. ООО "Яндекс". ИНН 7736207543
⚡️ Recap-DataComp-1B - это крупномасштабный набор графических и текстовых данных, который был восстановлен с использованием усовершенствованной модели LLaVA-1.5-LLaMA3-8B для повышения согласованности и детализации текстовых описаний.
▪data: https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
▪proj: https://haqtu.me/Recap-Datacomp-1B/
▪abs: https://arxiv.org/abs/2406.08478
@bigdatai
⚡️ Вышла версия Ollama v0.1.43!
Эта версия улучшает работу с Llama.
Исправлно множество ошибок!
* Github
@bigdatai
⭐️ Яндекс выложил в опенсорс свою библиотеку YaFSDP
Это библиотека для обучения больших языковых моделей с открытым исходным кодом, которая позволяет ускорить их обучение до 25%, а также тратить до 20% меньше ресурсов графических процессоров.
Использование библиотеки даёт существенный выигрыш в производительности и потреблении памяти: YaFSDP позволяет использовать ровно столько памяти процессоров, сколько необходимо, а коммуникацию между GPU в сети при этом ничего не тормозит.
https://habr.com/ru/companies/yandex/articles/817509/
@bigdatai
🌟 DuckDuckGo представила собственный ИИ-чат
Разработчики DuckDuckGo представили собственный бесплатный ИИ-чат. Сейчас пользователям доступны четыре модели машинного обучения, но в будущем список планируют расширить.
Доступ к чат-боту от DuckDuckGo можно получить несколькими способами:
— на портале DuckAI duck.ai;
— на специальной странице чата — duckduckgo.com/chat;
— в поисковой выдаче;
— с помощью bangs !ai
и !chat
в адресной строке.
На выбор пользователям доступно четыре языковые модели: GPT 3.5 Turbo, Claude 3 Haiku, Llama 3 и Mixtral 8x7B. Запросы к ним можно отправлять бесплатно, но с ограничением по количеству запросов в сутки. Пока нет возможности получить безлимитный доступ, но представители компании отметили, что уже думают над платным тарифом и расширенным списком языковых моделей.
@bigdatai
🌟 Whisper WebGPU — распознавание речи локально, при помощи Whisper
git clone https://github.com/xenova/whisper-web.git
cd whisper-web
npm install
npm run dev
# http://localhost:5173/
NVIDIA’s New Tech: Next Level Ray Tracing!
https://www.youtube.com/watch?v=FniSuh9C_fk
@bigdatai
🐦⬛ BIRD - это новый метод восстановления изображений, который может качественно восстанавливать изображения.
https://github.com/hamadichihaoui/BIRD
@bigdatai
Хотите попробовать себя в роли аналитика и попрактиковаться на реальных задачах?
Приходите на бесплатный курс-симулятор Нетологии и Yandex Cloud «Основы анализа данных в SQL, Python, Power BI, DataLens».
В этой профессии много разных направлений — аналитик данных, BI-аналитик, продуктовый аналитик, Data Scientist. Но везде пригодится навык работы с инструментами-помощниками, которые вы и освоите на курсе.
Эксперты-практики расскажут, как делать простые отчёты, исследовать данные и строить интерактивные дашборды. А чтобы понять, что анализ данных — это точно ваше, вместе решите практические задачи из реальных кейсов.
Воспользуйтесь шансом попробовать новые инструменты и запишитесь на бесплатный курс Нетологии.
Регистрация: https://netolo.gy/dbfN
Реклама ООО "Нетология" 2VSb5yVAiAC