🔥В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения.
Студенты курса выбирают самостоятельно темы выпускных работ, поэтому все выпускные проекты на курсе–это ценные исследования для ML.
⚡24 июля в 18.00 мск приглашаем на открытый урок курса "Популярные ML-методы для поиска выбросов в данных".
На занятии:
- разберем задачу поиска аномалий;
- изучим как с помощью методов ML можно очищать данные от выбросов;
- в теории разберем несколько алгоритмов и применим их на практике.
👉Регистрация https://otus.pw/GGwO/?erid=LjN8KHDLN
При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа
🌟 Metarank — open-source сервис ранжирования для создания персонализированного семантического поиска и рекомендательных систем
Metarank позволяет реализовать персонализированное ранжирование статей, объявлений, результатов поиска — в общем отлично подходит для создания рекомендательных систем
Быстрый старт с Docker:
docker run -i -t -p 8080:8080 -v $(pwd):/opt/metarank metarank/metarank:latest standalone --config /opt/metarank/config.yml --data /opt/metarank/events.jsonl.gz
Стоит ли вам начинать карьеру в аналитике и Date Science? Онлайн-встреча, которая поможет понять
Вокруг работы с данными много мифов: сложно начать карьеру — просто начать карьеру — нужно начинать с бизнес-аналитики — всем надо в системные аналитики.
День открытых дверей «Как начать карьеру в аналитике и Data Science» поможет разобраться, что из этого правда, а что нет. Продюсеры Нетологии ответят на волнующие вопросы:
— По-прежнему ли высок спрос на аналитиков?
— В какие компании устраиваться на работу в сфере данных, чтобы хорошо зарабатывать?
— С чего стартовать в аналитике и Data Science и сложно ли это?
Участники встречи получат в подарок гайд «Как войти в сферу данных и найти своё направление». Он поможет принять взвешенное решение о старте карьеры в новой для вас профессии.
Приоткройте для себя двери в аналитику: https://netolo.gy/djxG
Реклама. ООО "Нетология". Erid: 2VSb5wuZdui
Яндекс Практикум и Томский государственный университет открывают набор на онлайн-программу «Дата-аналитика для бизнеса».
На этой программе вас ждут:
— очная форма обучения с занятиями и экзаменами в онлайн-формате;
— опыт преподавателей ТГУ и наставников Яндекса;
— диплом гособразца по итогам обучения.
Обучение можно оплатить целиком или вносить сумму частями перед началом каждого семестра. Вы сможете оформить госкредит — с его помощью государство погасит часть кредита за вас, а ежемесячный платёж составит от 500 ₽.
— Узнать подробнее
Реклама. ООО «Яндекс». ИНН 7736207543
🌟 Kedro — набор готовых к продакшену инструментов для Data Science и ML
— pip install kedro
Kedro — фреймворк, который добавляет модульность, удобную для работы с данными. С помощью Kedro можно создавать проекты по шаблону, настраивать пайплайн в YAML, делить его на части, документировать проект — и это далеко не всё.
Kedro позволяет сохранять и загружать данные в различные хранилища, такие как S3, GCP, Azure, sFTP, DBFS и локальные файловые системы. Поддерживаются такие форматы файлов, как Pandas, Spark, Dask, NetworkX, Pickle, Plotly, Matplotlib и многие другие.
🖥 GitHub
🟡 Доки
@data_analysis_ml
⚡️ Polyaxon — open-source MLOps-платформа
установка CLI:
pip install -U polyaxon
🌟 Llama Recipes — набор готовых метод для файнтюнинга Llama3
— pip install llama-recipes
Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.
🖥 GitHub
@data_analysis_ml
🌟 LongVA: VLM для больших видео на основе Qwen-2-7B
LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.
В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.
Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.
👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G
⚖️ Лицензирование кода: Apache-2.0 license
⚖️ Лицензирование моделей: Qwen2 license
🟡Страница проекта
🟡Demo
🟡Модели на HF
🟡Arxiv
🖥Github [Stars: 221 | Issues: 9 | Forks: 11]
@ai_machinelearning_big_data
#ML #VLM #VQA
CV-шница пройдет уже в этот четверг! 🍳
Делимся подробным расписанием онлайн-митапа:
▪️15:30
Вступление — Артур Кадурин, руководитель группы «Глубокое обучение в науках о жизни», AIRI
▪️15:35
3D генерация по тексту/изображению — Антон Конушин, кандидат физико-математических наук, руководитель группы «Пространственный интеллект», AIRI
▪️ 15:55
Kandinsky Flash: генеративно-состязательный подход к дистилляции диффузионных моделей — Владимир Архипкин, руководитель направления по исследованию данных, Sber AI
▪️ 16:15
Мультимодальные модели и способы эффективного представления визуального контекста — Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain, AIRI
▪️16:35
Генерация изображений по активности мозга — Абдуллин Ильгиз, AI Talent Hub, и Щетинников Константин, Quality Analyst Intern, Wildberries
▪️16:55
Ensemble-Based Image Annotation for Real-Time Human Detection
— Игорь Попов, Computer Vision Engineer, AI Talent Hub
Сохраняйте ссылку на трансляцию, чтобы не пропустить доклады 👾
❓Как понять, что последний эксперимент дает лучшие результаты? Часто при решении ML задачи нам приходится тестировать десятки моделей в десятках конфигурация гиперпараметров.
Как не запутаться в этой куче параметров и выбрать лучшую модель? - нам поможет замечательный инструмент мониторинга экспериментов MLFlow.
✅ MLFlow один из самых популярных инструментов который позволит зафиксировать все параметры, запишет кривые обучения и запомнит все метрики для каждого эксперимента.
Регистрируйтесь на открытый урок от Otus и изучите на практике ключевой инструмент ML инженера
Вы узнаете, как реализовать развернуть и настроить MLFlow локально и в облачной среде, как добавить в свой код логирование параметров экспериментов и как сохранить ваши обученные модели в реестр моделей для их дальнейшего переиспользования на основе полученных метрик.
👉 Регистрация и подробности:
https://otus.pw/6O9B/?erid=LjN8KB29H
В мире, где No-Code ML и TinyML становятся ключевыми трендами, НИЯУ МИФИ совместно со Skillfactory запускает онлайн-магистратуру "Прикладной анализ данных и машинное обучение". Программа учитывает последние тенденции отрасли, включая развитие глубокого обучения и растущую важность ML в IoT устройствах.
По данным экспертов, навыки в области искусственного интеллекта становятся необходимостью для конкурентоспособности на рынке труда. Средняя зарплата мидл ML-инженера в России достигает 190 000 рублей в месяц, а спрос на специалистов продолжает расти.
Магистратура МИФИ предлагает:
- Обучение с нуля до продвинутого уровня
- Два карьерных трека: классический ML и MLOps
- Онлайн-формат с сохранением студенческих льгот
- Диплом государственного образца МИФИ
Стоимость первого года обучения - от 270 рублей в месяц благодаря господдержке. Не упустите шанс стать частью AI-революции с одним из ведущих технических вузов России.
Записаться тут: https://go.skillfactory.ru/na4y_w
Реклама. ООО «Скилфэктори»
erid: LjN8KAMQf
🤗 Все что нужно знать о работе с Hugging Face за 10 минут!
В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!
https://www.youtube.com/watch?v=4B_foZbWh2c
@data_analysis_ml
Центральный университет приглашает на день открытых дверей всех интересующихся ИТ-программой в магистратуре!
На мероприятии расскажут больше про университет, в котором можно учиться одновременно с бакалавриатом и помогают попасть на работу в биг-тех, а преподаватели — топовые специалисты ИТ-компаний и профессора ведущих вузов. На мероприятии также будет:
— информация про направления обучения в университете;
— лекции от ведущих экспертов ИТ-индустрии;
— Q&A-сессии с магистрантами ЦУ и разбор задач отбора;
— прогулка по офису Т-Банка;
— знакомство со множеством классных людей и пицца.
А еще среди всех, кто зарегистрируется на ДОД и пройдет отбор в магистратуру до 16 июля, ЦУ разыграет новенький MacBook.
Начало 17 июля в 17:30. Вход свободный, но количество мест ограничено. Регистрация здесь.
erid:2VtzqwyThk5
Реклама, АНО ВО «Центральный университет», ИНН 7743418023
🖥 tslearn — библиотека Python для анализа временных рядов и решения подобных ML-задач
— pip install tslearn
tslearn — это библиотека Python, которая предоставляет ML-инструменты для анализа временных рядов.
tslearn основана на библиотеках scikit-learn, numpy и scipy.
🖥 GitHub
🟡 Доки
@data_analysis_ml
Систематизируете и углубите знания бэкенд-разработки на Python на курсе Яндекс Практикума за 6 месяцев.
Преимущества курса:
— актуальная программа, которая постоянно обновляется;
— много практики, лайвкодинг и хакатон;
— возможность совмещать с другой учёбой или работой;
— наставники из Яндекса и не только;
— помощь с трудоустройством.
◾️Погружайтесь в Python, нарабатывайте нужные навыки и осваивайте инструменты для работы. Начните курс бесплатно, а если понравится, платите как удобно: в рассрочку или целиком.
→ Начать бесплатно
🌟 Xorbits — масштабируемый Python фреймворк для задач ML и DS, ориентированный на скорость
Xorbits позволяет, к примеру, легко использовать данные для обучения генеративных моделей а также разворачивать обученные модели в своей инфраструктуре.
Xorbits может использовать несколько ядер/GPU, может работать на 1 машине или масштабироваться до тысяч машин для поддержки обработки терабайтов данных.
Xorbits предоставляет набор полезных библиотек для анализа данных и ML.
🖥 GitHub
🟡 Доки
@data_analysis_ml
🖥 Geomstats — библиотека Python, позволяющая использовать нелинейные многообразия для обучения ML-моделей
— pip install geomstats
Данные из многих прикладных областей тесно связаны с нелинейными многообразиями. Например, многообразие трехмерных вращений SO(3) естественным образом возникает при проведении статистического обучения на сочлененных объектах, таких как человеческий позвоночник или руки роботов.
Аналогично, другие многообразия возникают при моделировании сложных биологических объектов
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 NeuralForecast — большая коллекция ML-моделей для прогнозирования
— pip install neuralforecast
NeuralForecast предлагает множество моделей прогнозирования: от классических MLP и RNN, до новых моделей, таких как NBEATS, NHITS, TFT и других.
🖥 GitHub
🟡 Быстрый старт
@data_analysis_ml
⚡️ DeepSeek-V2-Chat-0628: обновленная версия Deepseek-V2
DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.
Детальные достижения:
🟢Hard Prompts 3-я позиция чарта;
🟢Coding 3-я позиция чарта;
🟢Longer Query 4-я позиция чарта;
🟢Math 7-я позиция чарта.
Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.
💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens
⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.
⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2
🟡Страница проекта
🟡Arxiv
🟡Модель на HF
@ai_machinelearning_big_data
#LLM #DeepSeekV2 #ML
Привет!
Это команда Концепт-Разработка. Мы занимаемся развитием и внедрением продуктов в сфере больших данных, корпоративных хранилищ данных, BI и систем управления данными. У себя в канале развиваем сообщество бизнес и системных аналитиков, разработчиков и data-инженеров.
+ Актуальные вакансии;
+ Интересные разработки;
+ Проекты федеральных заказчиков;
+ Новости индустрии и многое другое.
Подписывайся на канал, мы будем рады и экспертам, и начинающим специалистам.
Реклама. ООО "КОНЦЕПТ РАЗРАБОТКА". ИНН 7703471165. erid: LjN8KWK3G
Какой путь к работе мечты самый короткий? Конечно, One Day Offer от Сбера! 😉
Если ты Data Analyst или Data Engineer, мы ждём тебя 27 июля. Получи возможность пройти fast-интервью, познакомиться с командой и забрать долгожданный оффер всего за один день.
Наша команда разрабатывает и внедряет DS-решения в точки касания клиента со Сбером: отделения, мобильное приложение, банкоматную сеть и т.д. Мы работаем с технологиями Python, Spark, SQL, Hadoop, GreenPlum и за год внедряем более 200 моделей.
Тебя ждут интересные и разноплановые задачи 👇
▪️ Обучение всех типов моделей искусственного интеллекта: от классического ML до глубоких нейронных сетей.
▪️ Создание высокотехнологичных сервисов: от систем принятия решений до компьютерного зрения и обработки естественного языка.
▪️ Развитие хранилища на Teradata и DataLake на Hadoop.
Отправляй заявку уже сейчас и присоединяйся к команде!💚
🌍 Новая реальность: посетить концерт, не выходя из дома, увидеть друзей, находясь за тысячи километров, получить высшее образование по Data Science удалённо.
Когда виртуальные границы стираются, самое время применить технологии с пользой. Онлайн-бакалавриат Нетологии и ТюмГУ «Аналитика и Data Science» — способ получить диплом о высшем образовании из любой точки мира.
За 4 года вы освоите навыки работы с данными и станете бакалавром в области математики, который умеет работать с Big Data, компьютерным зрением и искусственным интеллектом. Будете закреплять знания на практике, создадите портфолио и сможете строить карьеру аналитика данных или Data Scientist.
Во время учёбы у вас будут все студенческие льготы и скидки, а в конце вы получите диплом очного бакалавриата ― такой же, как у студентов офлайн-обучения.
Узнать подробности о программе 👉https://netolo.gy/dgU1
Реклама ООО “Нетология” 2VSb5yj8Z4U
🌟 whylogs — библиотека Python для конвейеров обработки данных и для ML-приложений
— pip install whylogs
whylogs позволяет эффективно собирать данные для:
— отслеживания любых изменений в наборе данных
— быстрой визуализации основных статистических параметров данных
— обнаружения дрейфа данных
— выявления проблем в процессе обучения, причин снижения производительности ML-модели
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 Dolphin-2.9.3-Yi-1.5: квантизированные GGUF версии с 34B параметрами и контекстным окном 32k.
На Huffingface пользователь bartowski опубликовал несколько квантизированных версий с разной степенью сжатия,
Размерность моделей: от IQ2_XS (10.3 Gb) до Q8_0_L (37.4GB), рекомендуемая — Q6_K.
Семейство Dolfin основано на моделях Yi и распространяется по лицензии Аpache 2.0
Dolphin-2.9.3 обладает разнообразными навыками следования инструкциям, общения и программирования. Она также имеет начальные агентные способности и поддерживает вызов функций.
Модель не имеет цензуры. Создатели отфильтровали набор данных, чтобы удалить выравнивание и предвзятость. Dolphin обучался на данных, полученных из GPT4, среди других моделей.
🤗 Hugging Face
@data_analysis_ml
#LLM #ML #Huggingface
🌟 Lepton — библиотека Python для удобного создания AI-приложений
— pip install -U leptonai
Особенности Lepton:
— Простые абстракции для запуска моделей, наподобие тех, что представлены на HuggingFace
— Готовые шаблоны для распространенных моделей, таких как Llama, SDXL, Whisper и других.
— Возможность для лёгкого разворачивания в облачной среде.
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 Dive into Deep Learning — свободная книга от исследователей Amazon: Zhang, Li и других
Мощная книга, которая на 1108 страницах подробно описывает реализацию алгоритмов ML и Deep Learning с помощью PyTorch, NumPy/MXNet, JAX и TensorFlow.
По этой книге читаются лекции в 500 университетах 70 стран.
🟡 Dive into Deep Learning
🟡 PDF
🖥 GitHub с кодом к книге
@data_analysis_ml
🌟 SDV — библиотека Python для генерации синтетических данных на основе предоставленного набора данных
— pip install sdv
При этом сгенерированные данные будут иметь те же статистические параметры, что и предоставленный набор данных. SDV генерирует данные, применяя математические методы и разные ML-модели.
С помощью SVD можно генерировать данные, даже если исходный набор содержат несколько типов значений и отсутствующие значения.
🖥 GitHub
🟡 Доки
@data_analysis_ml
⚡️ BitNet — масштабирование 1-битных трансформеров для LLM
— pip install bitnet
Команда под руководством Furu Wei и Shuming Ma из исследовательского отдела Microsoft в Пекине, создала BitNet, первый 1-битный метод QAT для LLM.
И в этом репозитории представлена реализация BitNet на PyTorch.
Из интересного, модель BitNet 3B отвечает на разные текстовые запросы так же точно, как и LLaMA с тем же количеством параметров и временем обучения, но при этом BitNet в 2.71 раза быстрее, использует на 72% меньше GPU.
🖥 GitHub
🟡 Arxiv
@data_analysis_ml
🖥 NumPyro — библиотека Python для вероятностного программирования
— pip install numpyro
NumPyro — это легкая библиотека для вероятностного программирования, которая добавляет возможности NumPy к библиотеке Pyro.
В процессе вероятностного программирования с NumPyro также используется JAX для автоматического дифференцирования и JIT-компиляции на GPU/CPU.
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 SkyPilot — фреймворк для запуска LLM и AI-приложений в любом облаке
pip install "skypilot-nightly[aws,gcp,azure,oci,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,kubernetes]"