data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

#вакансия #remote #ml #cv #job

Lead Machine Learning Engineer (Computer Vision) в Gradient
от 1 000 000 ₽

Удаленная работа приветствуется!

Мы в Gradient ищем талантливого и опытного ML инженера для создания новых передовых технологий и улучшения текущих пайплайнов обработки фото и видео для приложений Gradient и Persona.

Gradient - мобильное приложение для редактирования фото и видео

- Самое скачиваемое приложение в мире за месяц в 2019, 2020 годах
- Best of 2019 среди приложений по версии Apple

Persona - передовой бьюти фото и видео редактор с инновационными технологиями обработки селфи

Совокупно наша аудитория составляет больше 100 миллионов пользователей

Ваши задачи

- Исследовать, разрабатывать и внедрять state-of-the-art технологии в области обработки изображений и видео
- Совершенствовать текущие технологии и пайплайны
- Следить за новейшими исследованиями и публикациями в ML и computer vision
- Оптимизировать модели для работы на сервере и мобильных устройствах
- Работать с большим объемом данных в датасетах, совершенствовать подходы по их получению и обработке

Требования

- Высшее образование в сфере computer science в ведущем технологическом вузе
- Опыт работы на senior позиции в топовых фото/видео редакторах, computer vision стартапах или бигтехе от 3 лет
- Глубокое понимание текущих SOTA подходов в computer vision и ML (GAN, diffusion, transformers и тд)
- Опыт деплоя production-ready моделей на большие аудитории
- Идеальное знание Python, Pytorch
- Знание основных инструментов и библиотек для обработки изображений и видео (OpenCV, Scikit-Image, FFmpeg и тд)
- Обладание отличным математическим бэкграундом - линейная алгебра, теория вероятностей, мат. анализ

Будет плюсом:

- У вас есть PhD или вы в процессе получения
- У вас есть опубликованные статьи или github-репозитории, в которых вы внесли вклад в развитие отрасли
- Участие в ведущих конференциях и семинарах по computer vision (CVPR, ICCV, ECCV)

Контакт: @axcher

Читать полностью…

Анализ данных (Data analysis)

Как подготовить данные без пропусков, дубликатов и некорректных значений? 

Расскажем как предварительно обработать сырые данные на открытом уроке «Подготовка данных в Pandas» 
 
🔹Последовательно рассмотрим этапы обработки пропусков, дубликатов и  поиск аномалий. 

✅ Практика: Чистка данных при помощи библиотеки Pandas

Урок приурочен курсу «Machine Learning» от Otus. По окончанию обучение получите диплом государственного образца.

👉 Регистрация и подробности:
https://otus.pw/guDm/?erid=LjN8KWb6g

Читать полностью…

Анализ данных (Data analysis)

⚡️ Mistral Large 2 уже здесь!

Модель лидирует в рейтингах Arena hard. Впечатляющая производительность в написании кода, понимании сложных промптах и математике. Модель превосходит топовые модели GPT-4 Turbo/Claude Opus!

Кроме того, это модель с открытым исходным кодом.

Blogpost: https://mistral.ai/news/mistral-large-2407/
Model weights: https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ CityGaussian — высококачественный рендеринг больших сцен в реальном времени с помощью гауссианов

CityGaussian (CityGS) использует новый подход к обучению по принципу "разделяй и властвуй" и стратегию Level-of-Detail (LoD) для эффективного обучения и рендеринга.
Такой подход позволяет генерировать различные уровни детализации и реализовать быстрый рендеринг в различных масштабах.

Судя по метрикам SSIM, PSNR и LPIPS, на данный момент CityGaussian достигает самого высокого качества рендеринга по сравнению с аналогичными методами.

🖥 GitHub
🟡 Демонстрация CityGaussian

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ 6 файлов - это все что нужно для архитектуры Llama 3.1

Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.

nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.

Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора

Планы:

🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_type

git clone https://github.com/meta-llama/llama-models.git

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Представляем бесплатный курс "LLMs: теория и практика", 🚀 который поможет вам получить востребованные навыки:
✅ обучение LLMs (LLaMa 🦙, Mistral)
✅ prompt engineering
✅ работа с библиотекой LangChain (RAG)
✅ разработка виртуальных ассистентов 🤖
✅ создание API (FastAPI, Flask)
✅ и многое другое.
В канале по ссылке - 29 видеороликов нашего курса и ссылки для скачивания материалов курса (презентации, python-скрипты, jupyter-ноутбуки).
Перейти к курсу

Читать полностью…

Анализ данных (Data analysis)

⭐️ LlamaCoder!

Приложение Claude Artifacts с открытым исходным кодом, которое может создавать полноценные приложения и компоненты с помощью Llama 3.1 405B.
На 100% бесплатное и с открытым исходным кодом.

http://llamacoder.io

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

GitHub представил новый маркетплейс моделей машинного обучения под названием Models, который претендует на конкуренцию с Hugging Face.

Проект пока в тестировании, но вы можете записаться в лист ожидания.

Ключевые преимущества Models: возможность протестировать нейронную сеть в песочнице перед переносом кода в VS Code или Codespaces, а также интеграция с Azure и другими популярными сервисами для разработчиков.

На платформе уже доступно более 20 нейросетей, включая GPT-4o, GPT-4o mini и Llama 3.1. Библиотека будет регулярно пополняться, и разработчики смогут добавлять свои модели.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Продвинутый курс по Python

Этот курс включает материалы по углубленным концепциям Python и анализу данных. В него входят:

▪️ Упаковка и распаковка значений, менеджеры контекста, декораторы и другие темы;
▪️ Работа с классами, включая магические методы;
▪️ Обработка и визуализация данных;
▪️ Основы машинного обучения.

📌 Ссылка

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Знакомьтесь! Сетка — новая социальная сеть для нетворкинга от hh ru, которая помогает ИТ-коммьюнити расширять сеть полезных знакомств и общаться с коллегами по рынку

В приложении есть простой и удобный функционал Q&A, где можно задать свой вопрос сообществу и получить на него развёрнутый ответ от экспертов. Ещё здесь можно профессионально расти и развиваться, следить за актуальным контентом в своей сфере, делиться кейсами и искать партнёров для новых коллаб или side-проектов.

Благодаря big data hh ru Сетка подгружает информацию о вашем опыте работы и помогает точно пересечься с теми, кто повлияет на ваш профессиональный путь. Теперь не нужно ломать голову над тем, где искать полезные контакты.

Скачать приложение. Пересечёмся в Сетке ✌🏻

Читать полностью…

Анализ данных (Data analysis)

🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.

Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.

Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.

Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/dlaL

Реклама. ООО "Нетология". Erid 2VSb5wpkBUL

Читать полностью…

Анализ данных (Data analysis)

Как писать поддерживаемый, воспроизводимый и повторно используемый код в ML/DS?

🔹Расскажем на открытом уроке «Рефакторинг ML-проекта с точки зрения продуктового кода» что такое хороший код и как его писать, и почему Jupyter мешает нам это делать

Практика: Декомпозиция ML/DS-кода, работа с окружением, управление зависимостями

Урок приурочен курсу «MLOps» от Otus.

👉 Регистрация и подробности:
https://otus.pw/ml1V/?erid=LjN8KHADT

Читать полностью…

Анализ данных (Data analysis)

Соберём ансамбль — вместе веселее!

Приглашаем на открытый урок, где вы узнаете как усилить свои модели объединяя их сильные стороны. 

🔹Расскажем в чем заключается "сила толпы" и когда оправдано ее использование

🔹Покажем методы объединения моделей в ансамбли, которые помогут добиться лучших результатов без существенного усложнения моделей

✅ Практика: Вместе построим ансамбль моделей для задачи классификации.

Урок приурочен курсу «Machine Learning» от Otus. По окончанию обучение получите диплом государственного образца.

👉 Регистрация и подробности:
https://otus.pw/UkzJ/?erid=LjN8K65FK

Читать полностью…

Анализ данных (Data analysis)

🏆 Ozon Tech запускает E-CUP — масштабное соревнование для ML-разработчиков в сфере e-com! Реши реальную бизнес-задачу и поборись за призовой фонд в 1 200 000 рублей!

Смотри подробности и регистрируйся до 18 августа

Приглашаем специалистов по Data Science, ML-инженеров, разработчиков. Твои суперсилы:
🔸 гуру машинного обучения и работы с ML-фреймворками;
🔸 мастер ETL-процессов, SQL, Spark и подобных систем;
🔸 ас в компьютерном зрении.

Решай задачи в стиле команды Ozon Tech — минимум ручных действий, максимум автоматизации. Everything as code! Эксперты хакатона расскажут, как максимально эффективно применять этот подход в своей работе.

🚀 На выбор — одна из задач, основанных на реальных бизнес-кейсах Ozon Tech:
1️⃣ Создать ML-модель для улучшения пользовательского опыта клиентов, которая с помощью названий, атрибутов и картинок определит, одинаковые ли товары на изображении.
2️⃣ Разработать алгоритм для модерации карточек товаров с признаками нарушений правил площадки. Модель должна распознавать сигарету на любых изображениях: от фотографий до аниме-фреймов.

Ключевые этапы E-CUP:
🔹 1 июля — старт регистрации
🔹 19 августа — публикация задач
🔹 8 сентября — окончание приёма решений
🔹 13 сентября — оглашение победителей

Призовой фонд — 1 200 000 рублей. Зарегистрируйся и узнай первым про секретный подарок от команды Ozon Tech, который поможет лучшим участникам прокачать навыки и построить карьеру в e-com-бигтехе!

Решай задачи в нашем стиле! Не пропусти грандиозное ML-соревнование — присоединяйся к E-CUP

Читать полностью…

Анализ данных (Data analysis)

🌟 Algebraic-NCD — совсем свежая библиотека Python, которая предоставляет алгебраическое описание алгоритмов Deep Learning

Цель Algebraic-NCD — предоставить алгебраические описания алгоритмов глубокого обучения.

Алгебраические описания алгоритмов имеют массу приложений: например, они позволяют преобразовывать алгоритмы в диаграммы, что помогает легко понять архитектуру модели и т.д.
Ну и конечно алгебраические описания формируют основу для разных математических преобразований и для дальнейшего анализа алгоритмов.

🖥 GitHub
🟡 Анонс от автора в X

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Очень полезные систематизированные знания по настройкам LLM

Большой, постоянно обновляемой список по всем основным моделям.

https://docs.google.com/spreadsheets/d/14vbBbuRMEHoqeuMHkTfw3uiZVmyXNuoSp8s-aHvfvZk/edit?gid=0#gid=0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 FlexAttention: The Flexibility of PyTorch with the Performance of FlashAttention

Единый API, который может реализовать широкий спектр разных вариантов внимания всего несколькими строками кода ,с помощью определяемой пользователем функции "score_mod" (causal mask, AliBi, sliding window, ), которая изменяет оценку перед softmax.

Api реализован на чистом коде на Python со стороны пользователя, но скомпилирован таким образом, что почти так же быстродействен, как от ядро Triton!

https://pytorch.org/blog/flexattention/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦙✨ BigLlama-3.1-1T-Instruct

Вам было
мало 405B параметров.

Вот Улучшенная версию Llama 3.1 с 1 000 000 000
000 параметрами.

▪ Модель:
https://huggingface.co/mlabonne/BigLlama-3.1-1T-Instruct

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как сохранить производительность высоконагруженных решений при работе с отечественными СУБД?

20 августа в 11:00 приходите на бесплатный вебинар СберТеха для бизнеса и узнаете, с какими нагрузками может работать отечественная СУБД Platform V Pangolin. Это целевая СУБД в Сбере и в ряде крупных компаний, которая создана для высоконагруженных систем.

В конце июля вышел новый релиз Platform V Pangolin 6.3.0 с оптимизациями производительности СУБД при работе с «1С:Предприятие», доработками в области безопасности под актуальные требования ФСТЭК и другими полезными изменениями.

На встрече выясним, как новые возможности продукта могут стать полезны вашему бизнесу и ответим на все вопросы.

Регистрация уже открыта

Читать полностью…

Анализ данных (Data analysis)

🌟 Group Mamba — SSM-модель для точной классификации объектов на изображении

Есть 3 варианта модели Group Mamba с разным количеством параметров, и даже самая маленькая из них (23М) показывает отличную точность классификации до 83.3 % на ImageNet-1K; к тому же эта модель на 26% эффективнее по количеству параметров, чем лучшая из предыдущих моделей Mamba.

🖥 GitHub
🤗 HuggingFace
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻Spice — унифицированный интерфейс запросов SQL и портативная среда выполнения для быстрого извлечения данных из любой БД, хранилища данных или озера данных


curl https://install.spiceai.org | /bin/bash
spice init spice_qs
cd spice_qs
spice run


Spice — open-source портативная среда выполнения, предлагающая унифицированный интерфейс SQL для получения данных из любой базы данных и не только.
Spice написана на Rust для максимальной производительности.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Лучший способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Машинное обучение: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C#: t.me/csharp_ci
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Арихив бесплатных ит-курсов: /channel/+-YDHdeS5EEs3MDNi

Читать полностью…

Анализ данных (Data analysis)

🔥 SambaNova выдает более 123 токенов в секунду на llama 3.1 405B со своим ASIC-оборудованием 🤯

Llama 3.1 8B выдает более 1000 токенов в секунду

Попробуйте здесь - https://sambanova.ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Click-Gaussian — интерактивная сегментация любых 3D-гауссианов

Интерактивная сегментация 3D-гауссианов открывает широкие возможности для работы с 3D-сценами в реальном времени, однако текущие методы имеют массу недостатков.

Чтобы улучшить ситуацию, Seokhun Choi и его коллеги из Сеула и они предлагают метод Click-Gaussian, который позволяет обрабатывать каждый клик 10 мс, что в 15-130 раз быстрее, чем предыдущие методы; при этом Click-Gaussian имеет ещё и большую точность сегментации.

🟡 Страничка Click-Gaussian
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Voyager — это библиотека Python (и Java) для быстрого приближенного поиска ближайших соседей

pip install voyager

Voyager может использоваться как из Python, так и из Java;
библиотека опирается на алгоритм HNSW, основанный на пакете hnswlib, плюс использует много дополнительных функций.
Voyager активно используется в продакшене в Spotify

🖥 GitHub
🟡 Доки
🟡 Видео про Voyager

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Pomegranate — библиотека Python для создания вероятностных моделей, таких как байесовские сети или марковские модели

pip install pomegranate

Модели, реализованные с помощью pomegranate, могут быть настроены более гибко, чем с помощью других библиотек. Например, можно создать классификатор Байеса, который использует различные типы распределений для каждого признака (например, для связанных со временем признаков — экспоненциальное распределение, а для других признаков — распределение Пуассона).

Или, скажем, можно построить единую модель из нескольких байесовских сетей или сделать классификатор Байеса со скрытой марковской моделью, который делает прогнозы по последовательностям.

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Линейная алгебра для CV и ML — мощный свободный учебник от университета Пенсильвании

Совсем свежий учебник, опубликован в конце марта.
Здесь на 785 страницах детально разбираются темы линейной алгебры, особенно актуальные для ML-приложений.

Вот несколько из разбираемых тем:
— понятие вектора и векторного пространства
— понятие линейного оператора
— связь операторов и матриц
— матричные разложения (LU, SVD и др)
— собственные вектора и собственные значения
— ортогональные, унитарные операторы
— симметричные и эрмитовы операторы
— квадратичные формы, приведение к главным осям

🟡 Linear algebra for Computer Vision, Robotics, and Machine Learning

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Lightly — фреймворк Python для самоконтролируемого обучения на изображениях

pip install lightly

Lightly имеет много возможностей:
во-первых, это большое количество готовых модулей (таких как функции потерь, функции активации);
во-вторых, это простота в использовании, обусловленная написанием в стиле PyTorch;
в-третьих, это поддержка пользовательских базовых моделей для самоконтролируемого предварительного обучения.

А ещё Lightly поддерживает распределенное обучение с помощью PyTorch Lightning.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Встречайте квантизованную версию Mistral Large Instruct 2407 GGUF

Доступны версии с разной степенью сжатия, в том числе 1 бит и 2 бита. Подробнее про квантизацию в целом
А это оригинальная, не квантизованная модель

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Готовы расширить свой стек и добавить востребованные инструменты NLP?

⚡Ждем вас на открытом уроке «Named Entity Recognition (NER): распознавание именованных сущностей» 5 августа в 20:00 мск

Мы расскажем, что такое NER, зачем это нужно и где применяется. Вы узнаете о подходах к решению этой задачи, метриках для оценки качества NER и увидите практические примеры для русского и английского языков.

Спикер Андрей Коняев — Consultant GenAI Machine Learning Engineering (Professional Research & Development Engineer I) в T-Systems International. 

👉Для регистрации пройдите тест https://otus.pw/d54x/?erid=LjN8K9TCq

Вебинар приурочен к старту курса Natural Language Processing (NLP), обучение на котором позволяет освоить различные языковые модели и создать собственный телеграм-бот.На курсе изучаются современные подходы и модели, которые на данный момент являются стандартом в области, но еще не успели войти в большинство программ, так как были предложены совсем недавно.

Читать полностью…
Subscribe to a channel