💻 StarRocks — высокопроизводительная БД для аналитики
StarRocks, проект Linux Foundation, — это база данных MPP OLAP нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и не только.
Быстрый старт с помощью Docker:
docker run -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd \
--name quickstart starrocks/allin1-ubuntu
⚡️ pipecat — open-source фреймворк для голосовых и мультимодальных AI-агентов
— pip install pipecat-ai
pipecat — это фреймворк для создания голосовых (и мультимодальных) разговорных AI-агентов.
🖥 GitHub
@data_analysis_ml
🌟 ONNX Runtime — кроссплатформенный ускоритель ML-моделей с гибким интерфейсом для интеграции необходимых библиотек
— pip install onnxruntime
ONNX Runtime может использоваться с моделями из PyTorch, Tensorflow/Keras, TFLite, scikit-learn и других фреймворков.
Особенности ONNX Runtime:
— позволяет интегрировать возможности AI и LLM в свои приложения, независимо от того, на каком языке они написаны и для какой платформы. ONNX Runtime поддерживает ЯП, работает в Linux, Windows, Mac, iOS, Android и в веб-браузерах.
— ONNX Runtime поддерживает CPU, GPU, NPU, оптимизирует работу ускорителей, их пропускную способность и т.д.
🖥 GitHub
🟡 Доки
@data_analysis_ml
🔥 frigate — open-source NVR с функцией распознавания объектов в реальном времени на видео с IP-камер
frigate может распознавать объекты на видео с камер в реальном времени с помощью OpenCV и Tensorflow.
Для дополнительного ускорения опционально задействует Google Coral Accelerator.
Coral даёт очень солидную скорость работы — до 100+ кадров в секунду с небольшими накладными расходами.
🖥 GitHub
🟡 Инструкция по установке и доки
@data_analysis_ml
🌟 NannyML — библиотека для оценивания производительности ML-моделей
— pip install nannyml
NannyML — это open-source библиотека Python, которая позволяет оценивать производительность модели после развертывания, обнаруживать дрейф данных и не только.
NannyML имеет простой в использовании интерфейс, отображает интерактивные графики, абсолютно не зависит от модели и поддерживает все базовые сценарии использования, такие как анализ моделей классификации и регрессии.
🖥 GitHub
@data_analysis_ml
💥 Ускорьте работу ваших моделей Трансформеров с
помощью значительно улучшенной библиотеки cuDNN 9 от nvidia, поддерживающей технологию Scaled Dot Product Attention (SDPA)
✨ cuDNN 9 BF16 работает в 2 раза быстрее, чем лучшая из доступных реализаций PyTorch BF16, а так же быстрее cuDNN FP8 в 3 раза.
Более высокая производительность позволяет увеличить длину последовательности и сократить время предварительной подготовки и файнтюнинга моделей.
https://developer.nvidia.com/blog/accelerating-transformers-with-nvidia-cudnn-9/
@data_analysis_ml
⚡️ Три статьи, которые победили в конкурсе Технотекст от Хабра в номинации ML
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
Игорь Котенков (Open Data Science) с разбором работы ChatGPT.
Виктор Юрченко (Яндекс) о планировании движения беспилотных автомобилей с помощью нейросетей.
Мурат Апишев о методах позиционного кодирования в Transformer.
📎 Первая
📎 Вторая
📎 Третья
@data_analysis_ml
⚡️ Введение в моделирование на языке зрения — мощная статья от Meta о работе VLM, о том, как их обучать и оценивать
Модели Vision-Language (VLM) — это область исследований, которая обладает большим потенциалом, однако существует множество проблем, связанных с построением моделей такого типа.
Именно поэтому ребята из Meta опубликовали эту статью — чтобы у большего числа людей сформировалось понимание специфики работы с VLMs, понимание, как они работают и как их обучать.
В статье в основном обсуждается работа с изображениями, но также затрагивается возможность расширения этих методов на видео.
📎 Arxiv
@data_analysis_ml
🌟 PropertyGraphIndex — способ построения графов знаний от LlamaIndex
Граф свойств/знаний — это граф, узлами которого являются отдельные знания/свойства, связанные между собой отношениями.
И ребята из LlamaIndex буквально вчера представили возможность создавать такие графы при помощи PropertyGraphIndex.
▶️ Статья от LlamaIndex
🟡 Доки и примеры использования
@data_analysis_ml
🚨 Компания Mistral выпустила новую модель генерации кода.
Codestral-22B, обучена более чем 80 языкам программирования и превосходит более крупные модели, такие как Llama 3 70B, в задачах генерации кода!
Блог: https://mistral.ai/news/codestral/
Попробуйте бесплатно здесь: http://chat.mistral.ai
@data_analysis_ml
Спросили у аналитиков, почему они пришли работать в Авито — вот что они ответили.
Комфортный процесс онбординга, постоянно обновляемая документация, поддерживающее комьюнити профессионалов, возможность вносить свои идеи в продукты, совместная работу с высококвалифицированными продактами, удобная инфраструктура для A/B-тестов и понятный карьерный трек для всех уровней специалистов.
Подробности читайте по ссылке!
Реклама. ООО «Авито Тех».
🕰 TimeGPT - это мощная генеративная модель прогнозирования, которая может генерировать точные прогнозы для = временных рядов без необходимости обучения.
TimeGPT может точно прогнозировать различные области, такие как розничная торговля, электроэнергетика, финансы и информационные технологии, всего с помощью нескольких строк кода.
▪ Github
@data_analysis_ml
⚡️ Простое объяснение сложных концепций AI и ML на пальцах
Держите подборку полезных анимаций от Tom Yeh
Профессор очень просто объясняет такие понятия как MoE, умножение матриц, работу MLP в PyTorch, прямое/обратное распространение, работу GAN, устройство векторной БД и много всего ещё
▶️ Анимации с объяснением
@data_analysis_ml
⚡️ Open-source справочник по статистике
Здесь на 80 страницах конспективно и по существу излагаются важные концепции из статистики, вроде биномиального распределения, линейной регрессии, теоремы Байеса, распределения Бернулли, Пуассона, и другие темы статистики.
Отличная шпаргалка, полезно заглядывать время от времени
📎 PDF
@data_analysis_ml
🌟 Mistral-finetune — кодовая база для файнтюнинга моделей Mistral
cd $HOME && git clone https://github.com/mistralai/mistral-finetune.git
cd mistral-finetune
pip install -r requirements.txt
Хотите попробовать себя в роли аналитика и попрактиковаться на реальных задачах?
Приходите на бесплатный курс-симулятор Нетологии и Yandex Cloud «Основы анализа данных в SQL, Python, Power BI, DataLens».
В этой профессии много разных направлений — аналитик данных, BI-аналитик, продуктовый аналитик, Data Scientist. Но везде пригодится навык работы с инструментами-помощниками, которые вы и освоите на курсе.
Эксперты-практики расскажут, как делать простые отчёты, исследовать данные и строить интерактивные дашборды. А чтобы понять, что анализ данных — это точно ваше, вместе решите практические задачи из реальных кейсов.
Воспользуйтесь шансом попробовать новые инструменты и запишитесь на бесплатный курс Нетологии.
Регистрация: https://netolo.gy/dbfH
Реклама ООО "Нетология" 2VSb5wX1fTe
😰Как руководителю в IT наладить эффективную работу с командой?
➡️Узнайте на открытом практическом уроке от OTUS, где мы разберем:
- критерии эффективности команды;
- формирование требований к новым сотрудникам;
- планирование команды и найма;
- принципы онбординга и 1:1 новых сотрудников.
Вебинар будет полезен начинающим тимлидам в аналитике и смежных областях, а также Middle и Senior-специалистам, стремящимся усилить лидерские скиллы.
Спикер Кристина Костина — опытный аналитик, тимлид команд в Бразилии и России (Uber Eats и Яндекс Еда), ментор и карьерный консультант.
🔜Встречаемся 6 июня в 20:00 мск в преддверии старта курса «Системный аналитик. Team Lead». Все участники вебинара получат специальную цену на обучение!
Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://otus.pw/itaL/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KPEKs
⭐️ Сравниваем DBSCAN и OPTICS
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@data_analysis_ml
⚡️ ЛУЧШИЕ БЕСПЛАТНЫЕ Курсы и Книги для изучения МАШИННОГО ОБУЧЕНИЯ.
https://www.youtube.com/watch?v=j0BrMPgrCuo
@data_analysis_ml
⚡️ Распознавание объектов с faster-coco-eval. Разбираемся с библиотекой компьютерного зрения.
https://www.youtube.com/watch?v=5bVG2thY2tA
@data_analysis_ml
🌟 Apache TVM — компиляция ML-моделей для любых аппаратных характеристик
Apache TVM — это фреймворк компилятора ML-приложений с открытым исходным кодом для CPU, GPU и не только.
Цель Apache TVM — дать ML-инженерам возможность оптимизировать и эффективно выполнять вычисления на любом железе.
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML
— pip install txtai
Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров
🖥 GitHub
🟡 Доки
@data_analysis_ml
✅ Друзья, этой осенью в Москве состоится Ai Conf 2024 – первая прикладная тематическая конференция по Data Science.
Темы конференции:
- работа со звуком
- компьютерное зрение и генерация изображений
- обработка естественного языка
- рекомендательные системы и поиск
- умные механизмы
- разработка агентов
- академические исследования
- оптимизация использования железа и др.
Программа конференции будет строиться вокруг областей применения машинного обучения, а к выступлению приглашены не только спикеры из отраслей отраслей IT, Интернет и E-commerce, но и из отраслей реального сектора.
Вам есть чем поделиться? Отправляйте заявку на спикерство на сайте
🎁 Для всех наших спикеров предусмотрены бонусы: билет на конференцию; покроем ваши расходы на логистику, будь то поезд, самолет или автобус; предоставим вам номер в комфортабельном отеле рядом с местом проведения конференции; и, конечно, поможем подготовиться к выступлению.
Подробности о конфeренции AiConf
erid:2VtzqvzVtR3
Реклама ООО «Конференции Олега Бунина»
ИНН 7733863233
Приглашаем Data Engineer на проект «Прикладная аналитическая платформа Сбер B2C» ⚡️
Платформа позволяет создавать аналитические витрины на Data Lake по различным направлениям бизнеса. Мы анализируем клиентские пути, создаём синергию в продуктах и сервисах и формируем целостное предложение для сегментов.
Какие задачи будут в вашем планере:
👉 Ведение стримов разработки витрин.
👉 Управление жизненным циклом разработки витрин, умение находить правильный баланс между скоростью и качеством разработки.
👉 Организация внутрикомандных взаимодействий и мотивация.
Мы активно расширяемся и усиливаем нашу команду, поэтому сейчас ищем талантливых Lead/Senior/Middle Data Engineer с опытом разработки приложений на Spark от двух лет, Scala/Java, знанием конвейеров и инструментов CI/CD.
Читайте подробности и откликайтесь по ссылке 😉
⚡️ Коллекция LLM-приложений с RAG, использующих OpenAI, Anthropic, Gemini и open-source модели
git clone https://github.com/Shubhamsaboo/awesome-llm-apps.git
cd awesome-llm-apps/chat_with_gmail
pip install -r requirements.txt
🌟 InterpretML позволяет интерпретировать и объяснить работу конкретных ML-пайплайнов
— pip install interpret
Цель InterpretML — сделать ML более понятным, чтобы работать с какими-то алгоритмами и пайплайнами, как с чёрным ящиком.
Поддерживает обучение специальных интерпретируемых моделей (glassbox), а также объяснение существующих конвейеров ML (blackbox).
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 Подборка полезных ресурсов по Data Science и ML
Здесь собраны open-source книги, туториалы по работе с данными при помощи R и Python, гайды с объяснением ML-алгоритмов
▶️ Полезные ресурсы
@data_analysis_ml
Что нужно знать о генеративном Computer Vision
Генеративные модели — самая обсуждаемая и быстро развивающаяся тема в DL за последние 2 года. В CV это DALL-E, Midjourney, Stable Diffusion и прочие.
Но на волне хайпа многие забывают, что помимо генерации авокадо-кресел, генеративки используют в медицине, робототехнике, фешн-индустрии, рекламе и других областях.
Если переживаете, что эпоха генеративных моделей проходит мимо вас, приходите на открытую лекцию “Погружение в Generative CV” от команды DeepSchool.
На лекции вы узнаете:
- почему генеративные модели стали так популярны
- какие задачи решают в Generative CV и какие там есть направления
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с GenCV
Также команда DeepSchool представит программу курса "Generative Computer Vision" и подарит скидки участникам🎁
📌 Лекция пройдет в четверг, 30 мая в 18:00 МСК
💡 После регистрации вы получите miro-схему с описанием направлений и инструментов в Generative CV — это поможет быстро сориентироваться и погрузиться в сферу.
Регистрируйтесь по ссылке!
✍️ Яндекс открыл приём заявок на международную научную премию Yandex ML Prizeх
Премия вручается молодым исследователям, научным руководителям и преподавателям за достижения в области компьютерного зрения, машинного перевода, распознавания и синтеза речи, анализа данных и генеративных моделей.
В этом году будет 5 номинаций:
▪️ Первая публикация,
▪️ Исследователи,
▪️ Молодые научные руководители,
▪️ Научные руководители,
▪️ Преподаватели ML.
Лауреаты получат денежные премии. Исследователи — по 500 тысяч рублей, научные руководители и преподаватели — по миллиону рублей.
↗️ Приём заявок продлится до 21 июня, вручение премии состоится осенью.
Реклама. ООО "Яндекс", ИНН 7736207543.
Работаете в области проектирования ПО и хотите ускорить свой профессиональный рост? Выйти на новый уровень будет гораздо проще с онлайн-магистратурой Яндекса и ИТМО «ПО высоконагруженных систем».
Поступив на программу, вы с первого семестра погрузитесь в работу над реальными задачами из индустрии. Собирая ценные кейсы в портфолио, вы прокачаете навыки проектирования сложных систем и управления крупными проектами. Всё это — онлайн, из любой точки мира!
Программа подходит как выпускникам профильных вузов и стажёрам, так и специалистам с опытом. Первым можно будет пройти двухлетний стандартный трек, а вторым — ускоренный, изучая интересующие дисциплины на протяжении года.
Подайте заявку на магистратуру и выйдите на новый уровень в IT.