🤔Запутались в различиях между пользовательскими сценариями (Use Cases) и пользовательскими историями (User Stories)? Не знаете, какой метод лучше использовать в вашем проекте?
😎А теперь представьте, что вы твердо знаете, как и когда использовать каждый метод. Вы умело используете инструменты аналитики и развиваете свои проекты.
Хотите это реализовать? Присоединяйтесь к открытому вебинару 20 августа в 20:00 мск, где вы научитесь:
- понимать различия между пользовательскими сценариями и пользовательскими историями;
- применять практические примеры использования обоих методов;
- разрабатывать примеры для закрепления материала.
🤩Урок будет полезен системным и бизнес-аналитикам, менеджерам проектов, учавствующем в процессе работы с требованиями.
Встречаемся в преддверии старта курса «Системный аналитик. Advanced». Все участники вебинара получат специальную цену на обучение!
Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://otus.pw/dlU3/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KWuDB
🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить.
И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.
Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.
Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.
Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу:
https://netology.ru/programs/dataengineering
Реклама. ООО "Нетология", ИНН: 7726464125, erid: LjN8KcHys
Бизнес нуждается в зарубежных BI-решениях, так ли это?
К2Тех Data Lab совместно с Digital Leader, НОРБИТ, Arenadata и Kept проанализировали BI-рынок. Они выяснили, что крупные компании продолжают использовать BI ушедших вендоров. При этом доля внедрений отечественных решений выросла с 9% до 68%. Можно ли считать, что сложный период российского рынка BI позади?
Команда провела 29 интервью с представителями топ-600 компаний и проанализировала 365 реализованных проектов.
Внутри исследования:
— Какие есть ограничения при переходе с зарубежных решений на отечественные, и как их преодолеть;
— Какие BI-решения использует российский бизнес в 2024 году;
— Частые проблемы при внедрении BI и рекомендации по внедрению и развитию;
— Чего крупные компания ожидают от развития BI-систем.
Скачивайте исследование по ссылке.
Реклама. АО "К2 ИНТЕГРАЦИЯ". ИНН 7701829110.
🦒 Открытые генеративные модели изображений и как их готовить
На вебинаре мы обсудим последние результаты в области генерации изображений (в том числе прогремевший FLUX от BlackForestLabs) и как настраивать результаты под себя: позу персонажей, рисунок, который можно увидеть на контрасте и прочие интересные способы сделать результат лучше и уникальней. Конечно, речь будет идти про открытые модели.
Будем заниматься указанием условий генерации для диффузионной модели: фиксируем позу, форму и др. с использованием ControlNet.
Вебинар направлен на максимально широкую аудиторию, поэтому мы постараемся обойтись (почти) без кода.
Свой кластер GPU не требуется :)
Вебинар проведет Радослав Нейчев и команда Girafe AI, ведущие магистерской программы МФТИ “Современные методы искусственного интеллекта”.
Вебинар пройдет 12 августа в 18:00 МСК
Регистрация на вебинар в TG канале: /channel/+iF5VpZMznK00OGVi
🦒 Кто мы:
Владислав Гончаренко и Радослав Нейчев - основатели проекта, авторы курса и преподаватели по машинному обучению в МФТИ.
Мы создали один из признанных курсов машинного обучения (более 2 тысяч звезд на github https://github.com/girafe-ai/ml-course), который преподается в МФТИ, YSDA, МГУ, MADE (академия больших данных от vk com), Harbour. Космический университет (Испания и Таиланд) и др.
Наша цель - обеспечить первоклассное образование и помочь как можно большему числу людей освоить область искусственного интеллекта, поэтому наши учебные материалы доступны с открытым исходным кодом.
🦒 Также наша команда продолжает набор в онлайн магистратуру МФТИ Modern State of Artificial Intellegence (MSAI), где вы сможете пройти курсы по LLM, MLOps и другим темам машинного обучения, начав с математической и программисткой базы.
Больше информации можно узнать на сайте магистратуры
На все интересующие вопросы о программе мы ответим в конце семинара.
Реклама, ИП Гончаренко В.В., ИНН 272403059890
erid: 2VtzquhAuXr
Начните обучение в магистратуре в Центральном университете уже на 3-м курсе бакалавриата!
Центральный университет — современный вуз, созданный при поддержке ведущих компаний России: Т-Банка, Авито и других.
Учебу реально совместить с последними курсами бакалавриата или действующей работой. Обучение занимает 20 часов в неделю в вечернее время в первый год, а занятия проводят в центре Москвы профессоры из МГУ, МФТИ, РЭШ и практики из индустрии. Обучение в университете построено по принципам ИТ-компаний, со средой, способствующей росту и развитию.
У каждого студента будет:
личный ментор по траектории обучения;
доступ к карьерному центру с коучами и консультантами;
опыт работы в проектах 30+ компаний-партнеров уже во время обучения;
диплом гособразца.
Участвуйте в онлайн-отборе, чтобы выиграть грант на обучение до 1,2 млн рублей.
Больше подробностей про университет и конкурс грантов по ссылке!
erid:2VtzquWZ179
Реклама, АНО ВО «Центральный университет», ИНН 774341802
#вакансия #remote #ml #cv #job
Lead Machine Learning Engineer (Computer Vision) в Gradient
от 1 000 000 ₽
Удаленная работа приветствуется!
Мы в Gradient ищем талантливого и опытного ML инженера для создания новых передовых технологий и улучшения текущих пайплайнов обработки фото и видео для приложений Gradient и Persona.
Gradient - мобильное приложение для редактирования фото и видео
- Самое скачиваемое приложение в мире за месяц в 2019, 2020 годах
- Best of 2019 среди приложений по версии Apple
Persona - передовой бьюти фото и видео редактор с инновационными технологиями обработки селфи
Совокупно наша аудитория составляет больше 100 миллионов пользователей
Ваши задачи
- Исследовать, разрабатывать и внедрять state-of-the-art технологии в области обработки изображений и видео
- Совершенствовать текущие технологии и пайплайны
- Следить за новейшими исследованиями и публикациями в ML и computer vision
- Оптимизировать модели для работы на сервере и мобильных устройствах
- Работать с большим объемом данных в датасетах, совершенствовать подходы по их получению и обработке
Требования
- Высшее образование в сфере computer science в ведущем технологическом вузе
- Опыт работы на senior позиции в топовых фото/видео редакторах, computer vision стартапах или бигтехе от 3 лет
- Глубокое понимание текущих SOTA подходов в computer vision и ML (GAN, diffusion, transformers и тд)
- Опыт деплоя production-ready моделей на большие аудитории
- Идеальное знание Python, Pytorch
- Знание основных инструментов и библиотек для обработки изображений и видео (OpenCV, Scikit-Image, FFmpeg и тд)
- Обладание отличным математическим бэкграундом - линейная алгебра, теория вероятностей, мат. анализ
Будет плюсом:
- У вас есть PhD или вы в процессе получения
- У вас есть опубликованные статьи или github-репозитории, в которых вы внесли вклад в развитие отрасли
- Участие в ведущих конференциях и семинарах по computer vision (CVPR, ICCV, ECCV)
Контакт: @axcher
Как подготовить данные без пропусков, дубликатов и некорректных значений?
Расскажем как предварительно обработать сырые данные на открытом уроке «Подготовка данных в Pandas»
🔹Последовательно рассмотрим этапы обработки пропусков, дубликатов и поиск аномалий.
✅ Практика: Чистка данных при помощи библиотеки Pandas
Урок приурочен курсу «Machine Learning» от Otus. По окончанию обучение получите диплом государственного образца.
👉 Регистрация и подробности:
https://otus.pw/guDm/?erid=LjN8KWb6g
⚡️ Mistral Large 2 уже здесь!
Модель лидирует в рейтингах Arena hard. Впечатляющая производительность в написании кода, понимании сложных промптах и математике. Модель превосходит топовые модели GPT-4 Turbo/Claude Opus!
Кроме того, это модель с открытым исходным кодом.
Blogpost: https://mistral.ai/news/mistral-large-2407/
Model weights: https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
@data_analysis_ml
⚡️ CityGaussian — высококачественный рендеринг больших сцен в реальном времени с помощью гауссианов
CityGaussian (CityGS) использует новый подход к обучению по принципу "разделяй и властвуй" и стратегию Level-of-Detail (LoD) для эффективного обучения и рендеринга.
Такой подход позволяет генерировать различные уровни детализации и реализовать быстрый рендеринг в различных масштабах.
Судя по метрикам SSIM, PSNR и LPIPS, на данный момент CityGaussian достигает самого высокого качества рендеринга по сравнению с аналогичными методами.
🖥 GitHub
🟡 Демонстрация CityGaussian
@data_analysis_ml
⚡️ 6 файлов - это все что нужно для архитектуры Llama 3.1
Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.
nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.
Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора
Планы:
🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_type
git clone https://github.com/meta-llama/llama-models.git
▪ Github
@data_analysis_ml
Представляем бесплатный курс "LLMs: теория и практика", 🚀 который поможет вам получить востребованные навыки:
✅ обучение LLMs (LLaMa 🦙, Mistral)
✅ prompt engineering
✅ работа с библиотекой LangChain (RAG)
✅ разработка виртуальных ассистентов 🤖
✅ создание API (FastAPI, Flask)
✅ и многое другое.
В канале по ссылке - 29 видеороликов нашего курса и ссылки для скачивания материалов курса (презентации, python-скрипты, jupyter-ноутбуки).
Перейти к курсу
⭐️ LlamaCoder!
Приложение Claude Artifacts с открытым исходным кодом, которое может создавать полноценные приложения и компоненты с помощью Llama 3.1 405B.
На 100% бесплатное и с открытым исходным кодом.
http://llamacoder.io
@data_analysis_ml
GitHub представил новый маркетплейс моделей машинного обучения под названием Models, который претендует на конкуренцию с Hugging Face.
Проект пока в тестировании, но вы можете записаться в лист ожидания.
Ключевые преимущества Models: возможность протестировать нейронную сеть в песочнице перед переносом кода в VS Code или Codespaces, а также интеграция с Azure и другими популярными сервисами для разработчиков.
На платформе уже доступно более 20 нейросетей, включая GPT-4o, GPT-4o mini и Llama 3.1. Библиотека будет регулярно пополняться, и разработчики смогут добавлять свои модели.
▪ Github
@data_analysis_ml
🔥 Продвинутый курс по Python
Этот курс включает материалы по углубленным концепциям Python и анализу данных. В него входят:
▪️ Упаковка и распаковка значений, менеджеры контекста, декораторы и другие темы;
▪️ Работа с классами, включая магические методы;
▪️ Обработка и визуализация данных;
▪️ Основы машинного обучения.
📌 Ссылка
@data_analysis_ml
Знакомьтесь! Сетка — новая социальная сеть для нетворкинга от hh ru, которая помогает ИТ-коммьюнити расширять сеть полезных знакомств и общаться с коллегами по рынку
В приложении есть простой и удобный функционал Q&A, где можно задать свой вопрос сообществу и получить на него развёрнутый ответ от экспертов. Ещё здесь можно профессионально расти и развиваться, следить за актуальным контентом в своей сфере, делиться кейсами и искать партнёров для новых коллаб или side-проектов.
Благодаря big data hh ru Сетка подгружает информацию о вашем опыте работы и помогает точно пересечься с теми, кто повлияет на ваш профессиональный путь. Теперь не нужно ломать голову над тем, где искать полезные контакты.
Скачать приложение. Пересечёмся в Сетке ✌🏻
⚡️ Whisper Diarization — очень точное распознавание речи прямо в браузере
Whisper Diarization совмещает в себе возможности whisper-base и pyannote-segmentation-3.0, двух мощных инструментов для распознавания речи, а также поддерживает 100 различных языков
Whisper Diarization работает полностью локально в браузере с помощью Transformers.js и ONNX Runtime Web, без всяких API-вызовов на сервер.
🤗 HuggingFace
@data_analysis_ml
⚡️ Лучшее за неделю из мира Open ML/ AI:
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустила EXAONE 7.8B, обученный на токенах 8T, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - Выпустили лицензионный VLM-сервер Apache 2.0 с расширенными возможностями контроля качества и работы с документами! Основан на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн и обучен работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge на 1 трлн долларов Llama 3.1 и т.д
@data_analysis_ml
#ainews #mlnews #digest
🌟 InternVL 2.0 40B — open-source альтернатива GPT-4o
InternVL 2.0 превосходит большинство открытых мультимодальных LLM.
Модель показывает конкурентоспособную производительность в различных областях, включая понимание документов и схем, анализ инфографики, решение задач OCR, решение научных и математических задач.
Модель InternVL 2.0 обучалась с контекстным окном 8k на датасете из длинных текстов, нескольких изображений и видео, что значительно улучшает ее способность обрабатывать эти типы входных данных по сравнению с InternVL 1.5.
🤗 Hugging Face
🖥 GitHub
@data_analysis_ml
🌟 VADER — video diffusion alignment via reward gradient
VADER — это метод выравнивания результатов диффузионных моделей по генерации видео;
VADER позволяет улучшить различные модели, такие как VideoCrafter, OpenSora, ModelScope и StableVideoDiffusion, с помощью разных подходов, таких как HPS, PickScore, VideoMAE, VJEPA, YOLO, Aesthetics и др.
🖥 GitHub
🟡 Страничка VADER
@data_analysis_ml
🌟 LLM Judge — метод тонкой настройки модели Mistral для обнаружения галлюцинаций
Проект LLM Judge демонстрирует тонкую настройку и оценку языковой модели Mistral для обнаружения фактических несоответствий и галлюцинаций в тексте.
🖥 GitHub
🟡 Доки по тонкой настройке Mistral
@data_analysis_ml
⚡️ Очень полезные систематизированные знания по настройкам LLM
Большой, постоянно обновляемой список по всем основным моделям.
https://docs.google.com/spreadsheets/d/14vbBbuRMEHoqeuMHkTfw3uiZVmyXNuoSp8s-aHvfvZk/edit?gid=0#gid=0
@data_analysis_ml
👩💻 FlexAttention: The Flexibility of PyTorch with the Performance of FlashAttention
Единый API, который может реализовать широкий спектр разных вариантов внимания всего несколькими строками кода ,с помощью определяемой пользователем функции "score_mod
" (causal mask, AliBi, sliding window, ), которая изменяет оценку перед softmax
.
Api реализован на чистом коде на Python со стороны пользователя, но скомпилирован таким образом, что почти так же быстродействен, как от ядро Triton!
https://pytorch.org/blog/flexattention/
@data_analysis_ml
🦙✨ BigLlama-3.1-1T-Instruct
Вам было мало 405B параметров.
Вот Улучшенная версию Llama 3.1 с 1 000 000 000 000 параметрами.
▪ Модель: https://huggingface.co/mlabonne/BigLlama-3.1-1T-Instruct
@data_analysis_ml
Как сохранить производительность высоконагруженных решений при работе с отечественными СУБД?
20 августа в 11:00 приходите на бесплатный вебинар СберТеха для бизнеса и узнаете, с какими нагрузками может работать отечественная СУБД Platform V Pangolin. Это целевая СУБД в Сбере и в ряде крупных компаний, которая создана для высоконагруженных систем.
В конце июля вышел новый релиз Platform V Pangolin 6.3.0 с оптимизациями производительности СУБД при работе с «1С:Предприятие», доработками в области безопасности под актуальные требования ФСТЭК и другими полезными изменениями.
На встрече выясним, как новые возможности продукта могут стать полезны вашему бизнесу и ответим на все вопросы.
Регистрация уже открыта
🌟 Group Mamba — SSM-модель для точной классификации объектов на изображении
Есть 3 варианта модели Group Mamba с разным количеством параметров, и даже самая маленькая из них (23М) показывает отличную точность классификации до 83.3 % на ImageNet-1K; к тому же эта модель на 26% эффективнее по количеству параметров, чем лучшая из предыдущих моделей Mamba.
🖥 GitHub
🤗 HuggingFace
🟡 Arxiv
@data_analysis_ml
💻Spice — унифицированный интерфейс запросов SQL и портативная среда выполнения для быстрого извлечения данных из любой БД, хранилища данных или озера данных
curl https://install.spiceai.org | /bin/bash
spice init spice_qs
cd spice_qs
spice run
⚡️Лучший способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
Машинное обучение: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C#: t.me/csharp_ci
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
Арихив бесплатных ит-курсов: /channel/+-YDHdeS5EEs3MDNi
🔥 SambaNova выдает более 123 токенов в секунду на llama 3.1 405B со своим ASIC-оборудованием 🤯
Llama 3.1 8B выдает более 1000 токенов в секунду
Попробуйте здесь - https://sambanova.ai
@data_analysis_ml
🌟 Click-Gaussian — интерактивная сегментация любых 3D-гауссианов
Интерактивная сегментация 3D-гауссианов открывает широкие возможности для работы с 3D-сценами в реальном времени, однако текущие методы имеют массу недостатков.
Чтобы улучшить ситуацию, Seokhun Choi и его коллеги из Сеула и они предлагают метод Click-Gaussian, который позволяет обрабатывать каждый клик 10 мс, что в 15-130 раз быстрее, чем предыдущие методы; при этом Click-Gaussian имеет ещё и большую точность сегментации.
🟡 Страничка Click-Gaussian
🟡 Arxiv
@data_analysis_ml
🌟 Voyager — это библиотека Python (и Java) для быстрого приближенного поиска ближайших соседей
— pip install voyager
Voyager может использоваться как из Python, так и из Java;
библиотека опирается на алгоритм HNSW, основанный на пакете hnswlib, плюс использует много дополнительных функций.
Voyager активно используется в продакшене в Spotify
🖥 GitHub
🟡 Доки
🟡 Видео про Voyager
@data_analysis_ml