@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🤖 Готовы ли вы стать специалистом по персонализации и рекомендациям?
Мы разработали профессиональный онлайн-курс «Рекомендательные системы», для специалистов в области ML и DS, которые хотят расширить свои компетенции в области рекомендательных систем.
Приходите на открытый урок курса 17 октября в 20:00 мск.
Тема: «Методы сегментации в рекомендациях».
На уроке разберем:
➡️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
➡️ как применять аналитические и машинные методы для сегментации клиентов;
➡️ примеры практического применения этих методов в реальных задачах.
🔗 Ссылка для регистрации на урок: https://otus.pw/rhSN/
#реклама
О рекламодателе
🎓 Daily Research Bot
Бот Discord на базе ИИ, который поможет вам быть в курсе последних исследований, связанных с ИИ, требующие мало ресурсов.
В нем собраны последние статьи из таких источников, как Hugging Face, блог Элвиса Саравиа и другие с краткой информацией.git clone https://github.com/yourusername/daily-research-bot.git
cd daily-research-bot
🔗 Github
@bigdatai
🖥 Nvidia представила MaskedMimic — единый унифицированный контроллер для физически смоделированных гуманоидов. Эта система способна генерировать широкий спектр движений на различных ландшафтах из интуитивно определенных пользователем прометав. Модель позволяет создавать естественные и универсальные анимации для виртуальных персонажей.
🔗 Подробнее: *клик*
▪️Github
@bigdatai
🖥 Lotus — визуальная фундаментальная модель, основанная на диффузии, для задач dense prediction
. В отличие от традиционных методов, она напрямую предсказывает аннотации вместо шума и использует одношаговую процедуру, что упрощает оптимизацию и повышает скорость.
🌟 Модель достигает SoTA уровня, предлагая более точные и детализированные прогнозы, чем у моделей конкурентов.
🔗 Ссылка: *клик*
🔗 Huggingface: *клик*
@bigdatai
🔥SFR-Judge 🔥 семейство LLM, специализирующееся на критике и оценке модельных ответов от других языковых моделей.
SFR-Judge выпущен в трех размерах (8B, 12B и 70B) и отлично справляются с тремя задачами оценки: парные сравнения («Ответ A лучше ответа B?»), одиночные оценки («Оцените ответ по шкале Лайкерта от 1 до 5») и классификация («Отвечает ли ответ модели желаемым критериям?»).
SFR-Judge прошел оценку на различных задачах, соответствующих различным сценариям, таким как моделирование вознаграждения, качество рассуждений и безопасность ответов. В среднем SFR-Judge демонстрирует высокую общую производительность, проявляя меньшую предвзятость суждений, чем другие модели.
📘 Статья: https://arxiv.org/abs/2409.14664
🧠 Блог: https://blog.salesforceairesearch.com/sfr-judge/
@bigdatai
🖥 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница?
💡В этой статье автор затрагивает историю появления баз данных, сравнивает концепции архитектур данных, их преимущества и недостатки
🔗 Ссылка: *клик*
@bigdatai
🚀 Как распределить и оптимизировать нагрузку для моделей, использующих как GPU, так и CPU.
Руководитель группы автоматической генерации рекламы из Яндекса поделилась опытом генерации миллиардов рекламных объявлений с использованием YandexGPT и BERT-модели.
https://habr.com/ru/companies/yandex/articles/842024/
@bigdatai
⚡️ Шпаргалка по техникам регуляризации в машинном обучении
@bigdatai
✅ 3DTopia-XL GenAI Foundation✅
"3DTopia-XL", мощный трансформер создания 3D-PBR-объектов.
- Проект: https://3dtopia.github.io/3DTopia-XL/
- Код: https://github.com/3DTopia/3DTopia-XL
- Демо : https://huggingface.co/spaces/FrozenBurning/3DTopia-
@bigdatai
Разработчики Kling AI представили новый инструмент Motion Brush, который позволяет анимировать отдельные объекты в видео. Пользователи могут загружать изображения и задавать пути движения, просто нарисовав траекторию ✍️. Это дает возможность точно управлять движением до шести элементов одновременно, что делает видео более динамичными и увлекательными 🎥.
Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.
Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀
Пробуем здесь.
#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt
@bigdatai
Карьерный код Data-инженера: ошибки и лайфхаки
23 сентября приглашаем вас на бесплатный вебинар от Слёрма! Встретимся с опытным специалистом и карьерным консультантом в сфере IT, чтобы обсудить:
👉 Как становятся дата-инженерами?
👉 Как правильно показывать свой опыт и потенциал, чтобы получить оффер?
👉 Hard и Soft скиллы — что реально важно на собеседованиях?
👉 Что делать, если вы практикующий специалист, но развития не хватает?
Николай поделится секретами успеха и ошибками, которых вы сможете избежать. А Екатерина расскажет, как не сбиться с пути и выстроить эффективный карьерный трек.
➡️ 23 сентября, 20:00 мск
➡️ Занять место на вебинар – по ссылке.
До встречи!
Реклама ООО «Слёрм» ИНН 3652901451
🖥 Как загрузить ОГРОМНЫЙ Датасет в Pandas #python
https://www.youtube.com/watch?v=TQQMjGH7TM0
@bigdatai
Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы:
— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.
— научитесь делать запросы и отчёты с помощью SQL.
— сможете строить интерактивные дашборды в Power BI и DataLens.
Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.
Присоединяйтесь бесплатно
Реклама. ООО "Нетология". Erid 2VSb5ybE6Pi
ИТМО назвал лидеров развития Open Source в России
Лидером среди российских компаний стал Яндекс, за ним — Сбер и Т-банк. Компании оценивались по количеству опенсорс-проектов, их популярности, качеству репозиториев и активности контрибьюторов.
Среди ключевых решений лидера рейтинга: CatBoost (библиотека для градиентного бустинга), YTsaurus (платформа для работы с большими данными) и YDB (распределённая SQL-база данных).
Ключевые выводы исследования:
— Большинство компаний ориентируются не только на внутренний, но и на международный рынок;
— GitHub остаётся стандартом, но растёт интерес к альтернативам (Gitee, GitVerse);
— Open source объединяет специалистов со всего мира;
— Конкуренция постепенно уступает место совместному развитию отрасли;
— Для развития опенсорс-проектов необходима финансовая поддержка;
— Несмотря на рост ИИ, роль человека в опенсорсе остаётся ключевой.
И получите своё предсказание🔮
Прогнозируйте изменения своих бизнес-метрик с помощью машинного обучения.
🔥 Starry AI — бесплатное приложение-генератор картинок на базе искусственного интеллекта, преобразующее текст в потрясающие изображения
🌟 Создавайте до пяти произведений искусства ежедневно, без водяных знаков. Настраивайте свои творения с помощью различных моделей, стилей, соотношений сторон и начальных фотографий
🔗 Ссылка: *клик*
@bigdatai
🎓 Качественный Dataset сгенерированный, с помощью Claude Opus.
Он содержит более 20 тысяч технических вопросов и ответов для LLM. В нем содержатся системные промыты в стиле Orca для получения различных ответов.
https://huggingface.co/datasets/migtissera/Synthia-v1.5-I
@bigdatai
‼️Тест по ИИ в медицине от OTUS
Задача на решение с помощью ИИ:
Что получится в результате выполнения кода?
import numpy as np
arr = np.arange(0, 20).reshape((5, 4))
— Ответьте на 8 вопросов и проверьте, насколько хорошо вы знаете тему ИИ в медицине. Сможете сдать — получите полезный файл со статьями о ИИ в медицине, его развитии и перспективах, а так же спец цену на курс и возможность окунуться в мир ИИ в медицине.
👉ПРОЙТИ ТЕСТ - https://otus.pw/bIwF/
Курс доступен в рассрочку.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.erid: LjN8KUYYF
🖥 AimRT — современный фреймворк для робототехники!
🌟 Легковесный и простой в развертывании: разработан на C++ и предлагает современные подходы к управлению ресурсами, асинхронному программированию и конфигурации.
🌟 Поддержка разных сценариев: подходит для работы на устройствах роботов, периферийных и облачных платформах.
🌟 Интеграция с ROS2, HTTP, Grpc и другими экосистемами, а также гибкий интерфейс для создания плагинов.
🔐 Лицензия: самописная (не имеет широкого названия)
▪️Github
@bigdatai
🌟 Emu3: набор MMLM, основанный на методе предсказании следующего токена.
Модели Emu3 разработаны для задач мультимодальной генерации и восприятия: генерации изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео.
Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования.
Процесс генерации в Emu3 начинается с обработки моделью начальной последовательности токенов (например, текстовое описание для генерации изображения).
Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео).
▶️ Представлены 3 модели:
🟢Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы;
🟢Emu3-Gen – модель для генерации изображений по текстовому описанию;
🟢Emu3-VisionTokenizer – токенизатор изображений для преобразования изображений и видео в дискретные токены.
Для обучения использовались наборы данных Aquila, LAION-High-Resolution, InternVid, MSCOCO-30K, GenEval, T2I-CompBench, DPG-Bench, SEED-Bench, RealWorldQA, OCRBench и VBench.
Результаты тестирования показывают превосходство Emu3 над SDXL в генерации и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений.
Инференс моделей пока доступен только в СLI на Transformers, примеры для генерации или описания входного изображения можно найти в репозитории проекта.
⚠️ Информации о технических требованиях по GPU разработчиками Emu3 не предоставлено.
▶️Локальная установка:
# Clone the repository
git clone https://github.com/baaivision/Emu3
cd Emu3
# Install requirements
pip install -r requirements.txt
🖥 Энтузиаст сделал "альтернативу ChatGPT-o1" (По его заявлениям).
🌟 Модель успешно проходит тесты вроде количества "r" в "strawberry"
🌟 Автор отмечает, что она также хорошо справляется с логическими задачами, с которыми не могут справиться даже модели вроде o1, 4o или Claude
🌟 Модель разбивает комплексные задачи на более мелкие, что способствует более точному решению
🔐 Лицензия: не указана
👩💻 Написана на Python с использованием React для фронтенда
▪️Github
@bigdatai
🖥 10 малоизвестных библиотек Python для работы с данными
• PyGWalker: PyGWalker упрощает рабочий процесс анализа и визуализации данных в Jupyter Notebook, превращая фрейм данных pandas (или фрейм данных polars) в пользовательский интерфейс в стиле Tableau для визуального исследования.
• SciencePlots: Создаёт профессиональные графики matplotlib для презентаций, исследовательских работ и т.д.
• CleverCSV: Устраняет ошибки синтаксического анализа при чтении CSV-файлов с помощью Pandas.
•
• Fastparquet: Ускоряет ввод-вывод pandas в 5 раз.
• Bottleneck: ускоряет работу методов NumPy в 25 раз. Особенно, если массив имеет значения NaN.
• Multipledispatch: предоставляет методы для перегрузку функций в Python.
• Aquarel: дополнительные стили графиков matplotlib.
• Modelstore: библиотека моделей машинного обучения для лучшего отслеживания работы моделей.
• Pigeon: помогает анотировать данные щелчками мышки в Jupyter notebook.
• Nbcommands: помогает легко выполнять поиск кода в Jupyter notebooks, а не выполнять это вручную.
📌Подробнее с примерами кода
@pythonl
Большинство моделей от Mistral теперь доступны бесплатно по API 😱
Что за аттракцион невиданной щедрости? Вероятно, ваши запросы будут использованы для обучения новых моделей (хотя это не точно).
VPN не требуется, карта не нужна. Пользуйтесь!
@data_analysis_ml
Освойте аналитику данных, обучаясь на кейсах из реального бизнеса *️⃣
Вы будете не просто изучать аналитику — вы будете решать рабочие задачи, что равноценно прохождению стажировки начинающим аналитиком.
👆Подбираем персональный трек обучения под ваши задачи — устроиться в крупную IT-компанию или релоцироваться. А также помогаем с прохождением собеседований.
👆87% учеников за 2 месяца находят работу. Наши выпускники работают в Тинькофф, Авито, Яндекс, Skyeng, Магнит, Сбер, Ozon, Альфабанк и др. компаниях.
По итогам курса вы сформируете собственное портфолио. Такого не будет ни у кого больше. Уникальное оформление, максимально прикладные задачи из разных сфер бизнеса. Их невозможно сгуглить или найти разбор на Хабре.
Обучайтесь в комфортном темпе: доступ к материалам останется у вас навсегда.
Вы еще успеваете начать обучение с текущим потоком🔥
Оставляйте заявку на сайте и получите 10% скидку по промокоду BIG
🎮 GTA-Human II
Проект, который создан на основе GTA-V для оценки позы и движения человека.
В нем представлены сцены с участием нескольких человек с аннотациями.
В дополнение к цветным последовательностям изображений также предоставляются трехмерные ограничивающие рамки и обрезанные облака точек (созданные на основе синтетических изображений).
страница проекта: https://caizhongang.com/projects/GTA-Human/gta-human_v2.html
@bigdatai
Phidias
Генеративная модель для создания 3D-контента из текста, изображения и 3D-условий с помощью диффузии с добавлением ссылок
https://huggingface.co/papers/2409.11406
@bigdatai
NVIDIA’s New AI Is Really Good At Moving Rabbits!
https://www.youtube.com/watch?v=l4JCJEdbfzs
@bigdatai
Mistral выпустили улучшенную модель Small 22B - Многоязычную модель с контекстом 128K контекст
Промежуточная модель между Mistral NeMo 12B и Mistral Large 123B.
> Параметры 22B
> Поддерживает вызов функций
> Длина контекста 128k
> Доступны весаpip install --upgrade vllm
🤗Веса: https://huggingface.co/mistralai/Mistral-Small-Instruct-2409
@bigdatai
Красивая визуализация нейронной сети, обученной на MNIST
Нейрона была написана с нуля на языке Odin и визуализирована с помощью Raylib.
https://github.com/bones-ai/odin-mnist-nn
@bigdatai
Узнайте, как обучать и развертывать модели с помощью контейнеров Deep Learning Containers.
https://huggingface.co/docs/google-cloud/index
@bigdatai