🌐 WebRL — это проект, предназначенный для создания интеллектуальных веб-агентов, способных выполнять задачи по навигации на веб-сайтах с использованием LLM!
⭐️ Основная цель WebRL — дать агентам способность понимать и интерпретировать HTML-страницы и адаптироваться к различным задачам, таким как сбор информации или взаимодействие с элементами интерфейса.
📖 Читать: *клик*
@data_analysis_ml
🤗 Watermarking with Gradio: Example
Gradio demo упрощает использование генерации водяных знаков для отслеживания происхождения генераций🚀
Протестируйте здесь: https://huggingface.co/spaces/meg/watermark_demo
#AIEthics #Машинноеобучение
@data_analysis_ml
🔥 Полезный репозиторий-руководство по работе с LLM!
⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода!
🔐 Лицензия: MIT
🖥 GitHub
@data_analysis_ml
⚡️ RuQwen2.5-3B-Instruct-AWQ — это улучшенная версия серии моделей Qwen2.5 на 3млрд параметров, адаптированная для русскоязычных задач.
Что сделано
Полностью решена проблема генерации иероглифов. Проблема часто возникала в кейсах генерации ответов, содержащих смесь русского и английского текста, терминов, сокращений (модель по сути сбивалась).
Применен алгоритм FRT, который позволяет добиваться русификации иностранных моделей.
Благодаря оптимизациям, модель обеспечивает бОльшую связность текста на русском языке, делая её отличным выбором для различных приложений, требующих работы с русскоязычным контентом.
Модель разработана командой FractalGPT специально для генерации текста на русском языке, сохраняя широкую поддержку и для других языков. Cвободно доступна для скачивания на HF
🤗 Карточка модели на HF
@data_analysis_ml
Как BI аналитика влияет на рост продаж в розничной сети
14 ноября в 14:00
Покажем как визуализацию данных по торговой точке трансформировать в процесс принятия решений:
⚡Объективная оценка работы вашего персонала с помощью системы рейтингов
⚡Ежемесячное отслеживание динамики продаж и мотивации ваших сотрудников
⚡Автоматическое формирование задач и прогнозирование результатов
⚡Управленческий импульс (UI) для предотвращения отклонений от плана
Участие бесплатное. Требуется регистрация по ссылке.
Вебинар от команды BI-платформы Insight
🤖 Data Analyst в Х5 Tech
В команде Х5 вас ждет:
— конкурентная зарплата, удаленка или гибридный формат;
— амбициозные проекты вроде собственной платформы по работе с нейросетями и автоматического ценообразования;
— прокачка навыков в корпоративном университете, митапы, конференции и общение с топами.
Развивайте один из продуктов:
— автоматизированное ценообразование;
— оптимизацию работы приложения;
— минимизацию затрат на транспорт.
Ожидаем, что вы:
— работаете в сфере Data Science или Data Analysis от трех лет;
— знаете Python;
— умеете проводить А/В-тестирования.
➡️ Откликнуться: @oooozhegovaaaa
🧔♂️ Face Anon простой инструмент для анонимизации лиц на изображениях, сохраняя при этом оригинальное выражение лица и положение головы!
Работает на основе диффузионных моделей для генерации высококачественных изображений,
Позволяет легко выполнять задачи по замене лиц.git clone https://github.com/hanweikung/face_anon_simple.git
▪Github
▪Demo
@data_analysis_ml
Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы:
— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.
— научитесь делать запросы и отчёты с помощью SQL.
— сможете строить интерактивные дашборды в Power BI и DataLens.
Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.
Также после бесплатного курса вы получите карьерную консультацию и скидку до 50% для продолжения обучения на курсах-профессиях в Нетологии.
Присоединяйтесь бесплатно
Реклама. ООО "Нетология". Erid 2VSb5xixG2c
Хотите освоить Apache Superset и создавать эффективные дэшборды?
🟡 Приглашаем вас на открытый вебинар 14 ноября в 20:00 мск. Это шанс узнать, как установить, настроить и использовать этот инструмент для визуализации данных, который станет вашей правой рукой в BI-аналитике!
Apache Superset позволяет легко подключаться к разным источникам данных и визуализировать их на интуитивно понятных дэшбордах. На вебинаре мы покажем, как работать с интерфейсом Superset и настроить базовые функции для вашего проекта.
Вебинар для BI-специалистов, аналитиков данных и разработчиков. Вы научитесь подключать данные, создавать дэшборды и настраивать визуализации, чтобы сделать свою аналитику наглядной и доступной.
➡️ Регистрируйтесь сейчас и получите скидку на большой курс «BI-аналитика»:https://clck.ru/3EWq8D?erid=LjN8KSWfV
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Только что вышел Apache Kafka 3.9.0🔥
Это крупный релиз, последний в линейке 3.x. Это также будет последний крупный релиз, в котором будет добавлен устаревший режим Apache ZooKeeper®. Начиная с версии 4.0 и более поздних версий, Kafka всегда будет работать без ZooKeeper.
ПОСЛЕДНЯЯ версия ZooKeeper 🫡 🥲
📌 Вот основные функции, о которых вам следует знать: https://www.confluent.io/blog/introducing-apache-kafka-3-9/
📌 Скачать новую версию: https://downloads.apache.org/kafka/3.9.0/RELEASE_NOTES.html
📌Kafka БАЗА! Теория + Практика: https://www.youtube.com/watch?v=W7ZCXcxQxV8
@data_analysis_ml
💡Управление камерой с открытым исходным кодом, позволяющее целенаправленно менять каждый кадр с помощью недавно выпущенного DimensionX!
🚩 Он также может создавать любые 3D / 4D сцены
📌 Страница проекта: https://chenshuo20.github.io/DimensionX/
📌 Код: https://github.com/wenqsun/DimensionX
📌 Arxiv: https://arxiv.org/abs/2411.04928
@data_analysis_ml
🌟 AdaCache: ускорение DiT в генерации видео через необучаемое адаптивное кэширование.
AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.
AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.
Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.
Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).
MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.
AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.
Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.
⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)
▶️Инференс:
# Baseline
bash run_sample_video.sh configs/sample.py
# AdaCache
bash run_sample_video.sh configs/sample_adacache.py
# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py
🔍 Browser-Use — библиотека для автоматизации браузера с использованием языковых моделей (LLM)!
🌟 Библиотека поддерживает взаимодействие с любыми моделями через API, такими как OpenAI и Anthropic, позволяя моделям находить и управлять элементами веб-страниц, работать с несколькими вкладками и обрабатывать динамический контент. Реализована поддержка цепочек действий и адаптивной обработки ошибок. Подходит для сложных задач, таких как сбор данных с веб-страниц и выполнение действий, определённых пользователем.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
🔗HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗Github: https://github.com/THUDM/CogVideo
🔗Paper: https://arxiv.org/abs/2408.06072
🔗Подробнее про модели: /channel/ai_machinelearning_big_data/5429
@data_analysis_ml
👩💻 gazpacho — простая и быстрая библиотека для веб-скрейпинга на Python.
🌟 Библиотека обеспечивает понятный интерфейс для скрейпинга HTML-страниц и поиска элементов на основе CSS-селекторов. Основные возможности включают функции для извлечения и обработки данных, не требующие дополнительных зависимостей. Библиотека ориентирована на легкость использования и минимализм.
👩💻 Лицензия: MIT
🖥 Github
@data_analysis_ml
⚡️ JanusFlow: унифицированная MMLM понимания и генерации изображений от DeepSeekAI.
JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.
Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.
JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.
На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.
На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.
В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.
Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.
▶️Установка и запуск с GradioUI:
# install the necessary dependencies
pip install -e .
pip install diffusers[torch]
# run local gradio demo
pip install -e .[gradio]
python demo/app_janusflow.py
Как большие данные помогают повысить операционную эффективность?
Работа с big data стала уже необходимостью для тех, кто стремится к эффективности и оптимизации бизнес-процессов. Однако на этом пути компании сталкиваются с множеством препятствий — от высоких операционных затрат до перехода на отечественные аналитические big data-платформы.
21 ноября в 16:00 на онлайн-митапе разберем, как большие данные решают конкретные задачи в бизнесе.
Темы митапа
🔹Оценка окупаемости проектов в big data и запуск пилотов для достижения конкретных бизнес-целей
🔹От Excel к корпоративному хранилищу данных: как мы переводим компании на платформу Greenplum и локализуем big data на отечественных продуктах
🔹Практический кейс из FMCG: задачи, решения и полезные лайфхаки для оптимизации процессов.
Спикеры
Александр Фикс
Менеджер продукта K2 Cloud
Руслан Султанов
Архитектор аналитических систем K2Тех
Регистрация по ссылке>>
Металлургия и ИТ – что может их объединить? Ответ прост: хакатон ЕВРАЗа 3.0 🔥
🦾 Создай будущее Code Review с ИИ!
Участвуйте в нашем уникальном хакатоне по созданию ИИ-чатбота, который станет незаменимым помощником для разработчиков ЕВРАЗа! Выберите одно из направлений — Python, TypeScript или C#, и разработайте решение для анализа кода на соответствие нашим стандартам.
Дата: 29 ноября – 1 декабря 2024.
Формат: гибридный (онлайн и офлайн).
Призовой фонд: 500.000 рублей.
🧑💻 Присоединяйся к хакатону, если ты:
– AI-специалист;
– Frontend / Backend-разработчик;
– Студент или выпускник технического вуза.
⚡️ Зачем участвовать?
– Прокачаешь скиллы и получишь обратную связь от ведущих экспертов отрасли.
– Прикоснешься к ИТ в ЕВРАЗе.
– Получишь возможность стать частью масштабной и амбициозной команды ЕВРАЗа.
Если нет команды — поможем ее собрать!
🔸 Регистрация уже открыта! Подай заявку до 25 ноября 23:59 МСК по ссылке.
🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст.
🔐 Лицензия: AGPL-3.0
🖥 GitHub
@data_analysis_ml
🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных!
⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM.
🔐 Лицензия: Apache-2.0
🖥 GitHub
@data_analysis_ml
TinyTroupe 🤠🤓🥸🧐
Microsoft только что выпустила библиотеку Tiny Troupe!🧍♂🧍🧍♀
Это экспериментальная библиотека Python, которая позволяет моделировать людей с определенными личностями, интересами и целями".
Эти агенты могут слушать, отвечать на запросы и жить своей жизнью в симулированной среде TinyWorld.
Sims на на базе LLM😂
- Реклама: Tiny Troupe может оценить цифровую рекламу (например, Bing Ads) в автономном режиме с помощью смоделированной аудитории
- Тестирование программного обеспечения: TinyTroupe может предоставлять тестовые данные системам (например, поисковым системам, чат-ботам или вторым пилотам), а затем оценивать результаты.
- Обучающие и исследовательские данные: TinyTroupe может генерировать реалистичные синтетические данные, которые впоследствии могут быть использованы для обучения моделей или анализа возможностей.
- Управление продуктами и проектами: TinyTroupe может читать предложения по проектам или продуктам и давать отзывы с точки зрения конкретных людей (например, врачей, юристов и работников умственного труда в целом).
- Мозговой штурм: TinyTroupe может имитировать фокус-группы и предоставлять отличные отзывы о продукте!
И многое другое
▪ Github
@data_analysis_ml
🖥 Opik — это открытая платформа для разработки, тестирования и мониторинга приложений на основе больших языковых моделей (LLM)!
🌟 Этот инструмент помогает отслеживать и анализировать работу LLM, автоматизировать оценку, хранить тестовые случаи и поддерживает интеграцию с CI/CD для упрощения цикла разработки и развертывания. Платформа позволяет как локальный запуск, так и использование в облаке, поддерживает такие фреймворки, как OpenAI, LangChain и другие.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
🔥 Классный инструмент, который позволяет вам создавать короткие видео для различных площадок "в один клик" с помощью ИИ!
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
🖥 GPT Pilot — это инструмент для автоматизации разработки с помощью GPT-4, позволяющий генерировать, тестировать код и целые приложения через AI!
🌟 Проект фокусируется на автоматизации работы над задачами, ускоряя создание приложений и тестов. GPT Pilot взаимодействует с разработчиком, интерпретируя запросы на естественном языке для генерации кода, что делает его полезным для быстрой разработки и прототипирования.
🖥 Github
@data_analysis_ml
📌 Awesome-list методов глубокого обучения на графах при смещении распределения.
Смещение распределения в графовых данных — это расхождение в распределении данных между обучающим и тестовым наборами, оно может существенно снизить производительность модели машинного обучения.
Репозиторий на Github, в котором собрана коллекция работ по обучению на графах в условиях смещения данных вне распределения (Out-of-Distribution, OOD) в трех основных сценария:
🟢обобщение графов OOD:
🟢адаптация графов во время обучения OOD:
🟢адаптация графов OOD во время тестирования.Обобщение OOD
предполагает, что целевые данные недоступны во время обучения модели, и фокусируется на повышении способности модели к обобщению, чтобы справляться с выборками из любых неизвестных доменов. Адаптация во время обучения
направлена на устранение расхождений в распределении между исходными и целевыми графовыми данными. Она служит для коррекции смещения наблюдений, переноса знаний между графами и смягчения негативных последствий аугментации данных. Адаптация во время тестирования
сосредоточена на настройке предварительно обученной модели на новые целевые данные, которые становятся доступными после начальной фазы обучения. Эта адаптация особенно важна в случаях, когда доступ к исходным данным ограничен.
В каждом сценарии рассматриваются модельно-ориентированные и ориентированные на данные подходы.
▶️Для многих статей предоставлены ссылки на код, реализующий описанные методы.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #GNN #Giihub #AwesomeList
🖼 AdvancedLivePortrait-WebUI — это инструмент, позволяющий анимировать статичные изображения, создавая реалистичные движения лиц!
🌟 В проекте используется WebUI и модели глубокого обучения для генерации анимаций. Платформа предлагает поддержку различных настроек и параметров, чтобы пользователи могли адаптировать анимацию под свои нужды.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
Участвуй в «Совкомбанк SecureHack» с призовым фондом 300 000 рублей и внеси свой вклад в разработку решения для защиты информационных систем Совкомбанка!
Регистрация на хакатон открыта до 4 декабря включительно: ссылка на регистрацию
Хакатон рассчитан на специалистов уровня Middle и выше — экспертов по информационной безопасности, системных аналитиков, разработчиков и архитекторов ПО с опытом в оценке безопасности. Участвуйте индивидуально или в командах до 3-х человек.
Основная задача — разработать инструмент для оценки безопасности информационных систем банка, который будет полезен как для разработчиков и аналитиков ИБ, так и для проектных менеджеров, и сможет:
· Принимать на вход различные данные, такие как опросники и карты сетевых доступов.
· Проводить анализ введенных данных для выявления уязвимостей и рисков информационной безопасности.
· Формировать отчет с заключением об уровне безопасности, описанием существующих рисков и рекомендациями по его улучшению.
Вы сможете:
· Побороться за призовой фонд в 300 000 рублей.
· Решить практическую задачу с использованием современных инструментов и подходов к безопасности.
· Расширить свои компетенции и поработать с командой над междисциплинарным проектом.
Таймлайн хакатона:
· до 4 декабря — регистрация участников
· 6 декабря — старт работы над задачей
· 15 декабря — завершение загрузки решений
· 19 декабря — награждение победителей
Стань автором решения, которое повысит безопасность цифровых сервисов Совкомбанка, и покажи свои способности на практике! Успей зарегистрироваться до 4 декабря: https://cnrlink.com/securehackdataanalysisml
Реклама. ПАО "Совкомбанк". ИНН: 4401116480. erid: LjN8KbCyh
Разбираем тестовое задание на позицию Junior Аналитика в Самокат
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем решать типичные задачи на SQL, которые дают на собеседованиях аналитикам на основании данных из Самоката.
Что будет на вебинаре:
- Проведем аналитику заказов и клиентов с помощью SQL
- Разберем фишки кода на SQL: CASE в агрегациях, удобная фильтрация и другие
- Построим мини-дашборд продаж в Metabase
Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 12 ноября в 19:00
🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!
Зарегистрироваться на бесплатный вебинар
👩💻 WhoDB
Легкий инструмент для работы с данными нового поколения - Postgres, MySQL, SQLite, MongoDB, Redis, MariaDB и ElasticSearch
с удобным интерфейсом.
Hobby - это легкий (~ 20 МБ), мощный и удобный в использовании инструмент управления базами данных, предназначенный для упрощения задач администрирования баз данных.
Сочетая простоту Adminer с улучшенным интерфейсом и производительностью, WhoDB создан на GoLang для обеспечения оптимальной скорости и эффективности работы с данными.
Благодаря таким функциям, как интерактивная визуализация схем и встроенное редактирование, WhoDB подходит как для небольших проектов, так и для сложных корпоративных систем.
WhoDB предоставляет вам возможность общаться с вашими данными, используя естественный язык, благодаря интеграции с Ollama, ChatGPT и Anthropic.
Эта функция позволяет выполнять запросы и управлять вашими данными с помощью диалога вместо SQL запросов.
▪ Github
@data_analysis_ml
Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.
Среди организаторов — эксперты, которые создают технологии будущего: Yandex Cloud, Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.
Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!
Успейте зарегистрироваться до 24 ноября, пока есть места!