Хотите освоить Apache Superset и создавать эффективные дэшборды?
🟡 Приглашаем вас на открытый вебинар 14 ноября в 20:00 мск. Это шанс узнать, как установить, настроить и использовать этот инструмент для визуализации данных, который станет вашей правой рукой в BI-аналитике!
Apache Superset позволяет легко подключаться к разным источникам данных и визуализировать их на интуитивно понятных дэшбордах. На вебинаре мы покажем, как работать с интерфейсом Superset и настроить базовые функции для вашего проекта.
Вебинар для BI-специалистов, аналитиков данных и разработчиков. Вы научитесь подключать данные, создавать дэшборды и настраивать визуализации, чтобы сделать свою аналитику наглядной и доступной.
➡️ Регистрируйтесь сейчас и получите скидку на большой курс «BI-аналитика»:https://clck.ru/3EWq8D?erid=LjN8KSWfV
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Только что вышел Apache Kafka 3.9.0🔥
Это крупный релиз, последний в линейке 3.x. Это также будет последний крупный релиз, в котором будет добавлен устаревший режим Apache ZooKeeper®. Начиная с версии 4.0 и более поздних версий, Kafka всегда будет работать без ZooKeeper.
ПОСЛЕДНЯЯ версия ZooKeeper 🫡 🥲
📌 Вот основные функции, о которых вам следует знать: https://www.confluent.io/blog/introducing-apache-kafka-3-9/
📌 Скачать новую версию: https://downloads.apache.org/kafka/3.9.0/RELEASE_NOTES.html
📌Kafka БАЗА! Теория + Практика: https://www.youtube.com/watch?v=W7ZCXcxQxV8
@data_analysis_ml
💡Управление камерой с открытым исходным кодом, позволяющее целенаправленно менять каждый кадр с помощью недавно выпущенного DimensionX!
🚩 Он также может создавать любые 3D / 4D сцены
📌 Страница проекта: https://chenshuo20.github.io/DimensionX/
📌 Код: https://github.com/wenqsun/DimensionX
📌 Arxiv: https://arxiv.org/abs/2411.04928
@data_analysis_ml
🌟 AdaCache: ускорение DiT в генерации видео через необучаемое адаптивное кэширование.
AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.
AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.
Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.
Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).
MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.
AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.
Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.
⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)
▶️Инференс:
# Baseline
bash run_sample_video.sh configs/sample.py
# AdaCache
bash run_sample_video.sh configs/sample_adacache.py
# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py
🔍 Browser-Use — библиотека для автоматизации браузера с использованием языковых моделей (LLM)!
🌟 Библиотека поддерживает взаимодействие с любыми моделями через API, такими как OpenAI и Anthropic, позволяя моделям находить и управлять элементами веб-страниц, работать с несколькими вкладками и обрабатывать динамический контент. Реализована поддержка цепочек действий и адаптивной обработки ошибок. Подходит для сложных задач, таких как сбор данных с веб-страниц и выполнение действий, определённых пользователем.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
🔗HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗Github: https://github.com/THUDM/CogVideo
🔗Paper: https://arxiv.org/abs/2408.06072
🔗Подробнее про модели: /channel/ai_machinelearning_big_data/5429
@data_analysis_ml
👩💻 gazpacho — простая и быстрая библиотека для веб-скрейпинга на Python.
🌟 Библиотека обеспечивает понятный интерфейс для скрейпинга HTML-страниц и поиска элементов на основе CSS-селекторов. Основные возможности включают функции для извлечения и обработки данных, не требующие дополнительных зависимостей. Библиотека ориентирована на легкость использования и минимализм.
👩💻 Лицензия: MIT
🖥 Github
@data_analysis_ml
🔍 Label Studio — это универсальный фреймворк для аннотации данных с открытым исходным кодом, поддерживающий множество типов данных, включая текст, изображения, видео и аудио.
🌟 Он позволяет настраивать интерфейсы для различных задач разметки, таких как классификация, сегментация и анализ тональности. Этот инструмент активно используется для разметки данных в проектах, связанных с машинным обучением и NLP.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
🔥 llamacoder — открытый проект для создания приложений на основе текстовых запросов с использованием Llama 3.1 405B.
🌟 Он включает в себя интерфейс, который позволяет пользователям генерировать небольшие приложения с помощью одного запроса, а также предоставляет возможности для дальнейшей настройки и обмена созданными приложениями. Проект создан на Next.js, Tailwind CSS и Sandpack для песочницы кода. Проект активно развивается, и разработчики планируют добавить множество новых функций.
🖥 Github
@data_analysis_ml
Как оценить навыки и выбрать область развития для ML специалиста?
🔹Разберем на открытом уроке «Карьерные пути для ML специалистов», приуроченному к новому курсу «ML Team Lead» от Otus.
✅ Обсудим подходы Microsoft, Google, Netflix к карьерному росту
Познакомимся с методами определения областей для роста специалистов, техниками оценки сильных сторон команды и выявлением областей для развития навыков.
👉 Регистрация и подробности:
https://otus.pw/Sipm/?erid=LjN8KRGDX
#реклама
О рекламодателе
❓Как наконец перестать делать ошибки в моделях процессов в нотации BPMN?!
Узнайте на бесплатном вебинаре онлайн-курса «BPMN: Углубленная практика» - «Как нарисовать модель процессов без ошибок»: регистрация
Структура вебинара:
1. Для чего нужна нотация BPMN;
2. Типовые ошибки в нотации BPMN;
3. Хороший стиль моделирования в нотации BPMN.
Урок идеально подойдёт:
начинающим системным и бизнес-аналитикам,
менеджерам проектов и продуктов.
🤝Понравится вебинар — продолжите обучение на курсе по специальной цене и даже в рассрочку!
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🤖 ИИ и iGaming — в чем связь?
AI трансформирует индустрию, и знание его возможностей — ключ к успеху.
➡️ Поэтому тебе нужно подписаться на Owner 1win!
На канале ты найдешь:
⏺Анализ трендов — как AI меняет правила игры в индустрии азартных игр;
⏺Инсайты от экспертов — мнения лидеров рынка о будущем iGaming с использованием ИИ;
⏺Новые подходы к монетизации и привлечению игроков.
😍 Присоединяйся к Owner 1win и будь первым!
🔥 Agent-S — open-source фреймворк от Simular AI, который создаёт ИИ-агентов, способных автоматически взаимодействовать с компьютером, имитируя действия человека.
💡 Проект предназначен для разработки ИИ-агентов, способных обучаться и выполнять сложные задачи, такие как управление GUI. Поддерживает интеграцию с крупными языковыми моделями (LLM) и предоставляет API для поиска и извлечения данных через Perplexica.
🔐 Лицензия: Apache-2.0
📖 Arxiv
🖥 Github
@data_analysis_ml
🔥 Maxun — бесплатная open-source платформа без кода для извлечения веб-данных.
🌟 Инструмент позволяет пользователям создавать агентов, которые автоматически собирают данные с веб-сайтов, поддерживая различные действия, такие как захват списков, текста и скриншотов. Также предусмотрена поддержка интеграции с Google Sheets, прокси для обхода защит, а для тех, кто не хочет управлять инфраструктурой, доступна облачная версия. Поддерживаются авторизация и двухфакторная аутентификация для работы с защищенными ресурсами.
🖥 Github
@data_analysis_ml
🔥 Integuru — это репозиторий с AI-агентом для автоматического создания интеграций с платформами через реверс-инжиниринг их внутренних API!
💡 Пользователь может предоставить файл сетевых запросов, cookies и указать требуемое действие, а Integuru создает зависимые запросы и Python-код для выполнения этой задачи. Использует модели OpenAI, поддерживает управление входными переменными и автоматическое построение графа зависимостей запросов. Подходит для генерации кода, автоматизации RPA и работы с неофициальными API
🔐 Лицензия: AGPL-3.0
🖥 Github
@data_analysis_ml
🖥 GPT Pilot — это инструмент для автоматизации разработки с помощью GPT-4, позволяющий генерировать, тестировать код и целые приложения через AI!
🌟 Проект фокусируется на автоматизации работы над задачами, ускоряя создание приложений и тестов. GPT Pilot взаимодействует с разработчиком, интерпретируя запросы на естественном языке для генерации кода, что делает его полезным для быстрой разработки и прототипирования.
🖥 Github
@data_analysis_ml
📌 Awesome-list методов глубокого обучения на графах при смещении распределения.
Смещение распределения в графовых данных — это расхождение в распределении данных между обучающим и тестовым наборами, оно может существенно снизить производительность модели машинного обучения.
Репозиторий на Github, в котором собрана коллекция работ по обучению на графах в условиях смещения данных вне распределения (Out-of-Distribution, OOD) в трех основных сценария:
🟢обобщение графов OOD:
🟢адаптация графов во время обучения OOD:
🟢адаптация графов OOD во время тестирования.Обобщение OOD
предполагает, что целевые данные недоступны во время обучения модели, и фокусируется на повышении способности модели к обобщению, чтобы справляться с выборками из любых неизвестных доменов. Адаптация во время обучения
направлена на устранение расхождений в распределении между исходными и целевыми графовыми данными. Она служит для коррекции смещения наблюдений, переноса знаний между графами и смягчения негативных последствий аугментации данных. Адаптация во время тестирования
сосредоточена на настройке предварительно обученной модели на новые целевые данные, которые становятся доступными после начальной фазы обучения. Эта адаптация особенно важна в случаях, когда доступ к исходным данным ограничен.
В каждом сценарии рассматриваются модельно-ориентированные и ориентированные на данные подходы.
▶️Для многих статей предоставлены ссылки на код, реализующий описанные методы.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #GNN #Giihub #AwesomeList
🖼 AdvancedLivePortrait-WebUI — это инструмент, позволяющий анимировать статичные изображения, создавая реалистичные движения лиц!
🌟 В проекте используется WebUI и модели глубокого обучения для генерации анимаций. Платформа предлагает поддержку различных настроек и параметров, чтобы пользователи могли адаптировать анимацию под свои нужды.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
Участвуй в «Совкомбанк SecureHack» с призовым фондом 300 000 рублей и внеси свой вклад в разработку решения для защиты информационных систем Совкомбанка!
Регистрация на хакатон открыта до 4 декабря включительно: ссылка на регистрацию
Хакатон рассчитан на специалистов уровня Middle и выше — экспертов по информационной безопасности, системных аналитиков, разработчиков и архитекторов ПО с опытом в оценке безопасности. Участвуйте индивидуально или в командах до 3-х человек.
Основная задача — разработать инструмент для оценки безопасности информационных систем банка, который будет полезен как для разработчиков и аналитиков ИБ, так и для проектных менеджеров, и сможет:
· Принимать на вход различные данные, такие как опросники и карты сетевых доступов.
· Проводить анализ введенных данных для выявления уязвимостей и рисков информационной безопасности.
· Формировать отчет с заключением об уровне безопасности, описанием существующих рисков и рекомендациями по его улучшению.
Вы сможете:
· Побороться за призовой фонд в 300 000 рублей.
· Решить практическую задачу с использованием современных инструментов и подходов к безопасности.
· Расширить свои компетенции и поработать с командой над междисциплинарным проектом.
Таймлайн хакатона:
· до 4 декабря — регистрация участников
· 6 декабря — старт работы над задачей
· 15 декабря — завершение загрузки решений
· 19 декабря — награждение победителей
Стань автором решения, которое повысит безопасность цифровых сервисов Совкомбанка, и покажи свои способности на практике! Успей зарегистрироваться до 4 декабря: https://cnrlink.com/securehackdataanalysisml
Реклама. ПАО "Совкомбанк". ИНН: 4401116480. erid: LjN8KbCyh
Разбираем тестовое задание на позицию Junior Аналитика в Самокат
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем решать типичные задачи на SQL, которые дают на собеседованиях аналитикам на основании данных из Самоката.
Что будет на вебинаре:
- Проведем аналитику заказов и клиентов с помощью SQL
- Разберем фишки кода на SQL: CASE в агрегациях, удобная фильтрация и другие
- Построим мини-дашборд продаж в Metabase
Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 12 ноября в 19:00
🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!
Зарегистрироваться на бесплатный вебинар
👩💻 WhoDB
Легкий инструмент для работы с данными нового поколения - Postgres, MySQL, SQLite, MongoDB, Redis, MariaDB и ElasticSearch
с удобным интерфейсом.
Hobby - это легкий (~ 20 МБ), мощный и удобный в использовании инструмент управления базами данных, предназначенный для упрощения задач администрирования баз данных.
Сочетая простоту Adminer с улучшенным интерфейсом и производительностью, WhoDB создан на GoLang для обеспечения оптимальной скорости и эффективности работы с данными.
Благодаря таким функциям, как интерактивная визуализация схем и встроенное редактирование, WhoDB подходит как для небольших проектов, так и для сложных корпоративных систем.
WhoDB предоставляет вам возможность общаться с вашими данными, используя естественный язык, благодаря интеграции с Ollama, ChatGPT и Anthropic.
Эта функция позволяет выполнять запросы и управлять вашими данными с помощью диалога вместо SQL запросов.
▪ Github
@data_analysis_ml
Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.
Среди организаторов — эксперты, которые создают технологии будущего: Yandex Cloud, Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.
Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!
Успейте зарегистрироваться до 24 ноября, пока есть места!
💪 Уже есть опыт работы с хранилищами данных, но хочешь прокачать скилы и открыть новые карьерные горизонты?
Тогда скорее залетай на бесплатный ИТ-интенсив в Открытых школах Т1 для аналитиков платформы данных (DWH) — регистрация до 8 ноября!
Открытые школы — это возможность усилить свои навыки и получить оффер от одного из лидеров* российского ИТ-рынка — Холдинга Т1. И все это за месяц, онлайн и в удобное вечернее время.
Что ты получишь?
🔹Уникальный рыночный опыт и масштабные ИТ-проекты: мы одни из первых, кто внедряет технологии для управления данными. Выпускники школ смогут присоединиться к проекту по созданию новой технологической платформы данных в банковской сфере.
🔹Быстрый рост в ИТ при поддержке экспертов и топовых преподавателей. Карьерные треки для выпускников Открытых школ позволяют быстро расти в профессии в Т1.
🔹Работа в бигтех-компании: ИТ-аккредитация, современный техстек, ДМС, удаленка, крутые офисы, спорт, обучение, митапы, ИТ-конференции, программы признания и развития, а также многое другое от Т1.
Более 900 специалистов уже прошли этот путь — теперь твоя очередь! Читай подробности в карточках ☝️ Старт обучения уже 11–12 ноября! Ссылка для подачи заявки.
Реклама. ООО «Т1» ИНН: 7720484492. Erid: 2SDnjcEokmZ
🔥 Fish Speech — новое решение для синтеза речи (TTS) с поддержкой множества языков и возможностью точного воссоздания голоса на основе коротких аудиофрагментов (10–30 секунд)!
🌟 Библиотека поддерживает кросс-языковое TTS, управление тембром и эмоциями, не требуя фонемной зависимости. Также предоставляется интерфейс на базе Gradio и GUI для локального развертывания на разных платформах, включая Linux, Windows и macOS.
🔐 Лицензия: CC BY-NC-SA 4.0
🖥 Github
@data_analysis_ml
🖥 LibreChat — это полностью открытая платформа для развертывания собственного чат-бота, аналогичного ChatGPT.
🌟 Приложение поддерживает интеграцию с различными AI-моделями (OpenAI, Anthropic и др.) и функции, такие как переключение моделей, поиск сообщений, многопользовательский доступ и мультимодальные данные (текст, файлы, изображения). Проект предназначен для гибкой настройки и развертывания как локально, так и в облаке.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
🔥 RagBuilder — это набор инструментов, который поможет вам автоматически создать оптимальную настройку Production-ready Retrieval-Augmented-Generation (RAG) для ваших датасетов.
Кроме того, RagBuilder содержит несколько полезных, готовых шаблонов RAG, которые показали высокую производительность на различных тестах.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
🔥 Ichigo — ИИ инструмент, предназначенный для расширения возможностей текстовых моделей посредством добавления к ним обработки аудио в реальном времени!
🌟 Он расширяет текстовые модели, позволяя им обрабатывать аудиовводы, поддерживать интерактивные многотуровые сессии, а также игнорировать незначительные шумы. В проекте есть инструменты для развертывания с Docker и обучения с Hugging Face, включая генерацию синтетического аудио
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
Топовый ивент для айтишников на МТС True Tech Champ 🚀 уже открыта регистрация!
Финал ИТ-чемпионата состоится совсем скоро:
Дата: 8 ноября
Место: МТС Live Холл
Формат: Офлайн + Онлайн
Что тебя ждет?
🤖 Захватывающее шоу с гонками роботов в интерактивных лабиринтах
🕹 Более 20 активностей для программистов и любителей технологий
🧠 Вдохновляющие выступления экспертов, полезные воркшопы и даже немного юмора от разработчиков
Это мероприятие идеально подходит тебе, если:
— Ты занимаешься программированием
— Тебе интересны современные технологии
— Ты планируешь строить карьеру в сфере ИТ
Регистрация заканчивается через несколько дней — поспеши зарегистрироваться: https://truetechchamp.ru/conf
🌟 Яндекс разработал новое поколение языковых моделей YandexGPT 4.
В Yandex Cloud стало доступно новое семейство моделей, представленное в двух версиях — Pro и Lite. Эти модели обеспечивают более точные ответы, способны работать с расширенным контекстом и лучше справляются с длинными текстами.
🌟 Первым сервисом, использующим YandexGPT 4 с опцией «Про», станет Алиса. Алексей Долотов, руководитель продуктов ML в Yandex Cloud, и Андрей Бут, руководитель команды YandexGPT Alignment, поделились подробностями о процессе обучения YandexGPT 4 и ее отличиях от предыдущих моделей в новой статье на Хабре.
🔗 Статья
@data_analysis_ml
🔥 Data Formulator — инструмент от Microsoft для интерактивного создания визуализаций данных с помощью AI!
🌟 Пользователи могут комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков, при этом AI помогает в трансформации данных для создания диаграмм. Инструмент доступен как через Python, так и через GitHub Codespaces, что позволяет легко развернуть его и использовать для визуализации сложных данных
🔐 Лицензия: MIT
📖 Arxiv
🖥 Github
@data_analysis_ml