data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🔍 Browser-Use — библиотека для автоматизации браузера с использованием языковых моделей (LLM)!

🌟 Библиотека поддерживает взаимодействие с любыми моделями через API, такими как OpenAI и Anthropic, позволяя моделям находить и управлять элементами веб-страниц, работать с несколькими вкладками и обрабатывать динамический контент. Реализована поддержка цепочек действий и адаптивной обработки ошибок. Подходит для сложных задач, таких как сбор данных с веб-страниц и выполнение действий, определённых пользователем.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.

Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀

🔗HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗Github: https://github.com/THUDM/CogVideo
🔗Paper: https://arxiv.org/abs/2408.06072
🔗Подробнее про модели: /channel/ai_machinelearning_big_data/5429

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 gazpacho — простая и быстрая библиотека для веб-скрейпинга на Python.

🌟 Библиотека обеспечивает понятный интерфейс для скрейпинга HTML-страниц и поиска элементов на основе CSS-селекторов. Основные возможности включают функции для извлечения и обработки данных, не требующие дополнительных зависимостей. Библиотека ориентирована на легкость использования и минимализм.

👩‍💻 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔍 Label Studio — это универсальный фреймворк для аннотации данных с открытым исходным кодом, поддерживающий множество типов данных, включая текст, изображения, видео и аудио.

🌟 Он позволяет настраивать интерфейсы для различных задач разметки, таких как классификация, сегментация и анализ тональности. Этот инструмент активно используется для разметки данных в проектах, связанных с машинным обучением и NLP.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 llamacoder — открытый проект для создания приложений на основе текстовых запросов с использованием Llama 3.1 405B.

🌟 Он включает в себя интерфейс, который позволяет пользователям генерировать небольшие приложения с помощью одного запроса, а также предоставляет возможности для дальнейшей настройки и обмена созданными приложениями. Проект создан на Next.js, Tailwind CSS и Sandpack для песочницы кода. Проект активно развивается, и разработчики планируют добавить множество новых функций.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как оценить навыки и выбрать область развития для ML специалиста?

🔹Разберем на открытом уроке «Карьерные пути для ML специалистов», приуроченному к новому курсу «ML Team Lead» от Otus. 

Обсудим подходы Microsoft, Google, Netflix к карьерному росту

Познакомимся с методами определения областей для роста специалистов, техниками оценки сильных сторон команды и выявлением областей для развития навыков.

👉 Регистрация и подробности:
https://otus.pw/Sipm/?erid=LjN8KRGDX

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

❓Как наконец перестать делать ошибки в моделях процессов в нотации BPMN?!

Узнайте на бесплатном вебинаре онлайн-курса «BPMN: Углубленная практика» - «Как нарисовать модель процессов без ошибок»: регистрация

Структура вебинара:
1. Для чего нужна нотация BPMN;
2. Типовые ошибки в нотации BPMN;
3. Хороший стиль моделирования в нотации BPMN.

Урок идеально подойдёт:
начинающим системным и бизнес-аналитикам,
менеджерам проектов и продуктов.

🤝Понравится вебинар — продолжите обучение на курсе по специальной цене и даже в рассрочку!

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Анализ данных (Data analysis)

🤖 ИИ и iGaming — в чем связь?

AI трансформирует индустрию, и знание его возможностей — ключ к успеху.

➡️ Поэтому тебе нужно подписаться на Owner 1win!

На канале ты найдешь:

Анализ трендов — как AI меняет правила игры в индустрии азартных игр;

Инсайты от экспертов — мнения лидеров рынка о будущем iGaming с использованием ИИ;

Новые подходы к монетизации и привлечению игроков.

😍 Присоединяйся к Owner 1win и будь первым!

Читать полностью…

Анализ данных (Data analysis)

🔥 Agent-S — open-source фреймворк от Simular AI, который создаёт ИИ-агентов, способных автоматически взаимодействовать с компьютером, имитируя действия человека.

💡 Проект предназначен для разработки ИИ-агентов, способных обучаться и выполнять сложные задачи, такие как управление GUI. Поддерживает интеграцию с крупными языковыми моделями (LLM) и предоставляет API для поиска и извлечения данных через Perplexica.

🔐 Лицензия: Apache-2.0

📖 Arxiv
🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Maxun — бесплатная open-source платформа без кода для извлечения веб-данных.

🌟 Инструмент позволяет пользователям создавать агентов, которые автоматически собирают данные с веб-сайтов, поддерживая различные действия, такие как захват списков, текста и скриншотов. Также предусмотрена поддержка интеграции с Google Sheets, прокси для обхода защит, а для тех, кто не хочет управлять инфраструктурой, доступна облачная версия. Поддерживаются авторизация и двухфакторная аутентификация для работы с защищенными ресурсами.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Integuru — это репозиторий с AI-агентом для автоматического создания интеграций с платформами через реверс-инжиниринг их внутренних API!

💡 Пользователь может предоставить файл сетевых запросов, cookies и указать требуемое действие, а Integuru создает зависимые запросы и Python-код для выполнения этой задачи. Использует модели OpenAI, поддерживает управление входными переменными и автоматическое построение графа зависимостей запросов. Подходит для генерации кода, автоматизации RPA и работы с неофициальными API

🔐 Лицензия: AGPL-3.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Яндекс объявил победителей ежегодной научной премии Yandex ML Prize. В этом году из 160 заявок выбрали 14 учёных, которые представили наиболее значимые разработки в области генеративных моделей, обработки естественного языка, компьютерного зрения, информационного поиска, распознавания и синтеза речи, когнитивной робототехники.

Вот некоторые из лауреатов:
🟢 Елена Тутубалина (Казанский федеральный университет, AIRI) занимается исследования в в области анализа естественного языка, биомедицинских и химических данных. Её разработки могут сделать процесс разработки лекарств более эффективным.

🟢 Алексей Скрынник (AIRI) разрабатывает алгоритмы многоагентного обучения, которые позволяют агентам (например, роботам) работать автономно, без центрального управления. Эти методы подходят для задач, где важна скоординированность действий, например, в логистике и на промышленных объектах.

🟢 Валерия Ефимова (ИТМО) ведет научную деятельность в области компьютерного зрения в областях медицины и промышленности. Её исследования могут повысить эффективность производства в промышленных предприятиях — находить дефекты и оценивать качество материалов.

А что они получат за свои достижения? Денежные награды, а также доступ к Yandex 360 и гранту на работу с сервисом Yandex Cloud — с его помощью можно выполнять объёмные вычисления и обрабатывать данные экспериментов.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📖 Книга "Algorithms for Decision Making" от MIT охватывает алгоритмы и методы для принятия решений в условиях неопределённости

🌟 В книге обсуждаются такие темы как оптимизация мл-алгоритмов , машинное обучение, вероятностные модели и планирование, с акцентом на алгоритмы для принятия решений в реальном времени и под воздействием ограничений. Этот материал полезен для специалистов в областях искусственного интеллекта, дата саентистов, робототехники и инженерии, где важно оптимизировать стратегии в условиях ограниченной информации.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📚 Свежие гайды от Anthropic : Реализация Contextual RAG с открытым исходным кодом

Что внутри :
1. Использование Llama 3.2 3B для эффективной генерации контекста для каждого чанка
2. Использование алгоритмов ранжирования: векторного и BM25
3. Выполнение гибридного поиска
4. Ранжирование результатов гибридного поиска
5. Генерации с помощью Llama 3.1 405B

📌 Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Тренажёр-практикум Python и SQL
(от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML


Откройте карьерные возможности в машинном обучении и аналитике данных
- Научитесь проводить анализ больших объёмов данных.
- Создавайте интерактивные и 3D-визуализации для представления данных.
- Освойте работу с SQL-базами для хранения, модификации и извлечения данных.

Для кого будет полезен этот тренажёр?

Аналитикам данных, бизнес-аналитикам и продуктовым специалистам:
Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения.

Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML:
Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации.

Инженерам данных и всем заинтересованным:
Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе.

Тем, кто стремится автоматизировать процессы и управлять данными:
После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL.

🎓 Попробуйте первые уроки бесплатно!
В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и применять эти навыки для решения практических задач.
Пройдите 6 практических заданий сразу!
PS. В демо также доступен ИИ-бот ДуДу с code review 24/7.

👉 Регистрация на демо-доступ

Читать полностью…

Анализ данных (Data analysis)

Разбираем тестовое задание на позицию Junior Аналитика в Самокат

Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем решать типичные задачи на SQL, которые дают на собеседованиях аналитикам на основании данных из Самоката.

Что будет на вебинаре:
- Проведем аналитику заказов и клиентов с помощью SQL

- Разберем фишки кода на SQL: CASE в агрегациях, удобная фильтрация и другие

- Построим мини-дашборд продаж в Metabase

Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 12 ноября в 19:00

🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!

Зарегистрироваться на бесплатный вебинар

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 WhoDB

Легкий инструмент для работы с данными нового поколения - Postgres, MySQL, SQLite, MongoDB, Redis, MariaDB и ElasticSearch с удобным интерфейсом.

Hobby - это легкий (~ 20 МБ), мощный и удобный в использовании инструмент управления базами данных, предназначенный для упрощения задач администрирования баз данных.

Сочетая простоту Adminer с улучшенным интерфейсом и производительностью, WhoDB создан на GoLang для обеспечения оптимальной скорости и эффективности работы с данными.

Благодаря таким функциям, как интерактивная визуализация схем и встроенное редактирование, WhoDB подходит как для небольших проектов, так и для сложных корпоративных систем.

WhoDB предоставляет вам возможность общаться с вашими данными, используя естественный язык, благодаря интеграции с Ollama, ChatGPT и Anthropic.

Эта функция позволяет выполнять запросы и управлять вашими данными с помощью диалога вместо SQL запросов.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.

Среди организаторов — эксперты, которые создают технологии будущего: Yandex Cloud, Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.

Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!

Успейте зарегистрироваться до 24 ноября, пока есть места!

Читать полностью…

Анализ данных (Data analysis)

💪 Уже есть опыт работы с хранилищами данных, но хочешь прокачать скилы и открыть новые карьерные горизонты?

Тогда скорее залетай на бесплатный ИТ-интенсив в Открытых школах Т1 для аналитиков платформы данных (DWH) — регистрация до 8 ноября!

Открытые школы — это возможность усилить свои навыки и получить оффер от одного из лидеров* российского ИТ-рынка — Холдинга Т1. И все это за месяц, онлайн и в удобное вечернее время.

Что ты получишь?

🔹Уникальный рыночный опыт и масштабные ИТ-проекты: мы одни из первых, кто внедряет технологии для управления данными. Выпускники школ смогут присоединиться к проекту по созданию новой технологической платформы данных в банковской сфере.
🔹Быстрый рост в ИТ при поддержке экспертов и топовых преподавателей. Карьерные треки для выпускников Открытых школ позволяют быстро расти в профессии в Т1.
🔹Работа в бигтех-компании: ИТ-аккредитация, современный техстек, ДМС, удаленка, крутые офисы, спорт, обучение, митапы, ИТ-конференции, программы признания и развития, а также многое другое от Т1.

Более 900 специалистов уже прошли этот путь — теперь твоя очередь! Читай подробности в карточках ☝️ Старт обучения уже 11–12 ноября! Ссылка для подачи заявки.

Реклама. ООО «Т1» ИНН: 7720484492. Erid: 2SDnjcEokmZ

Читать полностью…

Анализ данных (Data analysis)

🔥 Fish Speech — новое решение для синтеза речи (TTS) с поддержкой множества языков и возможностью точного воссоздания голоса на основе коротких аудиофрагментов (10–30 секунд)!

🌟 Библиотека поддерживает кросс-языковое TTS, управление тембром и эмоциями, не требуя фонемной зависимости. Также предоставляется интерфейс на базе Gradio и GUI для локального развертывания на разных платформах, включая Linux, Windows и macOS.

🔐 Лицензия: CC BY-NC-SA 4.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 LibreChat — это полностью открытая платформа для развертывания собственного чат-бота, аналогичного ChatGPT.

🌟 Приложение поддерживает интеграцию с различными AI-моделями (OpenAI, Anthropic и др.) и функции, такие как переключение моделей, поиск сообщений, многопользовательский доступ и мультимодальные данные (текст, файлы, изображения). Проект предназначен для гибкой настройки и развертывания как локально, так и в облаке.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 RagBuilder — это набор инструментов, который поможет вам автоматически создать оптимальную настройку Production-ready Retrieval-Augmented-Generation (RAG) для ваших датасетов.

Кроме того, RagBuilder содержит несколько полезных, готовых шаблонов RAG, которые показали высокую производительность на различных тестах.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Ichigo — ИИ инструмент, предназначенный для расширения возможностей текстовых моделей посредством добавления к ним обработки аудио в реальном времени!

🌟 Он расширяет текстовые модели, позволяя им обрабатывать аудиовводы, поддерживать интерактивные многотуровые сессии, а также игнорировать незначительные шумы. В проекте есть инструменты для развертывания с Docker и обучения с Hugging Face, включая генерацию синтетического аудио

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Топовый ивент для айтишников на МТС True Tech Champ 🚀 уже открыта регистрация!

Финал ИТ-чемпионата состоится совсем скоро:

Дата: 8 ноября
Место: МТС Live Холл
Формат: Офлайн + Онлайн

Что тебя ждет?
🤖 Захватывающее шоу с гонками роботов в интерактивных лабиринтах
🕹 Более 20 активностей для программистов и любителей технологий
🧠 Вдохновляющие выступления экспертов, полезные воркшопы и даже немного юмора от разработчиков

Это мероприятие идеально подходит тебе, если:
— Ты занимаешься программированием
— Тебе интересны современные технологии
— Ты планируешь строить карьеру в сфере ИТ

Регистрация заканчивается через несколько дней — поспеши зарегистрироваться: https://truetechchamp.ru/conf

Читать полностью…

Анализ данных (Data analysis)

🌟 Яндекс разработал новое поколение языковых моделей YandexGPT 4.

В Yandex Cloud стало доступно новое семейство моделей, представленное в двух версиях — Pro и Lite. Эти модели обеспечивают более точные ответы, способны работать с расширенным контекстом и лучше справляются с длинными текстами.

🌟 Первым сервисом, использующим YandexGPT 4 с опцией «Про», станет Алиса. Алексей Долотов, руководитель продуктов ML в Yandex Cloud, и Андрей Бут, руководитель команды YandexGPT Alignment, поделились подробностями о процессе обучения YandexGPT 4 и ее отличиях от предыдущих моделей в новой статье на Хабре.

🔗 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Data Formulator — инструмент от Microsoft для интерактивного создания визуализаций данных с помощью AI!

🌟 Пользователи могут комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков, при этом AI помогает в трансформации данных для создания диаграмм. Инструмент доступен как через Python, так и через GitHub Codespaces, что позволяет легко развернуть его и использовать для визуализации сложных данных

🔐 Лицензия: MIT

📖 Arxiv
🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💡 zerox — инструмент для извлечения текста и структурированной информации из PDF-документов с использованием методов OCR (распознавания текста) и NLP

🌟 Основной акцент сделан на поддержку zero-shot обучение (без обучения на конкретных примерах), что позволяет извлекать текстовые данные из документов без необходимости предварительной настройки или обучения на конкретных данных. Проект предназначен для автоматизации анализа и обработки PDF в бизнес-приложениях

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как нужно укомплектовать команду ML для решения задачи?

🔹Расскажем на открытом уроке «Структура и построение ML команды» про композицию ML команды, различные роли в ней и их зоны ответственности

Поговорим о том, зачем нужны ролы Data Scientist, Data Analyst, BI Analyst, ML Engineer, Data Engineer. Как организовать работу команды и взаимодействие внутри нее.

Урок приурочен новому курсу «ML Team Lead» от Otus.

👉 Регистрация и подробности:
https://otus.pw/P1bV/?erid=LjN8KSHoV

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

🔥 Rocketnotes — веб-приложение для ведения заметок с поддержкой Markdown, оснащённое инструментами генерации текста и семантического поиска на базе LLM!

🌟 Приложение полностью работает без сервера и поддерживает локальный запуск с Docker. Среди функций — иерархия документов, подсветка синтаксиса, поиск по содержимому и взаимодействие с заметками через чаты

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌Учебное пособие по диффузионным моделям для обработки изображений и СV.

Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.

Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.

▶️ Содержание:

Вариационный автоэнкодер (VAE)

🟢Структурные элементы VAE
🟢Нижняя граница доказательства (ELBO
🟢Оптимизация в VAE
🟢Заключение и ограничения

Вероятностная модель диффузионного денойза (DDPM)

🟠Базовые элементы DDPM
🟠Нижняя граница доказательства (ELBO)
🟠Распределение обратного процесса
🟠Обучение и инференс
🟠Предсказание шума
🟠Неявная модель диффузионного денойза (DDIM)
🟠Заключение и преимущества DDPM и DDIM

Динамика сопоставления баллов Ланжевена (SMLD)

🟢Выборка из распределения
🟢Функция оценки Штейна
🟢Методы сопоставления баллов
🟢Итоги по SMLD

Стохастическое дифференциальное уравнение (SDE)

🟠От итерационных алгоритмов к обыкновенным дифференциальным уравнениям
🟠Что такое SDE?
🟠SDE для DDPM и SMLD
🟠Численные решатели для ODE и SDE
🟠Заключение и взаимосвязь между DDPM, SMLD и SDE

Уравнения Ланжевена и Фоккера-Планка

🟢Броуновское движение
🟢Мастер-уравнение
🟢Разложение Крамерса-Мойала
🟢Уравнение Фоккера-Планка
🟢Заключение и связь между SDE и уравнением Фоккера-Планка


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #Tutorial #Duffusion

Читать полностью…
Subscribe to a channel