data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🎮Как использовать ИИ в игровой индустрии?

Расскажет Артем Голубин, Senior Data Scientist, преподаватель курса Reinforcement Learning в OTUS на открытом уроке. 

Вместе с опытным экспертом вы разберете:

- историю развития интеллектуальных агентов для настольных и компьютерных игр; 
- подходы к созданию игровых ботов с помощью обучения с подкреплением;
- как обучить модель эффективно управлять группой юнитов в одной из популярных игр.

⚡Занятие пройдёт 22 февраля в 20:00 мск и будет приурочено к старту курса «Reinforcement Learning».
 
👉Регистрируйтесь прямо сейчас, чтобы занять место на открытом уроке и получить запись.

При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа

erid: LjN8K9Rfy

Читать полностью…

Анализ данных (Data analysis)

Хотите разобраться в различиях 3 основных направлений Data Science: машинного обучения, data-инженерии и data-аналитики? Узнать, чем занимаются специалисты этой сферы и насколько они востребованы?

👉 Скорее регистрируйтесь на бесплатный мини-курс по Data Science и забирайте приятный бонус: https://epic.st/iwKT_

После просмотра видеоматериалов будет онлайн-встреча с Анастасией Борневой — специалистом в сфере программирования. Разберём пройденный материал и обсудим актуальные вопросы профессии.

🎉 Все участники получат крутые подарки!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

Станьте бизнес-аналитиком вместе с Практикумом

Наша цель — помочь вам найти своё (рабочее) место в IT. Поэтому мы учим на практике, помогаем готовить резюме и портфолио, проводим тестовые собеседования и предлагаем партнёрские вакансии.

◾️ Нашим выпускникам удавалось совмещать учёбу с работой: учиться можно в любое время, главное — соблюдать дедлайны.
◾️ Если что-то пойдёт не так, можно взять паузу на неотложные дела.
◾️ Оплачивать учёбу можно частями, почти как по подписке.
◾️ Если поймёте, что поторопились с выбором, — достаточно написать об этом в поддержку. Мы вернём деньги за оставшиеся дни учёбы.

Ближайший старт потоков — 29 февраля

Кнопка запуска карьерных перемен

Читать полностью…

Анализ данных (Data analysis)

🤖 DataDreamer - это мощная библиотека Python с открытым исходным кодом для легкого создания промптов, синтетических данных и рабочих процессов обучения.

Установка:

pip3 install datadreamer.dev

репо: https://github.com/datadreamer-dev/DataDreamer
документация: https://datadreamer.dev/docs/latest/#installation
abs: https://arxiv.orag/abs/2402.10379

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💙🎓Прокачайте скиллы c Холдингом Т1! Запускаем программу найма в формате ИТ-интенсива.

Открытые школы Т1 — это новый образовательно-карьерный формат, объединяющий offer week и обучение без отрыва от работы.

🤚Поможем улучшить навыки и освоить новые перспективы, если вы готовы к переменам в карьере и хотите присоединиться к команде Холдинга Т1 — лидера* ИТ-рынка, а также имеете опыт работы от 1 года в одном из направлений подбора.

Направления:
📊Системный аналитик
☕️Разработчик Java
📱Разработчик JS+React
🪲Ручной и авто-тестировщик

📌Как это работает?
🔹Подайте заявку на сайте ⬇️Рассмотрим резюме, если ваш профиль подойдет по опыту и навыкам, то попросим пройти тестирование👌 При успешном прохождении — зачислим в группу
🔹Лучшим назначим интервью и направим оффер!

Формат обучения: онлайн
Программа длится 1 месяц

🏳️Принимаем заявки до 25 февраля! *По версии CNews Analytics 2022, TAdviser 2021 и RAEX 2023 

Читать полностью…

Анализ данных (Data analysis)

12 стратегий настройки готовых к производству RAG-приложений

В этой статье будем рассматривать конвейер RAG (Retrieval-Augmented Generation — генерация с расширенным извлечением) с точки зрения специалиста по изучению данных.

Мы обсудим потенциальные “гиперпараметры”, с которыми можно экспериментировать, чтобы улучшить производительность конвейера RAG. В качестве аналогии можно привести опыты в сфере глубокого обучения, где, например, методы расширения данных — это не гиперпараметры, а своеобразные рычаги, которые настраивают и с которыми проводят эксперименты.

В этой статье мы также рассмотрим различные применимые стратегии настроек, сами по себе не являющиеся гиперпараметрами.

Мы обсудим нижеуказанные гиперпараметры, распределенные по соответствующим этапам. На этапе поглощения данных конвейером RAG можно добиться повышения производительности за счет:

🟡очистки данных;
🟡разбивки на фрагменты;
🟡эмбеддинг-моделей;
🟡использования метаданных;
🟡мультииндексации;
🟡алгоритмов индексирования.

На этапе вывода (извлечения и генерации) вы можете воспользоваться:

🟢преобразованием запросов;
🟢оптимизацией параметров извлечения;
🟢продвинутыми стратегиями извлечения;
🟢моделями повторного ранжирования;
🟢LLM;
🟢промпт-инжинирингом.

Обратите внимание: в этой статье рассматриваются варианты использования RAG по отношению к текстам. Для мультимодальных RAG-приложений могут применяться иные соображения.

📌 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧑‍💻 Code to Flow - бесплатная инновационная нейросеть для анализа, объяснения и визуализации кода.

Это мощный инструмент для разбиения кода на шаги и его объяснения.

Используя ИИ, Code to Flow работает с различными языками программирования и фреймворками.

Он пригодится как при обучении, так и при реальной работе, помогая лучше понимать структуру и логику кода.

Пробовать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Идея для ML проекта 💡

Создадим мл-приложение по поиску вашего близнеца среди знаменитостей 🔎👸 ↓

Здесь приведен полный пример с исходным кодом, чтобы узнать, как создать полноценное ML-приложение, которое найдет похожую на вас знаменитость/

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Lightwood

При работе мы Дата Сентисты тратим много времени на написание одного и того же кода для очистки, подготовки данных и построения моделей ⌛️.

Рекомендую попробовать lightwood - AutoML фреймворк, который принимает на вход данные, целевую переменную и генерирует для вас целый конвейер машинного обучения.

pip3 install lightwood

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

DP-Auditorium - один из самых мощных фреймворков для защиты данных с открытым исходным кодом от Google.

Подробнее
Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Раньше в pandas, если в Series (серии) были пропущенные значения, то тип данных преобразовывался в float, что приводило к потенциальной потере данных.

С интеграцией Apache Arrow в #pandas 2.0 эта проблема была решена.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈 tfcausalimpact

Библиотека для поиска причинно-следственных связей на Python, основанная на пакете R от Google. Построена с использованием TensorFlow Probability.

Вы проводите маркетинговую кампанию и видите, что количество пользователей увеличивается. Но как узнать, связано ли это с вашей кампанией или это просто совпадение?

Вот тут-то и пригодится tfcausalimpact. Бибилиотека помогает прогнозировать будущие тренды и тенденции в данных и сравнивает ваши показатели с фактическими данными для получения статистических выводов.

pip install tfcausalimpact

📌Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🍏 Guiding Instruction-based Image Editing via Multimodal Large Language Models

Apple
выпустила новую модель искусственного интеллекта с открытым исходным кодом MGIE.

Интсрумент может редактировать изображения на основе промптов на естественном языке

Добавить объект, изменить форму, удалить фон, изменить цвета на фото, от вас нужно лишь текстовое описание.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📜 10 месяцев назад был запущен проект Vesuvius Challenge, для расшифровки древних Геркуланумских папирусов, которые были погребены и обуглены в результате извержения Везувия в 79 году нашей эры.

Обугленные свитки обнаружили в 1752 году на вилле у Неаполитанского залива, которая, когда-то принадлежала тестю Юлия Цезаря.

Сегодня спустя 2000 лет мы наконец-то можем прочитать эти свитки.

Студенты расшифровали фрагмент знаменитого свитка с помощью алгоритмов мо. Им удалось прочитать более 2000 слов на обугленном папирусе, погребенном в результате извержения Везувия.

В работе представлены результаты трех различных архитектур моделей, каждая из которых подтверждает выводы других, причем наиболее качетвенные изображения дает модель на основе TimeSformer. Код обнаружения чернил был опубликован на GitHub.

Алгоритм обучили читать чернила как на поверхности, так и на скрытых слоях нераспечатанных свитков.

Оказалось, что в тексте говорилось об удовольствии — высшем благе в эпикурейской философии.

Автором текста признали Филодема — философа, жившего в усадьбе, где нашли этот свиток.

В расшифрованных фрагментах автор размышляет о том, может ли доступность товаров, таких как еда, влиять на удовольствие, которое они доставляют.

Расшифровавшие свиток Юссеф Надер, Люк Фарритор и Джулиан Шиллигер разделили главный приз Vesuvius Challenge в размере 700 000 долларов.

Удалось расшифровать всего 5% всего свитка, но это уже огромное достижение для науки.

Подробнее
Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Список лучших Python-библиотек 2023 года по версии Tryolabs.

LiteLLM — библиотека, которая обеспечивает бесшовную интеграцию с различными языковыми моделями. Она позволяя использовать унифицированный формат как для ввода, так и для вывода вне зависимости от применяемой LLM.

MLX — это библиотека от Apple для машинного обучения на процессорах Apple Silicon.

Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.

PyApp — упрощает распространение и установку Python-приложений. Это достигается за счёт встраивания Python в самоустанавливающийся пакет, совместимый со всеми операционными системами.

Unstructured — набор инструментов для предварительной обработки текста.

ZenML и AutoMLOps — два мощных инструмента для создания MLOps-пайплайнов.

WhisperX — библиотека для распознавания речи, способная обнаружить нескольких говорящих на аудио.

AutoGen — инстрмент, который позволяет создавать LLM-приложения с несколькими агентами, способными общаться друг с другом для решения задач.

Guardrails — помогает заставить LLM возвращать структурированные, качественные ответы определённого типа.

Temporian — библиотека для простой и эффективной предобработки и фича-инжиниринга временных данных в Python.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💡 A Guide to Production Level Deep Learning 🎬 📜 ⛴️

Руководство по созданию практических систем глубокого обучения производственного уровня для использования в реальных приложениях.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 Карпатый объявил о своем уходе из OpenAI 4 дня назад.

Сегодня он выпустил реализацию алгоритма Byte Pair Encoding, лежащего в основе GPT и большинства LLM.

Byte Pair Encoding: "Минимальный, чистый, код для алгоритма Byte Pair Encoding (BPE), обычно используемого в токенизации LLM".

Самое интересное? Он написан в 70 строках на чистом питоне. (На самом деле это 37 строк кода, если убрать комментарии и пустые строки.)

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Топ бесплатных курсов по Python в 2024 году
Open AI Sora. Модели генерации видео как симуляторы мира
Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями
Книга по искусственному интеллекту с открытым исходным кодом от Hugging Face.
Google представляет Как обучить эффективные LLM на данных
Курсы Сomputer Science с видеолекциями актуальные в 2024 году
Google создала MobileDiffusion -модель для быстрой генерации изображений на смартфонах.
Some (Pleasant) Surprises about the Surprise Module: A Beginner's Thoughts
Recapping the AI, Machine Learning and Data Science Meetup — Feb 15, 2024
Anaconda for Machine Learning: A Comprehensive Overview
3 Ways To Store Data in Computer Vision Applications
"Day 30 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -9)
Prompt Engineering For Developers: A Complete Guide!
How to Build an LLM RAG Pipeline with Upstash Vector Database
Earthquake Heatmap using Python folium library
Day 29 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -8)

Проекты
- V-JEPA новый метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео.
- UserSketch — инстремнт для создания чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений.
- Огромный кураторский список материалов: обнаружение лиц
- Специализированные библиотеки Python для решения уникальных задач
- Новый фреймворк для создания видео с конкретным человеком.

Посмотреть:
🌐 DeepMind’s New AI Beats Billion Dollar Systems - For Free! (⏱ 07:20)
🌐 OpenAI Sora: The Age Of AI Is Here! (⏱ 08:27)
🌐 Enhance! AI Super Resolution Is Here! (⏱ 07:05)
🌐 C# полный курс 2024. Урок 7 Условия (⏱ 15:06)
🌐 Телеграм бот приема заявок и рассылок! Огромный прирост подписчиков! (⏱ 17:10)
🌐 Запрещенный синтаксис #Python, за который вас уволят! (⏱ 00:50)
🌐 Towards Explainable and Language-Agnostic LLMs with Walid S. Saba (⏱ 35:48)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📖 ReadAgent - LLM-агент, который читает и объясняет текст, длина которого в 20 раз превышает длину контекста.

Подобно человеку, он решает, где сделать паузу, хранит нечеткие эпизодические воспоминания о прошлом чтении и ищет подробную информацию по мере необходимости.

Colab
Статья
Проект

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Вебинар Tarantool «Анализируем данные в real-time»

Когда: 21 февраля, 16:00 МСК
Где: онлайн

Расскажем, как организовать анализ большого объема данных в реальном времени с помощью in-memory колоночной СУБД. На вебинаре поговорим о том:

• Как объединить транзакционные и аналитические (OLAP и OLTP) системы и сократить затраты на дублирование данных.
• Как ускорить аналитические запросы и формировать отчетность в real-time.
• Как организовать хранение и управление данными (Feature Store) для ML-задач.

Также мы рассмотрим практические кейсы применения продукта Tarantool Column Store: формирование финансовой отчетности с минимальными задержками, ускорение и повышение точности антифрод-систем, повышение производительности системы выдачи кредитов.

Спикеры:

• Николай Карлов, директор инновационных проектов VK Tech,
• Руслан Галиев, продуктовый менеджер Tarantool Column Store.

Вебинар будет полезен архитекторам, дата-инженерам, инженерам DevOps и разработчикам аналитических систем.

Регистрация

Читать полностью…

Анализ данных (Data analysis)

🗓 22 февраля, 16:00
📌Аналитические инструменты для ленивых

Что делать, если хочется заниматься аналитикой данных, а не установкой библиотек и инструментов? Присоединяйтесь на практический вебинар от @Selectel, на котором коллеги расскажут, как получить доступ к GPU без лишней настройки, запустить несколько изолированных JupyterLab на одной GPU и развернуть собственную LLM.

Основные темы:
◽️Инфраструктура с GPU.
◽️Генерация изображений.
◽️ML-эксперименты и запуск LLM.
◽️Сбор данных и BI-аналитика.

Регистрируйтесь на мероприятие и участвуйте в розыгрыше приза за лучший вопрос: https://slc.tl/9fr1o

Реклама ООО «Селектел» erid 2VtzqwfEu69

Читать полностью…

Анализ данных (Data analysis)

Если вы увлекаетесь Computer Science настолько, что хотите перейти от типовых кейсов к задачам со звёздочкой, советуем обратить внимание на образовательные программы под руководством экспертов-практиков. Такие форматы, насыщенные живым общением и возможностью поработать над реальными проектами, - лучший способ выйти на новый уровень.

Начать можно с интенсивов. Например, в апреле Яндекс Образование проведёт бесплатный двухнедельный студкемп по машинному обучению на базе НИУ ВШЭ. Среди преподавателей эксперты из Школы анализа данных, Яндекса и ВШЭ. Программа кемпа направлена на насыщенную практическую работу и обмен опытом - отличная возможность добавить новый проект и сертификат в портфолио.

На программе ждут студентов профильных направлений. Чтобы подать заявку, заполните анкету участника до 29 февраля. Всем, кто успешно пройдёт отбор, Яндекс Образование оплатит дорогу и проживание. Поторопитесь - количество мест ограничено.

Читать полностью…

Анализ данных (Data analysis)

Всё ещё собираете и обрабатываете данные вручную? Попробуйте SQL! Освойте и полюбите язык, который пригодится программисту, продакт-менеджеру, BI-аналитику, data-инженеру или специалисту по Data Science.

Зарегистрируйтесь на мини-курс и получите 5 полезных статей по SQL и Excel: https://epic.st/tmcpo
Вас ждут:
— море полезной теории;
— практические работы для закрепления навыков;
— бонусы: скидка 10 000 рублей на любой курс Skillbox, бессрочный доступ к материалам, полезные чек-листы и год бесплатного изучения английского языка;
— персональная карьерная консультация.

Что будем делать:
— Писать запросы на языке SQL.
— Проводить аналитику для бизнеса.
— Разрабатывать автоматизированную отчётность в Excel.
— Обрабатывать данные в Power Query.
— Визуализировать показатели в Excel: будете создавать красивые графики, диаграммы и отчёты.
— Применять инструменты Excel для анализа данных.

Спикер — Мкртич Пудеян, специалист по анализу данных в «Газпромбанке». Сертифицированный SQL-разработчик от Microsoft, 8 лет работал специалистом по хранилищам данных в Tele2.

Оставьте заявку и получите доступ к мини-курсу прямо сейчас.

🌟Откройте новые возможности для карьеры!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

erid: LjN8KCRiJ

Аналитик данных входит в топ-5 самых востребованных профессий в России. Он собирает, анализирует, структурирует данные — и благодаря этому помогает бизнесу решать проблемы и принимать важные решения.
Получить профессию с нуля можно всего за 5 месяцев на курсе «Аналитик данных» от «karpovꓸcourses»

Для старта достаточно знания математики на уровне школьной программы — всему остальному вас научат на курсе. Преподаватели — практикующие спецы, которые знают, какие навыки нужны для успешной карьеры, поэтому обучение включает в себя и теорию, и отработку знаний на практических задачах. Вы освоете Python и SQL, научитесь визуализировать данные, теорией вероятностей, статистикой и A/B тестами, сформируете продуктовое видение и понимание бизнеса и продукта.
По итогу вы соберете готовое портфолио, а школа поможет с трудоустройством. По статистике 89% выпускников находят работу в течение трёх месяцев.

Присоединяйтесь к курсу со скидкой 5% по промокоду DAML: https://clc.to/HiQ4Fg

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.

Читать полностью…

Анализ данных (Data analysis)

🖥 PyForest

Писать одни и те же импорты снова и снова - это путсая трата времени. Попробуйте pyforest, этот интсрумент сделает работу по импорту библиотек за вас.

С помощью pyforest вы можете использовать все свои любимые библиотеки Python, не импортируя их перед этим.

Если вы используете пакет, который еще не импортирован, pyforest импортирует его за вас и добавит код в первую ячейку Jupyter.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⭐️ YOLO-World Real-Time Open-Vocabulary Object Detection

Обнаружение объектов в режиме реального времени БЕЗ ОБУЧЕНИЯ.

YOLO-World - это новая SOTA, которая превосходит предыдущие модели как по точности обнаружения, так и по скорости. 35,4 AP при 52,0 FPS на V100.

Все, что вам нужно, это изображение + промпт (список категорий, которые вы хотите обнаружить).

🖥 Github: https://github.com/AILab-CVC/YOLO-World

📚 Paper: https://arxiv.org/abs/2401.17270

⚡️Demo: https://www.yoloworld.cc

🤗Hf: https://huggingface.co/spaces/stevengrove/YOLO-World

ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

🔥 Графовые нейронные сети (ГНС) стали мощным методом работы с уникальными и разнородными данными из графов.

Google объявили о выпуске TensorFlow GNN 1.0 (TF-GNN), проверенной на практике библиотеки для построения GNN в масштабе.

Анонс: https://blog.research.google/2024/02/graph-neural-networks-in-tensorflow.html

Colab: https://colab.research.google.com/github/tensorflow/gnn/blob/master/examples/notebooks/ogbn_mag_e2e.ipynb

Github: https://github.com/tensorflow/gnn

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

«Хочу работать у вас бизнес-аналитиком»😎 — мы всё чаще получаем подобный запрос на почту, ведь бизнес-аналитики сейчас пользуются огромным спросом у крупных компаний в России.

Чтобы побольше рассказать вам про эту профессию, мы решили провести открытый вебинар!

14 февраля в 11:00 ждем вас на онлайн лекции «Бизнес-анализ для ИТ. Погружение в профессию бизнес-аналитика» от Школы аналитики ITFB Group🙂

Для кого вебинар?
Он будет полезен студентам старших курсов, выпускникам вузов, а также тем, кто думает о смене профессии. 

И что потом?
После вебинара у вас будет возможность продолжить обучение в Школе аналитики ITFB Group. 

Участие бесплатное😉

Зарегистрироваться и узнать подробности✌️

Читать полностью…

Анализ данных (Data analysis)

🏆 DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

DynamiCrafter, получила обновление, это модель которая может анимировать неподвижные изображения с открытым доменом на основе промптов.

🌐page: https://doubiiu.github.io/projects/DynamiCrafter
📄paper: https://arxiv.org/abs/2310.12190
🧬code: https://github.com/Doubiiu/DynamiCrafter

@data_analysis_ml

Читать полностью…
Subscribe to a channel