Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted

Анализ данных (Data analysis)

14 Feb 2024 09:17

✅ DP-Auditorium - один из самых мощных фреймворков для защиты данных с открытым исходным кодом от Google.

▪Подробнее
▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 Feb 2024 16:35

🖥 Раньше в pandas, если в Series (серии) были пропущенные значения, то тип данных преобразовывался в float, что приводило к потенциальной потере данных.

С интеграцией Apache Arrow в #pandas 2.0 эта проблема была решена.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

08 Feb 2024 14:01

📈 tfcausalimpact

Библиотека для поиска причинно-следственных связей на Python, основанная на пакете R от Google. Построена с использованием TensorFlow Probability.

Вы проводите маркетинговую кампанию и видите, что количество пользователей увеличивается. Но как узнать, связано ли это с вашей кампанией или это просто совпадение?

Вот тут-то и пригодится tfcausalimpact. Бибилиотека помогает прогнозировать будущие тренды и тенденции в данных и сравнивает ваши показатели с фактическими данными для получения статистических выводов.

pip install tfcausalimpact

📌Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

08 Feb 2024 07:08

🍏 Guiding Instruction-based Image Editing via Multimodal Large Language Models

Apple выпустила новую модель искусственного интеллекта с открытым исходным кодом MGIE.

Интсрумент может редактировать изображения на основе промптов на естественном языке

Добавить объект, изменить форму, удалить фон, изменить цвета на фото, от вас нужно лишь текстовое описание.

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 Feb 2024 15:13

📜 10 месяцев назад был запущен проект Vesuvius Challenge, для расшифровки древних Геркуланумских папирусов, которые были погребены и обуглены в результате извержения Везувия в 79 году нашей эры.

Обугленные свитки обнаружили в 1752 году на вилле у Неаполитанского залива, которая, когда-то принадлежала тестю Юлия Цезаря.

Сегодня спустя 2000 лет мы наконец-то можем прочитать эти свитки.

Студенты расшифровали фрагмент знаменитого свитка с помощью алгоритмов мо. Им удалось прочитать более 2000 слов на обугленном папирусе, погребенном в результате извержения Везувия.

В работе представлены результаты трех различных архитектур моделей, каждая из которых подтверждает выводы других, причем наиболее качетвенные изображения дает модель на основе TimeSformer. Код обнаружения чернил был опубликован на GitHub.

Алгоритм обучили читать чернила как на поверхности, так и на скрытых слоях нераспечатанных свитков.

Оказалось, что в тексте говорилось об удовольствии — высшем благе в эпикурейской философии.

Автором текста признали Филодема — философа, жившего в усадьбе, где нашли этот свиток.

В расшифрованных фрагментах автор размышляет о том, может ли доступность товаров, таких как еда, влиять на удовольствие, которое они доставляют.

Расшифровавшие свиток Юссеф Надер, Люк Фарритор и Джулиан Шиллигер разделили главный приз Vesuvius Challenge в размере 700 000 долларов.

Удалось расшифровать всего 5% всего свитка, но это уже огромное достижение для науки.

▪Подробнее
▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 Feb 2024 08:50

🔥 Список лучших Python-библиотек 2023 года по версии Tryolabs.

▪LiteLLM — библиотека, которая обеспечивает бесшовную интеграцию с различными языковыми моделями. Она позволяя использовать унифицированный формат как для ввода, так и для вывода вне зависимости от применяемой LLM.

▪MLX — это библиотека от Apple для машинного обучения на процессорах Apple Silicon.

▪Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.

▪PyApp — упрощает распространение и установку Python-приложений. Это достигается за счёт встраивания Python в самоустанавливающийся пакет, совместимый со всеми операционными системами.

▪Unstructured — набор инструментов для предварительной обработки текста.

▪ZenML и AutoMLOps — два мощных инструмента для создания MLOps-пайплайнов.

▪WhisperX — библиотека для распознавания речи, способная обнаружить нескольких говорящих на аудио.

▪AutoGen — инстрмент, который позволяет создавать LLM-приложения с несколькими агентами, способными общаться друг с другом для решения задач.

▪Guardrails — помогает заставить LLM возвращать структурированные, качественные ответы определённого типа.

▪Temporian — библиотека для простой и эффективной предобработки и фича-инжиниринга временных данных в Python.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 Feb 2024 16:03

БИТ:ERP - инновационное подразделение крупной международной IT компании Первый БИТ, крупнейший интегратор 1С, аккредитован как ИТ-компания в Минцифры.

🔥 Набор открыт до 22.02.2024, количество мест ограничено. Торопись!

Условия стажировки разработчика 1С
🔸Срок: 3 месяца
🔸Опыт: не требуется
🔸Занятость: полная, удаленная работа
🔸Оклад: 50 000₽ в месяц

Перспективы
🔸После стажировки: junior - 100 000₽ в месяц
🔸1-1,5 года: middle - от 150 000₽ в месяц
🔸2-2,5 года: senior - от 200 000₽ в месяц
🔸3-5 лет: PO, architect - от 300 000₽ в месяц

Требования
✔️ Высшее/среднее специальное техническое или финансовое образование (последний курс тоже ОК, при условии полной занятости)
✔️ Базовые знания любого языка программирования (Python, Visual Basic, PHP, Java, С++ и т.п.), SQL, HTML
✔️ Грамотная письменная и устная речь
✔️ Желание и умение быстро учиться, в том числе, в свободное время.

Присоединяйся @BITERP_internship_bot
👉 Вакансия

Реклама. erid: LjN8KQbEY

Читать полностью…

Анализ данных (Data analysis)

03 Feb 2024 18:21

📈 PALLAIDIUM - генеративный искусственный интеллект для Blender VSE.

AI-генерация видео, изображений и аудио из текстовых промптов или других видео или изображений.

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 21:11

🖥 Совет Pandas!

Используйте параметр parse_dates для указания столбцов с датами при создании даатфрейма из CSV, вместо pd.to_datetime.

Это делает код более кратким и удобным для чтения.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 11:01

⚡️ SUPIR - новая высокоточная модель восстановления изображений!

▪Код: https://github.com/Fanghua-Yu/SUPIR

▪Проект: http://supir.xpixel.group

▪Статья: https://arxiv.org/abs/2401.13627

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

01 Feb 2024 07:35

⚡️ Новая лекция Ян Лекуна : «Объектно-ориентированный ИИ: на пути к машинам, которые могут учиться, рассуждать и планировать»

Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

30 Jan 2024 09:28

🖥 Примеры генеративного ИИ от NVIDIA

Современные примеры генеративного ИИ, которые легко развертывать, тестировать и адптировать под ваши задачи.

Все примеры работают на высокопроизводительном стеке NVIDIA CUDA-X и графических процессорах NVIDIA.

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

29 Jan 2024 10:02

🖥 Nxs-data-anonymizer - это инструмент для анонимизации дампа баз данных PostgreSQL и MySQL/MariaDB/Percona.
▪Поддерживаемые базы данных и версии:
PostgreSQL (9/10/11/12/13/14/15/все версии)
MySQL/MariaDB/Percona (5.7/8.0/8.1/все версии)

▪Гибкая генерация фейковых данных на основе шаблонов Go и библиотеки шаблонов Sprig.

▪Потоковая обработка данных. Это означает, что вы можете перенаправлять дамп из исходной БД в любую другую БД с преобразованиями

▪Легко интегрируется в CI/CD

➡️ Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

28 Jan 2024 08:26

🖥 Google-Colab-Selenium

Лучший способ использовать Selenium в блокнотах Google Colab!

▪Простая настройка Selenium и ChromeDriver.
▪Бесшовная интеграция с Google Colab.
▪Поддержка ChromeDriver для сложных случаев парсинга.

%pip install google-colab-selenium

import google_colab_selenium as gs from selenium.webdriver.chrome.options import Options # Instantiate options options = Options() # Add extra options options.add_argument("--window-size=1920,1080") # Set the window size options.add_argument("--disable-infobars") # Disable the infobars options.add_argument("--disable-popup-blocking") # Disable pop-ups options.add_argument("--ignore-certificate-errors") # Ignore certificate errors options.add_argument("--incognito") # Use Chrome in incognito mode driver = gs.Chrome(options=options) driver.get('https://uproger.com') print(driver.title) driver.quit()

➡️Github
➡️Colab

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

26 Jan 2024 16:31

⚡ RoMa: простая в использовании, стабильная и эффективная библиотека для работы с кватернионами, векторами вращения, пространственными преобразованиями в PyTorch.

pip install roma

▪Github
▪Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

14 Feb 2024 08:00

erid: LjN8KCRiJ

Аналитик данных входит в топ-5 самых востребованных профессий в России. Он собирает, анализирует, структурирует данные — и благодаря этому помогает бизнесу решать проблемы и принимать важные решения.
Получить профессию с нуля можно всего за 5 месяцев на курсе «Аналитик данных» от «karpovꓸcourses»

Для старта достаточно знания математики на уровне школьной программы — всему остальному вас научат на курсе. Преподаватели — практикующие спецы, которые знают, какие навыки нужны для успешной карьеры, поэтому обучение включает в себя и теорию, и отработку знаний на практических задачах. Вы освоете Python и SQL, научитесь визуализировать данные, теорией вероятностей, статистикой и A/B тестами, сформируете продуктовое видение и понимание бизнеса и продукта.
По итогу вы соберете готовое портфолио, а школа поможет с трудоустройством. По статистике 89% выпускников находят работу в течение трёх месяцев.

Присоединяйтесь к курсу со скидкой 5% по промокоду DAML: https://clc.to/HiQ4Fg

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.

Читать полностью…

Анализ данных (Data analysis)

09 Feb 2024 13:40

🖥 PyForest

Писать одни и те же импорты снова и снова - это путсая трата времени. Попробуйте pyforest, этот интсрумент сделает работу по импорту библиотек за вас.

С помощью pyforest вы можете использовать все свои любимые библиотеки Python, не импортируя их перед этим.

Если вы используете пакет, который еще не импортирован, pyforest импортирует его за вас и добавит код в первую ячейку Jupyter.

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

08 Feb 2024 13:37

⭐️ YOLO-World Real-Time Open-Vocabulary Object Detection

Обнаружение объектов в режиме реального времени БЕЗ ОБУЧЕНИЯ.

YOLO-World - это новая SOTA, которая превосходит предыдущие модели как по точности обнаружения, так и по скорости. 35,4 AP при 52,0 FPS на V100.

Все, что вам нужно, это изображение + промпт (список категорий, которые вы хотите обнаружить).

🖥 Github: https://github.com/AILab-CVC/YOLO-World

📚 Paper: https://arxiv.org/abs/2401.17270

⚡️Demo: https://www.yoloworld.cc

🤗Hf: https://huggingface.co/spaces/stevengrove/YOLO-World

ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

07 Feb 2024 12:40

🔥 Графовые нейронные сети (ГНС) стали мощным методом работы с уникальными и разнородными данными из графов.

Google объявили о выпуске TensorFlow GNN 1.0 (TF-GNN), проверенной на практике библиотеки для построения GNN в масштабе.

▪Анонс: https://blog.research.google/2024/02/graph-neural-networks-in-tensorflow.html

▪Colab: https://colab.research.google.com/github/tensorflow/gnn/blob/master/examples/notebooks/ogbn_mag_e2e.ipynb

▪Github: https://github.com/tensorflow/gnn

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 Feb 2024 14:13

«Хочу работать у вас бизнес-аналитиком»😎 — мы всё чаще получаем подобный запрос на почту, ведь бизнес-аналитики сейчас пользуются огромным спросом у крупных компаний в России.

Чтобы побольше рассказать вам про эту профессию, мы решили провести открытый вебинар!

14 февраля в 11:00 ждем вас на онлайн лекции «Бизнес-анализ для ИТ. Погружение в профессию бизнес-аналитика» от Школы аналитики ITFB Group🙂

Для кого вебинар?
Он будет полезен студентам старших курсов, выпускникам вузов, а также тем, кто думает о смене профессии.

И что потом?
После вебинара у вас будет возможность продолжить обучение в Школе аналитики ITFB Group.

Участие бесплатное😉

Зарегистрироваться и узнать подробности✌️

Читать полностью…

Анализ данных (Data analysis)

05 Feb 2024 18:02

🏆 DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

DynamiCrafter, получила обновление, это модель которая может анимировать неподвижные изображения с открытым доменом на основе промптов.

🌐page: https://doubiiu.github.io/projects/DynamiCrafter
📄paper: https://arxiv.org/abs/2310.12190
🧬code: https://github.com/Doubiiu/DynamiCrafter

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 Feb 2024 14:01

📈 Каждый студент, изучающий информатику, знает об алгоритме Дейкстры для поиска кратчайшего пути.

Но знаете ли вы, что этот культовый алгоритм был придуман в ресторане, да еще и за 20 минут?

Во время интервью в 2001 году Эдсгер Вайб Дейкстра рассказал, что разработал алгоритм всего за 20 минут во время шопинга в Амстердаме со своей невестой в 1956 году.

Его вдохновил вопрос:
"Каким кратчайшим путем можно добраться из Роттердама в Гронинген?"

Он спроектировал его без карандаша и бумаги.

Алгоритм был опубликован три года спустя в трехстраничной статье под названием "Заметка о двух проблемах, связанных с графами".

Дейкстра получил премию Тьюринга в 1972 году за фундаментальный вклад в разработку структурированных языков программирования, но алгоритм кратчайшего пути остается его самой известной работой.

👇 Напишите в комментариях реализацию Алгоритма на своем любимом языке программирования.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

03 Feb 2024 11:02

⚡️ Awesome-polars

Большой полезный кураторский список примеров с кодом, инструментов, бенчмарков и статей о Polars.

▪Github
▪Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 19:11

GigaChat обгоняет ChatGPT по всем характеристикам — к таким результатам пришли разработчики отечественной нейросетевой модели. В последнем исследовании разрабы решили сравнить модели от Сбера и OpenAI, результаты можно посмотреть здесь.

Не зря на сегодняшний день нейросетью от Сбера пользуется более 2,5 млн человек.Теперь ждем, когда Яндекс проведет такое же исследование.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 09:01

11 марта Newprolab запускает уже 14-й поток программы Data-Engineer

Программа будет полезна junior и middle дата-инженерам, аналитикам данных, бэкенд-разработчикам, техлидам и менеджерам, работающим с дата-командой

- 7 недель (11 марта – 27 апреля)
- 20 занятий с преподавателями в зуме
- 6 лаб с реальными данными
- чат с участниками и поддержка координаторов

📌Что дает программа:
1) научитесь решать типичные задачи DE и реально станете дата-инженером на время программы
2) структурируете ваши знания и познакомитесь с новыми инструментами
3) поработаете с облачным кластером для решения лаб с реальными данными
4) видеозаписи и другие материалы программы останутся у вас навсегда

📌Преподаватели – практики из ведущих компаний, рассказывают о сложном простым языком и ответят на все ваши вопросы

📌Промокод DEFRIENDS дает скидку 20%

[Подробная информация и регистрация]

Читать полностью…

Анализ данных (Data analysis)

31 Jan 2024 09:37

Вышел PyTorch 2.2 🎉

С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием TORCH_LOGS.
и др.

➡️ Полный спис ок обновлений

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

29 Jan 2024 18:52

💡 Проблема: ваш код, содержит много скопированного чужого кода, но его трудно найти.

Решение: jscpd

jscpd — это инструмент командной строки, который выводит скопированный код и сообщает о конкретных повторяющихся строках.

Работает более чем на 150 языках.

▪ Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

28 Jan 2024 14:02

🖥 SQL-metadata

Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.

Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.

Также предоставляет полезные функции для нормализации SQL-запросов.

pip install sql-metadata

▪Github
▪Docs

Читать полностью…

Анализ данных (Data analysis)

27 Jan 2024 09:03

🎮 Build a Large Language Model (From Scratch)

Еще один замечательный ресурс, который подходит для начинающих, чтобы построить ChatGPT-подобный LLM с нуля, шаг за шагом

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

26 Jan 2024 14:25

🔊 Делимся «вредными советами» по работе с ClickHouse®

ClickHouse® — быстрая и масштабируемая колоночная база данных. Она известна своей высокой производительностью, возможностью обрабатывать аналитические запросы в режиме онлайн и строить аналитические витрины. Как и у любой другой технологии, у ClickHouse® есть свои особенности и нюансы, которые необходимо учитывать при работе.

В видео архитекторы Yandex Cloud поделятся распространёнными ошибками при использовании базы данных ClickHouse®, а также рекомендациями, как избежать этих ошибок и достичь максимально производительности БД ClickHouse.

🗣 Подробнее по ссылке.

Читать полностью…