data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Аналитики, отзовитесь! 👋

Прямо сейчас в Авито требуются опытные специалисты, которые хотят работать с сильной командой амбициозных коллег с высокой профессиональной экспертизой:

➡️ Старший BI аналитик
➡️ Старший аналитик данных в команду прайсинга
➡️ Аналитик данных в направление инцидент и проблем менеджмент

Конкурентная заработная плата (обсуждается на собеседовании).
Что касается бенефитов:


– прозрачная система премий;
– классный офис в 2-х минутах от метро «Белорусская»;
– забота о здоровье: ДМС со стоматологией с первого дня, в офисе ведут приём терапевт, психолог и массажист, два зала с тренажёрами, занятия йогой и скидки на абонементы;
– самые передовые IT-инструменты для эффективного выполнения задач;
– личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
– масштабные корпоративы, онлайн-вечеринки, командные тимбилдинги.

Скорее откликайтесь на вакансии и присоединяйтесь к крутой аналитической культуре 💪

Читать полностью…

Анализ данных (Data analysis)

Специалисты по Data Science работают везде, где нужно обрабатывать и хранить данные. Они решают самые разные задачи: от планирования маршрутов в логистике до прогнозирования спроса на наличные в банкомате.

Плюсы профессии «Специалист по Data Science»:

— вы сможете работать почти в любой отрасли, от промышленности и до коммерции;
— решения специалистов по DS напрямую влияют на планирование и деятельность компаний;
— никакой рутины — чем сильнее и опытнее специалист, тем сложнее и интереснее его задачи;
— высокая заработная плата: младшие специалисты получают в среднем 60 000 рублей, специалисты с опытом — 120 000 рублей, а старшие специалисты — от 210 000 рублей.

За 8 месяцев обучения в Практикуме вы освоите востребованную профессию, а дальше — начнёте работать, улучшать навыки и расти в зарплате. Начните курс бесплатно и большими данными двигайтесь в сферу IT.

Начать курс бесплатно

Читать полностью…

Анализ данных (Data analysis)

Как обработать большое количество данных в несколько десятков петабайт? Как проанализировать и выявить полезные инструменты?

Дмитрий, руководитель направления аналитики в команде mail.ru в VK в статье рассказывает о своём подходе к работе с большим количеством данных.

В статье вы ознакомитесь с self-сервисом Metida и какие две крупные задачи решает данный сервис;
- станет более понятен интерфейс Metida и из чего он состоит;
- как данные из реестра попадают в колоночную базу данных;

Об этом и других тонкостях работы с данными вы узнаете здесь.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Скажите что-то на карьерном

Тинькофф в поиске крутых ИТ-спецов. С компании — профессиональный рост, интересные финтех-задачи, решение бытовых забот и работа там, где вы живете. С вас — выбрать вакансию и откликнуться тут

АО «Тинькофф Банк», ИНН 7710140679

Читать полностью…

Анализ данных (Data analysis)

💡 Сейчас происходит слишком много событий, так что вот просто сымые интересные проекты за последние дни со ссылоками

GPT-4 + Medprompt -> SOTA MMLU
https://microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/

Mixtral 8x7B @ MLX
https://github.com/ml-explore/mlx-examples/tree/main/mixtral

За пределами человеческих данных: Масштабирование самообучения для решения проблем с помощью языковых моделей
https://arxiv.org/abs/2312.06585

Phi-2 (2.7B), самая маленькая и самая впечатляющая модель
https://microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/

LLM360: На пути к полностью прозрачным LLM с открытым исходным кодом
https://arxiv.org/abs/2312.06550

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 100 слайдов о внутреннем устройстве PyTorch 2 с упором на последние нововведения (Dynamo, Inductor и ExecuTorch).

📚 PDF: https://drive.google.com/file/d/1XBox0G3FI-71efQQjmqGh0-VkCd-AHPL/view?usp=drive_link

💻 Slideshare: https://slideshare.net/perone/pytorch-2-internals

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Если вы ищете открыте датасетов для работы - вот 7 бесплатных источников данных, где вы можете найти данные для любых задач.

1. Репозиторий Awesome Data Github


В этом репозитории вы найдете ссылки на открыте наборы данных, которые содержат изображения, текст, аудио и табличные данные.
https://github.com/awesomedata/awesome-public-datasets

2. Kaggle

Более 1000 датасетов, которые можно легко скачать и работать с ними, совершенно бесплатно.
https://www.kaggle.com/datasets

3. Открытый реестр данных на AWS

Поиск и обмен датасетами х с помощью ресурсов AWS.

4. Open ML

Более 20K+ наборов данных на Open ML
https://openml.org

5. Papers with Code

Papers with Code содержит более 7000 открытыз наборов данных по всем возможным тематикам.
https://paperswithcode.com/datasets

6. Hugging Face

На Hugging Face вы можете найти 80K+ наборов данных.
https://huggingface.co/datasets

7. Dagshub

Много бесплатных даатсетов можно найти на Dagshub:
https://dagshub.com/datasets/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈 Aeon - это библиотека для работы с временными рядами, совместимая с scikit-learn и предлагающая множество продвинутых алгоритмов для задач обучения, прогнозирования и классификации.

https://github.com/aeon-toolkit/aeon

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 С 13 декабря разработчики могут получить доступ к Gemini Pro через Google AI Studio или через Google Cloud.

С доступом можзно быстро создавать прототипы и запускать приложения с помощью API-ключа. → https://dpmd.ai/announcing-gemini #GeminiAI

https://dpmd.ai/announcing-gemini #GeminiAI

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Управление данными в масштабе: Кртакий взгляд на современные варианты баз данных

Будь то Twitter, показывающий посты для более чем миллиарда пользователей, или Netflix, отслеживающий историю просмотров для предоставления персонализированных рекомендаций, - для работы с огромными объемами данных веб-приложениям требуются специализированные базы данных.

Реляционные базы данных долгое время были стандартом для хранения структурированных данных. Однако появились новые типы баз данных, призванные удовлетворить растущие потребности в хранении данных.

Аналитические базы данных: Оптимизированы для сложных запросов бизнес-аналитики к большим массивам данных.

Модели хранения данных, ориентированные на столбцы, позволяют добиться высокого коэффициента сжатия и молниеносной скорости агрегирования. Благодаря хранению данных по столбцам, а не по строкам, аналитические базы данных могут выполнять быстрое сканирование для вычисления сумм, средних значений и других математических вычислений в огромных наборах записей.

Такое хранение данных по столбцам и оптимизированное агрегирование позволяет интерактивно запрашивать миллиарды строк для получения быстрых выводов.

Базы данных NoSQL: Обеспечивают гибкость, выходящую за рамки табличной реляционной модели. Различные базы данных NoSQL справляются с разными задачами:

- Графовая база данных – это систематический набор данных, в котором подчеркиваются взаимосвязи между различными сущностями данных. База данных NoSQL использует математическую теорию графов для отображения связей с данными. В отличие от реляционных баз данных, которые хранят данные в жестких табличных структурах, графовые базы данных хранят данные в виде сети сущностей и отношений. В результате такие базы данных часто обеспечивают более высокую производительность и гибкость, поскольку лучше подходят для моделирования реальных сценариев.
- Базы данных «ключ — значение» работают совершенно иначе, чем более известные реляционные базы данных (РБД). В РБД предварительно определяют структуру данных в базе данных как последовательность таблиц, содержащих поля с четко определёнными типами данных. Экспонирование типов данных в базе данных позволяет применить ряд оптимизаций. Напротив, системы «ключ — значение» обрабатывают данные как одну непрозрачную коллекцию, которая может иметь разные поля для каждой записи. Это обеспечивает значительную гибкость и более точно следует современным концепциям, таким как объектно-ориентированное программирование. Поскольку необязательные значения не представлены заполнителями или входными параметрами, как в большинстве РБД, базы данных «ключ
- База данных документов – это тип баз данных NoSQL, предназначенный для хранения и запроса данных в виде документов в формате, подобном JSON. JavaScript Object Notation (JSON) – это открытый формат обмена данными, который читается как человеком, так и машиной.
-Колоночные базы данных - это тип баз данных, где данные хранятся и организуются по колонкам, в отличие от традиционных реляционных баз данных, где данные хранятся по строкам. В колоночных базах данных каждая колонка содержит данные одного типа, и они компактно хранятся в сжатом формате.

Объектно-реляционное отображение (ORM): Обеспечивает связь между объектно-ориентированным кодом и реляционными базами данных путем автоматического преобразования между представлениями данных. Это избавляет от утомительного ручного управления данными. Однако уровень абстракции может увеличивать нагрзку при сложных операциях чтения и записи. Отладка также может быть затруднена и приводить к нагрузке на систему.

Главное - выбрать правильную базу данных, соответствующую вашим конкретнымзадачам и моделям данных. Типичное приложение может использовать комбинацию реляционных, NoSQL и ORM-технологий для достижения наилучшей производительности при масштабировании.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ SuperDuperDB: Добавьте искусственный интеллект в свою базу данных.

Проект, который позволяет интегрировать, обучать и управлять любыми моделями ИИ непосредственно для работы с базами данных и данными.

Поддерживает основные баы данных SQL и табличные форматы: PostgreSQL, MySQL, SQLite, DuckDB, Snowflake, BigQuery, ClickHouse, DataFusion, Druid, Impala, MSSQL, Oracle, pandas, Polars, PySpark и Trino (а также MongoDB).

Github
Project

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Ego-Exo4D - новый большой датасет и набор бенчмарков, ориентированных на квалифицированную человеческую деятельность, для поддержки исследований в области видеообучения и мультимодального восприятия.

Это крупнейший публичный набор данных такого рода.

🔥Dataset: https://ego-exo4d-data.org/

📚 Paper: https://ego-exo4d-data.org/paper/ego-exo4d.pdf

🌟 Project: https://www.projectaria.com/

🥩 Blog: https://ai.meta.com/blog/ego-exo4d-video-learning-perception

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Впервые ИИ смог восстановить изображения по активности мозга с точностью более 75%.

Японские исследователи совершили значительный прорыв в области создания изображений с помощью искусственного интеллекта, достигнув рекордной точности в 75 % при восстановлении изображений по активности мозга.

Это значительное улучшение по сравнению с предыдущими методами, которые достигали точности всего 50,4 %. Процесс включает в себя запись активности мозга испытуемых во время просмотра изображений и последующее восстановление этих изображений.

Используя нейронный транслятор сигналов и генеративный ИИ, исследователи смогли восстановить эти изображения с высокой точностью.

Эта технология открывает новые возможности для понимания человеческого разума и может привести к появлению новых форм невербальной коммуникации.

Почитать подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 Записанные хардкодом переменные без описания могут ухудшить читаемость кода.

Использование Enum в #Python позволяет присваивать переменным осмысленные имена, повышая читаемость кода.

from enum import Enum

# class syntax
class Color(Enum):
RED = 1
GREEN = 2
BLUE = 3

# functional syntax
Color = Enum('Color', ['RED', 'GREEN', 'BLUE'])

🔗Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 Команда DeepSeek проделывает поистине выдающуюся работу.

Их последняя модель близка к GPT-4 по целому ряду эталонных бенчмарков и выглядит лучшим открытым вариантом.

DeepSeek LLM, продвинутая языковая модель, состоящую из 67 миллиардов параметров.

Github
Project

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎉 Лучшие Open Source проекты 2023 года.

Выбрана вторая группа победителей программы Google Open Source Peer Bonus Program 2023 года

138 победителей были выбраны за влияние их вклада в проект с открытым исходным кодом, качество их работы и преданность открытому исходному коду.

👉 https://opensource.googleblog.com/2023/12/google-open-source-peer-bonus-program-announces-second-group-of-2023-winners.html

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈 PromptBench: A Unified Library for Evaluating and Understanding Large Language Models.

PromptBench
- это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.

🖥 Code: https://github.com/microsoft/promptbench

🌟 Docs: https://promptbench.readthedocs.io/en/latest/

📚 Paper: https://arxiv.org/abs/2312.07910v1

⚡️ Dataset: https://paperswithcode.com/dataset/mmlu

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈 SlimSAM: 0.1% Data Makes Segment Anything Slim

Внушительный размер модели и высокие вычислительные требования модели Segment Anything Model (SAM) сделали ее громоздкой для развертывания на устройствах с ограниченными ресурсами.

Существующие подходы к сжатию SAM обычно предполагают обучение новой сети с нуля, что ставит перед разработчиками сложную задачу компромисса между степенью сжатия и производительностью модели.

Для решения этой проблемы представлен SlimSAM - новый метод сжатия SAM, который обеспечивает превосходную производительность при значительно меньших затратах на обучение.

Это достигается за счет эффективного повторного использования предварительно обученных моделей с помощью единой системы обрезки и дистилляции.

В отличие от предыдущих методов обрезки, мы тщательно обрезаем и дистиллируем разрозненные структуры моделей поочередно.

SlimSAM обеспечивает значительный прирост производительности и требует в 10 раз меньше затрат на обучение, чем другие существующие методы.

Даже по сравнению с оригинальным SAM-H, SlimSAM достигает приближающейся производительности при сокращении количества параметров всего до 0,9% (5,7M), MAC до 0,8% (21G) и требуя всего 0,1% (10k) обучающих данных SAM.

🖥 Code: https://github.com/czg1225/SlimSAM

🌟 Colab: http://modelslab.com

📚 Paper: https://arxiv.org/abs/2312.05284

⚡️ Dataset: https://tianxingwu.github.io/pages/FreeInit/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Новый беспланый курс по Reinforcement Learning from Human Feedback!

RLHF - это одна из ключевых техник, которая привела к появлению современных LLM.

В этом курсе, который ведет Никита Намджоши, разработчик из GenAI в
Google cloud, вы узнаете, как работает RLHF, в том числе как применить его для настройки LLM в собственных приложениях.

Вы также воспользуетесь библиотекой с открытым исходным кодом для настройки базового LLM и оцените настроенную модель, сравнив ее ответы до и после RLHF-настройки.

deeplearning.ai/short-courses/reinforcement-learning-from-human-feedback/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Одна из самых глубоких статей объяняющих LLM.

Автор, показывает что понимание и сжатие данных для llm- это две стороны одной медали.🪙

И что интересно, когда мы имеем дело с предсказанием слов, cжатие данных с потерями, выглядит умнее, чем сжатие без потерь! 💡

Ниже приводится объяснение того, почему ChatGPT дает нам иллюзию понимания:

"Тот факт, что ChatGPT перефразирует материал из Сети, а не цитирует его слово в слово... создает иллюзию, что ChatGPT понимает материал".

У людей заучивание не является показателем подлинного обучения, поэтому неспособность ChatGPT выдавать точные цитаты сайтов, как раз и заставляет нас думать, что он чему-то научился.

Когда мы имеем дело с последовательностями слов, сжатие с потерями выглядит умнее, чем сжатие без потерь".

Полный текст статьи читайте здесь: https://newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Внимание всем продуктовым аналитикам!

12 декабря Авито проведет онлайн-митап, на котором можно узнать о продуктовых кейсах, которые принесли компаниям реальный результат:

▫️ Эксперт компании Анна Москаленко расскажет, как ее команда работает над пользовательским негативом от CRM-коммуникаций.

▫️ Продуктовый аналитик Samokat.tech Илья Лоладзе объяснит, как его компания провела эксперимент, который позволил увеличить зону экспресс-доставки.

▫️ Леонид Медников, ведущий аналитик Яндекс Карт, поделится, как строить метрики качества данных на основе информации о миллионах компаний.

Только реальные кейсы, никакой воды. Начало в 18:00, а регистрация — по ссылке.

Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: 2SDnjdRGxXa

Читать полностью…

Анализ данных (Data analysis)

🎞️Reenact Any Character in Movie🎞️

SMPLer-X первая открытая модель для монокулярного 4D захвата движения. Объеденив MPLerX и Propainter можно создать свой ЛА-ЛА Ленд!

🖥 (SMPLer-X): https://github.com/caizhongang/SMPLer-X

🖥 Код (Propainter): https://github.com/sczhou/ProPainter

🏆 Website: http://caizhongang.com/projects/SMPLer-X/

🥩 Demo: http://caizhongang.com/projects/SMPLer-X/

#NeurIPS2023

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 DemoFusion: Открытая модель генерации изображений высокого разрешения

🌐 Проект: https://ruoyidu.github.io/demofusion/demofusion.html
📄 Статья: https://arxiv.org/abs/2311.16973
🧬 Код: https://github.com/PRIS-CV/DemoFusion
🦒Colab http://modelslab.com: пожалуйст
🐣Github: https://github.com/camenduru/DemoFusion-colab

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Даже если два экземпляра класса имеют одинаковые атрибуты, они не равны, потому что хранятся в разных местах памяти.

Чтобы определить собственный метод сравнения для экземпляров классов #Python, используйте метод __eq__.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦆 Традиционные системы баз данных часто требуют управления отдельным сервером СУБД, что вносит дополнительные сложности в рабочий процесс.

С помощью DuckDB вы можете эффективно выполнять SQL-запросы на pandas

DataFrames без необходимости управления отдельным сервером СУБД. DuckDB - это высокопроизводительная аналитическая система баз данных.

Она разработана как быстрый, надежный, переносимый и простая в использовании база данных. DuckDB предоставляет богатый синтаксис SQL.

https://github.com/duckdb/duckdb

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🍏 MLX - это новый фреймворк для машинного обучения на чипах Apple, разработанный специалистами Apple по машинному обучению.

Возможно, это самый большой шаг Apple в области ИИ с открытым исходным кодом на сегодняшний день.

Некоторые ключевые особенности MLX включают:

API: MLX имеет Python API, который в точности повторяет NumPy. MLX также имеет полнофункциональный API C++. В MLX есть пакеты более высокого уровня, такие как mlx.nn и mlx.optimizers с API, близкими к PyTorch, чтобы упростить построени сложных моделей.

Композитные преобразования функций: В MLX есть композитные преобразования функций для автоматического дифференцирования, автоматической векторизации и оптимизации вычислительных графов.

Динамическое построение графов: Графы вычислений в MLX строятся динамически. Изменение моделей быстро компиллируются, а отладка проста и интуитивно понятна.

Операции могут выполняться на любом из поддерживаемых устройств (в настоящее время это CPU и GPU).

Унифицированная память: Заметным отличием MLX от других фреймворков является унифицированная модель памяти. Массивы в MLX находятся в общей памяти. Операции над массивами MLX могут выполняться на любом из поддерживаемых типов устройств без перемещения данных.

pip install mlx

⚡️Код: https://github.com/ml-explore/mlx

📚 Документация: https://ml-explore.github.io/mlx/build/html/index.html

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 Отличный набор моделей диффузии текста в изображение, лучшие модели на данный момент (8 конвейеров.).

https://huggingface.co/collections/sayakpaul/assorted-text-to-image-diffusion-models-64f99f2b3ef7ea04c262c4b4

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Суммаризация текстов с использованием LLM и LangChain 🚀

Знаете ли вы, что можно создать собственное приложение для суммаризации текстов, используя huggingface модели и LangChainAI менее чем за 20 строк кода?

На картинке полный исходный код.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 gpt-fast

Одно из лучших репо-гайдов с тех пор, как
Karpathy выпустил туториал по minGPT🦾

GPT-Fast
: минималистичная реализация декодера на PyTorch с лучшими практиками: квантование int8/int4, декодирование, тензорный параллелизм и т.д. Увеличивает скорость LLM OS в 10 раз без изменения модели!

Нам нужно больше minGPT и GPT-Fasts в мире открытого кода! Туториал создан разработчикои cHHillee из команды PyTorch.

pip install sentencepiece huggingface_hub

Блог: https://pytorch.org/blog/accelerating-generative-ai-2/
Код: https://github.com/pytorch-labs/gpt-fast

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🗣️ Large Language Model Course

Выгла вторая версия бесплатного LLM курса.

Это пошаговое руководство с курируемыми ресурсами, разделенное на три части: основы LLM, наука больших языковых моделей и инженерия (W.I.P.).

Идеально подходит как для новичков, так и для экспертов в области ML.

🖥 GitHub: https://github.com/mlabonne/llm-course

🔍 Course: https://mlabonne.github.io/blog/

@data_analysis_ml

Читать полностью…
Subscribe to a channel