data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

👉Трансформеры для глубокого обучения. Лекции от Стэнфорда.

Изучите детали того, как работают трансформеры, и изучите их различные виды с этим плейлистом. 25 лекций, последняя вышла 4 недели назад.

🔗 Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Так уж складывается в мире данных, что Data Scientist’у порой приходится закрывать задачи сразу нескольких специалистов. К примеру, сбор данных, выявление закономерностей и формирование отчетов — это задача аналитика данных.⠀

А что делает Data Scientist?

Этот специалист может:⠀

🫖 Собрать требования к бизнес-задаче и предложить математическое решение;
🫖 Подготовить данные, с помощью которых эту задачу можно решить;
🫖 Создать модель машинного обучения;
🫖Проверить модель и её работоспособность.

И всему этому мы учим на курсе Data Scientist. Его разработали два эксперта области:

— Иван Аникин, Team Lead Yandex.Edadeal;
— Владимир Бугаевский, Team Lead СберМаркет.

Они же будут преподавать на потоке, который стартует 29 марта! Иван и Владимир будут отвечать на вопросы студентов в чате и на онлайн-встречах, смотреть учебные проекты и давать по ним обратную связь.⠀

Узнать больше о программе курса и записаться на поток вы можете на нашем сайте по ссылке.

Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451

Читать полностью…

Анализ данных (Data analysis)

erid: LjN8KEPQY

Специалисты ITFB Group подготовили подборку книг, которая поможет развить свои скиллы в бизнес-анализе 😉

👉 Можно и не подписываться, но вдруг пропустишь что-то интересное 

Читать полностью…

Анализ данных (Data analysis)

🎓 Бесплатный курс по работе с Managed Service for Greenplum®

За последние четыре года в России число вакансий в области аналитики данных увеличилось в 10 раз — такие данные приводит HeadHunter. Узнайте больше о том, как работать с одним из самых востребованных инструментов для работы с данными — сервисом для управления кластерами СУБД Greenplum в инфраструктуре Yandex Cloud.

На курсе вы научитесь:

создавать облачную инсталляцию Greenplum и работать с ней;
писать и оптимизировать запросы с учётом специфики Greenplum;
проектировать оптимальную физическую модель данных.

Обучение будет полезно дата-архитекторам, DevOps-инженерам, разработчикам и администраторам баз данных. Узнайте больше о курсе по ссылке.

Читать полностью…

Анализ данных (Data analysis)

💥 Прими участие в онлайн-хакатоне HomeHack от Хоум Банка и Sk Fintech Hub с 1 по 6 марта 2024 и поборись за призовой фонд в 1 000 000 рублей. Регистрируйся до 29 февраля по ссылке: https://cnrlink.com/hhdataanalysis

👤 К индивидуальному участию в мероприятии приглашаются системные аналитики, аналитики данных и разработчики Oracle любого уровня подготовки со всей России.

🎯 Участникам предстоит создать решение в одном из двух треков:

1. Эффективное управление клиентской документацией: предложи решение для реализации новой системы хранения и обработки данных для оптимизации пространства и обеспечения безопасности;

2. SQL Сhallenge: покажи свои навыки SQL и PL/SQL! Решай захватывающие задачи и докажи, что ты настоящий мастер в работе с данными.

🏆 Регистрируйся, побеждай, обменивайся опытом с экспертами, получи кейс в портфолио и стань членом команды Хоум Банк.

👉 Успей подать заявку на участие до 29 февраля на онлайн-платформе Codenrock: https://cnrlink.com/hhdataanalysis

Реклама. ООО "ХКФ БАНК". ИНН 7735057951. erid: LjN8KMqCP

Читать полностью…

Анализ данных (Data analysis)

Интересуетесь аналитикой данных? Узнайте, как стать BI-аналитиком и развиваться в этой перспективной сфере

Начните с бесплатного практического урока «Два принципа построения качественной базы данных» от OTUS.

📅 Приходите на бесплатный открытый урок 27 февраля в 20:00 мск в рамках старта курса «BI-аналитика». После занятия вы сможете записаться на курс, в том числе в рассрочку.

На вебинаре рассмотрим:
- введение в теорию БД и обзор видов БД
- архитектурные принципы качественного хранения данных в реляционной БД
- практический кейс

Вебинар проведёт Александра Мёрзлая, опытный аналитик из крупного банка.

👉 Регистрируйтесь чтобы посетить бесплатный урок: https://otus.pw/d1Xch/?erid=LjN8Kcdz3

Читать полностью…

Анализ данных (Data analysis)

🎮Как использовать ИИ в игровой индустрии?

Расскажет Артем Голубин, Senior Data Scientist, преподаватель курса Reinforcement Learning в OTUS на открытом уроке. 

Вместе с опытным экспертом вы разберете:

- историю развития интеллектуальных агентов для настольных и компьютерных игр; 
- подходы к созданию игровых ботов с помощью обучения с подкреплением;
- как обучить модель эффективно управлять группой юнитов в одной из популярных игр.

⚡Занятие пройдёт 22 февраля в 20:00 мск и будет приурочено к старту курса «Reinforcement Learning».
 
👉Регистрируйтесь прямо сейчас, чтобы занять место на открытом уроке и получить запись.

При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа

erid: LjN8K9Rfy

Читать полностью…

Анализ данных (Data analysis)

Хотите разобраться в различиях 3 основных направлений Data Science: машинного обучения, data-инженерии и data-аналитики? Узнать, чем занимаются специалисты этой сферы и насколько они востребованы?

👉 Скорее регистрируйтесь на бесплатный мини-курс по Data Science и забирайте приятный бонус: https://epic.st/iwKT_

После просмотра видеоматериалов будет онлайн-встреча с Анастасией Борневой — специалистом в сфере программирования. Разберём пройденный материал и обсудим актуальные вопросы профессии.

🎉 Все участники получат крутые подарки!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

Станьте бизнес-аналитиком вместе с Практикумом

Наша цель — помочь вам найти своё (рабочее) место в IT. Поэтому мы учим на практике, помогаем готовить резюме и портфолио, проводим тестовые собеседования и предлагаем партнёрские вакансии.

◾️ Нашим выпускникам удавалось совмещать учёбу с работой: учиться можно в любое время, главное — соблюдать дедлайны.
◾️ Если что-то пойдёт не так, можно взять паузу на неотложные дела.
◾️ Оплачивать учёбу можно частями, почти как по подписке.
◾️ Если поймёте, что поторопились с выбором, — достаточно написать об этом в поддержку. Мы вернём деньги за оставшиеся дни учёбы.

Ближайший старт потоков — 29 февраля

Кнопка запуска карьерных перемен

Читать полностью…

Анализ данных (Data analysis)

🤖 DataDreamer - это мощная библиотека Python с открытым исходным кодом для легкого создания промптов, синтетических данных и рабочих процессов обучения.

Установка:

pip3 install datadreamer.dev

репо: https://github.com/datadreamer-dev/DataDreamer
документация: https://datadreamer.dev/docs/latest/#installation
abs: https://arxiv.orag/abs/2402.10379

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💙🎓Прокачайте скиллы c Холдингом Т1! Запускаем программу найма в формате ИТ-интенсива.

Открытые школы Т1 — это новый образовательно-карьерный формат, объединяющий offer week и обучение без отрыва от работы.

🤚Поможем улучшить навыки и освоить новые перспективы, если вы готовы к переменам в карьере и хотите присоединиться к команде Холдинга Т1 — лидера* ИТ-рынка, а также имеете опыт работы от 1 года в одном из направлений подбора.

Направления:
📊Системный аналитик
☕️Разработчик Java
📱Разработчик JS+React
🪲Ручной и авто-тестировщик

📌Как это работает?
🔹Подайте заявку на сайте ⬇️Рассмотрим резюме, если ваш профиль подойдет по опыту и навыкам, то попросим пройти тестирование👌 При успешном прохождении — зачислим в группу
🔹Лучшим назначим интервью и направим оффер!

Формат обучения: онлайн
Программа длится 1 месяц

🏳️Принимаем заявки до 25 февраля! *По версии CNews Analytics 2022, TAdviser 2021 и RAEX 2023 

Читать полностью…

Анализ данных (Data analysis)

12 стратегий настройки готовых к производству RAG-приложений

В этой статье будем рассматривать конвейер RAG (Retrieval-Augmented Generation — генерация с расширенным извлечением) с точки зрения специалиста по изучению данных.

Мы обсудим потенциальные “гиперпараметры”, с которыми можно экспериментировать, чтобы улучшить производительность конвейера RAG. В качестве аналогии можно привести опыты в сфере глубокого обучения, где, например, методы расширения данных — это не гиперпараметры, а своеобразные рычаги, которые настраивают и с которыми проводят эксперименты.

В этой статье мы также рассмотрим различные применимые стратегии настроек, сами по себе не являющиеся гиперпараметрами.

Мы обсудим нижеуказанные гиперпараметры, распределенные по соответствующим этапам. На этапе поглощения данных конвейером RAG можно добиться повышения производительности за счет:

🟡очистки данных;
🟡разбивки на фрагменты;
🟡эмбеддинг-моделей;
🟡использования метаданных;
🟡мультииндексации;
🟡алгоритмов индексирования.

На этапе вывода (извлечения и генерации) вы можете воспользоваться:

🟢преобразованием запросов;
🟢оптимизацией параметров извлечения;
🟢продвинутыми стратегиями извлечения;
🟢моделями повторного ранжирования;
🟢LLM;
🟢промпт-инжинирингом.

Обратите внимание: в этой статье рассматриваются варианты использования RAG по отношению к текстам. Для мультимодальных RAG-приложений могут применяться иные соображения.

📌 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧑‍💻 Code to Flow - бесплатная инновационная нейросеть для анализа, объяснения и визуализации кода.

Это мощный инструмент для разбиения кода на шаги и его объяснения.

Используя ИИ, Code to Flow работает с различными языками программирования и фреймворками.

Он пригодится как при обучении, так и при реальной работе, помогая лучше понимать структуру и логику кода.

Пробовать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Идея для ML проекта 💡

Создадим мл-приложение по поиску вашего близнеца среди знаменитостей 🔎👸 ↓

Здесь приведен полный пример с исходным кодом, чтобы узнать, как создать полноценное ML-приложение, которое найдет похожую на вас знаменитость/

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Lightwood

При работе мы Дата Сентисты тратим много времени на написание одного и того же кода для очистки, подготовки данных и построения моделей ⌛️.

Рекомендую попробовать lightwood - AutoML фреймворк, который принимает на вход данные, целевую переменную и генерирует для вас целый конвейер машинного обучения.

pip3 install lightwood

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎯Высокопроизводительная модель INT4 Mistral-7B доступна для всех.

Intel Neural Compressor (превосходящая GPTQ и AWQ) и эффективно инференцированная Intel Extension for Transformers!

🤗 Модель: https://huggingface.co/Intel/Mistral-7B-v0.1-int4-inc
🌟https://github.com/intel/neural-compressor

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 The Tokenizer Playground

После просмотра новой лекии от Карпати, если вы хотите узнать больше о том, как различные LLM модели (например, GPT4, Llama, T5, BERT) токенизируют текст, посмотрите "The Tokenizer Playground": веб-приложение, которое создана на базе 🤗 Transformers.js, с которым вы сможете поиграться с токенизацией разных моделей на практике!

🔗 https://huggingface.co/spaces/Xenova/the-tokenizer-playground

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Вот это да. Google только что выпустила Gemma, самый мощный открытый LLM.

Открытый для коммерческого использования, он превосходит Mistral AI 7B и LLaMa 2 в тестах Human Eval и MMLU.

Это первый открытый LLM, основанный на Gemini.


Подробности:
- Поставляется в двух вариантах: 2B и 7B.
- Превосходит Mistral 7B, DeciLM 7B и Qwen1.5 7B.
- Модели в вариантах 2B и 7B.
- 8192 Контекстное окно по умолчанию.
- Оценка MMLU 64,56, средняя оценка в таблице лидеров 63,75 для 7B.
Модель -2B, совместимая с мобильными телефонами.

Доступна на HuggingFace, Kaggle и Vertex AI.

HF: https://huggingface.co/google/gemma-2b-it
Project: ai.google.dev/gemma

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎉 Андрей Карпати снова в деле!

Только что вышел новый двухчасовой туториал по созданию GPT Tokenizer.

В этой лекции вы с нуля построите свой токенизатор, используемый в GPT от OpenAI.

В процессе вы увидите, что многие странные поведения и проблемы LLM на самом деле связаны именно с токенизацией.

В лекции рассматривается ряд этих проблем, и обсуждается, почему именно токенизация виновата в них, и почему в идеале кто-то должен найти способ полностью удалить этот этап.

Video:
https://www.youtube.com/watch?v=zduSFxRajkE

Colab:
https://colab.research.google.com/drive/1y0KnCFZvGVf_odSfcNAws6kcDD7HsI0L?usp=sharing

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Лучшие бесплатные курсы по искусственному интеллекту в 2024 году.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Log-based testing 🪵

logot
позволяет легко проверить, правильно ли ваш код ведет журнал.

Правильное логированеи гарантирует, что ваш код можно отладить во время выполнения, но зачем вообще анализировать логи?

Иногда проверка логов - это единственный разумный способ убедиться в том, что ваш код действительно работает правильно! Особенно это касается многопоточного или асинхронного кода.

Github
Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💡 A Guide to Production Level Deep Learning 🎬 📜 ⛴️

Руководство по созданию практических систем глубокого обучения производственного уровня для использования в реальных приложениях.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 Карпатый объявил о своем уходе из OpenAI 4 дня назад.

Сегодня он выпустил реализацию алгоритма Byte Pair Encoding, лежащего в основе GPT и большинства LLM.

Byte Pair Encoding: "Минимальный, чистый, код для алгоритма Byte Pair Encoding (BPE), обычно используемого в токенизации LLM".

Самое интересное? Он написан в 70 строках на чистом питоне. (На самом деле это 37 строк кода, если убрать комментарии и пустые строки.)

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Топ бесплатных курсов по Python в 2024 году
Open AI Sora. Модели генерации видео как симуляторы мира
Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями
Книга по искусственному интеллекту с открытым исходным кодом от Hugging Face.
Google представляет Как обучить эффективные LLM на данных
Курсы Сomputer Science с видеолекциями актуальные в 2024 году
Google создала MobileDiffusion -модель для быстрой генерации изображений на смартфонах.
Some (Pleasant) Surprises about the Surprise Module: A Beginner's Thoughts
Recapping the AI, Machine Learning and Data Science Meetup — Feb 15, 2024
Anaconda for Machine Learning: A Comprehensive Overview
3 Ways To Store Data in Computer Vision Applications
"Day 30 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -9)
Prompt Engineering For Developers: A Complete Guide!
How to Build an LLM RAG Pipeline with Upstash Vector Database
Earthquake Heatmap using Python folium library
Day 29 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -8)

Проекты
- V-JEPA новый метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео.
- UserSketch — инстремнт для создания чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений.
- Огромный кураторский список материалов: обнаружение лиц
- Специализированные библиотеки Python для решения уникальных задач
- Новый фреймворк для создания видео с конкретным человеком.

Посмотреть:
🌐 DeepMind’s New AI Beats Billion Dollar Systems - For Free! (⏱ 07:20)
🌐 OpenAI Sora: The Age Of AI Is Here! (⏱ 08:27)
🌐 Enhance! AI Super Resolution Is Here! (⏱ 07:05)
🌐 C# полный курс 2024. Урок 7 Условия (⏱ 15:06)
🌐 Телеграм бот приема заявок и рассылок! Огромный прирост подписчиков! (⏱ 17:10)
🌐 Запрещенный синтаксис #Python, за который вас уволят! (⏱ 00:50)
🌐 Towards Explainable and Language-Agnostic LLMs with Walid S. Saba (⏱ 35:48)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📖 ReadAgent - LLM-агент, который читает и объясняет текст, длина которого в 20 раз превышает длину контекста.

Подобно человеку, он решает, где сделать паузу, хранит нечеткие эпизодические воспоминания о прошлом чтении и ищет подробную информацию по мере необходимости.

Colab
Статья
Проект

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Вебинар Tarantool «Анализируем данные в real-time»

Когда: 21 февраля, 16:00 МСК
Где: онлайн

Расскажем, как организовать анализ большого объема данных в реальном времени с помощью in-memory колоночной СУБД. На вебинаре поговорим о том:

• Как объединить транзакционные и аналитические (OLAP и OLTP) системы и сократить затраты на дублирование данных.
• Как ускорить аналитические запросы и формировать отчетность в real-time.
• Как организовать хранение и управление данными (Feature Store) для ML-задач.

Также мы рассмотрим практические кейсы применения продукта Tarantool Column Store: формирование финансовой отчетности с минимальными задержками, ускорение и повышение точности антифрод-систем, повышение производительности системы выдачи кредитов.

Спикеры:

• Николай Карлов, директор инновационных проектов VK Tech,
• Руслан Галиев, продуктовый менеджер Tarantool Column Store.

Вебинар будет полезен архитекторам, дата-инженерам, инженерам DevOps и разработчикам аналитических систем.

Регистрация

Читать полностью…

Анализ данных (Data analysis)

🗓 22 февраля, 16:00
📌Аналитические инструменты для ленивых

Что делать, если хочется заниматься аналитикой данных, а не установкой библиотек и инструментов? Присоединяйтесь на практический вебинар от @Selectel, на котором коллеги расскажут, как получить доступ к GPU без лишней настройки, запустить несколько изолированных JupyterLab на одной GPU и развернуть собственную LLM.

Основные темы:
◽️Инфраструктура с GPU.
◽️Генерация изображений.
◽️ML-эксперименты и запуск LLM.
◽️Сбор данных и BI-аналитика.

Регистрируйтесь на мероприятие и участвуйте в розыгрыше приза за лучший вопрос: https://slc.tl/9fr1o

Реклама ООО «Селектел» erid 2VtzqwfEu69

Читать полностью…

Анализ данных (Data analysis)

Если вы увлекаетесь Computer Science настолько, что хотите перейти от типовых кейсов к задачам со звёздочкой, советуем обратить внимание на образовательные программы под руководством экспертов-практиков. Такие форматы, насыщенные живым общением и возможностью поработать над реальными проектами, - лучший способ выйти на новый уровень.

Начать можно с интенсивов. Например, в апреле Яндекс Образование проведёт бесплатный двухнедельный студкемп по машинному обучению на базе НИУ ВШЭ. Среди преподавателей эксперты из Школы анализа данных, Яндекса и ВШЭ. Программа кемпа направлена на насыщенную практическую работу и обмен опытом - отличная возможность добавить новый проект и сертификат в портфолио.

На программе ждут студентов профильных направлений. Чтобы подать заявку, заполните анкету участника до 29 февраля. Всем, кто успешно пройдёт отбор, Яндекс Образование оплатит дорогу и проживание. Поторопитесь - количество мест ограничено.

Читать полностью…

Анализ данных (Data analysis)

Всё ещё собираете и обрабатываете данные вручную? Попробуйте SQL! Освойте и полюбите язык, который пригодится программисту, продакт-менеджеру, BI-аналитику, data-инженеру или специалисту по Data Science.

Зарегистрируйтесь на мини-курс и получите 5 полезных статей по SQL и Excel: https://epic.st/tmcpo
Вас ждут:
— море полезной теории;
— практические работы для закрепления навыков;
— бонусы: скидка 10 000 рублей на любой курс Skillbox, бессрочный доступ к материалам, полезные чек-листы и год бесплатного изучения английского языка;
— персональная карьерная консультация.

Что будем делать:
— Писать запросы на языке SQL.
— Проводить аналитику для бизнеса.
— Разрабатывать автоматизированную отчётность в Excel.
— Обрабатывать данные в Power Query.
— Визуализировать показатели в Excel: будете создавать красивые графики, диаграммы и отчёты.
— Применять инструменты Excel для анализа данных.

Спикер — Мкртич Пудеян, специалист по анализу данных в «Газпромбанке». Сертифицированный SQL-разработчик от Microsoft, 8 лет работал специалистом по хранилищам данных в Tele2.

Оставьте заявку и получите доступ к мини-курсу прямо сейчас.

🌟Откройте новые возможности для карьеры!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…
Subscribe to a channel