data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

➡️API и начинающий системный аналитик — разбираем все по полочкам 

Хотите стать востребованным системным аналитиком и находитесь в начале пути? Приходите на открытый практический урок от OTUS и узнайте:

- что представляет собой проектирование API для аналитика;
- как увидеть, что API нужен;- с чего начать и где искать требования;
- что нужно собрать для проектирования API. 

Научимся по шагам проектировать и описывать интеграцию, чтобы ставить разработчикам понятные задачи!

Спикер — ведущий системный аналитик, сертифицированный менеджер и опытный преподаватель. 

Встречаемся 20 мая в 19:00 мск в рамках курса «Специализация системный аналитик». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS! 

🔜Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок и получить специальную скидку на обучение: https://otus.pw/Vk7h/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KRAso

Читать полностью…

Анализ данных (Data analysis)

Хотите попробовать себя в роли аналитика и попрактиковаться на реальных задачах?

Приходите на бесплатный курс-симулятор Нетологии и Yandex Cloud «Основы анализа данных в SQL, Python, Power BI, DataLens».

В этой профессии много разных направлений — аналитик данных, BI-аналитик, продуктовый аналитик, Data Scientist. Но везде пригодится навык работы с инструментами-помощниками, которые вы и освоите на курсе.

Эксперты-практики расскажут, как делать простые отчёты, исследовать данные и строить интерактивные дашборды. А чтобы понять, что анализ данных — это точно ваше, вместе решите практические задачи из реальных кейсов.

Воспользуйтесь шансом попробовать новые инструменты и запишитесь на бесплатный курс Нетологии.

Регистрация: https://netolo.gy/c9KL
Реклама. ООО "Нетология" LatgBc6EZ

Читать полностью…

Анализ данных (Data analysis)

Эффективный метод быстрого освоения ChatGPT.

Обучение нейронной сети и создание правильных промптов – это длительный процесс, который требует значительного времени.

Здесь разработан краткий курс из 5 уроков по ChatGPT. После его завершения вы сможете создать 9 нейронных сетей, которые помогут вам:

- находить ошибки и оптимизировать код
- генерировать посты в Телеграме
- создавать заголовки для рекламы
- делегировать рутинные задачи нейронке

Вы также сможете разработать своих собственных нейро-помощников для продаж, маркетинга и других целей.

Бесплатный доступ предоставляется сразу после регистрации.

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8JvcZb

Читать полностью…

Анализ данных (Data analysis)

Не представляете свою жизнь без математики и хотите применять её в работе над IT-проектами?

Научиться этому помогут короткие образовательные программы от экспертов-практиков. Плюсы таких форматов — большой объём полезной информации в короткий срок, фокус на узкие дисциплины, новые проекты в портфолио, а также активный нетворкинг и обмен идеями.

Где найти такие программы? Например, у Яндекс Образования. В июле у них стартует студкемп по математике в ИИ на базе Иннополиса. За две недели вы погрузитесь в актуальные вопросы машинного обучения и больше узнаете о математических методах в искусственном интеллекте.

На бесплатной программе ждут студентов старших курсов, обучающихся по направлению Computer Science. Подать заявку можно до 26 мая. Всем, кто успешно пройдёт отбор, организаторы оплатят дорогу и проживание. Переходите на сайт прямо сейчас и заполняйте анкету! Поторопитесь, количество мест ограничено.

Читать полностью…

Анализ данных (Data analysis)

Игнорирование больших данных и нейросетей сегодня — почти гарантия провала. Именно поэтому стоит начать погружение в востребованную сферу Data Science и понять, чем занимаются специалисты по машинному обучению и анализу данных. За 5 дней вы узнаете, как работают нейросети, и создадите свою для поиска новостей.
📌 Зарегистрируйтесь прямо сейчас и получите эксклюзивный бонус — гайд «Как пользоваться ChatGPT и Midjourney + 25 полезных нейросетей»: https://epic.st/aP_hhJ?erid=2VtzqvfoxFK


Что будем делать на мини-курсе:
— Узнаем, где востребована наука о данных, и разберёмся в различиях 3 основных направлений
— Освоим азы языка Python и визуализируем данные с его помощью
— Изучим базовые конструкции языка SQL

🎁 Вас ждут подарки:
— Год бесплатного изучения английского языка
— Персональная карьерная консультация
— 5 полезных чек-листов для старта карьеры

🎉 Все участники мини-курса получат сертификат на скидку 10 000 рублей на любой курс Skillbox.

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

Вас заменит не искусственный интеллект, а те, кто будет работать с ним.

Не дайте таким специалистам шанс отобрать у вас место в компании мечты — записывайтесь на бесплатный онлайн-практикум «Как не потерять работу из-за ИИ: погружаемся в аналитику и Data Science».

За 2 дня вы:
- узнаете, чем занимаются аналитик данных и Data Scientist
- попробуете эти профессии на практике
-определите, какое направление вам больше подходит
- наметите карьерный план и заберете подарки

Зарегистрироваться бесплатно: https://go.skillfactory.ru/&erid=2VtzqvUpTXF

Реклама ООО "Скилфэктори", ИНН 9702009530

Читать полностью…

Анализ данных (Data analysis)

🫖 Слёрм набирает новый поток курса «Data-инженер»

Кто владеет информацией, тот владеет миром. А Data-инженер умеет выстраивать рабочие гипотезы и помогает бизнесу решать бизнес-запросы. А вы можете освоить инструменты и подходы Data-инженера на курсе от Слёрм.

Старт 3 июня.
Записаться на курс можно по ссылке ⬅️

Вы освоите наиболее популярные инструменты Data-инжениринга: Bash, Hadoop, Spark, PostgreSQL, ClickHouse, AirFiow, Nifi, Kafka, Neo4j, MongoDBI и другие. Это обширный и полноценный курс, который охватывает как базовые темы, так и более сложный материал.

Эксперты курса:

🔎 Николай Марков. Работал с сетями, протоколами и различными облаками (AWS, GCP, Azure, OpenStack), писал проекты на Python, а также Golang, C/C++, Scala и Rust. Сейчас выстраивает аналитические архитектуры и Data Governance в разных компаниях.

🐍 Николай Акимов, инженер по внедрению в TaskData. В профессиональном IT уже более 20 лет. Активно участвует в Open Source проектах на Github, поддерживает сообщество NiFi.

🌺Ася Гайламазян. Работала в сферах телекоммуникаций, игровой индустрии, розничных и оптовых продажах в роли разработчика системного обеспечения.

Как проходит обучение:

Эксперты рассматривают каждую тему в коротких видеоуроках.

После каждого занятия будут идти практические задания и тесты — можно пройти теорию и сразу закрепить её.

В заданиях вы можете развернуть стенды и отработать учебный материал на практике.

Всех студентов мы соберем в одном чате в Telegram: здесь можно будет поделиться инсайтом, задать вопрос кураторам и экспертам курса.

После каждого тематического блока спикеры курса готовы будут встретиться с вами на онлайн-сессиях и обсудить возникшие сложности, ответить на любые вопросы по учебной программе.

Старт 3 июня. Записаться на курс можно по ссылке

Реклама ООО «Слёрм» ИНН 3652901451

Читать полностью…

Анализ данных (Data analysis)

Yandex приглашает поучаствовать в Practical ML Conf 14 сентября!

На конференции поговорим о том, как применять ML-технологии в бизнесе и реальных продуктах. Регистрируйтесь уже сейчас — те, кто сделает это раньше всех, попадут на закрытый мини-ивент в июле.

А если хотите поделиться своим опытом в ML, станьте спикером, оставив заявку. Ключевые темы конференции — CV, RecSys, MLOps, NLP, Speech и Analytics. После подачи программный комитет рассмотрит заявки и примет решение об участии каждого претендента.

🔹 Сбор заявок завершится 13 июля.

Реклама. ООО "Яндекс", ИНН 7736207543.

Читать полностью…

Анализ данных (Data analysis)

🖥 Вышла новая, улучшенная версия GPT-4 Omni для. И что самое главное — она доступна всем БЕСПЛАТНО!

Это самая совершенная модель из всех, намного превосходящая своих предшественников, включая таинственный gpt2-chatbot.

Она появится уже сегодня в виде приложения для пк.


GPT-4 Omni будет понимать эмоции и тон голоса.

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

📌Featuretools для генерации признаков

python -m pip install featuretools

Featuretools — это Python библиотека для автоматизированной разработки фич, т.е. определения переменных из набора данных для обучения ML-модели.
Featuretools отлично справляется с преобразованием временных и реляционных наборов данных в матрицы признаков для машинного обучения.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ DeepSeek-V2 — экономичная и эффективная языковая модель Mixture-of-Experts

Встречайте DeepSeek-V2, производительную языковую модель Mixture-of-Experts (MoE), характеризующуюся экономичным обучением и эффективным выводом. Она включает в себя 236B параметров, из которых 21B активируется для каждой лексемы. По сравнению с DeepSeek 67B, DeepSeek-V2 достигает более высокой производительности, при этом экономит 42,5% затрат на обучение, сокращает кэш KV на 93,3% и увеличивает максимальную производительность генерации в 5,76 раза.

Предварительное обучение DeepSeek-V2 было проведено на разнообразном и высококачественном наборе из 8,1 триллиона лексем. После этого комплексного предварительного обучения последовал процесс Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL) для полного раскрытия возможностей DeepSeek-V2.
Результаты оценок подтверждают эффективность такого подхода: DeepSeek-V2 достигает выдающихся результатов как в стандартных бенчмарках, так и в открытой системе оценивания.

🖥 GitHub
🤗 Hugging Face
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Открытый MLOps курс от DataTalks.Club

Мощный курс по MLOps; состоит из 6 модулей, к каждому модулю прилагается подробный Jupyter Notebook со всей нужной теорией и примерами кода

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ PyWinAssistant — AI-инструмент для управления пользовательским интерфейсом

PyWinAssistant — это первый AI-фреймворк для Windows 10/11 с открытым исходным кодом для управления любыми пользовательскими интерфейсами win32api путем использования визуализации мышления (VoT) и пространственных рассуждений в LLM (без OCR / обнаружения объектов / сегментации — такой подход улучшает качество работы PyWinAssistant).

PyWinAssistant имеет встроенные опции чтобы помогать человеку пользоваться компьютером.
Он правильно понимает любые запросы на естественном языке и планирует выполнение правильных действий в ОС с учетом требований безопасности.

🖥 GitHub
🟡 Arxiv (связанное с этим исследование)

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌Artificial Analysis собрали топ 100 LLM в одном месте

Компания Artificial Analysis разработала рейтинговую систему, оценивающую стоимость, производительность и качество более 100 LLM, чтобы обеспечить удобный выбор модели, соответствующей индивидуальным потребностям.

Параметры для оценивания LLM:

🟡Качество: комплексный индекс, рассчитанный на основе метрик, таких как MMLU, MT-Bench, оценки HumanEval, а также рейтинг Chatbot Arena;

🟡Цена: метрики, учитывающие цену на вход/выход на один токен, а также среднюю цену для сравнения провайдеров хостинга. Стоимость представляет собой взвешенную смесь цен на входные и выходные токены в соотношении 3:1;

🟡Окно контекста: максимальное количество комбинированных входных и выходных токенов;

🟡Скорость: токены/с, получаемые во время генерации моделью токенов. Median, P5, P25, P75 и P95;

🟡Задержка: время до первого полученного токена, измеренное в секундах, после отправки запроса через API. Median, P5, P25, P75 и P95.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Новая статья на Habr: разработчики из команды AllSee поделились опытом внедрения YandexGPT API в свои проекты

Авторы пишут, что официального SDK пока нет, поэтому они создали свой. Здесь полное решение, включая создание класса YandexGPT Thread для хранения и управления отдельными чатами.

Из интересного: в начале есть сравнение эффективности YandexGPT и ChatGPT в одной из задач. Две модели показали хорошие результаты, но стоимость нейросети от Яндекса вышла значительно меньше.

https://habr.com/ru/articles/812979/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Пошаговая реализация архитектуры Transformer

В этом ноутбуке максимально подробно описан каждый шаг реализации трансформера с нуля, с необходимым теоретическим минимумом
Для полного просветления можно скомбинировать с видео 3blue1brown">3b1b

▶️ Jupyter Notebook

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Phidata — фреймворк для добавления памяти, знаний и новых опций к LLM

pip install -U phidata

А вот пара примеров AI-веб-приложений, созданных с помощью Phidata:
🟡 PDF AI — обобщает и отвечает на вопросы из PDF-файлов
🟡 ArXiv AI — отвечает на вопросы о статьях ArXiv, используя ArXiv API
🟡 HackerNews AI — обобщает истории, пользователей и делится тем, что нового на HackerNews

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 DrawDB — open-source интуитивно понятный онлайн-инструмент для проектирования БД и генерации SQL-запросов

DrawDB — это удобный онлайн-редактор отношений между базами данных и сущностями (DBER).
Позволяет создавать диаграммы в несколько кликов, экспортировать sql-скрипты, настраивать редактор и многое другое без создания учетной записи. Ознакомиться с полным набором функций можно здесь.

Для локального использования:


git clone https://github.com/drawdb-io/drawdb
cd drawdb
npm install
npm run dev


GitHub
Перейти в редактор

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Red Hat объявила о выпуске дистрибутива RHEL AI для ML-разработчиков

Red Hat выпустила дистрибутив Red Hat Enterprise Linux AI (RHEL AI), который создали специально для ML-разработчиков. В сборку включены инструменты и фреймворки для работы с моделями машинного обучения.

▶️ Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ xLSTM: расширенная долгая краткосрочная память

С тех пор как LSTM возникли и выдержали испытание временем, они способствовали многочисленным успехам глубокого обучения, в частности, привели к созданию LLM.
Однако появление технологии Transformer с распараллеливаемым самовниманием в основе ознаменовало рассвет новой эры, превзойдя LSTM по масштабу.
Возникают вопросы: как далеко мы можем продвинуться в языковом моделировании при масштабировании LSTM до миллиардов параметров, используя новейшие методы современных LLM, но смягчая известные ограничения LSTM?
• 1 — можно использовать экспоненциальный гейтинг с соответствующими методами нормализации и стабилизации.
• 2 — можно модифицировать структуру памяти LSTM, получая: (I) sLSTM со скалярной памятью, скалярным обновлением и новым смешиванием памяти; (II) полностью распараллеливаемую mLSTM с матричной памятью и правилом обновления ковариации.

Так и возникает xLSTM — расширенная долгая краткосрочная память.
Экспоненциальный гейтинг и модифицированные структуры памяти повышают возможности xLSTM и позволяют сравнить их с современными трансформерами как по производительности, так и по масштабированию.

Держите совсем свежую статью с описанием xLSTM
📎 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Novu — IaaC инфраструктура уведомлений на основе GitOps. Встроенный центр уведомлений, интеграция с электронной почтой, Push и Slack

Novu — open-source инфраструктура уведомлений;
Novu предоставляет унифицированный API, который упрощает отправку уведомлений по нескольким каналам, включая In-App, Push, Email, SMS и Chat. С Novu можно создавать пользовательские рабочие процессы и определять условия для каждого канала, не беспокоясь, что уведомления будут доставлены наиболее эффективным способом.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Plandex — AI-инструмент для создания кода

curl -sL https://plandex.ai/install.sh | bash

Это open-source AI-инструмент для генерации кода с консольным интерфейсом, который помогает выполнять даже большие задачи.

Для выполнения задач, охватывающих несколько файлов и требующих множества шагов, Plandex использует долго работающих AI-агентов. Большие задачи разбиваются на более мелкие подзадачи, которые затем выполняются — и так пока не будет выполнено всё.

Фишки Plandex:
— позволяет экспериментировать, пересматривать и анализировать в защищенной песочнице, прежде чем применять изменения

— даёт возможность пробовать разные модели и настройки моделей, а затем сравнивать результаты

— облегчает контроль над контекстом и над тем, сколько токенов используется

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Грег Брокман, соучредитель OpenAI, опубликовал 5-минутное видео, в котором он общается с языковой моделью GPT-4 Omni и демонстрирует ее возможности компьютерного зрения.

А вот еще 33 видео с примерами работы ИИ - https://vimeo.com/openai.

А если интерсно, тут обращение самого Сэма Альтмана - https://blog.samaltman.com/gpt-4o

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

🌟 LLM2Vec — инструмент для преобразования LLM в кодировщик текста

pip install llm2vec
pip install flash-attn --no-build-isolation


LLM2Vec позволяет выполнить 3 простых шага:
1) включение двунаправленного внимания
2) обучение с скрытым предсказанием следующей лексемы
3) неконтролируемое контрастное обучение

При этом LLM может быть дополнительно настроена для достижения современной производительности.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Вспомним школьную математику и подготовим к вступительным в магистратуру

16 мая пройдет первый вебинар в рамках онлайн-марафона по подготовке к вступительному экзамену в онлайн-магистратуру "Master of Data Science" Марафон продлится до 3 июня.

Чтобы успешно сдать вступительный экзамен в магистратуру "Master of Data Science", вам нужно знать математику школьного уровня. Обучение рассчитано для поступающих с нулевым уровнем в программировании или желающих изменить свою сферу деятельности.

Марафон будет также полезен всем, кто хочет вспомнить основы базовой математики.

📆 Дата: 16 мая
💻 Формат: онлайн

📕 Зарегистрироваться на онлайн-марафон по ссылке

"Master of Data Science" — онлайн-магистратура на факультете компьютерных наук НИУ ВШЭ, которая реализуется полностью на английском языке.

Реклама. НИУ ВШЭ.
ИНН 7714030726
Erid: 2SDnjccrqVs

Читать полностью…

Анализ данных (Data analysis)

🖥🖥 Решаем задачи на стажировку аналитика в яндекс. Подключаем CHATGPT и другие ИИ модели!

https://www.youtube.com/watch?v=I_6exF29t0k

#youtube #стажировка #яндекс

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Marqo — векторный поиск для ML-приложений и не только

pip install marqo

Marqo — это open-source фреймворк тензорного поиска, который обеспечивает работу приложений для поиска, извлечения информации и ML-приложений.

Особенности Marqo
— генерация, хранение и поиск векторов из коробки
— позволяет создавать приложения для поиска, разрешения сущностей и изучения данных, используя свои тексты и изображения
— можно создавать сложные семантические запросы, комбинируя взвешенные поисковые термины
— поддерживается фильтрация результатов поиска с помощью DSL запросов Marqo
— позволяет использовать ML-модели от PyTorch, Huggingface, OpenAI и не только
— можно использовать предварительно сконфигурированную модель или подключить свою собственную
— поддержка CPU и GPU
— модели хранятся в индексах HNSW в памяти, что позволяет достичь высокой скорости поиска
— масштабирование до индексов на сотни миллионов документов с помощью горизонтального чередования индексов
— асинхронная и неблокируемая загрузка данных и поиск

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 SQL генератор

Выпущена Sqlcode 8b на базе Llama-3!

Вероятно, это лучшая на данный момент модель размером <10B для преобразования текста в SQL.

Работает лучше, чем gpt-4-turbo и claude opus для генерации SQL запросов.

Github: https://github.com/defog-ai/sql-eval
Weights: https://huggingface.co/defog/llama-3-sqlcoder-8b/
Demo (optimized for postgres): https://defog.ai/sqlcoder-demo/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Статистическое моделирование с PyMC

PyMC — это пакет Python для байесовского статистического моделирования, сфокусированный на продвинутых алгоритмах Марковской цепи Монте-Карло (MCMC) и вариационного вывода (VI). Гибкость и расширяемость позволяют применять PyMC для решения большого набора задач.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 LightGBM — система градиентного бустинга для решения задач ML

pip install lightgbm

Если подробнее, то LightGBM — это фреймворк для градиентного бустинга (GBT, GBDT, GBRT, GBM или MART) на основе алгоритмов дерева решений, используемая для ранжирования, классификации и многих других задач Machine Learning.

LightGBM разработан как распределенная и эффективная система, обладающая следующими преимуществами:
— Высокая скорость обучения и эффективность.
— Низкое потребление памяти.
— Высокая точность.
— Поддержка параллельного, распределенного и GPU-обучения.
— Возможность работы с большими объемами данных.

Благодаря этим преимуществам LightGBM широко используется во многих проектах, победивших в соревнованиях по Machine Learning.

🖥 GitHub
🟡 Доки
🟡 Пример использования LightGBM на Kaggle

@data_analysis_ml

Читать полностью…
Subscribe to a channel