Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted - каталог телеграмм

data_analysis_ml | Unsorted

Subscribe to a channel

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

05 Feb 2024 16:03

БИТ:ERP - инновационное подразделение крупной международной IT компании Первый БИТ, крупнейший интегратор 1С, аккредитован как ИТ-компания в Минцифры.

🔥 Набор открыт до 22.02.2024, количество мест ограничено. Торопись!

Условия стажировки разработчика 1С
🔸Срок: 3 месяца
🔸Опыт: не требуется
🔸Занятость: полная, удаленная работа
🔸Оклад: 50 000₽ в месяц

Перспективы
🔸После стажировки: junior - 100 000₽ в месяц
🔸1-1,5 года: middle - от 150 000₽ в месяц
🔸2-2,5 года: senior - от 200 000₽ в месяц
🔸3-5 лет: PO, architect - от 300 000₽ в месяц

Требования
✔️ Высшее/среднее специальное техническое или финансовое образование (последний курс тоже ОК, при условии полной занятости)
✔️ Базовые знания любого языка программирования (Python, Visual Basic, PHP, Java, С++ и т.п.), SQL, HTML
✔️ Грамотная письменная и устная речь
✔️ Желание и умение быстро учиться, в том числе, в свободное время.

Присоединяйся @BITERP_internship_bot
👉 Вакансия

Реклама. erid: LjN8KQbEY

Читать полностью…

Анализ данных (Data analysis)

03 Feb 2024 18:21

📈 PALLAIDIUM - генеративный искусственный интеллект для Blender VSE.

AI-генерация видео, изображений и аудио из текстовых промптов или других видео или изображений.

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 21:11

🖥 Совет Pandas!

Используйте параметр parse_dates для указания столбцов с датами при создании даатфрейма из CSV, вместо pd.to_datetime.

Это делает код более кратким и удобным для чтения.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 11:01

⚡️ SUPIR - новая высокоточная модель восстановления изображений!

▪Код: https://github.com/Fanghua-Yu/SUPIR

▪Проект: http://supir.xpixel.group

▪Статья: https://arxiv.org/abs/2401.13627

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

01 Feb 2024 07:35

⚡️ Новая лекция Ян Лекуна : «Объектно-ориентированный ИИ: на пути к машинам, которые могут учиться, рассуждать и планировать»

Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

30 Jan 2024 09:28

🖥 Примеры генеративного ИИ от NVIDIA

Современные примеры генеративного ИИ, которые легко развертывать, тестировать и адптировать под ваши задачи.

Все примеры работают на высокопроизводительном стеке NVIDIA CUDA-X и графических процессорах NVIDIA.

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

29 Jan 2024 10:02

🖥 Nxs-data-anonymizer - это инструмент для анонимизации дампа баз данных PostgreSQL и MySQL/MariaDB/Percona.
▪Поддерживаемые базы данных и версии:
PostgreSQL (9/10/11/12/13/14/15/все версии)
MySQL/MariaDB/Percona (5.7/8.0/8.1/все версии)

▪Гибкая генерация фейковых данных на основе шаблонов Go и библиотеки шаблонов Sprig.

▪Потоковая обработка данных. Это означает, что вы можете перенаправлять дамп из исходной БД в любую другую БД с преобразованиями

▪Легко интегрируется в CI/CD

➡️ Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

28 Jan 2024 08:26

🖥 Google-Colab-Selenium

Лучший способ использовать Selenium в блокнотах Google Colab!

▪Простая настройка Selenium и ChromeDriver.
▪Бесшовная интеграция с Google Colab.
▪Поддержка ChromeDriver для сложных случаев парсинга.

%pip install google-colab-selenium

import google_colab_selenium as gs from selenium.webdriver.chrome.options import Options # Instantiate options options = Options() # Add extra options options.add_argument("--window-size=1920,1080") # Set the window size options.add_argument("--disable-infobars") # Disable the infobars options.add_argument("--disable-popup-blocking") # Disable pop-ups options.add_argument("--ignore-certificate-errors") # Ignore certificate errors options.add_argument("--incognito") # Use Chrome in incognito mode driver = gs.Chrome(options=options) driver.get('https://uproger.com') print(driver.title) driver.quit()

➡️Github
➡️Colab

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

26 Jan 2024 16:31

⚡ RoMa: простая в использовании, стабильная и эффективная библиотека для работы с кватернионами, векторами вращения, пространственными преобразованиями в PyTorch.

pip install roma

▪Github
▪Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

26 Jan 2024 08:33

🚀 LLMLingua: Enhancing Large Language Model Inference via Prompt Compression

LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.

Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.

▪Github
▪Документация

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

24 Jan 2024 11:31

🌟 При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.

Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

23 Jan 2024 15:03

⚡️ По мере того как усиливается гонка за создание первого в мире по-настоящему полезного квантового компьютера, растет и потребность в ясном взгляде на вещи.

В этом выпуске программы "Полевые заметки" мы погрузимся глубже. в Google Quantum AI, чтобы понять реальность квантовых вычислений и их влияние на мир.

▪Видео
▪Почитать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

22 Jan 2024 10:00

☑ Вышел Scikit-learn 1.4.0

🟢 5 новых крупных новых функкций и 13 небольших новых фич
🔵 14 улучшений производительности
🟡 15 изменений в API
🔴 38 исправленных багов

https://scikit-learn.org/stable/whats_new/v1.4.html#changes-1-4

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

21 Jan 2024 09:10

🎓 Представляем DataTrove .

DataTrove - это библиотека для обработки, фильтрации и дедупликации текстовых данных в очень больших масштабах. Она предоставляет набор готовых часто используемых функций обработки данных и фреймворк для простого добавления собственной функциональности.

Его конвейеры обработки не зависят от платформы и могут работать как локально, так и на кластере slurm.

Низкое потребление памяти и удобная конструкция делают его идеальным для больших рабочих нагрузок, например для обработки обучающих данных LLM. ✨

git clone git@github.com:huggingface/datatrove.git && cd datatrove pip install -e ".[FLAVOUR]

▪Github
▪Примеры

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

20 Jan 2024 10:40

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Machine Learning инженер: что/где/как изучать, чтобы въехать
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— Инженерные данные в 21 веке
— 10 лучших скриптов Python для автоматизации и повышения производительности 2024 года.
— Spark не для чайников: где?
— OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ
— Go — 100 вопросов/заданий с собеседований
— Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?
— Best Web Scraping Libraries for Spring Boot
— Best Web Scraping Libraries for R
— How To Parse HTML With Regex
— Automatically Generating Data Exploration Code in Python With Mito
— Streamlit Authentication
— CanvasXpress vs. Plotly: Which Data Visualization Library Is Better?
— Working for a Data-Driven Startup Whose Value Surged 700% In Less Than One Year
— Check Out GomorraSQL — A Library To Write Queries in Neapolitan
— Achieving Loosely Coupling with a Math Expression Parser
— Returning CSV Content From an API in Spring Boot

Посмотреть:
🌐 #Python трюк сопоставления #программирование #код #питон #yotube #собеседование #алгоритмы (⏱ 00:59)
🌐 C# полный курс 2024. Урок 1: Загрузка VStudio (⏱ 03:05)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:27)
🌐 Lightning Interview "Troubleshooting Large Language Models" (⏱ 01:00:05)
🌐 ChatGPT: 4 Game-Changing Applications! (⏱ 07:44)
🌐 NVIDIA Is Supercharging AI Research! (⏱ 07:39)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 Feb 2024 14:01

📈 Каждый студент, изучающий информатику, знает об алгоритме Дейкстры для поиска кратчайшего пути.

Но знаете ли вы, что этот культовый алгоритм был придуман в ресторане, да еще и за 20 минут?

Во время интервью в 2001 году Эдсгер Вайб Дейкстра рассказал, что разработал алгоритм всего за 20 минут во время шопинга в Амстердаме со своей невестой в 1956 году.

Его вдохновил вопрос:
"Каким кратчайшим путем можно добраться из Роттердама в Гронинген?"

Он спроектировал его без карандаша и бумаги.

Алгоритм был опубликован три года спустя в трехстраничной статье под названием "Заметка о двух проблемах, связанных с графами".

Дейкстра получил премию Тьюринга в 1972 году за фундаментальный вклад в разработку структурированных языков программирования, но алгоритм кратчайшего пути остается его самой известной работой.

👇 Напишите в комментариях реализацию Алгоритма на своем любимом языке программирования.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

03 Feb 2024 11:02

⚡️ Awesome-polars

Большой полезный кураторский список примеров с кодом, инструментов, бенчмарков и статей о Polars.

▪Github
▪Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 19:11

GigaChat обгоняет ChatGPT по всем характеристикам — к таким результатам пришли разработчики отечественной нейросетевой модели. В последнем исследовании разрабы решили сравнить модели от Сбера и OpenAI, результаты можно посмотреть здесь.

Не зря на сегодняшний день нейросетью от Сбера пользуется более 2,5 млн человек.Теперь ждем, когда Яндекс проведет такое же исследование.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 Feb 2024 09:01

11 марта Newprolab запускает уже 14-й поток программы Data-Engineer

Программа будет полезна junior и middle дата-инженерам, аналитикам данных, бэкенд-разработчикам, техлидам и менеджерам, работающим с дата-командой

- 7 недель (11 марта – 27 апреля)
- 20 занятий с преподавателями в зуме
- 6 лаб с реальными данными
- чат с участниками и поддержка координаторов

📌Что дает программа:
1) научитесь решать типичные задачи DE и реально станете дата-инженером на время программы
2) структурируете ваши знания и познакомитесь с новыми инструментами
3) поработаете с облачным кластером для решения лаб с реальными данными
4) видеозаписи и другие материалы программы останутся у вас навсегда

📌Преподаватели – практики из ведущих компаний, рассказывают о сложном простым языком и ответят на все ваши вопросы

📌Промокод DEFRIENDS дает скидку 20%

[Подробная информация и регистрация]

Читать полностью…

Анализ данных (Data analysis)

31 Jan 2024 09:37

Вышел PyTorch 2.2 🎉

С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием TORCH_LOGS.
и др.

➡️ Полный спис ок обновлений

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

29 Jan 2024 18:52

💡 Проблема: ваш код, содержит много скопированного чужого кода, но его трудно найти.

Решение: jscpd

jscpd — это инструмент командной строки, который выводит скопированный код и сообщает о конкретных повторяющихся строках.

Работает более чем на 150 языках.

▪ Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

28 Jan 2024 14:02

🖥 SQL-metadata

Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.

Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.

Также предоставляет полезные функции для нормализации SQL-запросов.

pip install sql-metadata

▪Github
▪Docs

Читать полностью…

Анализ данных (Data analysis)

27 Jan 2024 09:03

🎮 Build a Large Language Model (From Scratch)

Еще один замечательный ресурс, который подходит для начинающих, чтобы построить ChatGPT-подобный LLM с нуля, шаг за шагом

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

26 Jan 2024 14:25

🔊 Делимся «вредными советами» по работе с ClickHouse®

ClickHouse® — быстрая и масштабируемая колоночная база данных. Она известна своей высокой производительностью, возможностью обрабатывать аналитические запросы в режиме онлайн и строить аналитические витрины. Как и у любой другой технологии, у ClickHouse® есть свои особенности и нюансы, которые необходимо учитывать при работе.

В видео архитекторы Yandex Cloud поделятся распространёнными ошибками при использовании базы данных ClickHouse®, а также рекомендациями, как избежать этих ошибок и достичь максимально производительности БД ClickHouse.

🗣 Подробнее по ссылке.

Читать полностью…

Анализ данных (Data analysis)

25 Jan 2024 07:02

🚀 Одна из распространенных привычек Pandas, от которой полезно отказаться в Polars:

В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.

В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.

Почему?

Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

24 Jan 2024 09:31

Ozon Tech проводит BI-митап

31 января | 19:00
online

Кому будет полезно?
Аналитикам данных, разработчикам баз данных, бэкенд-разработчикам.

Что обсудят:
— работу в сервисах Vertica, ClickHouse и Hadoop,
— как и зачем в Ozon используют подход платформизации в данных,
— автоматизацию поставки стриминговых данных от системы-источника до хранилища,
— cжатие данных в ClickHouse через функционал выбора лучших кодеков в зависимости от характера данных,
— мониторинг качества данных и планы компании на будущее.

Самое главное — не забудьте зарегистрироваться.

erid: LjN8K51pi
Реклама. Рекламодатель ООО «Озон Технологии».

Читать полностью…

Анализ данных (Data analysis)

23 Jan 2024 07:02

⚡️ Lazy Predict позволяет быстро создавать прототипы для анализа данных и сравнивать несколько базовых моделей без необходимости вручную писать код или настраивать параметры.

Это помогает специалистам по исследованию данных выявлять перспективные подходы в работе с даныыми и быстрее реализовывать модели.

pip install lazypredict

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

22 Jan 2024 08:01

Новый год — старт для ваших новых карьерных возможностей 🎄
6 февраля приглашаем на Зимнюю ярмарку вакансий, которая пройдёт офлайн и онлайн. Это классная возможность стать частью IT-сообщества Яндекса и познакомиться с теми, кто создаёт сервисы с многомиллионной аудиторией.

Что вас ждёт
🔸 Вакансии для стажёров
Узнаете о новых вакансиях и задачах, а также сможете лично пообщаться с командами и подать заявку туда, где понравится больше всего.
🔸 Полезные лекции
Узнаете о технологиях и кейсах из практики от экспертов Яндекса. Лекции пройдут по основным направлениям стажировки: бэкенд, фронтенд, мобильная разработка, аналитика и машинное обучение.
🔸 Нетворкинг со стажёрами Яндекса
Узнаете, как они проходили отбор, как готовились и чем планируют заниматься дальше. Сейчас в Яндексе одновременно стажируются более 600 человек — им есть что рассказать.

Как попасть на Зимнюю ярмарку вакансий
Чтобы попасть на ярмарку, нужно пройти предварительный отбор — решить задачи на Яндекс Контесте до 31 января включительно. Мы проверим решения, оценим анкеты и позовём лучших на день стажёра в Москве. Приглашения придут до 2 февраля включительно.

🍭 Закрытое шоу
Тех, кто решит все задачи из Контеста, мы пригласим на вечернее закрытое шоу «Всё в плюсе». Это соревнование между различными бизнес-группами Яндекса, в которых примут участие и стажёры, и топовые разработчики. Знакомство с различными сервисами, нетворкинг с действующими стажёрами, вечеринка с кавер-группой и диджеем — это то, что ждёт вас на шоу.
Узнать подробности и подать заявку — https://yandex.ru/yaintern/intern-day.

Читать полностью…

Анализ данных (Data analysis)

21 Jan 2024 08:02

Знаешь, как организовать потоки загрузки и обрабатывать данные, но хочешь делать это ещё лучше? 👨‍💻

Пройди интенсив по направлению Data Engineer в Открытой школе Холдинга Т1 — лидера* российского ИТ-рынка🔝
Прокачаем скилы и пригласим в команду.

Для кого? Дата-инженеры с опытом работы от года.

Как всё устроено❓
1️⃣ подай заявку
2️⃣ пройди входное тестированиеДля интенсива достаточно выделить 8 часов в неделю: 4 на вебинары + 4 на практику.
Гибкий график, без отрыва от работы. Продолжительность — 1 месяц, а старт уже в январе.

Принимаем заявки до 24 января❗️

*По версии CNews Analytics 2022, TAdviser 2021 и RAEX 2023

Реклама. ООО "ГК "ИННОТЕХ". ИНН 9703073496.

Читать полностью…

Анализ данных (Data analysis)

19 Jan 2024 12:23

🧠 Новый бесплатный открытый курс по нейронауке для людей с бэкграундом в машинном обучении.

Хороший куря для углубления в вычислительную нейронауку.

Курс состоит из 34 коротких видеороликов, начиная с вводных тем и заканчивая недавними открытиями, которые мы до сих пор до не изучены.

Кроме того, в курсе есть практические упражнения в Google Colab.

▪Курс
▪Github
▪ Другие курсы DS 2024

@data_analysis_ml

Читать полностью…

Subscribe to a channel