Российский AI-ассистент разработчика доступен на GitVerse
AI-ассистенты (AI, artificial intelligence — искусственный интеллект) — это программы, которые анализируют код и предлагают варианты завершения в режиме онлайн. Разработчик может быстрее выполнять привычные задачи, избавиться от рутины сосредоточиться на важных проектах.
К одному из таких помощников вы можете получить доступ уже сейчас!
GigaCode – это AI-ассистент, который знает 15 языков программирования — Java, Python, TypeScript, C/C++ и другие. GigaCode работает в любой привычной среде разработки. Его можно подключить к IDEA, PyCharm, VSCode, Jupyter и другим.
GigaCode развивается вместе c сервисом GigaChat. В AI-ассистенте есть нейросетевые модели, которые обучены на больших корпусах исходного кода и специализируются на определенных задачах разработки. А по опыту команд в Сбере, GigaCode может сокращать время для создания кода до 25%. Ранний доступ к AI-ассистенту можно получить на площадке GitVerse. Это российская платформа для работы с исходным кодом от СберТеха, где можно хранить открытые и закрытые репозитории и продвигать свои проекты.
Чтобы получить доступ к GitVerse и протестировать GigaCode в своем проекте, оставьте заявку на сайте.
Яндекс зовёт в летнюю Школу аналитиков-разработчиков
В этом году Академия Яндекса запустила новую пятую школу, для бесплатного обучения навыкам, востребованным в IT. Студентов научат работать с реальными проектами и делать выводы на основе данных: извлекать из них смыслы и принимать решения.
Как попасть
Подайте заявку и успешно пройдите отбор, состоящий из двух туров. В первом — выполнение тестового задания и запись видеоинтервью, во втором — онлайн-собеседование. Чтобы лучше подготовиться, посмотрите подборку полезных материалов.
Где и когда пройдет обучение
С 11 июня по 31 августа: cначала лекции онлайн, а потом очный этап в офисах Яндекса в Москве и Санкт-Петербурге. Компания оплатит билеты и проживание участникам из других городов.
Лучшие студенты пройдут очный этап в новом формате — Лаборатории
Ученики, показавшие самые высокие результаты на онлайн-этапе, будут приглашены на пятинедельную оплачиваемую практику с погружением во внутренние сервисы Яндекса и возможностью поработать бок о бок с опытными программистами.
Подать заявку и получить тестовое задание можно по ссылке
Программа бакалавриата в Центральном университете от Тинькофф с грантом до 100% для сильных и мотивированных абитуриентов!
Грант можно получить на одно из направлений бакалавриата по искусственному интеллекту, разработке и бизнес-аналитике. Помимо диплома и практико-ориентированного образования студенты получат:
- Персонализацию учебной траектории;
- Стажировку в одной из лучших ИТ-компании страны;
- Личного ментора на все время обучения;
- Доступ к современному кампусу в центре Москвы.
Получить полную информацию и оставить заявку можно здесь.
erid:2VtzqwB4n38
Реклама, АНО ВО «Центральный университет», ИНН 7743418023
💼 Quantstats
Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.
QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.
Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.
▪Github
@data_analysis_ml
🔥 Хотите добавить в резюме компетенции Spark-разработчика?
Приходите на бесплатный практический урок «Spark Connect — что это такое и зачем оно нужно» от OTUS. Спикер Вадим Заигрин — Team Lead команд инженеров данных.
В Spark 3.4.0 появился Spark Connect. На вебинаре мы разберем, что это такое, какие задачи он решает и как его использовать.
📌 Встречаемся 4 апреля в 20:00 мск в рамках курса «Spark Developer». Доступна рассрочка на обучение!
💣 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок и получить запись: https://otus.pw/CLno/?erid=LjN8KQwrr
⁉️ Интересуетесь сферой Computer Vision? Разберите одну из важных тем на практике
Приходите на бесплатный практический урок «Современные self-supervised подходы в computer vision: решаем задачи без обучения моделей» Otus, лекцию читает Борис Цейтлин — опытный CV-эксперт.
Segment Anything, DINO и другие foundational модели меняют ландшафт Computer Vision. На этом занятии вы узнаете, как ими пользоваться, в каких случаях можно вообще не обучать модели, а когда все-таки придется.
🔜 Встречаемся 4 апреля в 20:00 мск в рамках курса «Компьютерное зрение». Доступна рассрочка на обучение!
🟢 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок и получить запись: https://otus.pw/f0Fx/?erid=LjN8Kb2Jn
erid: LjN8Jy14X
Как инженеру данных дорасти до уверенного мидла?
Если у вас уже есть опыт работы, но вы хотите структурировать знания и восполнить пробелы, чтобы охватить весь стек и выделиться на фоне «джунов», присоединяйтесь к курсу «Инженер данных» от karpov.courses.
За 5 месяцев вы освоите:
— Проектирование DWH;
— Реляционные и MPP СУБД;
— Автоматизация ETL-процессов;
— Big data;
— Облачное хранилище;
— Визуализация данных;
— Big ML;
— Управление моделями и данными.
Авторы курса — топовые профи из «Яндекса», Ozon.Fintech, VK Cloud Solutions и Сбера.
Старт программы 4 апреля — получите скидку 5% по промокоду DAML и расширьте свои навыки: https://clc.to/kUS3Xg
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.
Постройте свою модель для прогнозирования цен на недвижимость, открыв двери в мир машинного обучения вместе с нами!
👉 Отус приглашает 2 апреля в 20:00 мск на бесплатный практический вебинар «Линейная регрессия — ваша первая модель»
Вебинар является частью полноценного онлайн-курса «Специализация Machine Learning»
➡️ Регистрация на вебинар: https://otus.pw/yfj9/?erid=LjN8KXtxj
Спикером выступит: Игорь Стурейко — (к.ф.-м.н.) Teamlead, Data Scientist
В результате вебинара вы:
✅ познакомитесь с популярным алгоритмом машинного обучения — линейной регрессией;
✅ узнаете, как устроены алгоритм линейной регрессии и метод наименьших квадратов;
✅ освоите принципы решения задачи регрессии;
✅ построите свою первую модель предсказания цены на недвижимость.
Записывайтесь сейчас, а мы потом напомним. Участие бесплатно.
🌟 Как проходит собеседование на продуктового аналитика в Авито?
Присоединяйтесь к трансляции на канале AvitoTech 4 апреля в 18:00. Вместе с Вовой Камчаткиным, продуктовым аналитиком в компании inDrive, увидите, какие вызовы и задачи ждут вас и как к ним лучше подготовиться. А ещё сможете отвечать на вопросы Егора Беседина, руководителя продуктовой аналитики в Авито, и задавать свои.
А 6 и 7 апреля используйте полученные знания на Weekend Offer для аналитиков. Оставляйте заявку, проходите собеседование и получайте оффер! 🔥
Канал для аналитиков уже в Telegram!
Его ведет Влад Князев, аналитик из финтеха, который ярко и с юмором пишет заметки и проводит эфиры о том, как выйти на новый уровень в карьере в IT.
Начинай прокачивать насмотренность системно уже сейчас👇
Подпишись на @godnolytika
Не умеете эффективно работать с рекомендательными системами в ML?
Это можно исправить всего за 1 вебинар! И в итоге вы:
- узнаете основные принципы построения рекомендательных систем;
- познакомитесь с методами коллаборативной фильтрации;
- построите рекомендательную систему на практике.
Встречаемся 3 апреля в 18:00 мск на бесплатном практическом уроке от OTUS. Спикер Мария Тихонова – PhD in Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.
Занятие будет приурочено к старту курса «Machine Learning. Advanced». Доступно обучение в рассрочку.
Пройдите короткий тест прямо сейчас, чтобы посетить вебинар и получить запись: https://otus.pw/EKVm/?erid=LjN8K31KR
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Приходите на онлайн-презентацию «GitVerse: открой вселенную кода» от СберТеха
GitVerse – платформа для работы с исходным кодом. На ней разработчики могут бесплатно размещать проекты с открытым и закрытым кодом. Сервис создан и размещен в России, поэтому работать с ним удобно, безопасно и надежно.
29 марта в 10:00 на онлайн-мероприятии «GitVerse: открой вселенную кода» СберТех расскажет о новой функциональности GitVerse. Разработчикам представят дорожную карту развития и анонсируют инструменты для повышения продуктивности.
Что в программе:
· Тренды разработки и роль открытого ПО в современном ИТ
· Возможности GitVerse и планы развития
· GigaCode – AI-помощник разработчика (AI, artificial intelligence — искусственный интеллект)
· Участие комьюнити в проекте
· Пакет облачных сервисов и его преимущества для разработчиков
· Обзор интересных репозиториев на GitVerse
· Реальные кейсы разработки и оптимизации с помощью GitVerse
· Общение в прямом эфире
Спикеры – ведущие ИТ-эксперты.
Узнать больше о GitVerse и зарегистрироваться на мероприятие.
Есть ли мемы на Марсе? Как вытянуть репку с помощью кода? Попробуйте разгадать все тайны Гиперкуба на Tinkoff CTF.
20 и 21 апреля пройдет ИТ-соревнование с призами до 420 000 ₽.
Выберите лигу по скиллам и участвуйте даже без опыта в спортивном хакинге. Задания будут интересны сильным разработчикам, QA- и SRE-инженерам, аналитикам и другим ИТ-специалистам.
Играйте как вам удобно: онлайн из дома или офлайн — в одном 16 городов России, Беларуси и Казахстана. В офлайне вас ждет общение с другими игроками, квизы, мерч и другие развлечения.
Узнайте больше о соревновании и зарегистрируйтесь до 19 апреля
erid:2VtzqxduGN9
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
🛠 Dataverse
Простое, стандартизированное и удобное в использовании решение для обработки данных и управления ими, для специалистов по обработке данных, аналитиков и разработчиков в эпоху LLM.
Даже если вы мало что знаете о Spark, вы можете легко использовать его через dataverse.
▪с Dataverse вы получаете возможность
использовать множество функций предварительной обработки данных без необходимости установки различных библиотек.
▪позволяет генерировать данные для анализа и обучения больших языковых моделей (LM).
▪ вы можете с легкостью использовать Spark, независимо от вашего уровня знаний.
▪ инструмент упрощает совместную работу пользователей с различным уровнем владения Spark.pip install dataverse
⚙️ Github
@data_analysis_ml
🔥 Nvidia опубликовала в открытом доступе бесплатные обучающие курсы для пользователей любого уровня подготовки по нейросетям и нейромоделям для понимания работы ИИ
⏩ объяснение генеративного ИИ: базированный 2-часовой курс, который подробно объяснит устройство нейронок, их применение и возможности;
⏩ создаём «мозг» за 10 минут: объяснит, как нейронка обучается на данных и покажет всю математику у неё под капотом;
⏩ введение в ИИ в центре обработки данных: всё про машинное обучение и глубокое обучение; какие есть фреймворки и как видеокарты двигают ИИ;
⏩ усиляем свою LLM с помощью RAG: объяснит всю базу по генерации с дополненной выборкой;
⏩ создание своих RAG-агентов: мощнейший 8-часовой курс про масштабируемые стратегии развертывания для LLM и векторные базы данных;
⏩ ускорение работы с Data Science без изменения кода: всё об обработке данных и машинном обучении без переписываний кода;
⏩ усиление рекомендательных систем с помощью ИИ: курс-коллаб NVIDIA и YouTube;
⏩ устройство сетей: база про протоколы TCP/IP и Ethernet — необходимо для понимания процессов обработки данных.
@ai_machinelearning_big_data
🖥 Мультиклассовая классификация текста с использованием Spark ML в Python
⏩Итак, кейс: мы имеем дело с наборами данных, которые слишком велики или сложны для обработки с помощью традиционного прикладного программного обеспечения для обработки данных.
В руководстве ниже описано использование механизма распределенной обработки данных общего назначения под названием Apache Spark для обработки наших данных и создания модели машинного обучения для классификации текста.
⏩Apache Spark — это многоязычный механизм для выполнения обработки данных, обработки данных и машинного обучения на одноузловых компьютерах или кластерах.
⏩PySpark — это интерфейс для Apache Spark в Python. Он позволяет писать приложения Spark с использованием API-интерфейсов Python, а также предоставляет оболочку PySpark для интерактивного анализа ваших данных в распределенной среде.
PySpark поддерживает большинство функций Spark, таких как Spark SQL, DataFrame, Streaming, MLlib (машинное обучение) и Spark Core.
📎 Руководство
@data_analysis_ml
💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.
В этом случае можно выгрузить таблицу в Pandas DataFrame
и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.
UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.
Использование UDFS
в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.
В приведенном примере кода мы определяем UDF
с именем modify_name
, эта функция приводит все имена в нашей таблице к верхнему регистру.
📌 Подробнее о UDF
@data_analysis_ml
🔜 DSGW - Data Science GPU Workplace
Проект DSGW призван упростить разворот полноценного рабочего места на сервере с GPU для Data Science разработки
DSGW базируется на:
— Ubuntu 22.04
— Nvidia CUDA 12.3.2
— Nvidia cuDNN 9
— Python 3.12
— VsCode Server
🤓 GitLab
@data_analysis_ml
🌟 Microsoft построит дата-центр Stargate для OpenAI за $100 млрд
⏩По информации нескольких источников СМИ, Microsoft профинансирует строительство крупнейшего в мире дата-центра под названием Stargate для OpenAI. Проект оценивается в $100 млрд, займёт около шести лет на реализацию и будет включать в себя кластер из суперкомпьютеров с искусственным интеллектом.
⏩В рамках проекта Stargate каждый суперкомпьютер в кластере будет включать в себя «миллионы специализированных серверных чипов» для поддержки ИИ-систем OpenAI.
⏩Эксперты считают, что это самый амбициозный проект Microsoft, «который будет в 100 раз дороже, чем некоторые из крупнейших современных дата-центров».
⏩В Microsoft и OpenAI планируют, что первый суперкомпьютер проекта Stargate появится в 2026 году, а в 2028 году к нему добавится ещё серия аналогичных установок. Руководство Microsoft планирует запустить Stargate на полную мощность до 2030 года.
⏩По данным СМИ, что реализация проекта Stargate зависит от того, сможет ли OpenAI представить свою ИИ-модель следующего поколения GPT-5 в определённые сроки. В компании планирует запустить GPT-5 где-то в начале 2025 года без уточнения даты.
⏩В марте этого года СМИ сообщили, что OpenAI уже некоторое время активно тестирует в закрытом формате следующее поколение модели искусственного интеллекта под названием GPT-5. По словам тестировщиков, эта модель существенно лучше GPT-4. Там доступны новые опции типа интеллектуального агента, который умеет самостоятельно выполнять задания человека в течение длительных промежутков времени, а также различные системы для автономного выполнения задач.
⏩Ранее глава OpenAI Сэм Альтман заявил, что разработчики обучают ИИ-модель пятого поколения не только на открытой информации и комбинациях общедоступных наборов данных в интернете, но и на внутренних базах данных многих крупных IT-компаний, которые сотрудничают с OpenAI.
@data_analysis_ml
▶️xAI анонсировала ИИ-модель Grok-1.5
⏩Стартап Илона Маска X.ai объявил о скором выходе новой версии ИИ-модели Grok. Версия Grok-1.5 станет основой чат-бота Grok соцсети X «в ближайшие дни». Согласно результатам тестов, обновлённая модель показывает улучшенные по сравнению с первой версией результаты в тестах по математике и программированию.
⏩По данным X.ai, Grok-1.5 более чем вдвое превысила показатели Grok-1 в популярном математическом тесте MATH и набрала на 10% больше в тесте HumanEval на способность генерировать код и решать задачи по программированию.
⏩Как отмечает TechCrunch, пока трудно предсказать, как эти результаты отразятся на реальном использовании чат-бота: то, как ИИ сдаёт тесты, не всегда коррелирует с его способностью выполнять повседневные задачи пользователей.
⏩Серьёзным улучшением стал увеличенный объём контекста, который Grok-1.5 способна воспринимать по сравнению с предыдущей версией. Как сообщают разработчики, Grok-1.5 может обрабатывать до 128 000 токенов, что позволит чат-боту выполнять более сложные запросы и лучше понимать входящие данные.
⏩«[Grok-1.5 способна] использовать информацию из значительно более объёмных документов, — пишет X.ai. — Более того, модель может обрабатывать более сложные запросы, сохраняя при этом способность следовать инструкциям по мере расширения контекстного окна»
⏩Модель Grok от X.ai отличается от других моделей генеративного ИИ способностью отвечать на вопросы по темам, которые обычно закрыты для других моделей, таким как заговоры и противоречивые политические идеи. Модели также отвечают на вопросы с «бунтарской жилкой», по словам Маска, и могут грубо выражаться, если их попросят.
⏩В ближайшее время доступ к Grok-1.5 получат участники программы раннего тестирования X.
@data_analysis_ml
📌Временная сложность разных ML-алгоритмов
И вспомним про некоторые алгоритмы
⏩Логистическая регрессия
Где применять — там, где требуется несложная классификация малого числа объектов на малое число классов.
⏩K-means
Может сгруппировать объекты по степени похожести.
Где применять — поиск закономерностей, классификация объектов по нескольким параметрам. Работа с объектами, которые можно описывать набором переменных.
⏩Метод опорных векторов (SVM)
Пытается построить такую линию, чтобы самым точным образом разделить между собой разные типы объектов.
Где применять — классификация объектов.
⏩Байесовский классификатор
Определяет класс, к которому принадлежит объект. В основе — расчет вероятности, с которой объект относится к тому или иному типу данных.
Где применять — в задачах классификации, конечно же. Например, классическая задача — сказать, относится ли письмо к спаму или нет.
📎 А вот подробная статья по самым популярным ML-алгоритмам
@data_analysis_ml
📌Python Data Science Bootcamp
Держите мощное практическое видео по работе с Pandas, Matplotlib, NumPy, Seaborn, Scikit-learn, Plotly
Ключевые моменты в видео:
01:28:00 — Pandas
02:54:02 — NumPy
03:05:26 — Визуализация данных с помощью Matplotlib
03:26:22 — Визуализация данных с помощью Seaborn
04:39:40 — Анализ данных
05:03:12 — Элементы ML, использование Scikit-learn
📎 Видео
@data_analysis_ml
✨ Парадокс Монти-Холла из теории вероятностей
В Data Science нужно хорошо ориентироваться в статистике и теории вероятностей. Как у вас с этим?
Хотите взорвать себе мозг?
Не проблема, сейчас всё будет
⏩Итак, перед вами 3 двери, только за 1 из них приз.
Вы выбрали любую дверь.
Ведущий открывает другую дверь (не вашу), за которой приза нет (ведущий знает об этом).
Дальше вы можете либо не менять свою дверь, либо выбрать другую дверь.
Изменится ли вероятность победы, если поменять дверь?
Подумайте очень хорошо;
Когда мы выбираем дверь в самом начале, вероятность выиграть 1/3 — очевидно, потому что из приз только за 1 из 3 дверей.
После того, как ведущий открывает дверь, где приза нет, приз может быть либо за нашей выбранной дверью, либо за другой.
2 двери: наша и оставшаяся, приз может быть за любой из них. Вроде с равной вероятностью 1/3.
Или нет?
⏩Итак, поменяется ли вероятность выиграть, если вы выберете другую дверь?
Для большей уверенности можно смоделировать это в Python
Да, если поменять дверь, вероятность выиграть будет 2/3, а не 1/3, как было бы, если не менять дверь
Что?!
Это реально контринтуитивно, но численный эксперимент на Python это подтверждает.
Вообще, можете написать своё решение, чтобы 100% удостовериться
📎А вот статья, которая поможет в этом разобраться — «Голуби брутфорсят парадокс Монти-Холла лучше людей»
📎 Код можно запустить тут
@data_analysis_ml
▶️7 типов баз данных, понимание которых пригодится специалисту Data Science
⏩Иерархические БД — DNS, LDAP
В иерархических БД каждая запись имеет одного «родителя». Это создаёт древовидную структуру, в которой записи классифицируются по их отношениям с цепочкой родительских записей.
⏩Сетевые БД — IDMS
Сетевые БД расширяют функциональность иерархических: записи могут иметь более одного родителя. А значит, можно моделировать сложные отношения.
⏩Реляционные БД — PostgreSQL, MariaDB, SQLite, MySQL
Реляционные БД – старейший тип до сих пор широко используемых БД общего назначения. Данные и связи между данными организованы с помощью таблиц. Каждый столбец в таблице имеет имя и тип. Каждая строка представляет отдельную запись или элемент данных в таблице, который содержит значения для каждого из столбцов.
⏩Базы данных «ключ-значение» — Redis, Memcached
В БД «ключ-значение» для хранения информации вы предоставляте ключ и объект данных, который нужно сохранить. Например, JSON-объект, изображение или текст. Чтобы запросить данные, отправляете ключ и получаете blob-объект.
⏩Документная база данных — MongoDB, RethinkDB
Документные БД совместно используют базовую семантику доступа и поиска хранилищ ключей и значений. Такие БД также используют ключ для уникальной идентификации данных. Разница между хранилищами «ключ-значение» и документными БД заключается в том, что вместо хранения blob-объектов, документоориентированные базы хранят данные в структурированных форматах – JSON, BSON или XML.
⏩Графовая база данных — Neo4j, JanusGraph, Dgraph
Вместо сопоставления связей с таблицами и внешними ключами, графовые БД устанавливают связи, используя узлы, рёбра и свойства.
⏩Колоночные БД — Cassandra, HBase
Колоночные БД принадлежат к семейству NoSQL БД, но внешне похож на реляционные БД. Как и реляционные, колоночные БД хранят данные, используя строки и столбцы, но с иной связью между элементами.
📎 Читать подробнее
@data_analysis_ml
⚡️ Яндекс показал третье поколение языковых моделей YandexGPT
⏩YandexGPT 3 Pro — первая нейросеть, которая вошла в линейку YandexGPT 3. В дальнейшем их станет больше: каждая будет ориентирована на решение задач определённого типа.
⏩Бизнес сможет дообучать обновленную модель под реальные задачи компании самостоятельно в сервисе ML-разработки Yandex DataSphere. Чтобы запустить процесс дообучения, нужно загрузить в DataSphere файл с примерами запросов и эталонными ответами на них. Такая нейросеть будет доступна только дообучившей её компании.
⏩Качество нейросети YandexGPT 3 Pro можно оценить в демо-режиме. Зарегистрированным пользователям доступно 100 бесплатных запросов в час. Плюс компания снизила стоимость на языковую модель почти в два раза.
@data_analysis_ml
🖥 Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python
Держите полезную статью)
LDA — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую.
Некоторые мысли из статьи:
⏩LDA может быть предпочтительнее логистической регрессии в ряде случаев.
⏩Алгоритм LDA включает расчет априорных вероятностей и средних значений признаков, а также нахождение собственных векторов и значений.
⏩Существуют другие подходы к решению задач через нахождение собственных векторов, такие как сингулярное разложение и метод наименьших квадратов.
⏩Модификации LDA, такие как квадратичный дискриминантный анализ (QDA), гибкий дискриминантный анализ (FDA) и ядерный дискриминантный анализ (KDA), улучшают качество модели и увеличивают количество задач, в которых его можно применить.
⏩Регуляризация поддерживается в LDA и его модификациях через степень сжатия ковариационной матрицы.
📎 Статья
@data_analysis_ml
🕐Pendulum
Хотя встроенный пакет datetime достаточно хорош для простых случаев работы с датами, он не подходит для комплексных задач.
Pendulum предлагает более интуитивно понятный и удобный для пользователя API для работы с датами и временем, это делает его удобной заменой стандартного класса datetime.
▪ Github
@data_analysis_ml
📌Немного о lifecycle в DS
Жизненный цикл модели в Data Science — это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения.
Разработка модели принципиально отличается от традиционной разработки и требует своего собственного уникального способа разработки. Скажем, модель машинного обучения — это приложение искусственного интеллекта (ИИ), которое дает возможность автоматически учиться и совершенствоваться на основе собственного опыта без явного участия человека.
Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ.
Основные этапы:
⏩Анализ данных. Задача этого шага – понять слабые и сильные стороны в имеющихся данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять бизнес-процессы заказчика.
⏩Сбор данных. Сбор данных — это процесс сбора информации по интересующим переменным в установленной систематической форме, которая позволяет отвечать на поставленные вопросы исследования, проверять гипотезы и оценивать результаты.
⏩Нормализация данных. Этот шаг в процессе подготовки — это место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация "грязных" данных.
⏩Моделирование данных. Моделирование данных — это сложный процесс создания логического представления структуры данных.
⏩Конструирование признаков. Конструирование признаков состоит из учета, статистической обработки и преобразования данных для выбора признаков, используемых в модели.
📎 Читать подробнее
@data_analysis_ml
🚀 AnyV2V: новый фреймворк Plug-and-Play для любых задач редактирования видео.
- Сайт: https://tiger-ai-lab.github.io/AnyV2V/
- Код: https://github.com/TIGER-AI-Lab/AnyV2V
- arXiv: https://arxiv.org/abs/2403.14468
- Huggingface: https://huggingface.co/papers/2403.14468
@data_analysis_ml
⚡️ Nvidia и Dell представили ИИ-систему AI Factory для объединения ПК, СХД и сетевых устройств
⏩На конференции Nvidia GTC компания Dell Technologies анонсировала систему AI Factory — корпоративное решение искусственного интеллекта, которое объединяет ноутбуки, ПК, системы хранения данных и сетевые устройства.
⏩AI Factory включает вычислительные системы, системы хранения данных, сетевые устройства, рабочие станции и ноутбуки Dell с инфраструктурой искусственного интеллекта Nvidia и программным обеспечением Enterprise AI на основе технологий высокоскоростной сетевой структуры Spectrum-X.
⏩AI Factory можно будет развернуть по всей корпоративной сети. Решение поддерживает также периферийное развёртывание с использованием рабочих станций Precision AI-ready, NVIDIA AI Workbench и серверов PowerEdge-XR и облачное развёртывание через поставщиков таких услуг. Dell и Nvidia развивают сотрудничество для создания крупномасштабной системы искусственного интеллекта на базе Dell PowerEdge XE9680 с последними графическими процессорами Nvidia, платформой Spectrum-X Ethernet и хранилищем Dell PowerScale F710.
⏩AI Factory с поддерживает широкий спектр вариантов использования и приложений искусственного интеллекта. Решение предлагает поддержку всего жизненного цикла GenAI, от вывода и извлечения дополненной генерации (RAG) до настройки модели, разработки и обучения.
⏩Решение будет доступно по подписке Dell Apex, а клиенты будут платить только за фактически использованные ресурсы.
@data_analysis_ml