Программа бакалавриата в Центральном университете от Тинькофф с грантом до 100% для сильных и мотивированных абитуриентов!
Грант можно получить на одно из направлений бакалавриата по искусственному интеллекту, разработке и бизнес-аналитике. Помимо диплома и практико-ориентированного образования студенты получат:
- Персонализацию учебной траектории;
- Стажировку в одной из лучших ИТ-компании страны;
- Личного ментора на все время обучения;
- Доступ к современному кампусу в центре Москвы.
Получить полную информацию и оставить заявку можно здесь.
erid:2VtzqxQJgCq
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
🌌 Galactic
Если вы хотите, изучить,, подготовить, очистить или создать эмбединги из больших наборов неструктурированных текстовых данных, попробуйте Galatic.
Он отдлично подходит для файнтюнинга данных, создания документов для RAG. Инструмент поможет выполнить полную подготовку неструктурированных датасетов для работы с LLM.
▪ Github
@data_analysis_ml
⚡️Сверхполезная статья от профи Data Science
Здесь обсуждается и показывается, как производить конкатенацию, сегментацию данных, объединять данные — и ещё очень много насущных вещей DS
Годно)
⏩ Клик
@data_analysis_ml
🏆 Чтобы получить новые знания, опыт совместной работы и общение с лучшими экспертами, пройдите предварительную регистрацию в Летних школах Яндекса 2024!
Больше 50% выпускников становятся стажёрами и сотрудниками Яндекса💪
В этом году будет запущено больше школ:
🔸 Школа бэкенд-разработки;
🔸 Школа разработки интерфейсов;
🔸 Школа мобильной разработки;
🔸 Школа менеджеров Яндекса;
🔸 Школа аналитиков-разработчиков.
После лекций в онлайне будет практика в офисах Яндекса в Москве, Санкт-Петербурге и Екатеринбурге. Вам оплатят проезд и проживание, если вы из другого города📍
👉Подать заявку
🚗 Gemini 1.5 создает структурированный JSON из видео
На вход подается видео с классическими автомобилями и запрос с просьбой указать марку, производителя, год выпуска, цвет и описание авто - Gemini удалось проделать довольно приличную работу!
Привожу часть ответа ниже (полный json на картинке): [
Шикарный результат!
{
"make": "Cadillac Eldorado",
"manufacturer": "General Motors",
"year": 1953,
"color": "Blue",
"description": "The Cadillac Eldorado was a luxury convertible that was known for its stylish design and powerful engine."
},
{
"make": "Chevrolet Corvette",
"manufacturer": "General Motors",
"year": 1953,
"color": "Red",
"description": "The Chevrolet Corvette was a sports car that was known for its sleek design and impressive performance."
},
]
@data_analysis_ml
🖥 45+ IT-компаний ищут стажёров и джунов
Карьерные форумы "Найти IT" — это шанс пообщаться с топовыми компаниями и получить оффер. Среди работодателей будут Сбер, Яндекс, Kaspersky, Avito и многие другие.
Что вас ждёт:
🔹 Мастер-классы, кейсы и Q&A-сессии.
🔹 Розыгрыш призов среди участников.
🔹 Обширное пространство для общения и обмена опытом.
🔹 Карьерные консультации от HR-ов.
Участие бесплатное!
Выбирайте город и регистрируйтесь👇🏻
📍 Москва — 6 марта
📍 Санкт-Петербург — 6 апреля
📍 Новосибирск — 10 апреля
Присоединяйтесь к GitVerse – сервису для быстрого создания исходного кода с AI-помощником
Разработчики получили доступ к GitVerse – платформе для совместной разработки и хостинга кода от СберТеха. Она позволяет создавать проекты с открытым и закрытым кодом, приглашать новых участников, переносить репозитории с популярных мировых ресурсов в один клик и общаться с единомышленниками в ИТ-сообществе.
Первые пользователи, зарегистрировавшиеся на GitVerse, смогут присоединиться к открытому тестированию персонального AI-ассистента разработчика (AI, artificial intelligence — искусственный интеллект) — сервису GigaCode. Он ускоряет и упрощает программирование, генерируя варианты завершения кода непосредственно в среде разработки в режиме реального времени.
В рамках акции пользователям доступен бесплатный годовой пакет облачных сервисов, с ним можно размещать разработанные приложения в облаке с использованием технологий распределённого хранения и вычислений.
Подробности и правила акции, а также регистрация на сайте платформы.
Всем привет!
Владелец продукта ИТ-компании изучает потребности и пожелания участников процесса работы с даннымии аналитикой.
У вас есть уникальная возможность поделиться опытом, дать рекомендации и подсветить проблемы используемых систем.
Переходите по ссылке и делитесь бесценным опытом😉
Работаешь с данными и чувствуешь, что из них можно получить больше? В DataWorkshop расскажут как это сделать.
5 дней практики в Data Science на реальных данных магазина из Великобритании.
1-2 часа в день и самостоятельно создаешь модели машинного обучения.
Старт - 4 марта. Обучаешься под руководством эксперта в своем темпе, в удобное время.
6000+ человек из разных стран мира уже приняли участие в данном интенсиве.
15 лет практического опыта у автора интенсива, поэтому полученные знания можно сразу применять в рабочих проектах.
Обучают с 2017 года.
Предоставляем готовое окружение - ничего устанавливать и настраивать не нужно.
Участие бесплатно только для первых 100 записавшихся человек.
Успевайте записаться по 👉 ЭТОЙ ССЫЛКЕ
А еще много полезной информации о том, как начать работать в сфере Data Science в их канале.
Реклама: ИП Кравченко Николай Васильевич LjN8KCNbP
IT-индустрия и проекты с каждым годом становятся все сложнее. Все больше технологий, сложной инфраструктуры и массивов данных. Для управления этими махинами привычного продуктового подхода больше недостаточно.
Топ-менеджеры крупнейших IT-компаний говорят о том, что продактам нужны новые компетенции для навыки, чтобы строить продукты на больших данных. Ассоциация Больших Данных вместе с топами из Сбера, Яндекса, ВК и Сколково разработали образовательную программу Big Data Product Owner.
Курс ориентирован на junior и middle-специалистов и учит создавать из хаотичных данных прибыльные бизнесы. Студенты совмещают hard-скиллы с важными навыками переговоров и менеджерскими навыками. По результатам обучения выдается диплом государственного образца.
👉До 29 февраля включительно можно зафиксировать стоимость с 20% скидкой
👉 Первый урок доступен бесплатно по ссылке
Реклама. ООО "АБД". ИНН 9703042787.
🕒 datefinder: Инструмент автоматического поиска дат и времени в строках Python
Если вы хотите автоматически искать дату и время с различными форматами в строках Python, попробуйте использовать datefinder.
В приведенном коде показано, как использовать datefinder.pip install datefinder
▪Github
@data_analysis_ml
⛅ Запуск локального кода в облаке без настройки серверов и кластеров
Yandex DataSphere Jobs позволяет запускать любую программу на Python или shell-скрипт в облаке без всяких изменений. Для запуска скрипта не нужно модифицировать исходный код, самостоятельно развёртывать кластер и собирать окружение — это происходит автоматически при запуске скрипта.
Преимущества DataSphere Jobs:
⏺ Быстрый запуск вычислений в облаке с доступом ко всем его ресурсам, включая GPU без настройки виртуальных машин и кластеров.
⏺ Безопасность — Yandex Cloud выполняет все требования безопасности информации и работы с персональными данными. После исполнения вычислений DataSphere Jobs удалит весь код и данные.
⏺ Экономия затрат на развёртывание кластеров, их обслуживание и DevOps.
🗣 Подробнее смотрите в видео.
Реклама. ООО «Яндекс.Облако» ИНН 7704458262
Avito Analytics meetup #12 — онлайн-ивент для аналитиков 🔥
Эксперты из AvitoTech и других крупных компаний разберут кейсы аналитической поддержки при создании нового продукта, а также расскажут как и зачем анализируют обратную связь о товарах в ритейле и не только.
Темы докладов:
👉 Аналитика нового продукта «под ключ»;
👉 Обратная связь в «Пятёрочке»: как работают с оценками товаров;
⚡️ Секретный доклад.
Встречаемся онлайн 6 марта в 18:00 по Москве.
Регистрируйтесь по ссылке, и до встречи!
🔥 Планы на неделю: прокачать Pandas в Python!
Завтра в 19:00 по Мск пройдет бесплатный интенсив по теме: “RFM-анализ клиентской базы с помощью Pandas в Python”.
Мы проводили такой интенсив в прошлом месяце, но многие не успели на него записаться, а очень хотели — поэтому мы решили, почему бы не провести его еще раз 🥰
А еще он очень понравился участникам, и мы собрали много положительного фидбека ⭐️
Что будем делать на интенсиве:
◾️ Проанализируем реальную клиентскую базу аптечной сети
◾️ Проведем EDA с помощью Pandas
◾️ Напишем скрипт для проведения RFM-анализа
◾️ Изучим несколько классных фишек Pandas
◾️ Сформулируем конкретные бизнес-выводы и предложения на основании проведенного анализа
Мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩
Любой рекрутер, увидев RFM-анализ в вашем портфолио, скажет: «О, круто, мы тоже такое делаем - классно, что кандидат это уже умеет!». И ваши шансы найти работу аналитиком кратно возрастут.
А вы готовы бустануть свои знания и скиллы в аналитике?
🔗Регистрируйтесь на интенсив 👈
Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid: LjN8KNZ3z
Автостопом по галактике ML🌠
С 2021 года Selectel проводит конференции для ML-специалистов. На недавнем митапе обсуждали инфраструктуру для ML и AI, виды дрифтов ML-моделей и Computer Vision в животноводстве.
Эксперты из Neoflex, Контур AI, Selectel и Русагро поделились опытом. А в Академии Selectel вышел материал, в котором удобно выбрать интересующий доклад и углубиться в тему ML.
В материале вас ждут:
— видео четырех докладов и одной дискуссии по ML,
— тексты по работе с ML-моделями,
— ссылка на бесплатный курс по работе с ML,
— приглашение в сообщество из 2700 специалистов по ML в Telegram.
Изучите конспект с последнего митапа по ML 👀
Реклама ООО «Селектел» erid 2VtzqwWGwmk
⚡️Вышло обновление Automatic 1111 до версии 1.8.0
Обновился Automatic 1111 — самый популярный интерфейс для генерации изображений с помощью нейросетей Stable Diffusion
🟠Soft инпеинтинг с дополнительным размытием краев позволяет добиться невероятного качества изменения. Переходы теперь идеальные между оригиналом и инпеинтингом. Особенно если использовать модель для инпеинтинга SDXL, поддержка которых теперь доступна из коробки, просто скачайте модель как обычно.
🟠Поменялся интерфейс в меню экстрасетей (модели, лоры, эмбединги), теперь навигация представлена деревом каталогов и это наконец-то стало удобно.
🟠Добавлена нативная поддержка апскейлеров формата DAT, попробуйте скачать 4xLSDIRDAT
в папку stable-diffusion-webui\models\DAT
, не страшно если её нет, можете создать, она появится при попытке активировать DAT апскейлер на вкладке Extras.
🟠В txt2img теперь есть кнопка, которая позволяет сделать Hires. fix на уже готовой картинке, при этом сразу начинается апскейл экономя время.
🟠Крутых обновлений целая гора, вот список на изображении
Тестите, пишите как оно)
🖥 Automatic1111
@data_analysis_ml
💎 Дата-сайентист — сравнительно молодая профессия. Спрос на таких специалистов растёт гораздо быстрее, чем увеличивается количество самих аналитиков. Если тебе нравится работать с большими данными и находить в них закономерности, пройди обучение от Слёрм и получи профессию будущего!
На курсе Data Scientist ты поймешь, как работают алгоритмы машинного обучения, и научишься применять их в проектах на реальных данных.
Курс подойдёт:
✔️ Разработчикам, которые работают вместе с дата-сайентистами и хотят лучше понимать коллег;
✔️ Software Engineer, Data Engineer, DevOps Engineer уровня Middle, готовым перейти в смежную профессиональную область;
✔️ Программистам на Python, которые хотят освоить новое перспективное направление.
Курс состоит на 30% из теории и на 70% из практики.
За 96 часов обучения ты освоишь:
⚡️ Алгоритмы и теорию машинного обучения;
⚡️ Базовые подходы и популярный фреймворк для построения нейросетей;
⚡️ Машинное обучение для выполнения бизнес-задач;
⚡️ Способы анализа и визуализации больших объёмов данных разных типов;
⚡️ Библиотеки для анализа данных.
Присоединяйся! Скачай презентацию курса и получи демо-доступ на 7 дней, чтобы убедиться, что курс тебе подходит.
Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451
➡️Совсем свежий 4-часовой курс по ML от freeCodeCamp.org
В этом ролике затронуты самые важные понятия ML и смежных областей, помимо теории, есть много кода и практических заданий (например, прогнозирование стоимости жилья)
Что есть в курсе?
🟢Дорожная карта ML на 2024 год
🟢Необходимый набор навыков для карьеры в области ML
🟢Основные карьерные пути
🟢Основы ML
🟢Bias-Variance Trade-Off
🟢Overfitting и регуляризация
🟢Основы линейной регрессии
🟢Теория моделей линейной регрессии
🟢Теория моделей логистической регрессии
🟢Пример с линейной регрессией
🟢Загрузка и исследование данных
🟢Определение независимых и зависимых переменных
🟢Очистка и предварительная обработка данных
🟢Описательная статистика и визуализация данных
🟢Межквантильный диапазон для обнаружения выбросов
🟢Корреляционный анализ
🟢Разделение данных на Train/Test с помощью sklearn
🟢Запуск линейной регрессии - причинно-следственный анализ
🟢Проверка допущений OLS в модели линейной регрессии
🟢Запуск линейной регрессии для прогнозной аналитики
➡️ Youtube
@data_analysis_ml
💻 Вредоносные Deep Learning модели
На платформе Hugging Face обнаружено не менее 100 вредоносных Deep Learning моделей, некоторые из которых могут выполнять код на машине жертвы, предоставляя злоумышленникам постоянный бэкдор.
Специалисты компании JFrog разработали и развернули продвинутую систему сканирования для проверки моделей PyTorch и Tensorflow Keras, размещенных на Hugging Face.
Малварь проникла в Hugging Face несмотря на все меры безопасности, включая сканирование на наличие малвари, а также тщательное изучение функциональности моделей для обнаружения такого поведения, как небезопасная десериализация.
Одним из примеров стала модель PyTorch, загруженная недавно пользователем под ником baller423
и уже удаленная с HuggingFace. Она содержала полезную нагрузку, которая позволяла создать реверс-шелл на указанный хост (210.117.212.93
). Вредоносная полезная нагрузка использовала метод __reduce__
модуля pickle
для выполнения произвольного кода при загрузке файла модели PyTorch, при этом избегая обнаружения за счет встраивания малвари в доверенный процесс сериализации.
В JFrog обнаружили, что та же полезная нагрузка связывалась и с другими IP-адресами, что позволяет предположить, что ее операторы все же являются ИИ- и ИБ-исследователями, а не хакерами. Однако такие эксперименты в JFrog все равно называют слишком рискованными, учитывая, что опасные модели были общедоступны.
Пытаясь определить истинные намерения операторов вредоноса, аналитики развернули приманку для привлечения активности и ее анализа. Им удалось установить соединение с сервером потенциальных злоумышленников, однако не удалось перехватить ни одной команды за время поддержания соединения.
@linuxkalii
📈 Если вы хотите преобразить свои графики #matplotlib попробуйте LovelyPlots
Чтобы красивые графики, просто добавьте одну строку кода к существующему коду matplotlib
.
📉 Lovely Plots - это инструмент, содержащий таблицы стилей matplotlib для легкого форматирования графиков для научных статей, проектов и презентаций.
Библиотека сохраняет их полностью редактируемыми в Adobe Illustrator.
Кроме того, параметры экспорта .svg
позволяют автоматически адаптировать шрифт рисунков к шрифту вашего документа.
Например, рисунки в формате .svg, импортированные в файл .tex,
будут автоматически сгенерированы с использованием текстового шрифта, используемого в вашем файле .tex.
▪Github
pip install LovelyPlots
@data_analysis_ml
По умолчанию преобразователи #scikit-learn возвращают массив NumPy
. Это может быть проблемой, если для последующих этапов обработки данных вам нужен датафрейм pandas.
К счастью, начиная с scikit-learn версии 1.3.2
, вы можете использовать метод set_output
для получения результатов в формате датафреймов pandas.
@data_analysis_ml
⚡️ Топ подборка полезных нейросетей.
226 AI-сервисов и приложений на все случаи жизни, от известных MGIE, Perplexity, Gemini, Groq
до совсем свежих и малознакомых
Эти нейросети помогут вам:
➖управлять движением объектов на видео
➖повысить качество записанного аудио
➖исправить грамматику в любом приложении
➖генерировать аудио, видео, изображения
➖апскейлить изображение
➖и ещё помогут с миллионом других задач
🔗 Каталог
@data_analysis_ml
⚡️ StarCoder2: открытые веса, датасеты, обучающие скрипты, топ лидерборда HF.
StarCoder2 - это семейство открытых LLM для генерации кода, в трех различных размерах с параметрами 3B, 7B и 15B.
StarCoder2-15B обучен на более чем 4 триллионах лексем и 600+ языках программирования из The Stack v2.
Все модели используют Grouped Query Attention, контекстное окно из 16 384 лексем.
StarCoder2 предлагает три размера модели: модель на 3 миллиарда параметров, обученная ServiceNow, модель на 7 миллиардов параметров, обученная Hugging Face, и модель на 15 миллиардов параметров, обученная NVIDIA с помощью NVIDIA NeMo и ускоренной инфраструктуры NVIDIA:
▪StarCoder2-3B был обучен на 17 языках программирования из The Stack v2 на 3+ триллионах токенов.
▪StarCoder2-7B обучался на 17 языках программирования из The Stack v2 на 3,5+ триллионах токенов.
▪StarCoder2-15B был обучен на 600+ языках программирования из The Stack v2 на 4+ триллионах токенов.
StarCoder2-15B является лучшим в своем классе и по многим показателям превосходит модели 33B+.
📌HF
📌Github
📌Статья
@data_analysis_ml
🖥 3 лучших инструмента для автоматизации устранения SQL инъекций!
SQL-инъекция (SQLi) - это уязвимость веб-безопасности, которая позволяет злоумышленнику вмешиваться в запросы, которые приложение делает к своей базе данных. Как правило, это позволяет просматривать данные, которые он обычно не может получить. Это могут быть других пользователей, или любые другие данные, доступ к которым имеет само приложение. Во многих случаях злоумышленник может изменять или удалять эти данные, вызывая постоянные изменения в содержимом или поведении приложения.
1⃣ SQLMap
Вы, вероятно, уже знаете о первом инструменте.
SQLMap - самый популярный сканер уязвимостей SQL Injection, полностью открытый!
2⃣ Ghauri
Ghauri - это продвинутый инструмент, позволяющий легко автоматизировать обнаружение и эксплуатацию уязвимостей SQL Injection!
Ghauri также имеет открытый исходный код и доступен на GitHub!
3⃣ SQLiv
Обнаруживает уязвимости SQL-инъекций в веб-приложениях с помощью методов автоматического сканирования. Этот инструмент способен найти в Google определенную цель, просмотреть ее и просканировать несколько URL-адресов на наличие SQL-инъекций.
@data_analysis_ml
🚀🧙🏼♂️Представляем OpenHermesPreferences: крупнейший открытый набор данных для RLHF и DPO
OpenHermesPreferences - это набор данных из ~1 миллиона прдпочтений ИИ, полученных из его ответов.
Датасет объединяет ответы от моделей, Mixtral-8x7B-Instruct-v0.1 и Nous-Hermes-2-Yi-34B.
https://huggingface.co/datasets/argilla/OpenHermesPreferences
@data_analysis_ml
🎉 Выпущены JupyterLab 4.1 и Jupyter Notebook 7.1!
В новых релизах добавлена поддержка диаграмм Mermaid
, добавлена автоматическая генерация, добавлен ряд улучшений и исправлено более 100 ошибок.
Обновления
▪jupyterlab.readthedocs.io/
▪jupyter-notebook.readthedocs.io/
@data_analysis_ml
📊 Vega-Altair - это декларативная библиотека визуализации на Python.
Приемущества
1. Декларативный подход: Altair предлагает декларативный подход к созданию графиков, что означает, что вы описываете, какие данные вы хотите визуализировать и как, а библиотека заботится о деталях.
2. Простота использования: Altair позволяет генерировать красивые графики с минимальным количеством кода. Это делает его отличным выбором для быстрого создания визуализаций.
3. Легкая Интеграция: Altair хорошо интегрируется с Pandas, Jupyter Notebook и JupyterLab для , что упрощает работу с данными.
4.Интерактивность: Позволяет создавать интерактивные графики без усилий.
Недостатки
1. Ограниченные возможности настройки: В сравнении с Matplotlib, Altair предоставляет меньше возможностей для настройки графиков.
2. Ограниченная документация: Altair не обладает богатой документацией.pip install altair
▪Github
▪Docs
▪Colab
▪Примеры
@data_analysis_ml
⚡️ Шпаргалка по ML
Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево
Поможет без проблем подготовиться к собесу и освежить знания
📁 PDF
@data_analysis_ml
😺 Awesome CatBoost
Кураторский список ресурсов, обучающих матералов, репозиториев с открытым исходным кодом, руководств, блогов для работы с Catboost.
▪Github
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Как нейросети помогли нам сократить нагрузку на операторов контакт-центра и сэкономить 396 человеко-часов
— 40 Полезных инструментов Дата Саентиста
— Вакуумируй это: сбор и удаление мусора в базе данных Greenplum
— Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
— На что стоит рассчитывать на первой работе: путь стажера (data engineer)
— Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов
— Сила хакатонов: почему Middle и Senior Engineers должны в них участвовать
— 📊 Logistic Regression in a Nutshell
— Introduction to dbt
— FiftyOne Computer Vision Tips and Tricks - Feb 23, 2024
— Why Python and SQL are Must-Have Skills for Marketing Analysts in the Age of Big Data
— Gráfico de Halteres [R-ggplot2]
— "Day 32 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -11)
— High Frequency Data Analysis: Converting High-frequency Signals to Discrete Buy/Sell Signals
— Evaluating LLM Models for Production Systems: Methods and Practices
— Amazon Forecast Overview
— Turn Text Into Structured Data Using JavaScript & OpenAI's GPT
Полезные инструменты:
▪ Взаимодействуйте с новейшими современными API моделей ИИ с NVIDIA, прямо из браузера.
▪Gemma - это семейство легких, современных открытых моделей, созданных на основе исследований и технологий, использованных при создании моделей Google Gemini.
▪ Stable Diffusion 3
▪MotionCtrl
Посмотреть:
🌐 Лучшие бесплатные курсы и книги по Python в 2024 год. (⏱ 08:28)
🌐 Golang: Шпаргалка для алгособеса. Алгоритмы сортировки (⏱ 19:18)
🌐 Interview "No-Code and Low-Code AI: The New Era of Inclusive Tech Development" (⏱ 46:59)
🌐 Stable Video AI Just Got Supercharged! - For Free! (⏱ 07:42)
🌐 DeepMind Gemini 1.5 - An AI That Remembers! (⏱ 08:34)
🌐 OpenAI Sora: A Closer Look!
Хорошего дня!
@data_analysis_ml