📌Cloudflare представляет брандмауэр для AI, защищающий LLM
⏩Относительно недавно Cloudflare запустила «Брандмауэр для ИИ» (Firewall for AI), предназначенный для защиты LLM.
Firewall for AI спроектирован как усовершенствованный межсетевой экран веб-приложений (WAF), специально предназначенный для приложений, использующих LLM.
Firewall for AI тщательно анализирует модели, подсказки, представленные пользователями, для раскрытия любых схем эксплуатации.
⏩Брандмауэр для AI предназначен для бесперебойной работы в обширной сети Cloudflare, что дает компании преимущество в обнаружении угроз на начальных стадиях и, в свою очередь, обеспечивает надежную защиту как пользователей, так и моделей от атак и неправильного использования. Хотя этот продукт все еще находится на стадии разработки, он знаменует собой значительный прогресс в области безопасности ИИ.
⏩Набор потенциальных угроз для LLM выходит за рамки уязвимостей, с которыми сталкиваются обычные веб-приложения и API-приложения. Как заметили исследователи, сложные уязвимости, уникальные для систем искусственного интеллекта, могут позволить злоумышленникам захватывать модели и выполнять несанкционированные маневры. Предполагается, что межсетевой экран для искусственного интеллекта Cloudflare, предназначенный для борьбы с этими новыми опасностями, будет работать аналогично стандартному WAF — тщательно проверяя каждый запрос API, содержащий подсказку LLM, на предмет индикаторов или шаблонов атак.
⏩Компетенция Firewall не привязана к какой-то одной инфраструктуре; он может защищать модели, размещенные на платформе Cloudflare Workers AI или любой другой внешней инфраструктуре, а также может использоваться в тандеме с Cloudflare AI Gateway.
@data_analysis_ml
📌Визуализация и анализ географических данных в R
Отличный онлайн-учебник по работе с географической информацией с помощью языка R
Здесь описываются азы работы с графикой, рассказывается, как проводить качественный пространственный анализ и не только
📎 Ссылка
@data_analysis_ml
🌍YOLO-CIANNA: Neural Astro 🌍
CIANNA - это универсальная платформа для глубокого обучения, разработанная в первую очередь для анализа астрономических данных.
Функциональные возможности и оптимизации добавляются в зависимости от их актуальности для решения астрофизических задач.
CIANNA может использоваться для создания и обучения больших моделей нейронных сетей для различных задач и оснащена высокоуровневым интерфейсом Python (аналогично keras, pytorch и т.д.).
Одной из особенностей CIANNA является ее реализация детектора объектов в стиле YOLO, используемого в контексте обнаружения галактик в 2D или 3D продуктах радиоастрономических данных.
Фреймворк полностью поддерживает графическое ускорение благодаря низкоуровневому программированию на CUDA.
▪Код: github.com/Deyht/CIANNA
▪Cтатья: arxiv.org/pdf/2402.05925.pdf
@data_analysis_ml
💥 Дублирование одного и того же кода с SQL-запросами может привести к несогласованности в вашем проекте, если изменения будут внесены только в одну часть кода и не внесены в другию.
ApacheSpark UDF может помочь решить пободную проблему, инкапсулируя сложную логику, которая повторно используется в нескольких SQL-запросах.
@data_analysis_ml
⚡️ Датасет для детекции речи размером более 150 тысяч часов на множестве языков
🟡На днях в публичный доступ выложили гигантский датасет для детекции речи (voice activity detection).
🟡Датасет содержит порядка 150 тысяч часов аудио более чем на 6000 диалектах. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
🟡Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Пользуйтесь, самое то для задач NLP и всего такого
📎 Github
@data_analysis_ml
📌Подборка неочевидных AI-сервисов для event-менеджеров и не только
Держите AI, которые помогут облегчить работу и возьмут на себя решение разного спектра задач — от генерации креативных идей и концепций до помощи в продажах и тайм-менеджменте.
📎 Ссылки на эти AI
@data_analysis_ml
📣 Объявление о начале соревнований на Kaggle!
Решаем олимпиаду по математике с помощью ИИ.
💰 Призовой фонд более 1 миллиона долларов
⏰ Крайний срок подачи заявок: 27 июня 2024 года
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/
@data_analysis_ml
🦾 Оплачиваемая стажировка от Газпромбанка в сфере Data Science и аналитики данных
Ты еще успеваешь подать заявку!
Что такое GPB.Level Up?
Это стажировка для Data Science-специалистов в Газпромбанке. Опыт работы не требуется: внутренняя система и обучение актуальным фреймворкам на реальных задачах банка прокачают сильнее дюжины пет-проектов. Открыто 5 различных направлений от работы с ИИ до моделирования финансовых рисков.
Тебя ждут классные условия:
— 67 000 р. gross в месяц
— ДМС и корпоративные скидки
— Удаленный или гибридный формат работы
— Программа наставничества
— Карьерные перспективы: 85% участников GPB.Level Up прошлого года перешли в штат Газпромбанка
Не откладывай на «потом», регистрируйся прямо сейчас
18 апреля, 18:00
MLечный путь 2024
Коллеги из @Selectel проводят свой ежегодный митап MLOps и ML-инженеров, на котором обсуждаю инфраструктуру для ML, разбирают сложности, тренды и инструменты построения production ML-систем.
В этом году особое внимание будет уделено актуальному тренду — LLM. Будут доклады про тренды развития генеративного ИИ, перспективы Feast в качестве Feature store, оптимизацию моделей, обеспечение безопасности LLM и сокращение расходов на их инференс. На митапе выступят эксперты из Selectel, СберМаркета, Dstack, Axenix, MIL Team, Raft AI.
Всех участников оффлайн-митапа в Санкт-Петербурге будет ждать неформальное общение со спикерами и экспертами, стенды с GPU-картами, розыгрыш мерча, знакомства и пицца после окончания докладов. Для тех, кто не сможет присоединиться оффлайн, коллеги подготовили онлайн-трансляцию.
Выбирайте подходящий формат участия и регистрируйтесь на мероприятие: https://slc.tl/jha5o
Реклама ООО «Селектел» erid 2VtzqxdPMN7
Приглашаем в Гостиную к Алисе!
«Гостиная Алисы. Не один дома» — это митап от команды Яндекса для middle+ бэкендеров: доклады о том, как устроена Алиса, Умные устройства, Беспилотные технологии и нетворкинг в неформальной обстановка
🔸 Павел Капля, руководитель продуктовой разработки Алисы. Расскажет, как запускали Новые возможности — и что пришлось изменить в нашем помощнике, чтобы заставить её думать по новому
🔸 Марат Мавлютов, руководитель службы разработки роботов-доставщиков. Объяснит, как наши роботы-доставщики видят мир вокруг себя, строят маршрут, ориентируются в толпе и проезжают светофоры
18 апреля, 19:00
Москва
Зарегистрироваться можно здесь.
Реклама ООО "Яндекс"
ИНН 7736207543
⚡С 15 по 21 апреля состоится мегаинтенсив по анализу данных, организованный Центром непрерывного образования, онлайн- и офлайн-магистратурами ФКН.
В программе интенсива 3 трека, разделенные по уровням сложности:
🖇Для начинающих: За 4 занятия вы сможете пройти путь от основ программирования на Python до построения настоящей модели машинного обучения. Организаторы — Центр непрерывного образования ФКН и онлайн-магистратура "Master of Data Science".
🖇Для продолжающих: Вы познакомитесь с архитектурами нейронных сетей в задачах компьютерного зрения, а также диффузионными моделями и моделью Stable Diffusion. Организатор — онлайн-магистратура «Машинное обучение и высоконагруженные системы».
🖇Многогранный Data Science: Для тех, кто хочет применять анализ данных не в IT — вы узнаете, как Data Science применяется в биологии, медицине, при строительстве домов и в банках. Организаторы — магистратуры «Анализ данных в биологии и медицине», «Анализ данных в девелопменте», «Финансовые технологии и анализ данных».
Интенсив пройдет в онлайн-формате с возможностью принять участие сразу в нескольких треках.
❕ Участие бесплатное для всех желающих, нужно только зарегистрироваться: по ссылке.
Реклама. НИУ ВШЭ.
ИНН 7714030726
Erid: 2SDnjc1Wry7
🚀 Участвуй в True Tech Hack от МТС и поборись за общий призовой фонд в 1 500 000 рублей. Регистрируйся.
Приглашаем разработчиков, специалистов по Data Science, менеджеров по продукту, дизайнеров. Соревноваться предстоит в одном из двух треков, чтобы улучшить жизнь людей с особыми потребностями.
🏠 Трек 1. Улучшение клиентского опыта витрины МТС Live для пользователей с особыми потребностями
⭐ Трек 2. Разработка голосового управления для МТС Финтех на основе искусственного интеллекта для людей с ограниченными возможностями
Как пройдет True Tech Hack:
🔸 26 апреля – открытие хакатона и Q&A-сессия
🔸 27 апреля-12 мая – чек-поинты с экспертами
🔸 12 мая – окончание приема проектов
🔸 14 мая – полуфинал, защита лучших решений и объявление финалистов
🔸 17 мая – финал в Москве
True Tech Hack – твой шанс получить новый опыт, выиграть приз и сделать наш мир доступней и удобней для всех. Регистрируйся на хакатон до 25 апреля по ссылке.
Нейросеть для генерации изображений YandexART стала доступна для тестирования внешним компаниям!
В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.
Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения
⚡️ LLMWare — open-souce проект для разработки LLM-инструментов корпоративного уровня
Для чего LLMWare?
⏩Позволяет создавать llmware slims — это небольшие специализированные модели, которые оптимизированы для использования с процессорами и позволяют автоматизировать задачи без дорогостоящего оборудования.
⏩llmware slims могут выполнять различные задачи, такие как обобщение текста, извлечение тегов, определение тем, анализ намерений, классификация контента и распознавание именованных объектов.
⏩Эти llmware slims легко настраиваются с помощью языка Python и веб-фреймворка Streamlit для создания удобного интерфейса
Вообще, вариантов использования масса, с чем можно ознакомиться в GitHub
🖥 GitHub
📎 Обзор
@ai_machinelearning_big_data
🔜 Парадоксы в данных, и почему визуализация бывает необходима
В этой статье несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.
За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании в сфере Data Science, и в жизни.
📎 Статья
@data_analysis_ml
Сильнейшие карьерные IT-бури ожидаются в ближайшее время — об этом говорят синоптики и HR-менеджеры Сбера! 🧑💻
Чтобы стать частью IT-комьюнити топовой технологичной компании и работать над масштабными проектами, выбирай вакансию мечты по ссылке.
Эйчары уже ждут тебя. Ну а прогноз в видео — всего лишь наша шутка, зато твоя будущая команда абсолютно реальна 💚
20 апреля ИТ-компания AXENIX объявляет One Day Offer для системных аналитиков! Вы сможете стать сотрудником AXENIX всего за 1 день!
Схема предельно простая:
⓵ До 18 апреля отправьте заявку на участие через этот сайт
⓶ Поговорите по телефону с рекрутером, чтобы узнать все подробности
⓷ 20 апреля пройдите онлайн-собеседование с экспертами AXENIX
⓸ Получите оффер в тот же день!
К участию приглашаются системные аналитики с опытом работы от 1 года из любого города России — вы сможете работать удаленно или, если в вашем городе есть офис нашей компании, в гибридном формате.
Переходите на официальный сайт AXENIX, чтобы узнать больше!
Реклама. ООО "АКСТИМ". ИНН 7705476338.
Из Индии – в Москву. На Data Fusion 2024 выступит Sankar Kumar Pal, член национальной Академии Наук правительства Индии, президент Индийского статистического института.
Учёный 17 апреля представит доклад «Распознавание образов, машинный интеллект и гранулярный майнинг: эволюция, моделирование неопределенности и применения».
Главные тезисы:
- Как эволюционировали технологии распознавания образов и возникли гранулярные вычисления, позволяющие добывать большие данные.
- Особенности гранулярных вычислений и их компоненты с примерами, а также актуальность грубых множеств и обобщенной грубо-нечеткой энтропии.
- Применение гранулярных вычислений в видеоаналитике в рамках ML и DL.
- Самые перспективные промышленные приложения для обнаружения и отслеживания объектов.
Больше полезной информации от коллег из Индии – на конференции 17-18 апреля в технологическом кластере «Ломоносов» в Москве! Чтобы не пропустить главное событие весны в области анализа больших данных, регистрируйтесь прямо сейчас: https://tglink.io/d9bc2e33ec4d
Увлекаетесь компьютерными науками и ищете, где можно интенсивно прокачаться в одном из актуальных IT-направлений? Тогда идеальный вариант — короткие образовательные программы, которые ведут эксперты-практики. Плюсы таких форматов — дают только полезную информацию, включают в реальные проекты, а ещё предлагают активный нетворкинг и обмен идеями.
Такие интенсивы проводит Яндекс Образование: в июне у них стартует новый студенческий кемп по промышленной разработке ПО на базе питерского ИТМО. За две недели вы сможете погрузиться в тему разработки высоконагруженных систем и углубить знания в области DevOps или информационной безопасности.
На программе ждут студентов профильных направлений. Чтобы подать заявку, заполните анкету участника до 1 мая. Всем, кто успешно пройдёт отбор, Яндекс Образование оплатит дорогу и проживание. Участие также будет бесплатным. Поторопитесь, количество мест ограничено
Данные сегодня ценнее золота. А умение извлекать из них пользу — навык, который уже сейчас нужен крупным работодателям.
Приходите на день открытых дверей онлайн-бакалавриата «Аналитика и Data Science» от ТюмГУ и Нетологии, чтобы погрузиться в тему больших данных. Встреча пройдёт 20 апреля в 14:00 мск.
Вы узнаете:
- Кто работает с данными и чем именно занимаются эти специалисты.
- Какие знания и навыки нужны, чтобы реализоваться в профессии.
- Как устроено обучение в бакалавриате и что входит в программу.
- Какие есть требования к поступлению.
Погрузитесь в одну из самых востребованных и перспективных профессий. Регистрируйтесь, чтобы сделать первый шаг к карьере аналитика или Data Scientist.
Записаться → https://netolo.gy/c5lo
Реклама ООО “Нетология” LatgBchr9
🔥Подборка лучших обучающих каналов для программистов.
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест
💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных
#️⃣C#
С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend
🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
🌟 Docker/Kubernets
Docker
Kubernets
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
📌Деплой и поддержка сотни ML-моделей
Неплохая статья о том, развивать и сопровождать большое количество ML-моделей, много практических советов и реальных кейсов.
Также рассказывается о создании сервиса, который позволяет решать такие задачи:
⏩Деплой модели должен занимать один день. Это позволит нам значительно снизить общий time-to-market наших моделей.
⏩Деплой — типовая операция. Для стандартного деплоя модели не нужно привлекать разработчика.
⏩Должен быть единообразный API для доступа к моделям, который можно легко интегрировать и описывать на разных языках программирования. Последнее было особенно важно, потому что у всех заказчиков свой стек технологий.
⏩Нужны инструменты для observability наших решений. Притом они должны быть «из коробки», чтобы можно было задеплоить модель и легко получить инструменты для ее поддержки.
📎 Статья
@data_analysis_ml
📈 Python Graph gallery: 38 высококачественных гайдов по визуализации!
И этот список продолжает расти 📈
Кто сказал что matplotlib
уродлив? 😀
http://python-graph-gallery.com/best-python-chart-examples/
@data_analysis_ml
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению. Часть 2
🚀 Часть 1
▪Вопросы и ответы на собеседования по машинному обучению для специалистов в области анализа данных
▪Вопросы и ответы на собеседования по глубокому обучению для специалистов в области обработки данных
▪Вопросы по статистике
▪Вопросы по теории вероятности
▪Репозиторий для линейки онлайн-курсов по статистике
▪Вопросы и ответы для специалистов по анализу данных на Python
▪Вопросы и ответы для собеседований по SQL и DB для специалистов по обработке данных
Вопросы, основанные на резюме
▪Вопросы и ответы на собеседования по большим языковым моделям (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 1( ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 2 (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 3 (ВПН)
@machinelearning_interview
💻Анализ данных и статистика в R
Держите отличный справочник по работе с R от Ивана Позднякова.
Здесь описывается практически всё, вышло аж на 672 страницы
📎 PDF
@data_analysis_ml
🌟 Шпаргалка по Polars
Polars — это высокопроизводительная библиотека для анализа данных с помощью Python.
Polars разработана с упором на крупномасштабную обработку данных.
Держите отличную шпаргалку по Polars, которая поможет освежить основные моменты
📎 PDF
@data_analysis_ml
⭐️ Autolabel
Если вам уже наскучили задачи NLP, такие как:
- кластеризация документов (Classification);
- распознавание именованных сущностей (Named Entity Recognition);
- связывание именованных сущностей (Entity Matching);
- оценка эмоциональной окраски (Sentiment Analysis);
- поиск ответа в тексте и многое другое.
То вам помогут LLM. Библиотека Autolabel быстро и бесплатно решает эти задачи, причем выбор модели остается за вами.
pip install refuel-autolabel
• Github
@data_analysis_ml
🦾 Обучите и запустите GPT-2
Андрей Карпатый выпустил llm.c для CUDA.
Все это в одном файле llm.с и по-прежнему всего ~ 1000 строк кода чистого C.
Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:
- llm.c: 111 мс
- PyTorch: 180 мс
- +torch.compile: 86 мс
- +тензорные ядра fp32: 26 мс
• Github
@data_analysis_ml
🔥 Бесплатный интенсив по Python для начинающих аналитиков!
Завтра в 19:00 по Мск пройдет бесплатный интенсив по теме: “RFM-анализ клиентской базы с помощью Pandas в Python”.
Что вас ждет:
◾️ 1 живая обучающая лекция, теория и много-много практики на настоящем коммерческом кейсе – скучно не будет 🙂
◾️ Конспект лекции по пройденному материалу
◾️ Бонус – шпаргалка по RFM-анализу!
Что будем делать на интенсиве:
◾️ Проанализируем реальную клиентскую базу аптечной сети
◾️ Напишем скрипт для проведения RFM-анализа
◾️ Изучим несколько классных фишек Pandas и сформулируем конкретные бизнес-выводы
❗️ Интенсив подойдет всем — от новичков до тех, кто уже знаком с Python: мы будем подробно объяснять каждый свой шаг и будем много говорить про аналитику на примере реальной бизнес-задачи – такой опыт точно будет вам полезен 😊
🔗 Регистрируйтесь на интенсив здесь → ссылка.
Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134.
Erid:LjN8KQttm
Не устраивает уровень скиллов в ML?
Прокачайте работу с моделями прогнозирования временных рядов! Всего за пару часов можно:
- понять, на какие параметры временного ряда необходимо обращать внимание при его предобработке;- научиться строить модели, способные заглянуть в будущее;- подготовить модель, прогнозирующую следующие значения временного ряда и лучше понять мир построения прогнозов.
Встречаемся 15 апреля в 20:00 мск на бесплатном практическом уроке от OTUS. Спикер Игорь Стурейко — Teamlead и главный инженер проекта НИИгазэкономика.
Занятие будет приурочено к старту курса «Machine Learning. Advanced». Доступно обучение в рассрочку.
Пройдите короткий тест прямо сейчас, чтобы посетить вебинар и получить запись: https://otus.pw/yuiG/?erid=LjN8K72VL
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.