Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
📊 Хотите углубиться в Machine Learning или Data Science?
Начните с изучения базовых методов парсинга и работы с html! Приходите на бесплатный практический урок от OTUS. Спикер Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.
💻 На вебинаре вы:
— освоите основные принципы работы c html в Python;
— изучите основные инструменты парсинга;
— научитесь скачивать различные типы данных с сайтов на сайты.
👉 Встречаемся 22 апреля в 18:00 мск в рамках курса «Machine Learning. Professional». Все участники вебинара получат специальную цену на обучение и консультацию от менеджеров OTUS!
🟢 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/GNtS/
💡Теперь у нас есть модель с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.
Скорость работы составляет почти 300 токенов в секунду.
LLAMA-3 - самая загружаемая модель, которую я когда-либо видел на HF.🚀
За 24 часа ее скачали более 36 200 раз!!!
Вангую: GPT-5 будет анонсирован до релиза Llama-3-400B. Релизы OpenAI определяются внешними факторами 🤣
🖇 Тесты LLaMA3
@data_analysis_ml
📌Экстраполяция и интерполяция нейронных сетей
🟡Искусственные нейронные сети — это мощные инструменты логического вывода. Однако это не означает, что они могут изучать правила так, как это делают люди. Например, мы можем применять арифметику к произвольно большим числам. Это ключевое понимание, на котором основана арифметика.
Может ли нейронная сеть делать обобщения на случаи, которые далеки от тренировочных данных?
В общем, держите полезную статью о том, где затрагиваются детали внутренней реализации нейросетей
📎 Статья
@data_analysis_ml
👑Llama 3 is here, with a brand new tokenizer! 🦙
Вышла Llama 3
Сегодня вышла новая SOTA Llama 3 в двух версиях на 8B и 70B параметров.
Длина контекста 8К, поддержка 30 языков.
•HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
•Blog: https://ai.meta.com/blog/meta-llama-3/
Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/
P.S. В процессе обучения находится модель на 400В+ параметров.
@ai_machinelearning_big_data
📌На чем программируют суровый ML в Гугле
Годная информация от Романа Ворушина, который работает в Google. Дальше от его лица
В 2015 году Гугл выпустил TensorFlow — супер-современный фреймворк для машинного обучения, созданный с участием самого Jeff Dean.
Но если почитать статьи за последние несколько лет из Google/DeepMind, то можно заметить что эксперименты реализованы с использованием совсем другого малоизвестного фреймворка JAX и лишь в самом конце портированы на TensorFlow/PyTorch. Именно с помощью JAX тренируют гигантские нейронные сети: текстовые, computer vision, мультимодальные.
JAX невероятно популярен внутри Гугла, но малоизвестен за его пределами. Исследователям это на руку - никто не принуждает делать фреймфорк доступным для всех, да и вице-президенты не терзают команду туманными целями и прочими синергиями.
У JAX есть отличная документация на Readthedocs. Я перепечатывал примеры оттуда в Google Colab, изменял их, пробовал их запускать на бесплатных Colab kernels with CPU/GPU/TPU.
Основные строительные блоки
🟡NumPy interface
Некоторые курсы по машинному обучению показывали как можно реализовать тренировку нейронных сетей умножением векторов/матриц NumPy, как вычислять производные цепочеатк функций. JAX - это в первую очередь невероятно ускоренный NumPy (see JAX As Accelerated NumPy). Все операции jax.numpy оптимизированы для выполнения на GPU/TPU. К этому добавлены возможности автоматической векторизации и параллелизации вычислений (как в курсе ml-class.org можно было векторизовать вычисления в Octave, ускоряя их в десятки-сотни раз).
🟡Just-in time compilation
Функции без побочных эффектов можно легко скомпилировать, обернув их в функцию jax.jit. Компиляция осуществляется методом трассировки - в качестве параметров передаются специальные объекты, которые запоминают все операции, которые с ними производятся. По результатам трассировки строится граф вычислений “входные параметры” - ??? - “выходные параметры”. Потом этот граф компилируется с использованием XLA (её когда-то написали для TensorFlow).
🟡Автоматическая дифферециация
Производные больше считать не нужно. Оборачиваешь loss function в функцию grad и получаешь градиенты. Вообще очень многое в JAX решается композицией функций. Опыт функционального программирования (Haskell, Erlang, ваши варианты) будет очень к стати.
🟡Flax - библиотека для нейронок
Flax — самая популярная библиотека для моделирования нейронных сетей. Отличная документация, есть много примеров, в том числе реальных исследовательских проектов из Гугла. Еще со всем недавно с ней конкурировала библиотека Haiku, но в конце концов Flax стал более популярен и Haiku перевели в режим поддержки.
У Flax офигенная философия. Чего только стоит “Prefer duplicating code over a bad abstraction.” Не всем такая философия подходит, но мне очень резонирует.
📎 Подробнее
@data_analysis_ml
🔥 Новые модели CodeQwen1.5-7B занимают очень высокие позиции в таблице лидеров Big Code, превосходя гораздо более крупные модели 🚀
▪8 моделей, в том числе модели с 0,5 B, 1,8 B, 4B, 7B, 14B, 32B и 72B
▪Многоязычная поддержка как базовых моделей, так и моделей чата;
▪Поддержка контекста длиной 32 КБ для моделей всех размеров
https://huggingface.co/spaces/Qwen/CodeQwen1.5-7b-Chat-demo
data_analysis_ml
📌Cloudflare представляет брандмауэр для AI, защищающий LLM
⏩Относительно недавно Cloudflare запустила «Брандмауэр для ИИ» (Firewall for AI), предназначенный для защиты LLM.
Firewall for AI спроектирован как усовершенствованный межсетевой экран веб-приложений (WAF), специально предназначенный для приложений, использующих LLM.
Firewall for AI тщательно анализирует модели, подсказки, представленные пользователями, для раскрытия любых схем эксплуатации.
⏩Брандмауэр для AI предназначен для бесперебойной работы в обширной сети Cloudflare, что дает компании преимущество в обнаружении угроз на начальных стадиях и, в свою очередь, обеспечивает надежную защиту как пользователей, так и моделей от атак и неправильного использования. Хотя этот продукт все еще находится на стадии разработки, он знаменует собой значительный прогресс в области безопасности ИИ.
⏩Набор потенциальных угроз для LLM выходит за рамки уязвимостей, с которыми сталкиваются обычные веб-приложения и API-приложения. Как заметили исследователи, сложные уязвимости, уникальные для систем искусственного интеллекта, могут позволить злоумышленникам захватывать модели и выполнять несанкционированные маневры. Предполагается, что межсетевой экран для искусственного интеллекта Cloudflare, предназначенный для борьбы с этими новыми опасностями, будет работать аналогично стандартному WAF — тщательно проверяя каждый запрос API, содержащий подсказку LLM, на предмет индикаторов или шаблонов атак.
⏩Компетенция Firewall не привязана к какой-то одной инфраструктуре; он может защищать модели, размещенные на платформе Cloudflare Workers AI или любой другой внешней инфраструктуре, а также может использоваться в тандеме с Cloudflare AI Gateway.
@data_analysis_ml
📌Визуализация и анализ географических данных в R
Отличный онлайн-учебник по работе с географической информацией с помощью языка R
Здесь описываются азы работы с графикой, рассказывается, как проводить качественный пространственный анализ и не только
📎 Ссылка
@data_analysis_ml
🌍YOLO-CIANNA: Neural Astro 🌍
CIANNA - это универсальная платформа для глубокого обучения, разработанная в первую очередь для анализа астрономических данных.
Функциональные возможности и оптимизации добавляются в зависимости от их актуальности для решения астрофизических задач.
CIANNA может использоваться для создания и обучения больших моделей нейронных сетей для различных задач и оснащена высокоуровневым интерфейсом Python (аналогично keras, pytorch и т.д.).
Одной из особенностей CIANNA является ее реализация детектора объектов в стиле YOLO, используемого в контексте обнаружения галактик в 2D или 3D продуктах радиоастрономических данных.
Фреймворк полностью поддерживает графическое ускорение благодаря низкоуровневому программированию на CUDA.
▪Код: github.com/Deyht/CIANNA
▪Cтатья: arxiv.org/pdf/2402.05925.pdf
@data_analysis_ml
💥 Дублирование одного и того же кода с SQL-запросами может привести к несогласованности в вашем проекте, если изменения будут внесены только в одну часть кода и не внесены в другию.
ApacheSpark UDF может помочь решить пободную проблему, инкапсулируя сложную логику, которая повторно используется в нескольких SQL-запросах.
@data_analysis_ml
⚡️ Датасет для детекции речи размером более 150 тысяч часов на множестве языков
🟡На днях в публичный доступ выложили гигантский датасет для детекции речи (voice activity detection).
🟡Датасет содержит порядка 150 тысяч часов аудио более чем на 6000 диалектах. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
🟡Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Пользуйтесь, самое то для задач NLP и всего такого
📎 Github
@data_analysis_ml
📌Подборка неочевидных AI-сервисов для event-менеджеров и не только
Держите AI, которые помогут облегчить работу и возьмут на себя решение разного спектра задач — от генерации креативных идей и концепций до помощи в продажах и тайм-менеджменте.
📎 Ссылки на эти AI
@data_analysis_ml
📣 Объявление о начале соревнований на Kaggle!
Решаем олимпиаду по математике с помощью ИИ.
💰 Призовой фонд более 1 миллиона долларов
⏰ Крайний срок подачи заявок: 27 июня 2024 года
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/
@data_analysis_ml
🦾 Оплачиваемая стажировка от Газпромбанка в сфере Data Science и аналитики данных
Ты еще успеваешь подать заявку!
Что такое GPB.Level Up?
Это стажировка для Data Science-специалистов в Газпромбанке. Опыт работы не требуется: внутренняя система и обучение актуальным фреймворкам на реальных задачах банка прокачают сильнее дюжины пет-проектов. Открыто 5 различных направлений от работы с ИИ до моделирования финансовых рисков.
Тебя ждут классные условия:
— 67 000 р. gross в месяц
— ДМС и корпоративные скидки
— Удаленный или гибридный формат работы
— Программа наставничества
— Карьерные перспективы: 85% участников GPB.Level Up прошлого года перешли в штат Газпромбанка
Не откладывай на «потом», регистрируйся прямо сейчас
18 апреля, 18:00
MLечный путь 2024
Коллеги из @Selectel проводят свой ежегодный митап MLOps и ML-инженеров, на котором обсуждаю инфраструктуру для ML, разбирают сложности, тренды и инструменты построения production ML-систем.
В этом году особое внимание будет уделено актуальному тренду — LLM. Будут доклады про тренды развития генеративного ИИ, перспективы Feast в качестве Feature store, оптимизацию моделей, обеспечение безопасности LLM и сокращение расходов на их инференс. На митапе выступят эксперты из Selectel, СберМаркета, Dstack, Axenix, MIL Team, Raft AI.
Всех участников оффлайн-митапа в Санкт-Петербурге будет ждать неформальное общение со спикерами и экспертами, стенды с GPU-картами, розыгрыш мерча, знакомства и пицца после окончания докладов. Для тех, кто не сможет присоединиться оффлайн, коллеги подготовили онлайн-трансляцию.
Выбирайте подходящий формат участия и регистрируйтесь на мероприятие: https://slc.tl/jha5o
Реклама ООО «Селектел» erid 2VtzqxdPMN7
🚀 Google выпустила крутой учебник по промпт-инжинирингу!
В руководстве на 45 страницах содержатся советы для работы с Gemini, которые также применимы к другим нейронным сетям.
Это полноценное учебное пособие — понятное, доступное и красиво оформленное. В каждой главе вы найдете примеры использования, советы и понятные инструкции.
Книга содержит интересные с примеры по созданию промотав, как это может пригодиться именно вам.
📚 Книга
@data_analysis_ml
Российские студенты стали победителями ICPC
Это самые крупные международные соревнования по программированию в мире. В этом году финал проходил за два года — 2022 и 2023. Студенты факультета компьютерных наук, основанного ВШЭ и Яндексом, заняли призовые места в сразу двух соревнованиях.
За 2023 год абсолютными чемпионами стала команда FFTilted. Ее участники — Фёдор Ромашов, Александр Бабин и Кирилл Кудряшов — студенты программы Прикладной математики и информатики (ПМИ), разработанной Яндексом в момент основания факультета.
За 2022 год третье место в абсолютном зачете заняла команда Undertrained+Overpressured. Ее представляли Максим Гороховский, Иван Сафонов и Тимофей Федосеев.
Обе команды показали лучшие результаты среди всех российских вузов. Всего в ICPC приняли участие команды из 170 университетов и 50 стран мира.
📌Сверхполезный открытый учебник по Machine Learning
Здесь собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
Очень годно, рекомендую
Что внутри?
├╼
всего лишь функция
├╼
градиентный спуск
├╼
алгоритм обратного распространения ошибки
├╼
что выплёвывает нейросеть
├╼
свёрточные сети
├╼
нейросети – конструктор LEGO
├╼
рекуррентные сети
╰╼
матричное дифференцирование
📎 Учебник
@data_analysis_ml
🧔 Microsoft Research анонсировала VASA-1.
ИИ генератор видео, который выглядит очень реалистично.
Для создания гиперреалистичного видео с изображением говорящего лица, требуется всего одна портретная фотография, чтобы создать видео с точной синхронизацией движения губ, реалистичным выражением лица и естественным движениями головы в режиме реального времени.
https://www.microsoft.com/en-us/research/project/vasa-1/
@data_analysis_ml
Как понять, что вы уже мидл? Какая конкуренция за вакансии по сравнению с джунами? Какие зарплаты и что на них влияет?
Решили задать эти вопросы опытным разработчикам, которые сами нанимают мидлов. Присоединяйтесь к вебинару — будем вместе разбираться в рынке труда для программистов с опытом.
→ Бесплатно, 25 апреля в 19:00 Мск
Вы узнаете:
— как понять, что вы уже не джун, а скорее мидл;
— как сегодня выглядит рынок вакансий;
— сколько платят на средних позициях и как влиять на свой доход;
— что лучше: расширять стек или идти в специализацию;
— как правильно проходить собеседования.
→ Зарегистрироваться на вебинар
🚀 Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models
Хотите бесплатно увеличить скорость и эффективность использования памяти для вашего HuggingFace ✅ LLM без снижения качества генерации?
Представляем Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
http://arxiv.org/pdf/2404.09529.pdf
@data_analysis_ml
Сильнейшие карьерные IT-бури ожидаются в ближайшее время — об этом говорят синоптики и HR-менеджеры Сбера! 🧑💻
Чтобы стать частью IT-комьюнити топовой технологичной компании и работать над масштабными проектами, выбирай вакансию мечты по ссылке.
Эйчары уже ждут тебя. Ну а прогноз в видео — всего лишь наша шутка, зато твоя будущая команда абсолютно реальна 💚
20 апреля ИТ-компания AXENIX объявляет One Day Offer для системных аналитиков! Вы сможете стать сотрудником AXENIX всего за 1 день!
Схема предельно простая:
⓵ До 18 апреля отправьте заявку на участие через этот сайт
⓶ Поговорите по телефону с рекрутером, чтобы узнать все подробности
⓷ 20 апреля пройдите онлайн-собеседование с экспертами AXENIX
⓸ Получите оффер в тот же день!
К участию приглашаются системные аналитики с опытом работы от 1 года из любого города России — вы сможете работать удаленно или, если в вашем городе есть офис нашей компании, в гибридном формате.
Переходите на официальный сайт AXENIX, чтобы узнать больше!
Реклама. ООО "АКСТИМ". ИНН 7705476338.
Из Индии – в Москву. На Data Fusion 2024 выступит Sankar Kumar Pal, член национальной Академии Наук правительства Индии, президент Индийского статистического института.
Учёный 17 апреля представит доклад «Распознавание образов, машинный интеллект и гранулярный майнинг: эволюция, моделирование неопределенности и применения».
Главные тезисы:
- Как эволюционировали технологии распознавания образов и возникли гранулярные вычисления, позволяющие добывать большие данные.
- Особенности гранулярных вычислений и их компоненты с примерами, а также актуальность грубых множеств и обобщенной грубо-нечеткой энтропии.
- Применение гранулярных вычислений в видеоаналитике в рамках ML и DL.
- Самые перспективные промышленные приложения для обнаружения и отслеживания объектов.
Больше полезной информации от коллег из Индии – на конференции 17-18 апреля в технологическом кластере «Ломоносов» в Москве! Чтобы не пропустить главное событие весны в области анализа больших данных, регистрируйтесь прямо сейчас: https://tglink.io/d9bc2e33ec4d
Увлекаетесь компьютерными науками и ищете, где можно интенсивно прокачаться в одном из актуальных IT-направлений? Тогда идеальный вариант — короткие образовательные программы, которые ведут эксперты-практики. Плюсы таких форматов — дают только полезную информацию, включают в реальные проекты, а ещё предлагают активный нетворкинг и обмен идеями.
Такие интенсивы проводит Яндекс Образование: в июне у них стартует новый студенческий кемп по промышленной разработке ПО на базе питерского ИТМО. За две недели вы сможете погрузиться в тему разработки высоконагруженных систем и углубить знания в области DevOps или информационной безопасности.
На программе ждут студентов профильных направлений. Чтобы подать заявку, заполните анкету участника до 1 мая. Всем, кто успешно пройдёт отбор, Яндекс Образование оплатит дорогу и проживание. Участие также будет бесплатным. Поторопитесь, количество мест ограничено
Данные сегодня ценнее золота. А умение извлекать из них пользу — навык, который уже сейчас нужен крупным работодателям.
Приходите на день открытых дверей онлайн-бакалавриата «Аналитика и Data Science» от ТюмГУ и Нетологии, чтобы погрузиться в тему больших данных. Встреча пройдёт 20 апреля в 14:00 мск.
Вы узнаете:
- Кто работает с данными и чем именно занимаются эти специалисты.
- Какие знания и навыки нужны, чтобы реализоваться в профессии.
- Как устроено обучение в бакалавриате и что входит в программу.
- Какие есть требования к поступлению.
Погрузитесь в одну из самых востребованных и перспективных профессий. Регистрируйтесь, чтобы сделать первый шаг к карьере аналитика или Data Scientist.
Записаться → https://netolo.gy/c5lo
Реклама ООО “Нетология” LatgBchr9
🔥Подборка лучших обучающих каналов для программистов.
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест
💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных
#️⃣C#
С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend
🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
🌟 Docker/Kubernets
Docker
Kubernets
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
📌Деплой и поддержка сотни ML-моделей
Неплохая статья о том, развивать и сопровождать большое количество ML-моделей, много практических советов и реальных кейсов.
Также рассказывается о создании сервиса, который позволяет решать такие задачи:
⏩Деплой модели должен занимать один день. Это позволит нам значительно снизить общий time-to-market наших моделей.
⏩Деплой — типовая операция. Для стандартного деплоя модели не нужно привлекать разработчика.
⏩Должен быть единообразный API для доступа к моделям, который можно легко интегрировать и описывать на разных языках программирования. Последнее было особенно важно, потому что у всех заказчиков свой стек технологий.
⏩Нужны инструменты для observability наших решений. Притом они должны быть «из коробки», чтобы можно было задеплоить модель и легко получить инструменты для ее поддержки.
📎 Статья
@data_analysis_ml
📈 Python Graph gallery: 38 высококачественных гайдов по визуализации!
И этот список продолжает расти 📈
Кто сказал что matplotlib
уродлив? 😀
http://python-graph-gallery.com/best-python-chart-examples/
@data_analysis_ml
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению. Часть 2
🚀 Часть 1
▪Вопросы и ответы на собеседования по машинному обучению для специалистов в области анализа данных
▪Вопросы и ответы на собеседования по глубокому обучению для специалистов в области обработки данных
▪Вопросы по статистике
▪Вопросы по теории вероятности
▪Репозиторий для линейки онлайн-курсов по статистике
▪Вопросы и ответы для специалистов по анализу данных на Python
▪Вопросы и ответы для собеседований по SQL и DB для специалистов по обработке данных
Вопросы, основанные на резюме
▪Вопросы и ответы на собеседования по большим языковым моделям (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 1( ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 2 (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 3 (ВПН)
@machinelearning_interview