bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

17610

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

🔥 Practical_RL

В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.

https://github.com/yandexdataschool/Practical_RL

@bigdatai

Читать полностью…

Big Data AI

💥 Оcновные функции Pandas!

#pandas #datascience

@bigdatai

Читать полностью…

Big Data AI

🧩 Визуизация работы сессии, файлов cookie, JWT, токенов, SSO и OAuth 2.0 на одной диаграмме

Когда вы входите на веб-сайт, возникает необходимость управления вашей учетной записью. Вот как работают разные решения:

Токен — Ваша учетная запись закодирована в токене, отправленном в браузер. Браузер отправляет этот токен при будущих запросах аутентификации. Хранилище сеансов сервера не требуется. Но токены нуждаются в шифровании/дешифровании.

Сессия — Сервер сохраняет вашу учетную запись и передает браузеру файл cookie с идентификатором сеанса. Это позволяет серверу отслеживать состояние входа в систему. Но файлы cookie не работают на разных устройствах.

JWT — Веб-токены JSON стандартизируют токены идентификации, используя цифровые подписи для обеспечения проверки подлинности. Подпись содержится в токене, поэтому сеанс сервера не требуется.

SSO — Система единого входа использует центральную службу аутентификации. Это позволяет одному логину работать на нескольких сайтах.

OAuth2 — Разрешает ограниченный доступ к вашим данным на одном сайте другому сайту без разглашения паролей.

QR-код — Набирающий популярность метод аутентификации. Кодирует случайный токен в QR-код для входа в систему с мобильного устройства. Сканирование кода позволяет войти в систему без ввода пароля.

@bigdatai

Читать полностью…

Big Data AI

⭐️ 10 способов повысить эффективность RAG-системы

LLM
 —  удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation  —  генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.

Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.

Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.

В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG  —  пожалуй, единственный наиболее эффективный способ применения LLM.

В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.

Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.

⚡️Читать дальше

@bigdatai

Читать полностью…

Big Data AI

Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.

🗓 29 ноября в 18:00

В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.

✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.

✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой. 

Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.

➡️ Регистрация по ссылке.

Реклама. ПАО СБЕРБАНК. ИНН 7707083893.

Читать полностью…

Big Data AI

Каждый аналитик данных когда-то не имел опыта и почти каждый испытывал трудности при поиске первой работы

Если сейчас вам не хватает реального опыта, приходите на бесплатный вебинар от karpovꓸcourses «Как получить реальный опыт в анализе данных за шесть недель?»

На вебинары вы:
- поймете, что хотят от джунов-аналитиков
- узнаете о новых способах получить опыт, если без него найти работу не получается

Также выпускники курса Симулятор аналитика поделятся своими историями поиска работы аналитиком, что поможет вам заранее учесть все возможные трудности и справиться с этой задачей быстрее.

Вебинар проведет Анатолий Карпов — тот самый автор курсов на степике, которые обучили статистике более 200 тыс. человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses.

Ждём вас 28 ноября в 19:00!

Регистрируйтесь, чтобы попасть на вебинар

Читать полностью…

Big Data AI

Data Science Meetup #2 от СберМаркет Tech🔥

23 ноября в 19:30 по Москве приглашаем Data Scientist'ов на наш второй DS-митап! Собрали для вас 3 доклада о хардовых и нетривиальных подходах от спикеров из Альфа-Банка, МегаФона и СберМаркета.

В программе:

🟡 «Contrastive Representation Learning: что это за технология и как её можно использовать бизнесу». Расскажет Тимур Кадыров, Senior Data Scientist СберМаркета.

🟡 «ANNA — первый AutoDL сервис в банках». Опытом поделится Демид Гаибов, Middle Data Scientist в Альфа-Банке.

🟡 «NBA — баскетбол с офферами. Как в него играть?». Объяснит Тимур Джумакаев, DS Team Lead из МегаФона.

Хочешь приехать в офис? Переходи по ссылке на офлайн — количество мест ограничено.

Будешь подключаться онлайн? Регистрируйся тут — ссылку на трансляцию пришлем за час до митапа.

Не забывай звать друзей — лайк, шер приветствуется ❤️

Реклама. ООО «Инстамарт Сервис», 115035, Москва, ОГРН 1187746494980. 16+

Читать полностью…

Big Data AI

🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Как автоматизировать проверки данных в Airflow с Great Expectations
5 уровней зрелости MLOps
Лучшие ресурсы чтобы выучить Git и Github
Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
Деревья ltree в PostgreSQL – простым языком
Лучшие практики Golang (20 лучших)
How to install NVIDIA drivers for machine learning on Ubuntu
Working through the fast.ai book in Rust - Part 1
Why ChatGPT and other LLMs are overrated and won't take your job
Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
A Quick Look At Natural Language Generation (NLG)
AI Log #2: What is a Cost Function in Machine Learning?
The Next Generation of AI Developer Tools
AI Development Guide 2024
What is a Conditional Generative Adversarial Network?
The State of Serverless GPU Part -2

Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)

Хорошего дня!

#digest #bigdata

@bigdatai

Читать полностью…

Big Data AI

🔥Список открытых датасетов

Список открытых датасетов высокого качества для машинного обучения, временных рядов, НЛП, обработки изображений и т.д., ориентированный на конкретные темы.

🔗 https://github.com/awesomedata/awesome-public-datasets

@bigdatai

Читать полностью…

Big Data AI

Команда VK Cloud недавно запустила новый канал о работе с данными — Данные на стероидах.

В нем ребята публикуют подборки интересного контента по тематике работы с данными, эксклюзивные интервью с вендорами российских баз данных, такими как Postgress Professional и Arenadata, а еще переодически подкидывают интересные задачки (вот тут, например, подписчикам предлагали взломать базу данных).

Помимо прочего, в канале много полезной информации о работе с данными, архитектуре дата-решений и новостей российского и международного Data-сообщества.

👉🏻 Подписывайтесь на канал Данные на стероидах, будет интересно!

Читать полностью…

Big Data AI

⚡️ GPT-4V теперь может говорить и объяснять, что он видит.

SoM накладывает на изображения несколько пространственных и "говорящих" знаков (например, маски и идентификаторы ссылок), чтобы раскрыть возможности и получить обоснования от больших мультимодальных моделей (БММ).

https://github.com/roboflow/awesome-openai-vision-api-experiments

@bigdatai

Читать полностью…

Big Data AI

👀 Интересный подкаст о создании высокодетализированных Яндекс Карт

Технический директор и продакт-менеджер сервиса пришли в новый выпуск Yet Another Podcast и рассказали, какие данные использовались для создания карт нового поколения, чем новые карты отличаются от прежних и какие пользовательские проблемы решает обновление. А еще обсудили, что теперь общего у Карт и игр Need For Speed и GTA.

Смотреть

@bigdatai

Читать полностью…

Big Data AI

🚀 Набор данных Grounding-anything Dataset (GranD)

Grounding Large Multimodal Model (GLaMM) - это сквозная обучаемая LMM, которая обеспечивает возможности визуального обоснования с функциями обработки как изображений, так и текста.

Grounding Large Multimodal Model позволяет решать новую унифицированную задачу генерации обоснованных разговоров, которая объединяет в себе обоснование фраз, сегментацию референтных выражений и разговоры на языке зрения. Обладая

проект: https://mbzuai-oryx.github.io/groundingLMM/
abs: https://arxiv.org/abs/2311.03356


@bigdatai

Читать полностью…

Big Data AI

Erid:2VtzqxJMzEK

Регистрация на отборочный этап Всероссийского хакатона по биометрии!

Если ты молодой специалист, жаждущий новых вызовов и возможностей, не упусти шанс побороться за часть призового фонда в размере 1.000.000 рублей! Зарегистрируйся на отборочный тур прямо сейчас, выбери кейс и стань частью Всероссийского хакатона по биометрии.

Кейсы:
• Разработка инструмента для создания дипфейков
• Разработка инструмента для обнаружения дипфейков
• Фронтальный алгоритм защиты от атак предъявления для лицевой биометрии
• Решения для использования новых биометрических модальностей на пользовательских устройствах

Хакатон пройдёт в два этапа:
• Отборочный тур онлайн 10-12 ноября
• Финал офлайн 25 ноября в Москве

Победители соревнования получат ценные призы и возможность представить свои проекты перед экспертами и топ-менеджерами биометрических вендоров и крупных технологических компаний. Мероприятие проводится при поддержке Центра Биометрических Технологий. Генеральный партнёр мероприятия – Сбер, официальные партнёры – IT-компании «InnoView», Ovision. Хакатон проводится при поддержке Минспорта, Федерации Спортивного Программирования и Минцифры.

Даты отборочного этапа в онлайн-формате: 10-12 ноября 2023 года   
Даты финала: 25 ноября 2023 года   
Место: Москва
Формат: смешанный (отборочный этап в онлайн-формате, а финал – на площадке в Москве)

Подробности и регистрация до 6 ноября 2023 года по ссылке: https://clck.ru/36PH5y

Собирай команду, решай задачу и выигрывай на Всероссийском хакатоне по биометрии
Реклама. ООО «Акселератор Возможностей». ИНН 9704005146

Читать полностью…

Big Data AI

Как устроены языки Java, C++ и Python?

▪️Java сначала компилирует исходный код в байткод, который не зависит от платформы и выполняется виртуальной машиной Java (JVM). JVM может дополнительно повысить производительность, используя компиляцию Just-In-Time (JIT) для преобразования байткода в машинный код во время выполнения.

▪️Компилируемые языки, такие как C++ и Go, перед выполнением преобразуют исходный код в машинный код с помощью компилятора. Скомпилированный машинный код затем может непосредственно выполняться процессором.

▪️Интерпретируемые языки, такие как Javascript и Ruby, не подвергаются компиляции. Вместо этого их код построчно обрабатывается интерпретатором во время выполнения. Однако современные движки JavaScript, такие как V8, также используют JIT-компиляцию для повышения производительности.

▪️Python представляет собой смесь двух миров. Сначала исходный код компилируется в платформонезависимый байткод, который затем построчно выполняется платформонезависимым интерпретатором. Кроме того, такие реализации, как PyPy, используют JIT-компиляцию для повышения скорости работы.

В целом компилируемые языки обладают преимуществами в скорости, однако благодаря современным методам оптимизации грань между компилируемыми и интерпретируемыми языками становится все более размытой.

@bigdatai

Читать полностью…

Big Data AI

Новый Florence 2 от Microsoft имеет большое значение для компьютерного зрения.
Это слияние текста и зрения.


С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.

Самое приятное, что для всего этого используется только одна основа.

▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K

https://arxiv.org/abs/2311.06242

@bigdatai

Читать полностью…

Big Data AI

Приглашаем на главное BI-событие декабря — Yandex DataLens Festival!

В этом году будет ещё интереснее! Вас ждут 2 недели полезного контента от экспертов:

⭐️ Yandex Cloud. Как построить аналитику в облаке
⭐️ MAXIMUM Education. Как переезд с Power BI расширил число пользователей аналитики
⭐️ Ренессанс Страхование. Как построить систему знаний и обучения BI
⭐️ CARCADE. Как организовать работу 1000 пользователей BI в финсекторе
⭐️ YCLIENTS. Как анализировать работу команды разработки
⭐️ Reveal the Data aka Роман Бунин. Сколько живёт дашборд и как увеличить время его жизни

Помимо этого, ведущие разработчики DataLens и YTsaurus поделятся рецептами, как готовить опенсорс, а именно:
🛠 как развернуть у себя
🛠 как кастомизировать UI
🛠 как настроить базовую аутентификацию
🛠 как интегрировать с YTsaurus

Будет много нетворкинга — разберём вопросы на Q&A-сессии и пообщаемся вживую на афтерпати. Ну и какой фестиваль без конкурсов и сюрпризов 🎁

Участие бесплатное, нужно только ➡️ зарегистрироваться

Читать полностью…

Big Data AI

Хотите начать увлекательный путь в мир машинного обучения и искусственного интеллекта?

Газпромбанк.Тех совместно с Финтех Хабом Банка России запускает прием заявок на программу «Машинное обучение LITE: базовый уровень» — для тех, кто только начинает осваивать машинное обучение.

Что предстоит изучать?
Основы и методы ML, математику, Python и нейронные сети.

Программа состоит из двух модулей:
- Теоретический модуль пройдет с 21 января по 16 февраля 2024 года
- Практический модуль пройдет с 26 февраля по 10 марта 2024 года для тех, кто показал высокие результаты по итогу первого модуля

Чтобы стать участником, подайте заявку на сайте программы до 17 января 2024 года — https://vk.cc/csyX2e

Реклама Банк ГПБ (АО), ИНН: 7744001497

Читать полностью…

Big Data AI

Новая библиотека с открытым исходным кодом для всех, кто работает с данными.

Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:

- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение

Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.

Этот инструмент - волшебство.

🐱 GitHub

Читать полностью…

Big Data AI

👉 Обзоры по ML

Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.

🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост

@bigdatai

Читать полностью…

Big Data AI

Awesome-LLM4AD

Список интересных ресурсов, посвященных LLM для автономного вождения (постоянно обновляется).

🐱 GitHub

@bigdatai

Читать полностью…

Big Data AI

👉 Классификация изображений

Список из 5 лучших работ и проектов с кодом по классификации изображений с помощью глубокого обучения.

🔗 https://github.com/weiaicunzai/awesome-image-classification

@bigdatai

Читать полностью…

Big Data AI

⚡️ Глубокое обучение для отслеживания и обнаружения объектов

Коллекция статей, наборов данных, кода и других ресурсов, посвященных отслеживанию и обнаружению объектов с помощью глубокого обучения.

🔗 https://github.com/abhineet123/Deep-Learning-for-Tracking-and-Detection

@bigdatai

Читать полностью…

Big Data AI

🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Дежурный data-инженер: рабочие хроники
RecTools – OpenSource библиотека для рекомендательных систем
Проблема множественного тестирования на практике
Введение в Apache Flink: осваиваем фреймворк на реальных примерах
Data Mesh – ячеистые топологии для работы с данными
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
Как расширить компетенции аналитиков при работе с Big Data
Жук, нумерология, хеш или ничо? Оптимизация работы с путями
Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание
Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
Let's talk bout Linear-Algebra and ML
Navigating AWS HIPAA Compliance: A Comprehensive Analysis
Monitoring Your Time Series Model in Comet
Join us: Unleashing the Future of AI Development with ViewML. AI Open Source Invention.
The Hunger Games: Harnessing the Power of Emerging Technologies in Food Delivery App Development
Building LangChain applications with Amazon Bedrock and Go - An introduction
Standardizing the Data Using StandardScaler in ML
Is Dictador's AI Robot CEO A Threat To Leadership Roles In The Business Landscape?
Go for beginners
Essential Features of Artificial Intelligence: A Thorough Synopsis

Посмотреть:
🌐 Задача с реального Python собеседования middle разработчика. Рекурсивная сумма. (⏱ 13:00)
🌐 Определение диабета при помощи машинного обучения в 60 строк кода! (⏱ 12:54)
🌐 Что такое vector в c++ (⏱ 00:51)
🌐 STL C++ стандартная библиотека (⏱ 00:57)
🌐 deque разбор в С++ (⏱ 00:58)
🌐 Последовательные контейнеры c++ List (⏱ 00:47)
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)

Хорошего дня!

Читать полностью…

Big Data AI

Перейдя на Parquet...
... вы никогда не вернетесь к CSV.

📌 Загружай данные в 113 раз быстрее c Parquet.

@bigdatai

Читать полностью…

Big Data AI

🏎 Awesome Autonomous Vehicles

Основы, курсы, доклады, исследовательские лаборатории, наборы данных, программное обеспечение с открытым исходным кодом, аппаратное обеспечение, игрушки, компании, СМИ и законы, связанные с автономными транспортными средствами.

🐱 GitHub

Читать полностью…

Big Data AI

Бесплатные онлайн-курсы от Массачусетского технологического института:

1. Computational Thinking and Data Science
https://edx.org/course/introduction-to-computational-thinking-and-data-4?index=product_value_experiment_a&queryID=b2c2e9283643f3c30529b34d69556b9c&position=9

2. Computer Science and Programming Using Python
https://edx.org/course/introduction-to-computer-science-and-programming-7?index=product_value_experiment_a&queryID=85d79cec1ab147c466872f2cf1d26fd0&position=12

3. Cybersecurity for Critical Urban Infrastructure
https://edx.org/course/cybersecurity-clinic

4. Machine Learning with Python
https://edx.org/course/machine-learning-with-python-from-linear-models-to

5. Becoming an Entrepreneur
https://edx.org/course/becoming-an-entrepreneur

@bigdatai

Читать полностью…

Big Data AI

"Я боюсь не того Data Scientist'а, который один раз поработал с 10 000ми простых датасетов.

Я боюсь того Data Scientist'а, который 10 000 раз поработал с одним ужасным датасетом".

-- Брюс Ли

@bigdatai

Читать полностью…

Big Data AI

Математика для глубокого обучения 🧑‍🎓

Лучший ресурс для изучения математических концепций для лучшего понимания концепций машинного обучения и глубокого обучения:

http://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html

@bigdatai

Читать полностью…

Big Data AI

Не могу найти работу. Нет откликов на резюме. Не зовут на собеседование. 😞

Эти проблемы возникают у многих в процессе поиска работы и решать их нужно с сертифицированным карьерным консультантом, таким как Оксана Синягина. Оксана работает в сфере IT уже 17 лет и  отлично знает рынок труда в IT.

В своем Телеграм канале Оксана делится:

✅  Актуальными трендами и возможностями, которые предлагает IT-сфера. 💡
✅  Рассказывает, какие навыки и знания нужны для успешного старта и роста в айти. 🚀
✅  Делится полезными материалами для самообразования и развития профессиональных компетенций. 📚
✅  Раскрывает секреты успешного прохождения собеседований и взаимодействия с работодателями. 🗣

А недавно у Оксаны вышел пост о самых эффективных платформах для поиска работы в IT. 🌐

Подпишись на канал Оксаны и получи бесплатный гайд "Как настроить LinkedIn, чтобы он работал на вас" 🎁

>> Перейти на канал

Реклама. Синягина О.В. ИНН 526309956960. Erid LjN8KbsPE

Читать полностью…
Subscribe to a channel