@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
Awesome-LLM4AD
Список интересных ресурсов, посвященных LLM для автономного вождения (постоянно обновляется).
🐱 GitHub
@bigdatai
👉 Классификация изображений
Список из 5 лучших работ и проектов с кодом по классификации изображений с помощью глубокого обучения.
🔗 https://github.com/weiaicunzai/awesome-image-classification
@bigdatai
⚡️ Глубокое обучение для отслеживания и обнаружения объектов
Коллекция статей, наборов данных, кода и других ресурсов, посвященных отслеживанию и обнаружению объектов с помощью глубокого обучения.
🔗 https://github.com/abhineet123/Deep-Learning-for-Tracking-and-Detection
@bigdatai
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Дежурный data-инженер: рабочие хроники
— RecTools – OpenSource библиотека для рекомендательных систем
— Проблема множественного тестирования на практике
— Введение в Apache Flink: осваиваем фреймворк на реальных примерах
— Data Mesh – ячеистые топологии для работы с данными
— Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
— Как расширить компетенции аналитиков при работе с Big Data
— Жук, нумерология, хеш или ничо? Оптимизация работы с путями
— Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание
— Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
— Let's talk bout Linear-Algebra and ML
— Navigating AWS HIPAA Compliance: A Comprehensive Analysis
— Monitoring Your Time Series Model in Comet
— Join us: Unleashing the Future of AI Development with ViewML. AI Open Source Invention.
— The Hunger Games: Harnessing the Power of Emerging Technologies in Food Delivery App Development
— Building LangChain applications with Amazon Bedrock and Go - An introduction
— Standardizing the Data Using StandardScaler in ML
— Is Dictador's AI Robot CEO A Threat To Leadership Roles In The Business Landscape?
— Go for beginners
— Essential Features of Artificial Intelligence: A Thorough Synopsis
Посмотреть:
🌐 Задача с реального Python собеседования middle разработчика. Рекурсивная сумма. (⏱ 13:00)
🌐 Определение диабета при помощи машинного обучения в 60 строк кода! (⏱ 12:54)
🌐 Что такое vector в c++ (⏱ 00:51)
🌐 STL C++ стандартная библиотека (⏱ 00:57)
🌐 deque разбор в С++ (⏱ 00:58)
🌐 Последовательные контейнеры c++ List (⏱ 00:47)
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)
Хорошего дня!
Перейдя на Parquet...
... вы никогда не вернетесь к CSV.
📌 Загружай данные в 113 раз быстрее c Parquet.
@bigdatai
🏎 Awesome Autonomous Vehicles
Основы, курсы, доклады, исследовательские лаборатории, наборы данных, программное обеспечение с открытым исходным кодом, аппаратное обеспечение, игрушки, компании, СМИ и законы, связанные с автономными транспортными средствами.
🐱 GitHub
Бесплатные онлайн-курсы от Массачусетского технологического института:
1. Computational Thinking and Data Science
https://edx.org/course/introduction-to-computational-thinking-and-data-4?index=product_value_experiment_a&queryID=b2c2e9283643f3c30529b34d69556b9c&position=9
2. Computer Science and Programming Using Python
https://edx.org/course/introduction-to-computer-science-and-programming-7?index=product_value_experiment_a&queryID=85d79cec1ab147c466872f2cf1d26fd0&position=12
3. Cybersecurity for Critical Urban Infrastructure
https://edx.org/course/cybersecurity-clinic
4. Machine Learning with Python
https://edx.org/course/machine-learning-with-python-from-linear-models-to
5. Becoming an Entrepreneur
https://edx.org/course/becoming-an-entrepreneur
@bigdatai
"Я боюсь не того Data Scientist'а, который один раз поработал с 10 000ми простых датасетов.
Я боюсь того Data Scientist'а, который 10 000 раз поработал с одним ужасным датасетом".
-- Брюс Ли
@bigdatai
Математика для глубокого обучения 🧑🎓
Лучший ресурс для изучения математических концепций для лучшего понимания концепций машинного обучения и глубокого обучения:
http://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html
@bigdatai
Не могу найти работу. Нет откликов на резюме. Не зовут на собеседование. 😞
Эти проблемы возникают у многих в процессе поиска работы и решать их нужно с сертифицированным карьерным консультантом, таким как Оксана Синягина. Оксана работает в сфере IT уже 17 лет и отлично знает рынок труда в IT.
В своем Телеграм канале Оксана делится:
✅ Актуальными трендами и возможностями, которые предлагает IT-сфера. 💡
✅ Рассказывает, какие навыки и знания нужны для успешного старта и роста в айти. 🚀
✅ Делится полезными материалами для самообразования и развития профессиональных компетенций. 📚
✅ Раскрывает секреты успешного прохождения собеседований и взаимодействия с работодателями. 🗣
А недавно у Оксаны вышел пост о самых эффективных платформах для поиска работы в IT. 🌐
Подпишись на канал Оксаны и получи бесплатный гайд "Как настроить LinkedIn, чтобы он работал на вас" 🎁
>> Перейти на каналРеклама. Синягина О.В. ИНН 526309956960. Erid LjN8KbsPE
🚀 TF Quant Finance: TensorFlow based Quant Finance Library
Библиотека TensorFlow Quant Finance от Google.
Функциональные возможности включают:
- Блэка-Шоулза: Цена и предполагаемый объем
- Монте-Карло по схеме Эйлера
- Подгонка своп-кривойgit clone https://github.com/google/tf-quant-finance.git
▪Github
@bigdatai
Как использовать машинное обучение для оптимизации производства?
Узнайте на примере реальных кейсов на бесплатном онлайн-митапе «Лучше практики MLOps в бизнесе. Опыт FinTech и Security индустрий» от OTUS.
После эфира вы сможете:
🔹 Найти и выстроить процессы, связанные с машинным обучением
🔹 Понять, как работать с эффективностью данных проектов
🔹 Избежать основных ошибок руководителя
🔹 Получить ответы на свои вопросы от опытного эксперта
Встречаемся в следующий вторник, 31 октября в 19:00 мск.
💻Эфир будет в формате конференции и после каждого блока вы сможете задать любые вопросы спикеру Павлу Филонову – ex-Kaspersky, ex-Positive technologies Data Science Manager с опытом в IT 15 лет.
👉Регистрируйтесь бесплатно прямо сейчас и забирайте чек-лист «Список технологий, нужный для MLOps» в подарок: https://otus.pw/YDvc/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KXuV8
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
— Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
— Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
— Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
— Введение в библиотеку Diffusers и диффузионные модели
— Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
— Применение нейросетевых подходов для формирования признаков в моделях
— О точности вычислений: как не потерять данные в цифровом шуме
— Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
— Milvus Adventures | October 13, 2023
— Exploratory Data Analysis with Data Visualization Techniques
— BakaLLM, p5: one stomp forward
— 👋 Devlog 12.10.23
— Machine learning use cases: making the world a better place 🦾
— Why kNN doesn't scale...
— AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
— 🎉 My daily Devlog
— What Technologies are used to Build an AI Image generator? What is GAN Architecture?
— Benefits and Challenges of AIoT
Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. (⏱ 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL (⏱ 19:37)
🌐 Django шаблонизация и маршрутизация (⏱ 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python (⏱ 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial (⏱ 00:59)
🌐 Хитрая задача с собеседования #Python (⏱ 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" (⏱ 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly (⏱ 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! (⏱ 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? (⏱ 05:52)
Хорошего дня!
@bigdatai
📒 GigaChat нового поколения.
Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.
Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).
Число уникальных пользователей GigaChat достигло 1 млн.
• Попробовать
@data_analysis_ml
✅️ Инструменты для создания 3D.
Генерация из одного текстового промпта до красивой 3D-модели.
https://huggingface.co/collections/victor/3d-creation-workflow-652bb09c1198736f310f457a
@bigdatai
Data Science Meetup #2 от СберМаркет Tech🔥
23 ноября в 19:30 по Москве приглашаем Data Scientist'ов на наш второй DS-митап! Собрали для вас 3 доклада о хардовых и нетривиальных подходах от спикеров из Альфа-Банка, МегаФона и СберМаркета.
В программе:
🟡 «Contrastive Representation Learning: что это за технология и как её можно использовать бизнесу». Расскажет Тимур Кадыров, Senior Data Scientist СберМаркета.
🟡 «ANNA — первый AutoDL сервис в банках». Опытом поделится Демид Гаибов, Middle Data Scientist в Альфа-Банке.
🟡 «NBA — баскетбол с офферами. Как в него играть?». Объяснит Тимур Джумакаев, DS Team Lead из МегаФона.
Хочешь приехать в офис? Переходи по ссылке на офлайн — количество мест ограничено.
Будешь подключаться онлайн? Регистрируйся тут — ссылку на трансляцию пришлем за час до митапа.
Не забывай звать друзей — лайк, шер приветствуется ❤️
Реклама. ООО «Инстамарт Сервис», 115035, Москва, ОГРН 1187746494980. 16+
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Как автоматизировать проверки данных в Airflow с Great Expectations
— 5 уровней зрелости MLOps
— Лучшие ресурсы чтобы выучить Git и Github
— Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
— Деревья ltree в PostgreSQL – простым языком
— Лучшие практики Golang (20 лучших)
— How to install NVIDIA drivers for machine learning on Ubuntu
— Working through the fast.ai book in Rust - Part 1
— Why ChatGPT and other LLMs are overrated and won't take your job
— Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
— A Quick Look At Natural Language Generation (NLG)
— AI Log #2: What is a Cost Function in Machine Learning?
— The Next Generation of AI Developer Tools
— AI Development Guide 2024
— What is a Conditional Generative Adversarial Network?
— The State of Serverless GPU Part -2
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)
Хорошего дня!
#digest #bigdata
@bigdatai
🔥Список открытых датасетов
Список открытых датасетов высокого качества для машинного обучения, временных рядов, НЛП, обработки изображений и т.д., ориентированный на конкретные темы.
🔗 https://github.com/awesomedata/awesome-public-datasets
@bigdatai
Команда VK Cloud недавно запустила новый канал о работе с данными — Данные на стероидах.
В нем ребята публикуют подборки интересного контента по тематике работы с данными, эксклюзивные интервью с вендорами российских баз данных, такими как Postgress Professional и Arenadata, а еще переодически подкидывают интересные задачки (вот тут, например, подписчикам предлагали взломать базу данных).
Помимо прочего, в канале много полезной информации о работе с данными, архитектуре дата-решений и новостей российского и международного Data-сообщества.
👉🏻 Подписывайтесь на канал Данные на стероидах, будет интересно!
⚡️ GPT-4V теперь может говорить и объяснять, что он видит.
SoM накладывает на изображения несколько пространственных и "говорящих" знаков (например, маски и идентификаторы ссылок), чтобы раскрыть возможности и получить обоснования от больших мультимодальных моделей (БММ).
https://github.com/roboflow/awesome-openai-vision-api-experiments
@bigdatai
👀 Интересный подкаст о создании высокодетализированных Яндекс Карт
Технический директор и продакт-менеджер сервиса пришли в новый выпуск Yet Another Podcast и рассказали, какие данные использовались для создания карт нового поколения, чем новые карты отличаются от прежних и какие пользовательские проблемы решает обновление. А еще обсудили, что теперь общего у Карт и игр Need For Speed и GTA.
Смотреть
@bigdatai
🚀 Набор данных Grounding-anything Dataset (GranD)
Grounding Large Multimodal Model (GLaMM) - это сквозная обучаемая LMM, которая обеспечивает возможности визуального обоснования с функциями обработки как изображений, так и текста.
Grounding Large Multimodal Model позволяет решать новую унифицированную задачу генерации обоснованных разговоров, которая объединяет в себе обоснование фраз, сегментацию референтных выражений и разговоры на языке зрения. Обладая
проект: https://mbzuai-oryx.github.io/groundingLMM/
abs: https://arxiv.org/abs/2311.03356
@bigdatai
Erid:2VtzqxJMzEK
Регистрация на отборочный этап Всероссийского хакатона по биометрии!
Если ты молодой специалист, жаждущий новых вызовов и возможностей, не упусти шанс побороться за часть призового фонда в размере 1.000.000 рублей! Зарегистрируйся на отборочный тур прямо сейчас, выбери кейс и стань частью Всероссийского хакатона по биометрии.
Кейсы:
• Разработка инструмента для создания дипфейков
• Разработка инструмента для обнаружения дипфейков
• Фронтальный алгоритм защиты от атак предъявления для лицевой биометрии
• Решения для использования новых биометрических модальностей на пользовательских устройствах
Хакатон пройдёт в два этапа:
• Отборочный тур онлайн 10-12 ноября
• Финал офлайн 25 ноября в Москве
Победители соревнования получат ценные призы и возможность представить свои проекты перед экспертами и топ-менеджерами биометрических вендоров и крупных технологических компаний. Мероприятие проводится при поддержке Центра Биометрических Технологий. Генеральный партнёр мероприятия – Сбер, официальные партнёры – IT-компании «InnoView», Ovision. Хакатон проводится при поддержке Минспорта, Федерации Спортивного Программирования и Минцифры.
Даты отборочного этапа в онлайн-формате: 10-12 ноября 2023 года
Даты финала: 25 ноября 2023 года
Место: Москва
Формат: смешанный (отборочный этап в онлайн-формате, а финал – на площадке в Москве)
Подробности и регистрация до 6 ноября 2023 года по ссылке: https://clck.ru/36PH5y
Собирай команду, решай задачу и выигрывай на Всероссийском хакатоне по биометрии
Реклама. ООО «Акселератор Возможностей». ИНН 9704005146
Как устроены языки Java, C++ и Python?
▪️Java сначала компилирует исходный код в байткод, который не зависит от платформы и выполняется виртуальной машиной Java
(JVM). JVM
может дополнительно повысить производительность, используя компиляцию Just-In-Time
(JIT) для преобразования байткода в машинный код во время выполнения.
▪️Компилируемые языки, такие как C++ и Go, перед выполнением преобразуют исходный код в машинный код с помощью компилятора. Скомпилированный машинный код затем может непосредственно выполняться процессором.
▪️Интерпретируемые языки, такие как Javascript и Ruby, не подвергаются компиляции. Вместо этого их код построчно обрабатывается интерпретатором во время выполнения. Однако современные движки JavaScript, такие как V8, также используют JIT-компиляцию для повышения производительности.
▪️Python представляет собой смесь двух миров. Сначала исходный код компилируется в платформонезависимый байткод, который затем построчно выполняется платформонезависимым интерпретатором. Кроме того, такие реализации, как PyPy, используют JIT-компиляцию
для повышения скорости работы.
В целом компилируемые языки обладают преимуществами в скорости, однако благодаря современным методам оптимизации грань между компилируемыми и интерпретируемыми языками становится все более размытой.
@bigdatai
Возможно, Microsoft только что раскрыла "секретное" количество параметров GPT 3.5 в своем документе CodeFusion.
Достижение такого качества чата с параметром 20B очень впечатляет.
https://arxiv.org/abs/2310.17680
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных
— Рынок данных в даркнете: как купить чужие данные и не потерять свои
— 12 лучших инструментов аннотирования изображений на 2023 год
— Без работы не останемся: к 2030 году ИИ добавит семь новых профессий
— Почему важна разметка данных: в основе ChatGPT лежит труд людей
— «Большие вызовы» в «Сириусе», или как мы обычно проводим лето
— why learn web (javascript) ML(machine learning) 2024
— Getting Started with Machine Learning: A Beginner's Guide
— La IA
— The Hydra of Machine Learning: Understanding Multi-headed Attention
— Interpreting Loan Predictions with TrustyAI: Part 1
— BakaLLM, part 7: XL struggles are done, for now
— The Complete Guide to Time Series Models
— How to Land a Job as an AI Engineer 🤖
— How to train an Iris dataset classifier with Tinygrad
— Take your career to the next level: GitHub Universe create your own agenda
Посмотреть:
🌐 How to Get Ahead of 99% of Data Scientists (Tips from Tyler Richards) (⏱ 53:20)
🌐 Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet (⏱ 20:29)
🌐 Django настройка админки (⏱ 06:55)
🌐 Задача на палиндром строки на C++ (⏱ 00:59)
🌐 Django расширяем функционал! (⏱ 07:03)
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
🌐 NVIDIA’s New AI: 20% Faster Game Graphics! (⏱ 04:58)
🌐 DALL-E 3 Is Now Free For Everyone! (⏱ 05:10)
Хорошего дня!
📱 Промпт-инжиниринг: как использовать LLM для создания приложений
Общие уроки
Промпт-инжиниринг — это в такой же степени экспериментирование, как и проектирование. Существует бесконечное количество способов написать промпт, начиная от формулировки конкретного вопроса и заканчивая введением информационного материала и уточнением контекста. Это может показаться невероятным, но я обнаружил, что проще всего начать с элементарного и довериться интуиции, а затем проверять гипотезы.
В компьютерном зрении каждый набор данных отличается своей схемой, типами меток и названием классов.
Хотя VoxelGPT предназначен для обработки любого набора данных путем компьютерного зрения, мы для начала взяли один датасет — MS COCO.
Сохранение всех дополнительных степеней свободы позволило в первую очередь закрепить способность LLM писать синтаксически корректные запросы.
Найдя решение, гарантирующее успех в ограниченном контексте, переходим к его обобщению и развитию.
Какую модель (модели) использовать?
Одной из самых важных характеристик больших языковых моделей считается их относительная взаимозаменяемость. Теоретически вы должны быть готовы заменить одну LLM на другую без существенных структурно-функциональных изменений.
Хотя это верно, что заменить LLM обычно так же просто, как изменить порядок API-вызовов, на практике возникают трудности.
▪️Некоторые модели обладают гораздо меньшей длиной контекста, чем другие. Переход на модель с меньшим контекстом может потребовать серьезного рефакторинга.
▪️Открытый исходный код — это здорово, но LLM с открытым исходным кодом (пока) не так производительны, как GPT-модели. Кроме того, при развертывании приложения с LLM с открытым исходным кодом нужно убедиться, что контейнер, в котором работает модель, имеет достаточно памяти и хранилища. Это может оказаться более хлопотным (и более дорогим), чем использование конечных API-точек.
▪️Переход с GPT-4 на GPT-3.5, осуществленный для снижения стоимости использования модели, может шокировать падением производительности. Для выполнения сложных задач с генерацией кода и получения выводов больше подойдет GPT-4.
Где использовать LLM?
Читать
@bigdatai
Ошибки не страшны: траблшутинг переноса данных
Желание каждого, кто занимается инжинирингом данных — выявлять и решать проблемы в поставке данных как можно скорее. Как различать сигналы и превентивно действовать, вы узнаете на вебинаре 26 октября.
Вместе с экспертом Yandex Cloud на примере сервиса Data Transfer разберём:
🛠 типичные проблемы с поставкой данных в работающем трансфере;
🛠 сигналы от сервиса: предупреждения, аномалии на графиках, ошибки в логах.
После вебинара вы сможете:
✅ оценивать статус поставки;
✅ читать графики и находить аномалии;
✅ проводить диагностику трансферов;
✅ устранять типичные проблемы самостоятельно.
Участие бесплатное, нужно только ➡️ зарегистрироваться.
"Реклама. ООО "Яндекс.Облако" ИНН 7704458262"
🛠 Объяснение ключевых терминов в области данных
@bigdatai
🔥 ArXiv ChatGuru: Exploring Conversational Scientific Literature 📖
Используйте ArXiv ChatGuru для общения с авторами научных работ. Это приложение использует LangChain, OpenAI, Streamlit и Redis
для объяснения статей.
ИИ простыми словами объяснит трудные научные концепции. Вам лишь необходимо указать название интересующей статьи и количество исследований, и искусственный интеллект сможет самостоятельно найти нужную информацию на ArXiv и предоставить вам краткое и понятное изложение. В случае, если что-то останется непонятным, вы также имеете возможность задать уточняющий вопрос чат-боту.$ git clone https://github.com/RedisVentures/ArxivChatGuru.git && cd ArxivChatGuru
▪ Github
@bigdatai