17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
Возможно, Microsoft только что раскрыла "секретное" количество параметров GPT 3.5 в своем документе CodeFusion.
Достижение такого качества чата с параметром 20B очень впечатляет.
https://arxiv.org/abs/2310.17680
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных
— Рынок данных в даркнете: как купить чужие данные и не потерять свои
— 12 лучших инструментов аннотирования изображений на 2023 год
— Без работы не останемся: к 2030 году ИИ добавит семь новых профессий
— Почему важна разметка данных: в основе ChatGPT лежит труд людей
— «Большие вызовы» в «Сириусе», или как мы обычно проводим лето
— why learn web (javascript) ML(machine learning) 2024
— Getting Started with Machine Learning: A Beginner's Guide
— La IA
— The Hydra of Machine Learning: Understanding Multi-headed Attention
— Interpreting Loan Predictions with TrustyAI: Part 1
— BakaLLM, part 7: XL struggles are done, for now
— The Complete Guide to Time Series Models
— How to Land a Job as an AI Engineer 🤖
— How to train an Iris dataset classifier with Tinygrad
— Take your career to the next level: GitHub Universe create your own agenda
Посмотреть:
🌐 How to Get Ahead of 99% of Data Scientists (Tips from Tyler Richards) (⏱ 53:20)
🌐 Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet (⏱ 20:29)
🌐 Django настройка админки (⏱ 06:55)
🌐 Задача на палиндром строки на C++ (⏱ 00:59)
🌐 Django расширяем функционал! (⏱ 07:03)
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
🌐 NVIDIA’s New AI: 20% Faster Game Graphics! (⏱ 04:58)
🌐 DALL-E 3 Is Now Free For Everyone! (⏱ 05:10)
Хорошего дня!
📱 Промпт-инжиниринг: как использовать LLM для создания приложений
Общие уроки
Промпт-инжиниринг — это в такой же степени экспериментирование, как и проектирование. Существует бесконечное количество способов написать промпт, начиная от формулировки конкретного вопроса и заканчивая введением информационного материала и уточнением контекста. Это может показаться невероятным, но я обнаружил, что проще всего начать с элементарного и довериться интуиции, а затем проверять гипотезы.
В компьютерном зрении каждый набор данных отличается своей схемой, типами меток и названием классов.
Хотя VoxelGPT предназначен для обработки любого набора данных путем компьютерного зрения, мы для начала взяли один датасет — MS COCO.
Сохранение всех дополнительных степеней свободы позволило в первую очередь закрепить способность LLM писать синтаксически корректные запросы.
Найдя решение, гарантирующее успех в ограниченном контексте, переходим к его обобщению и развитию.
Какую модель (модели) использовать?
Одной из самых важных характеристик больших языковых моделей считается их относительная взаимозаменяемость. Теоретически вы должны быть готовы заменить одну LLM на другую без существенных структурно-функциональных изменений.
Хотя это верно, что заменить LLM обычно так же просто, как изменить порядок API-вызовов, на практике возникают трудности.
▪️Некоторые модели обладают гораздо меньшей длиной контекста, чем другие. Переход на модель с меньшим контекстом может потребовать серьезного рефакторинга.
▪️Открытый исходный код — это здорово, но LLM с открытым исходным кодом (пока) не так производительны, как GPT-модели. Кроме того, при развертывании приложения с LLM с открытым исходным кодом нужно убедиться, что контейнер, в котором работает модель, имеет достаточно памяти и хранилища. Это может оказаться более хлопотным (и более дорогим), чем использование конечных API-точек.
▪️Переход с GPT-4 на GPT-3.5, осуществленный для снижения стоимости использования модели, может шокировать падением производительности. Для выполнения сложных задач с генерацией кода и получения выводов больше подойдет GPT-4.
Где использовать LLM?
Читать
@bigdatai
Ошибки не страшны: траблшутинг переноса данных
Желание каждого, кто занимается инжинирингом данных — выявлять и решать проблемы в поставке данных как можно скорее. Как различать сигналы и превентивно действовать, вы узнаете на вебинаре 26 октября.
Вместе с экспертом Yandex Cloud на примере сервиса Data Transfer разберём:
🛠 типичные проблемы с поставкой данных в работающем трансфере;
🛠 сигналы от сервиса: предупреждения, аномалии на графиках, ошибки в логах.
После вебинара вы сможете:
✅ оценивать статус поставки;
✅ читать графики и находить аномалии;
✅ проводить диагностику трансферов;
✅ устранять типичные проблемы самостоятельно.
Участие бесплатное, нужно только ➡️ зарегистрироваться.
"Реклама. ООО "Яндекс.Облако" ИНН 7704458262"
🛠 Объяснение ключевых терминов в области данных
@bigdatai
🔥 ArXiv ChatGuru: Exploring Conversational Scientific Literature 📖
Используйте ArXiv ChatGuru для общения с авторами научных работ. Это приложение использует LangChain, OpenAI, Streamlit и Redis для объяснения статей.
ИИ простыми словами объяснит трудные научные концепции. Вам лишь необходимо указать название интересующей статьи и количество исследований, и искусственный интеллект сможет самостоятельно найти нужную информацию на ArXiv и предоставить вам краткое и понятное изложение. В случае, если что-то останется непонятным, вы также имеете возможность задать уточняющий вопрос чат-боту.$ git clone https://github.com/RedisVentures/ArxivChatGuru.git && cd ArxivChatGuru
▪ Github
@bigdatai
👨🎓 Stanford XCS224U: Понимание естественного языка, 2023 г.
Отличные лекции по пониманию естественного языка. Курс охватывает широкий спектр тем, включая адаптацию домена для контролируемого понимания, поиск с дополненным контекстным обучением, техники/методы NLP и т.д...
Видеозаписи лекций: https://youtube.com/playlist?list=PLoROMvodv4rOwvldxftJTmoR3kRcWkJBp
GitHub: https://github.com/cgpotts/cs224u/
Сайт: http://web.stanford.edu/class/cs224u/index.html
@bigdatai
👀 12 лучших репозиториев GitHub по компьютерному зрению
Список из наиболее важных Awesome репозиториев GitHub, посвященных компьютерному зрению, которые охватывают широкий спектр исследовательских и образовательных тем. Огромный кладезь знаний из области CV.
1. Awesome Computer Vision
2. Computer Vision Tutorials by Roboflow
3. Transformer in Vision
4. Awesome Referring Image Segmentation
5. Awesome Vision Language Pretraining Papers
6. Awesome Vision and Language
7. Awesome Temporal Action Detection
8. Awesome Masked Autoencoders
9. Awesome Visual Transformer
10. Transformer-Based Visual Segmentation
11. CVPR 2023 Paper with Code
12. Awesome Deepfakes Detection
👍Лайк , если полезно
@bigdatai
🤖 aicollective.tools
aicollective.tools - это новый интересный проект с открытым исходным кодом, цель которого - собрать всеобъемлющую коллекцию инструментов искусственного интеллекта.
Github
@bigdatai
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Рынок BI (business intelligence) в России
— Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
— Аналог Tableau LOD в FineBI: 15 типичных кейсов
— Feature engineering и кластерный анализ клиентов на PySpark
— Trabaje con sus datos en tiempo real usando Langchain
— BakaLLM, part 3: it's testing time, it's testing time
— Enabling Language Models to Implicitly Learn Self-Improvement
— Introdução ao Aprendizado de Máquina Online
— Why Python is a first choice for Data scientist
— Mastering Machine Learning: Your Path to Excellence with UpSkill Certifications
— Data Science for Beginners: 2023-2024 Edition
— Data Science for beginners, complete roadmap.
— Data Science Beginner's guide.
— The Ultimate Guide to Getting a Data Scientist Job in 2023 (Even If You're a Beginner)
Посмотреть:
🌐 Разбор задачи с собеседования Data Science. Подготовка на практике (⏱ 26:12)
🌐 Cобеседование #Python топовый банк Goldman Sachs Associate на 12000 $ #задача #программирование (⏱ 01:00)
🌐 Решаем задачу с leetcode на #Golang (⏱ 00:37)
🌐 Facebook задача с собеседования на #Python на 120000 рублей #программирование #задача #код (⏱ 00:59)
🌐 Разбора задачи с собеседования #Golang (⏱ 00:22)
🌐 Django создание модели. Вывод даных на страницу (⏱ 13:01)
🌐 Interview: "Large Language Model Operations: The Next Frontier in MLOps" (⏱ 59:18)
🌐 Exploring the Generative AI Landscape: From Basics to Hands-on Applications - Raghav Bali (⏱ 32:54)
🌐 NVIDIA’s Neuralangelo AI: Gaming Anywhere on Earth! (⏱ 05:08)
🌐 OpenAI’s ChatGPT Makes A Game For $1! (⏱ 06:56)
Хорошего дня!
@bigdatai
Нейросети обсуждают повсюду, но в МегаФоне решили пойти дальше и провести Data Science-Митап для специалистов в области Big Data!
На митапе вас ждут:
— Доклады от специалистов по Data Science о работе с LLM;
— Реальные кейсы по применению ИИ в МегаФоне и других компаниях;
— Нетворкинг и интерактивы с призами от компании.
Когда? 19 октября в 17:00
Где?
💡Офлайн: в главном офисе компании МегаФон г. Москва
💻Онлайн
Регистрируйтесь на митап, чтобы перенять опыт экспертов крупных компаний: https://u.to/D8b-Hw
Реклама, ПАО "МегаФон", ИНН 7812014560, erid 2VtzqvB3C9h
Сбер расширяет географию своих ивентов: 6 октября в Тбилиси состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨💻
На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:
✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.
✔️ Устройстве современных стримингов компаний-партнёров Сбера.
Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 6 октября в 18:30 по адресу: Тбилиси, Ресторан на 6 этаже отеля «Golden Palace», переулок Агмашенебели 62 💚
Появились записи докладов с Practical ML Conf от Яндекса. Посмотрите, если пропустили живые выступления. Вот некоторые из них:
— Алексей Морозов из Яндекса рассказал про подходы, используемые в распределенном DL, чтобы обеспечить надежность системы без дополнительных затрат.
— Евгений Сидоров из Third Opinion поделился инсайтами об анализе медицинских снимков на основе множественных проекций.
— Юлий Шамаев из ВТБ рассказал про то как его команда использует геоэмбеддинги для определения оптимального расположения банкоматов и банковских отделений.
@bigdatai
Дайджест главных инноваций, которые были презентованы на конференции SmartDev 2023 💚
👉GigaChat API — решение, которое позволяет бизнесу разрабатывать собственные продукты на основе ИИ и легко создавать продвинутые ИИ-приложения.
👉Нейросетевая платформа GigaCode — способна генерировать продолжение кода по фрагменту, искать по коду и находить уязвимости. Эта инновация поможет разработчикам избавиться от рутинных операций и повысить производительность.
👉Сервис для работы над проектами с открытым и закрытым кодом GitVerse — является аналогом зарубежных Git-репозиториев для open-source-сообщества, на тестирование которого уже можно записаться.
👉SaluteBot + GigaChat — такое комбо перевело разработку чат-ботов на новый уровень: теперь за нестандартное общение с пользователем отвечает нейросеть, а не оператор.
Полная программа и спикеры — на сайте конференции!
⚡ ElectricSQL
Сегодня вышла новая версию ElectricSQL.
ElectricSQL - это опенсорс платформа для локальной разработки, позволяющая легко создавать высококачественные современные приложения с мгновенной реактивностью, многопользовательской совместной работой в реальном времени и бесконфликтной поддержкой автономной работы.
Local-first - это новая парадигма разработки, при которой код приложения напрямую обращается к встроенной локальной базе данных, а данные синхронизируются в фоновом режиме посредством активной репликации базы данных. Поскольку код приложения обращается непосредственно к локальной базе данных, приложения работают мгновенно. Данные синхронизируются в фоновом режиме с помощью активной репликации.
• Github
• Документация
@bigdatai
🚀 TF Quant Finance: TensorFlow based Quant Finance Library
Библиотека TensorFlow Quant Finance от Google.
Функциональные возможности включают:
- Блэка-Шоулза: Цена и предполагаемый объем
- Монте-Карло по схеме Эйлера
- Подгонка своп-кривойgit clone https://github.com/google/tf-quant-finance.git
▪Github
@bigdatai
Как использовать машинное обучение для оптимизации производства?
Узнайте на примере реальных кейсов на бесплатном онлайн-митапе «Лучше практики MLOps в бизнесе. Опыт FinTech и Security индустрий» от OTUS.
После эфира вы сможете:
🔹 Найти и выстроить процессы, связанные с машинным обучением
🔹 Понять, как работать с эффективностью данных проектов
🔹 Избежать основных ошибок руководителя
🔹 Получить ответы на свои вопросы от опытного эксперта
Встречаемся в следующий вторник, 31 октября в 19:00 мск.
💻Эфир будет в формате конференции и после каждого блока вы сможете задать любые вопросы спикеру Павлу Филонову – ex-Kaspersky, ex-Positive technologies Data Science Manager с опытом в IT 15 лет.
👉Регистрируйтесь бесплатно прямо сейчас и забирайте чек-лист «Список технологий, нужный для MLOps» в подарок: https://otus.pw/YDvc/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KXuV8
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
— Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
— Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
— Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
— Введение в библиотеку Diffusers и диффузионные модели
— Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
— Применение нейросетевых подходов для формирования признаков в моделях
— О точности вычислений: как не потерять данные в цифровом шуме
— Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
— Milvus Adventures | October 13, 2023
— Exploratory Data Analysis with Data Visualization Techniques
— BakaLLM, p5: one stomp forward
— 👋 Devlog 12.10.23
— Machine learning use cases: making the world a better place 🦾
— Why kNN doesn't scale...
— AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
— 🎉 My daily Devlog
— What Technologies are used to Build an AI Image generator? What is GAN Architecture?
— Benefits and Challenges of AIoT
Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. (⏱ 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL (⏱ 19:37)
🌐 Django шаблонизация и маршрутизация (⏱ 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python (⏱ 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial (⏱ 00:59)
🌐 Хитрая задача с собеседования #Python (⏱ 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" (⏱ 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly (⏱ 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! (⏱ 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? (⏱ 05:52)
Хорошего дня!
@bigdatai
📒 GigaChat нового поколения.
Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.
Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).
Число уникальных пользователей GigaChat достигло 1 млн.
• Попробовать
@data_analysis_ml
✅️ Инструменты для создания 3D.
Генерация из одного текстового промпта до красивой 3D-модели.
https://huggingface.co/collections/victor/3d-creation-workflow-652bb09c1198736f310f457a
@bigdatai
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
— Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
— Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
— Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
— Введение в библиотеку Diffusers и диффузионные модели
— Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
— Применение нейросетевых подходов для формирования признаков в моделях
— О точности вычислений: как не потерять данные в цифровом шуме
— Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
— Milvus Adventures | October 13, 2023
— Exploratory Data Analysis with Data Visualization Techniques
— BakaLLM, p5: one stomp forward
— 👋 Devlog 12.10.23
— Machine learning use cases: making the world a better place 🦾
— Why kNN doesn't scale...
— AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
— 🎉 My daily Devlog
— What Technologies are used to Build an AI Image generator? What is GAN Architecture?
— Benefits and Challenges of AIoT
Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. (⏱ 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL (⏱ 19:37)
🌐 Django шаблонизация и маршрутизация (⏱ 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python (⏱ 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial (⏱ 00:59)
🌐 Хитрая задача с собеседования #Python (⏱ 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" (⏱ 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly (⏱ 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! (⏱ 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? (⏱ 05:52)
Хорошего дня!
@bigdatai
Вышел seaborn v.13.0
Обновления:
— теперь все функции принимают log_scale (логарифмическая шкала для графиков, где значения по оси y в разы больше значений по x);
— для категориальных графиков теперь по умолчанию назначается один основной цвет, пока разработчик не попросит иное;
— функции графиков теперь принимают параметр, позволяющий подавить / развернуть легенду;
И другое
• Релиз
@bigdatai
Привет! Это команда МТС и мы запустили бесплатный курс для тех, кто хочет стать сильным ML-разработчиком
Что будет: 10 месяцев онлайн обучения от экспертов Big Data МТС с возможностью трудоустройства в компанию
Что в программе: Python, математика, основы машинного обучения, ML Ops, ML System design и все, что необходимо для работы в Data Science
Ждем на обучении тех, кто хочет развиваться и в анализе данных, и в ML, и в IT одновременно.
Оставляй заявку и решай вступительное испытание. Лучших пригласим к обучению
Подробности по ссылке, ждем тебя!
Реклама. ПАО "МТС". ИНН 7740000076. erid: LjN8KKpJP
🤖 Как изменился NLP Research после выхода GPT-4
И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей.
После докладов останутся на поболтать и познакомиться с участниками ближе!
📆 Tinkoff.AI NLP Monolog Meetup # пройдет 19 октября в БЦ «Водном». Не забудьте позвать с собой коллег!
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673 ERID 2VtzqufYZs9
🌠 Aplpy
Хотели ли вы когда-нибудь попробовать визуализцию астрономических данных? Вы можете сделать это и на #Python, используя пакет APLpy! 🐍🤯git clone git://github.com/aplpy/aplpy.git APLpy
• Github
@bigdatai
🧑🏫 9 лучших курсов и сертификаций по Spark.
Apache Spark — фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.
1. NoSQL, Big Data, and Spark Foundations Specialization
Время прохождения – 4 месяца (если тратить 3 часа в неделю)
Кому стоит записаться?
Для новичков.
2. Distributed Computing with Spark SQL
Время прохождения – 13 часов
Кто должен записаться на курс?
Тем, кто уже имеет представление о SQL.
3. Apache Spark (TM) SQL for Data Analysts
Время прохождения – 13 часов
Кому стоит записаться на курс?
Тем, кто уже знаком с SQL.
4.Meta Spark Creator AR Certification Prep Specialization
Время прохождения – 3 месяца
Кому стоит записаться?
Тем, кто является новичком.
5. Data Analysis Using Pyspark
Время выполнения – 1,5 часа
Кому стоит записаться на курс?
Тем, кто уже знает программирование на Python.
6. Scalable Machine Learning on Big Data using Apache Spark
Время прохождения – 6 часов
Кому стоит записаться?
Тем, кто уже владеет Python, машинным обучением и базовыми знаниями SQL.
7. Big Data Analysis with Scala and Spark
Время прохождения – 27 часов
Кому стоит записаться?
Тем, у кого есть предыдущие знания программирования на любом языке.
8. Data Engineering with MS Azure Synapse Apache Spark Pools
Время прохождения – 7 часов
Кому стоит записаться на курс?
Тем, кто уже знает Python или SQL.
9. Building Machine Learning Pipelines in PySpark MLlib
Время выполнения – 1,5 часа
Кому стоит записаться?
Тем, кто знает Python и основы машинного обучения.
@bigdatai
⭐️ Решаем реальные задачи с собеседования Data Science
https://www.youtube.com/watch?v=iLzA0H0Ao6o&t=28s
@bigdatai
🔥 Flameshow
Flameshow - это фреймворк для визуализации визуализации процессорного времени потраченного на функции. Они могут помочь вам определить, какие синхронные операции выполняются дольше всего.pip install flameshow
▪Github
@bigdatai
📊 Matplotlib (Python) Шпарглака по визуализации
@bigdatai
📊 Шпаргалка по Matplotlib для построении графиков на Python.
Шпаргалка поможет вам научиться использовать библиотеку и освежит знания по забытым функциям.
@bigdatai