17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
⬆️ Удобная шпаргалка по самым популярным облачным сервисам (выпуск 2023 года)
https://nodownload.org/image/ib/bTSIyMYgcz
@bigdatai
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Разметка данных: неочевидные затраты на голосовые технологии
— Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц
— Наиболее часто используемые команды Linux
— 79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
— Бесплатные сертификационные курсы для специалистов по данным
— RFM-сегментация в оптимизации CRM-стратегий
— MDM и CDP: различия систем. Как сделать выбор
— Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
— Как мы наводим порядок с данными в столичном транспортном институте
— Survey: Retrieving Supporting Evidence for Generative Question Answering
— Introduction to NannyML: Model Evaluation without labels
— Revolutionizing Data Integration: The Role of AI and ML
— How to Use Pandas for Data Analysis
— Open Source Advent
— Bulk Text Analytics with Azure AI Language
— Top 10 Benefits of Artificial Intelligence (AI)
— Deciphering the EU's AI Act - A Technical Perspective
— Harness the power of multiple LLMs 🤝
— Google Gemini and Face Recognition
Посмотреть:
🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)
Хорошего дня!
@bigdatai
Время больших данных! Приглашаем на курс «Data-инженер»
Бизнес любит ясность. Ясность есть там, где аналитики выстраивают рабочие гипотезы. Аналитики предлагают новые решения с опорой на собранные данные.
А данные собирает Data-инженер!
Приглашаем специалистов смежных направлений: аналитиков данных, администраторов БД, разработчиков на Python.
💪Это не про «войти в IT»: вы можете убедиться в вашем уровне знаний и пройти входной тест на сайте Слёрм.
На курсе вы:
🌀 Прокачаетесь в Python, будете использовать библиотеки для работы с данными;
🤔 Научитесь применять на практике базу PostgreSQL;
🫖 Освоите инструменты Data-инженера: Hadoop, Spark, ClickHouse и другие.
2 поток стартует 15 января. Подробная программа и кнопка записи уже ждет вас на сайте.
P.S. Курс можно оплатить в рассрочку. Или попросить работодателя купить вам место на потоке!👍
Реклама. ООО «Слёрм» г. Лиски, ОГРН 1193668020545 Erid: 2VtzquiU96K
Специалисты по Data Science работают везде, где нужно обрабатывать и хранить данные. Они решают самые разные задачи: от планирования маршрутов в логистике до прогнозирования спроса на наличные в банкомате.
Плюсы профессии «Специалист по Data Science»:
— вы сможете работать почти в любой отрасли, от промышленности и до коммерции;
— решения специалистов по DS напрямую влияют на планирование и деятельность компаний;
— никакой рутины — чем сильнее и опытнее специалист, тем сложнее и интереснее его задачи;
— высокая заработная плата: младшие специалисты получают в среднем 60 000 рублей, специалисты с опытом — 120 000 рублей, а старшие специалисты — от 210 000 рублей.
За 8 месяцев обучения в Практикуме вы освоите востребованную профессию, а дальше — начнёте работать, улучшать навыки и расти в зарплате. Начните курс бесплатно и большими данными двигайтесь в сферу IT.
→ Начать курс бесплатно
🤔Какую роль играют технологии машинного обучения в backend разработке?
21 декабря в 19.00 приглашаем на открытый урок “Внедрение алгоритмов машинного обучения в бэкенд-проекты на Kotlin”.
Вебинар проведут: Сергей Окатов, к. ф.-м. н., БФТ ЦР и Александр Брут-Бруляко, DS инженер в СБЕР.
📌На занятии:
- дадим краткий обзор состояния рынка ML-технологий;
- продемонстрируем процесс обучения ML-модели под наши задачи;
- обсудим какие есть способы интеграции моделей в бэкенд-проект, а также преимущества и недостатки каждого из подходов;
- выполним запуск предобученной ML-модели на Kotlin.
👉Регистрация для участия https://otus.pw/hFUN/?erid=LjN8KZcis
Урок пройдет в рамках курса «Kotlin Backend Developer. Professional». Обновленная программа обучения позволит прикоснуться к большому числу инструментов разработки современных, гибких, высокопроизводительных серверных приложений на языке Kotlin. При поступлении в группу возможна рассрочка платежа.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Оффер за выходной в Big Data.МегаФон для Data-специалистов!
Зарплата от 250 до 450 тысяч рублей в зависимости от грейда, уютный офис или полная удаленка на территории РФ, а также ДМС со стоматологией и страховкой. На этом бонусы не заканчиваются: оплата связи, компенсация фитнеса, обучение за счет компании и многое другое.
Вам предстоит работать с масштабными проектами:
— разрабатывать аналитические сервисы на базе AI;
— анализировать бизнес-процессы и внедрять языковые модели для облегчения рутины в LLM;
— тестировать продуктовые и ML-гипотезы.
Мегафон — оператор №1 по покрытию сети и скорости мобильного интернета. Оставляйте заявку и меняйте рынок телекома: https://u.to/gMEtIA
🔥 Простая и эффективная генерация текста с помощью pytorch-native трансформера на python <1000 LOC.
https://github.com/pytorch-labs/gpt-fast #deeplearning #machinelearning #ml #ai #neuralnetworks #datascience #pytorch
@bigdatai
Первый очный ИТ-митап Сбера в Калининграде!
Приглашаем разработчиков и Data people, чтобы поговорить про новейшие разработки банка в области больших языковых моделей и обсудить, зачем нужен GigaChat.
Когда: 16 декабря, 11:00 – 17:00
Где: г. Калининград, ул. Гюго 1, отель Holiday Inn, зал ГОФМАН
Спикеры и темы:
1. Сысоев Дмитрий — исполнительный директор по исследованию данных — вместе с вами решит NLP-задачку и покажет, кто справится лучше: вы или GigaChat.
2. Ефремов Владислав — Development Team Lead — расскажет о платформе аналитики коммуникаций банка с клиентами Voice360 и покажет кейсы применения GigaChat для аналитики коммуникаций.
3. Марченков Антон — исполнительный директор по исследованию данных в Департаменте данных и рекомендательных систем Сбера — поделится тем, как Сбер использует современные генеративные модели и как это помогает соответствовать ожиданиям рынка.
4. Резвых Алексей — Team Lead Data Scientist — и Кулин Никита — Data Scientist —применят большие языковые модели для автоматического извлечения знаний из диалогов.
5. Дмитрий Бугайченко — управляющий директор в Департаменте данных и рекомендательных систем Сбера — расскажет о том, как искусственный интеллект работает на службе компаний-партнёров Сбера.
Помимо новых знаний, вас ждут One Day Solo Hackathon и много призов. Скорее регистрируйтесь по ссылке
💥 Архив из 32 датасетов, которые вы можете использовать для практики и совершенствования своих навыков исследователя данных
https://datasciencedojo.com/blog/datasets-data-science-skills
@bigdatai
🔥 Practical_RL
В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.
https://github.com/yandexdataschool/Practical_RL
@bigdatai
💥 Оcновные функции Pandas!
#pandas #datascience
@bigdatai
🧩 Визуизация работы сессии, файлов cookie, JWT, токенов, SSO и OAuth 2.0 на одной диаграмме
Когда вы входите на веб-сайт, возникает необходимость управления вашей учетной записью. Вот как работают разные решения:
▪ Токен — Ваша учетная запись закодирована в токене, отправленном в браузер. Браузер отправляет этот токен при будущих запросах аутентификации. Хранилище сеансов сервера не требуется. Но токены нуждаются в шифровании/дешифровании.
▪ Сессия — Сервер сохраняет вашу учетную запись и передает браузеру файл cookie с идентификатором сеанса. Это позволяет серверу отслеживать состояние входа в систему. Но файлы cookie не работают на разных устройствах.
▪ JWT — Веб-токены JSON стандартизируют токены идентификации, используя цифровые подписи для обеспечения проверки подлинности. Подпись содержится в токене, поэтому сеанс сервера не требуется.
▪ SSO — Система единого входа использует центральную службу аутентификации. Это позволяет одному логину работать на нескольких сайтах.
▪ OAuth2 — Разрешает ограниченный доступ к вашим данным на одном сайте другому сайту без разглашения паролей.
▪ QR-код — Набирающий популярность метод аутентификации. Кодирует случайный токен в QR-код для входа в систему с мобильного устройства. Сканирование кода позволяет войти в систему без ввода пароля.
@bigdatai
⭐️ 10 способов повысить эффективность RAG-системы
LLM — удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation — генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.
Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.
Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.
В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG — пожалуй, единственный наиболее эффективный способ применения LLM.
В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.
Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.
⚡️Читать дальше
@bigdatai
Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.
🗓 29 ноября в 18:00
В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.
✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.
✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой.
Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.
➡️ Регистрация по ссылке.
Реклама. ПАО СБЕРБАНК. ИНН 7707083893.
Каждый аналитик данных когда-то не имел опыта и почти каждый испытывал трудности при поиске первой работы
Если сейчас вам не хватает реального опыта, приходите на бесплатный вебинар от karpovꓸcourses «Как получить реальный опыт в анализе данных за шесть недель?»
На вебинары вы:
- поймете, что хотят от джунов-аналитиков
- узнаете о новых способах получить опыт, если без него найти работу не получается
Также выпускники курса Симулятор аналитика поделятся своими историями поиска работы аналитиком, что поможет вам заранее учесть все возможные трудности и справиться с этой задачей быстрее.
Вебинар проведет Анатолий Карпов — тот самый автор курсов на степике, которые обучили статистике более 200 тыс. человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses.
Ждём вас 28 ноября в 19:00!
Регистрируйтесь, чтобы попасть на вебинар
Учёным и преподавателям в области Machine Learning вручили премию Yandex ML Prize
Это пятая премия Яндекса, направленная на развитие области машинного обучения. В этом году лауреатами стали 11 исследователей, среди их научных работ — разработка новых алгоритмов для решения задачи Шрёдингера, генеративные модели для компьютерного зрения и синтеза речи и решение проблемы архитектуры глубоких нейронных сетей. Исследования лауреатов расширяют возможности для прикладного применения ML-технологий.
🤗 Diffusers benchmarks - очень простой способ отслеживать производительность самых популярных и важных пайплайнов.
https://huggingface.co/datasets/diffusers/benchmarks
@bigdatai
📚 The Breaking Into Data Handbook
В этом репозитории вы найдете ценные ресурсы, которые помогут вам начать работу в области
Аналитика данных, наука о данных, инженерия данных, машинное обучение и компьютерные науки.
https://github.com/meri-nova/breaking-into-data-handbook
@bigdatai
⚡️ Production Machine Learning
Этот репозиторий содержит список замечательных библиотек с открытым исходным кодом, которые помогут вам развертывать, отслеживать, версионировать, масштабировать и защищать производственное машинное обучение.
🔗 https://github.com/EthicalML/awesome-production-machine-learning
@bigdatai
Что такое MLX?
MLX - это фреймворк, выпущенный компанией Apple для эффективного обучения и вывода ML-моделей. MLX имеет Python API, который очень похож на NumPy.pip install mlx - это все, что вам нужно! ✨
Фреймворк нем поддерживает Mixtral MoE, Llama, Whisper, Stable Diffusion и многое другое!
В видео запускаем его локально на M2 MBP Pro (24 ГБ).
Краткое руководство:
1. Создайте виртуальную средуpython -m venv mlx_experiments
2. активируйте виртуальную средуsource mlx_experiments/bin/activate
3. клонируйте репозиторий mlx-examples
git clone https://github.com/ml-explore/mlx-examples/
4. установите все requirementspip install -r mlx-examples/whisper/requirements.txt
5. Используйте whisper в бэкенде mlx ✨import whisperКод: Github
whisper.transcribe(<file_name>, model="large-v2")
@bigdatai
⚡️ Курсы бесплатно:
Excel: https://excel-practice-online.com
SQL: http://sqlbolt.com
Tableau: http://tableau.com/learn/starter-kits
Power BI: https://powerbi.microsoft.com/en-us/learning/
Python: https://freecodecamp.org/news/learn-data-analysis-with-python-course/
AI и ML: https://freecodecamp.org/news/machine-learning-with-python-and-scikit-learn/
@bigdatai
🔥 Алгоритмы и структуры данных
1. Введение
2. Временная сложность и Анализ алгоритмов
3. Массивы
4. Базовые алгоритмы сортировки
5. Эффективные алгоритмы сортировки # Рекурсия
6. Списки
7. Стек
8. Очереди
9. Линейный поиск и Бинарный поиск
10. Символьный таблицы / Словари
#video #algorithm
https://www.youtube.com/watch?v=jlheNrmPIQQ&list=PLBheEHDcG7-n6VhwSPZI64LwFmriuEvvR
@bigdatai
🔥 LLM могут почти идеально восстанавливать предложения
-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей
arxiv.org/abs/2311.18805
Как стать аналитиком данных в Авито? Как вырасти с нуля до senior?
Чтобы ответить на эти вопросы школа karpovꓸcourses и Авито, компания с одними из самых высоких требований к сотрудникам на рынке, проведут бесплатный вебинар.
На вебинаре вы узнаете:
— Как устроена команда аналитики в Авито и какие задачи она решает
— Какие навыки необходимы потенциальному кандидату
— Какие этапы предстоит пройти при трудоустройстве в компанию
А еще вы построите собственный карьерный трек и составите пошаговый план, чтобы получить работу в крупной IT-компании.
Вебинар будет полезен как тем, кто только начинает свой путь в аналитике, так и опытным специалистам, которые хотят покорять новые вершины.
🕖Встречаемся уже 6 декабря в 19:00
Регистрируйтесь, чтобы попасть на вебинар
Новый Florence 2 от Microsoft имеет большое значение для компьютерного зрения.
Это слияние текста и зрения.
С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.
Самое приятное, что для всего этого используется только одна основа.
▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K
https://arxiv.org/abs/2311.06242
@bigdatai
Приглашаем на главное BI-событие декабря — Yandex DataLens Festival!
В этом году будет ещё интереснее! Вас ждут 2 недели полезного контента от экспертов:
⭐️ Yandex Cloud. Как построить аналитику в облаке
⭐️ MAXIMUM Education. Как переезд с Power BI расширил число пользователей аналитики
⭐️ Ренессанс Страхование. Как построить систему знаний и обучения BI
⭐️ CARCADE. Как организовать работу 1000 пользователей BI в финсекторе
⭐️ YCLIENTS. Как анализировать работу команды разработки
⭐️ Reveal the Data aka Роман Бунин. Сколько живёт дашборд и как увеличить время его жизни
Помимо этого, ведущие разработчики DataLens и YTsaurus поделятся рецептами, как готовить опенсорс, а именно:
🛠 как развернуть у себя
🛠 как кастомизировать UI
🛠 как настроить базовую аутентификацию
🛠 как интегрировать с YTsaurus
Будет много нетворкинга — разберём вопросы на Q&A-сессии и пообщаемся вживую на афтерпати. Ну и какой фестиваль без конкурсов и сюрпризов 🎁
Участие бесплатное, нужно только ➡️ зарегистрироваться
Хотите начать увлекательный путь в мир машинного обучения и искусственного интеллекта?
Газпромбанк.Тех совместно с Финтех Хабом Банка России запускает прием заявок на программу «Машинное обучение LITE: базовый уровень» — для тех, кто только начинает осваивать машинное обучение.
Что предстоит изучать?
Основы и методы ML, математику, Python и нейронные сети.
Программа состоит из двух модулей:
- Теоретический модуль пройдет с 21 января по 16 февраля 2024 года
- Практический модуль пройдет с 26 февраля по 10 марта 2024 года для тех, кто показал высокие результаты по итогу первого модуля
Чтобы стать участником, подайте заявку на сайте программы до 17 января 2024 года — https://vk.cc/csyX2e
Реклама Банк ГПБ (АО), ИНН: 7744001497
Новая библиотека с открытым исходным кодом для всех, кто работает с данными.
Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:
- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение
Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.
Этот инструмент - волшебство.
🐱 GitHub
👉 Обзоры по ML
Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.
🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост
@bigdatai
Awesome-LLM4AD
Список интересных ресурсов, посвященных LLM для автономного вождения (постоянно обновляется).
🐱 GitHub
@bigdatai