bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

Как построить собственный эффективный ИТ-конвейер?

Крупные компании с 2018 года переходят на отечественное программное обеспечение. И если раньше это делали неохотно, потому что не было адекватной замены, то сегодня все иначе. Более того, сейчас реально выстроить сквозной процесс управления производством ПО на всех этапах жизненного цикла DevSecOps и импортозаместить продукты Atlassian, Microfocus, Microsoft Azure, JetBrains, Informatica.

Платформа Сфера — это более 40 различных инструментов для всех этапов жизненного цикла ПО. В Telegram-канале «Сфера IT» рассказывают об удобных инструментах для бизнеса, делятся новостями мира технологий и дают анонсы полезных вебинаров.

Подписывайтесь на «Сфера IT» !

Реклама. Информация о рекламодателе

Читать полностью…

Big Data AI

Учёным и преподавателям в области Machine Learning вручили премию Yandex ML Prize

Это пятая премия Яндекса, направленная на развитие области машинного обучения. В этом году лауреатами стали 11 исследователей, среди их научных работ — разработка новых алгоритмов для решения задачи Шрёдингера, генеративные модели для компьютерного зрения и синтеза речи и решение проблемы архитектуры глубоких нейронных сетей. Исследования лауреатов расширяют возможности для прикладного применения ML-технологий.

Читать полностью…

Big Data AI

🤗 Diffusers benchmarks - очень простой способ отслеживать производительность самых популярных и важных пайплайнов.

https://huggingface.co/datasets/diffusers/benchmarks

@bigdatai

Читать полностью…

Big Data AI

📚 The Breaking Into Data Handbook

В этом репозитории вы найдете ценные ресурсы, которые помогут вам начать работу в области
Аналитика данных, наука о данных, инженерия данных, машинное обучение и компьютерные науки.

https://github.com/meri-nova/breaking-into-data-handbook

@bigdatai

Читать полностью…

Big Data AI

⚡️ Production Machine Learning

Этот репозиторий содержит список замечательных библиотек с открытым исходным кодом, которые помогут вам развертывать, отслеживать, версионировать, масштабировать и защищать производственное машинное обучение.

🔗 https://github.com/EthicalML/awesome-production-machine-learning

@bigdatai

Читать полностью…

Big Data AI

Что такое MLX?

MLX - это фреймворк, выпущенный компанией Apple для эффективного обучения и вывода ML-моделей. MLX имеет Python API, который очень похож на NumPy.

pip install mlx - это все, что вам нужно! ✨

Фреймворк нем поддерживает Mixtral MoE, Llama, Whisper, Stable Diffusion и многое другое!

В видео запускаем его локально на M2 MBP Pro (24 ГБ).

Краткое руководство:
1. Создайте виртуальную среду

python -m venv mlx_experiments

2. активируйте виртуальную среду

source mlx_experiments/bin/activate

3. клонируйте репозиторий mlx-examples
git clone https://github.com/ml-explore/mlx-examples/

4. установите все requirements

pip install -r mlx-examples/whisper/requirements.txt

5. Используйте whisper в бэкенде mlx ✨

import whisper
whisper.transcribe(<file_name>, model="large-v2")

Код: Github

@bigdatai

Читать полностью…

Big Data AI

⚡️ Курсы бесплатно:

Excel: https://excel-practice-online.com

SQL: http://sqlbolt.com

Tableau: http://tableau.com/learn/starter-kits

Power BI: https://powerbi.microsoft.com/en-us/learning/

Python: https://freecodecamp.org/news/learn-data-analysis-with-python-course/

AI и ML: https://freecodecamp.org/news/machine-learning-with-python-and-scikit-learn/

@bigdatai

Читать полностью…

Big Data AI

🔥 Алгоритмы и структуры данных

1. Введение
2. Временная сложность и Анализ алгоритмов
3. Массивы
4. Базовые алгоритмы сортировки
5. Эффективные алгоритмы сортировки # Рекурсия
6. Списки
7. Стек
8. Очереди
9. Линейный поиск и Бинарный поиск
10. Символьный таблицы / Словари

#video #algorithm

https://www.youtube.com/watch?v=jlheNrmPIQQ&amp;list=PLBheEHDcG7-n6VhwSPZI64LwFmriuEvvR

@bigdatai

Читать полностью…

Big Data AI

🔥 LLM могут почти идеально восстанавливать предложения

-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей

arxiv.org/abs/2311.18805

Читать полностью…

Big Data AI

Как стать аналитиком данных в Авито? Как вырасти с нуля до senior?

Чтобы ответить на эти вопросы школа karpovꓸcourses и Авито, компания с одними из самых высоких требований к сотрудникам на рынке, проведут бесплатный вебинар.

На вебинаре вы узнаете:
— Как устроена команда аналитики в Авито и какие задачи она решает
— Какие навыки необходимы потенциальному кандидату
— Какие этапы предстоит пройти при трудоустройстве в компанию

А еще вы построите собственный карьерный трек и составите пошаговый план, чтобы получить работу в крупной IT-компании.

Вебинар будет полезен как тем, кто только начинает свой путь в аналитике, так и опытным специалистам, которые хотят покорять новые вершины.

🕖Встречаемся уже 6 декабря в 19:00

Регистрируйтесь, чтобы попасть на вебинар

Читать полностью…

Big Data AI

Новый Florence 2 от Microsoft имеет большое значение для компьютерного зрения.
Это слияние текста и зрения.


С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.

Самое приятное, что для всего этого используется только одна основа.

▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K

https://arxiv.org/abs/2311.06242

@bigdatai

Читать полностью…

Big Data AI

Приглашаем на главное BI-событие декабря — Yandex DataLens Festival!

В этом году будет ещё интереснее! Вас ждут 2 недели полезного контента от экспертов:

⭐️ Yandex Cloud. Как построить аналитику в облаке
⭐️ MAXIMUM Education. Как переезд с Power BI расширил число пользователей аналитики
⭐️ Ренессанс Страхование. Как построить систему знаний и обучения BI
⭐️ CARCADE. Как организовать работу 1000 пользователей BI в финсекторе
⭐️ YCLIENTS. Как анализировать работу команды разработки
⭐️ Reveal the Data aka Роман Бунин. Сколько живёт дашборд и как увеличить время его жизни

Помимо этого, ведущие разработчики DataLens и YTsaurus поделятся рецептами, как готовить опенсорс, а именно:
🛠 как развернуть у себя
🛠 как кастомизировать UI
🛠 как настроить базовую аутентификацию
🛠 как интегрировать с YTsaurus

Будет много нетворкинга — разберём вопросы на Q&A-сессии и пообщаемся вживую на афтерпати. Ну и какой фестиваль без конкурсов и сюрпризов 🎁

Участие бесплатное, нужно только ➡️ зарегистрироваться

Читать полностью…

Big Data AI

Хотите начать увлекательный путь в мир машинного обучения и искусственного интеллекта?

Газпромбанк.Тех совместно с Финтех Хабом Банка России запускает прием заявок на программу «Машинное обучение LITE: базовый уровень» — для тех, кто только начинает осваивать машинное обучение.

Что предстоит изучать?
Основы и методы ML, математику, Python и нейронные сети.

Программа состоит из двух модулей:
- Теоретический модуль пройдет с 21 января по 16 февраля 2024 года
- Практический модуль пройдет с 26 февраля по 10 марта 2024 года для тех, кто показал высокие результаты по итогу первого модуля

Чтобы стать участником, подайте заявку на сайте программы до 17 января 2024 года — https://vk.cc/csyX2e

Реклама Банк ГПБ (АО), ИНН: 7744001497

Читать полностью…

Big Data AI

Новая библиотека с открытым исходным кодом для всех, кто работает с данными.

Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:

- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение

Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.

Этот инструмент - волшебство.

🐱 GitHub

Читать полностью…

Big Data AI

👉 Обзоры по ML

Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.

🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост

@bigdatai

Читать полностью…

Big Data AI

⬆️ Удобная шпаргалка по самым популярным облачным сервисам (выпуск 2023 года)

https://nodownload.org/image/ib/bTSIyMYgcz

@bigdatai

Читать полностью…

Big Data AI

🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
Разметка данных: неочевидные затраты на голосовые технологии
Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц
Наиболее часто используемые команды Linux
79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
Бесплатные сертификационные курсы для специалистов по данным
RFM-сегментация в оптимизации CRM-стратегий
MDM и CDP: различия систем. Как сделать выбор
Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
Как мы наводим порядок с данными в столичном транспортном институте
Survey: Retrieving Supporting Evidence for Generative Question Answering
Introduction to NannyML: Model Evaluation without labels
Revolutionizing Data Integration: The Role of AI and ML
How to Use Pandas for Data Analysis
Open Source Advent
Bulk Text Analytics with Azure AI Language
Top 10 Benefits of Artificial Intelligence (AI)
Deciphering the EU's AI Act - A Technical Perspective
Harness the power of multiple LLMs 🤝
Google Gemini and Face Recognition

Посмотреть:

🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)

Хорошего дня!

@bigdatai

Читать полностью…

Big Data AI

Время больших данных! Приглашаем на курс «Data-инженер»

Бизнес любит ясность. Ясность есть там, где аналитики выстраивают рабочие гипотезы. Аналитики предлагают новые решения с опорой на собранные данные.

А данные собирает Data-инженер!

Приглашаем специалистов смежных направлений: аналитиков данных, администраторов БД, разработчиков на Python.
💪Это не про «войти в IT»: вы можете убедиться в вашем уровне знаний и пройти входной тест на сайте Слёрм.

На курсе вы:

🌀 Прокачаетесь в Python, будете использовать библиотеки для работы с данными;

🤔 Научитесь применять на практике базу PostgreSQL;

🫖 Освоите инструменты Data-инженера: Hadoop, Spark, ClickHouse и другие.

2 поток стартует 15 января. Подробная программа и кнопка записи уже ждет вас на сайте.

P.S. Курс можно оплатить в рассрочку. Или попросить работодателя купить вам место на потоке!👍

Реклама. ООО «Слёрм» г. Лиски, ОГРН 1193668020545 Erid: 2VtzquiU96K

Читать полностью…

Big Data AI

Специалисты по Data Science работают везде, где нужно обрабатывать и хранить данные. Они решают самые разные задачи: от планирования маршрутов в логистике до прогнозирования спроса на наличные в банкомате.

Плюсы профессии «Специалист по Data Science»:

— вы сможете работать почти в любой отрасли, от промышленности и до коммерции;
— решения специалистов по DS напрямую влияют на планирование и деятельность компаний;
— никакой рутины — чем сильнее и опытнее специалист, тем сложнее и интереснее его задачи;
— высокая заработная плата: младшие специалисты получают в среднем 60 000 рублей, специалисты с опытом — 120 000 рублей, а старшие специалисты — от 210 000 рублей.

За 8 месяцев обучения в Практикуме вы освоите востребованную профессию, а дальше — начнёте работать, улучшать навыки и расти в зарплате. Начните курс бесплатно и большими данными двигайтесь в сферу IT.

Начать курс бесплатно

Читать полностью…

Big Data AI

🤔Какую роль играют технологии машинного обучения в backend разработке? 

21 декабря в 19.00 приглашаем на открытый урок “Внедрение алгоритмов машинного обучения в бэкенд-проекты на Kotlin”. 

Вебинар проведут: Сергей Окатов, к. ф.-м. н., БФТ ЦР и Александр Брут-Бруляко, DS инженер в СБЕР.

📌На занятии: 

- дадим краткий обзор состояния рынка ML-технологий; 
- продемонстрируем процесс обучения ML-модели под наши задачи; 
- обсудим какие есть способы интеграции моделей в бэкенд-проект, а также преимущества и недостатки каждого из подходов; 
- выполним запуск предобученной ML-модели на Kotlin.

👉Регистрация для участия https://otus.pw/hFUN/?erid=LjN8KZcis

Урок пройдет в рамках курса «Kotlin Backend Developer. Professional». Обновленная программа обучения позволит прикоснуться к большому числу инструментов разработки современных, гибких, высокопроизводительных серверных приложений на языке Kotlin. При поступлении  в группу возможна рассрочка платежа.

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Big Data AI

Оффер за выходной в Big Data.МегаФон для Data-специалистов!

Зарплата от 250 до 450 тысяч рублей в зависимости от грейда, уютный офис или полная удаленка на территории РФ, а также ДМС со стоматологией и страховкой. На этом бонусы не заканчиваются: оплата связи, компенсация фитнеса, обучение за счет компании и многое другое.

Вам предстоит работать с масштабными проектами:
— разрабатывать аналитические сервисы на базе AI;
— анализировать бизнес-процессы и внедрять языковые модели для облегчения рутины в LLM;
— тестировать продуктовые и ML-гипотезы.

Мегафон — оператор №1 по покрытию сети и скорости мобильного интернета. Оставляйте заявку и меняйте рынок телекома: https://u.to/gMEtIA

Читать полностью…

Big Data AI

🔥 Простая и эффективная генерация текста с помощью pytorch-native трансформера на python <1000 LOC.

https://github.com/pytorch-labs/gpt-fast #deeplearning #machinelearning #ml #ai #neuralnetworks #datascience #pytorch

@bigdatai

Читать полностью…

Big Data AI

Первый очный ИТ-митап Сбера в Калининграде!
Приглашаем разработчиков и Data people, чтобы поговорить про новейшие разработки банка в области больших языковых моделей и обсудить, зачем нужен GigaChat.

Когда: 16 декабря, 11:00 – 17:00
Где: г. Калининград, ул. Гюго 1, отель Holiday Inn, зал ГОФМАН

Спикеры и темы:

1. Сысоев Дмитрий — исполнительный директор по исследованию данных — вместе с вами решит NLP-задачку и покажет, кто справится лучше: вы или GigaChat.
2. Ефремов Владислав — Development Team Lead — расскажет о платформе аналитики коммуникаций банка с клиентами Voice360 и покажет кейсы применения GigaChat для аналитики коммуникаций.
3. Марченков Антон — исполнительный директор по исследованию данных в Департаменте данных и рекомендательных систем Сбера — поделится тем, как Сбер использует современные генеративные модели и как это помогает соответствовать ожиданиям рынка.
4. Резвых Алексей — Team Lead Data Scientist — и Кулин Никита — Data Scientist —применят большие языковые модели для автоматического извлечения знаний из диалогов.
5. Дмитрий Бугайченко — управляющий директор в Департаменте данных и рекомендательных систем Сбера — расскажет о том, как искусственный интеллект работает на службе компаний-партнёров Сбера.

Помимо новых знаний, вас ждут One Day Solo Hackathon и много призов. Скорее регистрируйтесь по ссылке

Читать полностью…

Big Data AI

💥 Архив из 32 датасетов, которые вы можете использовать для практики и совершенствования своих навыков исследователя данных

https://datasciencedojo.com/blog/datasets-data-science-skills

@bigdatai

Читать полностью…

Big Data AI

🔥 Practical_RL

В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.

https://github.com/yandexdataschool/Practical_RL

@bigdatai

Читать полностью…

Big Data AI

💥 Оcновные функции Pandas!

#pandas #datascience

@bigdatai

Читать полностью…

Big Data AI

🧩 Визуизация работы сессии, файлов cookie, JWT, токенов, SSO и OAuth 2.0 на одной диаграмме

Когда вы входите на веб-сайт, возникает необходимость управления вашей учетной записью. Вот как работают разные решения:

Токен — Ваша учетная запись закодирована в токене, отправленном в браузер. Браузер отправляет этот токен при будущих запросах аутентификации. Хранилище сеансов сервера не требуется. Но токены нуждаются в шифровании/дешифровании.

Сессия — Сервер сохраняет вашу учетную запись и передает браузеру файл cookie с идентификатором сеанса. Это позволяет серверу отслеживать состояние входа в систему. Но файлы cookie не работают на разных устройствах.

JWT — Веб-токены JSON стандартизируют токены идентификации, используя цифровые подписи для обеспечения проверки подлинности. Подпись содержится в токене, поэтому сеанс сервера не требуется.

SSO — Система единого входа использует центральную службу аутентификации. Это позволяет одному логину работать на нескольких сайтах.

OAuth2 — Разрешает ограниченный доступ к вашим данным на одном сайте другому сайту без разглашения паролей.

QR-код — Набирающий популярность метод аутентификации. Кодирует случайный токен в QR-код для входа в систему с мобильного устройства. Сканирование кода позволяет войти в систему без ввода пароля.

@bigdatai

Читать полностью…

Big Data AI

⭐️ 10 способов повысить эффективность RAG-системы

LLM
 —  удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation  —  генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.

Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.

Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.

В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG  —  пожалуй, единственный наиболее эффективный способ применения LLM.

В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.

Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.

⚡️Читать дальше

@bigdatai

Читать полностью…

Big Data AI

Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.

🗓 29 ноября в 18:00

В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.

✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.

✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой. 

Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.

➡️ Регистрация по ссылке.

Реклама. ПАО СБЕРБАНК. ИНН 7707083893.

Читать полностью…

Big Data AI

Каждый аналитик данных когда-то не имел опыта и почти каждый испытывал трудности при поиске первой работы

Если сейчас вам не хватает реального опыта, приходите на бесплатный вебинар от karpovꓸcourses «Как получить реальный опыт в анализе данных за шесть недель?»

На вебинары вы:
- поймете, что хотят от джунов-аналитиков
- узнаете о новых способах получить опыт, если без него найти работу не получается

Также выпускники курса Симулятор аналитика поделятся своими историями поиска работы аналитиком, что поможет вам заранее учесть все возможные трудности и справиться с этой задачей быстрее.

Вебинар проведет Анатолий Карпов — тот самый автор курсов на степике, которые обучили статистике более 200 тыс. человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses.

Ждём вас 28 ноября в 19:00!

Регистрируйтесь, чтобы попасть на вебинар

Читать полностью…
Subscribe to a channel