bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

17610

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

erid: LjN8KM8ZW

Почему стоит прокачивать свои навыки в Machine Learning в 2024 году?

Это верный способ не отстать от индустрии, которая развивается со скоростью света — а значит постоянно расти в зарплате и открывать новые карьерные возможности.

При этом важно учиться у тех, кто сам работает с машинным обучением в крупных компаниях — например, у преподавателей «karpov.courses» на курсе Start ML.

Программа построена так, чтобы любой желающий мог разобраться со всеми этапами работы: от сбора данных и применения классических алгоритмов до обучения нейросетей.

Обучение включает в себя и теорию, и отработку знаний на практических задачах, поэтому через 7 месяцев обучения вы сможете уверенно выйти на рынок и начать искать работу по новой профессии.

Как показывает статистика, 89% студентов школы находят работу в течение трех месяцев после обучения.

Курс стартует 14 марта — присоединяйтесь: https://clc.to/n9t_Mw

Получите скидку 5% по промокоду BDAI до 28.03.2024

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.

Читать полностью…

Big Data AI

Команда Data Science в Lamoda Tech в поисках Senior ML Engineer (MLOps).

Будем вместе улучшать подходы и внедрять best-practice на всех этапах жизненного цикла ML-решений.

Задачи:
- Помогать продуктовым командам прорабатывать архитектуру и запускать в production ML-решения
- Разрабатывать и внедрять MLOps-инструменты и сервисы: Feature store, MLflow/ClearML, Data Quality, инструменты для CI/CD и мониторинга ML-моделей
- Формировать и декомпозировать беклог MLOps-направления

Важен опыт разработки и внедрения ML-решений, практика работы с Hadoop, Hive, Spark, Airflow, Docker, знание Python, Linux, методов работы с большими данными и MLOps-инструментов. Английский на уровне технического чтения.

Здорово, если приходилось разрабатывать и внедрять Deep Learning модели, работать с Kubernetes и уже был опыт руководства небольшой командой.

Больше о направлении D&A рассказываем на сайте

Откликайся или отправь вакансию тем, кто нам подходит.

Читать полностью…

Big Data AI

🔥 Weights_biases выпустили серию бесплатных курсов, связанных с Lms и искусственным интеллектом.

Вот несколько, которые кажутся интересными:
- https://wandb.courses/courses/take/training-fine-tuning-LLM
- https://wandb.courses/courses/steering-language-models
- https://wandb.courses/courses/enterprise-model-management

@bigdatai

Читать полностью…

Big Data AI

Выпущен Moon dream 2!

MD2 - это миниатюрная, быстрая и с открытым исходным кодом модель языка 1.8B parameter vision, для запуска которой требуется менее 5 ГБ памяти.

Проект: https://moondream.ai
Код: https://github.com/vikhyat/moondream
Demo: https://huggingface.co/spaces/vikhyatk/moondream2

@bigdatai

Читать полностью…

Big Data AI

✍️ Команда Яндекса поделилась процессом обучения модели YandexGPT, пересказывающей видео в Браузере

Некоторые тезисы из публикации на Хабре:
— YandexGPT для пересказа статей не подходит для суммаризации видео: порядок тезисов не всегда совпадает с таймлайном;
— Важные продуктовые требования: адаптация под длину контента и помощь в навигации;
— Два основных критерия для оценки качества модели: качество выделения частей и качество тезисов;
— Сочетание LoRa и fine-tune позволяет эффективно использовать преимущества обоих методов для пересказа видео.

Сама статья

@bigdatai

Читать полностью…

Big Data AI

🌲 Датасет Finn Woodlands

Новый набор данных о лесах под названием FinnWoodlands, который состоит из стереоизображений RGB, облаков точек и карт разреженной глубины, а также справочных аннотаций для семантической сегментации.

Github

@bigdatai

Читать полностью…

Big Data AI

Что такое BI-платформы и как аналитику с ними работать?

Расскажет Роман Козлов — ведущий аналитик в ГКУ «Новые технологии управления». Встречаемся на бесплатном практическом уроке от OTUS, где вы разберете:
- определение и признаки BI-систем;
- задачи BI-систем;
- тренды развития;
- лидеры рынка vs Open-source. 

После урока вы сможете выбрать BI-платформу в зависимости от поставленных задач. 

Занятие пройдёт 5 марта в 20:00 мск и будет приурочено к старту курса «BI-аналитика». Доступна рассрочка на обучение!

Пройдите короткий тест прямо сейчас, чтобы занять место на открытом уроке: https://otus.pw/KYoJ/?erid=LjN8KUAm3

Читать полностью…

Big Data AI

Так уж складывается в мире данных, что Data Scientist’у порой приходится закрывать задачи сразу нескольких специалистов. К примеру, сбор данных, выявление закономерностей и формирование отчетов — это задача аналитика данных.⠀

А что делает Data Scientist?

Этот специалист может:⠀

🫖 Собрать требования к бизнес-задаче и предложить математическое решение;
🫖 Подготовить данные, с помощью которых эту задачу можно решить;
🫖 Создать модель машинного обучения;
🫖Проверить модель и её работоспособность.

И всему этому мы учим на курсе Data Scientist. Его разработали два эксперта области:

— Иван Аникин, Team Lead Yandex.Edadeal;
— Владимир Бугаевский, Team Lead СберМаркет.

Они же будут преподавать на потоке, который стартует 29 марта! Иван и Владимир будут отвечать на вопросы студентов в чате и на онлайн-встречах, смотреть учебные проекты и давать по ним обратную связь.⠀

Узнать больше о программе курса и записаться на поток вы можете на нашем сайте по ссылке.

Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451

Читать полностью…

Big Data AI

Работаешь с данными и чувствуешь, что из них можно получить больше? В DataWorkshop расскажут как это сделать.

5 дней практики в Data Science на реальных данных магазина из Великобритании.

1-2 часа в день и самостоятельно создаешь модели машинного обучения.

Старт - 4 марта. Обучаешься под руководством эксперта в своем темпе, в удобное время.

6000+ человек из разных стран мира уже приняли участие в данном интенсиве.

15 лет практического опыта у автора интенсива, поэтому полученные знания можно сразу применять в рабочих проектах.

Обучают с 2017 года.

Предоставляем готовое окружение - ничего устанавливать и настраивать не нужно.

Участие бесплатно только для первых 100 записавшихся человек.
Успевайте записаться по 👉 ЭТОЙ ССЫЛКЕ

А еще много полезной информации о том, как начать работать в сфере Data Science в их канале.

Реклама: ИП Кравченко Николай Васильевич LjN8KCNbP

Читать полностью…

Big Data AI

⚡️ Шпаргалка по ML

Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево

Поможет без проблем подготовиться к собесу и освежить знания

📁 PDF

@data_analysis_ml

Читать полностью…

Big Data AI

Запуск локального кода в облаке без настройки серверов и кластеров

Yandex DataSphere Jobs позволяет запускать любую программу на Python или shell-скрипт в облаке без всяких изменений. Для запуска скрипта не нужно модифицировать исходный код, самостоятельно развёртывать кластер и собирать окружение — это происходит автоматически при запуске скрипта.

Преимущества DataSphere Jobs:

Быстрый запуск вычислений в облаке с доступом ко всем его ресурсам, включая GPU без настройки виртуальных машин и кластеров.

Безопасность — Yandex Cloud выполняет все требования безопасности информации и работы с персональными данными. После исполнения вычислений DataSphere Jobs удалит весь код и данные.

Экономия затрат на развёртывание кластеров, их обслуживание и DevOps.

🗣 Подробнее смотрите в видео.

Реклама. ООО «Яндекс.Облако» ИНН 7704458262

Читать полностью…

Big Data AI

🚀 Advances in private training for production on-device language models

Языковые модели, предсказывающие следующее слово, являются ключевой технологией для многих ИИ приложений. Узнайте, как многолетние исследования стали основой обучения языковых моделей Google

Статья

@bigdatai

Читать полностью…

Big Data AI

💫 Не только NVIDIA: Программирование на GPU, которое работает везде

Если вы хотите запускать GPU-программы в CI, на Mac и т.д., wgu-py - отличный вариант.

https://pythonspeed.com/articles/gpu-without-cuda/

@bigdatai

Читать полностью…

Big Data AI

Depth Anything

Эта нейросеть анализирует сцену и определяет глубину каждого пикселя, что открывает новые горизонты для автономного вождения, робототехники, дополненной реальности и многого другого. Загружайте изображения по одному или пакетом, экспортируйте прямо в свой проект.

https://github.com/LiheYoung/Depth-Anything

@bigdatai

Читать полностью…

Big Data AI

📊 Matplotlib Panel

Панель Matplotlib позволяет отображать графики Matplotlib в приложении Panel.В том числе фигуры, созданные Seaborn, Pandas .plot, Plotnine и любой другой библиотекой для построенной графиков поверх Matplotlib.

Панель Matplotlib отрендерит объект в PNG или SVG при заявленном DPI и затем отобразит его.

В этом руководстве приведены примеры с кодом по работе с панелью.

https://panel.holoviz.org/reference/panes/Matplotlib.html

@bigdatai

Читать полностью…

Big Data AI

🖥 SQL Translator - это инструмент для преобразования запросов на естественном языке в SQL-запросы с помощью искусственного интеллекта. Этот проект является 100% бесплатным и с открытым исходным кодом.

git clone https://github.com/whoiskatrin/sql-translator.git

▪Github
▪Проект

@bigdatai

Читать полностью…

Big Data AI

🗡 Sensei (先生)

Простой, мощный, инструментдля генерации синтетических данных с использованием Openal, Mistralair или AnthropicAI.

Github

@bigdatai

Читать полностью…

Big Data AI

💎 Дата-сайентист — сравнительно молодая профессия. Спрос на таких специалистов растёт гораздо быстрее, чем увеличивается количество самих аналитиков. Если тебе нравится работать с большими данными и находить в них закономерности, пройди обучение от Слёрм и получи профессию будущего!

На курсе Data Scientist ты поймешь, как работают алгоритмы машинного обучения, и научишься применять их в проектах на реальных данных.

Курс подойдёт:
✔️ Разработчикам, которые работают вместе с дата-сайентистами и хотят лучше понимать коллег;
✔️ Software Engineer, Data Engineer, DevOps Engineer уровня Middle, готовым перейти в смежную профессиональную область;
✔️ Программистам на Python, которые хотят освоить новое перспективное направление.

Курс состоит на 30% из теории и на 70% из практики.

За 96 часов обучения ты освоишь:
⚡️ Алгоритмы и теорию машинного обучения;
⚡️ Базовые подходы и популярный фреймворк для построения нейросетей;
⚡️ Машинное обучение для выполнения бизнес-задач;
⚡️ Способы анализа и визуализации больших объёмов данных разных типов;
⚡️ Библиотеки для анализа данных.


Присоединяйся! Скачай презентацию курса и получи демо-доступ на 7 дней, чтобы убедиться, что курс тебе подходит.

Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451

Читать полностью…

Big Data AI

⭐️Гарантированно валидный JSON на выходе от LaminiAI

Вопрос: а вообще, почему структурированный вывод JSON - это так сложно?

LLM, как мы знаем, в основном основаны на архитектуре transformer, которая использует авторегрессивный генератор. Трансформер рассматривает каждое слово как лексему и генерирует одну лексему за раз. LLM не может вернуться назад и исправить результат после его генерации, что делает последовательный вывод JSON очень сложным.

🌟 В то же самое время товарищи из LaminiAI решили эту проблему на корню

Отделение процессов генерации отдельных лексем с помощью машины состояний с поддержкой пакетной обработки, потоковой передачи и KV-кеша — вот что они сделали.
И в результате модель гарантированно выдаёт правильный, валидный JSON

@bigdatai

Читать полностью…

Big Data AI

⚡️ Новый мультимодальный arXiv: Датасет для улучшения научного понимания больших моделей языка визуализации

proj: https://mm-arxiv.github.io
abs: https://arxiv.org/abs/2403.00231

@bigdatai

Читать полностью…

Big Data AI

⚡️ Microsoft опубликовали статью Towards Optimal Learning of Language Models

В данной работе изучаются общие принципы улучшения обучения языковых моделей (ЯМ), целью которых является сокращение необходимых шагов обучения для достижения высокой производительности.

В частности представлена теорию оптимального обучения ЛМ. Цель оптимизация обучение ЛМ путем максимизации коэффициента сжатия данных в представлении "LM-training-as-lossless-compression".

Авторы выводят теорему, названную законом обучения, которая раскрывает свойства динамики в процессе оптимального обучения.

Теорема подтверждается экспериментами на линейной классификации и реальной задаче моделирования языка.

Наконец, авторы эмпирически доказывают, что оптимальное обучение LM в основном связано с улучшением коэффициентов в законе масштабирования LM, что указывает на большие перспективы и значение для разработки практических методов ускорения обучения.

https://huggingface.co/papers/2402.17759

@bigdatai

Читать полностью…

Big Data AI

⚡️ Training Neural Networks From Scratch with Parallel Low-Rank Adapters

Предварительное обучение с нуля с помощью LoRA на нескольких GPU.

Статья: https://arxiv.org/abs/2402.16828
Проект: https://minyoungg.github.io/LTE/

@bigdatai

Читать полностью…

Big Data AI

⚡️ Streamline Analyst: A Data Analysis AI Agent

Streamline-Analyst ИИ-агент на базе LLM, который оптимизирует весь процесс анализа данных.

Github

@bigdatai

Читать полностью…

Big Data AI

🔥 Выпуск Mistral Large! Новый флагманский LLM.

Он превосходит GPT3.5 и LLaMa 2 70B во всех бенчмарках.

- Свободно владеет английским, французским, испанским, немецким и итальянским языками
- Контекстное окно на 32 тыс. лексем
- точное следование инструкциям
- встроенная возможность вызова функций

Дополнительная информация: https://mistral.ai/news/mistral-large/

Попробовать можно здесь: http://chat.mistral.ai

@bigdatai

Читать полностью…

Big Data AI

🔥 Полезные библиотеки Python

Face classification
— библиотека позволяет распознавать лица и классифицировать эмоции в реальном времени.

⚙️ GitHub/Инструкция

@bigdatai

Читать полностью…

Big Data AI

👉 Awesome AWS

Кураторский Список библиотек Amazon Web Services (AWS), репозиториев с открытым исходным кодом, руководств, блогов и других ресурсов.

🔗 https://github.com/donnemartin/awesome-aws

@bigdatai

Читать полностью…

Big Data AI

Недавно мы просили рассказать в опросе, какие темы интересуют тебя больше всего. Одной из самых востребованных стала тема нейросетей 🧠

27 февраля на вебинаре мы будем говорить именно о них. Аналитик-исследователь Центра технологий искусственного интеллекта Элизавета Вялых расскажет:

— как работает языковое моделирование

— какова архитектура GPT и при чем тут Оптимус Прайм

— каким было путешествие от GPT-1 до GPT-4

— топ-5 задач сотрудника в банке, которые оптимизирует GPT.

Встретимся с тобой на лекции «Generative pre-trained transformer, или как развивались GPT модели» 27 февраля в 18:00 (по МСК) 👋

Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqusYuJ1

Читать полностью…

Big Data AI

Привет, любителям соревнований в области Data Science 🧠

В этом году Data Fusion Contest от ВТБ и Т1 возвращается с новыми увлекательными задачами в области машинного обучения.

⏱ Сроки соревнования: 15 февраля – 5 апреля
🖥 Формат: онлайн

🚀 Соревнуйтесь и выигрывайте. Data Fusion Contest 2024 — это поле битвы, где вы столкнетесь с челленджем: решить 2 задачи по геоаналитике и моделям оттока клиентов. Призовой фонд составит 2 000 000 рублей.

🌌 Растите профессионально. Решайте актуальные для бизнеса задачи, используя новые подходы на синтетических транзакционных данных пользователей.

🌟 Станьте частью сообщества. Присоединяйтесь к нашим регулярным онлайн-митапам и воркшопам.

Заявите о себе в Data Science сообществе — примите участие в соревновании от крупнейших компаний России. Регистрируйтесь на Data Fusion 2024 по ссылке — https://vk.cc/cuLBHv

Желаем удачи!✨

Читать полностью…

Big Data AI

👉 Введение в машинное обучение

Бесплатные курсы, которые служит введением в машинное обучение и охватывает основные понятия.

Github

@bigdatai

Читать полностью…

Big Data AI

🚨 Осторожно, утечки!

Как сообщает DLBI, в 2022 году в сеть утекли данные 75% россиян. И это несмотря на то, что компании все больше совершенствуют системы защиты информации (используя разные классы решений, такие как DLP, DAM, DCAP и другие), а ответственность за ее хищение становится все строже.

Positive Technologies предлагает специалистам по защите информации пройти опрос и рассказать, чего не хватает в существующих системах защиты данных и что, по вашему мнению, можно улучшить.

Меньше слов, больше дела, опрос — по ссылке.

Читать полностью…
Subscribe to a channel