bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

17610

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

⚡️ Обнаружение текста, сгенерированного искусственным интеллектом

Исследователи изучили влияние ChatGPT на экспертные оценки конференций по искусственному интеллекту, подтвердив то, что мы все знали

статья: https://arxiv.org/pdf/2403.07183.pdf

@bigdatai

Читать полностью…

Big Data AI

🚀 Intel предствавили полностью интегрированные многослойные персептроны на графических процессорах Intel для центров обработки данных

Intel Max 1550 превосходит графический процессор H100 в 2,84 раза при выводе и в 1,75 раза при обучении

https://arxiv.org/abs/2403.17607

@bigdatai

Читать полностью…

Big Data AI

ComCLIP: Training-Free Compositional Image and Text Matching

📄 Paper: http://arxiv.org/abs/2211.13854
🌐 Project: https://sites.google.com/view/comclip
🛠️ Code/Data: https://github.com/eric-ai-lab/ComCLIP (

@bigdatai

Читать полностью…

Big Data AI

🔝 Google опубликовали новый датасет изображений состояния кожи (SCIN) в сотрудничестве с врачами StanfordMed.

Он доступен в свободном доступе в качестве ресурса для исследователей, преподавателей и разработчиков

https://blog.research.google/2024/03/scin-new-resource-for-representative.html

@bigdatai

Читать полностью…

Big Data AI

⭐️ Проекты с открытым исходным кодом, которые изменили мир

Веб: Node.js, React, Apache
Базы данных: PostgreSQL, Redis, Elasticsearch
Инструменты разработчика: Git, VSCode, Jupyter Notebook
ML и Big Data: Tensorflow, Apache Spark, Kafka
DevOps: Docker, Kubernetes, Linux

@bigdatai

Читать полностью…

Big Data AI

💻 Изучайте Математику для Data Science бесплатно с помощью этих бесплатных курсов с Udacity

1. Linear Algebra Refresher Course
2. Intro to Statistics
3. Intro to Inferential Statistics
4. Intro to Descriptive Statistics
5. Eigenvectors and Eigenvalues
6. Intro to Artificial Intelligence
7. Differential Equations in Action

📌 Список

@bigdatai

Читать полностью…

Big Data AI

Cappy: Outperforming and boosting large multi-task language models with a small scorer

Сегодня Googel представляем Cappy, небольшую предварительно обученную модель оценки, которая улучшает и превосходит производительность больших многозадачных языковых моделей.

Cappy был протестирован на множестве сложных задач с помощью Prompt Source и Big-Bench. Узнайте больше на: https://goo.gle/3Voludr

@bigdatai

Читать полностью…

Big Data AI

⚡️ Global Generative AI Landscape 2024 от AlPort

Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ выкатили первый список самых заметных GenAI-моделей. Туда вошли сразу две российские генеративные нейросети — YandexGPT и YandexART.

В итоговый анализ попали 128 генеративных модели от 107 компаний. Среди них только 11 компаний, разрабатывающих более одного типа GenAI-моделей: Яндекс, Stability AI, Open AI, Google, Microsoft, Meta, Tencent и Baidu и другие.

▪️ https://habr.com/ru/news/800245/

@bigdatai

Читать полностью…

Big Data AI

HOSTKEY – международный хостинг-провайдер предлагает в аренду выделенные и виртуальные GPU-серверы с почасовой или месячной оплатой. 

🔥Доступны конфигурации с игровыми картами RTX4090 и профессиональными RTX A500 24Gb и Tesla H100 / A100 80Gb.  Дата-центры в России, Нидерландах и Исландии.  Скидки до 30%. Стоимость от 10 руб./ч или 7 500 руб. в месяц.

HOSTKEY предлагает гранты для перспективных проектов в области Data Science и для победителей конкурсов по исследованию данных на платформе Kaggle и других площадках.

Спрос на серверы высокий, количество серверов ограничено.

🔥Закажите сервер сегодня или оставьте заявку на предзаказ.

erid: LjN8KAnyD

Читать полностью…

Big Data AI

erid: LjN8KM8ZW

Почему стоит прокачивать свои навыки в Machine Learning в 2024 году?

Это верный способ не отстать от индустрии, которая развивается со скоростью света — а значит постоянно расти в зарплате и открывать новые карьерные возможности.

При этом важно учиться у тех, кто сам работает с машинным обучением в крупных компаниях — например, у преподавателей «karpov.courses» на курсе Start ML.

Программа построена так, чтобы любой желающий мог разобраться со всеми этапами работы: от сбора данных и применения классических алгоритмов до обучения нейросетей.

Обучение включает в себя и теорию, и отработку знаний на практических задачах, поэтому через 7 месяцев обучения вы сможете уверенно выйти на рынок и начать искать работу по новой профессии.

Как показывает статистика, 89% студентов школы находят работу в течение трех месяцев после обучения.

Курс стартует 14 марта — присоединяйтесь: https://clc.to/n9t_Mw

Получите скидку 5% по промокоду BDAI до 28.03.2024

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.

Читать полностью…

Big Data AI

Команда Data Science в Lamoda Tech в поисках Senior ML Engineer (MLOps).

Будем вместе улучшать подходы и внедрять best-practice на всех этапах жизненного цикла ML-решений.

Задачи:
- Помогать продуктовым командам прорабатывать архитектуру и запускать в production ML-решения
- Разрабатывать и внедрять MLOps-инструменты и сервисы: Feature store, MLflow/ClearML, Data Quality, инструменты для CI/CD и мониторинга ML-моделей
- Формировать и декомпозировать беклог MLOps-направления

Важен опыт разработки и внедрения ML-решений, практика работы с Hadoop, Hive, Spark, Airflow, Docker, знание Python, Linux, методов работы с большими данными и MLOps-инструментов. Английский на уровне технического чтения.

Здорово, если приходилось разрабатывать и внедрять Deep Learning модели, работать с Kubernetes и уже был опыт руководства небольшой командой.

Больше о направлении D&A рассказываем на сайте

Откликайся или отправь вакансию тем, кто нам подходит.

Читать полностью…

Big Data AI

🔥 Weights_biases выпустили серию бесплатных курсов, связанных с Lms и искусственным интеллектом.

Вот несколько, которые кажутся интересными:
- https://wandb.courses/courses/take/training-fine-tuning-LLM
- https://wandb.courses/courses/steering-language-models
- https://wandb.courses/courses/enterprise-model-management

@bigdatai

Читать полностью…

Big Data AI

Выпущен Moon dream 2!

MD2 - это миниатюрная, быстрая и с открытым исходным кодом модель языка 1.8B parameter vision, для запуска которой требуется менее 5 ГБ памяти.

Проект: https://moondream.ai
Код: https://github.com/vikhyat/moondream
Demo: https://huggingface.co/spaces/vikhyatk/moondream2

@bigdatai

Читать полностью…

Big Data AI

✍️ Команда Яндекса поделилась процессом обучения модели YandexGPT, пересказывающей видео в Браузере

Некоторые тезисы из публикации на Хабре:
— YandexGPT для пересказа статей не подходит для суммаризации видео: порядок тезисов не всегда совпадает с таймлайном;
— Важные продуктовые требования: адаптация под длину контента и помощь в навигации;
— Два основных критерия для оценки качества модели: качество выделения частей и качество тезисов;
— Сочетание LoRa и fine-tune позволяет эффективно использовать преимущества обоих методов для пересказа видео.

Сама статья

@bigdatai

Читать полностью…

Big Data AI

🌲 Датасет Finn Woodlands

Новый набор данных о лесах под названием FinnWoodlands, который состоит из стереоизображений RGB, облаков точек и карт разреженной глубины, а также справочных аннотаций для семантической сегментации.

Github

@bigdatai

Читать полностью…

Big Data AI

🌍 𝗠𝗮𝗷𝗼𝗿 𝗧𝗢𝗠: 𝗣𝗹𝗮𝗻𝗲𝘁 𝗘𝗮𝗿𝘁𝗵 𝗶𝘀 𝗯̶𝗹̶𝘂̶𝗲̶ 𝟱.𝟰𝟬𝟱 𝗚𝗛𝘇

MajorTom-Core-S1RTC новый стандарт изображений со спутников и датасет, который содержит 1 469 955 снимков.

16 ТБ радиометрически откалиброванных изображений.

HF: https://huggingface.co/Major-TOM
Github: https://github.com/ESA-PhiLab/Major-TOM/
Colab: https://colab.research.google.com/github/ESA-PhiLab/Major-TOM/blob/main/03-Filtering-in-Colab.ipynb
Paper: https://www.arxiv.org/abs/2402.12095
MajorTOM-Core-Viewer: https://huggingface.co/spaces/Major-TOM/MajorTOM-Core-Viewer

@ai_machinelearning_big_data

Читать полностью…

Big Data AI

🌟 Нейросеть NVIDIA LATTE3D создаёт модели для 3D-принтера по текстовому описанию

Компания NVIDIA представила новую генеративную ИИ-модель модель под названием LATTE3D. Разработчики позиционируют её как скоростной виртуальный 3D-принтер — она способна создавать трёхмерные объекты по текстовому описанию менее чем за секунду.

LATTE3D создаёт 3D-модели в популярном формате, который используется для стандартных приложений рендеринга и применим в разработке видеоигр, рекламы, дизайн-проектов, а также в большинстве VR- и AR-приложений. Само по себе такое решение не ново, однако преимуществом ИИ-модели NVIDIA над другими проектами стала очень высокая скорость генерации.

Согласно внутренним тестам компании, другим ИИ-моделям для создания готового результата требуется от 20 секунд до более 30 минут, в то время как LATTE3D справляется с задачей в среднем за 400 мс. Пока что разработчики научили LATTE3D генерировать только повседневные предметы и животных, но при наличии подходящих наборов данных портфолио модели можно расширить.

Фирменный ИИ был обучен с использованием графических процессоров NVIDIA A100 Tensor Core, а его демоверсия работает на сборке с видеокартой NVIDIA RTX A6000.
Сейчас NVIDIA LATTE3D всё ещё находится в стадии разработки. О сроках выпуска общедоступной версии сервиса информации пока нет.

@bigdatai

Читать полностью…

Big Data AI

🤖 Phi-2 Теперь на #KaggleModels!

Phi-2 - это языковая модель с 2,7 миллиардами параметров, которая демонстрирует выдающиеся способности к рассуждению и пониманию языка.

https://www.kaggle.com/models/Microsoft/phi

@bigdatai

Читать полностью…

Big Data AI

📌 Что такое квантизация моделей и зачем она нужна

На Хабре вышла статья, в которой ML-разработчик Яндекса рассказал о квантизации и рассмотрел разные типы данных и современные методы квантизации. Будет полезно не только ML-инженерам, но и всем, кто хочет уметь заставлять модели работать эффективней.

@bigdatai

Читать полностью…

Big Data AI

erid: LjN8KaGrU

Построение DWH в Yandex Cloud: кейс крупной логистической компании

21 марта в 16.00 

 На вебинаре эксперты iiii Tech и Yandex Cloud совместно с клиентом Рулог поделятся кейсом, как в рамках локализации отчетности развернуть DWH (КХД) на Yandex Cloud. 

Расскажем о:
- современном стеке аналитических инструментов
- бесшовной миграции с международных облачных платформ 
- о проекте построения DWH (КХД) на основе дата-контрактов 

Вебинар будет полезен CDO, CTO, руководителям направлений по работе с данными, архитекторам данных, аналитиками и дата-инженерам. 

Спикеры:

Георгий Цыганков, 
руководитель направления BI

Андрей Суренский, 
архитектор по работе с партнёрами Yandex Cloud

Венера Никитина, бизнес-аналитик логистической компании Рулог

Зарегистрироваться можно по ссылке 

Читать полностью…

Big Data AI

Вариант для тех, кто ищет виртуальный сервер с хорошей веб-защитой — Aéza:

– Виртуальные сервера до 6.0 ГГц на лучших процессорах;
– Профессиональная фильтрация атак StormWall;
– Круглосуточная поддержка;
– Anycast фильтрация;
– Низкие цены;
– 15% кешбэка по ссылке.

Бесконечно можно смотреть на три вещи: на огонь, воду и скидку от Aeza!
Говорят: твоё от тебя не уйдет. А зачем ждать? Динозавры тоже ждали и остались в прошлом

Используй 50% скидку и погнали в будущее!

Кроме того, сейчас Aéza раздает личные бесплатные сервера, забираем тут. Регистрация, подписка, платежи не потребуются.

Реклама. Индивидуальный предприниматель Лобанов Леонид Константинович. ИНН 781625705648 erid: LjN8KEr3S

Читать полностью…

Big Data AI

🚀 GPM AdTech Challenge
от «Газпром-Медиа» и Getintent
Когда: 18-30 марта
Формат: гибридный
Три задачи на выбор:
1) Сервис перевода и дубляжа видеоконтента
2) Предсказание конверсий пользователей в рекламном аукционе
3) Генератор креативов
Ты можешь стать победителем независимо от своего технического бэкграунда. Создавай прототип и участвуй в состязании за общий призовой фонд в 1 000 000 рублей.
Регистрация до 18 марта: https://cnrlink.com/gpmbdai

🎙 Frontend Мeetup от Росбанка
Когда: 22 марта
Формат: очный, Казань
Вас ждут доклады специалистов Росбанка, СберМаркета и VK Добра.
Авторы лучших вопросов получат мерч.
Регистрация до 20 марта: https://cnrlink.com/rbkazanbdai

💢 «Халява, приди!»‎ от Codenrock
Когда: весь март
Формат: онлайн
Реши несложные задачи по программированию и получи возможность стать обладателем промокода на любой маркетплейс
Регистрация до 30 марта: https://cnrlink.com/halyavabdai

Реклама. ООО "Цукер студия". ИНН 7751071015. erid: LjN8Ju1VJ

Читать полностью…

Big Data AI

🍎 PJRT упрощает интеграцию Apple silicon и ML framework.

Узнайте все о том, как Apple использует порт для ускорения моделей JAX на графических процессорах Apple silicon и AMD, и как вы можете начать работу с PJRT уже сегодня

👉 https://opensource.googleblog.com/2024/03/pjrt-plugin-to-accelerate-machine-learning.html

@bigdatai

Читать полностью…

Big Data AI

The First AI Software Engineer Is Here!

https://www.youtube.com/watch?v=SdZiYRfGdKU

@bigdatai

Читать полностью…

Big Data AI

🖥 SQL Translator - это инструмент для преобразования запросов на естественном языке в SQL-запросы с помощью искусственного интеллекта. Этот проект является 100% бесплатным и с открытым исходным кодом.

git clone https://github.com/whoiskatrin/sql-translator.git

▪Github
▪Проект

@bigdatai

Читать полностью…

Big Data AI

🗡 Sensei (先生)

Простой, мощный, инструментдля генерации синтетических данных с использованием Openal, Mistralair или AnthropicAI.

Github

@bigdatai

Читать полностью…

Big Data AI

💎 Дата-сайентист — сравнительно молодая профессия. Спрос на таких специалистов растёт гораздо быстрее, чем увеличивается количество самих аналитиков. Если тебе нравится работать с большими данными и находить в них закономерности, пройди обучение от Слёрм и получи профессию будущего!

На курсе Data Scientist ты поймешь, как работают алгоритмы машинного обучения, и научишься применять их в проектах на реальных данных.

Курс подойдёт:
✔️ Разработчикам, которые работают вместе с дата-сайентистами и хотят лучше понимать коллег;
✔️ Software Engineer, Data Engineer, DevOps Engineer уровня Middle, готовым перейти в смежную профессиональную область;
✔️ Программистам на Python, которые хотят освоить новое перспективное направление.

Курс состоит на 30% из теории и на 70% из практики.

За 96 часов обучения ты освоишь:
⚡️ Алгоритмы и теорию машинного обучения;
⚡️ Базовые подходы и популярный фреймворк для построения нейросетей;
⚡️ Машинное обучение для выполнения бизнес-задач;
⚡️ Способы анализа и визуализации больших объёмов данных разных типов;
⚡️ Библиотеки для анализа данных.


Присоединяйся! Скачай презентацию курса и получи демо-доступ на 7 дней, чтобы убедиться, что курс тебе подходит.

Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451

Читать полностью…

Big Data AI

⭐️Гарантированно валидный JSON на выходе от LaminiAI

Вопрос: а вообще, почему структурированный вывод JSON - это так сложно?

LLM, как мы знаем, в основном основаны на архитектуре transformer, которая использует авторегрессивный генератор. Трансформер рассматривает каждое слово как лексему и генерирует одну лексему за раз. LLM не может вернуться назад и исправить результат после его генерации, что делает последовательный вывод JSON очень сложным.

🌟 В то же самое время товарищи из LaminiAI решили эту проблему на корню

Отделение процессов генерации отдельных лексем с помощью машины состояний с поддержкой пакетной обработки, потоковой передачи и KV-кеша — вот что они сделали.
И в результате модель гарантированно выдаёт правильный, валидный JSON

@bigdatai

Читать полностью…

Big Data AI

⚡️ Новый мультимодальный arXiv: Датасет для улучшения научного понимания больших моделей языка визуализации

proj: https://mm-arxiv.github.io
abs: https://arxiv.org/abs/2403.00231

@bigdatai

Читать полностью…

Big Data AI

⚡️ Microsoft опубликовали статью Towards Optimal Learning of Language Models

В данной работе изучаются общие принципы улучшения обучения языковых моделей (ЯМ), целью которых является сокращение необходимых шагов обучения для достижения высокой производительности.

В частности представлена теорию оптимального обучения ЛМ. Цель оптимизация обучение ЛМ путем максимизации коэффициента сжатия данных в представлении "LM-training-as-lossless-compression".

Авторы выводят теорему, названную законом обучения, которая раскрывает свойства динамики в процессе оптимального обучения.

Теорема подтверждается экспериментами на линейной классификации и реальной задаче моделирования языка.

Наконец, авторы эмпирически доказывают, что оптимальное обучение LM в основном связано с улучшением коэффициентов в законе масштабирования LM, что указывает на большие перспективы и значение для разработки практических методов ускорения обучения.

https://huggingface.co/papers/2402.17759

@bigdatai

Читать полностью…
Subscribe to a channel