bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

Давайте поможем Даше найти... что угодно

27 июня в 19:00 Data Science Meetup: Поиск от команды СберМаркета!

Соберёмся в нашем офисе, чтобы рассказать о секретах алгоритмов поиска: как разрабатывали и улучшали модель по исправлению опечаток, что такое межретейлерный поиск, и как он работает у нас.

В программе доклады и QA-сессия:

🔎 Как устроен Поиск в СберМаркете. Владимир Бугаевский, ML Team Lead в СберМаркете, поделится тем, как поисковые технологии улучшают пользовательский опыт в СберМаркете.

🔎 Нейросетевая модель для исправления опечаток в поисковых запросах. Анна Власова, ML-инженер в СберМаркете, расскажет о новой нейросетевой модели для исправления опечаток.

🔎 Ранжирование магазинов в межретейлерном поиске. Анна Южанина, ML-инженер в СберМаркете, расскажет о модели для ранжирования магазинов в зависимости от намерения и предпочтения пользователя.

Регистрируйтесь, количество мест в офлайне ограничено!

Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: LjN8KWB86

Читать полностью…

Big Data AI

MIT 6.S191: (Google) Generative AI for Media

https://www.youtube.com/watch?v=P7Hkh2zOGQ0

@bigdatai

Читать полностью…

Big Data AI

🔥 CinePile - это набор данных для понимания видео, основанный на вопросах и ответах. Он был создан с использованием передовых моделей большого языка (LLM). Он состоит примерно из 300 000 точек данных для обучения и 5000 точек данных для тестирования. 300 тысяч обучающих и 5 тысяч тестовых фрагментов. A

📃 : https://arxiv.org/abs/2405.08813
🤗 : https://huggingface.co/datasets/tomg-group-umd/cinepile

Читать полностью…

Big Data AI

Устроиться аналитиком в Яндекс за выходные

6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.

В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Нанимаем в офисы России и Республики Беларусь.

Узнать подробности и зарегистрироваться можно здесь.

Реклама. ООО "Яндекс". ИНН 7736207543

Читать полностью…

Big Data AI

⚡️ Recap-DataComp-1B - это крупномасштабный набор графических и текстовых данных, который был восстановлен с использованием усовершенствованной модели LLaVA-1.5-LLaMA3-8B для повышения согласованности и детализации текстовых описаний.

data: https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
proj: https://haqtu.me/Recap-Datacomp-1B/
abs: https://arxiv.org/abs/2406.08478

@bigdatai

Читать полностью…

Big Data AI

⚡️ Вышла версия Ollama v0.1.43!

Эта версия улучшает работу с Llama.

Исправлно множество ошибок!

* Github

@bigdatai

Читать полностью…

Big Data AI

⭐️ Яндекс выложил в опенсорс свою библиотеку YaFSDP

Это библиотека для обучения больших языковых моделей с открытым исходным кодом, которая позволяет ускорить их обучение до 25%, а также тратить до 20% меньше ресурсов графических процессоров.

Использование библиотеки даёт существенный выигрыш в производительности и потреблении памяти: YaFSDP позволяет использовать ровно столько памяти процессоров, сколько необходимо, а коммуникацию между GPU в сети при этом ничего не тормозит.

https://habr.com/ru/companies/yandex/articles/817509/

@bigdatai

Читать полностью…

Big Data AI

🌟 DuckDuckGo представила собственный ИИ-чат

Разработчики DuckDuckGo представили собственный бесплатный ИИ-чат. Сейчас пользователям доступны четыре модели машинного обучения, но в будущем список планируют расширить.

Доступ к чат-боту от DuckDuckGo можно получить несколькими способами:

— на портале DuckAI duck.ai;

— на специальной странице чата — duckduckgo.com/chat;

— в поисковой выдаче;

— с помощью bangs !ai и !chat в адресной строке.

На выбор пользователям доступно четыре языковые модели: GPT 3.5 Turbo, Claude 3 Haiku, Llama 3 и Mixtral 8x7B. Запросы к ним можно отправлять бесплатно, но с ограничением по количеству запросов в сутки. Пока нет возможности получить безлимитный доступ, но представители компании отметили, что уже думают над платным тарифом и расширенным списком языковых моделей.

@bigdatai

Читать полностью…

Big Data AI

🌟 Whisper WebGPU — распознавание речи локально, при помощи Whisper

git clone https://github.com/xenova/whisper-web.git
cd whisper-web
npm install

npm run dev

# http://localhost:5173/


Whisper WebGPU — очень быстрое распознавание речи локально прямо в браузере, поддерживает 100 языков

🖥 GitHub
🟡 Затестить Whisper WebGPU

@bigdatai

Читать полностью…

Big Data AI

NVIDIA’s New Tech: Next Level Ray Tracing!

https://www.youtube.com/watch?v=FniSuh9C_fk

@bigdatai

Читать полностью…

Big Data AI

🐦‍⬛ BIRD - это новый метод восстановления изображений, который может качественно восстанавливать изображения.

https://github.com/hamadichihaoui/BIRD

@bigdatai

Читать полностью…

Big Data AI

Хотите попробовать себя в роли аналитика и попрактиковаться на реальных задачах?

Приходите на бесплатный курс-симулятор Нетологии и Yandex Cloud «Основы анализа данных в SQL, Python, Power BI, DataLens».

В этой профессии много разных направлений — аналитик данных, BI-аналитик, продуктовый аналитик, Data Scientist. Но везде пригодится навык работы с инструментами-помощниками, которые вы и освоите на курсе.

Эксперты-практики расскажут, как делать простые отчёты, исследовать данные и строить интерактивные дашборды. А чтобы понять, что анализ данных — это точно ваше, вместе решите практические задачи из реальных кейсов.

Воспользуйтесь шансом попробовать новые инструменты и запишитесь на бесплатный курс Нетологии.

Регистрация: https://netolo.gy/dbfN
Реклама ООО "Нетология" 2VSb5yVAiAC

Читать полностью…

Big Data AI

Анонс грантов от fal Research, которые предоставляют бесплатные вычислительные ресурсы исследователям и разработчикам, работающим над передовыми инициативами с открытым исходным кодом.

Чтобы подать заявку на получение исследовательского гранта, просто напишите на почту atgrants@fal.ai.

В своей заявке, укажите описание вашего проекта, его цели и то, как он согласуется с миссией по продвижению инноваций с открытым исходным кодом в области искусственного интеллекта.

Прикрепитн свои любые работами или репозиториями на GitHub, которые демонстрируют ваши навыки и энтузиазм.

https://fal.ai/grants

@bigdatai

Читать полностью…

Big Data AI

⭐️ Сравниваем DBSCAN и OPTICS

Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!

https://habr.com/ru/articles/818889/

@bigdatai

Читать полностью…

Big Data AI

OpenAI’s ChatGPT: This is Science Fiction!

https://www.youtube.com/watch?v=ewLMYLCWvcI

@bigdatai

Читать полностью…

Big Data AI

⚡️ gui-world: Набор данных ориентированных на работу с GUI интерфейс мультимодальных агентов на базе LLM

Набор данных из 12 тысяч высококачественных разнообразных GUI.

proj: https://gui-world.github.io
abs: https://arxiv.org/abs/2406.10819

@bigdatai

Читать полностью…

Big Data AI

🍏 4M: Massively Multimodal Masked Modeling

Apple релизнули модель 4M-21.

Это довольно эффективная мультимодальная модель, которая решает десятки задач и работет для разных модальностей.

Применение многозадачного обучения в мультимодальных моделях действительно продвинулось на шаг вперед. Мы можем обучить одну модель множеству разнообразных задач с высокой точностью.

🌐 https://4m.epfl.ch
⌨️ https://github.com/apple/ml-4m/

@bigdatai

Читать полностью…

Big Data AI

💻 SirixDB — это open-source гибридная система баз данных, ориентированная на работу с дисками и памятью

SirixDB имеет облегченный буфер-менеджер, способный хранить ссылки на страницы in-memory.
SirixDB представляет собой структурированное хранилище временных документов и хранит истории всех ресурсов в компактной форме.
Процессор запросов поддерживает сложные запросы, связанные с разными временными диапазонами.

🖥 GitHub
🟡 Доки

@bigdatai

Читать полностью…

Big Data AI

⚡️ Open VLA: Vision-Language модель с открытым исходным кодом

статья: https://arxiv.org/abs/2406.09246
страница проекта: https://openvla.github.io
код: https://github.com/openvla/openvla

Open VIA, модель открытым исходным кодом с параметрами 7B, отлаженную в Llama-2 в сочетании с визуальным кодером, который объединяет предварительно подготовленные функции из DINOv2 и SigLIP.

Она обучена на 970 тысячах эпизодов с роботами из открытого набора данных X-Embodion.

Модель превосходит 55B-param RT-2-X с закрытым исходным кодом на 16,5% по абсолютному показателю успешности выполнения задач в 29 задачах и нескольких вариантах робота, при этом его параметры в 7 раз меньше.


@bigdatai

Читать полностью…

Big Data AI

Вышел Stable Diffusion 3 - самый мощный бесплатный генератор картинок!
https://youtu.be/k3QNJBpDe7o

@bigdatai

Читать полностью…

Big Data AI

🏴‍☠️ Представляем новый открытый набор данных "Character Codex"!

Он содержит данные о 15 939 персонажах из самых разных источников, от аниме до исторических личностей, ученых и популярных персонажей, как вымышленных, так и не вымышленных!

Скачать на HuggingFace: https://huggingface.co/datasets/NousResearch/CharacterCodex

Потенциальные варианты использования - это использование для генерации синтетических данных, анализа данных о ролевых играх и многого другого.

https://huggingface.co/datasets/NousResearch/CharacterCodex

#датасет

@bigdatai

Читать полностью…

Big Data AI

top CVPR 2024 papers

Конференция по компьютерному зрению и распознаванию образов CVPR 2024 - это масштабная конференция.

Только в 2024 году было представлено 11 532 доклада, из которых 2 719 были приняты.

Вот репозиторий, чтобы помочь вам найти лучшие публикации CVPR.

Github

@bigdatai

Читать полностью…

Big Data AI

Яндекс запустил Lite-версию генеративной текстовой модели YandexGPT 3

YandexGPT 3 Lite — это облегчённая версия генеративной модели Яндекса нового поколения. Особенность таких Lite-моделей заключается в более высокой скорости ответов, что позволяет решать простые задачи бизнеса буквально в режиме реального времени. Поэтому нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат: например, бот-консультант на сайте, система подсказок для операторов колл-центров или суммаризатор результатов деловых встреч.

✈️ По данным замеров, YandexGPT 3 Lite стала ещё быстрее и точнее — и она уже доступна в режиме release candidate на облачной платформе Yandex Cloud. То есть клиенты могут протестировать её и плавно внедрить в свои продукты через API уже в ближайшее время.

Одним из ключевых этапов обучения модели стало выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). В статье на Хабре - детали реализации Alignment и RL.

@bigdatai

Читать полностью…

Big Data AI

💡 Действительно интересный репозиторий

Датасет, который состоит из 15 140 запросов ChatGPT с Reddit, Discord, курупыных веб-сайтов и наборов данных с открытым исходным кодом (включая 1 405 запросов для взлом ответов gpt).

https://github.com/verazuo/jailbreak_llms

#датасет

@bigdatai

Читать полностью…

Big Data AI

📃Google представили NATURAL PLAN: бенчмарк для LLM для задач планирования на естественном языке

Представляет реалистичный бенчмарк для планированияс поездок, встреч и календарного планирования.

Это на удивление сложная задача для современных моделей.

https://arxiv.org/abs/2406.04520

@bigdatai

Читать полностью…

Big Data AI

📌Классный интерактивный учебник по Machine Learning

Отличный ресурс для погружения в ML
Здесь очень много интерактивных элементов, которые помогают не просто запомнить, а понять важные концепции машинного обучения

Среди разбираемых тем такие как:
— нейронные сети
— регрессия: линейная/логистическая
— ROC & AUC
— кросс-валидация
— и многие другие темы, часть из них видна на изображениях

📎 Учебник по ML

@bigdatai

Читать полностью…

Big Data AI

🚀 Google выпустил статью - верить или не верить Вашему LLM

https://arxiv.org/abs/2406.02543

@bigdatai

Читать полностью…

Big Data AI

[xLSTM] от руки ✍️

Что означает каждая буква?

@bigdatai

Читать полностью…

Big Data AI

⚡️ ЛУЧШИЕ БЕСПЛАТНЫЕ Курсы и Книги для изучения МАШИННОГО ОБУЧЕНИЯ.

https://www.youtube.com/watch?v=j0BrMPgrCuo

@bigdatai

Читать полностью…

Big Data AI

⭐️ Awesome Detection Engineering

Коллекция технических ресурсов по детекции объектов:

* Концепции и фреймворки
* Контент и сигнатуры для обнаружения,
* Ведение журнала, мониторинг и источники данных
* Общие ресурсы.

https://github.com/infosecB/awesome-detection-engineering

@bigdatai

Читать полностью…
Subscribe to a channel