⚡️ Microsoft опубликовали статью Towards Optimal Learning of Language Models
В данной работе изучаются общие принципы улучшения обучения языковых моделей (ЯМ), целью которых является сокращение необходимых шагов обучения для достижения высокой производительности.
В частности представлена теорию оптимального обучения ЛМ. Цель оптимизация обучение ЛМ путем максимизации коэффициента сжатия данных в представлении "LM-training-as-lossless-compression
".
Авторы выводят теорему, названную законом обучения, которая раскрывает свойства динамики в процессе оптимального обучения.
Теорема подтверждается экспериментами на линейной классификации и реальной задаче моделирования языка.
Наконец, авторы эмпирически доказывают, что оптимальное обучение LM в основном связано с улучшением коэффициентов в законе масштабирования LM, что указывает на большие перспективы и значение для разработки практических методов ускорения обучения.
https://huggingface.co/papers/2402.17759
@bigdatai
⚡️ Training Neural Networks From Scratch with Parallel Low-Rank Adapters
Предварительное обучение с нуля с помощью LoRA на нескольких GPU.
Статья: https://arxiv.org/abs/2402.16828
Проект: https://minyoungg.github.io/LTE/
@bigdatai
⚡️ Streamline Analyst: A Data Analysis AI Agent
Streamline-Analyst ИИ-агент на базе LLM, который оптимизирует весь процесс анализа данных.
▪Github
@bigdatai
🔥 Выпуск Mistral Large! Новый флагманский LLM.
Он превосходит GPT3.5 и LLaMa 2 70B во всех бенчмарках.
- Свободно владеет английским, французским, испанским, немецким и итальянским языками
- Контекстное окно на 32 тыс. лексем
- точное следование инструкциям
- встроенная возможность вызова функций
▪Дополнительная информация: https://mistral.ai/news/mistral-large/
▪Попробовать можно здесь: http://chat.mistral.ai
@bigdatai
🔥 Полезные библиотеки Python
Face classification — библиотека позволяет распознавать лица и классифицировать эмоции в реальном времени.
⚙️ GitHub/Инструкция
@bigdatai
👉 Awesome AWS
Кураторский Список библиотек Amazon Web Services (AWS), репозиториев с открытым исходным кодом, руководств, блогов и других ресурсов.
🔗 https://github.com/donnemartin/awesome-aws
@bigdatai
Недавно мы просили рассказать в опросе, какие темы интересуют тебя больше всего. Одной из самых востребованных стала тема нейросетей 🧠
27 февраля на вебинаре мы будем говорить именно о них. Аналитик-исследователь Центра технологий искусственного интеллекта Элизавета Вялых расскажет:
— как работает языковое моделирование
— какова архитектура GPT и при чем тут Оптимус Прайм
— каким было путешествие от GPT-1 до GPT-4
— топ-5 задач сотрудника в банке, которые оптимизирует GPT.
Встретимся с тобой на лекции «Generative pre-trained transformer, или как развивались GPT модели» 27 февраля в 18:00 (по МСК) 👋
Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqusYuJ1
Привет, любителям соревнований в области Data Science 🧠
В этом году Data Fusion Contest от ВТБ и Т1 возвращается с новыми увлекательными задачами в области машинного обучения.
⏱ Сроки соревнования: 15 февраля – 5 апреля
🖥 Формат: онлайн
🚀 Соревнуйтесь и выигрывайте. Data Fusion Contest 2024 — это поле битвы, где вы столкнетесь с челленджем: решить 2 задачи по геоаналитике и моделям оттока клиентов. Призовой фонд составит 2 000 000 рублей.
🌌 Растите профессионально. Решайте актуальные для бизнеса задачи, используя новые подходы на синтетических транзакционных данных пользователей.
🌟 Станьте частью сообщества. Присоединяйтесь к нашим регулярным онлайн-митапам и воркшопам.
Заявите о себе в Data Science сообществе — примите участие в соревновании от крупнейших компаний России. Регистрируйтесь на Data Fusion 2024 по ссылке — https://vk.cc/cuLBHv
Желаем удачи!✨
👉 Введение в машинное обучение
Бесплатные курсы, которые служит введением в машинное обучение и охватывает основные понятия.
• Github
@bigdatai
🚨 Осторожно, утечки!
Как сообщает DLBI, в 2022 году в сеть утекли данные 75% россиян. И это несмотря на то, что компании все больше совершенствуют системы защиты информации (используя разные классы решений, такие как DLP, DAM, DCAP и другие), а ответственность за ее хищение становится все строже.
Positive Technologies предлагает специалистам по защите информации пройти опрос и рассказать, чего не хватает в существующих системах защиты данных и что, по вашему мнению, можно улучшить.
Меньше слов, больше дела, опрос — по ссылке.
Data Engineer в Яндекс 360
Москва/СПБ
middle, senior
Яндекс 360 — это Почта, Диск, Телемост с видеозвонками, Документы, Мессенджер, Рассылки, Заметки, Календарь, Трекер, Вики и Формы. Каждый день этими сервисами пользуются миллионы человек и тысячи компаний.
Наши продукты, команды и, конечно, объёмы данных быстро растут. Мы ищем дата-инженера, который поможет организовать хранилище, навести порядок и вывести аналитику наших сервисов на новый уровень.
Какие задачи вас ждут
- Вести разработку ETL-процессов поставки данных
- Выявлять неэффективность в существующих процессах и оптимизировать их
- Проектировать структуру хранения данных
- Погружаться в данные из прикладных бизнес-областей и становиться в них экспертом
- Сопровождать разработанные ETL-процессы
- Участвовать в развитии платформы DWH
Мы ждём, что вы
- Уверенно владеете Python
- Уверенно владеете SQL (join, агрегация, оконные функции, оптимизация сложных запросов)
- Умеете пользоваться Git
- Знаете, как строить и оптимизировать ETL-процессы
Будет плюсом, если вы
- Разбираетесь в слоях DWH и моделях хранения данных
- Работали с большими объёмами данных
Откликнуться
📚 Aya: Большой датасет с открытым доступом для настройки многоязычных моделей.
- База данных по инструкциям, охватывающая 65 языков.
- Самая обширная многоязычная коллекция на сегодняшний день.
https://arxiv.org/abs/2402.06619
@bigdatai
🖥 SQL в Фокусе: Полное Руководство. 100 ключевых Вопросов с собеседований. Часть 1.
▪Читать
#junior
@bigdatai
⚡️ Ego-Exo4D: A diverse, large-scale multi-modal, multi-view, video dataset and benchmark.
Ego-Exo4D:, крупномасштабный датасет для обучения на видел.
Проект помочь качественному обучению моделей ИИ сложными человеческими навыками и подойдет для создания приложений систем виртуальной реальности, робототехники, и многого другого.
Ego-Exo4D содержит три, тщательно синхронизированных датасета естественного языка в сочетании с видео и комментариями экспертов, включают в себя более 1400 часов видео, а также аннотации для бенчмарков.
.
▪Project: ego-exo4d-data.org/
▪Request acess: https://docs.ego-exo4d-data.org/getting-started/
@bigdatai
🔥 Гайд: пишем Transformer с нуля
Интерсный Jupyter-блокнот, в котором пошагово описан процесс создания собственной модели Transformer. Каждый блок кода сопровождается подробным комментарием.
Гайд начинается с предобработки текста и заканчивает полной сборкой работающей архитектуры. За основу он взял классическую статью Attention Is All You Need и видео Андрея Карпаты Let's build GPT: from scratch, in code, spelled out.
https://blog.matdmiller.com/posts/2023-06-10_transformers/notebook.html
@bigdatai
Что такое BI-платформы и как аналитику с ними работать?
Расскажет Роман Козлов — ведущий аналитик в ГКУ «Новые технологии управления». Встречаемся на бесплатном практическом уроке от OTUS, где вы разберете:
- определение и признаки BI-систем;
- задачи BI-систем;
- тренды развития;
- лидеры рынка vs Open-source.
После урока вы сможете выбрать BI-платформу в зависимости от поставленных задач.
Занятие пройдёт 5 марта в 20:00 мск и будет приурочено к старту курса «BI-аналитика». Доступна рассрочка на обучение!
Пройдите короткий тест прямо сейчас, чтобы занять место на открытом уроке: https://otus.pw/KYoJ/?erid=LjN8KUAm3
Так уж складывается в мире данных, что Data Scientist’у порой приходится закрывать задачи сразу нескольких специалистов. К примеру, сбор данных, выявление закономерностей и формирование отчетов — это задача аналитика данных.⠀
А что делает Data Scientist?⠀
Этот специалист может:⠀
🫖 Собрать требования к бизнес-задаче и предложить математическое решение;
🫖 Подготовить данные, с помощью которых эту задачу можно решить;
🫖 Создать модель машинного обучения;
🫖Проверить модель и её работоспособность.
И всему этому мы учим на курсе Data Scientist. Его разработали два эксперта области:
— Иван Аникин, Team Lead Yandex.Edadeal;
— Владимир Бугаевский, Team Lead СберМаркет.
Они же будут преподавать на потоке, который стартует 29 марта! Иван и Владимир будут отвечать на вопросы студентов в чате и на онлайн-встречах, смотреть учебные проекты и давать по ним обратную связь.⠀
Узнать больше о программе курса и записаться на поток вы можете на нашем сайте по ссылке.
Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451
Работаешь с данными и чувствуешь, что из них можно получить больше? В DataWorkshop расскажут как это сделать.
5 дней практики в Data Science на реальных данных магазина из Великобритании.
1-2 часа в день и самостоятельно создаешь модели машинного обучения.
Старт - 4 марта. Обучаешься под руководством эксперта в своем темпе, в удобное время.
6000+ человек из разных стран мира уже приняли участие в данном интенсиве.
15 лет практического опыта у автора интенсива, поэтому полученные знания можно сразу применять в рабочих проектах.
Обучают с 2017 года.
Предоставляем готовое окружение - ничего устанавливать и настраивать не нужно.
Участие бесплатно только для первых 100 записавшихся человек.
Успевайте записаться по 👉 ЭТОЙ ССЫЛКЕ
А еще много полезной информации о том, как начать работать в сфере Data Science в их канале.
Реклама: ИП Кравченко Николай Васильевич LjN8KCNbP
⚡️ Шпаргалка по ML
Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево
Поможет без проблем подготовиться к собесу и освежить знания
📁 PDF
@data_analysis_ml
⛅ Запуск локального кода в облаке без настройки серверов и кластеров
Yandex DataSphere Jobs позволяет запускать любую программу на Python или shell-скрипт в облаке без всяких изменений. Для запуска скрипта не нужно модифицировать исходный код, самостоятельно развёртывать кластер и собирать окружение — это происходит автоматически при запуске скрипта.
Преимущества DataSphere Jobs:
⏺ Быстрый запуск вычислений в облаке с доступом ко всем его ресурсам, включая GPU без настройки виртуальных машин и кластеров.
⏺ Безопасность — Yandex Cloud выполняет все требования безопасности информации и работы с персональными данными. После исполнения вычислений DataSphere Jobs удалит весь код и данные.
⏺ Экономия затрат на развёртывание кластеров, их обслуживание и DevOps.
🗣 Подробнее смотрите в видео.
Реклама. ООО «Яндекс.Облако» ИНН 7704458262
🚀 Advances in private training for production on-device language models
Языковые модели, предсказывающие следующее слово, являются ключевой технологией для многих ИИ приложений. Узнайте, как многолетние исследования стали основой обучения языковых моделей Google
• Статья
@bigdatai
💫 Не только NVIDIA: Программирование на GPU, которое работает везде
Если вы хотите запускать GPU-программы в CI, на Mac и т.д., wgu-py - отличный вариант.
https://pythonspeed.com/articles/gpu-without-cuda/
@bigdatai
Depth Anything
Эта нейросеть анализирует сцену и определяет глубину каждого пикселя, что открывает новые горизонты для автономного вождения, робототехники, дополненной реальности и многого другого. Загружайте изображения по одному или пакетом, экспортируйте прямо в свой проект.
https://github.com/LiheYoung/Depth-Anything
@bigdatai
📊 Matplotlib Panel
Панель Matplotlib позволяет отображать графики Matplotlib в приложении Panel.В том числе фигуры, созданные Seaborn, Pandas .plot, Plotnine и любой другой библиотекой для построенной графиков поверх Matplotlib.
Панель Matplotlib отрендерит объект в PNG или SVG при заявленном DPI и затем отобразит его.
В этом руководстве приведены примеры с кодом по работе с панелью.
https://panel.holoviz.org/reference/panes/Matplotlib.html
@bigdatai
📕 Экономим время на чтении научных статей
SciSummary — это полезная нейросеть, которая не только способна создать краткое резюме любой научной статьи, но и постарается сделать это простыми для понимания словами.
Кроме того, есть возможность выбрать русский язык для резюме и получить пояснения по непонятным терминам прямо в чате этого инструмента.
https://scisummary.com/
@bigdatai
Nvidia выпустила Chat with RTX - чатбота с искусственным интеллектом, который работает локально на вашем компьютере.
Он может обобщать или искать документы в файлах вашего ПК и даже видео и плейлисты YouTube.
Чатбот работает локально, что означает быстрое получение результатов и возможность использования бота без интернета.
https://www.nvidia.com/en-us/ai-on-rtx/chat-with-rtx-generative-ai/
@bigdatai
⚡️ InternLM / InternLM-XComposer
InternLM-XComposer2 - это новаторская большая модель языка зрения (VLLM), позволяющая составлять и понимать текст-изображение в свободной форме.
▪Github
▪Demo
@bigdatai
⁉️Как написать проект одновременно на двух языках – Kotlin и Rust?
👨🏫Расскажет Сергей Окатов – кандидат физико-математических наук, руководитель управления разработки БФТ.ЦР. Встречаемся на бесплатном практическом уроке от OTUS, где мы:
- расскажем о двух молодых и активно развивающихся языках, вошедших в TIOBE-20; - обсудим их преимущества, недостатки и причины, почему они занимают ниши популярных языков Java, JS и C/C++;
- изучим сочетание преимуществ обоих языков;
- продемонстрируем, как можно интегрировать их в одном проекте.
📆Занятие пройдёт 13 февраля в 19:00 мск и будет приурочено к старту курса «Kotlin Backend Developer. Professional». Доступна рассрочка на обучение!
➡️Пройдите бесплатный тест прямо сейчас, чтобы занять место на открытом уроке и получить запись: https://otus.pw/xsdC/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8JvHm3
Скажите что-то на карьерном
Тинькофф в поиске крутых ИТ-спецов. С компании — профессиональный рост, интересные финтех-задачи, решение бытовых забот и работа там, где вы живете. С вас — выбрать вакансию и откликнуться тут
АО «Тинькофф Банк», ИНН 7710140679
Создать и обучить нейросеть — вопрос времени.
Получить необходимый для этого навык — вообще не вопрос.
Приходите на бесплатный интенсив «Погружение в Data Science: обучите свою первую нейросеть за два дня» от онлайн-школы Skillfactory.
С 12 по 13 февраля будете строить алгоритмы и обучать нейронную сеть.
А за лучшее решение домашнего задания сможете получить мини-курс по аналитическому мышлению в подарок.
Зарегистрироваться: https://go.skillfactory.ru/&erid=2VtzqwW8FEF
Реклама. ООО «Скилфэктори», ИНН: 9702009530