👩💻 Ускорь Pandas в 20 раз, изменив всего одну строчку кода! 🔥
💡 Pandas часто бывает медленным. Но есть простое решение: FireDucks — библиотека с таким же API, как у Pandas, которая решает значительно ускоряет обработку данных.
❓ Как ускорить Pandas?
🌟 Просто замените импорт библиотеки:
❌ Было:
import pandas as pd
import fireducks.pandas as pd
🌟 LLaMa 3.2 Multimodal Web UI — это удобный интерфейс для работы с LLaMa 3.2 на базе Ollama.
Он поддерживает различные типы данных, включая текстовые и графические и позволяет пользователям задавать вопросы и получать ответы в различных форматах: текстовом, кодовом и визуальном.
Этот интерфейс адаптирован под использование на настольных компьютерах и мобильных устройствах и был тщательно протестирован на Ubuntu.git clone https://github.com/iamgmujtaba/llama3.2-webUI
▪ Github
@data_analysis_ml
Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень!
Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей!
Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации.
Чтобы принять участие, надо:
- быть студентом бакалавриата или магистратуры в российском или зарубежном вузе;
- разбираться в ML, алгоритмах и работе с данными;
- подать заявку на сайте до 5 октября.
Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!
Оффер в дата-аналитику за выходные? Легко — для опытных специалистов на Data Weekend Offer от Авито! Пройдите ускоренный отбор, изучайте поведение пользователей и ищите точки роста бизнеса.
Вас ждет:
— конкурентная зарплата, удаленка и дополнительные дни отпуска;
— возможность прокачать свой стек – проверять бизнес-модели, тестить гипотезы, запускать фичи и улучшать пользовательский опыт;
— участие в разработке новых продуктов крупнейшего в мире сервиса объявлений;
— сильное IT-комьюнити, которое любит опенсорс.
Авито – это про карьерное развитие и комфортные условия. Регистрируйтесь до 15 октября: https://u.to/Z-bkIA
⚡Всероссийский хакатон по Биометрии
🚀Выберите один из предложенных кейсов:
🔹Разработка ассистента для упрощения регистрации в Единой биометрической системе (кейс ЦБТ);
🔹Создание инструмента для генерации синтетического датасета изображений ладоней (кейс Сбера);
🔹Создание инструмента для восстановления изображения из вектора биометрических персональных данных (кейс Мир Plat.form и СБП).
Отборочный этап пройдет в онлайн-формате. Финал пройдет на площадке в Москве, где команды смогут лично пообщаться с профессионалами в сфере биометрических технологий. Для финалистов из других регионов предусмотрено участие онлайн.
⏳Дедлайн регистрации: 1 октября, 23:59
🦾Отборочный этап: 4-13 октября
📆Финал: 26 октября
👨💻Для кого: Разработчики, ML-специалисты, Data Scientists, UX/UI-специалисты
Подробности и регистрация: https://tglink.io/29b052ab52e5?erid=LjN8Jvf5p
#реклама
О рекламодателе
🌟 Реализация высоконагруженный процессингов и использование тяжелых моделей GPT
Как подходы к генерации развивались со временем, первый подход к оптимизации нагрузки и взаимодействие процессинга и сервиса ML‑вычислений. Команда Яндекса поделилась опытом эффективного распределения нагрузки для моделей на GPU и CPU.
🟡 Habr
@data_analysis_ml
⚡️ Выпущена мультимодальная Llama 3.2 — с упором на vision задачи.
- Доступны версии на 1B и 3B параметров. Версия с 3 миллиардами превосходит такие модели, как Gemma 2 и Phi-3.5 – Mini.
- Доступна маленькая версия имеет 11 миллиардов параметров.
- Средний вариант обладает 90 миллиардами параметров и превосходит GPT-4o-mini по тестам на визуальное понимание.
https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
@data_analysis_ml
Yandex Cloud открыла доступ к Yandex Cloud AI Studio – единой платформе для создания приложений на базе ИИ
Платформа объединяет все доступные ML-решения компании, включая генеративные нейросети: YandexGPT и YandexART. Единый интерфейс позволяет упростить разработку и ускорить запуск многофункциональных ИИ-приложений.
Чтобы писать меньше кода для интеграции нейросетей, разработчики могут воспользоваться SDK-библиотекой с готовыми примерами кода.
Также пользователи смогут тестировать ML-решения в AI Playground: в нем можно вести одновременно несколько диалогов, в каждом из которых сохраняется история обращений.
Читайте подробнее в статье.
👀 Open AI только что выпустила многоязычный датасет Multilingual Massive Multitask Language Understanding (MMMLU) на huggingface
🌍 Набор тестов MMLU доступен на 14 языках, включая арабский, немецкий, испанский, французский,...........
🧠 Он охватывает широкий спектр тем из 57 различных категорий, от элементарных знаний до продвинутых профессиональных дисциплин, таких как юриспруденция, физика, история и информатика.
🎓 Переведено профессиональными переводчиками
🔬 Оценивает общие знания моделей искусственного интеллекта в различных культурах, используемые в openai/simple-evals
🤔 Лицензия не определена
https://huggingface.co/datasets/openai/MMMLU
@data_analysis_ml
🖥 Андрей Карпаты выложил ролик , где рассказывает о создании своего знаменитого проекта llm.c.
Его не удовлетворяли возможности PyTorch и метод compile, поэтому он принял решение переписать всё самостоятельно с нуля на языке C. Сейчас llm.c является крайне популярным проектом среди энтузиастов
Энтузиасты активно внедряют новые оптимизации, а в
ближайшем будущем планируют добавить поддержку llama-3.1.
Это отличный материал для прокачки мозгов 🧠
https://www.youtube.com/watch?v=BmdOt6A6tHM
@data_analysis_ml
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/bigdatai
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
🖥 pipe func - инструмент для создания простого функционального конвейера (DAG) на чистом Python для задач по анализу данных и научных вычислений 🕸️🧪
DAG — это ориентированный ациклический граф, концептуальное представление серии действий или, другими словами, математическая абстракция конвейера данных (data pipeline).
▪ Github
@data_analysis_ml
🎵 EZAudio - это новая модель преобразования текста в аудио (T2A).
Она устанавливает новый стандарт для моделей T2A с открытым исходным кодом b обеспечивает быструю, эффективную и реалистичную генерацию звуковых эффектов.
https://huggingface.co/spaces/OpenSound/EzAudio
@data_analysis_ml
Как быстро обработать большой объем данных и ничего не потерять?
Расскажем на бесплатном вебинаре «Больше чем Pandas: библиотеки подготовки данных для ML-моделей».
Разберём:
➡️ на что стоит обратить внимание для эффективной работы с данными;
➡️ форматы работы с данными и их особенности;
➡️ фреймворки: pandas, swifter, polars, dask и cudf.
⚡️Спикер: Владимир Бугаевский, Team Lead Поиска в Купере
Бонус: демонстрационные jupyter-ноутбуки
⭐️ Когда вебинар: 24 сентября в 19:00
⭐️ Занять место на вебинаре — через бота
Реклама ООО «Слёрм» ИНН 3652901451
⚽ SoccerNet 2024 ⚽
SoccerNet - это крупномасштабный набор данных для анализа футбольных видео. С годами он развивался и включал в себя различные задачи, такие как отслеживание действий игроков, калибровка камеры, идентификация игроков и отслеживание движения.
Он состоит из 550 полных трансляций футбольных матчей и 12 игр, снятых одной камерой в главных европейских лигах.
SoccerNet - это не только набор данных, но и ежегодные соревнования, в которых лучшие команды соревнуются на международном уровне.
▪Статья: arxiv.org/pdf/2409.10587
▪Github: github.com/SoccerNet
▪Project: www.soccer-net.org/
@data_analysis_ml
📚 ebook2audiobook
Инструмент, который позволяет конвертировать электронные книги в аудиокниги с главами и метаданными с помощью Calibre и Coqui XTTS.
📖 Преобразует электронные книги в текстовый формат с помощью Calibre.
📚 Разбивает электронную книгу на главы для упорядоченного воспроизведения.
🎙️ Высококачественное преобразование текста в речь с помощью Coqui XTTS.
🗣️ Клонирование голоса с помощью вашего образца голоса .
⭐ Поддерживает несколько языков (по умолчанию английский, русский поддерживается).pip install tts==0.21.3 pydub nltk beautifulsoup4 ebooklib tqdm
▪Github
@data_analysis_ml
⚡️ Screenpipe записывает ваш экран и обрабатывает эти записи с помощью Ollama.
Инструмент написан на Rust.
Он позволяет автоматически собирать данные с вашего пк во всех форматах (текст, аудио, видео) и обрабатывать с помощью LLM.
Особое внимание уделено безопасности данных, с фокусом на локальное хранение в базе данных SQLite. Исходный код доступен на GitHub : https://github.com/mediar-ai/screenpipe
▪ Github
@data_analysis_ml
📊 FinanceDatabase для Python — мощный инструмент для работы с финансовыми данными!
❓Этот репозиторий предоставляет удобный доступ к более чем 300 000 финансовых инструментов: акции, ETF, криптовалюты, облигации и многое другое. Можно легко находить информацию по каждому активу и использовать ее в своих проектах.
💡 Установка:
pip install financedatabase -U
import financedatabase as fd
🐐Oryx🐐 - унифицированная мультимодальная архитектура для генераций изображений, видео и 3D-сцен с разными ракурсами.
- Проект: https://oryx-mllm.github.io
- Github: https://github.com/Oryx-mllm/Oryx
- Демо: https://huggingface.co/spaces/THUdyh/Oryx
@data_analysis_ml
⚡️Исследование неочевидных аспектов квантового программирования:
10 библиотек для тех, кто хочет погрузиться в квантовое программирование:
▪Qiskit — это библиотека для квантового программирования, которая позволяет пользователям писать программы для квантовых компьютеров IBM. Включает поддержку классических, квантовых алгоритмов и визуализацию квантовых схем.
▪Cirq — это библиотека от Google для создания, симуляции и выполнения квантовых алгоритмов. Она предназначена для использования с квантовыми компьютерами и обеспечивает возможность работы с сложными квантовыми системами.
▪PennyLane - объединяет машинное обучение и квантовое программирование. Она позволяет пользователям создавать самонастраиваемые квантовые алгоритмы и исследовать преимущества квантовых вычислений в задачах машинного обучения.
▪ProjectQ - это открытая платформа для квантовых вычислений, которая позволяет пользователям реализовывать и симулировать квантовые алгоритмы, и включает в себя интерфейсы для различных квантовых процессоров.
▪QuTiP - предоставляет инструменты для моделирования квантовых систем и является незаменимым инструментом для исследователей квантовой механики и квантовой оптики.
▪PyQuil - это библиотека для написания квантовых программ с помощью языка квантового программирования Quil, разработанного Rigetti Computing. Поддерживает симуляцию и выполнение программ на реальных квантовых процессорах.
▪Tequila - это инструмент для создания квантовых алгоритмов с интеграцией в PyTorch и TensorFlow, который позволяет больше акцентировать внимание на квантовых вычислениях в контексте глубокого обучения.
▪Strawberry Fields предлагает платформу для создания и симуляции квантовых алгоритмов с использованием квантовых битов и квантовой оптики. Подходит для работы с квантовыми сетями и визуализацией в квантовых схемах.
▪Q# - это язык программирования от Microsoft для квантовых вычислений, который также предоставляет библиотеки, намеренные упростить разработку и выполнение квантовых алгоритмов в Azure Quantum.
▪Quirk — это онлайн-интерфейс для визуального проектирования и анализа квантовых схем, который позволяет легко экспериментировать с различными квантовыми логическими элементами.
#quantum #python #ai
@data_analysis_ml
🌟 ChatGPT на калькуляторе TI-84
Автор ютуб-канала ChromaLock">ChromaLock сделал модифицированный калькулятор TI-84, оснащённый возможностью выхода в интернет.
С помощью микроконтроллера ESP32C3 и специально разработанной печатной платы, калькулятор получил возможность подключения к интернету.
Связь между калькулятором и модулем осуществляется с помощью эмуляции протокола передачи данных TI-84. Специальные приложения на калькуляторе, написанные на TI Basic, взаимодействуют с микроконтроллером, отправляя и получая данные, эмулируя обмен между двумя калькуляторами, чтобы обходить ограничения отправки и получение данных.
В результате, TI-84 получил возможности:
🟠чат для связи с друзьями;
🟠браузер изображений;
🟠браузер приложений для загрузки дополнительных программ и заметок;
🟠возможность получать ответы на вопросы через ChatGPT.
@data_analysis_ml
#AI #ML #LLM #Tutorial
⚡️ Настоящая кладезь руководств по генеративным агентам искусственного интеллекта!
В этом репозитории вы найдете все, что связано с агентами. От простых объяснений до самых сложных тем.
https://github.com/NirDiamant/GenAI_Agents
@data_analysis_ml
⚡️ Вышел Face fusion 3.0
Мощное приложение для работы с лицами с открытым исходным кодом на базе Gradio, поддерживает множество новых функций, включая:
- Модификация возраста
- Редактор лиц (через LivePortrait)
- Система очередей заданий
- И многое другое
▪Github: https://github.com/facefusion/facefusion
▪Proj: join.facefusion.io
▪Установка: https://pinokio.computer/item?uri=https://github.com/facefusion/facefusion-pinokio
@data_analysis_ml
Большинство моделей от Mistral теперь доступны бесплатно по API 😱
Что за аттракцион невиданной щедрости? Вероятно, ваши запросы будут использованы для обучения новых моделей (хотя это не точно).
VPN не требуется, карта не нужна. Пользуйтесь!
@data_analysis_ml
🖥 Daily Papers HN - это веб-приложение на базе Python, которое отображает академические статьи в интерфейсе, похожем на Hacker News.
Приложение использует Hugging Face Daily Papers API для получения и вывода статей в виде отсортированного списка.
▪Github
▪Demo
@data_analysis_ml
🧑🍳 Свежий гайд по работе Groq API!
В этом руководстве подробно показано как создать приложение для модерации изображений на базе Grog для быстрого анализа изображений и проверки содержания контент на них .
Также в гайде показано как использовать Gradio для создания удобного интерфейса.
Groq известен своей невероятно высокой скоростью вывода, которая очень хорошо подходит для ИИ приложений, предоставляя множество больших языковых моделей (LLM) в различных модальностях через Groq API.
В этом руководстве используется LlaVA 1.5 7B для анализа изображений и Llama Guard 3 8B для оценки контент на изображеня.
▪Гайд: https://github.com/groq/groq-api-cookbook/blob/main/tutorials/image_moderation.ipynb
▪Демо: https://huggingface.co/spaces/Groq/image-moderation
@data_analysis_ml
⚡️ KoolCogVideoX-5b
Инструмент генерации видео, который доработан на основе опенсорсного видеогенератора CogVideoX-5B специально для генерации дизайна интерьера.
▪Демо: https://huggingface.co/spaces/bertjiazheng/KoolCogVideoX
▪5b: https://huggingface.co/bertjiazheng/KoolCogVideoX-5b
▪2b: https://huggingface.co/bertjiazheng/KoolCogVideoX-2b
@data_analysis_ml
⚡️ Qwen2.5 Family: Релиз Qwen2.5, Qwen2.5-Coder и Qwen2.5-Math.
Команда разработки Qwen (Alibaba Group) опубликовала большой релиз нового поколения моделей - Qwen2.5, специализированные модели: Qwen2.5-Coder, Qwen2.5-Math, их инструктивные и квантованные версии, анонсированы закрытые Qwen-Plus и Qwen-Turbo.
Вместе с релизом нового поколения 2.5 в отрытый доступ опубликована Qwen2-VL-72B-Instruct предыдущего поколения.
▶️ Qwen2.5
В дополнение к традиционным вариантам с 0,5-1,5-7-72 млрд параметров, Qwen2.5 предлагает две новые модели среднего размера 14 млрд и 32 млрд параметров и компактную модель 3 млрд параметров.
Qwen2.5 обучались на увеличенном и улучшенном наборе данных размером в 18 трлн токенов.
Значительно расширены знания моделей: возможности в области программирования,
усовершенствованы математические способности Qwen2.5, повышено соответствие ответов модели предпочтениям человека: следование инструкциям, генерация длинных текстов (до 8 тыс. токенов), понимание структурированных данных и генерация структурированных выводов (в частности, JSON).
Список моделей:
🟢Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
🟢Qwen2.5-Instruct: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
🟢Qwen2.5-Instruct: все варианты в форматах GPTQ, AWQ, GGUF.
В дополнение к этим моделям открыт доступ по API для флагманских моделей: Qwen-Plus и Qwen-Turbo через Model Studio.
▶️ Qwen2.5 Coder
Qwen2.5-Coder доступна в трех размерах: 1,5 млрд, 7 млрд и 32 млрд параметров (последняя появится в ближайшее время). Обновление состоит из двух основных улучшений: больше объем обучающих данных и расширение возможностей программирования в общих задачах и в математике.
Модели обучались на массиве данных объемом 5,5 триллиона токенов, включающем исходный код, данные для сопоставления текста и кода и синтетические данные.
Qwen2.5-Coder поддерживает до 128 тысяч токенов контекста, знает 92 языка программирования и выполняет операции по генерации кода, автодополнению и исправлению кода.
Qwen2.5-Coder-Instruct имеет способность к обобщению, знает более 40 языков программирования, справляется с задачами, связанными с логическим мышлением в коде, и показывает высокие результаты в задачах, связанных с математическим мышлением.
Список моделей:
🟠Qwen2.5-Coder: 1.5B, 7B;
🟠Qwen2.5-Coder-Instruct: 1.5B, 7B;
🟠Qwen2.5-Coder-Instruct в формате GGUF: 1.5B, 7B.
▶️ Qwen2.5 Math
Qwen2.5-Math обучались на корпусе математических данных Qwen Math Corpus v2, который содержит более 1 трлн. токенов.
Помимо базовых моделей, серия Qwen2.5-Math включает в себя инструктивные модели: Qwen2.5-Math-Instruct и модель математического вознаграждения, Qwen2.5-Math-RM-72B.
Qwen2.5-Math-Instruct обучалась с использованием данных CoT и TIR на китайском и английском языках, а также данных SFT, созданных с использованием Qwen2.5-Math-RM-72B.
Список моделей:
🟠Qwen2.5-Math: 1.5B, 7B, 72B, RM-72B;
🟠Qwen2.5-Math-Instruct: 1.5B, 7B, 72B.
▶️ Вместе с релизом Qwen2.5, опубликована Qwen2-VL-72B-Instruct и ее квантованные Int8 и Int4 версии в форматах GPTQ, AWQ.
📌Лицензирование:
🟢Apache 2.0 для всех base и instruct моделей, кроме 3B и 72B.
🟠Qwen2.5-3B - Qwen Research License.
🟠Qwen2.5-72B и Qwen2.5-Math-72B - Qwen License.
🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo Qwen2.5-Instruct-72B
🟡Demo Qwen2.5-Coder-Instruct-7B
🟡Demo Qwen2.5-Math
🟡Сообщество в Discord
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Qwen
🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.
Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.
➡️ https://llamacoder.together.ai
Подробнее об этом проекте ➡️ https://go.fb.me/p5o0x0
@data_analysis_ml
Станьте аналитиком данных или специалистом по машинному обучению на курсе Skillbox «Data Scientist с нуля до Junior». За 9 месяцев вы научитесь:
🔸Аналитически мыслить — самостоятельно решать проблемы, выдвигать и проверять гипотезы, интерпретировать результаты.
🔸Извлекать данные из источников — читать файлы различных форматов при помощи Python, писать запросы к API, получать, очищать и сохранять данные.
🔸Строить аналитические модели и разрабатывать модели машинного обучения.
🔸Работать с инструментами дата-сайентиста — Python, Git, визуализацией данных в Power BI.
После курса Центр карьеры Skillbox поможет найти первую работу. Вместе с вами составим резюме и оформим портфолио, подберем подходящие вакансии и подготовим к интервью.
Сразу платить не нужно. Сначала попробуйте, потом принимайте решение. Оставьте заявку, и мы откроем доступ к первым 3 модулям курса.
Переходите по ссылке: https://epic.st/RPkpZ?erid=2VtzqwWHQVM
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880