data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🖥 Андрей Карпаты выложил ролик , где рассказывает о создании своего знаменитого проекта llm.c.

Его не удовлетворяли возможности PyTorch и метод compile, поэтому он принял решение переписать всё самостоятельно с нуля на языке C. Сейчас llm.c является крайне популярным проектом среди энтузиастов

Энтузиасты активно внедряют новые оптимизации, а в
ближайшем будущем планируют добавить поддержку llama-3.1.

Это отличный материал для прокачки мозгов 🧠

https://www.youtube.com/watch?v=BmdOt6A6tHM

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/bigdatai
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🖥 pipe func - инструмент для создания простого функционального конвейера (DAG) на чистом Python для задач по анализу данных и научных вычислений 🕸️🧪

DAG — это ориентированный ациклический граф, концептуальное представление серии действий или, другими словами, математическая абстракция конвейера данных (data pipeline).

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎵 EZAudio - это новая модель преобразования текста в аудио (T2A).

Она устанавливает новый стандарт для моделей T2A с открытым исходным кодом b обеспечивает быструю, эффективную и реалистичную генерацию звуковых эффектов.

https://huggingface.co/spaces/OpenSound/EzAudio

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как быстро обработать большой объем данных и ничего не потерять?

Расскажем на бесплатном вебинаре «Больше чем Pandas: библиотеки подготовки данных для ML-моделей».

Разберём:
➡️ на что стоит обратить внимание для эффективной работы с данными;
➡️ форматы работы с данными и их особенности;
➡️ фреймворки: pandas, swifter, polars, dask и cudf.

⚡️Спикер: Владимир Бугаевский, Team Lead Поиска в Купере

Бонус: демонстрационные jupyter-ноутбуки

⭐️ Когда вебинар: 24 сентября в 19:00
⭐️ Занять место на вебинаре — через бота

Реклама ООО «Слёрм» ИНН 3652901451

Читать полностью…

Анализ данных (Data analysis)

⚽ SoccerNet 2024 ⚽

SoccerNet
- это крупномасштабный набор данных для анализа футбольных видео. С годами он развивался и включал в себя различные задачи, такие как отслеживание действий игроков, калибровка камеры, идентификация игроков и отслеживание движения.

Он состоит из 550 полных трансляций футбольных матчей и 12 игр, снятых одной камерой в главных европейских лигах.

SoccerNet - это не только набор данных, но и ежегодные соревнования, в которых лучшие команды соревнуются на международном уровне.

Статья: arxiv.org/pdf/2409.10587
Github: github.com/SoccerNet
Project: www.soccer-net.org/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎇AutoRound был интегрирован в PyTorch

AO, хорошая библиотека, предоставляющая встроенную квантование и для обучения моделей.

pip install auto-round

🎯Пример кода: https://github.com/pytorch/ao/tree/d2bce6a56eae5701cb72eb0cf6359626e7bd0190/torchao/prototype/autoround
🔥AutoRound Github: https://github.com/intel/auto-round

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎧 WaveWizard 🎶


WaveWizard - это интерактивное приложение Gradio, которое анализирует аудиофайлы, чтобы определить их частоту дискретизации и битовую глубину.

Оно поможет вам проверить, являются ли ваши аудиофайлы высокого разрешения подлинными или же они были пересжаты из источников более низкого качества.

github: https://github.com/JackVinati/WaveWizard

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ SwiftBrush v2 может улучшить качество изображений, создаваемых моделями диффузии текста в изображение!

Результаты выглядят великолепно, и, судя по всему, в бенчмарках она превосходит все модели на основе GAN и многошаговые модели Stable Diffusion.

https://swiftbrushv2.github.io


@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Новостной дайджест

✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons.

Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев.

Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ.
uk.news.yahoo.com

✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO.

Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO.
scmp.com


✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности.

AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров.

Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы.

Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию.

FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025.
hothardware.com

✔️ ОАЭ представили новую политику безопасности в области ИИ.

Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности.

Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия.
wam.ae

✔️ Италия тестирует обучение с помощью ИИ в школах.

Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС.

В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования".

Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт.

В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить.
kfgo.com


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🔥 g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains

Прототип g1, в котором показано использование Llama-3.1 70B на платформе Groq для формирования цепочек выводов, схожих с теми, что используются в o1 Open AI.

В отличие от o1, в g1 представлены все элементы рассуждений посредством использования открытой модели, что стимулирует сообщество open source к разработке новых стратегий.

Данный эксперимент демонстрирует продуктивность пошаговых рассуждений при таком подходе, хотя g1 не достигает таких высоких результатов в сложных задачах, как o1, которая использует масштабное обучение с подкреплением.

https://github.com/bklieger-groq/g1

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 One-DM может генерировать рукописный текст по одному образцу, имитируя стиль вводимого текста.

Он улавливает уникальные особенности письма и хорошо работает на нескольких языках.

https://github.com/dailenson/One-DM

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 NVIDIA выпустила уменьшенную версию, Nemotron-Mini-4B-Instruct

- Оптимизирована для ролевых игр, RAG QA и вызова функций на английском языке.

- Поддерживает контекст длиной 4 096 лексем.

- Разрешено коммерческое использование

🌟 Подробнее про Nemotron

Это доработанная версия nvidia's Minitron-4B-Base, которая была обрезана(прунинг) и соборно из Nemotron-4 15B с помощью техники сжатия LLM.

https://huggingface.co/nvidia/Nemotron-Mini-4B-Instruct

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🫦 Pose Talk - это мощный метод синхронизации губ, который позволяет создавать видеоролики с говорящей головой из одного изображения, аудио и текстовых подсказок.

https://junleen.github.io/projects/posetalk

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🍏 Все, что вам нужно это 2 Макбука

Крутой домашний клестер: Llama 3.1 405B работает распределенно на 2х макбуках.


https://github.com/exo-explore/exo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Daily Papers HN - это веб-приложение на базе Python, которое отображает академические статьи в интерфейсе, похожем на Hacker News.

Приложение использует Hugging Face Daily Papers API для получения и вывода статей в виде отсортированного списка.

▪Github
Demo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧑‍🍳 Свежий гайд по работе Groq API!

В этом руководстве подробно показано как создать приложение для модерации изображений на базе Grog для быстрого анализа изображений и проверки содержания контент на них .

Также в гайде показано как использовать Gradio для создания удобного интерфейса.

Groq известен своей невероятно высокой скоростью вывода, которая очень хорошо подходит для ИИ приложений, предоставляя множество больших языковых моделей (LLM) в различных модальностях через Groq API.

В этом руководстве используется LlaVA 1.5 7B для анализа изображений и Llama Guard 3 8B для оценки контент на изображеня.

Гайд: https://github.com/groq/groq-api-cookbook/blob/main/tutorials/image_moderation.ipynb
Демо: https://huggingface.co/spaces/Groq/image-moderation

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ KoolCogVideoX-5b

Инструмент генерации видео, который доработан на основе опенсорсного видеогенератора CogVideoX-5B специально для генерации дизайна интерьера.

Демо: https://huggingface.co/spaces/bertjiazheng/KoolCogVideoX
5b: https://huggingface.co/bertjiazheng/KoolCogVideoX-5b
2b: https://huggingface.co/bertjiazheng/KoolCogVideoX-2b

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Qwen2.5 Family: Релиз Qwen2.5, Qwen2.5-Coder и Qwen2.5-Math.

Команда разработки Qwen (Alibaba Group) опубликовала большой релиз нового поколения моделей - Qwen2.5, специализированные модели: Qwen2.5-Coder, Qwen2.5-Math, их инструктивные и квантованные версии, анонсированы закрытые Qwen-Plus и Qwen-Turbo.

Вместе с релизом нового поколения 2.5 в отрытый доступ опубликована Qwen2-VL-72B-Instruct предыдущего поколения.

▶️ Qwen2.5

В дополнение к традиционным вариантам с 0,5-1,5-7-72 млрд параметров, Qwen2.5 предлагает две новые модели среднего размера 14 млрд и 32 млрд параметров и компактную модель 3 млрд параметров.

Qwen2.5 обучались на увеличенном и улучшенном наборе данных размером в 18 трлн токенов.

Значительно расширены знания моделей: возможности в области программирования,
усовершенствованы математические способности Qwen2.5, повышено соответствие ответов модели предпочтениям человека: следование инструкциям, генерация длинных текстов (до 8 тыс. токенов), понимание структурированных данных и генерация структурированных выводов (в частности, JSON).

Список моделей:

🟢Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;

🟢Qwen2.5-Instruct: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;

🟢Qwen2.5-Instruct: все варианты в форматах GPTQ, AWQ, GGUF.

В дополнение к этим моделям открыт доступ по API для флагманских моделей: Qwen-Plus и Qwen-Turbo через Model Studio.

▶️ Qwen2.5 Coder

Qwen2.5-Coder доступна в трех размерах: 1,5 млрд, 7 млрд и 32 млрд параметров (последняя появится в ближайшее время). Обновление состоит из двух основных улучшений: больше объем обучающих данных и расширение возможностей программирования в общих задачах и в математике.

Модели обучались на массиве данных объемом 5,5 триллиона токенов, включающем исходный код, данные для сопоставления текста и кода и синтетические данные.

Qwen2.5-Coder поддерживает до 128 тысяч токенов контекста, знает 92 языка программирования и выполняет операции по генерации кода, автодополнению и исправлению кода.

Qwen2.5-Coder-Instruct имеет способность к обобщению, знает более 40 языков программирования, справляется с задачами, связанными с логическим мышлением в коде, и показывает высокие результаты в задачах, связанных с математическим мышлением.

Список моделей:

🟠Qwen2.5-Coder: 1.5B, 7B;

🟠Qwen2.5-Coder-Instruct: 1.5B, 7B;

🟠Qwen2.5-Coder-Instruct в формате GGUF: 1.5B, 7B.


▶️ Qwen2.5 Math

Qwen2.5-Math обучались на корпусе математических данных Qwen Math Corpus v2, который содержит более 1 трлн. токенов.

Помимо базовых моделей, серия Qwen2.5-Math включает в себя инструктивные модели: Qwen2.5-Math-Instruct и модель математического вознаграждения, Qwen2.5-Math-RM-72B.

Qwen2.5-Math-Instruct обучалась с использованием данных CoT и TIR на китайском и английском языках, а также данных SFT, созданных с использованием Qwen2.5-Math-RM-72B.

Список моделей:

🟠Qwen2.5-Math: 1.5B, 7B, 72B, RM-72B;

🟠Qwen2.5-Math-Instruct: 1.5B, 7B, 72B.


▶️ Вместе с релизом Qwen2.5, опубликована Qwen2-VL-72B-Instruct и ее квантованные Int8 и Int4 версии в форматах GPTQ, AWQ.


📌Лицензирование:

🟢Apache 2.0 для всех base и instruct моделей, кроме 3B и 72B.
🟠Qwen2.5-3B - Qwen Research License.
🟠Qwen2.5-72B и Qwen2.5-Math-72B - Qwen License.



🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo Qwen2.5-Instruct-72B
🟡Demo Qwen2.5-Coder-Instruct-7B
🟡Demo Qwen2.5-Math
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Qwen

Читать полностью…

Анализ данных (Data analysis)

🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.

Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.

➡️ https://llamacoder.together.ai

Подробнее об этом проекте ➡️ https://go.fb.me/p5o0x0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Станьте аналитиком данных или специалистом по машинному обучению на курсе Skillbox «Data Scientist с нуля до Junior». За 9 месяцев вы научитесь:

🔸Аналитически мыслить — самостоятельно решать проблемы, выдвигать и проверять гипотезы, интерпретировать результаты.

🔸Извлекать данные из источников — читать файлы различных форматов при помощи Python, писать запросы к API, получать, очищать и сохранять данные.

🔸Строить аналитические модели и разрабатывать модели машинного обучения.

🔸Работать с инструментами дата-сайентиста — Python, Git, визуализацией данных в Power BI.

После курса Центр карьеры Skillbox поможет найти первую работу. Вместе с вами составим резюме и оформим портфолио, подберем подходящие вакансии и подготовим к интервью.

Сразу платить не нужно. Сначала попробуйте, потом принимайте решение. Оставьте заявку, и мы откроем доступ к первым 3 модулям курса.

Переходите по ссылке: https://epic.st/RPkpZ?erid=2VtzqwWHQVM

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

Если чувствуете, что хотите сделать следующий шаг в IT, то самое время действовать! Не ждите выпускного из школы или колледжа — развивайтесь в интересующем направлении прямо сейчас 🚀🌟

Помимо самообучения, стоит воспользоваться поддержкой опытных менторов и преподавателей. Яндекс Лицей, проект Яндекс Образования, предлагает именно такую возможность. На бесплатных онлайн-специализациях вы сможете углубить свои знания в одном из востребованных направлений:
- Веб-разработка на Django.
- Большие данные.
- Машинное обучение.
- Анализ данных.
- Веб-разработка на GO.

Специализации длятся 3 месяца и ориентированы на подростков 13-20 лет, у которых уже есть опыт в программировании. Во время онлайн-обучения вы прокачаете свои навыки, поработаете над реальными задачами и групповыми проектами, пообщаетесь со специалистами из индустрии… в общем, сделаете всё, чтобы подготовиться к карьере в IT!

Подайте заявку на специализации до 24 сентября и выйдите на новый уровень в IT!

Читать полностью…

Анализ данных (Data analysis)

Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы:

— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.

— научитесь делать запросы и отчёты с помощью SQL.

— сможете строить интерактивные дашборды в Power BI и DataLens.

Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.

Присоединяйтесь бесплатно

Реклама. ООО "Нетология". Erid 2VSb5xhLXXe

Читать полностью…

Анализ данных (Data analysis)

Как искусственный интеллект меняет правила игры в бизнесе?

Приглашаем тебя на митап по Data Science от экспертов Газпромбанк.Тех, где ты узнаешь:

– Как мы используем нейронные сети для разбора платежных документов
– Каким образом оптимизатор позволяет максимизировать прибыль от маркетинговых коммуникаций
– Какие задачи решают квантовые технологии в мире финансов

В конце тебя ждет нетворкинг с участниками и спикерами митапа.

Регистрируйся и приходи 19 сентября к нам в гости: Москва, ул. Коровий Вал д.5, БЦ «Оазис» — https://vk.cc/cASzfH

Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqvWrkAB

Читать полностью…

Анализ данных (Data analysis)

🖥 Microsoft только что объявила о возможности Copilot обрабатывать Excel файлы, генерируя код на Python.

- Полноценный анализ данных
- Copilot генерирует Python скрипты
- Excel выполняет код, чтобы вывести результат.

И все это без необходимости формулы.

Только естественный язык.

Супер легкий анализ и визуализация данных.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

K2 Cloud и PiterPy2024 — бесплатный день конференции для питонистов.

Ребята из K2 Cloud помогли организовать Community Day для python-разработчиков. 18 сентября ты сможешь бесплатно послушать часть докладов конференции PiterPy: от мастерства карьерного роста до хитростей асинхронного программирования. Для участия нужно только зарегистрироваться.

Подробнее на сайте

Читать полностью…

Анализ данных (Data analysis)

Вот что ждет в Т-Банке ML-разработчиков, кроме ДМС, крутых офисов и других плюшек:

Актуальный стек. Здесь следят за трендами и быстро внедряют новое.
Общение на «ты». Так проще.
Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение.
Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег.

Больше о вакансиях ML-разработчиков — здесь

Erid:2VtzquijNPh

Читать полностью…

Анализ данных (Data analysis)

Andrew Ng только что выпустили два свежих курса по AI Python для начинающих!

В курсе учат, как писать код с использованием ИИ.

Если вы подумываете о том, чтобы научиться писать код, то сейчас самое подходящее время для этого.

https://deeplearning.ai/short-courses/ai-python-for-beginners/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ SkillNer - это модуль NLP для автоматического извлечения HR данных из неструктурированных объявлений о работе, текстов и резюме соискателей.

pip install skillNer

Извлечение необходимой информации о стеке разработчиков из объявлений о вакансиях, резюме и любого другого неструктурированного текста может занимать много времени и сил, если делать это вручную.

Этот инструмент может быть полезен:

- Рекрутерам для автоматизации извлечения для ускорения отбора кандидатов.
- Специалистам по исследованию данных для извлечения структурированных данных из неструктурированного текста, связанного с работой.

SkillNER автоматизирует этот процесс, делая пирсинг быстрым и эффективным.

Вот небольшой пример:


python
import spacy
from spacy.matcher import PhraseMatcher
from skillNer.general_params import SKILL_DB
from skillNer.skill_extractor_class import SkillExtractor

# Load the spaCy model
nlp = spacy.load("en_core_web_lg")

# Initialize the SkillExtractor
skill_extractor = SkillExtractor(nlp, SKILL_DB, PhraseMatcher)

# Sample job description
job_description = """
You are a data scientist with strong expertise in Python. You have solid experience in
data analysis and visualization, and can manage end-to-end data science projects.
You quickly adapt to new tools and technologies, and are fluent in both English and SQL.
"""

# Extract skills from the job description
annotations = skill_extractor.annotate(job_description)
annotations


📘 Github
🚀 Demo
🌟 Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на

▪ Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0
▪ Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/

@data_analysis_ml

Читать полностью…
Subscribe to a channel