17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🤖 Нужно ли оптимизировать программный код для ИИ: аргументы за и против
Если бы JavaScript (или любой другой язык) разрабатывался в первую очередь для использования искусственным интеллектом, а не человеком-разработчиком, он существенно отличался бы от привычного нам языка. Вот основные отличия, которые мы могли бы наблюдать.
1. Сокращение синтаксического сахара. Языки, удобные для человека, содержат синтаксический сахар, чтобы сделать код более читабельным для разработчиков. Для ИИ в этом нет необходимости. Язык, скорее всего, был бы более упрощенным и использовал бы минимальный набор примитивов, необходимых для выражения вычислений (объяснение этого приводится ниже).
2. Отсутствие комментариев и документации. В отличие от человека, ИИ не нуждается в комментариях и документации. Единственным источником истины для него является сам код. ИИ способен понять назначение и действие любого фрагмента кода без внешних аннотаций.
3. Более высокие уровни абстракции. ИИ может работать с гораздо более высокими уровнями абстракции, чем человек. Вместо подробных пошаговых инструкций, оптимизированный для ИИ код мог бы включать в себя более сложные операции, заданные на высоком уровне, а ИИ заполнил бы детали более низкого уровня.
4. Математическая точность. Язык мог бы быть более тесно связанным с математическим формализмом. Это облегчило бы формальную верификацию и обоснование кода, которые ИИ способен выполнять более эффективно, чем человек.
5. Включение внешних баз знаний. Оптимизированный для ИИ язык мог бы напрямую ссылаться на внешние базы знаний или базы данных, позволяя ИИ при необходимости использовать контекст.
6. Оптимизация для параллелизма. ИИ может справиться с параллелизмом и многопоточным выполнением с гораздо меньшими усилиями, чем человек. Язык, скорее всего, изначально поддерживал бы высокопараллельные операции без удобных для разработчика абстракций, используемых в настоящее время.
7. Расширенное управление памятью. Возможно, отпала бы необходимость в привычных парадигмах управления памятью, таких как сборка мусора. Вместо этого, ИИ мог бы освоить передовые алгоритмы, предсказывающие характер использования памяти и оптимизирующие его соответствующим образом.
8. Менее модульный код. Хотя модульность часто оказывается полезной для понимания и сопровождения, ИИ мог бы предпочесть генерировать и управлять более монолитными структурами кода, оптимизируя его для выполнения, а не для чтения.
9. Генерация кода. Язык мог бы иметь встроенные функции для генерации больших объемов кода на основе высокоуровневых характеристик, абстрагируясь от повторяющегося или шаблонного кода, который обычно пишут разработчики.
10. Самостоятельная модификация кода. ИИ мог бы создавать и управлять кодом, который сам изменяется в процессе выполнения, что обычно считается сложной задачей, приводящей к ошибкам разработчиков-людей.
11. Глубокая интеграция с аппаратным обеспечением. Язык мог бы быть глубоко связан с аппаратным обеспечением, что позволило бы ИИ выполнять микрооптимизацию на основе знаний о состоянии оборудования в реальном времени.
Что такое синтаксический сахар?
📌 Читать
@bigdatai
🦜🔗 Исчерпывающее руководство по реализации моделей HuggingFace с помощью Langchain
Только что опубликована статья о различных способах использования Open Source Large Language Models от HuggingFace с помощью Langchain
Реализация и объяснение кода:
https://analyticsvidhya.com/blog/2023/12/implement-huggingface-models-using-langchain/
@bigdatai
👉 Машинное обучение - станьте экспертом бесплатно!
Полное руководство, позволяющее учиться и развиваться в области машинного обучения без какого-либо опыта в этой области и быть в курсе последних новостей и методик!
🔗 https://github.com/louisfb01/start-machine-learning
@bigdatai
⚡️ TACO (Topics in Algorithmic COde generation dataset) - это набор данных, ориентированный на алгоритмическую генерацию кода и предназначенный для создания более сложного обучающего набора данных и ,бенчмарка оценки для области моделей генерации кода.
Набор данных состоит из конкурсных задач по программированию, которые являются довольно сложными и приближенными к реальным сценариям программирования. В нем особое внимание уделяется улучшению или оценке способностей модели к пониманию и рассуждению в практических сценариях применения, а не просто реализации предопределенных функций.
▪Github
▪HF
▪Paper
@bigdatai
📱 Inpaint-iOS
Бесплатное приложение для рисования с открытым исходным кодом на базе coreml для iPhone / iPad / MacBook с процессором M.
https://github.com/wudijimao/Inpaint-iOS
@bigdatai
📝 Путешествие данных. От источника к потребителю.
#BigData #Analytics #BI #DataScience #DataCleaning #DataProfiling #DataStrategy #SQL #MachineLearning #DataScientists #DataLake #DataWarehouse #CDO
@bigdatai
⬆️ Удобная шпаргалка по самым популярным облачным сервисам (выпуск 2023 года)
https://nodownload.org/image/ib/bTSIyMYgcz
@bigdatai
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Разметка данных: неочевидные затраты на голосовые технологии
— Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц
— Наиболее часто используемые команды Linux
— 79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
— Бесплатные сертификационные курсы для специалистов по данным
— RFM-сегментация в оптимизации CRM-стратегий
— MDM и CDP: различия систем. Как сделать выбор
— Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
— Как мы наводим порядок с данными в столичном транспортном институте
— Survey: Retrieving Supporting Evidence for Generative Question Answering
— Introduction to NannyML: Model Evaluation without labels
— Revolutionizing Data Integration: The Role of AI and ML
— How to Use Pandas for Data Analysis
— Open Source Advent
— Bulk Text Analytics with Azure AI Language
— Top 10 Benefits of Artificial Intelligence (AI)
— Deciphering the EU's AI Act - A Technical Perspective
— Harness the power of multiple LLMs 🤝
— Google Gemini and Face Recognition
Посмотреть:
🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)
Хорошего дня!
@bigdatai
Время больших данных! Приглашаем на курс «Data-инженер»
Бизнес любит ясность. Ясность есть там, где аналитики выстраивают рабочие гипотезы. Аналитики предлагают новые решения с опорой на собранные данные.
А данные собирает Data-инженер!
Приглашаем специалистов смежных направлений: аналитиков данных, администраторов БД, разработчиков на Python.
💪Это не про «войти в IT»: вы можете убедиться в вашем уровне знаний и пройти входной тест на сайте Слёрм.
На курсе вы:
🌀 Прокачаетесь в Python, будете использовать библиотеки для работы с данными;
🤔 Научитесь применять на практике базу PostgreSQL;
🫖 Освоите инструменты Data-инженера: Hadoop, Spark, ClickHouse и другие.
2 поток стартует 15 января. Подробная программа и кнопка записи уже ждет вас на сайте.
P.S. Курс можно оплатить в рассрочку. Или попросить работодателя купить вам место на потоке!👍
Реклама. ООО «Слёрм» г. Лиски, ОГРН 1193668020545 Erid: 2VtzquiU96K
Специалисты по Data Science работают везде, где нужно обрабатывать и хранить данные. Они решают самые разные задачи: от планирования маршрутов в логистике до прогнозирования спроса на наличные в банкомате.
Плюсы профессии «Специалист по Data Science»:
— вы сможете работать почти в любой отрасли, от промышленности и до коммерции;
— решения специалистов по DS напрямую влияют на планирование и деятельность компаний;
— никакой рутины — чем сильнее и опытнее специалист, тем сложнее и интереснее его задачи;
— высокая заработная плата: младшие специалисты получают в среднем 60 000 рублей, специалисты с опытом — 120 000 рублей, а старшие специалисты — от 210 000 рублей.
За 8 месяцев обучения в Практикуме вы освоите востребованную профессию, а дальше — начнёте работать, улучшать навыки и расти в зарплате. Начните курс бесплатно и большими данными двигайтесь в сферу IT.
→ Начать курс бесплатно
🤔Какую роль играют технологии машинного обучения в backend разработке?
21 декабря в 19.00 приглашаем на открытый урок “Внедрение алгоритмов машинного обучения в бэкенд-проекты на Kotlin”.
Вебинар проведут: Сергей Окатов, к. ф.-м. н., БФТ ЦР и Александр Брут-Бруляко, DS инженер в СБЕР.
📌На занятии:
- дадим краткий обзор состояния рынка ML-технологий;
- продемонстрируем процесс обучения ML-модели под наши задачи;
- обсудим какие есть способы интеграции моделей в бэкенд-проект, а также преимущества и недостатки каждого из подходов;
- выполним запуск предобученной ML-модели на Kotlin.
👉Регистрация для участия https://otus.pw/hFUN/?erid=LjN8KZcis
Урок пройдет в рамках курса «Kotlin Backend Developer. Professional». Обновленная программа обучения позволит прикоснуться к большому числу инструментов разработки современных, гибких, высокопроизводительных серверных приложений на языке Kotlin. При поступлении в группу возможна рассрочка платежа.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Оффер за выходной в Big Data.МегаФон для Data-специалистов!
Зарплата от 250 до 450 тысяч рублей в зависимости от грейда, уютный офис или полная удаленка на территории РФ, а также ДМС со стоматологией и страховкой. На этом бонусы не заканчиваются: оплата связи, компенсация фитнеса, обучение за счет компании и многое другое.
Вам предстоит работать с масштабными проектами:
— разрабатывать аналитические сервисы на базе AI;
— анализировать бизнес-процессы и внедрять языковые модели для облегчения рутины в LLM;
— тестировать продуктовые и ML-гипотезы.
Мегафон — оператор №1 по покрытию сети и скорости мобильного интернета. Оставляйте заявку и меняйте рынок телекома: https://u.to/gMEtIA
🔥 Простая и эффективная генерация текста с помощью pytorch-native трансформера на python <1000 LOC.
https://github.com/pytorch-labs/gpt-fast #deeplearning #machinelearning #ml #ai #neuralnetworks #datascience #pytorch
@bigdatai
Первый очный ИТ-митап Сбера в Калининграде!
Приглашаем разработчиков и Data people, чтобы поговорить про новейшие разработки банка в области больших языковых моделей и обсудить, зачем нужен GigaChat.
Когда: 16 декабря, 11:00 – 17:00
Где: г. Калининград, ул. Гюго 1, отель Holiday Inn, зал ГОФМАН
Спикеры и темы:
1. Сысоев Дмитрий — исполнительный директор по исследованию данных — вместе с вами решит NLP-задачку и покажет, кто справится лучше: вы или GigaChat.
2. Ефремов Владислав — Development Team Lead — расскажет о платформе аналитики коммуникаций банка с клиентами Voice360 и покажет кейсы применения GigaChat для аналитики коммуникаций.
3. Марченков Антон — исполнительный директор по исследованию данных в Департаменте данных и рекомендательных систем Сбера — поделится тем, как Сбер использует современные генеративные модели и как это помогает соответствовать ожиданиям рынка.
4. Резвых Алексей — Team Lead Data Scientist — и Кулин Никита — Data Scientist —применят большие языковые модели для автоматического извлечения знаний из диалогов.
5. Дмитрий Бугайченко — управляющий директор в Департаменте данных и рекомендательных систем Сбера — расскажет о том, как искусственный интеллект работает на службе компаний-партнёров Сбера.
Помимо новых знаний, вас ждут One Day Solo Hackathon и много призов. Скорее регистрируйтесь по ссылке
💥 Архив из 32 датасетов, которые вы можете использовать для практики и совершенствования своих навыков исследователя данных
https://datasciencedojo.com/blog/datasets-data-science-skills
@bigdatai
👉 Machine Learning Glossary
Краткие визуальные объяснения концепций машинного обучения с диаграммами, примерами кода и ссылками на ресурсы для получения дополнительной информации.
🔗 https://github.com/bfortuner/ml-glossary
@bigdatai
⚡️Как технологии увеличивают скорость городов и экономят наше время?
Снижение процессорного времени с помощью оптимизации становится всё более важной задачей. На главной конференции для разработчиков YaTalks специалисты из Яндекса рассказали, как создавали собственную модификацию «перфа». Благодаря ней можно зайти на любую машину из облака, посмотреть на любой бинар и его статистику.
Такая оптимизация экономит время пользователей каждый день в сервисах вроде суммаризации видео, Алисы или Яндекс Клавиатуры. Когда команда разработки каждой из них вносит изменения, буст получают сразу все сервисы, которые применяют технологию.
Всё это — далеко не предел. Смотрите записи выступлений с YaTalks 2023 и узнайте, на что ещё способна компьютерная инженерия и технологии искусственного интеллекта.
Прокачай свой скилл!🧠
🧑💻Бывший специалист Яндекса - эксперт в области аналитики и машинного обучения, создал каналы о жизни Data Science, где разбирает сложные концепции простым языком.
- Без занудства, научитесь автоматизировать и оптимизировать процессы
- Сможете прокачать свои навыки до уровня, когда работодатели будут бороться за вас
- Перестанете сомневаться в своей компетенции
Подписывайся, здесь нет места нудным теориям — только живые кейсы, интересные проекты и честные советы⚡.
⚡️ Awesome LLM Interpretability
Список полезных инструментов, работ, статей и блогов, посвященных большии языковыи моделям (LLM).
▪Github
@bigdatai
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Разметка данных в 2023 году: текущие тренды и требования будущего
— Полный отчет Github за 2023 о состоянии проектов.
— 100 вопросов для подготовки к собесу Python
— 10 лучших библиотек Python для графического интерфейса в 2024 году
— fsspec и вообще зачем оно нам нужно
— Заблуждения о семантической сегментации
— Расчетная архитектура платформы для A/B-тестов Mail.Ru
— Фреймворк для дизайна A/B-теста
— Методы балансировки в А/Б тестировании
— Зачем Программисту Микроконтроллеров Математическая Статистика? (или так ли хороши UWB трансиверы?)
— Automate the boring stuff with Julia
— Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке
— АБ тесты и подводные камни при их автоматизации
— A Beginner’s Guide to Neural Networks
— How many stages are there for Amazon’s SQL interview?
— Unleashing Generative AI Capabilities: The Power of Large Language Models Explained
— Removing comments from code-based data source
— Revolutionizing Healthcare: Expanding Ultrasound Access with the Power of AI
— Data Scientist turned Dev Advocate
— AWS Reinvent 2023: Unleashing the Power of ML and Generative AI
— Adaptive Traffic Signal Control System
— Understanding Neuromorphic Chips: Revolutionizing Machine Learning
— Microsoft PHI-2 + Huggine Face + Langchain = Super Tiny Chatbot
Посмотреть:
🌐 Mixtral 8x7B - новый ИИ. Нейросети, которые ДОМИНИРУЮТ на другими моделями (⏱ 08:04)
🌐 100 вопросов с собеседований Python. Полный разбор реальных вопросов. (⏱ 34:27)
🌐 💡Крутая задача #Python: #python #программирование #код #yotube #youtube #питон (⏱ 00:49)
🌐 💡Задача #Python:Комбинация сумм II #python #программирование #код #yotube #youtube #пито (⏱ 00:54)
🌐 ODSC Webinar | Preparing for your First Enterprise Large Language Model (LLM) Application (⏱ 48:16)
🌐 Adversarial Validation and Training in Stock Market Price Prediction (⏱ 28:09)
🌐 NVIDIA’s New AI Is 20x Faster…But How? (⏱ 08:16)
🌐 Here’s How ChatGPT is Changing The World! (⏱ 08:33)
Хорошего дня!
@bigdatai
Как построить собственный эффективный ИТ-конвейер?
Крупные компании с 2018 года переходят на отечественное программное обеспечение. И если раньше это делали неохотно, потому что не было адекватной замены, то сегодня все иначе. Более того, сейчас реально выстроить сквозной процесс управления производством ПО на всех этапах жизненного цикла DevSecOps и импортозаместить продукты Atlassian, Microfocus, Microsoft Azure, JetBrains, Informatica.
Платформа Сфера — это более 40 различных инструментов для всех этапов жизненного цикла ПО. В Telegram-канале «Сфера IT» рассказывают об удобных инструментах для бизнеса, делятся новостями мира технологий и дают анонсы полезных вебинаров.
Подписывайтесь на «Сфера IT» !
Реклама. Информация о рекламодателе
Учёным и преподавателям в области Machine Learning вручили премию Yandex ML Prize
Это пятая премия Яндекса, направленная на развитие области машинного обучения. В этом году лауреатами стали 11 исследователей, среди их научных работ — разработка новых алгоритмов для решения задачи Шрёдингера, генеративные модели для компьютерного зрения и синтеза речи и решение проблемы архитектуры глубоких нейронных сетей. Исследования лауреатов расширяют возможности для прикладного применения ML-технологий.
🤗 Diffusers benchmarks - очень простой способ отслеживать производительность самых популярных и важных пайплайнов.
https://huggingface.co/datasets/diffusers/benchmarks
@bigdatai
📚 The Breaking Into Data Handbook
В этом репозитории вы найдете ценные ресурсы, которые помогут вам начать работу в области
Аналитика данных, наука о данных, инженерия данных, машинное обучение и компьютерные науки.
https://github.com/meri-nova/breaking-into-data-handbook
@bigdatai
⚡️ Production Machine Learning
Этот репозиторий содержит список замечательных библиотек с открытым исходным кодом, которые помогут вам развертывать, отслеживать, версионировать, масштабировать и защищать производственное машинное обучение.
🔗 https://github.com/EthicalML/awesome-production-machine-learning
@bigdatai
Что такое MLX?
MLX - это фреймворк, выпущенный компанией Apple для эффективного обучения и вывода ML-моделей. MLX имеет Python API, который очень похож на NumPy.pip install mlx - это все, что вам нужно! ✨
Фреймворк нем поддерживает Mixtral MoE, Llama, Whisper, Stable Diffusion и многое другое!
В видео запускаем его локально на M2 MBP Pro (24 ГБ).
Краткое руководство:
1. Создайте виртуальную средуpython -m venv mlx_experiments
2. активируйте виртуальную средуsource mlx_experiments/bin/activate
3. клонируйте репозиторий mlx-examples
git clone https://github.com/ml-explore/mlx-examples/
4. установите все requirementspip install -r mlx-examples/whisper/requirements.txt
5. Используйте whisper в бэкенде mlx ✨import whisperКод: Github
whisper.transcribe(<file_name>, model="large-v2")
@bigdatai
⚡️ Курсы бесплатно:
Excel: https://excel-practice-online.com
SQL: http://sqlbolt.com
Tableau: http://tableau.com/learn/starter-kits
Power BI: https://powerbi.microsoft.com/en-us/learning/
Python: https://freecodecamp.org/news/learn-data-analysis-with-python-course/
AI и ML: https://freecodecamp.org/news/machine-learning-with-python-and-scikit-learn/
@bigdatai
🔥 Алгоритмы и структуры данных
1. Введение
2. Временная сложность и Анализ алгоритмов
3. Массивы
4. Базовые алгоритмы сортировки
5. Эффективные алгоритмы сортировки # Рекурсия
6. Списки
7. Стек
8. Очереди
9. Линейный поиск и Бинарный поиск
10. Символьный таблицы / Словари
#video #algorithm
https://www.youtube.com/watch?v=jlheNrmPIQQ&list=PLBheEHDcG7-n6VhwSPZI64LwFmriuEvvR
@bigdatai
🔥 LLM могут почти идеально восстанавливать предложения
-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей
arxiv.org/abs/2311.18805
Как стать аналитиком данных в Авито? Как вырасти с нуля до senior?
Чтобы ответить на эти вопросы школа karpovꓸcourses и Авито, компания с одними из самых высоких требований к сотрудникам на рынке, проведут бесплатный вебинар.
На вебинаре вы узнаете:
— Как устроена команда аналитики в Авито и какие задачи она решает
— Какие навыки необходимы потенциальному кандидату
— Какие этапы предстоит пройти при трудоустройстве в компанию
А еще вы построите собственный карьерный трек и составите пошаговый план, чтобы получить работу в крупной IT-компании.
Вебинар будет полезен как тем, кто только начинает свой путь в аналитике, так и опытным специалистам, которые хотят покорять новые вершины.
🕖Встречаемся уже 6 декабря в 19:00
Регистрируйтесь, чтобы попасть на вебинар