Разбираем тестовое задание на позицию Junior Аналитика в Яндекс
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в подразделении Яндекс Картинки.
Что будет на вебинаре:
🟠С помощью Pandas проанализируем Яндекс-запросы за несколько недель, загрузив их из json-файла
🟠Найдём закономерности и отличия использования сервиса на мобильных устройствах и компьютерах
🟠Разберём фишки Pandas: сложную агрегацию, маппинг, конкатенацию, чейнинг и др.
Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 24 декабря в 19:00
🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!
Зарегистрироваться на бесплатный вебинар
🌟 FlashRNN: оптимизация RNN на современном оборудовании.
FlashRNN - библиотека, которая реализует традиционные RNN, такие как LSTM, GRU и сети Элмана, а также новейшую архитектуру sLSTM в CUDA и Triton.
В отличие от распространенных современных моделей архитектуры Transformers, RNN обладают возможностями отслеживания состояния, оставаясь актуальными для решения задач моделирования временных рядов и логического мышления.
FlashRNN предлагает два варианта оптимизации: чередующийся и объединенный.
🟢Чередующийся позволяет обрабатывать данные с большим размером скрытых состояний и значительно превосходит по скорости базовую реализацию PyTorch.
🟢Объединенный вариант агрегирует операции умножения матриц и вычисления функций в одно ядро, снижая количество обращений к памяти и позволяет хранить рекуррентные матрицы весов непосредственно в регистрах GPU.
За автоматизацию настройки параметров FlashRNN отвечает библиотека ConstrINT
, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.
Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.
▶️ Локальная установка и пример запуска FlashRNN:
# Install FlashRNN
pip install flashrnn
# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:
import torch
from flashrnn import flashrnn
device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states
Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)
# available functions
# lstm, gru, elman, slstm
# available backend
# cuda_fused, cuda, triton and vanilla
states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")
# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]
Профессия аналитика данных — одна из самых высокооплачиваемых и перспективных в сфере IT.
На курсе «Аналитик данных» от Нетологии вы с нуля освоите необходимые навыки за 7 месяцев под руководством опытных наставников-практиков.
Вы изучите SQL, Python, Power BI — ключевые инструменты для работы с данными. Научитесь использовать статистические методы, строить и проверять гипотезы. Создадите 4 полноценных проекта для своего портфолио и выполните более 20 практических заданий.
А по окончании курса получите диплом о профпереподготовке и сможете претендовать на должность junior-аналитика.
Начните свой путь в сфере аналитики данных — присоединяйтесь к программе.
Промокод BIGDATA45 даст повышенную скидку 45% от цены курса.
Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5xeTHgk
В Библиотеке иностранной литературы прошел ивент для всех, кто интересуется открытым кодом — «Ночь опенсорс-библиотек».
Аналитики учились строить дашборды по опенсорсным репозиториям в DataLens (облачная BI-система для визуализации и анализа данных). А еще получили возможность понетворкать с мейнтейнерами крупных опенсорс проектов. Те, кто не сильно погружен в тему, послушали доклад о том, как сделать свой первый коммит.
Помимо хакатонов и воркшопов, гости проходили квесты с перфокартами, ходили на экскурсию в закрытые части библиотеки и отдыхали в зоне с генеративным лайф-кодингом под диджей-сеты.
Наглядный кейс про то, как важно вкладываться не только в опенсорс, но и в само сообщество. И такие ивенты — хорошая возможность обменяться опытом и заодно отдохнуть под фановые активности.
🔹 Cтроим графики для анализа финансовых данных на открытом уроке «Визуализация данных. Основные "финансовые" графики, работа с mplfinance»
Рассмотрим свечные графики, научимся строить дополнительные линии на графиках и доверительные интервалы.
✅ Практика: свечные графики с помощью библиотеки mplfinance
Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска
👉 Регистрация на урок и подробности:
https://otus.pw/7PRb/?erid=LjN8JxNw8
#реклама
О рекламодателе
⚡️ Вышли обновленные модели Granite 3.1 от IBM!
Доступна в 4 размерах с двумя различными архитектурами:
Mixture of expert
ollama run granite3-moe:1b
ollama run granite3-moe:3b
tool-based
ollama run granite3.1-dense:2b
ollama run granite3.1-dense:8b
IBM также выпстят эмбединги сегодня!
Только на английском языке:
ollama pull granite-embedding:30m
Многоязычный:
ollama pull granite-embedding:278m
https://ollama.com/library/granite3-dense:2b/blobs/63dd4fe4571a
@data_analysis_ml
📌 Инсайды о Machine Learning и Data Science
Ловите свежий подкаст с руководителем ШАДа Алексеем Толстиковым, который вышел на канале Виктора Кантора
🔗 Что делает ML- и DS-специалистов конкурентоспособными
🔗 Могут ли в этих сферах закрепиться люди из совершенно других областей
🔗 Можно ли освоить Data Science самостоятельно
🔗 Почему глубокого знания математики и алгоритмов недостаточно для успешной работы
🔗 Как джуну найти работу
🔗 Как поступить в ШАД и справиться с учебой там
@data_analysis_ml
📊 ai-hedge-fund — проект, направленный на создание и обучение ИИ-моделей для применения в финансовых рынках, с акцентом на торговлю и управление хедж-фондами!
🌟 В нем используются методы машинного обучения и искусственного интеллекта для прогнозирования движений рынка и автоматической торговли на основе собранных данных. Репозиторий включает в себя примеры реализации, данные для обучения и инструменты для тестирования стратегии торговли с использованием ИИ.
🖥 Github
@data_analysis_ml
⚡️ Google представили Veo 2
• Качество выходного видео достигает 4K — результат просто потрясающий.
• Нейросеть генерирует видео длиной до 10 секунд, хотя разработчики рекомендуют ограничиться 8 секундами.
• Есть незначительные проблемы с динамикой, но специалисты из DeepMind обещают оперативно их устранить.
• Вскоре нейросеть сможет использовать изображения и даже другие видеоролики в качестве референсов.
Согласно внутренним тестам Google, пользователям больше нравятся генерации Veo, чем SORA, в 58,8% случаев. Видео действительно впечатляют (особенно примеры с помидорами, спагетти и картами). Некоторые из этих роликов созданы пользователями, и при использовании тех же промтов результаты в SORA оказываются менее качественными.
https://deepmind.google/technologies/veo/veo-2/
@data_analysis_ml
🔥 Olares — это open-source платформа для создания собственного облака, предназначенная для использования в качестве альтернативы публичным облачным сервисам, таким как AWS!
🌟 Она предоставляет инструменты для управления личными данными, хостинга AI-моделей, запуска приложений и защиты файлов, при этом сохраняя контроль над конфиденциальностью и данными. Основные особенности включают поддержку локального хостинга AI, децентрализованные социальные сети, инфраструктуру на базе Kubernetes для многозвенных решений и безопасность уровня корпоративных стандартов. Olares акцентирует внимание на гибкости, владении данными и конфиденциальности с возможностью интеграции различных приложений и инструментов для разработки.
🖥 Github
@data_analysis_ml
🔥 Reor — это приложение для создания заметок на рабочем столе с использованием искусственного интеллекта: оно автоматически связывает связанные заметки, отвечает на вопросы в ваших заметках и обеспечивает семантический поиск!
🌟 Все хранится локально, и вы можете редактировать свои заметки с помощью редактора Markdown, похожего на Obsidian.
🔐 Лицензия: AGPL-3.0
🖥 Github
@data_analysis_ml
🎉 Только что вышла DeepSeek-VL2! Новая модель vision-language нового поколения.
🤖 Deep SeekMo Search + динамическая обработка изображений
⚡ 3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках
DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.
DeepSeek-VL2 включает три основных модуля:
🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.
🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.
🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.
DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
Модельная серия состоит из 3 вариантов c контекстом 4096:
🟢DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);
🟢DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);
🟢DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).
DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.
DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.
💡 По-прежнему полностью открытый исходный код!
💾 Hugging Face: huggingface.co/deepseek-ai
🖥Github: https://github.com/deepseek-ai/DeepSeek-VL2
@data_analysis_ml
🔥 Phi-4 - новая блестящая работа Microsoft
Модель с параметрами 14B работает наравне с GPT-4o-mini и недавно выпущенной Llama-3.3-70B.
→ Модель достигает точности 91,8% при решении математических задач AMC 10/12, превосходя Gemini Pro 1.5 и другие более крупные модели.
📌 Инновация в области данных
Инженеры Microsoft разработали сложные методы генерации синтетических данных, которые выходят за рамки традиционных подходов к предварительному обучению.
→ Возможности математического анализа
Модель демонстрирует особую эффективность при решении сложных математических задач, что свидетельствует о расширенных возможностях символьного анализа и логического вывода
→ Инновации обучения: новые методы, такие как поиск ключевых токенов (PTS) в DPO.
🛡️ Первоначальный выпуск был ограничен платформой Azure AI Foundry в рамках лицензионного соглашения Microsoft Research
https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090
@data_analysis_ml
🖥 RAGHub — это каталог инструментов, проектов и ресурсов для Retrieval-Augmented Generation (RAG)!
🌟 Проект предлагает информацию о фреймворках, таких как LangChain, Haystack и других, а также о методах оптимизации, инструментах оценки и примерах использования RAG.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
⚡️Torchcodec – универсальная библиотека PyTorch для быстрого и точного декодирования видео.
Инструмент позволяет преобразовывать видео в тензоры с помощью интуитивно понятных API, высокой производительности процессора / CUDA и богатого встроенного инструментария ML.
Torchcodec является самой производительной библиотекой одновременного декодирования большого количества видео в рамках конвейера загрузки обучающих данных.
from torchcodec.decoders import VideoDecoder
from torch import Tensor
decoder = VideoDecoder("my_video.mp4")
# Index based frame retrieval.
first_ten_frames: Tensor = decoder[10:]
last_ten_frames: Tensor = decoder[-10:]
# Multi-frame retrieval, index and time based.
frames = decoder.get_frames_at(indices=[10, 0, 15])
🎉 BERT вернулся. 🔥
ModernBERT пересматривает традиционные модели кодеров, поддерживая последовательности 8K при скорости в 2-3 раза выше, сохраняя при этом практическую простоту BERT.
Основные моменты
→ ModernBERT представляет новое семейство моделей для Кодина, превосходящих традиционные архитектуры BERT, как в базовом варинате (139 М параметров), так и в large модели (395 М параметров) вариантах
→ Архитектура позволяет обрабатывать последовательности до 8 192 токенови
→ В бенчмарках ModernBERT демонстрирует улучшение хорошие результаты в задачах поиска, NLU и кода, при этом в 2-3 раза быстрее, чем существующие модели.
https://huggingface.co/blog/modernbert
@data_analysis_ml
🔍 flow_matching — Библиотека PyTorch для реализации алгоритмов сопоставления потоков, включающая непрерывные и дискретные реализации сопоставления потоков!
🔐 Лицензия: CC BY-NC
🖥 Github
@data_analysis_ml
🖥 Большая шпаргалка, которая содержит исчерпывающие руководства по различным инструментам, необходимым для программирования на ассемблере, реверс-инжиниринга и бинарного анализа!
🌟 Каждая шпаргалка содержит инструкции по установке, примеры использования и расширенные советы для различных операционных систем.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
⚡️ Сегодня был выпущен мощнейший ИИ-движок для физики под названием Genesis.
Что это такое: это платформа для симуляции физики в виртуальных мирах с элементами искусственного интеллекта, позволяющая генерировать практически любые объекты.
Главная цель — создание трехмерных миров с реалистичной физикой, где можно выполнять различные задачи: обучать роботов, проводить физические эксперименты или разрабатывать анимации для игр.
Почему вокруг него столько шума? Genesis отличается невероятной скоростью (в 10–80 раз быстрее аналогов) и высокой эффективностью.
Например, чтобы научить робота ходить, потребуется всего одна видеокарта RTX 4090 и 26 секунд времени.
Для сравнения, аналогичная тренировка в реальных условиях могла бы занять до 129 дней!
Кроме того, Genesis способен самостоятельно генерировать всё необходимое: будь то трёхмерная среда, физика или анимационные последовательности. Разработчики даже предлагают учёным-физикам использовать платформу для изучения поведения воды в разных условиях.
Ожидаются первые захватывающие анонсы на базе Genesis!
📌 Проект
📌 Github
@data_analysis_ml
👩💻 multimodal-live-api-web-console — стартовое приложение на React для работы с Multimodal Live API через вебсокеты!
🌟 Он предоставляет модули для воспроизведения аудио, записи пользовательских данных (например, с микрофона или веб-камеры), а также объединенный интерфейс для логирования. Это позволяет разработчикам тестировать и разрабатывать приложения, использующие мультимодальные функции, такие как обработка данных с помощью API Gemini от Google.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
🔥 Text3D — небольшое Gradio приложение, которое генерирует изображения, которые можно использовать для создания 3D-моделей!
🔗 Ссылка: *клик*
@data_analysis_ml
⚡️ Релиз Falcon 3
Институт технологических инноваций Абу-Даби представил семейство моделей Falcon 3 с расширенными возможностями в областях науки, математики и программирования.
▶️В семейство входят 5 базовых моделей:
🟢Falcon3-1B-Base
🟢Falcon3-3B-Base
🟢Falcon3-Mamba-7B-Base
🟢Falcon3-7B-Base
🟢Falcon3-10B-Base
Модели Falcon 3 основаны на трансформерах, совместимы с архитектурой Llama поддерживает до 32К токенов контекста (кроме 1B с контекстом 8К). Все модели используют функцию активации SwiGLU с размером словаря 131K токенов (65K для Mamba-7B версии).
Falcon3-7B-Base была масштабирована до 10 млрд. параметров путем дублирования избыточных слоев и последующего обучения на 2 трлн. токенов. Это позволило модели Falcon3-10B-Base достичь высоких результатов в задачах zero-shot и few-shot среди моделей с менее чем 13В параметров.
Для создания компактных моделей Falcon3-1B Base и Falcon3-3B Base использовались методы обрезки и дистилляции знаний на основе около 100 ГБ высококачественных данных.
Модель Falcon3-Mamba-7B-Base была усовершенствована путем обучения на дополнительных 1,5 трлн. токенов, что привело к созданию Falcon3-Mamba-7B-Base с улучшенными способностями к рассуждению и в математических задачах.
▶️ Семейство продемонстрировало высокую производительность на стандартных бенчмарках:
🟠Falcon3-1B-Base превосходит SmolLM2-1.7B и сопоставима с gemma-2-2b;
🟠Falcon3-3B-Base опережает Llama-3.1-8B и Minitron-4B-Base;
🟠Falcon3-7B-Base показывает результаты, сравнимые с Qwen2.5-7B;
🟠Falcon3-10B-Base - лучшие результаты в категории до 13 млрд. параметров.
В бенчмарках задач математики Falcon3-10B-Base достигает 22,9 на MATH-Lvl5 и 83,0 на GSM8K, а в задачах программирования набирает 73,8 на MBPP.
Инструктивные версии моделей также показывают высокие результаты, при этом Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят аналогичные модели до 13 млрд. параметров.
▶️В репозитории на HuggingFace опубликованы базовые, Instruct, GPTQ-INT8, GPTO-INT4, AWQ и GGUF версии моделей Falcon3.
⚠️ В январе 2025 года планируется выпуск моделей семейства Falcon3 с расширенными мультимодальными возможностями: поддержка изображений, видео и аудио, а также полный технический отчет с описанием методик.
📌Лицензирование: Falcon 3 TII Falcon License.
🟡Статья
🟡Набор моделей
🟡Demo Falcon3
🟡Demo Falcon3-Mamba-7B-Instruct
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI #ML #LLM #Falcon3
🔥 Gateway — это легковесное и быстрое решение для маршрутизации запросов к более чем 250 языковым, визуальным и аудиомоделям!
🌟 Оно предлагает единый API для интеграции моделей менее чем за 2 минуты, поддерживает балансировку нагрузки, условную маршрутизацию, автоматическое восстановление и встроенные механизмы защиты (guardrails). Система оптимизирована для масштабирования AI-приложений, обеспечивает надёжность и безопасность, подходя как для индивидуальных разработчиков, так и для корпоративного использования.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/datascienceiot
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
👀 Gaze-LLE: Neural Gaze
👉Gaze-LLE: новый фреймворк на базе трансформеров, для трекинга глаз.
Под капотом DINO v2 encoder.
📌Лицензирование: MIT
▪Cтатья arxiv.org/pdf/2412.09586
▪Github https://github.com/fkryan/gazelle
@data_analysis_ml
📊 FinGPT — финансово-ориентированная платформа, построенная на LLM!
🌟 Она предназначена для анализа данных из финансовой отрасли с использованием моделей GPT, включая автоматизацию анализа новостей, обработки данных и поддержки принятия решений.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
✔️ OpenAI расширяет возможности голосового режима ChatGPT.
OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык - поддерживается.
Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года - для пользователей Enterprise и Edu.
openai.com
✔️ Midjourney представила Patchwork, инструмент для создания миров.
Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста.
В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма.
updates.midjourney.com
✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных.
Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC.
Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году.
tomshardware.com
✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ.
Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток.
Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем - тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты "in silico" для проверки гипотез.
news.stanford.edu
✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ.
База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении.
База данных предназначена для того, чтобы "создать равные условия" доступа к массиву данных всем - от исследовательских лабораторий до стартапов в области ИИ, - кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования.
institutionaldatainitiative.org
@ai_machinelearning_big_data
#news #ai #ml
Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии.
В результате вы:
— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.
— научитесь делать запросы и отчёты с помощью SQL.
— сможете строить интерактивные дашборды в Power BI и DataLens.
Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.
Присоединяйтесь
🎁 После бесплатного курса вы пройдете карьерную консультацию и сможете дальше развивать навыки на курсе Аналитик данных или Data Scientist в Нетологии с выгодой до 50%.
Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5xyY3Jg
🔈 VoiceCraft — это нейронная языковая модель, которая выполняет редактирование речи и синтез речи (zero-shot), включая аудиокниги, видео и подкасты!
🌟 Модель требует всего несколько секунд эталонного голоса для клонирования или редактирования. Поддерживаются интерфейсы через Gradio, Docker и команды CLI, а также инструменты для обучения и дообучения.
🖥 Github
@data_analysis_ml