🌟SALSA: Стабильная адаптация линейного поиска Armijo.
SALSA (Stable Armijo Line Search Adaptation) — метод, разработанный для оптимизации Learning Rate (LR) во время обучения.
Основная концепция метода построена вокруг выполнения линейного поиска для определения наилучшего возможного LR для каждого шага обучения, что дает быструю сходимость и улучшенное обобщение.
Чтобы уменьшить вычислительную нагрузку, Salsa предлагает пошаговый миниатюрный линейный поиск. В нем LR постепенно увеличивается с каждым шагом, а критерий линейного поиска постоянно переоценивается.
Дополнительно, Salsa включает экспоненциальное сглаживание в процесс линейного поиска и устанавливает два экспоненциальных скользящих средних для скорости обучения. Это помогает стабилизировать оптимизацию и уменьшить нестабильность от мини-пакетирования.
Экспериментальные результаты показывают, что Salsa превосходит другие методы оптимизации: 50% сокращение final loss и 1,25 average rank в языковых и графических задачах.
Вычислительные издержки Salsa всего на 3% выше, чем у базового LR метода, что можно воспринимать как незначительным увеличением, учитывая показатели производительности. Salsa достаточно универсален, чтобы использоваться с различными оптимизаторами, и особенно эффективен при обучении современных архитектур, которые чувствительны к скорости обучения.
▶️Локальный запуск:
# Clone repository:
git clone https://github.com/TheMody/No-learning-rates-needed-Introducing-SALSA-Stable-Armijo-Line-Search-Adaptation.git
# Create & activate env:
conda env create -f environment.yml
conda activate sls3
# Install dependencies:
pip install pytorch numpy transformers datasets tensorflow-datasets wandb
# NOTE: custom optimizer is in \salsa\SaLSA.py,comparison version are in \salsa\adam_sls.py:
from salsa.SaLSA import SaLSA
self.optimizer = SaLSA(model.parameters())
# NOTE: typical pytorch forward pass needs to be changed to:
def closure(backwards = False):
y_pred = model(x)
loss = criterion(y_pred, y)
if backwards: loss.backward()
return loss
optimizer.zero_grad()
loss = optimizer.step(closure = closure)
https://blog.tensorflow.org/2024/04/faster-dynamically-quantized-inference-with-xnnpack.html
@tensorflowblog
SOTA lowbit LLM quantization INT8FP8INT4FP4NF4 sparsity leading model compression techniques on TensorFlow PyTorch and ONNX Runtime
View on Github.com
🍎 PJRT упрощает интеграцию Apple silicon и ML framework.
Узнайте все о том, как Apple использует порт для ускорения моделей JAX на графических процессорах Apple silicon и AMD, и как вы можете начать работу с PJRT уже сегодня
👉 https://opensource.googleblog.com/2024/03/pjrt-plugin-to-accelerate-machine-learning.html
@bigdatai
🔥 Графовые нейронные сети (ГНС) стали мощным методом работы с уникальными и разнородными данными из графов.
Google объявили о выпуске TensorFlow GNN 1.0 (TF-GNN)
, проверенной на практике библиотеки для построения GNN в масштабе.
▪Анонс: https://blog.research.google/2024/02/graph-neural-networks-in-tensorflow.html
▪Colab: https://colab.research.google.com/github/tensorflow/gnn/blob/master/examples/notebooks/ogbn_mag_e2e.ipynb
▪Github: https://github.com/tensorflow/gnn
@data_analysis_ml
🖥 Introducing ASPIRE for selective prediction in LLMs
Google представили ASPIRE - фреймворк, который расширяет возможности предсказания больших языковых моделей, позволяя им выдавать ответ в паре с оценкой уверенности.
Узнайте, почему он превосходит современные методы на различных наборах данных QA.
https://blog.research.google/2024/01/introducing-aspire-for-selective.html
@ai_machinelearning_big_data
https://blog.tensorflow.org/2023/11/half-precision-inference-doubles-on-device-inference-performance.html
@tensorflowblog
https://blog.tensorflow.org/2023/10/simulated-spotify-listening-experiences-reinforcement-learning-tensorflow-tf-agents.html
@tensorflowblog
Анонсирована MetNet-3, первая модель погоды с искусственным интеллектом, обучающаяся на основе скудных наблюдений и превосходящая лучшие оперативные системы на 24 часа вперед при высоком разрешении. Часть ее прогнозов теперь доступна в различных продуктах Google. Подробнее→ https://goo.gle/40ljd2Y
Читать полностью…🚀 TF Quant Finance: TensorFlow based Quant Finance Library
Библиотека TensorFlow Quant Finance от Google.
Функциональные возможности включают:
- Блэка-Шоулза: Цена и предполагаемый объем
- Монте-Карло по схеме Эйлера
- Подгонка своп-кривойgit clone https://github.com/google/tf-quant-finance.git
▪Github
@tensorflowblog
https://blog.tensorflow.org/2023/10/building-board-game-with-tflite-plugin-for-flutter.html
@tensorflowblog
https://blog.tensorflow.org/2023/09/forecasting-with-tensorflow-decision-forests-and-temporian.html
@tensorflowblog
https://blog.tensorflow.org/2023/08/simpleperf-case-study-fast.html
@tensorflowblog
Modular visual question answering via code generation
https://ai.googleblog.com/2023/07/modular-visual-question-answering-via.html
@tensorflowblog
💨 Scaling hierarchical agglomerative clustering to trillion-edge graphs
Кластеризация графов объединяет похожие элементы в группы, что помогает лучшему понять взаимосвязи в данных.
В этой статье инженеры Google рассказывают о ключевых методах, которые позволили им построить мощнейший алгоритм, позволяющий группировать графы с триллионами ребер.
https://research.google/blog/scaling-hierarchical-agglomerative-clustering-to-trillion-edge-graphs/
@data_analysis_ml
⚡️ AutoBNN: Probabilistic time series forecasting with compositional bayesian neural networks
Autobahn сочетает интерпретируемость традиционных вероятностных подходов с масштабируемостью и гибкостью нейронных сетей для построения сложных моделей прогнозирования временных рядов с использованием сложных данных.
Узнайте больше и попробуйте готовый код → https://blog.research.google/2024/03/autobnn-probabilistic-time-series.html
@tensorflowblog
https://blog.tensorflow.org/2024/03/whats-new-in-tensorflow-216.html
@tensorflowblog
https://blog.tensorflow.org/2024/02/graph-neural-networks-in-tensorflow.html
@tensorflowblog
TimesFM is a forecasting model, pre-trained on a large time-series corpus of 100 billion real world time-points
https://blog.research.google/2024/02/a-decoder-only-foundation-model-for.html
https://blog.tensorflow.org/2023/12/tensorflow-215-update-hot-fix-linux-installation-issue.html
@tensorflowblog
https://blog.tensorflow.org/2023/11/whats-new-in-tensorflow-2-15.html
@tensorflowblog
🔥 Google представили новый алгоритм кластеризации, эффективно сочетающий преимущества масштабируемости моделей эмбедингов и качества моделей кросс-внимания для повышения эффективности и качества операций кластеризации. Посмотреть. →https://blog.research.google/2023/11/best-of-both-worlds-achieving.html
@data_analysis_ml
Присоединяйтесь к Google #AI Dev Advocate,
в виюео рассказываеся о том, в каких случаях следует использовать случайные леса и как они делают прогнозы.
👀 Посмотрите обучающий пример
🧠 Обзор агрегирования Bootstrap
💡 Узнайте о плюсах и минусах "Случайных лесов".
🧡 и многое другое → https://goo.gle/3QfTbK0
https://blog.tensorflow.org/2023/10/simulated-spotify-listening-experiences-reinforcement-learning-tensorflow-tf-agents.html
@tensorflowblog
https://blog.tensorflow.org/2023/08/the-tensorflow-lite-plugin-for-flutter-officially-available.html
@tensorflowblog
https://blog.tensorflow.org/2023/07/whats-new-in-tensorflow-213-and-keras-213.html
@tensorflowblog
Announcing the first Machine Unlearning Challenge
https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html