machinee_learning | Unsorted

Telegram-канал machinee_learning - Machine learning chat

6051

Please fell free to send your questions to admin - @haarrp https://t.me/pythonl - channel for Python developers https://t.me/ai_machinelearning_big_data our channel with huge amount of useful information

Subscribe to a channel

Machine learning chat

А возможно вообще глубину 5 и число деревьев 10

Читать полностью…

Machine learning chat

Да, имеет смысл нагенерить побольше признаков типа f1+f2, f1*f2, f1+f2-f3, f1*f2/f3. Кстати признаки с делением неустойчивы, когда знаменатель близок к нулю, и в таком случае к знаменателю надо добавлять eps

Читать полностью…

Machine learning chat

я от себя еще несколько признаков добавил

Читать полностью…

Machine learning chat

Очень здорово, а зачем тебе глубина 15, и 500 деревьев, если у тебя всего 5 признаков?

Читать полностью…

Machine learning chat

в колабе тренировал а то очень долго локально

Читать полностью…

Machine learning chat

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Начинаю обучение на 100 000 строк...")
model = RandomForestRegressor(
n_estimators=500,
max_depth=15,
min_samples_leaf=5,
n_jobs=-1,
random_state=42
)

Читать полностью…

Machine learning chat

они же не просто делят данные на тест и трэйн

Читать полностью…

Machine learning chat

Там могут быть пересечения в данных

Читать полностью…

Machine learning chat

А полный датасет есть?

Читать полностью…

Machine learning chat

Очень странный совет. В датасете есть ещё признаки?

Читать полностью…

Machine learning chat

5 поставил но это по советам нейронки

Читать полностью…

Machine learning chat

У тебя что, всего 5 признаков?

Читать полностью…

Machine learning chat

я не стал включить возраст и пол в features так как они вообще не влияют на обучение

Читать полностью…

Machine learning chat

как дела ребята я не так долго в этой теме и хочу задать вопрос. Я взял крутой датасет из клиники Китая где таргет уровень плохого холестерина. Попробовал рандом форест регрессию но никак не могу взять Р2 выше 87

Читать полностью…

Machine learning chat

Если бы ллм за меня такой код написала я бы сам ушел. Лучше уже в мире врятли будет

Читать полностью…

Machine learning chat

Такие параметры явно избыточные. Ты можешь поставить глубину 7 или 10 и число деревьев 30 или 50, и у тебя должны быть примерно такие же результаты, если не лучше. Как минимум будет быстрее учиться

Читать полностью…

Machine learning chat

а это поможет как то процессу?

Читать полностью…

Machine learning chat

df['TC_HDL_ratio'] = df['TC'] / df['HDL-C']
df['TG_HDL_ratio'] = df['TG'] / df['HDL-C']
df['TC_minus_HDL'] = df['TC'] - df['HDL-C']
features = ['TC', 'HDL-C', 'TG', 'TC_HDL_ratio', 'TG_HDL_ratio', 'TC_minus_HDL']

Читать полностью…

Machine learning chat

вот в чем дело не зря дано второй датасет для теста

Читать полностью…

Machine learning chat

Там могут быть данные из одного и того же источника, например от одного и того же пациента

Читать полностью…

Machine learning chat

это же надо чтобы оценить модель

Читать полностью…

Machine learning chat

ну я по туториалам ютуба сделал

Читать полностью…

Machine learning chat

я просто делил первый датасет на трайн и тест потом взял метрики

Читать полностью…

Machine learning chat

тест датасет есть но я не использовал его для валидации

Читать полностью…

Machine learning chat

А глубина дерева какая?

Читать полностью…

Machine learning chat

ну да я просто готовый датасет взяо

Читать полностью…

Machine learning chat

Min_sample_leafs пробовал тюнить? (Не помню точное название).

Данные сбалансированы?

Читать полностью…

Machine learning chat

норм но кодекс жрет токены как буйвол траву

Читать полностью…

Machine learning chat

Добрый день! Помогите пожалуйста кто шарит за PyInstaller. Бинарник собирается, но при запуске падает с ошибкой. Я в бинарник заворачиваю скрипт, запускающий Arize Phoenix.

Файл run_phoenix.py

import sys

sys.argv = ['phoenix', 'serve']
from phoenix.server.main import main
if __name__ == '__main__':
    main()

Файл run_phoenix.spec для PyInstaller:
# -*- mode: python ; coding: utf-8 -*-

import os
import sys
from PyInstaller.utils.hooks import collect_data_files, collect_submodules

datas = collect_data_files('phoenix', include_py_files=True)

hiddenimports = [
'sqlalchemy',
'alembic',
'alembic.runtime.migration',
'alembic.operations',
'alembic.ddl',
'uvicorn',
'uvicorn.logging',
'uvicorn.lifespan',
'uvicorn.lifespan.on',
'uvicorn.lifespan.off',
'fastapi',
'pydantic',
'starlette',
'phoenix',
'phoenix.server',
'phoenix.db',
'phoenix.db.migrations'
]

a = Analysis(
['src/vaisor/run_phoenix.py'],
pathex=[],
binaries=[],
datas=datas,
hiddenimports=hiddenimports,
hookspath=['hooks'],
hooksconfig={},
runtime_hooks=[],
excludes=[],
noarchive=False
)

pyz = PYZ(a.pure)

exe = EXE(
pyz,
a.scripts,
[],
exclude_binaries=True,
name='run',
debug=False,
bootloader_ignore_signals=False,
strip=False,
upx=True,
console=True,
disable_windowed_traceback=False,
argv_emulation=False,
target_arch=None,
codesign_identity=None,
entitlements_file=None,
)

coll = COLLECT(
exe,
a.binaries,
a.datas,
strip=False,
upx=True,
upx_exclude=[],
name='run'
)


Запускаю PyInstaller: pyinstaller run_phoenix.spec

Бинарник собирается, но при запуске падает с ошибкой: File “scipy/stats/_distn_infrastructure.py”, line 369, in <module>
NameError: name “obj” is not defined

Читать полностью…

Machine learning chat

🌟 Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs.

Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс.

Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.


🟡Self-Flow предлагает механизм Dual-Timestep Scheduling

В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст.

Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним).

Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера.

🟡Результаты тестов

🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA;
Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче


🟢На text-to-image: FID 3.61 против 3.92 у REPA;

🟢По видео: FVD 47.81 против 49.75 у REPA;

🟢По аудио: лучшие FAD-оценки среди всех вариантов.

При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B.

Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения.

В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun.


🟡Статья
🟡Техотчет
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #Multimodal #Framework #BFL

Читать полностью…
Subscribe to a channel