6051
Please fell free to send your questions to admin - @haarrp https://t.me/pythonl - channel for Python developers https://t.me/ai_machinelearning_big_data our channel with huge amount of useful information
А возможно вообще глубину 5 и число деревьев 10
Читать полностью…
Да, имеет смысл нагенерить побольше признаков типа f1+f2, f1*f2, f1+f2-f3, f1*f2/f3. Кстати признаки с делением неустойчивы, когда знаменатель близок к нулю, и в таком случае к знаменателю надо добавлять eps
Читать полностью…
я от себя еще несколько признаков добавил
Читать полностью…
Очень здорово, а зачем тебе глубина 15, и 500 деревьев, если у тебя всего 5 признаков?
Читать полностью…
в колабе тренировал а то очень долго локально
Читать полностью…
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Начинаю обучение на 100 000 строк...")
model = RandomForestRegressor(
n_estimators=500,
max_depth=15,
min_samples_leaf=5,
n_jobs=-1,
random_state=42
)
они же не просто делят данные на тест и трэйн
Читать полностью…
Очень странный совет. В датасете есть ещё признаки?
Читать полностью…
я не стал включить возраст и пол в features так как они вообще не влияют на обучение
Читать полностью…
как дела ребята я не так долго в этой теме и хочу задать вопрос. Я взял крутой датасет из клиники Китая где таргет уровень плохого холестерина. Попробовал рандом форест регрессию но никак не могу взять Р2 выше 87
Читать полностью…
Если бы ллм за меня такой код написала я бы сам ушел. Лучше уже в мире врятли будет
Читать полностью…
Такие параметры явно избыточные. Ты можешь поставить глубину 7 или 10 и число деревьев 30 или 50, и у тебя должны быть примерно такие же результаты, если не лучше. Как минимум будет быстрее учиться
Читать полностью…
df['TC_HDL_ratio'] = df['TC'] / df['HDL-C']
df['TG_HDL_ratio'] = df['TG'] / df['HDL-C']
df['TC_minus_HDL'] = df['TC'] - df['HDL-C']
features = ['TC', 'HDL-C', 'TG', 'TC_HDL_ratio', 'TG_HDL_ratio', 'TC_minus_HDL']
вот в чем дело не зря дано второй датасет для теста
Читать полностью…
Там могут быть данные из одного и того же источника, например от одного и того же пациента
Читать полностью…
я просто делил первый датасет на трайн и тест потом взял метрики
Читать полностью…
тест датасет есть но я не использовал его для валидации
Читать полностью…
Min_sample_leafs пробовал тюнить? (Не помню точное название).
Данные сбалансированы?
норм но кодекс жрет токены как буйвол траву
Читать полностью…
Добрый день! Помогите пожалуйста кто шарит за PyInstaller. Бинарник собирается, но при запуске падает с ошибкой. Я в бинарник заворачиваю скрипт, запускающий Arize Phoenix.
Файл run_phoenix.py
import sys
sys.argv = ['phoenix', 'serve']
from phoenix.server.main import main
if __name__ == '__main__':
main()
# -*- mode: python ; coding: utf-8 -*-
import os
import sys
from PyInstaller.utils.hooks import collect_data_files, collect_submodules
datas = collect_data_files('phoenix', include_py_files=True)
hiddenimports = [
'sqlalchemy',
'alembic',
'alembic.runtime.migration',
'alembic.operations',
'alembic.ddl',
'uvicorn',
'uvicorn.logging',
'uvicorn.lifespan',
'uvicorn.lifespan.on',
'uvicorn.lifespan.off',
'fastapi',
'pydantic',
'starlette',
'phoenix',
'phoenix.server',
'phoenix.db',
'phoenix.db.migrations'
]
a = Analysis(
['src/vaisor/run_phoenix.py'],
pathex=[],
binaries=[],
datas=datas,
hiddenimports=hiddenimports,
hookspath=['hooks'],
hooksconfig={},
runtime_hooks=[],
excludes=[],
noarchive=False
)
pyz = PYZ(a.pure)
exe = EXE(
pyz,
a.scripts,
[],
exclude_binaries=True,
name='run',
debug=False,
bootloader_ignore_signals=False,
strip=False,
upx=True,
console=True,
disable_windowed_traceback=False,
argv_emulation=False,
target_arch=None,
codesign_identity=None,
entitlements_file=None,
)
coll = COLLECT(
exe,
a.binaries,
a.datas,
strip=False,
upx=True,
upx_exclude=[],
name='run'
)
🌟 Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs.
Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс.
Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.
Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче