Telegram-канал machinee_learning - Machine learning chat: Unsorted - каталог телеграмм

machinee_learning | Unsorted

Subscribe to a channel

Telegram-канал machinee_learning - Machine learning chat

6051

Please fell free to send your questions to admin - @haarrp https://t.me/pythonl - channel for Python developers https://t.me/ai_machinelearning_big_data our channel with huge amount of useful information

Subscribe to a channel

Machine learning chat

07 March 2026 19:36

А возможно вообще глубину 5 и число деревьев 10

Читать полностью…

Machine learning chat

07 March 2026 19:33

Да, имеет смысл нагенерить побольше признаков типа f1+f2, f1*f2, f1+f2-f3, f1*f2/f3. Кстати признаки с делением неустойчивы, когда знаменатель близок к нулю, и в таком случае к знаменателю надо добавлять eps

Читать полностью…

Machine learning chat

07 March 2026 19:27

я от себя еще несколько признаков добавил

Читать полностью…

Machine learning chat

07 March 2026 19:26

Очень здорово, а зачем тебе глубина 15, и 500 деревьев, если у тебя всего 5 признаков?

Читать полностью…

Machine learning chat

07 March 2026 19:25

в колабе тренировал а то очень долго локально

Читать полностью…

Machine learning chat

07 March 2026 19:25

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Начинаю обучение на 100 000 строк...")
model = RandomForestRegressor(
n_estimators=500,
max_depth=15,
min_samples_leaf=5,
n_jobs=-1,
random_state=42
)

Читать полностью…

Machine learning chat

07 March 2026 19:24

они же не просто делят данные на тест и трэйн

Читать полностью…

Machine learning chat

07 March 2026 19:23

Там могут быть пересечения в данных

Читать полностью…

Machine learning chat

07 March 2026 19:22

А полный датасет есть?

Читать полностью…

Machine learning chat

07 March 2026 19:21

Очень странный совет. В датасете есть ещё признаки?

Читать полностью…

Machine learning chat

07 March 2026 19:21

5 поставил но это по советам нейронки

Читать полностью…

Machine learning chat

07 March 2026 19:20

У тебя что, всего 5 признаков?

Читать полностью…

Machine learning chat

07 March 2026 19:18

я не стал включить возраст и пол в features так как они вообще не влияют на обучение

Читать полностью…

Machine learning chat

07 March 2026 18:59

как дела ребята я не так долго в этой теме и хочу задать вопрос. Я взял крутой датасет из клиники Китая где таргет уровень плохого холестерина. Попробовал рандом форест регрессию но никак не могу взять Р2 выше 87

Читать полностью…

Machine learning chat

07 March 2026 16:19

Если бы ллм за меня такой код написала я бы сам ушел. Лучше уже в мире врятли будет

Читать полностью…

Machine learning chat

07 March 2026 19:36

Такие параметры явно избыточные. Ты можешь поставить глубину 7 или 10 и число деревьев 30 или 50, и у тебя должны быть примерно такие же результаты, если не лучше. Как минимум будет быстрее учиться

Читать полностью…

Machine learning chat

07 March 2026 19:27

а это поможет как то процессу?

Читать полностью…

Machine learning chat

07 March 2026 19:27

df['TC_HDL_ratio'] = df['TC'] / df['HDL-C']
df['TG_HDL_ratio'] = df['TG'] / df['HDL-C']
df['TC_minus_HDL'] = df['TC'] - df['HDL-C']
features = ['TC', 'HDL-C', 'TG', 'TC_HDL_ratio', 'TG_HDL_ratio', 'TC_minus_HDL']

Читать полностью…

Machine learning chat

07 March 2026 19:26

вот в чем дело не зря дано второй датасет для теста

Читать полностью…

Machine learning chat

07 March 2026 19:25

Там могут быть данные из одного и того же источника, например от одного и того же пациента

Читать полностью…

Machine learning chat

07 March 2026 19:24

это же надо чтобы оценить модель

Читать полностью…

Machine learning chat

07 March 2026 19:24

ну я по туториалам ютуба сделал

Читать полностью…

Machine learning chat

07 March 2026 19:23

я просто делил первый датасет на трайн и тест потом взял метрики

Читать полностью…

Machine learning chat

07 March 2026 19:22

тест датасет есть но я не использовал его для валидации

Читать полностью…

Machine learning chat

07 March 2026 19:21

А глубина дерева какая?

Читать полностью…

Machine learning chat

07 March 2026 19:20

ну да я просто готовый датасет взяо

Читать полностью…

Machine learning chat

07 March 2026 19:19

Min_sample_leafs пробовал тюнить? (Не помню точное название).

Данные сбалансированы?

Читать полностью…

Machine learning chat

07 March 2026 19:14

норм но кодекс жрет токены как буйвол траву

Читать полностью…

Machine learning chat

07 March 2026 17:01

Добрый день! Помогите пожалуйста кто шарит за PyInstaller. Бинарник собирается, но при запуске падает с ошибкой. Я в бинарник заворачиваю скрипт, запускающий Arize Phoenix.

Файл run_phoenix.py

import sys

sys.argv = ['phoenix', 'serve']
from phoenix.server.main import main
if __name__ == '__main__':
    main()

Файл run_phoenix.spec для PyInstaller:

# -*- mode: python ; coding: utf-8 -*-

import os
import sys
from PyInstaller.utils.hooks import collect_data_files, collect_submodules

datas = collect_data_files('phoenix', include_py_files=True)

hiddenimports = [
    'sqlalchemy',
    'alembic',
    'alembic.runtime.migration',
    'alembic.operations',
    'alembic.ddl',
    'uvicorn',
    'uvicorn.logging',
    'uvicorn.lifespan',
    'uvicorn.lifespan.on',
    'uvicorn.lifespan.off',
    'fastapi',
    'pydantic',
    'starlette',
    'phoenix',
    'phoenix.server',
    'phoenix.db',
    'phoenix.db.migrations'
]

a = Analysis(
    ['src/vaisor/run_phoenix.py'],
    pathex=[],
    binaries=[],
    datas=datas,
    hiddenimports=hiddenimports,
    hookspath=['hooks'],
    hooksconfig={},
    runtime_hooks=[],
    excludes=[],
    noarchive=False
)

pyz = PYZ(a.pure)

exe = EXE(
    pyz,
    a.scripts,
    [],
    exclude_binaries=True,
    name='run',
    debug=False,
    bootloader_ignore_signals=False,
    strip=False,
    upx=True,
    console=True,
    disable_windowed_traceback=False,
    argv_emulation=False,
    target_arch=None,
    codesign_identity=None,
    entitlements_file=None,     
)

coll = COLLECT(
    exe,
    a.binaries,
    a.datas,
    strip=False,
    upx=True,
    upx_exclude=[],
    name='run'
)

Запускаю PyInstaller: pyinstaller run_phoenix.spec

Бинарник собирается, но при запуске падает с ошибкой: File “scipy/stats/_distn_infrastructure.py”, line 369, in <module>
NameError: name “obj” is not defined

Читать полностью…

Machine learning chat

05 March 2026 15:05

🌟 Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs.

Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс.

Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.

🟡Self-Flow предлагает механизм Dual-Timestep Scheduling

В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст.

Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним).

Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера.

🟡Результаты тестов

🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA;

Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче

🟢На text-to-image: FID 3.61 против 3.92 у REPA;

🟢По видео: FVD 47.81 против 49.75 у REPA;

🟢По аудио: лучшие FAD-оценки среди всех вариантов.

При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B.

Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения.

В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun.

🟡Статья
🟡Техотчет
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #Multimodal #Framework #BFL

Читать полностью…

Subscribe to a channel