3112
Биоинформатика, дата сайнс, биология. Основное правило - вежливое и уважительное общение. @sberlogabig - основной канал @sberlogasci математика, физика, ДС @sberloga_discussion за жизнь Доклады: https://www.youtube.com/c/SciBerloga
да нет, ты просто отрицаешь очевидное. Что биологии модели не выучили.
Если модель выучила биологию — то она будет лучше trained from scratch)
Кстати, есть какое-то научное объяснение этих терминов?
Что такое "выправить проблемы с самими собой"?
Что значит "выравниваются"?
И что значит "более адекватные from scratch"?
Вообще если претрена приводит к тому, что все модели "выправляют проблемы с самими собой", "выравниваются" и становятся "более адекватные (чем) from scratch" - я это и называю полезностью ) можно больше не дискутировать
конечно же И другой. Ты утверждаешь что модель выучила новое знание. Значит она должна работать лучше не только себя непредобученной.
Читать полностью…
я просто не знаю — ну укажите кто-то из присутствующих в чате, что в image претрейнах или nlp такой же дурдом продолжается. Я может не знаю
Читать полностью…
Полезное — это отличное от того, если взять случайную инициализацию.
Полезного нет.
Я тебе и даю объяснение — на даунстрим задачах некоторым архитектурам стартуя с нуля сложнее выправить проблемы с самими собой (например, неудачной токенизацией и неправильной инициализацией). В ходе предобучения на простой задаче они "выравниваются". И в итоге ведут себя как просто более адекватные from scratch.
А что важно и что доказало бы полезность — этого нет. Ибо все еще просто правильная архитектура дает from scratch те же результаты.
Тут нет биологически-информированных архитектур и тд. Потому и говорить что в них конструированием допустим заложили биологические знания, не получится. И остается только признать что предобучение БИОЛОГИЧЕСКИ важных вещей не дало.
в этом сообщение есть указание на то, что в претрейне явно не какая-то биология или прочее учится.
Если в итоге не бьется другая рандомная модель.
Ты хочешь серьезно доказывать пользу днк-претрейна как "Она улучшает то, что наша кривая архитектура в ходе предобучения пытается выправиться чтоб работать как хотя бы правильная случайно инициализированная"?
мы будем игнорировать тот факт, что просто взяв другую модель рандомно инициализированную мы получаем качество лучше чем от расчудесного претрейна?
Читать полностью…
я понял почему у нас с тобой не понимание по Table 2, @minjafish. Ты думаешь, что они на задачу на Table2 файнтюнили модель. А там
This surprising trend continues to be observed in feature extraction task (Table 2), where embeddings
from frozen models are used to train a simple classifier.
Осталось только one-hot CNN добавить в стиле ResNet на это график (DASHA) и будем катарсис
Читать полностью…
качество у них НИЖЕ специализированных
Читать полностью…
Если совсем обобщить - предсказывать любые геномные профили по сиквенсу. RNA-seq, CAGE, ATAC, Methylation, eQTL. Некоторые генерируют ими новые последовательсноти - CRISPR-системы, фагов, etc.
Но все эти дискуссии скоре про vision - все модели ещё достаточно сырые и качество у них не намного выше, чем у специализированных. Просто есть те (такие как я), кто считает направление переспективным, а есть те, которые думаю, что это тупиковая ветвь и будущее за специализированными моделями.
А можно для тупеньких мокрых биологов: а чего эти ваши ДНК-модели, в максимально оптимистичном режиме, должны делать?
Читать полностью…
давай я перерисую ее
Читать полностью…
Ну ладно. Мне в общем и целом к этой картинке нечего добавить. Пусть дальше каждый сам для себя сформирует мнение, факты тут приведены.
Читать полностью…
Так я и пишу вывод. Можно подобрать более удачную архитектуру и да, она даст лучшее качество даже без претрены. А если ее запретренить - качество будет ещё лучше в 9 случаях из 10 (см. Fig. 1)
Читать полностью…
В общем мне кажется, мы опять зациклились. Я пойду, вернусь, когда выйдет новая статья.
Читать полностью…
Конечно же нет. Есть два фактора - архитектура и претрена. Сравнивать меняя оба не корректно - невозможно понять, какой вклад вносит каждый из факторов.
Читать полностью…
Той же модели? Или другой?
Читать полностью…
Судя по графику, почти всем? Так?
Читать полностью…
Кривая архитектура... Это все эмоции. А все-таки -
почему, если в претрене ничего полезного не учится, точки систематически смещаются от диагонали?Читать полностью…
В этом сообщении что-то может помочь мне ответить на этот вопрос?
почему, если в претрене ничего полезного не учится, точки систематически смещаются от диагонали?Читать полностью…
В общем просьба тегнуть меня, если будет какое-то объяснение, почему, если в претрене ничего полезного не учится, точки систематически смещаются от диагонали. А я пока другой интерпретации этого феномена кроме как то, что претрена помогает, не увидел.
Читать полностью…
опять же, а кто этот бардак устроил и не проверил свою модель на прошлом бенчмарке? Не авторы ли Nucleotide Transformer 3 собственной персоной?
Читать полностью…
а отсюда на самом деле видно еще и то, что чем лучше у модели архитектура на рандомной инициализации, тем меньше ей помогает дообучение.
Читать полностью…
Собственно в препринте в том и было отличие. Они сравнивались с лучшей моделью рандомно инициализированной для данного таска
А тут перерисовали без этого нюанса
scatter plot внезапно очень путающий в данном случае получается. Ибо с него кричит вывод что модели X претрейн помогает. А что модель при этом все равно хуже другой рандомно инициализированной — мы не видим. Я позволил себе дорисовать
Читать полностью…
Как хочешь ) ИМХО больше пользы было бы в том, чтобы добавить сюда более современные модели (включая нашу), потому что это уже все устарело. А ещё больше пользы - сделать хороший бенчмарк и выложить его на hf, чтобы было удобно всем пользоваться.
Читать полностью…
здесь на самом деле везде диагональ сбивает. Можно просто прочертить от наибольшее достижимое качество рандомно инициализируемой моделью и станет очень грустно
Читать полностью…
нет это не удачная архитектура, ты передергиваешь
Читать полностью…
Я позволю поправить.
Оказывается если заменить генератор случайного шума, который мы используем в качестве бейзлайна, то можно добиться качества равного или большего чем у моделей с претрейном.