3112
Биоинформатика, дата сайнс, биология. Основное правило - вежливое и уважительное общение. @sberlogabig - основной канал @sberlogasci математика, физика, ДС @sberloga_discussion за жизнь Доклады: https://www.youtube.com/c/SciBerloga
Поговорили - их гениальный план заключается в том, чтобы дождаться пока пара ключевых инженеров выйдет из отпуска через две недели и потом довыкладывать архивы с протеомами (димеры, сгруппированные по организму), и вроде россыпью отдельных файлов тоже выложат, если я правильно их понял. Ну то есть работа продолжается, на ФТП ещё выкладывать будут, но через несколько недель. Вот.
Читать полностью…
всем привет!
мы тут в компании зарелизили очень быстрый open-source инструмент для antibody/TCR numbering: https://github.com/ENPICOM/immunum
Rust, в тысячу (не шучу) раз быстрее чем ANARCI, python bindings, polars module -- всё там. В планах duckdb extension и R bindings, если у вас есть опыт в этом -- мы рады обсудить как это добавить!
опенсорсная часть: MIT license, выделены внутренние ресурсы на maintenance (общение в issues, PR review, такие штуки.
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Сергей
Напиши пару слов о себе 👍
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Mark
Напиши пару слов о себе 👍
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Дима Солдат
Напиши пару слов о себе 👍
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Игорь Бердышев
Напиши пару слов о себе 👍
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Полина Лазарева
Напиши пару слов о себе 👍
порезать батчи на организмы типа?
Читать полностью…
положили. 30Tb разбитых на батчи по 7.6Gb однако. но это по всем организмам. дают tsv индекс где можно найти белок/организм и скачивать батчи только с ним. корреляций между батчем и организмом не заметил, кажется всё в кучу.
Читать полностью…
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Лилия
Напиши пару слов о себе 👍
📆 Что обсуждалось вчера 21.03.2026
Дискуссия о претрениговке языковых моделей на ДНК (56 сообщений)
Различия в архитектурах моделей и их результатах (12 сообщений)
Проблемы с бенчмарками в модели ДНК (10 сообщений)
#dailysummary | ⭐️ поддержать команду
Банальный пример для dnabert. Вроде его и в статье цитируют
https://academic.oup.com/bioinformatics/article/39/10/btad617/7303863
Т.е во время предоьучения модель просто научилась понимать близость кмеров. Не биологическую.
Отсюда и польза для рандома от смены токенизатора. Токенизатор непонуклеотидный требует от используемой модели выучить связь между кмерами. Абсолбтно никакой биологии, просто проблема токенищатора.
ну из банального. За счет выучивания эволюции уметь давать априор, что мутация X не фатальна в данном контексте. А при дообучении на датасете соответствующим этот априор поправлять.
Читать полностью…
там в соседнем посте pytorch-реализация. я не пробовал, но там среди авторов вроде тот, кто не косячит. Код их на jax очень странный. И местами видно что хоть и сказано что пакет, но в пакет не сделано (pip не ставит то что надо)
Читать полностью…
О, вот это оч полезно, как раз нужно на CAGI сравнивать наши модели с aGenome. Спасибо!
Читать полностью…
поддержите звёздами тогда 😑⭐️
Читать полностью…
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Никита Доброволец
Напиши пару слов о себе 👍
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Таня Чистякова
Напиши пару слов о себе 👍
📆 Что обсуждалось вчера 24.03.2026
Обсуждение предложений по трудоустройству (1 сообщений)
Обсуждение научной статьи на arXiv (1 сообщений)
Запрос помощи или поддержки (1 сообщений)
#dailysummary | ⭐️ поддержать команду
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Carlo Ashley
Напиши пару слов о себе 👍
📆 Что обсуждалось вчера 23.03.2026
Обсуждение обработки батчей генетических данных (4 сообщений)
Поиск людей для удаленной работы (2 сообщений)
#dailysummary | ⭐️ поддержать команду
Спрошу, в чём их гениальный план заключается - может там система есть? :)) на самом деле не очень понятно, как лучше группировать - можно по семейству белков, по организму, по метрикам уверенности. Они над этим уже должны были подумать - поговорим :))
Читать полностью…
Хммм, как-то не очень красиво, однако :(( поспрашиваю, как увижу, не собираются ли по-человечески перевыложить. Вот ведь народ, глаз да глаз нужен…
Читать полностью…
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Ольга
Напиши пару слов о себе 👍
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Валерия
Напиши пару слов о себе 👍
Добро пожаловать в (sci)Berloga Bioinformatics, Biology, etc. Club, Aleksandr
Напиши пару слов о себе 👍
но даже с этим у этих поделий, мягко говоря, не все слава богу
Читать полностью…
выбивать офигенные метрики конечно!
Читать полностью…
Ага, но код пригодится
Читать полностью…
пользе pretrain выглядит примерно так. Боюсь за ворохом днк-языковых моделей мы забыли.
Читать полностью…