7668
Мультидисциплинарный канал о науке и технологиях. Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science. @sberlogabio био и дата сайнс @sberlogasci математика, физика и ДС https://www.youtube.com/c/SciBerloga
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Богдан Булатов "Deep-Q algorithm and autodidactic iteration algorithm for Cube Rube"
⌚️ Понедельник, 8 Апреля, 19.00 (по Москве)
Add to Google Calendar
Будет рассказано о применении Deep Q-algorithm и autodidactic iteration algorithm для решения задачи о нахождении короткого пути на графах Кэли (другими словами - решение Кубика Рубика).
Презентация доклада доступна по ссылке: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
Ноутбук: https://www.kaggle.com/code/bagdan/autodidactic-iteration-algorithm-for-cube-rube (апвоуты приветствуются).
Также будет дан разбор алгоритма Deep Q Network (DQN) на примере задачи по посадке лунного модуля (https://www.gymlibrary.dev/environments/box2d/lunar_lander/
см. ноутбук: https://www.kaggle.com/code/bagdan/dqn-lunar-rider
📖 Presentation: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
📹 Video: https://youtu.be/Xo9SAgkGDR0?si=Q_MJyYK45ieaH2n9
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Передовая инженерная школа ИТМО объявляет о старте регистрации на Школу РЕ 2024!
Ты инженер или молодой ученый? Хочешь запускать на рынок прибыльные и перспективные проекты? Хочешь выйти из фундаментальной истории в индустрию?
Школа РЕ — это экспертный буст от лидеров рынка и успешных предпринимателей, нетворкинг с коллегами из профессиональной сферы и построение своей карьерной траектории при поддержке ПАО «Татнефть».
Горишь идеей, но не знаешь, как ее упаковать? Ищи все подробности мероприятия на сайте и подавай заявку на участие в интенсиве до 17 апреля включительно.
Чья бы это не была грязная партия, погибли и пострадали люди. Террору нет места нигде.
Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
🚀 @SBERLOGASCI вебинар/обсуждение :
👨🔬 Богдан Булатов, Ульяна Князюк, Михаил Ураков "Применение Q-learning и SARSA к задаче короткого пути на графах. Разбор ноутбуков"
⌚️ Вторник, 19 Марта, 19.00 по Москве
Add to Google Calendar
Вводное обсуждение по методам RL (reinforcement learning) - Q-learning and SARSA. С разбором ноутбуков, которые применяют эти методы к задаче поиска короткого пути на графах. Нам желательно освоить детально эти простые методы, чтобы эффективней двигаться дальше. Желательно понять насколько эти методы плохо/хорошо масштабируются на большие графы, и как эффективность методов зависит от самой структуры графов (графы попроще - типа решеток, графы посложнее - скажем граф состояний кубика Рубика, или любой случайной группы). Дальнейший шаг - как улучшить методы, чтобы было возможно решать задачу короткого пути на огромных графов - большие кубики и подобные группы.
Ноутбуки:
Богдан , Ульяна , Михаил
(Апвоуты - приветствуются ! )
Исходный ноутбук: https://www.kaggle.com/code/prabhakarkalaiselvan/shortest-path-in-undirected-graph-using-rl-methods
В ноутбуке Богдана:
"+ реализовал метод Cross Entropy
+ изменил методику назначения reward. Автор оригинального поста присуждает 0 всем возможным граням. Мне кажется, что лучше присуждать -1. Так траектории с более коротким маршрутом получат больше итоговой награды, чем более длинные траектории (штрафуем за лишние шаги). Это может сыграть роль на более сложных примерах, а так же поможет сравнивать работу различных алгоритмов
"
Zoom link: @sberlogabig at start.
Videos: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation
📹 Video
—————————-
Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : /channel/sberlogasci/7794 . Более подробная инфа тут: /channel/sberlogabig/374.
🚀 Что это за графы ? Это примеры графов Кэли для группы перестановок и стандартных образующих.
Напомним, что графы Кэли - краеугольной камень современной математики, и о них есть много нерешенных математических гипотез, которые мы надеемся продвинуть с помощью методов машинного обучения. Если Вам интересно присоединиться - отметьтесь в голосовалке : /channel/sberlogasci/7794
🚀 Графы Кэли/Шрейра определяются довольно просто - берем набор векторов (элементов группы/ее представления) и набор матриц (образующих группы). Вершины - вектора , ребро есть между x,y - если существует матрица из набора, что x = M y. И все ! Понятно - ребенку.
🚀 Владимир (автор замечательного канала @chelovek_nauk ) сделал ноутбук https://www.kaggle.com/code/shitovvladimir/visualization-of-cayley-graphs с визуализацией примеров этих графов. Апвоуты Каггл ноутбука - приветствуются , а также рекомендуем подписаться на его канал @chelovek_nauk!
🚀 Но при всей простоте, понимание свойств этих графов - например, оценка диаметра или гипотеза Ловаса о существовании гамильтонова пути - не поддаются усилиям лучших умов математики, включая Филсовдких медалистов Т. Тао, Т. Говерс, Ж. Бурген ... Но может быть именно Вы сможете решить эти проблема ? ) Присоединяйтесь - к нашей активности: /channel/sberlogasci/7794 .
Всем поклонникам биологии рекомендуем замечательный канал "Liza loves biology" @liza_loves_biology от Лизы Мининой:
Читать полностью…
⚡️ Полезное объявление для молодых ученых и тех, кто начинает строить карьеру в биоинфе!
Постоянные дедлайны грантовых отчетов, нехватка финансирования, конкуренция, скучные проекты и рутина, «зависимость» от лабы и научника, нескончаемый стресс... Вы еще спрашиваете, откуда берется токсичность в научной среде? 😅
Действительно, всё перечисленное демотивирует и приводит к превращению в вечного ворчуна.
Ученому важно зарабатывать достойно. Однако, многие научные сотрудники чувствуют себя неуверенно и редко отваживаются требовать должного вознаграждения за свои труды. К счастью, в условиях быстро меняющегося мира, появляются возможности обеспечивать себя хорошим заработком и не стыдиться этого.
Добавить к своему багажу знаний релевантные и востребованные навыки — вот стратегия развития современной карьеры. Такие навыки сегодня: статистика и анализ данных. Big Data проникает практически во все области науки, и ученым, владеющим биоинформатикой, открываются широкие перспективы для проведения качественных исследований, работы с интересными задачами, в том числе дистанционно.
Хотите обогатить свою научную жизнь, но не знаете как? В Blastim расскажут и покажут. Совсем скоро стартует курс «Статистика, R и анализ данных» — отличный старт для погружения в датасайнс.
На курсе вы:
▫️ освоите инструменты R для обработки и визуализации
▫️ научитесь дизайнерить и анализировать эксперименты
▫️ отрепетируете процесс анализа на своих собственных данных!
▫️ увидите применение статистических методов на практике для получения воспроизводимых результатов
❗️Важно. С Blastim вы не просто учитесь, а становитесь частью дружной биоинформатической семьи. В чате выпускников можно обмениваться идеями и опытом, создавать новые связи в мире науки. Если возникают вопросы, преподаватели всегда придут на помощь и подскажут, какой статистический тест выбрать, или напомнят, что такое p-value 😉
Не становитесь «токсиками», а берите всё в свои руки!
Промокод SBERLOGA специально для нашей группы
🚀Коллеги, напоминаем, что мы организуем активность - применить методы машинного обучения к задачам теории групп/графов.
🚀 В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем.
🚀 Примерный список направлений
1) Задача поиска короткого пути на графах Кэли (сборка кубика - аналог Каггл Санта23 - но для произвольных групп)
2) Оценки диаметра ("числа бога") для графов (то есть расстояние между самыми дальними точками на графах)
3) Бенчмарк эмбедингов графов на основе математических результатов о графах
4) Многое другое, что тесно связано - случайные блуждания, гипотеза Ловаса о обязательном существовании гамильтонова пути на любом графе Кэли,
Обсуждение части направлений можно найти на вебинаре тут: /channel/sberlogabig/370
Обсуждение Каггл соревнования Санта23 - /channel/sberlogabig/361
🚀А теперь позвольте представить Вам интересные результаты полученные одним из участников - Kirill Khoruzhii - автором замечательного канала - @diagrams_every_day - обязательно подписывайтесь:
👨🔬 Александр Червов "МЛ/РЛ подходы к задачам теории групп/графов"
⌚️ Пятница, 1 марта, 19.00 (по Москве)
По любой группе (набору матриц или перестановок) легко строится граф (Кэли) - вершины вектора, между v,w есть ребро, если существует "M" из нашего набора, такое что v = Mw . Такие графы краеугольный камень современной математики - известная теорема Громова - о том, что если "рост" (то есть набор чисел $g_i$ - количество вершин на расстоянии "i") - растет экспоненциально по i - то группа далека от коммутативной, а если полиномиально - то группа близка к коммутативной, то есть граф близок к решетке.
Возможно, это имеет прямое отношение к эмбедингам графов - графы с экпоненциальным ростом лучше вкладывать в гиперболические пространства, а с полиномиальным ростом - в обычное R^n. Но правда ли это ? и что значит "лучше" ?
Но, Громов - бесконечные группы, нужны конечные. В ситуации "попроще" (там где рост НЕ экспоненциален) - "рост" иногда хорошо приближается нормальным гауссовым "колокольчиком" (см. мои гипотезы на матоферлоу). "Хороший" эмбединг - должен "уважать" метрики - метрика на графе - длина кратчайшего пути - метрика в эмбединге - расстояние евликдово или гиперболическое. "Хороший" эмбединг должен не сильно искажать эти метрики. А значит гауссово распределение должно сохраняться и после эмбедингов. А сохраняют ли его современные пакеты эмбедингов - node2vec, DeepWalk ... ? Науке не известно, но мы можем это поизучать - сделать бенчмарк эмебедингов графов. А как правильно думать об эмбедингах графов с экспоенциальным ростом - вот вопрос - пока не понятно - но что-ть придумаем.
Другая тема - всем интересна оценка диаметров ("числа Бога") - где крайняя точка на графике роста ? или какое самое большое расстояние на графе , или на языке кубиков - за сколько шагов можно точно собрать кубик из любого положения ? Науке тут тоже многое не известно.
О докладчике: к.ф.-м.н А.Червов, Институт Кюри, Париж. Scholar, Kaggle, попутно создатель Сберлог)
📖 Presentation
📹 Video
Новые программы обучения по биоинформатике от учебного центра biomedschool.ru!
➡️ Вебинар «Анализ качества Fast Q-файлов и исправление ошибок»
Дата проведения: 29 февраля в 19:00
Формат: Онлайн
Поймете, как пользоваться программами fastQC, сutadapt и prinseqlite. Вы научитесь проводить оценку качества секвенирования и фильтровать сырые прочтения секвенатора по качеству и длине, отрезать адаптеры и праймерные последовательности. Практика во время вебинара на реальных данных секвенирования с платформы Illumina.
➡️ Курс «Введение в технологии NGS. Работа с данными секвенирования»
Дата проведения: 15 — 20 марта
Формат: Очно (Москва) / Онлайн
Вы изучите работу с базами данных, проведёте анализ результатов секвенирования и самостоятельно соберете геном, аннотируете мутации и начнёте пополнять свое портфолио реальными кейсами!
➡️ Курс «Python для анализа данных»
Дата проведения: 26 — 27 апреля
Формат: Очно (Москва) / Онлайн
В отличии от его бесплатных аналогов, во время обучения вы получите структурированную информацию по основам языка и работе с библиотеками, обратную связь от преподавателей и❗️практику на примере биологических проектов.
Подробности на сайте — biomedschool.ru
Молекулярные микрочипы, передовое образование и тесная связь с бизнесом. Передовая инженерная школа ИТМО поделилась результатами защит и выиграла грант на 634,5 миллиона рублей!
На прошлой неделе прошли ежегодные защиты в рамках федерального проекта Передовых инженерных школ в 2023 году. Университеты представили результаты научных работ, достижения, наиболее значимые для экономики и общества результаты разработок, а также — планы развития и задачи 2024 год.
В ПИШ ИТМО реализуется креативный подход к образованию студентов, которые во время обучения участвуют в создании высокотехнологичных разработок или создают свои стартапы. Смотрите видео и подписывайтесь на их канал, чтобы не пропустить интересные новости!
На гифе - процесс сборки многослойного кубика Рубика за 2869 ходов.
🚀 @SBERLOGACOMPETE webinar on mathematics and data science:
👨🔬 V. Shitov, P.Snopov, A.Chervov "Теория групп, пазлы Рубика и Каггл соревнование Санта23"
⌚️ Пятница 16 февраля 2024, 19.00 (по Москве)
Add to Google Calendar
Постановка задачи.
На задачу можно смотреть как минимум четырьмя способами 1) даны разобранные состояние пазлов типа многомерного кубика Рубика - надо предъявить последовательность ходов сборки - у кого меньше тот и выиграет 2) Даны два вектора v1, v2 - предъявить последовательность матриц из фиксированного набора так чтобы v2 = M_1M_2M_3 .. M_n v1 ( у кого короче - тот и выиграл) 3) Аналогично с заменой матриц на перестановки 4) Поиск наиболее короткого пути на графе между двумя вершинами - только граф может быть такой, что число вершин в нем больше чем атомов во вселенной.
Теория групп. И подходы к решениям.
Мы обсудим разные взгляды на эту задачу и разные способы ее решать.
Поговорим о простых трюках из теории групп, которые позволили написать хороший оптимизатор публичных решений. Обсудим идею в основе топовых решений и как её можно улучшить
Подходы через MILP ( смешенное целочисленно-линейное программирование) и реинфорсмент ленинг.
Расскажем про постановку задачи как задачи целочисленного программирования и (если останется время, немного расскажу про RL подход в соревновании)
Нерешенные математические проблемы .
В теории групп много гипотез над которыми думают лучшие умы такие как Т.Тао (См. например обзор Хельфгота Growth and expansion in algebraic groups over finite fields https://arxiv.org/abs/1902.06308) - на языке пазлов - эти гипотезы содержат оценки для "числа Бога" - наименьшего количества ходов сборки пазла, отметим что это число неизвестно науке уже для кубика 4х4х4. Мы планируем обсудить подходы к подобным вопросам через машин ленинг на этом и последующих вебинарах.
📖 Presentations: /channel/sberlogacompete/14423
📹 Video: https://youtu.be/aoKzd8snKLE?si=47QZqtP85JsxkfTL
Привет, Друзья!!
Мы рады сообщить вам, что у нас есть специальный канал, где вы можете найти актуальные вакансии, а также разместить своё резюме.
Присылай свои CV с указанием области интересов, попробуем помочь Вам найти интересную работу.
Уважаемый HR-ы, также ожидаем и вашего активного участия 😊
Контакт @Zabis13
Уважаемые коллеги !
🚀 Сообщество админов научно-образовательных каналов во главе с админами каналов: «Наука и университеты» и «Кипящий МИФИ» сформировали папку каналов о науке и образовании.
❗️Собраны отличные каналы ! Вам остается только перейти по ссылке и сохранить папку или её часть себе.
/channel/addlist/tmcQOBSpVmo4MzU6
💻 Джи-пи-ти... Уже все наслышаны про модели-трансформеры, прекрасно генерирующие текст. Но сверх классического применения, версия GPT4, как говорят, хорошо помогает в задачах кодинга. Бластим решил это проверить.
19 января 19:00 мск мы проведем эксперимент в реальном времени и посмотрим, сможет ли чат-бот воспроизвести или в точности повторить результат труда биоинформатика. Рабочий кейс — сингл селл колоректального рака. Попробуем цикл от контроля качества до оценки лиганд-рецепторных взаимодействий! Настоящая импровизация шаг за шагом.
Наш спикер Дмитрий Тычинин будет модерировать работу чата и экспертно оценивать преимущества и недостатки ответов на вопросы, возникающие у людей, которые работают с single cell данными. Кроме того, на мастер-классе любые вопросы аудитории получат ответы в двойном объеме: и от ИИ, и от человека!
🚩Онлайн-встреча будет интересна всем: уже знакомым с нашумевшим чат-ботом, тем, кто никогда не прибегал к помощи GPT, работодателям, которые хотят посмотреть на навыки биоинформатика за 10$/месяц 😉
👉 Регистрируйтесь на мастер-класс по ссылке: bit.ly/3TVqOny
И с нетерпением ждем следующую пятницу!
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Д. Пензар, И. Кулаковский, "Старт соревнования IBIS - Inference of Binding Specificities - биоинформатика и машинное обучение для предсказания ДНК-паттернов, узнаваемых регуляторными белками человека".
⌚️ 5 Апреля, пятница, 19.00 по Москве
Add to Google Calendar
В марте мы запустили международное соревнование IBIS по предсказанию ДНК-паттернов, узнаваемых регуляторными белками человека. Соревнование продлится до середины лета, в ближайшие недели самое время присоединиться, а итоги подведем осенью.
Победители станут соавторами публикации в престижном научном журнале, а лучшие методы определят стандарт поиска и представления новых ДНК-паттернов на годы вперед.
Для проведения IBIS организаторы соревнования - международный консорциум лабораторий из Канады-Швейцарии-Германии-России - подобрали новые ранее не публиковавшиеся экспериментальные данные по ДНК-белковым взаимодействиям для 40 белков-регуляторов активности генов человека. Для каждого белка сделано 3 и более различных вида экспериментов. Вишенка на торте: ДНК-специфичность для большинства белков в IBIS ранее не изучалась, и для всех исследователей это один из последних шансов внести свой вклад в кодовую книгу регуляторных паттернов генома человека.
Соревнование пройдет полностью онлайн, подробности на сайте ibis.autosome.org. В презентации мы расскажем о постановке задачи (почему это важно и очень интересно изучать), об особенностях экспериментальных данных и метриках, которые мы используем для оценки моделей.
Подробнее об области исследований и лишь немного похожем соревновании, в котором мы достойно выступили почти 10 лет назад, можно почитать на биомолекуле: https://biomolecula.ru/articles/mechtu-vyzyvali
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: /channel/sberlogabio/71749
📹 Video: https://youtu.be/xJqlAtvycKA?si=CcRFurTuO5Gl8ZB8
📓 Telegram discussion group: /channel/ibischallenge
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Евгений Дурыманов "Использование пакета node2vec для вложения графов"
⌚️ Вторник, 26 Марта, 19.00, по Москве
Add to Google Calendar
Доклад основан на Каггл ноутбуке: https://www.kaggle.com/code/eugenedurymanov/the-permutohedron-node-embeddings-distance-distr (апвоты - приветсвуются ! ).
Будет рассмотрен граф Кэли симметрической группы со стандартным выбором образующих (транспозиции соседних элементов). Permutohedron - это выпуклый многогранник, ребра которого в точности задают этот граф. Тем самым сам многогранник задает некоторое "правильное" вложение графа. Можно рассмотреть как распределены расстояния между вершинами в таком эмбединге - ожидается и хороший фит нормальным распределением - что и наблюдается.
Будет также рассмотрен пакет node2vec для вложений графов и его применение к этому конкретному графу и сравнение с Permutohedron.
Если время позволит - будет рассказано как работает пакет:
Строятся случайные блуждания по графу - набор вершин - это предложения, а сами вершины - это слова. После этого применяется word2vec, который и дает эмбединги. Реализация word2vec в Pytorch-geometric отличается от исходной и следует статье https://arxiv.org/abs/1402.3722 .
Код:
https://causalai.github.io/pytorch_geometric/_modules/torch_geometric/nn/models/node2vec.html
См. также: https://www.baeldung.com/cs/nlps-word2vec-negative-sampling
Подумайте какой предложен лосс и чем он отличается от исходного лосса в ворд2век.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
—————————-
Мы организуем активность по изучению методов ML/RL и применению их к математическим задачам теории групп/графов, если Вам интересно присоединиться - отметьтесь в голосовалке : /channel/sberlogasci/7794 . Более подробная инфа тут: /channel/sberlogabig/374.
⚡️Уважаемые коллеги ! Сообщество админов научно-технических каналов, во главе с админами замечательного телеграм-канал «Наука и университеты» (@naukauniver) подготовило тематическую папку каналов, связанных с наукой и технологиями. Уверены, в ней Вы найдете, что-то Вам интересное - изучайте, подписывайтесь, пересылайте коллегам.
❗️Ссылка на папку:
/channel/addlist/aeVXsZF02UY2ZDUy
Продолжаю играться с графами после соревнования по сборке кубиков Рубика и других головоломок. Так выглядит граф группы перестановок последовательности из 8 элементов. Начинаем с упорядоченных цифр от 0 до 7 и переставляем пары соседних цифр (здесь выбраны только 3 возможных перестановки). Соединяем новую последовательность с предыдущей. Применяем такие перестановки несколько раз и визуализируем граф: получается такая красота
Если сделать меньше шагов, выходит что-то вроде шестиугольника. Если сделать больше – выходит тарелка с лапшой. Примеры будут в комментариях
#математика
Знаете, вот бывают люди, которые бесконечно генерят вокруг себя срач творческий беспорядок и при этом чувствуют себя в этом бардаке абсолютно комфортно. Бывают и люди, которые ежедневно моют полы и гоняются с тряпкой за каждой соринкой. Как бы то ни было, мусор, даже мельчайшие крошки, в обычной жизни не представляют серьезной опасности для человека. А вот в операционной любая пылинка — настоящая угроза. Это я все к чему. Среди клеток, похоже, есть те, которые более-менее спокойно относятся к клеточному мусору, а есть те, для которых неуложенные белки, собранные в нерастворимые агрегаты, и другие дефектные молекулы просто недопустимы. Как правило, клетки, на дух не переносящие кавардак из биомолекул в цитоплазме, — очень долгоживущие клетки, в частности, ооциты. Быстроделящиеся клетки теряют часть своего мусора при делении. С ооцитами ситуация иная: поскольку из ооцита после оплодотворения будет развиваться целый организм, наличие в цитоплазме всякого хлама вроде белковых агрегатов совершенно недопустимо. Конечно, опции поделиться для того, чтобы разбавить концентрацию хлама, у ооцитов нет. Да, есть, конечно, универсальные методы для устранения в клетке растворимых и нерастворимых белков — убиквитин-протеасомная система и аутофагия соответственно, но ооцитам их явно не хватает. Как оказалось, внутри ооцитов есть особые немембранные компартменты, которые назвали ELVA (от endolysosomal vesicular assemblies). Состав ELVA непрост: там есть мембранные органеллы, которые удерживаются вместе при участии белка RUF1. В отсутствие RUF1 ELVA не могут формироваться, так что, похоже, именно он образует белковый матрикс ELVA. По мере созревания ооцита RUF1 оттесняется к периферии клетки при участии актинового цитоскелета. Что же касается функций ELVA, то входящие в его состав лизосомы, загруженные всякой гадостью, при участии RUF1 отходят к периферии и выбрасывают мусор из клетки посредством экзоцитоза. Именно в лизосомах ELVA накапливаются вредные белковые агрегаты, и работа лизосом в ELVA критически необходима для развития будущего эмбриона. Возможно, ELVA или подобные им компартменты есть и в других клетках, которым особенно необходима чистая цитоплазма. Что же до нас с вами, согласитесь, сидеть в чистоте и порядке гораздо приятнее, чем в хламовнике.
🚀 Коллеги из Harvard Medical School сделают замечательный доклад и рассмотрят возможность коллаборации с заинтерсованными участниками - в том числе дата-сайнтистами (для начинающих это отличная возможность попробовать себя). Если Вы заинтересованы откликнитесь в голосовалке: /channel/sberlogabio/70205
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Speakers: William Trim, Leon Peshkin, Kseniya Petrova (Harvard Medical School)
🧬 Title: "Understanding Tissue Biology using Normalised Raman Imaging (NoRI)"
🗣 Language: English
⌚️ When: March 15, Friday, 19:00 Moscow time
Add to Google Calendar
Histopathology reflects the health, aging, and eventual failure of tissues, yet histopathology remains qualitative, subjective, and thus hard to study. In our lab, we have developed a form of NoRI that provides quantitative readouts of protein and lipid content of biological samples at sub-cellular resolution. We have employed this approach to explore the biology of the kidney in health and disease, namely ischemic injury models, and intend to broaden our scope to multiple organs in aged rats. We are looking for a collaborator to help us with image analysis. Our ultimate aim is to generate a workflow combining these reproducible and quantitative images with ML approaches to both segment structures of interest as well as identify novel hallmarks of disease and ageing that would otherwise be missed by qualitative analysis.
Более подробную информацию и пример данных Вы можете посмотреть на Каггл, по ссылке:
https://www.kaggle.com/competitions/kidney-segmentation-of-novel-microscopy-images
Zoom link will be in @sberlogabig just before start.
Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/CNYULstxn6A?si=ZoKQrL3D_KzxenOd
О том как нейросеть кубик Рубика собирает
(или случайные блуждания на графе в поисках кратчайшего пути)
Возьмём кубик Рубика 2x2x2, от собранного состояния ■ делая всевозможные шаги найдём расстояние до всех состояний, таким образом получим граф с N=3.7М вершин степени 6. По пути мы нашли, что достаточно 14 шагов, чтобы дойти до ■ из любой позиции. Если блуждать случайно, то в среднем нужно будет сделать порядка N шагов, это явно не наш путь. Можно ли не запоминая все вершины научиться искать короткий путь до ■? Конечно да!
Например, возьмём 1М вершин и научим полносвязную трёхслойную нейронную сеть (40k параметров) понимать какое из рёбер уменьшает расстояние до ■. У меня модель даёт правильный ответ в 60% (на тестовых вершинах), чего уже оказывается достаточно! На графике приведены случайные блуждания в соответствие с предсказаниями модели. В среднем получается найти путь длиной 30 (если без поиска кратчайшего пути по посещенным вершинам, то 50), что по-моему замечательно)
Воскресный нетворкинг. Коллеги, позвольте порекомендовать Вам замечательные каналы:
@boilingmephi - канал о жизни, науке и образовании с акцентом на НИЯУ МИФИ.
@chernovdev разработка в направлении big data.
@efmchannel - автор канала Полина (жила 13 лет за границей, работала в ООН, работала с IT-компаниями) рассказывает про тонкости международной карьеры и английского, а также в предпоследнем закрепе развенчивает мифы о получении оффера за рубежом 🚀
@AGI_and_RL Искусственный интеллект и reinforcement learning
@botka_chronics интересные вещи, с которыми автор сталкивается по работе над диссером (обобщение keypoints detection с помощью дифференциальной геометрии) и работой над работой (ML и матстат в основном)
@chelovek_nauk Канал о науке и учёбе. Здесь вы найдёте объяснение сложных научных вещей простым языком.
@mathematics_not_for_you о математике - простым языком. Думаете, канал не для Вас? Постойте, Вы это зря. Математика - царица наук, окружающая нас с рождения до самой смерти.
@sberlogabig Дата-сайнс, биоинформатика, биология, математика
Если у Вас есть интересный канал, блог, или проект - не стесняйтесь - напишите нам - @alexander_v_c @zabis13
Все каналы подборки в одной папке: /channel/addlist/0z9tiI3orEJhNjA6 (добавляйте ее к себе).
🚀 @SBERLOGASCI webinar on data science and mathematics:
👨🔬 Mark Obozov "Применение стандартных методов RL и Alpha-подобных методов к сложным графовым задачам."
⌚️ Четверг, 29 февраля, 19.00 (по Москве)
Add to Google Calendar
Контекст: Коллеги, мы планируем начать активность по применению методов РЛ, МЛ к задачам на стыке теории групп/графов, где много нерешенных проблем над которыми бьются лучшие умы математики типа Терранса Тао. Иллюстрация задачи - оценки "числа Бога" (диаметра) для групп - см. пример гипотез в посте И. Пака и Х.Хельфгота , а , по-простому, - даже для кубиков Рубика задача не решена. В теме есть вопросы от совсем простых до сложных - если у Вас есть желание поучаствовать - отметьтесь в голосовалке тут. Будем рады всем - не важно сколько у вас опыта - часть вопросов простые - доступны всем. Примерный список вопросов-направлений тут (будет обновлен). Cтартовый митинг активности планируем на пятнцу 1 марта - анонс позднее.
А начнем мы с доклада - который даст введение в один из аспектов этой темы - РЛ (реинфорсмент ленинг).
Абстракт: В рамках данной лекции мы разберём как множество стандартных методов RL(Q-learning, SARSA, etc.) так и различные Alpha модели, включая их применения к большому классу задач - от каких-либо "игровых", до достаточно серьёзных биологических проблем. Одним из возможных интересных продолжений этой темы, является применение полученных знаний и идей в рамках "Каггл Соревнования Санта23" и различных задачах теории групп, которые сводятся к графам. Как более приземленный пример применения RL к графам, будут рассмотрены 3 примера:
1) Решению оптимизационной задачи поиска равновесия в двухстадийной модели транспортной сети с помощью RL
2) Поиск кратчайших расстояний с помощью RL
3) Различные игры на графе, раскраски, тоже с помощью RL
О докладчике: Mark Obozov - CTO, Stanford, Berkeley Research, лектор в ШАДе
📖 Presentation: /channel/sberlogasci/8048
📹 Video: https://youtu.be/lIvq8zFvTx0?si=qt2Z13h7zofYKamp
🚀 @SBERLOGABIO :
👨🔬 Д.Пензар, В.Вяльцев, "Предсказание реактивностей нуклеотидов РНК по ее последовательности при помощи ArmNet — Ribonanza competition 1st place solution"
⌚️ Пятница 23 февраля 2024, 19.00 (по Москве)
Команда VIGG ( Vavilov Institute of General Genetics (Д.Пензар, В.Вяльцев, А.Бакулин, А.Зинкевич, Е.Носкова ) заняла первое место в научном конкурсе по предсказанию свойств РНК, опередив 700+ команд и даже команду грандмастеров NVIDIA во главе с легендарным "Dieter" (топ1 в общем рейтинге Кагггл). Заходите на их доклад:
Add to Google Calendar
Точное предсказание структуры РНК может помочь совершить революцию в науке и медицине, облегчив исследователям процесс выявления уникальных РНК мишеней для лекарств и разработки лекарств на основе РНК. С целью создания модели, эффективно предсказывающей структурные характеристики молекул РНК, был создан международный конкурс Stanford Ribonanza RNA Folding на платформе Kaggle, в котором решение нашей команды заняло первое место, значительно опередив остальные команды со всего мира и известные SOTA-решения.
В основе нашего подхода лежит трансформерная encoder-only архитектура, показавшая себя намного лучше сверточных нейросетей. Значительно качество сети улучшило добавление BPPM (Base Pair Probability Matrix), а также отказ от абсолютного позиционного кодирования в пользу относительного. В качестве финальной модели мы использовали ансамбль из 28 одиночных моделей, который показал лучшее качество в конкурсе.
В ходе дальнейшего исследования, мы смогли ещё больше улучшить качество нашей модели, использовав идеи из SqueezeFormer. В новую модель - ArmNet - мы добавили возможность двусторонней коммуникации между признаками, основными на BPPM и матрицами внимания.
Zoom link will be in @sberlogabig just before start.
Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Write-up на Каггл.
📖 Presentation: /channel/sberlogabio/69195
📹 Video: https://youtu.be/YGRHoj-sris?si=7o3YSBhaVAtoQpYH
🚀 Субботний нетворкинг.
Позвольте порекомендовать Вам замечательные каналы, которые мы сами читаем сами и рекомендуем Вам:
@ivoryzoo - легендарный канал - "Зоопарк" держит руку на пульсе всего, что происходит в науке и образовании. Как им вообще удается отслеживать столько информации ?
@dealerAI - от одного из лучших специалистов в дата-сайнс и natural language processing - вы узнаете ключевые новости по этим темам
@datastorieslanguages - от не менее замечательного специалиста по дата сайнс, каггл грандмастера и полиглота Андрея Лукьяненко, вы узнаете все не только о дата сайнс, но и о том как изучать иностранные языки и о некоторых аспектах жизни за границей
@smart_lab_news @Nano_by_Nano @Polymer_scientists - Новости биотеха: научные события, конкурсы, конференции, гранты, вакансии и др. От научной группы ИБХФ РАН под руководством Елены Никольской
@finitely_presented - Теория групп, дата-сайнс и все вокгруг от нашего докладчика П.Снопова.
@diagrams_every_day - совершенно замечательный молодой канал - интереснейшие визуализации и объяснения простыми словами современных концепций в физике и математике - кто любит эти науки - обязательно подписывайтесь !
Подписывайтесь на эти замечательные каналы (и не забывайте о нас, Ваша @sberlogabig ) !
🚀 @SBERLOGABIO:
👨🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)
Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.
Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.
Решение
Идея 1. Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.
Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.
И еще множество других идей (см. write-up).
📖 Presentations: /channel/sberlogabio/68835
📹 Video: https://youtu.be/FJThflSagQY
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Dmitrii Rudenko "Introduction to the Kaggle competition 'HMS - Harmful Brain Activity Classification'"
⌚️Friday, 2 Febraury, 20.00 (Moscow time)
Add to Google Calendar. (The talk will be in English). Announcement on Kaggle
Вкатываемся в новое соревнование по определению патернов работы мозга: HMS - Harmful Brain Activity Classification
Цель соревнования- по данным ЭЭГ пациентов понять, что иэ мозг работает некорректно. В этом соревновании доступно целых две модальности: спектрограммы работы и сырые сигналы, на которые вполне себе тоже можно учить нейросетки. Самих данных 26 гб, что тоже не мало.
Разметка таких снимков работы мозга требует дорогого обучения специалистов и их напряженной работы, так что если удастся хорошо решать задачу- то и пропускная способность специалистов вырастет. В датасете отрывки каждого снимка показывали множеству экспертов, и каждый эксперт голосовал за тип аномальной активности. Кстати их тут всего 6:
1. seizure (SZ). На русский корректнее всего переводится как 'припадок'
2. generalized periodic discharges (GPD) и lateralized periodic discharges (LPD)- регулярные конвульсии
3. ateralized rhythmic delta activity (LRDA) и generalized rhythmic delta activity (GRDA) - дельта активность. Обычно она максимально выражена во время сна и если у человека высокая дельта-активность во время бодрствования- что-то идет не так.
4. И вполне себе привычные каглерам 'прочее'
Метрика- KL-дивергенция, т.к. по отрывкам голосвали разные эксперты и у нас есть целое распределение таргетов.
Соревнование Kernel Only, так что придется азпихивать инференс внутрь пайплайна на каггле. Но результаты будут сразу после конца соревнования, так что интрига быстро разрешится.
На соревнование еще два месяца, так что лб не плотный: с топового паблик кернела можно залететь аж в серебро. Многое еще изменится и Крис Дейот уже присоединился к сореве
Подписывайтесь на канал докладчика - /channel/pseudolabeling - о дата сайнс.
📖 Presentation
📹 Video
Ваш шанс воплотить научные амбиции в жизнь вместе с ИТМО!
Передовая инженерная школа ИТМО объявляет уникальный набор научных коллективов для получения грантов на открытие собственных магистратур, лабораторий, а также развитие продуктов и их интеграцию в компании.
— Мечтаете о собственной магистратуре?
— Планируете основать научную лабораторию?
— Мыслите масштабно и хотите создать научно-образовательный центр?
— Хотите выйти в индустрию и работать с бизнесом?
ПИШ ИТМО готов системно поддерживать и инвестировать в вас до 50 миллионов рублей!
Подавайте заявку до 30 января включительно 👉🏻 https://pish.itmo.ru/domen
🚀 Дорогие коллеги, поздравляем всех Вас с наступающим Новым Годом, желаем огромных успехов, здоровья, счастья, удачи во всех начинаниях !
💰 Новый год - время подарков - вот, например, Каггл подарит 50 000$$ тем, кто соберет Кубики Рубика за меньшее число ходов, чем другие участники ежегодного новогоднего соревнования "Santa 2023 - The Polytope Permutation Puzzle - Solve twisty puzzles in the fewest moves".
👛 А мы предлагаем приз в 5000 р тому, кто опубликует публичный ноутбук с решением, который превосходит текущий лучший публичный ноутбук на 5% и расскажет решение на нашем вебинаре. (Если Ваш ноутбук будет лучше на 1% - приз 1000р, 2% - 2000р, 3%-3000р, 4%-4000р. Условия действительны до 7 января). Каггл - лучший способ изучать практический дата-сайнс, именно потому, что люди делятся там своим кодом, идеями. Мы всячески хотели бы поощрять эту активность, надеемся, что наш приз будет этому способствовать.
Комментарии, обсуждения постановки задачи - вы можете найти в нашем чате. Если кратко - то предложен набор позиций многомерных кубиков Рубиков и задача - предъявить наиболее короткую последовательность ходов для их сборки. С точки зрения математики это задача поиска кратчайшего пути на графе Кэли группы движений кубика. Хотя задача и выглядит игровой - она является модельной для многих серьезных проблем в комбинаторной оптимизации, и методы выработанные для ее решения будут полезны для многих практических задач.