7668
Мультидисциплинарный канал о науке и технологиях. Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science. @sberlogabio био и дата сайнс @sberlogasci математика, физика и ДС https://www.youtube.com/c/SciBerloga
Существует ли вакцина от рака?
Мы воспринимаем слово «вакцина» как нечто профилактическое. Сделал укол - и рака никогда не будет.
Но на самом деле противоопухолевые вакцины - это совсем другое.
Справедливости ради, профилактической вакциной от рака можно назвать прививки от вируса папилломы человека (у меня есть целая серия постов про это, посмотрите в Навигации) и гепатита В.
Но чаще всего, когда речь идет о противоопухолевых вакцинах, речь идет именно о терапевтических вакцинах, то есть которые воздействуют на уже существующую опухоль.
Как это работает и почему так называется?
На поверхности опухолевых клеток находятся белки, которые отличают их от клеток здоровых (антигены). Опухолевые вакцины используют эти различия, «показывая» их иммунной системе и, таким образом, заставляя ее атаковать клетки с этими особенными белками на поверхности.
То есть они как бы демонстрирует иммунной системе: «увидишь такого - уничтожай!»
То же самое происходит во время вакцинации от инфекционного заболевания: специальные клетки (они называются антиген-презентирующие) захватывают, скажем, ослабленный вирус, находят у него важную часть (антиген) и показывают лимфоцитам (презентируют). Лимфоциты ищут все, что совпадает с увиденным и уничтожают. Поэтому когда в кровь поступает вирус уже настоящий, а не из вакцины, иммунная система уже научена и находится начеку.
Вакцины могут быть неспецифическими, то есть использоваться для всех пациентов или индивидуальными, то есть такими, которые подбирают для конкретной опухоли конкретного пациента.
Неспецифической является вакцина БЦЖ (да-да, та самая от туберкулеза), которую используют в лечении рака мочевого пузыря. Строго говоря, по механизму действия она не является «вакциной», то есть не предъявляет иммунной системе «предателя», а действует другими путями. Но это вакцина, она используется и работает, поэтому она здесь.
На данный момент зарегистрирована вакцина Сипулейцел-Т, которая предназначена для лечения кастрационно-резистентного рака предстательной железы. Это не просто какой-то укол, а целый процесс. Из крови пациента берут иммунные клетки, которые обладают антиген-презентирующей функцией (а именно дендритные). Далее эти клетки учат показывать конкретный белок (который есть на клетках рака предстательной железы). А затем - вводят пациенту обратно. Они демонстрируют тот самый белок всем заинтересованным (Т-лимфоцитам), которые с этого момента понимают, на кого им охотиться.
Собственно, так и работают вакцины из дендритных клеток, про которые многие уже слышали и спрашивали: их учат демонстрировать конкретный белок, который находится на поверхности опухоли, а затем возвращают пациенту.
Помимо вакцин на основе дендритных клеток, существуют и другие виды вакцин: на основе цельных опухолевых клеток, опухолевой ДНК или РНК, а также пептидные вакцины.
Важно понимать, что все остальные вакцины (не БЦЖ, и не Сипулейцел-Т) находятся сейчас на этапе клинических испытаний.
Это значит, что пока у нас нет четких данных о том, насколько это эффективно и безопасно.
Да, я знаю, что есть институты, которые предлагают такой метод лечения.
Но ответ у меня всегда один и тот же: если для вашего заболевания есть стандартные виды лечения, начните с них. Пожалуйста.
Я полностью поддерживаю желание попробовать абсолютно все, тем более если у метода есть реальная научная основа, как в случае с вакцинами, но считаю, что начинать нужно с того, относительно чего есть крепкие доказанные данные.
Берегите себя.
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Елизавета Минина "CAR-T: механизмы, плюсы и минусы, перспективы."
⌚️ Пятница, 9 Августа, 17.00 (по Москве)
Add to Google Calendar
Арсенал противораковых препаратов, которые успешно проходят клинические испытания по стандартам FDA, с каждым годом увеличивается. В частности, к настоящему моменту одобрены для лечения гематологических злокачественных заболеваний шесть препаратов, основу которых составляют T-клетки, экспрессирующие химерные антигенные рецепторы (CAR-T) и распознающие опухолевые антигены. Несмотря на успех в терапии гематологических неоплазий, CAR-T оказались малоэффективными против сОлидных опухолей по ряду причин. В частности, CAR-T клетки плохо инфильтруются в опухоль, а микроокружение опухоли способствует истощению CAR-T клеток, снижая их цитотоксические функции. В рамках этой лекции мы обсудим основные механизмы терапевтического действия CAR-T, пути, по которым мы можем исправить недостатки CAR-T терапии, а также посвятим часть лекции перспективам использования CAR-экспрессирующих клеток, отличных от T-клеток, таких как CAR-NK клетки и другие.
О докладчике: Елизавета Минина - молекулярный биолог и автор замечательного телеграм канал "Liza loves biology" - /channel/liza_loves_biology - обязательно подписывайтесь !
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: /channel/sberlogabio/78293
📹 Video: https://youtu.be/gA24XbFzqa8
📓 Paper: /channel/sberlogabio/78292
Дополнительно видео есть тут: (для случаев замедления ютуб)
/channel/sberlogasci/19688/20194
Коллеги, мы узнали о полезном канале «Научные конференции», который посвящен научным конференциям, круглым столам, открытым лекциям и другим мероприятиям для представителей естественных и технических наук.
Присоединяйтесь: @confsci
Разрыв в ресурсах между академическими институтами и компаниями очень впечатляет. Заведующий очень крутой лабораторией публикует вакансию с фотографией системы из 8 топовых видеокарт от NVIDIA. В комментариях пишут, что это фото очень привлекательно для учёных, работающих с данными. Одна такая видеокарта стоит около 30 тысяч евро. Другой известный биоинформатикой институт пишет, что у них в кластере 150 видеокарт. Не самых крутых, а в целом.
У Меты 340 тысяч только топовых карт
❗️Дорогие друзья! У нас для вас отличные новости: 8 августа в 18:00 по московскому времени наш давний друг Алексей Паевский, научный журналист и основатель портала Новости нейронаук и нейротехнологий, прочитает лекцию "Мозг и космос: что меняется в голове у космонавта на МКС". Лекция организована совместно с Научным клубом ФББ.
🚀 Вот уже более 60 лет человек покоряет космос. Мы знаем, что невесомость влияет на мышцы и кости человека, но гораздо меньше известно о том, как она воздействует на нервную систему и мозг. Как перестраивается мозг во время длительного космического полета? Можно ли сойти с ума в космосе? Ответы на эти и многие другие вопросы дает астронейробиология, или космическая нейронаука.
📆 Когда: 8 августа, 18:00, онлайн-формат.
💻 Лекция будет транслироваться на Youtube по ссылке: Lv.fbb.msu.ru/sciclubyt.
🎬 Как обычно, запись лекции будет доступна и опубликована на нашей странице в VK, также в канале Нейрокампуса в Rutube.
🚀 Рады порекомендовать Вам замечательный канал, нашей старой знакомой - подписывайтесь:
🔬 Канал "Молбиол, биоинформатика, Life Science" 🔬
Ищете свежие научные статьи, полезные лекции, учебники и пособия? Хотите быть в курсе актуальных вакансий и мероприятий (конференций, воркшопов, школ) в мире молекулярной биологии? Тогда этот канал для вас: /channel/molbiolrf
💡 Что вы найдете у нас:
- Научные статьи и лекции
- Учебники и пособия
- Протоколы и программное обеспечение
- Актуальные вакансии
- Информация о конференциях, воркшопах и школах
📬 По всем вопросам и для размещения рекламы обращайтесь к: /channel/lopatushka
💬 Присоединяйтесь к чату канала: /channel/molbiolrf_chat
Будьте на шаг впереди в мире молекулярной биологии с нами!
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Сергей Лыткин (к.ф.-м.н.) "Введение в Reinforcement Learning методы на графах»
⌚️ Пятница 26 июля, 18.00 (по Москве)
Add to Google Calendar
Будет рассказано применение методов RL к задачам теории графов. Дистанция на графе (до выделенной вершины или множества вершин) - удовлетворяет очень простому варианту уравнения Беллмана d(g) = 1 + min_{neigbours of g} d(neigbour) . Тем самым методы RL дают возможность искать решения уравнения Беллмана, а значит в частности находить метрику на графе, стартуя с произвольной инициализации. Как быстро будут сходиться алгоритмы RL ? Можно ли улучшить сходимость сделав правильную инициализацию ? Эти вопросы будут рассмотрены в докладе, ответы на них не так очевидны.
Будут рассмотрены примеры графа состояний (Кэли) маленького кубика Рубика размера 2×2×2 ( больше 3 миллионов состояний). Данный граф достаточно мал, для того чтобы было удобно и быстро проводить эксперименты, но уже нетривиален и можно видеть общие феномены.
Более общо методы Deep-Q-learning - нейронные сети совмещенные c RL позволяют работать с графами сверх больших размеров - 10^100. По аналогии с работами, где обучение с подкреплением с успехом применяется для нахождения оптимальных решений в играх с очень большим числом состояний, таких как шахматы или го (вспомним AlphaGo, AlphaZero, MuZero).
Notebooks: https://www.kaggle.com/code/fedmug/bellman-rc2
Notebooks: https://www.kaggle.com/code/fedmug/bellman-convergence-for-rc2
(Апвоуты - приветствуются ! )
Приходите на доклад ! А, также, если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
‼️Друзья, с радостью анонсирую курс «Основы временных рядов»!
На этом курсе вы научитесь работать с временными рядами, а также понимать их природу и преобразовывать таким образом, чтобы эффективно решать задачи.
😎 Для кого этот курс?
- Специалистам DataScience и Анализа данных, которые хотят получить более глубокое понимание работы с временными рядами
- Менеджерам, которые хотят говорить со своими специалистами на одном языке и понимать особенности в решении задач временных рядов
📰 Состав курса:
- 4 блока
- 16 занятий (12 лекций, 4 практики)
- 8 домашний заданий
- Уютное и обогащающее комьюнити
- Живое общение с преподавателем и однокурсниками
- Легкая и добрая атмосфера с юмором :)
- Доступ к материалам и видео к занятиям - НАВСЕГДА!
⏰ Как долго?
Длительность курса - 4 месяца, по 1 занятию в неделю.
🏃♂️ Старт курса запланирован на начало августа этого года.
А для ответов на все ваши вопросы и просто оценить атмосферу, приглашаю вас на ознакомительный вебинар курса 23.07 в 20:00 по Москве.
Буду рад встречам ☀️
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Влад Виноградов ( @ BIOPTIC.io ) "Решение GOLD в соревновании Leash Bio (BELKA) на Kaggle"
⌚️ Четверг, 19.00 (по Москве), 25 июля 2024
Add to Google Calendar
Решение GOLD в соревновании Leash Bio (BELKA) на Kaggle от Влада Виноградова @ BIOPTIC.io — модель на основе SMILES-трансформера и правильный бенчмаркинг — все, что нам нужно
См. конкурс, который закончился две недели назад: https://www.kaggle.com/competitions/leash-BELKA
Помимо описания выигравшего решения, мы поговорим о:
🔘 Современных ligand-based моделях для предсказания молекулярных свойств (GPS++, MPNN++, Transformers и другие)
🔘 Жёстких разделениях молекулярных данных на основе сходства для преодоления проблемы обобщаемости (и разрушения 95% заявленных в литературе результатов по предсказанию молекулярных свойств)
🔘 Широкомасштабной настройке гиперпараметров в облаке
P.S. Доклад будет на английском
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📹 Video: https://youtu.be/DucJWdc7Ww4
Дружеская рекомендация отличного канала: /channel/artificial_stupid
и интересных постов на нем :
Мы ищем стажеров!
👩🌾 shorties — это персональная программа, в которой мы выращиваем таланты до полноценных Research Engineer’ов или Research Scientist’ов в зависимости от ваших интересов.
🔭 Intern Research Scientist
Вы будете заниматься написанием статей на top-tier ИИ конференции (NeurIPS, ICLR, ICML) и участием в научном дискурсе: проведение экспериментов, проверка и генерация исследовательских идей, которые направлены на развитие научного знания.
🧪 Intern Research Engineer
Вы будете заниматься созданием новых frontier-технологий и применением Reinforcement Learning в реальных задачах.
Почему ты теряешь деньги и время на вкат в Data Science
При вкате в Data Science ребята допускают кучу ошибок на своём пути, например:
1️⃣ Я не знаю какую область мне выбрать? 🎮
2️⃣ Где и как мне учить материалы по Data Science? 🇺🇸
3️⃣ Допустим я учусь, но как мои знания будут применяться на работе ? 🙈
4️⃣ А где и как нужно искать вакансии ? А что учить на собесах ? А почему мне не пишут HR`ы ? А что спрашивают на собесах ? Мне страшно ходить на собесы, вдруг я обсренькаюсь и что дальше ??? 🎮
Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели.
Как менторство может помочь именно тебе?
Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора.
1️⃣ Экономия времени и денег.
Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к... 🍑
2️⃣ Вы приобретёте более глубокие навыки, если будете учиться с ментором.
Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант. 📞
3️⃣ Сообщество единомышленников
У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой. 🎲
4️⃣ Кукухология.
Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы 💪
Итог:
Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство ✋
Вот видео, в котором я рассказываю про себя и свои услуги.
#работа
# Методичка по поиску работы в ML/DS и IT в целом
В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.
Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.
https://btseytlin.github.io/intro.html
Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.
@boris_again
Игра была придумана Г. Бальбо в 1974 году и впервые описана в французском шахматном журнале Le Courrier des Echecs в сентябре того же года.
Игра следует стандартным шахматным правилам, с некоторыми отличиями из-за новой доски. Поскольку король начинает игру не на обычном месте, рокировка невозможна.
Правила для пешек (их всего семь) также были изменены в соответствии с новой геометрией доски:
Пешка, достигшая дальнего конца d-, e-, f-, g- или h-колонки, может превратиться в ферзя, ладью, слона или коня.
Пешка, достигшая дальнего конца c- или i-колонки, может превратиться только в слона или коня.
Пешка, достигшая дальнего конца a-, b-, j- или k-колонки, не может превращаться и остается на месте как препятствие, пока её не захватят или не появится возможность захвата, который уберёт её с этой клетки, после чего она может продвигаться дальше.
Всем привет!
На прошедшем вчера третьем этапе AutoML Grand Prix на Kaggle команде Лаборатории AI "LightAutoML testers" удалось занять 3-е место, уступив только командам из H2O с решениями на базе платного решения Driveless AI и опередив коллег из Amazon, Microsoft, MLJAR и других компаний.
Полное решение с описанием будет выложено в ближайшие дни (следите за обновлениями 🤓), однако уже сейчас публично доступно сверхбыстрое решение на основе одной табличной нейронной сети из LightAutoML, способное занять 5-ое место: https://www.kaggle.com/code/simakov/lightautoml-denselight (вы знаете, что делать ⭐️)
Happy Kaggling 🦙
В продолжении темы исследований по онкологии несколько интересных постов от наших коллег:
Читать полностью…
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Obozov M.A. "Stochastic Q-learning. Алгоритмы для больших дискретных пространств."
⌚️ Четверг 8 августа 20.15 по Москве
До этого мы рассматривали достаточно общие алгоритмы в рамках RL-задач. Однако, данные алгоритмы хоть и хорошо работают в целом, они не создавались для задачах с большими дискретными пространствами и показывают неоптимальную вычислительную сложность, а следовательно и для задач кубика рубика или теории групп.
В рамках данного доклада мы рассмотрим алгоритм Stochastic Q-Learning, который показывает наилучшие результаты в рамках задач больших дискретных пространств с точки зрения перфоманса и робастности. В дальнейшем предлагается обобщить результаты этого подхода на нашу задачу и другие методы.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Konstantin Yakovlev: "Combining A^*-algorithm and machine learning methods"
⌚️ Monday 5 August , 18.00 (Moscow time)
Talk will be in English
Add to Google Calendar
"Интеграция методов эвристического поиска (A*) и машинного обучения для решения задач планирования траектории (собственный опыт)"
Аннотация: Алгоритм A* достаточно часто применяется для решения задач со сложной комбинаторной структурой. Его эффективность на практике зависит от того, насколько эвристическая функция (являющаяся по сути входным параметром алгоритма) хорошо оценивает стоимость пути от произвольного состояния до целевого. В задачах планирования траектории обычно используются инстанс-независимые эвристики, такие как, например, Манхэттенская дистанция и др. Они не учитывают особенности конкретной задачи, а именно - расположение препятствий и старта/цели на карте, поэтому часто оказывается, что их использование не ведет к сокращению числа итераций поиска и повышению практической вычислительной эффективности алгоритма. Возникает разумная идея - не можем ли мы применять современные методы машинного обучения, чтобы выучить информативную эвристическую функцию, которая бы учитывала особенности конкретной задачи планирования траектории, и потом применять эту эвристику на практике для повышения вычислительной эффективности поиска. Именно на методах и способах интеграции поиска и машинного обучения и будет сделан акцент в докладе.
О докладчике: Konstantin Yakovlev (PhD): http://kyakovlev.me/
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Что почитать, чтобы подвести итоги недели и/или получить пользу?
Подборка телеграм-каналов, с помощью которой можно легко подвести итоги недели и в этот раз — с обоснованием.
Поясни за мед и Антон Неволин — идут парой, как мои главные собеседники по телеграму в отношение распределения врачей. Врачи с мнением, которым небезразлично здравоохранение.
МедФарм – канал, который позволяет сформировать объективное видение процессов здравоохранения. Подает новости оперативно и в полном объеме, идёт в паре с ФармВестник.
Независимая Национальная Академия Доказательной Медицины (ННАДМ) — группа для тех, кто учится практиковать доказательно и критически оценивать научные публикации. Возможна коллаборация, следите!
Флеболог Астафьева — доверенный флеболог, чьи посты я отправляю подругам и друзьям с венозными сетками для успокоения души. А подруг и друзей — к ней. Рекомендую из практических побуждений.
Ночная охота – канал врача с уверенной женской и профессиональной позициями. Человек пишет и научно, и художественно — в анамнезе написанная книга. Автор IT-калькуляторов и методических материлов по ДВС-синдрому в составе команды Dozator.io
Орфанное радио — канал, с которым интересно вступить в дискуссию и даже в телеграм-скандал. Автор коротко и точно рассказала про закон Второй лишний, одну из большой тройки новостей этой недели.
Брендмейкер Врачей — доктор Владимир Нечепорук, качает врачей блогеров и представляет некоторых в госдуме. Недавно потерял один из своих брендов "DOCSTAR", но сделает новый. Предложение Иконы фармы — Владимирская Блогодельня. Скрепно, актуально, регистрировать не буду.
(sci)Berloga Всех Наук и Технологий — как вы понимаете, Sci-канал, который позволяет держать себя в тонусе на стыке дисциплин. Наука, технологии и быстрое внедрение — вот те традиционные ценности, которые я всегда готова поддержать.
Михаил Виноградов — политолог, который предсказал остальные большие события недели. Кто-то назовёт его "новым жириновским", но главное, чтобы не вколол себе 700 вакцин и не стал героем рубрики Иммунный ответ #привит_умер
Икона фармы — традиционно слежу за новостями и исследованиями, а также — методологией оценки медицинских технологий. Со мной вы не проспите ятрогенную пандемию или появление революционной терапии (степень I, уровень А).
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Antonina Dolgorukova "Stable GOLD solution for NeurIPS 2024 - Predict New Medicines with BELKA competition"
⌚️ Thursday 1 July, 18.00 (Moscow time)
Add to Google Calendar
Antonina will give some details about the 2nd public/13th private solution - the only one that survived the shakeup and stayed in the gold medal zone in private LB.
- Separate approaches for molecules with shared and non-shared building blocks based on ensemble of CNN, GBDT, and GNN models
Solution write-up: https://www.kaggle.com/competitions/leash-BELKA/discussion/519133
Announcement Twitter - please retweet
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: /channel/sberlogabio/77898
📹 Video: https://youtu.be/DxtLjvxLgPU?si=jNPUr0khOmS3buSW
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨🔬 Hervé Isambert, CNRS, Institut Curie, Paris "Causal discovery from multivariate information in biological and biomedical data"
⌚️ Monday 29 July at 18.00 (Moscow time)
Add to Google Calendar
In this webinar, I will present the principles and limitations of graph-based causal discovery methods and their improvement using multivariate information decomposition, recently developed in my lab. Applications will range from gene expression data in single cells to nationwide medical databases of cancer patients. I will then discuss the theoretical link between graph-based causality and temporal (Granger-Schreiber) causality, which can both be expressed in terms of conditional multivariate information. While temporal causality is shown to imply graph-based causality, the converse may not be true (see Figure). An application to time series data concerns the analysis of video images of reconstituted tumor ecosystems, which uncovered a novel antagonistic effect of cell-cell interactions under therapeutically relevant conditions.
http://kinefold.curie.fr/isambertlab
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Не enkodechka'й едины – ruMTEB бенчмарк для оценки эмбеддеров на ру языке.
Тут конечно не техрепорт на 71 страницу, но тоже интересное.
Мы завезли превью русского бенчмарка эмбеддеров ruMTEB.
P.S. Кстати, уже можно найти замеры моделек deepvk/USER от VK в карточках моделей этого семейства на HF.
Анонс движа по Kaggle!
Как вы, возможно, знаете, я терпеть не могу такое явление, как инфопродукты, курсы как стать программистом за месяц и прочее. А значит надо запустить свой курс)
Я уже давно хотел сделать такой движ, но не хватало времени, но сейчас объединился с Артемом, так что должно быть попроще. Состоять он будет из двух частей. Сначала будет публичная часть - теория ML+советы по kaggle(где-то 6-8 лекций по 1-2 часа). Дальше мы разобьемся на команды по 5 человек и каждая команда возьмет одно уникальное актуальное соревнование с Kaggle. Мы с Артемом будет тоже в командах, направлять и помогать. В каждом соревновании строго одна команда, так что шаринга быть не должно. Это уникальная возможность поучаствовать с нами в одном соревновании(между прочим, мне за такое предлагали до 5тыс евро) и, надеюсь, узнать что-то для себя новое.
Если вам такое интересно, до добавляйтесь в группу /channel/ml_boost_camp и проходите опрос. Участие бесплатное
Делитесь этим постом, чтобы больше желающих могло поучаствовать. Если такой формат зайдет, то дальше будет больше. Идей очень много, да и оффлайн тоже хочется провести. Пишите в комментариях свои пожелания и мнения.
Также, напишите мне, если вы хотите помочь в организации bootcamp от своего лица, или от лица компании
#LLM
Парад клевых материалов продолжается!
Теперь вышла уже моя статья (я бы даже сказал, что методичка) по промт-инжинирингу простыми словами.
Как обычно, читайте, ставьте плюсики, делитесь материалом с теми, кто еще не знает премудростей prompt engineering'а.
🚀 Если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие, а также заходите на вводный вебинар (знаний теории групп не требуется):
👨🔬 Александр Червов (к.ф.-м.н) "Методы МЛ в теории групп - введение и обзор достигнутого"
⌚️ Понедельник 22 июля, 18.00 (по Москве)
Методы машинного обучения могут быть применены к ряду классических задач теории групп - разложение элемента по образующим, оценки диаметра. Мы приглашаем принять всех участие в данном проекте. Предварительное требование - знание Питона и наличие нескольких свободных часов в неделю. Если вы хотите улучшить свои знания по МЛ/RL и внести вклад в развитие науки - это отличный шанс .
В данном докладе мы простым языком объясним формулировки основных задач, и как задачи теории групп переводятся на язык машинного обучения. Предварительных знаний не требуется. Также, мы дадим обзор уже достигнутых результатов - в частности для группы порядка 4*10^19 (Rubik cube) нам уже удается находить решение задачи за минуты , а не 40 часов ГПУ как было в предыдущей работе "DeepCube".
План доклада:
1 Переформулировка основной задачи на простом языке матриц
2 Матрицы перестановок и группы типа кубика Рубика (см. ноутбук "Visualize allowed moves": https://www.kaggle.com/code/marksix/visualize-allowed-moves )
3 Графы Кэли и переформулировка основной задачи как поиск пути на графе
4 Случайные блуждания по графам - создание трейн сета для МЛ-модели
5 Подход к решению задач теории групп через машинное обучение. Оценка дистанции до цели через МЛ-модель и проблема наличия множественных локальных минимумов у этой оценки
6 Beam search. (Один из вариантов борьбы с застреваниями в локальных минимумах. Альтернативы - Метрополис, отжиг, A^* алгоритмы)
7 Бейзлайн реализация: МЛ+ Beam search - ноутбук: https://www.kaggle.com/code/alexandervc/baseline-1-for-permutations - решение кубика Рубика за пару минут
8 Cледующие шаги: RL-часть, улучшение нейросеток, улучшение трейн сета, улучшение beam search
Добавляйтесь в группу проекта: /channel/sberlogasci/10989 и пишите @alexander_v_c - если Вам интересно !
PS
См. также предыдущий вводный доклад:
/channel/sberlogasci/10989/15283 "Введение в методы поиска короткого пути на больших графах" (Кирилл Хоружий )
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: https://docs.google.com/presentation/d/1WFH9FmsPjFYvmLIbe6QrU4dYF8p7uk0EY746t_DlZHY/edit?usp=sharing
📹 Video: https://youtu.be/Ra7kAIzcIl0
Про функторы и кластеризацию
В работе "An Impossibility Theorem for Clustering" (2002) Jon Kleinberg определяет три простых свойства, которым должна удовлетворять любая кластеризация, а затем доказывает, что ни один алгоритм кластеризации не может обладать всеми тремя свойствами одномоментно. Пусть дано множество S, состоящие из n ≥ 2 точек и некоторая полуметрика (без неравенства треугольника) на нем d:S×S→R. Пусть D(S) — множество полуметрик на S, а Π(S) — множество разбиений S на дизъюнктные подмножества. Тогда кластеризацией назовем функцию f: D(S) → Π(S), которая каждой полуметрике на S ставит в соответствие некоторое диз.разбиение. Kleinberg предложил следующие три свойства, которым должна отвечать каждая такая функция f:
1. Инвариантность относительно гомотетии (scale invariance): f(d) = f(alpha * d) для любых d из D(S) и alpha > 0 из R;
2. Насыщенность (?) или richness: f сюръекция;
3. Непротиворечивость или consistency: пусть есть две полуметрики d и d', а Г некоторое разбиение S. d' это Г-трансформация d, если d'(i,j)≤d(i,j) для всех пар из одного кластера в Г, аналогично d'(i,j) ≥ d(i,j) для всех пар в различных кластерах, тогда d и d' не противоречат друг друг, если d' это f(d) трансформация d, то f(d) = f(d'), т.е. кластеры уплотняются и расползаются при замене метрики d на d';
Существуют алгоритмы кластеризации, которые сочетают в себе любые 2 из 3 перечисленных свойств. Допустим S — множество вершина графа, а d(i,j) — вес ребра. Рассмотрим три функции кластеризации, которые находят подграфы, выбирая некоторое подмножество ребер:
1. выберем произвольное 1<k<n и упорядочим ребра по весу, будем добавлять ребра в подграф из упорядоченного списка ребер, пока он не будет иметь ровно k связных компонент;
2. выберем произвольное r и будем добавлять ребра с весом не меньшим r, полученные компоненты связности и назовем кластерами;
3. выберем произвольное 1 > alpha > 0 и пусть R это max(d). Будем сохранять ребра с весом не более alpha * d;
Утверждение: Функция 1 удовлетворяет 1 и 3 (число кластеров ограничено k сверху), функция 2 удовлетворяет 2 и 3 (варьируем r, получаем разные разбиения и теряем инвариантность относительно гомотетии), а функция 3 удовлетворяет 1 и 2.
И тут в дело врывается топологический анализ данных, с уже классической статьей "Classifying Clustering Schemes" (2013) by Gunnar Carlsson & Facundo Memoli. Ключевая идея их работы заключается в том, что эти свойства кластеризации могут быть закодированы как морфизмы в категории конечных метрических пространств таким образом, что ответом будет не функция кластеризации, а функтор кластеризации в подходящую категорию и он будет обладать уже всеми желанными свойствами.
The ultimate docker compose cheat sheet
Хорошая статья, охватывающая основные аспекты docker compose. Автор начинает с базовых концепций, но будет полезна даже тем, кто хорошо знаком с компоузом.
Из интересного:
– параметр, позволяющий рестартить сервис, если он завалился
– как одному сервису дождаться запуска другого сервиса с использованием определенных условий. Бывает полезно, когда веб-сервис дожидается старта базы данных
– как задавать healthcheck сервисов с различными параметрами
– также автор разжёвывает тему volumes и networks
У нас был отдельный пост с практическими советами по докеру.
#skills #docker
Недавно BM25, алгоритм поиска из 80-х, победил нейросетевой поиск на LLM.
Мне стало очень интересно разобраться, как это работает, и я написал статью на Хабр, где этот алгоритм реализуется с нуля.
https://habr.com/ru/articles/823568/
Материал подойдет начинающим: ничего кроме знания Python не нужно.
Просьба читать, лайкать и кричать об этой статье на улицах. 😇
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Кирилл Хоружий "Введение в методы поиска короткого пути на больших графах"
⌚️ Четверг 4 июня, 19.00 (по Москве)
Мы с коллегами организуем проект по применению методов МЛ/RL к задачам теории групп и графов Кэли - если Вы хотите присоединиться - напишите - @alexander_v_c. В четверг Кирилл Хоружий сделает вводный доклад по этой теме - приходите ! (А также подписывайтесь на замечательный канал Кирилла - @diagrams_every_day ).
Если вы только присоединились к задаче поиска пути на графах, или что-то в описание покажется незнакомым, то этот вебинар для вас должен быть в самый раз.
На вебинаре мы рассмотрим методы решения задачи поиска пути в крупных перестановочных графах, таких как Кубик Рубика или Пятнашки, где задача поиска пути становится весьма сложной. Мы обсудим state-of-art подходы, показанные в работах DeepCubeA (2019) (Nature) и Self-Supervision methods (2023) (arXiv).
Возможные варианты решения задачи о поиске пути:
1. Оценка дистанции случайными блужданиями. Из целевой вершины делаем K шагов и обучаем модель предсказывать K, которое хорошо коррелирует с реальной дистанцией (d). Используем эту модель как эвристику для алгоритма A*.
2. DQ-learning. Предсказывать моделью реальную дистанцию, в лучших традициях DQN основываясь на уравнение Беллмана улучшать после обучения предсказанные расстояния и обучаться заново. Затем также на А* искать путь.
3. Обратная диффузия. Делая случайные шаги, мы почти гарантировано отдаляемся от целевой вершины. Научимся по вершине, предсказывать откуда в неё мы пришли, случайно блуждая. Затем через beam search находим наиболее вероятный путь в целевую вершину (самый короткий ~ самый вероятный).
Также обсудим возможные упрощения жизни для модели через алгоритм Метрополиса и существующие эвристики.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: /channel/sberlogasci/10989/15283
📹 Video: https://youtu.be/2J3eGGH-uiM?si=9xgHtcCpBj0wKXC0
🗓 Программа пройдет в Санкт-Петербурге с 20 по 30 августа. Подать заявку можно по ссылке до 23:59 14 июля 2024 года.
Питание, обучение и проживание бесплатное, оплатить самим нужно будет только проезд.
Подавайте заявки и делитесь постом с друзьями и коллегами!