Как нейросети могут быть применимы в математике?
Большие языковые модели (LLM) уже давно показали способность к математическим выводам: доказательство несложных теорем, решение задач с подробным объяснением. Стоит отметить давнюю работу MathBERT для анализа мат.формул, а также Minerva для мат.ризонинга.
Недавно была представлена модель Llemma на 34 млрда параметров: в основе её архитектуры лежит Code Llama, инициализирована весами модели Llama 2 и оригинальным способом дотренирована на расширенном датасете Proof-Pile-2 (55 млрд токенов), который содержит программный код на 17 ЯП из GitHub, статьи из arxiv и OpenWebMath.
В итоге Llemma умеет следующее:
1. Solving Math Problems. Prompt: постановка математической задачи на естественном языке. Ответ: Пошаговое описание решения, записанное на LateX, а затем его имплементация на Python.
2. Informal-to-formal. Prompt: доказательство на естественном языке. Ответ: запись на формальном языке доказательства теорем (proof assistant) Isabelle .
3. Formal-to-formal. Prompt: доказательство на формальном языке Lean. Ответ: разбиение доказательства из prompt в последовательность шагов с подробным описанием на том же языке Lean.
Интригующие результаты в применении инструментов компьютерной алгебры и средств формального доказательства теорем удалось добиться с помощью добавления большого объема данных, связанных с программированием математики, символьными вычислениям итд; авторы назвали эту часть собранного датасета - AlgebraicStack. Утверждается, что Llemmа по точности бьёт все прошлые подходы: Minerva (540 млрд параметров и не open-sourse), Code Llama; при этом исходный код, веса модели и датасет в открытом доступе.
видео-лекция с подробным описанием работы от Sean Welleck на New Technologies in Mathematics Seminar, в рамках этого семинара затрагивают и много других интересных тем: формальное математическое объяснение успеха механизма Attention или статистическая механика в нейросетках.
пока писал этот текст, вышла статья LEGO-Prover про док-во теорем с помощью LLM.
"how the cell collective knows what to build and when to stop?"
Вышла новая моделька NCA: из порождающего множества и правил в прикольные структуры (мера прикольности, видимо, в узнаваемости)
Growing Neural Cellular Automata (2020)
Isotropic Neural Cellular Automata (2023)
Burning (2016)
Документальный фильм о математике Элияху Рипсе.
В возрасте 20 лет он совершил протестный перформанс против советской оккупации Чехословакии: поджег себя в центре Риги. Он выжил, но на два года попал в психушку. Сегодня Рипс считается крупным математиком.
Узким кругам он широко известен своими попытками найти зашифрованные послания в Торе.
Functional bioengineered models of the central nervous system
(Ревью: почему моделировать ЦНС сложно, давайте посмотрим, где мы сейчас)
недавно приходил вопрос в голову, а у Тао уже давно есть статья про это, удобно
When is correlation transitive?
если X и Y имеют корреляцию близкую к 1, то X и Z должны быть положительно скоррелированы тоже:
(X,Y) = (Y,Z)(Z,X) - sqrt{(1-(Y,Z)^2)(1-(Z,X)^2)}
(Y,Z)^2 + (Z,X)^2 > 1
а вот и окружность.
Topological and geometric analysis of cell states in single-cell transcriptomic data
"Here, we aim to explore the usage of TGDA tools, specifically graph curvature and persistent homology, for stablishing structure-function relationships in scRNA-seq to predict cell properties from the underlying structures of the data."
The study of plasticity has always been about gradients
(проблема только в том, что целевых функций не одна, а много и синапс участвует в приближении многих сразу и этот выбор может меняться (а не "Mathematically, this is equivalent to asking what the derivative of the performance function is with respect to each synapse"), поэтому оптимизация в мозге идет не столь очевидным образом, как в ИНС, которые аппроксимируют одну функцию из конкретного класса в процессе обучения)
Abstract: The experimental study of learning and plasticity has always been driven by an implicit question: how can physiological changes be adaptive and improve performance? For example, in Hebbian plasticity only synapses from presynaptic neurons that were active are changed, avoiding useless changes. Similarly, in dopamine-gated learning synapse changes depend on reward or lack thereof and do not change when everything is predictable. Within machine learning we can make the question of which changes are adaptive concrete: performance improves when changes correlate with the gradient of an objective function quantifying performance. This result is general for any system that improves through small changes. As such, physiology has always implicitly been seeking mechanisms that allow the brain to approximate gradients. Coming from this perspective we review the existing literature on plasticity-related mechanisms, and we show how these mechanisms relate to gradient estimation. We argue that gradients are a unifying idea to explain the many facets of neuronal plasticity.
Топологические графовые нейронные сети TGNN - это обобщение классических GNN на случай, когда данные имеют богатую топологическую информацию. Такие сети обучаются аналогично GNN через message passing, но с учетом того, что данные могут содержать не только ребра и вершины, но и более высокоразмерные подструктуры, а отношения между подструктурами сложнее. Кратко упомянем основные типы архитектур TGNN:
1. Simplicial Complexes (SC) TGNN: в отличии от GNN допускается не только вершины и ребра, но и симплексы более высоких размерностей. Примеры архитектур: SNN, Hodge Laplacian, SCCONV.
2. Cellular Complexes (CC) TGNN: обобщение SC на случай, когда клетки не ограничиваются симплексами и могут содержать более 3-х узлов. За счет этих дополнений архитектура CC более выразительная. Примеры: CXNs, Cell attention networks
3. Hypergraphs: обобщение графов, которое позволяет соединять ребрами произвольные подмножства вершин. Более подробно про это написал Paul Snopov в посте о нашем с ним участии в ICML челендже, где мы реализовали архитектуры HyperSage и HyperGat.
4. Combinatorial complexes (CCCs): обобщают клеточные и гиперграфы, позволяют также реализовывать тип отношений часть-целое. Higher-Order Attention Networks (HOAN)
5*. Отдельно стоят Neural Sheaf Diffusion - GNN на основе клеточных пучков.
TGNN уже давно применяются для анализа молекул, социальных сетей, графов цитирования и для многих других задач, где просто GNN могут справляться не очень успешно из-за слабой выразительной силы. Более подробно это объясняется в "A Survey on The Expressive Power of Graph Neural Networks".
Готовые имплементации архитектур TGNN удобно представлены в фреймворке TopoModelX. А также недавно вышел тех-репорт по ICML 2023 Topological Deep Learning Challenge, в котором предлагалось сделать контрибьюшн в TopoModelX.
На кофейном столике Женевского университета нашел прикольную книгу: Do not erase. Сделана она так. На каждом развороте коротенькое интервью с математиком (почти все американские, кажется) слева, а справа — доска. Доски красивые, фото прикладываю.
UPD: в комментах книгу выложили целиком.
<< < Траектории катящихся тел > >>
Если взять маркер и положить на наклонную поверхность, он покатится прямо. Конус опишет полукруг. А вот теперь нарисуем произвольную периодическую кривую на наклонной плоскости, можно ли придумать тело, которое будет катиться именно по этой кривой? Да. Люди задались этим вопросом и статью в nature опубликовали (так что бывают там статьи по математике).
И вот видео прикольное, там всё объясняют:
https://www.youtube.com/watch?v=2lW9HznqsVY
В дополнение к истории про синхронизацию светлячков:
Spatio-temporal reconstruction of emergent flash synchronization in firefly swarms via stereoscopic 360-degree cameras
И разбор этого исследования синхронной активности светлячков на хабре
Люди: изобрели промт «думай пошагово», улучшили производительность LLM, горды собой
LLM: придумал для себя промт «глубоко вдохни и подумай», улучшил производительность еще сильнее, забыл сообщить об этом кожаным
В данной таблице приведены примеры промтов, которые LLM делают сами для себя и их сравнительная эффективность.
ГЭБ муравьев-плотников вырабатывает фермент Jhe, который разрушает гормон JH3, влияющий на поведение.
Вариации уровней этого фермента в ГЭБ приводят к тому, что муравьи берут на себя разные роли, например, собирателей или солдат.
Тот же механизм может применяться и у других видов: предварительные данные показывают, что клетки ГЭБ мышей также разрушают гормоны, включая тестостерон.
https://neurosciencenews.com/blood-brain-barrier-behavior-23893/
https://udlbook.github.io/udlbook/
свежий вводный учебник по DL с не очень аутдейтед примерами
Два обзора (2019 и 2023 годов) о взаимодействии двух ключевых нейронных процессов - эксперессии генов и синаптической пластичности
1. R.R. Campbell, M.A. Wood, How the epigenome integrates information and reshapes the synapse, Nat. Rev. Neurosci. 20, 133–147 (2019). https://doi.org/10.1038/s41583-019-0121-9
2. H. Ma et al., Excitation–transcription coupling, neuronal gene expression and synaptic plasticity, Nat. Rev. Neurosci. 24, 672–692 (2023). https://doi.org/10.1038/s41583-023-00742-5
Логика - это наука о сосудах. Finally
Так что если встретите, как вам кажется, пьянствующего логика, помните, он не синячит, он исследует бутылки.
Из книги Никифорова А. Л. "Логика и теория аргументации"
How to solve a maze without AI
Проходим двумерный лабиринт используя Лапласиан https://www.seamplex.com/feenox/examples/maze3.png
Помимо стандартного TDA авторы смотрели еще и на геометрию данных, например, на Ollivier-Ricci curvature на графах
DISCRETE OLLIVIER-RICCI CURVATURE
жулики научились подсовывать левые ссылки на этапе внесения метаданных научных публикаций в CrossRef, чтобы накрутить цитирования и остаться незамеченными https://arxiv.org/abs/2310.02192
We report evidence of an undocumented method to manipulate citation counts involving 'sneaked' references. Sneaked references are registered as metadata for scientific articles in which they do not appear. This manipulation exploits trusted relationships between various actors: publishers, the Crossref metadata registration agency, digital libraries, and bibliometric platforms. By collecting metadata from various sources, we show that extra undue references are actually sneaked in at Digital Object Identifier (DOI) registration time, resulting in artificially inflated citation counts. As a case study, focusing on three journals from a given publisher, we identified at least 9% sneaked references (5,978/65,836) mainly benefiting two authors. Despite not existing in the articles, these sneaked references exist in metadata registries and inappropriately propagate to bibliometric dashboards
Is the cell really a machine? (почему надо помнить, что красивые схемки метаболических путей внутри клетки — упрощение, а на самом деле там стохастичный суп, в котором плавают туда-сюда белки меняя постоянно свою геометрию, реагируя с множеством других молекул и не являются включенными только в одну функциональную пару типа "ключ-замок", что позволяет им быть участником сотни метаболических путей, и именно такая лабильность и изменчивость лежат в основе адаптационного успеха живых систем)
Abstract: It has become customary to conceptualize the living cell as an intricate piece of machinery, different to a man-made machine only in terms of its superior complexity. This familiar understanding grounds the conviction that a cell’s organization can be explained reductionistically, as well as the idea that its molecular pathways can be construed as deterministic circuits. The machine conception of the cell owes a great deal of its success to the methods traditionally used in molecular biology. However, the recent introduction of novel experimental techniques capable of tracking individual molecules within cells in real time is leading to the rapid accumulation of data that are inconsistent with an engineering view of the cell. This paper examines four major domains of current research in which the challenges to the machine conception of the cell are particularly pronounced: cellular architecture, protein complexes, intracellular transport, and cellular behaviour. It argues that a new theoretical understanding of the cell is emerging from the study of these phenomena which emphasizes the dynamic, self-organizing nature of its constitution, the fluidity and plasticity of its components, and the stochasticity and non-linearity of its underlying processes.
Продолжая тему "Животные и топология" обратимся к морским червям полихетам — каобангиям, которые образуют из своего кишечника подобие бутылки Клейна: "задняя часть тела каобангии вместе с анусом и пигидием прирастает к спинной части тела и затем, в ходе роста червя, сдвигаются к переднему концу – в результате образуется характерная кишечная петля".
Полная заметка, где этот факт был подмечен, тут (в очередной раз спасибо подписчикам за интересную факты; упоминаемый в тексте В.Н. Беклемишев с книгой «Сравнительной анатомии беспозвоночных» — это дед математика Л. Беклемишева)
в продолжение истории про миксин и узлы — классификация узлов из мурен (спасибо подписчикам)
A moray’s many knots: knot tying behaviour around bait in two species of Gymnothorax moray eel
кстати, на ютубе есть видео с одним из узлов
Do Machine Learning Models Memorize or Generalize?
"In 2021, researchers made a striking discovery while training a series of tiny models on toy tasks . They found a set of models that suddenly flipped from memorizing their training data to correctly generalizing on unseen inputs after training for much longer. This phenomenon – where generalization seems to happen abruptly and long after fitting the training data – is called grokking and has sparked a flurry of interest"
Я завтра закончу этот сериал про землекопов, но сегодня не могу удержаться и не рассказать о невероятном новом открытии, которое сделали два бразильца в Австралии.
Неудивительно, что этот жук был открыт только в 21м веке. Дело в том, что на спинной поверхности его тела имеется нарост, который довольно подробно имитирует термита, больше самого жука по размеру. Поскольку живет он в термитнике, естественно, что ученые были слепы к его присутствию - как и сами термиты, которых этот новый жук, судя по всему, обкрадывает пользуясь невероятной мимикрией. Назвали Austrospirachtha carrijoi.
Надо сказать, что большинство термитов и так ничего не видят, в том числе и вот эти австралийские. Но у них хороший нюх и осязание. Похоже, что муляж, который вырос на спине у жуков, достаточен чтобы обмануть осязание. Авторы предполагают, что впридачу выделяются летучие молекулы, которые имитируют запах термита. Разглядите: найдите голову, ноги и антенны жука, потом двигайтесь взглядом назад, убедитесь что видите его желтое брюшко, а дальше просто: на спинной поверхности вперед торчит продолжение этого вот муляжа.
Это похоже на некоторые хэллоуинские костюмы, когда человек надевает на себя ростовую куклу, которая будто бы держит его собственную голову в руках, знаете?
Зачем все это нужно? Пока неясно, но напрашивается гипотеза о нахлебничестве. Термиты — крайне успешные собиратели калорий. Каста рабочих имеет обязанность: по первому требованию накормить представителей других каст, и вот, жуки этим видимо пользуются.
Про эффект ‘буба-кики’ (ассоциацию звуков с геометрической формой) вы наверняка знаете.
Оказывается, это не исключительно присущая людям и млекопитающим штука и кросс-модальная ассоциация есть и у других позвоночных.
Вот, черепашки при прослушивании высокочастотного звука шли открывать дверцу с прилепленным к ней маленьким диском, а дверцу с большим диском - в случае звука низкой частоты.
Так что такого рода кросс-модальная ассоциация эволюционно не сильно нова и есть и у рептилий 🐢
Crossmodal association between visual and acoustic cues in a tortoise (Testudo hermanni)
(в дополнение к вопросу выше: каскадные реакции усиливают кратно, в миллионы раз, действие единичных молекул на рецепторы. Т.е. в рассматриваемом случае образование одного комплекса молекулы адреналина с рецептором приводит к образованию десятков миллионов молекул глюкозо-1-фосфата, где на каждом шаге реакции число молекул увеличивается. Это необходимо, потому что рецепторов адреналина не так много на единичной клетке: при прямой реакции без промежуточных звеньев на выходе получалось бы слишком мало глюкозы из гликогена)
Читать полностью…#tda#biotech#ml
Artificial intelligence-aided protein engineering: from topological data analysis to deep protein language models
Обзор методов, включающих TDA и NLP, применяемых в белковой инженерии