That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
On the Thermal Transport Puzzles in α-RuCl3 arxiv.org/abs/2312.06601
Читать полностью…diff History for Long-Context Language Agents arxiv.org/abs/2312.07540
Читать полностью…🌸Все данные для тестов LLM скомпрометированы? 🌸
#nlp #про_nlp #nlp_papers
Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.
Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?
Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.
Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.
Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.
Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!
Выводы:
🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣Остается проверить так все модели OpenAI?
🟣Статья: Proving Test Set Contamination in Black Box Language Models link
Uncovering Conformal Towers Using Deep Learning ml4physicalsciences.github.io/2023/files/NeurIPS_ML4PS_2023_45.pdf
Читать полностью…XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models https://arxiv.org/abs/2308.01263
Читать полностью…Days without asian tricks: 0
nVidia опровергла релизные заявления AMD, в котором сравнивали их MI300 vs H100 (первые два столбца на графике)
В своей презентации AMD запускали H100 без Tensor-LLM/triton, который любой здравомыслящий человек использовал бы в реальном сценарии.
Ну а за время обработки 1 батча с 1 сэмплом MI300, H100 успевает обработать 14 сэмплов :D
подробнее
@derplearning
PCMI: Topological aspects of error correcting codes https://www.johnbostanci.com/pcmi/
Читать полностью…Towards Noise-Tolerant Speech-Referring Video Object Segmentation: Bridging Speech and Text aclanthology.org/2023.emnlp-main.140/
Читать полностью…Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models https://arxiv.org/abs/2312.06585
via @dlinnlp_links
Очень хороший и наглядный гайд о там, как не надо делать визуализацию данных
https://github.com/cxli233/FriendsDontLetFriends
Islands Far Outside the Horizon https://arxiv.org/abs/2312.03078
Читать полностью…Majorana chain and Ising model -- (non-invertible) translations, anomalies, and emanant symmetries https://arxiv.org/abs/2307.02534
Читать полностью…Strongly coupled edge states in a graphene quantum Hall interferometer https://arxiv.org/abs/2312.03150
Читать полностью…EAGLE: Lossless Acceleration of LLM Decoding by Feature Extrapolation sites.google.com/view/eagle-llm
Читать полностью…Chain of Code: Reasoning with a Language Model-Augmented Code Emulator https://arxiv.org/abs/2312.04474
Читать полностью…Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point Cloud Panoptic Segmentation arxiv.org/abs/2312.08234
Читать полностью…Does provable absence of barren plateaus imply classical simulability? Or, why we need to rethink variational quantum computing https://arxiv.org/abs/2312.09121
Читать полностью…Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding arxiv.org/abs/2312.05328
Читать полностью…HIQL: Offline Goal-Conditioned RL with Latent States as Actions https://seohong.me/projects/hiql/
Читать полностью…Mathematical discoveries from program search with large language models www.nature.com/articles/s41586-023-06924-6
Читать полностью…AVIS: Autonomous Visual Information Seeking with Large Language Model Agent https://arxiv.org/abs/2306.08129
via @dlinnlp_links
AI/ML and condensed matter + materials science
Materials define the way we live. That may sound like an exaggeration that I like to spout because I'm a condensed matter physicist, but it's demonstrably true. Remember, past historians have given us terms like "Stone Age", "Bronze Age", and "Iron Age", and the "Information Age" has also been called the "Silicon Age". (And who could forget plastics.)
Perhaps it's not surprising, then, that some of the biggest, most wealthy companies in the world are turning their attention to materials and the possibility that AI approaches could lead to disruptive changes. As I mentioned last week, there have been recent papers (back to back in Nature) by the Google Deep Mind group on this topic. The idea is to use their particular flavor of AI/machine learning to identify potential new compounds/solids that should be thermodynamically stable and synthesizable, and make predictions about their structures and properties. This is not a new idea, in that the Materials Genome Initiative (started in 2011) has been working in this direction, compiling large amounts of data about solid materials and their properties, and the Materials Project has been pushing on efficient computational methods with the modest goal of computing "the properties of all inorganic materials and provid[ing] the data and associated analysis algorithms for every materials researcher free of charge".
In addition to the Google work, Microsoft has released on the arxiv their effort, MatterGen, which uses a generative AI approach to try to predict new stable materials with desirable properties, such as a target symmetry or chemical composition or mechanical/electronic/magnetic response. An example from their paper is to try to find new magnetic materials that have industrially useful properties but do not involve rare earths.
There is a long way to go on any of these projects, but it's easy to see why the approach is enticing. Imagine saying, I want a material that's as electrically conductive and mechanically strong and workable as aluminum, but transparent in the visible, and having software give you a credible approach likely to succeed (rather than having to rely on a time-traveling Mr. Scott).
I'd be curious to know readers' opinions of what constitute the biggest obstacles on this path. Is it the reliability of computational methods at predicting formation energies and structures? Is it the lack of rapid yet robust experimental screening approaches? Is it that the way generative AI and related tools work is just not well-suited to finding truly new systems beyond their training sets?
via nanoscale views (author: Douglas Natelson (noreply@blogger.com))
UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition https://arxiv.org/abs/2311.15599
via @dlinnlp_links
https://twitter.com/cHHillee/status/1730293330213531844
Читать полностью…Друзья, привет, вдохновились успехом коллег и разных генераторов миджорни в телеграме 🙏️️️️️️
Решили, что будем идти в сторону фана и реализма
Так что запускаем своего бота старика Аватара Аватарыча 😁️️️️️️
Что он умеет:
👀️️️️️️ По вашей фотке автоматически понимать, кто вы есть
👀️️️️️️ Рисовать вам аватарки в заданном стиле с вашим лицом
Это пока версия 0.1, поэтому пробуйте больше раз, может что-то получится
👀️️️️️️ Пока есть проблемы кривых глаз
👀️️️️️️ С кожей тоже пока шалит
Но все генерации уникальны, так что советую гененировать штук 10 для хорошей 🙌️️️️️️🤖️️️️️️
Если соберем 100 юзеров, будем улучшать качество глаз и кожи нашим алгоритмом +
ПС также скоро добавим функции в инсомнии
Бот 👇️️️️️️👇️️️️️️👇️️️️️️
@AvatarychBot
Trajeglish: Learning the Language of Driving Scenarios https://arxiv.org/abs/2312.04535
Читать полностью…Suppression of Shot Noise in a Dirty Marginal Fermi Liquid https://arxiv.org/abs/2312.03071
Читать полностью…Towards Large Language Models as Copilots for Theorem Proving in Lean https://mathai2023.github.io/papers/4.pdf
Читать полностью…Mistral "Mixtral" 8x7B 32k model [magnet] (🔥 Score: 158+ in 1 hour)
Link: https://readhacker.news/s/5VDhB
Comments: https://readhacker.news/c/5VDhB
https://twitter.com/cHHillee/status/1732868066558792189
Читать полностью…