116
Haskell, распределённые системы. Разработка P2P CAS hbs2 и приложений для него Распределенный git aka hbs2-git hbs2.net Прочее https://t.me/genedrd47r (мото, EUC, скайдайвинг, дайвинг)
казалось бы, что может быть вообще проще, чем скачать файл и записать его на диск. отсюда даже пошла поговорка — как два пальц байта переслать. По UDP, сука. Основная проблема даже не в том, что сеть плохая — сеть как раз хорошая. Пакеты приезжают. Просто туда, где их уже никто не ждёт
hbs2 dev-0.25.3 доступен для скачивания/установки/тестирования.
https://hbs2.net/ref/4X65y4YvUjRL2gtA9Ec3YDDP4bnxjTGhfjpoah96t3z1/get
статус — тест. может, "бета". поменялся внутренний сторейдж, теперь на NCQ3. поменялся тулчейн — hbs2 теперь скриптовая обёртка над hbs2-cli, могли отъехать маны или что-то недообернулось. надо будет смотреть. буду довыкладывать.
Миграция вроде работает. На Mac OS X вроде работает. Пойду смигрирую маковую ноду, кстати.
Перед миграцией рекомендую бэкап, но оно и само не будет удалять старую бд, только переименует.
Тестировал миграцию на 50Gb снапшоте, отработало за O(1) по памяти (это же Haskell, так что это важно).
Про сторейдж написал тут:
https://hbs2.net/ref/4X65y4YvUjRL2gtA9Ec3YDDP4bnxjTGhfjpoah96t3z1/ncq3
TL;DR - раньше CAS был, как у старого гита — один объект один файл. Что было не так уж плохо, т.к объекты у нас довольно большие.
Потом стал NCQv1 — слегка похоже на git packs (один файл данных — один индекс. структура, впрочем, другая - что данных, что индекса). Чем был плох — подозрение, что заклинит на очень больших объемах + плохо переживал выключения питания и kill -9.
Сейчас CAS — дисковые хэштаблицы (lookup O(1)) в качестве индексов + append only журналы для хранения данных. журналы и индексы мержатся, мусор собирается при мерже. Журналы данных — 512M ... 8G + delta (чот типа 9.3 получается). На что влияет: если сделать верхний край больше — очень хреново переписываются на слабых компах. Если сделать их меньше — то могут поджирать лимиты числа запамленных файлов и подтормаживать при поиске.
+ появилась значительная тестовая обвязка и особенно тесты выносливости, имитирующие реальную нагрузку + многократные открытия/закрытия сторейджа или отключение питания / kill -9.
C этим сторейджем можно уже ехать дальше, например делать большие распределенные файловые хранилища и т.п.
Уверен, что протоколом mailbox никто кроме меня не пользовался, но если что —- миграция на новый сторейдж его поломала. То есть не его, а состояние сообщений (импортировано/нет).
Как раз за счёт того, что не сохранял исходные хэши посоленных хэшей ссылок.
Починябельно; из хороших новостей — оно в целом работает.
fish признается bf6-совместимым и вообще годнотой. картинка в коментах
Читать полностью…
Читать полностью…
validate temp/ncq-test-e0a4f98c89aaeba5/op.log
status rest: 0 b: 47724 r: 2276 k: 0
status rest: 0 b: 47724 r: 2276 k: 0
validate done blocks: 46336 deleted-blocks: 1388 refs: 1907 deleted-refs: 369
У nix - и много чего еще — discource. У radicle и мнго чего еще — zulip. У fossil scm и sqlite — конечно же свой форум, уважаю чувака, он же всё это еще и на сях пилит. Фоссил-то на сях. Я к тому, что никто ж не делает коммьюнити в вацапах или facetime, это дичь. То, что мы это делаем это в телеге — нехорошо. Я к тому, что надо бы напилить что-то типа juick только распределенное.
Читать полностью…
Я, бывало, прыгал BASE c 72-метровой ЛЭП (и ломал руку), так вот ощущения когда там наверху перелезаешь ограждение и стараешься раньше времени не упасть вниз — сопоставимы с запуском hbs2-peer с новым сторейджем с только что написанной процедурой миграции. У меня ж тестовый стенд он же продакшн, как-то неудобно hbs2-peer в нескольких инстансах держать
Читать полностью…
В Европе готовят законопроект об обязательной проверке переписки в мессенджерах, включая защищённые чаты.
Инициативу уже поддержали 15 из 27 стран ЕС — всё ради «борьбы с детской порнографией».
Окончательное решение планируют принять 14 октября
А что ещё случилось?
Какой есть наименее всратый клиент Matrix? Я с год назад просмотрел сколько-то, захотелось вырвать себе глаза, ни один не заработал хоть сколько-то удовлетворительно. И еще какие-то имейлы спрашивают при регистрации (регистрация!! это вообще что?). Но это ладно. Есть что-то хоть сколько-то юзабельное?
Читать полностью…
Залёт. В текущем формате NCQ3 и предыдущем (NCQ) ссылки хранятся в том же неймспейсе, что и прочие значения, просто они солятся с некоей строкой, которую я, к тому же, сделал уникальной для инстанса хранилища и не сохранил исходное значение хэша.
Теперь: невозможно перечислить все ссылки при проходе файлов при миграции. По счастью, hbs2-peer держит множество ссылок еще в sqlite (brains, оперативный стейт — еще один исторический факап, ща напишу) —- можно оттуда выколупать несолёные хэши, и при проходе файлов спасти хотя бы те ссылки, на которые пир подписан. Ценой довольно значительного гемора.
Вывод: надо наряду с солёными хэшами ссылок хранить их оригинальное значение на случай, если будет очередная смена формата и миграция. Надеюсь, что не будет. Идея делать соль уникальной для инстанса хранилища была ОЧЕНЬ плохой. В NCQ3 это хардкод в коде. Соль вообще нужна что бы избежать коллизий (блок -> ссылка). Хорошо, что про хранение оригинальных хэшей я понял сейчас, до выкатки NCQ3. Очевидная же мысль, но почему-то только постфактум.
Хорошая новость в том, что на конверсию ссылок в случае N реплик можно вообще забить — если пиры не мигрировать одновременно, то ссылки восстановятся т.к. все ссылки или CRDT G-Set (refchan, reflog) или CRDT LWW ( lwwref ).
Но забивать стрёмно, т.к может найтись кто-то, кто не держит реплик. Несмотря на то, что пользователей очень мало — они всё равно есть, и придется всё делать по-настоящему.
А если бы сразу захардкодил соль для ссылок — то миграция NCQ -> NCQ3 была бы просто — в каждый файл дописать M-секцию в конец, переименовать файл, записать файл в стейт.
FYI: 🟠 Google Play will ban non-custodial wallets unless developers hold a FinCEN, state banking, or MiCA license.
In the EU, MiCA rules effectively block such wallets entirely from the store.
Но есть и плохие новости: сейчас работают ноды с двумя разными типами хранилища, и нужно писать миграцию для двух случаев. К тому же непонятно, как её тестировать. К тому же на безопасную миграцию на самой жирной ноде не хватит места на диске, а небезопасная — небезопасна.
Читать полностью…
На всякий случай еще раз скажу — пресловутый double ratchet — это просто ключ шифрования новых сообщений выводится из известных данных и таким образом принудительно меняется, никакого рокет сайнса. Малосовместим с удобством использования (история на "сервере", пускай даже отсутствующем и являющимся просто распределенной структурой данных).
Читать полностью…
Блокчкейнов как чаек на помойке, криптокошелёк в каждом двадцатом телефоне точно, а сделать на той же по сути платформе мессенджер — ну за вычетом всего ненужного будет даже меньше — никто не сделал. Как так-то. Надо тупо просто специфицировать форматы данных и алгоритмы шифрования/подписи. Всё.
Читать полностью…
Как так вышло, что вопрос о том, что нужны протоколы для IM, а не какая-то конкретная реализация — вообще пропал из повестки? Почему-то как само собой разумеющееся, что государственный, прости г-пди, мессенджер — это какой-то конкретный сервис. А не набор протоколов + федерация операторов.
Т.е частные лавочки устроили этот бардак и саму ситуацию, что мы вообще вынуждены иметь дело с различными проприетарными сервисами и протоколами.
Как раз государство на волне всего этого могло бы продавить протокол и "операторов", сорма туда понатыкать, пакетов яровой и что угодно, но хотя бы клиенты были бы разные и глядишь, был бы один нормальный.
Вместо этого какая-то неприкрытая содомия, хотя содомия у нас запрещена, вроде.
Еще какой-то мессенджер появился, мало одного всратого поделия, теперь их два.
Ничего в этом невозможного нет. SMS-то ходят между операторами. Смогли еще в 90х,
email ходит, смогли в 80х.
Тут всё в разы проще.
Btw, у нас в IT почти все ружья стреляют. Вот например есть такой nix и есть такой git. И nix любит лазить в гит, а еще ссылаться на код по гитовой "ссылке" — так вот поскольку ссылки в гите являются симулякром, то ситуации, когда на одном хосте ссылка смотрит на одно, а на другом хосте — на другое —- или у nix вообще в рамках одного хоста мозги вышибает из-за хэшей, как раз.
В общем, весь этот кошмар закончился, когда вместо ссылок на гит стал скармливать никсу просто тарболл исходников. кстати, тарболл делает сам гит при помощи git archive.
Делаем тарболл, кладём в hbs2, потом собираем и прочее вот так:
nix build localhost:5000/tree/Aog9nHUMSLFgVaCBWqLjWDU4FZ6x2KibPo9XADM3QaNW
Похоже, что с вайбкодингом какая история — у нас есть множество людей, которые уверены, что они очень умные и знают, что делать, просто языков программирования не знают. В отличие от тупых программистов, которые очень тупые, но языки программирования знают. В общем-то это прямое следствие того, что в социуме почти все — самые умные. (sic).Ну уж точно умнее, чем эти. Навеяно тем, что говорящая собака прямо со звериным упорством предлагает писать код, как будто бы именно это какая-то проблема и её решение очень ценно. Между тем всё дело в требованиях, и кажется, что инжиниринг требований (обнаружение зависимостей, конфликты) — таки может быть произведен говорящими собаками в силу того, что они внимательные и (пока) не подвержены скуке и похуизму. Ведь зачем мясному аккуратно и добросовестно работать с требованиями — когда точных критериев успеха нет, проверить почти невозможно (самая близкая аналогия — состязание в суде) — соответственно, факап с требованиями может или не выясниться никогда или "ну не шмогла"
Читать полностью…
Опупея с новым сторейджем для CAS движется к концу. Даже на маке заработало. и тут удачно и погода не очень и лето заканчивается, так что можно что-то прикольное сделать.
У нас есть — концепт мессенджера, веб. E2E P2P вся фигня. Вроде работает, но подозреваю много проблем из-за несвоевременного вкорячивания UI.
Что бы работало нормально без локальной ноды — надо бы научиться делать cbor пакеты на клиенте и шифровать.
Можно сделать чисто консольный прототип. Если нашлось что-то, от чего было бы легко взять фронтенд и туда подсунуть hbs2 в качестве бэкенда — было бы отлично, но я ничего такого не нашёл.
Можно сделать local-first juick — т.е по сути мессадж борду по модели твиттера ( у каждого свой канал; каждый пишет к себе; те кто подписался — становятся новыми точками раздачи). Можно допустим шарить подписки, кроме того —- можно натренировать какую-то микросетку, что бы работала, как система рекомендаций.
Подмывает сделать vcs чисто поржать — по модели "все есть меркл дерево" и посмотреть, что получится. По сути она делается добавлением "манифестов" / "чекпойнтов" в hbs2-sync но надо подумать. Нафига её делать... Ну, получу time machine для проекта, который хотел + у меня есть кейс публикации подпроектов из монорепы; можно на уровне дизайна сделать "подпроект" и манипуляцию ими.
Морду для гита мне делать не хочется. Очень много UI, очень мало профита. По сути можно синкать через hbs2-git локальный git bare repo и натравить на него любую вебморду гита. Т.е основной вектор усилий будет смещен в сторону UI и веба, кажется, это просто трата времени. По факту лично мне вебморда для гита особо не нужна. Я даже lazygit ленюсь использовать. При таких вводных вряд ли получится хорошо.
Возможно продуктивнее просто взять движок hbs2.net - статический генератор с бэкендом в CAS — немного допилить + прикрутить шаблоны и выложить как средство для публикации своих проектов + сделать какой-то каталог.
Весь hbs2.net это просто небольшая обвязка на bf6 вокруг hbs2-cli — интерпретатора для вызова функций hbs2. ну там сохранить блок/дерево/ссылку и тп.
hbs2-sync + fuse вроде тоже пилится и синхронизирован со сторейджем. Будем мержить всё вместе. Для больших каталогов (файлопомоек) без нового сторейджа оно сдохнет, а с ним нет.
Мне хочется для поржать сделать vcs, но со сторейджем я тоже думал что приключение на пару недель, чо там - в файл пишешь, из файла читаешь, LSM, всё просто.
Кажется, что ввиду общего вот этого фона правильнее двигаться в сторону борды + чуть позже к ней прикрутить приватные сообщения + сделать некий аналог KeyBase возможно.
Есть мысли?
Как вот так получается, что Snapgradon/ARM - по сути телефонный SoC, андроид — это линукс, а линукс на ноутах со Snapdragon практически не работает. Или винда или макбук. Винда нот ан опшн, а mac — зловещая долина. Там буквально ВСЁ по мелочам сделано так, что вызывает вопросы — в порядке авторы или нет. Незакрывающиеся терминалы, недонастроенный баш, хоткеи которые почти — но не совсем, т.е типа надо палец на одну кнопку сдвинуть и это почти невозможно. Мышиного копирования по умолчанию нет. Понятно, что всё можно настроить, но там надо настроить буквально прямо всё. А если комп поменяется — получится его раскатать, как из flake.nix что бы все эти настройки обратно заехали? Вопрос.
Читать полностью…
Тем временем,
[dmz@expert:~/w/hbs2]$ hbs2-peer fetch -p HRDcFo2PwTQkEmPPECbZivdUf788s3GumhhqtgErHhfc && hbs2 cat HRDcFo2PwTQkEmPPECbZivdUf788s3GumhhqtgErHhfc
NCQ3-PREVED-20250822
Если жизнь посылает тебе лимон — сделай из него регрессионный тест. Д. Карнеги
Читать полностью…
Смотрю этот ваш jj и как-то много всё равно там возни. Куча непривычных команд с кракозябрами.
Кмк, система контроля версий должна вообще состоять из двух, что ли частей 1) то, что локально (история изменений) 2) то, что публикуем — и что будет растить глобальный стейт, приводя к 130+ гигабайтам репо линукса.
Я теперь делая каждый коммит гита угрызаюсь, что оно будет потом вечно засорять эфир — т.е привязка кейса "бэкап" к кейсу "публикация изменений" она какая-то неправильная. наверняка в командах с монорепами бьют по рукам за коммиты с целью просто бэкепа текущей работы, да и никто так не делает.
т.е vcs должна работать так — просто как-то (inotify? таймер) + по явной команде сохраняет изменения. что нужно трекать решает настройка - никаких git add, stage и всей этой хни.
периодически можно сказать команду типа бранч/тег/mark/pin — что бы текущее место в DAG как-то пометить.
что куда публиковать — ну опять же, есть наверное бэкап на случай (кот обоссал ноутбук) — и публикация чего-то куда-то.
в общем-то, путём добавлений тегов/марок и манифестов делается из hbs2-sync.
что хочется — так это дешевого и легкого (бесплатного) перемещения по локальной истории, ну и прозрачной работы — просто редактируешь, а vcs сам собой обеспечивается, без каких либо команд вообще
Эта неделя — endurance тесты для NCQ3. Никаких больше прыжков веры. Заодно смотрю, как оно себя ведёт при нагрузке примерно похожей на реальную, для этого специально перемежаю времена большой нагрузки с временами IDLE. Кажется, уже хочется ASAP освобождать memtable — т.е заменять там кэшированные значения на ммапнутые файлы по мере записи, но до индексации. Есть несколько способов это сделать, или медленные или опасные. Но всё равно
Читать полностью…
Про sqlite. Я люблю sqlite, он своего рода произведение искусства на многих уровнях. но надо помнить, что он медленный. Нельзя его держать в fast path нигде (хоть соблазн велик, особенно в хаскелле — всё мутабельное согнать в in-memory sqlite) . Если работать с sqlite так, что бы он работал быстро — то по сути это кэшировать всё в памяти в других структурах, то есть уходит вся простота.
Один из самых хреновых по скорости паттернов работы с sqlite — это одновременное чтение/запись, и как раз он-то и нужен в типичном случае работы с объектами hbs2: смотрим, есть ли объект, если нет — то вставляем.
Многие проблемы hbs2 решились просто выпиливанием sqlite. И со скоростью, и с консистентностью.
После перепиливания hbs2-git со стейта в sqlite на самодельную БД (SD-журнал + LSM0 индекс + файлы - снапшоты состояния для ссылок) — проблемы hbs2-git рассосались сами собой и больше не появлялись. LSM0 (сортированный массив ключей одного уровня) появился потому, что в тот момент еще ничего не было другого.
Как-то так получается, что sqlite (т.е РСУБД) поощряет использовать самые плохие практики работы с данными, потому что их легче всего использовать — и ты такой — ну об остальном позаботится движок, умные люди писали, он всё оптимизирует. Так вот — нет, он вообще ничего не оптимизирует. Наверное, я не советую его использовать даже для прототипов.
Надо сказать, что это очередной раз "мутабельное vs иммутабельное" — т.е sqlite это как бы парадигма, когда у нас мутабельные данные, а противопроложный подход — это когда мы пишем данные один раз и больше не трогаем, а индексы и стейты каждый раз переписываем полностью. Мало того, что уходит куча головняка, так еще и почему-то в итоге быстрее.
После переписывания стейта hbs2-git3 в этом стиле — не проявилось пока ни одной проблемы исходного hbs2-git (протухший стейт, удалить, пересобрать, тормоза).
RED 2014/53/EU и то, что будет дальше — как конец телефонов. в общем-то, мне и не нужен "телефон". мне нужно звонить.
то есть не звонить, а иногда поговорить голосом.
Как бы есть СРКН, а есть мировой СРКН. Надо это помнить всегда. Чот кажется, что в перспективе перспективнее иметь очень маленький девайс с экраном и спикером с обычным линуксом на борту, чем вот это всё андроид. Такое уже есть, но пока сильно хреновое, но сама идея, что кто-то центральный решает, какой софт тебе можно иметь на твоем терминале она какая-то нездоровая. Новости всё чудесатее, прямо мимо свистит. Кажется, непопулярность решения будет только на пользу, avoid success at all costs кажется играет новыми красками - чем менее популярное решение будет, тем дольше оно проработает без проблем.
Читать полностью…
Вот на скорую руку написал про текущее хранилище по запросу @qnikst
Прицепил пока сюда:
https://hbs2.net/ref/4X65y4YvUjRL2gtA9Ec3YDDP4bnxjTGhfjpoah96t3z1/ncq3
В теги, что бы preview отображалось пока не смог, надо шаблон править, позже может. @qnikst (и кто угодно) пиши сюда в коменты вопросы/замечания/предложения.
Что бы иметь это у себя на localhost, нужно запустить hbs2-peer и сказать:
hbs2-peer poll add 4X65y4YvUjRL2gtA9Ec3YDDP4bnxjTGhfjpoah96t3z1 lwwref 11Читать полностью…
Интересно, не лежит ли причина отсутствия спецификаций протоколов мессенджеров в том, что в любом их них не может не быть E2E шифрование.
Простое E2E без PFS/PD сделать очень просто — и если алгоритм шифрования не скомпрометирован, то даже самый простой chachapoly сделает массовую прослушку бесполезной. Я не очень понимаю, как прослушивают HTTPS (видимо, никак) — но в случае форума можно прийти к владельцу/хостеру форума и бить его гаечным ключом, пока от отдаст дамп базы. Если форум иностранный — то можно его запретить.
В случае децентрализованного решения приходить особо некуда (масса оговорок) — вопросы видимо всё равно как-то решаются, но видимо, не так просто.
На всякий случай скажу — прямо сейчас есть децентрализованный багтрекер fixme-new, который просто синхронизирует sqlite базу тикетов через CRDT примитивы (refchan ) и GOSSIP. C ACL и шифрованием. Чем это отличается от доски сообщений, кроме немножечко вёрстки — не вполне понятно.
У меня особенно бомбит от того, что в этой сфере (IM) нет и не будет / не предвидится правильных вещей. Правильная вещь, например — это адресация по криптоключу.
В 2025 и дальше ни с опсосами, ни с доменами дел лучше не иметь.
Нам показали в 2009, что так можно и это мало того, что отлично — так еще снимает просто огромную кучу головняка. Это тупо удобнее и проще.
Проблемы роутинга многократно решены, просто надо сделать, как уже много кто делал.
Вопрос распространения большого/нетекстового контента / ссылок — решается CAS и хэш-ссылками.
"как это будет масштабироваться на охулиард миллионов пользователей" — такая проблема есть только у централизованных сервисов, у которых бизнес — торговля пользователями. Остальным не надо охулиард миллионов, а только свою адресную книгу. Опять же — email работал и всё еще работает. Торренты работают. Блокчейны работают. Почему вместо псевдоденежных переводов нельзя слать сообщение "привет,как дела" ?
Но вместо того, что бы сделать правильно — и просто -- PEX/GOSSIP/NAT traversal/криптоадреса — мы имеем два трека —- государственные и централизованные говномессенджеры с проприетарными протоколами и нечто малоюзабельное, но судя по фичам действительно ориентированное на организацию беспорядков или торговлю наркотиками, т.к. для остального можно было бы попроще и подружелюбнее сделать.
Ну что, неделя в горах с парапланами без связи - done, впечатления в соседнем офтопиковом канале. Кстати, hbs2 хорошо себя чувствует в ситуациях с плохой связью и возможный кейс — обмен данными и сервисы в присутствии локальной сети и отсутствии связи с большим интернетом. Минимум в одном таком месте я бываю регулярно и P2P сервисы типа того же инстаграмма (шарить фоточки и видео среди своих с отложенной репликацией в глобальные сервисы) — зашли бы отлично, если бы можно было бы объяснить ЦА что это такое. Лучше бы, конечно, никаких глобальных сервисов бы не было вовсе, но тут увы, даже СРКН не справился.
Судя по увеличению количества новостей про те или иные mesh решения — это заметный тренд, ввиду всякого разного, например, повсеместной чебурнетизации. Удивительно (нет), но отличники в говноедстве снова британцы, а вовсе не всякие сатрапии со своими СРКНЫ-ами. Сатрапии, как всегда, перенимают передовой западный опыт и находятся в роли догоняющих.
Очередному бедолаге удалили все данные за двадцать лет из AWS, потому что уборщица (девопс) выдернула провод шваброй (тестировала какой-то скрипт в проде), конечно же репликация этих данных была с N=1, и за деньги пользователя согласно EULA провадер сервиса должен пользователю просто его не бить ногами. Теперь будет судиться, суд конечно же постановит вернуть все биты в исходное состояние .
Так что мы продолжаем.