daniilak | Unsorted

Telegram-канал daniilak - Daniilak — Канал

264

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

im-a-good-gpt2-chatbot появился в сравнительной части chat.lmsys.org

chat.lmsys.org — сейчас арена для теста лучших LLM, и арт вроде должен быть далеко от этого. Но я недавно узнал у Сиолошной про im-a-good-gpt2-chatbot, говорят это проделки OpenAI.

В общем я решил использовать старые промпты для P5JS (Помните был такой Генарт? Когда с помощью кода создают красоту)
И im-a-good-gpt2-chatbot показал невероятное понимание как создать, анимировать и даже визуализировать объекты. В моем случае я попросил создать симуляцию столкновения двух нейтронных звезд и примерно рассчитать масштаб черной дыры и визуально показать ее. Очень хорошо видеть в сравнение со второй рандомной(Qwen и gemini-1.5-pro-api-0409-preview) моделью, как im-a-good-gpt2-chatbot превосходит другие модели и выдает рабочий, сложный код.

Пока я прошу перевести код в Blender API(что он тоже прекрасно делает) поглядите на симуляцию столкновения двух нейтронных звезд одинакового размера.

А Денис успел раньше игру запилить.

P.S. Модель хорошо сгенерировала svg вариант текстового сторис для инсты и даже запилила полноценный код с использования controlnet и кастомных моделей в diffusers. Это очень мощно.

Читать полностью…

Daniilak — Канал

Недавно показали Streamlit – питоновская библиотека для разработки веб-приложений. В том числе для интерактивных визуализаций и мини-дэшей.

Хороший дизайн и даже их дизайн система в открытом доступе!

Примеры приложений:
- prettymap
- генератор твитов
- showflake health

Очень напоминает shiny 💫

Украл отсюда

Читать полностью…

Daniilak — Канал

Статистика цен на недвижимость на основе всех объявлений недвижимости + в разрезе регионов

Потыкать можно тут


Будут лайки, доделаю до текущей даты

Читать полностью…

Daniilak — Канал

В России впервые оштрафовали за воровство идеи для рилса. Блогер по теме недвижимости пожаловался в суд на риелтора, который нагло украл его идею для видео.

Суд принял решение оштрафовать плагиатора на 300 тысяч рублей.
Теперь нужно будет придумывать свои идеи самостоятельно

Юристы: о, это что? Новый заработок?

Читать полностью…

Daniilak — Канал

Когда работаешь на удаленке

Читать полностью…

Daniilak — Канал

Наушники с возможностью съема данных электрической активности мозга (ЭЭГ)
https://neiry.ru/

Берем, отслеживаем во время решения задачек с leetcode и замеряем стату

Читать полностью…

Daniilak — Канал

Стартап из Индии Swaayatt Robots делает беспилотник для местных дорог.

Им приходится работать с коровами на дорогах, машинами на встречке, мотороллерами и тук-туками, которые пытаются попасть под колёса, полным отсутствием разметки и знаков (да и дорог тоже).

Это вам не по идеальным улицам Калифорнии тестировать беспилотник.

Читать полностью…

Daniilak — Канал

tinkoff-research.tass.ru

Читать полностью…

Daniilak — Канал

Запустил Ламу в фоне на компьютере и забыл. Теперь делаю alt-tab, когда нужно проверить или сократить любой текст, задать вопрос, помочь в формулировке, сделать выжимку.

По качеству выше чем бесплатные версии Claude, Gemini, GPT.

Бесплатно, работает локально на любой пароварке, требует 4.5GB памяти, не нужен интернет и никуда не отправляет ваши данные.

Установка занимает 2 минуты, не нужно даже консоль открывать: https://lmstudio.ai

Читать полностью…

Daniilak — Канал

1) Берем такой датасет https://github.com/AceLewis/my_first_calculator.py/blob/master/my_first_calculator.py#L20822
2) Обучаем
3) Получаем готовый калькулятор

Читать полностью…

Daniilak — Канал

Набор дата сайнтиста в стартапе по-британски

1. Firestore - NoSQL бд, чтобы хранить целиком жсоны и строить дата пайплайны поверх onCreate/onUpdate

2. Typescript - какая разница, на каком языке прогать? А тут зато js команда поймет, что ты делаешь

3. Firebase Cloud Functions - ETL весьма может быть и на серверлесс

4. ChatGPT, Gemini, Claude - вместо тысячи NLP, NER и парсеров

5. Crunchbase, Pitchbook, Apollo - базы с ~Series A стартапами

6. Cursor.sh + claude - самый мощный копайлот тудэй

Другие наборы из серии:
- дамская сумочка стартаперши
- мобильный сайд-хаслер

Читать полностью…

Daniilak — Канал

В Google Earth по годам

Читать полностью…

Daniilak — Канал

Фейковые банковские приложения в App Store обошли официальные приложения по доступности!

Читать полностью…

Daniilak — Канал

Дата-журналистика в РФ мега-страдает. Ни тебе датасетов, ни других нормальных пруфов. У кого-то внезапно из одного результата в статье появляется совершенно другой результат
А где-то вообще не умеют складывать 2 и 2

Читать полностью…

Daniilak — Канал

смартфон способен мерить глюкозу по слюне с микромолярной (а теоретически с наномолярной!) точностью

Создан маленький адаптер, который надевается сверху на смартфон в проекции магнетометра встроенного в телефон компаса. Именно компас будет мерить глюкозу, а ещё pH, влажность и температуру и многое другое!

Как
?

Устройство очень простое. (Рис. А) - состоит из зажима, гидрогелевого датчика и крепежа с лункой для анализируемой жидкости. (B) - пример со смартфоном Motorola. (С) - устройство датчика. Это Т-образный (чтобы не смещался) гидрогель, где поперечина и нижний слой инертный, а верхний (желтым) - гидрогель, изменяющий размеры в ответ на добавление аналита. Под ним ближе всего к проекции магнитометра смартфона в гидрогеле добавлены частицы неодим-железо-бор (Nd2Fe14B), частицы покрыты кремнеземом для предотвращения коррозии.

Когда верхний слой гидрогеля реагирует (меняет длину в зависимости от концентрации глюкозы), пластинка загибается (D), расстояние между магнитом и смартфоном увеличивается, магнитометр сообщает телефону об изменении магнитного поля. Нижний рисунок (E) это кадры видео из статьи в Nature.
ВСЁ.

Не нужна электроника, дорогие реактивы, даже кровь не требуется. Такая точность позволяет мерить глюкозу по слюне

Платформа адаптируется к многочисленным измеряемым веществам, открывая путь к портативному и недорогому определению нескольких аналитов или биомаркеров.

Стырил у @newbioethics

Читать полностью…

Daniilak — Канал

👀 Aeonium-v1-BaseWeb-1B

Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab

HuggingFace
@hikonon

Читать полностью…

Daniilak — Канал

Фиксирую еще одну идею по реализации библиотеки легковесного мониторинга сервера

Читать полностью…

Daniilak — Канал

Практически 6 тысяч публичных обращений опубликовано
/channel/cheb_problems
Статистика обращений с января по март тут начиная с этого сообщения

Читать полностью…

Daniilak — Канал

Начал писать аналог этой библиотеки, под капотом которой будет FastAPI

Читать полностью…

Daniilak — Канал

Увидел какой-то монстр-смартфон Unihertz Tank 3 pro
Нравятся подобные
В телефоне:
- 23 800 миллиАмпер
- 18 Гб ОЗУ
- 512 Гб памяти
- Мега-яркий фонарик
- Проектор, 100 люмен, 120 Гц
- экран 120 Гц
- ещё куча всего, лень писать
обзорчик тык

Читать полностью…

Daniilak — Канал

Microsoft впервые с 2018 года пополнила исходники MS-DOS: в открытый доступ выложены полные исходники MS-DOS 4.0

Читать полностью…

Daniilak — Канал

Moderna, крупная фарма компания, утверждает что 100% их лигал команды плотно сидит на GPT, они разработали 400+ внутренних GPTs для автоматизации работы, используют для обработки данных для дозирования лекарств. Понятно, что этот ролик скорее рекламный ролик OpenAI.

Читать полностью…

Daniilak — Канал

Возникла идея запарсить сообщения телеграм чатов у районов/домов/микрорайонов, насколько оно полезно?

Читать полностью…

Daniilak — Канал

Берём
https://store.steampowered.com/app/1363080/Manor_Lords

Обзорчики тык, тык и тык

Читать полностью…

Daniilak — Канал

Корейцы из soy.lab жгут, конечно.
Пора пересаживаться в ComfyUI

Читать полностью…

Daniilak — Канал

Опубликован новый пример дизайна ML системы по шаблону Reliable ML
Пополняем базу примеров хороших дизайн-документов

Сегодня добавили новый пример дизайн-документа - проект от Симулятора ML. Даниил Картушов и команда представляют pet project по разработке чат-бота для поиска ответов на разные запросы в телеграм-каналах.

Опубликованный дизайн-док - пример хорошо проработанного и не перегруженного лишней информацией документа. Для более глубокого погружения в потребности пользователей в части про бизнес-требования команда проекта добавила User Story Map и Customer Journey Map. Это, кстати, может стать отличным дополнением к шаблону дизайн-документов.

Огромное спасибо авторам документа за вклад в развитие ML-дизайна.

Шаблон дизайн-документа ML-систем от Reliable ML
Материалы по работе с дизайн-доком
Как написать док вместе с Reliable ML

Stay tuned!

Ваш @Reliable ML

#business #tech #ml_system_design

Читать полностью…

Daniilak — Канал

Ну что же, я сдал технику и свой бейдж, подписал заявление на увольнение. Я больше официально не яндексоид. Давайте подведём итоги моих 15 месяцев работы в Яндексе.
Скажу большое спасибо людям, работавшим со мной, особенно Антону (моему лиду из геопоиска, ему особенно, он суперняшка и крутой) и Филиппу (моему ментору на время стажировки в такси), я очень много спамил их вопросами, спасибо за ответы и за синки в телеграме в 2 часа ночи.
Теперь о преимуществах работы:
1) Бенефиты - пушка. Можно почти не тратить деньги на еду, так как бейдж можно тратить на доставку продуктов в офис или в ближайших продуктовых (в спаре, если быть точным). Ну и командировка за счёт яндекса в СПб, просто собраться командой, тоже очень круто
2) Люди, с которыми вы работаете вместе, обычно очень мощные гигачады, и хорошие люди в целом.
3) Корпоративы это новый уровень. Я помню, как поражался корпорату в хуавее в серебряном бору, ну вот яндекс это на много голов выше. Как вы помните, там даже был робот, разносящий пиво.
5) То, что ты делаешь, влияет на продукты, которыми сам пользуешься. Я и до работы активно пользовался всем яндексовым, приятно было когда фиксишь что-то в картах и потом видишь, как стало лучше.
6) Хорошие зарплаты. Реально на уровне рынка, как мне кажется.
И о недостатках, в их случае идёт чисто мой субъективный опыт:
1) Деление ролей в продукте не по навыкам, а по зонам отвественности. С одной стороны, это логично, так как позволяет меньше обращаться к членам других команд. С другой же стороны, работая типо млщиком, у тебя прилетает ещё много тасок, связанных с какими-то минорными багами, зачастую не связанными с ML, при этом они могут забрать много времени на их решение.
2) Внутренние сервисы. Большая часть вещей, которые вы бы сделали на обычной работе, уже завернута и автоматизирована, соответственно вместо написания кода он почти всегда пишется в UI/с помощью проприетарных языков. С одной стороны, это огромный плюс, так как позволяет почти не думать про работу с большими данными, про то, как раскидать данные по шардам, и в целом о нужных ресурсах. С другой стороны, внутренние сервисы не всегда хорошо задокументированы, и новые знания зачастую получаются либо методом тыка, либо через извлечение знаний из сокомандников.
3) Развитие. Тут тоже пункт неоднозначный. С одной стороны, ты действительно узнаешь много новых подходов в ML, видишь как строить большие системы и сильно прокачиваешься с точки зрения system design. Также можно проходить внутренние курсы, и за счёт яндекса проходить платные образовательные курсы партнёров. За это большой респект. Но... Смотрим в пункт 2. В роли млщика, ты не трогаешь почти никакие технологии извне, соответственно, основную часть времени вы учитесь не применять какой-то новый технологический стэк, а учитесь применять проприетарные яндексовые сервисы, и с точки зрения стэка ваша прокачка очень маленькая. Вероятно, это проблема всего бигтеха, но, как мне показалось, именно яндекс страдает от этого больше всего.
Как итог: я совершенно не жалею, что работал здесь. Мой уход в основном мотивирован тем, что нужно закрывать физтех, что вместе с фултайм работой на втором курсе и сайд-активностями типо Сириуса и биотурнира сделать проблематично. Я советую вам, будучи млщиком, поработать в яндексе, если вы либо начинающий, так как у яндекса лучшие бенефиты среди других компаний и вы очень сильно забуститесь с точки зрения sd, либо если вы уже взрослый и полностью состоявшийся млщик, который хочет спокойно делать свою работу и получать за неё деньги. В целом, хоть раз советую поработать всем.
Все выводы сделаны на основании моего личного опыта и опыта моих знакомых, скорее всего, в других ML-подразделениях все иначе.
Всем добра и удачи в построении карьеры.

Читать полностью…

Daniilak — Канал

Большинство объявлений о продаже недвижимости на популярных площадках, таких как Avito, ЦИАН и других, являются фейковыми. Создание таких объявлений обусловлено потребностью в лидогенерации для риелторов. При этом, данные сливаются сразу тысячам риелторам, а иногда и больше. Когда пользователь звонит или оставляет сообщение на сайте, его контактные данные моментально распространяются среди огромного числа риелторов

Дата публикации объявления не всегда отражает реальность. Фейковые объявления могут быть "обновлены" и выглядеть как новые, вводя потенциальных покупателей в заблуждение. При высоком спросе, эти объекты не могут находиться в статусе "в поиске" долгое время

Более того, существуют базы данных объектов недвижимости и контактов собственников за последние 10 лет, которые активно используются для холодного обзвона в поисках актуальных объявлений. Риелторы активно используют эти базы данных, чтобы находить актуальные объявления и предложения, упрощая процесс поиска потенциальных клиентов

Примеры объявлений, которые опубликованы как "сегодня":
2-к. квартира, 54 м², 12/16 эт. 90 000 ₽ в месяц — было опубликовано 12 июля 2023 года
— 1-к. квартира, 35 м², 1/5 эт.15 000 ₽ в месяц — было опубликовано 27 ноября 2023 года
1-к. квартира, 39 м², 10/10 эт. 30 000 ₽ в месяц — было опубликовано 23 августа 2022 года
3-к. квартира, 60 м², 7/12 эт. 40 000 ₽ в месяц — было опубликовано 4 июля 2022 года
1-к. квартира, 38 м², 2/16 эт. 19 000 ₽ в месяц — было опубликовано 9 октября 2023 года

Добивочка: риелтором может стать кто угодно, достаточно оплатить доступ в какую-нибудь базу данных, спасибо политике государства, которое поощряет пробив данных

Читать полностью…

Daniilak — Канал

Когда приходишь в стартап, а там джуны

Читать полностью…

Daniilak — Канал

В Китае набирают популярность коворкинги, в которых можно готовить, смотреть телевизор и даже работать. Местным уже полюбился такой формат времяпровождения, особенно зашло интровертам.

Работает все просто: вы платите фиксированную стоимость по времени и получаете практически бесконечное количество ингредиентов. Для развлечения стоит телевизор с подключенным стриминговым сервисом

Читать полностью…
Subscribe to a channel