snakers4 | Technologies

Telegram-канал snakers4 - Spark in me

2278

Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.

Subscribe to a channel

Spark in me

Когда на рынке случилась краткая паника и все кинулись снимать валюту, показательными мне показались два случая:

- Тиньк - придумывали искусственные способы не выдавать валюту и кормить завтраками (мониторьте банкоматы по всему городу сами), звали в "офис" для многочасовых сидений в очереди в крошечной приемной, набитой битком;

- Сбер - пришел в отделение, говорят прямым текстом валюта будет завтра - давайте запишитесь ко времени, в это время просто придете в кассу и всё, вам отложим резерв;

Feel the difference. Комментировать не буду.

Читать полностью…

Spark in me

Тут попросили показать, как выглядит блокировка Russia Today в Европе, почему мы не можем (не всегда можем) доносить свою позицию.

Вот так выглядит

Читать полностью…

Spark in me

Also, why are there 2 official PyTorch forums now?

discuss.pytorch.org and dev-discuss.pytorch.org

Читать полностью…

Spark in me

Более 5 000 000 геймеров по всему миру уже поиграли в Atomic Heart. Присоединяйтесь и вы! 🔥

Читать полностью…

Spark in me

My First Test With Torch 2.0

So I tried running a small model and a large model.

First of all it failed on an STFT module with a plain nn.Module model. No problem, let's try a JIT model, though it is not described in the tutorial.

On AMD CPU - it works, but there absolutely no difference. And the first run does NOT take ages. Then I remembered that AMD was not listed as optimized backend. Looks like it just does not do anything.

Then I tried an Ampere GPU - and still no difference and no "very long first" run. I tried a dynamic shape with real random inputs - and got some cryptic errors.

No conclusions yet. Need more testing on other models / hardware.

Читать полностью…

Spark in me

Три наблюдения про CPM на YouTube

Ютуб это 40% времени россиянина в интернете после всех событий. Отсюда понятно, почему кабели не режут, но непонятно, почему VK и Рутуб все ещё нигде, причем согласно блоггерам.

Гипотеза - потому что нигде кроме Ютуба не было реально работающей партнёрки, несмотря на оголтелый техно-, лейбло-, повестко- и цензо- фашизм и adpocalypse с беспочвенными и шадоу банами (готовились?).

Как измерить работу и направленность этой партнерки? Если все эти люди не врут (что не факт), наши развлекательные ютуберы жаловались, что CPM у них был в районе 0.1 доллара и поэтому все ломанулись на патреоны с бусти у нас, и из-за беспричинных удалений каналов у них (я видел аж три таких случая среди своих буржуйских каналов до войны). То есть 10 центов за 1000 просмотров. В США вроде как нормальный CPM даже после adpocalypse все равно выше доллара.

Считайте сами, но продакшн бюджеты трешака типа Mr Beast и загоны многих селебрити стримеров и влоггеров не на пустом месте же возникли.

Если вспомнить, что у Юрия подоляки до войны было 100-200к просмотров на видео максимум, то его откровения про заработок на Ютубе в конце 21 года приводят меня в диапазон 0.5 - 1 доллар.

Третья точка - после войны Ютуб стал безумно пушить украинские каналы, в частности шортсы. С нашим ботом я прямо видел почти одинаковые видосы с просмотрами отличающимися на 3 порядка, и взлетали именно в основном украинские. И что думаете? CPM там совсем крошечный, там 0.01 или 0.001.

В принципе логично, что какие рекламодатели (когда их нет он равен нулю), такой и CPM, но тут или Юрий Подоляка приврал, или я неправильно экстраполировал просмотры его канала до войны, или политота на нашу аудиторию реально была фокусом и получала преференции на Ютубе для войны. Точнее сказать не могу, но вот вам три краевые точки.

Читать полностью…

Spark in me

https://youtu.be/spUNpyF58BY

Читать полностью…

Spark in me

https://youtu.be/SHTOI0KtZnU

Читать полностью…

Spark in me

When looking at WorldBank, WEF and some consulting company reports and white-papers I always wondered if anybody reads them.

Here is a possible answer - No
https://img.washingtonpost.com/blogs/wonkblog/files/2014/05/pdfs.jpg

They do not understand that making content more reachable and SEO-friendly helps long-term. But SEO-friendly websites are usually full of bullshit.

#internet

Читать полностью…

Spark in me

If after updating your Ubuntu packages your dockerized application suddenly fails to see the GPU(s), then you should migrate to nvidia-docker-2.

Links:
https://github.com/nvidia/nvidia-docker/wiki/Installation-(version-2.0)

Do not forget to read section Removing nvidia-docker 1.0
In my case all was solved simply by copy-pasting their commands:

# https://github.com/nvidia/nvidia-docker/wiki/Installation-(version-2.0)
# migrate to NVIDIA docker 2
docker volume ls -q -f driver=nvidia-docker | xargs -r -I{} -n1 docker ps -q -a -f volume={} | xargs -r docker rm -f
sudo apt-get purge nvidia-docker

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update

sudo apt-get install nvidia-docker2
sudo pkill -SIGHUP dockerd

# testing
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
#linux

Читать полностью…

Spark in me

Kaggle stats for 2017
- http://blog.kaggle.com/2018/01/22/reviewing-2017-and-previewing-2018/

I literally choked when I read this:
- $1.5MM competition with TSA to identify threat objects from body scans
- this was a competition where only US citizens were granted prizes => 10 stacked resnets won
- $1.2MM competition with Zillow to improve the Zestimate home valuation algorithm - this has 2 stages, first stage prize was US$50k
- $1MM competition with NIH and Booz Allen to diagnose lung cancer from CT scans - this one was really great - but I did not know much back then, it was early 2017 =(

Also I am not a great data scientist per se, but just comparing the amount of cringe and shitty train/test splits - DoubleData is much better than Kaggle in terms of data SCIENCE.

#data_science

Читать полностью…

Spark in me

A couple more articles about idiomatic pandas
- https://tomaugspurger.github.io/modern-4-performance
- https://tomaugspurger.github.io/modern-5-tidy

What was useful for me
- Faster reading of the dataframes
- Stack, unstack
- Melt

#data_science
#pandas

Читать полностью…

Spark in me

A new interesting competition on topcoder
- https://goo.gl/ix7xpx

At least at first glance)

#data_science
#deep_learning

Читать полностью…

Spark in me

So following out tweetsender (https://goo.gl/uqGRRA) (which has some bugs still) github.com/borsik helped us to create high-level telegram to twitter bot:

- Code https://github.com/snakers4/telegram2twitter
- Twitter channel https://twitter.com/AlexanderVeysov

Effectively this posts our channel to Twitter. Please star/use code if you need it.

#data_science

Читать полностью…

Spark in me

Kaggle launching ... MS/CNN/DS education course
- https://twitter.com/fchollet/status/955538373992591360
- https://www.kaggle.com/learn/overview

Once again syllabus looks ok, but I would not really have time now to analyze it.
Please pm me if you have watched it.
If you are just starting - Andrew Ng would be a safer bet.

#data_science
#course

Читать полностью…

Spark in me

Чуть ли не вся пресса сейчас нам рассказывает, как вовремя мы начали наращивать независимость от западных финансовых рынков, и как на нас практически не повлияет банкротство SVB и его последователей. А "Тинькофф" тем временем усложняет закрытие инвестиционных счетов и извлечение с них своих (в смысле, наших) кровных. Тот самый банк, который так гордился отсутствием отделений, теперь требует приехать в отделение, чтобы закрыть ИИС.

https://roem.ru/27-03-2023/296973/teper-zakryt-iis/

Читать полностью…

Spark in me

Свобода слова в телеграме, my ass

Читать полностью…

Spark in me

My experience with PyTorch 2.0 so far:

[1] - packaging?
[2] - compilation errors

We will test other models as well.

Читать полностью…

Spark in me

Главный вопрос - какой % этих игроков поиграл бесплатно на рутрекере, а какой % условно бесплатно на гейм-пассе.

Читать полностью…

Spark in me

⚡️Вакансия, Junior+, Speech, ML от Силеро

Актуально до 30.07.2023

📌 Заниматься надо будет в первую очередь синтезом речи и вспомогательными к нему задачами

🗜 Краткая выжимка

Junior+, Speech, ML, Python
Вилка 50-100к рублей
Только основное место работы
Только выпускники или студенты последнего курса
Удаленка по ssh, встречаемся 1 раз в неделю оффлайн (Москва)
Не рассматриваем сочетание с аспирантурой / работой в лаборатории / и т.п.

🛠 Что реально надо делать

Разработка на питоне
Работа с данными, чистка вилкой, сбор данных
Обучение нейросетей и разработка ML алгоритмов

📚 Идеальный кандидат

Python + PyTorch
Есть понятные пет-проекты или опыт
Курсы это плюс, но они не считаются за опыт / пет-проекты
Прошарен(а) в экосистеме Linux, не боишься работать в консоли
Прочитал(а) seminal papers в какой-то области (CV, NLP, ASR, TTS), имеешь свое аргументированное мнение на эту тему

🔗 Почитать про нас

Наши публикации на Хабре
Публикации на английском языке
Полный список публикаций
Бот с нашим синтезом в Телеграме (2м пользователей)

✉️ Присылайте ваш пет проект / опыт с кратким CV сюда @silero_job

Читать полностью…

Spark in me

What is amazing about tf and CUDA / CUDNN drivers - that documentation is not updated when newer versions are released - and they are always changing library file names which is annoying af.

Arguably Google and Nvidia are the richest companies from the whole DS stack - but their documentations is the worst of all the richest companies.

So if you are updating your docker container and libraries suddenly start producing weird errors - look for compatibility guidelines like this one - https://goo.gl/cF3Swy

Of course docs and release note will have no mention of this. Because Google.

Also docker hub contains all the versions of CUDA+CUDDNN packaged, which helps
- https://hub.docker.com/r/nvidia/cuda/

PS
Pytorch has all this embedded into their official repo list
- http://prntscr.com/i6nfsl

Google, why do you make us suffer?

#deep_learning

Читать полностью…

Spark in me

Best link about convolution arithmetic
-https://github.com/vdumoulin/conv_arithmetic/blob/master/README.md

#deep_learning

Читать полностью…

Spark in me

New dimensionality reduction technique - UMAP
- https://github.com/lmcinnes/umap

I will write more as I test it / learn more.

Works well with HDBSCAN and CNNs I guess
- https://goo.gl/9hYAXL

Usage examples
- https://goo.gl/QuYWJF

#data_science

Читать полностью…

Spark in me

Playing with HDBSCAN in practice.

What I learned. If you have a non-sparse feature vector, i.e. 1000+ - 5000+ dimensions, then you should use PCA before using HDBSCAN.

Their scalability how-to (https://goo.gl/iR9HQu) does all the benchmarks on 10 dimension vectors. In practice anything above 50-100 dimensions faced some kind of bottle-neck - the memory consumption was low, the CPU consumption was also low - but nothing pretty much happened for hours.

Also if you want to have large clusters and set (https://goo.gl/eikRy4) min_samples value to >> 100, then there will me a memory explosion due to some kind of caching issue. So if your cluster size should be 5000+, then you are compelled to use min_samples ~ 100.

#data_science

Читать полностью…

Spark in me

Last post should have contained "DrivenData". I stand corrected.

Читать полностью…

Spark in me

Key / classic CNN papers

ShuffleNet

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
- a small resnet-like network that uses pointwise separable covolutions and depthwise separable convolutions and a shuffle layer
- authors - Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun
- paper - http://arxiv.org/abs/1707.01083
- key
-- on ARM devices 13x faster that Alexnet
-- lower top1 error than MobileNet at 40 MFLOPs
- comparable to small versions of NASNET
- 2 ideas
-- use depth-wise separable convolutions for 3x3 and 1x1 convolutions
-- use shuffle layer (flatten, transpose, resize back to original dimension)
- illustrations
-- shuffle idea - https://goo.gl/zhTV4E
-- building blocks - https://goo.gl/kok7bL
-- vs. key architectures https://goo.gl/4usdM9
-- vs. MobileNet https://goo.gl/rGoPWX
-- actual inference on mobile device - https://goo.gl/X6vbnd

#deep_learning
#data_science

Читать полностью…

Spark in me

For new (!) people on the channel:

- This channel is a practicioner's channel on the following topics: internet, data science, math, deep learning, philosophy
- Focus is on data science
- Don't get your opinion in a twist if your opinion differs. You are welcome to contact me via telegram @snakers41 and email - aveysov@gmail.com
- No bs and ads

Give us a rating:
- /channel/tchannelsbot?start=snakers4

Donations
- Buy me a coffee https://buymeacoff.ee/8oneCIN
- Direct donations - https://goo.gl/kvsovi - 5011673505 (paste this agreement number)
- Yandex - https://goo.gl/zveIOr

Our website
- http://spark-in.me
Our chat
- https://goo.gl/IS6Kzz
DS courses review
- http://goo.gl/5VGU5A
- https://spark-in.me/post/learn-data-science
GAN papers review
- https://spark-in.me/post/gan-paper-review

Читать полностью…

Spark in me

Internet Digest
- Ben Evans - https://goo.gl/TPyLoD
- Youtube tightening moderation screws for small channels - https://goo.gl/SHpC2h
- Camera strapped to plane - https://vimeo.com/240106846
- Guardian online getting profitable - https://goo.gl/CDpNFb
- Amazon testing a shop wo cashiers - you just take goods and walk out - https://goo.gl/hvh63Z
- Drone saving a drowning person - https://goo.gl/RdGYDx

ГЫ
- А это отлично зайдет русским ко-ко-ко разрабам и культуре "обсирания всего", которая царит в нашем IT - https://goo.gl/S5poqv


#internet
#digest

Читать полностью…

Spark in me

Pytorch in a year review
http://pytorch.org/2018/01/19/a-year-in.html

#deep_learning

Читать полностью…

Spark in me

Tested bcolz on a simple premise - how fast can it process 1M (1,3476) feature vectors from CNN. Also looks like it provides 2-3x compression straight out of the box. Nice.

Blazingly fast!
- https://goo.gl/z1MKmH

#data_science

Читать полностью…
Subscribe to a channel