2278
Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.
Когда на рынке случилась краткая паника и все кинулись снимать валюту, показательными мне показались два случая:
- Тиньк - придумывали искусственные способы не выдавать валюту и кормить завтраками (мониторьте банкоматы по всему городу сами), звали в "офис" для многочасовых сидений в очереди в крошечной приемной, набитой битком;
- Сбер - пришел в отделение, говорят прямым текстом валюта будет завтра - давайте запишитесь ко времени, в это время просто придете в кассу и всё, вам отложим резерв;
Feel the difference. Комментировать не буду.
Тут попросили показать, как выглядит блокировка Russia Today в Европе, почему мы не можем (не всегда можем) доносить свою позицию.
Вот так выглядит
Also, why are there 2 official PyTorch forums now?
discuss.pytorch.org and dev-discuss.pytorch.org
Более 5 000 000 геймеров по всему миру уже поиграли в Atomic Heart. Присоединяйтесь и вы! 🔥
Читать полностью…
My First Test With Torch 2.0
So I tried running a small model and a large model.
First of all it failed on an STFT module with a plain nn.Module model. No problem, let's try a JIT model, though it is not described in the tutorial.
On AMD CPU - it works, but there absolutely no difference. And the first run does NOT take ages. Then I remembered that AMD was not listed as optimized backend. Looks like it just does not do anything.
Then I tried an Ampere GPU - and still no difference and no "very long first" run. I tried a dynamic shape with real random inputs - and got some cryptic errors.
No conclusions yet. Need more testing on other models / hardware.
Три наблюдения про CPM на YouTube
Ютуб это 40% времени россиянина в интернете после всех событий. Отсюда понятно, почему кабели не режут, но непонятно, почему VK и Рутуб все ещё нигде, причем согласно блоггерам.
Гипотеза - потому что нигде кроме Ютуба не было реально работающей партнёрки, несмотря на оголтелый техно-, лейбло-, повестко- и цензо- фашизм и adpocalypse с беспочвенными и шадоу банами (готовились?).
Как измерить работу и направленность этой партнерки? Если все эти люди не врут (что не факт), наши развлекательные ютуберы жаловались, что CPM у них был в районе 0.1 доллара и поэтому все ломанулись на патреоны с бусти у нас, и из-за беспричинных удалений каналов у них (я видел аж три таких случая среди своих буржуйских каналов до войны). То есть 10 центов за 1000 просмотров. В США вроде как нормальный CPM даже после adpocalypse все равно выше доллара.
Считайте сами, но продакшн бюджеты трешака типа Mr Beast и загоны многих селебрити стримеров и влоггеров не на пустом месте же возникли.
Если вспомнить, что у Юрия подоляки до войны было 100-200к просмотров на видео максимум, то его откровения про заработок на Ютубе в конце 21 года приводят меня в диапазон 0.5 - 1 доллар.
Третья точка - после войны Ютуб стал безумно пушить украинские каналы, в частности шортсы. С нашим ботом я прямо видел почти одинаковые видосы с просмотрами отличающимися на 3 порядка, и взлетали именно в основном украинские. И что думаете? CPM там совсем крошечный, там 0.01 или 0.001.
В принципе логично, что какие рекламодатели (когда их нет он равен нулю), такой и CPM, но тут или Юрий Подоляка приврал, или я неправильно экстраполировал просмотры его канала до войны, или политота на нашу аудиторию реально была фокусом и получала преференции на Ютубе для войны. Точнее сказать не могу, но вот вам три краевые точки.
When looking at WorldBank, WEF and some consulting company reports and white-papers I always wondered if anybody reads them.
Here is a possible answer - No
https://img.washingtonpost.com/blogs/wonkblog/files/2014/05/pdfs.jpg
They do not understand that making content more reachable and SEO-friendly helps long-term. But SEO-friendly websites are usually full of bullshit.
#internet
If after updating your Ubuntu packages your dockerized application suddenly fails to see the GPU(s), then you should migrate to nvidia-docker-2.
Links:
https://github.com/nvidia/nvidia-docker/wiki/Installation-(version-2.0)
Do not forget to read section Removing nvidia-docker 1.0
In my case all was solved simply by copy-pasting their commands:
# https://github.com/nvidia/nvidia-docker/wiki/Installation-(version-2.0)
# migrate to NVIDIA docker 2
docker volume ls -q -f driver=nvidia-docker | xargs -r -I{} -n1 docker ps -q -a -f volume={} | xargs -r docker rm -f
sudo apt-get purge nvidia-docker
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
sudo apt-get install nvidia-docker2
sudo pkill -SIGHUP dockerd
# testing
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
#linux
Kaggle stats for 2017
- http://blog.kaggle.com/2018/01/22/reviewing-2017-and-previewing-2018/
I literally choked when I read this:
- $1.5MM competition with TSA to identify threat objects from body scans
- this was a competition where only US citizens were granted prizes => 10 stacked resnets won
- $1.2MM competition with Zillow to improve the Zestimate home valuation algorithm - this has 2 stages, first stage prize was US$50k
- $1MM competition with NIH and Booz Allen to diagnose lung cancer from CT scans - this one was really great - but I did not know much back then, it was early 2017 =(
Also I am not a great data scientist per se, but just comparing the amount of cringe and shitty train/test splits - DoubleData is much better than Kaggle in terms of data SCIENCE.
#data_science
A couple more articles about idiomatic pandas
- https://tomaugspurger.github.io/modern-4-performance
- https://tomaugspurger.github.io/modern-5-tidy
What was useful for me
- Faster reading of the dataframes
- Stack, unstack
- Melt
#data_science
#pandas
A new interesting competition on topcoder
- https://goo.gl/ix7xpx
At least at first glance)
#data_science
#deep_learning
So following out tweetsender (https://goo.gl/uqGRRA) (which has some bugs still) github.com/borsik helped us to create high-level telegram to twitter bot:
- Code https://github.com/snakers4/telegram2twitter
- Twitter channel https://twitter.com/AlexanderVeysov
Effectively this posts our channel to Twitter. Please star/use code if you need it.
#data_science
Kaggle launching ... MS/CNN/DS education course
- https://twitter.com/fchollet/status/955538373992591360
- https://www.kaggle.com/learn/overview
Once again syllabus looks ok, but I would not really have time now to analyze it.
Please pm me if you have watched it.
If you are just starting - Andrew Ng would be a safer bet.
#data_science
#course
Чуть ли не вся пресса сейчас нам рассказывает, как вовремя мы начали наращивать независимость от западных финансовых рынков, и как на нас практически не повлияет банкротство SVB и его последователей. А "Тинькофф" тем временем усложняет закрытие инвестиционных счетов и извлечение с них своих (в смысле, наших) кровных. Тот самый банк, который так гордился отсутствием отделений, теперь требует приехать в отделение, чтобы закрыть ИИС.
https://roem.ru/27-03-2023/296973/teper-zakryt-iis/
My experience with PyTorch 2.0 so far:
[1] - packaging?
[2] - compilation errors
We will test other models as well.
Главный вопрос - какой % этих игроков поиграл бесплатно на рутрекере, а какой % условно бесплатно на гейм-пассе.
Читать полностью…
⚡️Вакансия, Junior+, Speech, ML от Силеро
Актуально до 30.07.2023
📌 Заниматься надо будет в первую очередь синтезом речи и вспомогательными к нему задачами
🗜 Краткая выжимка
Junior+, Speech, ML, Python
Вилка 50-100к рублей
Только основное место работы
Только выпускники или студенты последнего курса
Удаленка по ssh, встречаемся 1 раз в неделю оффлайн (Москва)
Не рассматриваем сочетание с аспирантурой / работой в лаборатории / и т.п.
🛠 Что реально надо делать
Разработка на питоне
Работа с данными, чистка вилкой, сбор данных
Обучение нейросетей и разработка ML алгоритмов
📚 Идеальный кандидат
Python + PyTorch
Есть понятные пет-проекты или опыт
Курсы это плюс, но они не считаются за опыт / пет-проекты
Прошарен(а) в экосистеме Linux, не боишься работать в консоли
Прочитал(а) seminal papers в какой-то области (CV, NLP, ASR, TTS), имеешь свое аргументированное мнение на эту тему
🔗 Почитать про нас
Наши публикации на Хабре
Публикации на английском языке
Полный список публикаций
Бот с нашим синтезом в Телеграме (2м пользователей)
✉️ Присылайте ваш пет проект / опыт с кратким CV сюда @silero_job
What is amazing about tf and CUDA / CUDNN drivers - that documentation is not updated when newer versions are released - and they are always changing library file names which is annoying af.
Arguably Google and Nvidia are the richest companies from the whole DS stack - but their documentations is the worst of all the richest companies.
So if you are updating your docker container and libraries suddenly start producing weird errors - look for compatibility guidelines like this one - https://goo.gl/cF3Swy
Of course docs and release note will have no mention of this. Because Google.
Also docker hub contains all the versions of CUDA+CUDDNN packaged, which helps
- https://hub.docker.com/r/nvidia/cuda/
PS
Pytorch has all this embedded into their official repo list
- http://prntscr.com/i6nfsl
Google, why do you make us suffer?
#deep_learning
Best link about convolution arithmetic
-https://github.com/vdumoulin/conv_arithmetic/blob/master/README.md
#deep_learning
New dimensionality reduction technique - UMAP
- https://github.com/lmcinnes/umap
I will write more as I test it / learn more.
Works well with HDBSCAN and CNNs I guess
- https://goo.gl/9hYAXL
Usage examples
- https://goo.gl/QuYWJF
#data_science
Playing with HDBSCAN in practice.
What I learned. If you have a non-sparse feature vector, i.e. 1000+ - 5000+ dimensions, then you should use PCA before using HDBSCAN.
Their scalability how-to (https://goo.gl/iR9HQu) does all the benchmarks on 10 dimension vectors. In practice anything above 50-100 dimensions faced some kind of bottle-neck - the memory consumption was low, the CPU consumption was also low - but nothing pretty much happened for hours.
Also if you want to have large clusters and set (https://goo.gl/eikRy4) min_samples value to >> 100, then there will me a memory explosion due to some kind of caching issue. So if your cluster size should be 5000+, then you are compelled to use min_samples ~ 100.
#data_science
Last post should have contained "DrivenData". I stand corrected.
Читать полностью…
Key / classic CNN papers
ShuffleNet
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
- a small resnet-like network that uses pointwise separable covolutions and depthwise separable convolutions and a shuffle layer
- authors - Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun
- paper - http://arxiv.org/abs/1707.01083
- key
-- on ARM devices 13x faster that Alexnet
-- lower top1 error than MobileNet at 40 MFLOPs
- comparable to small versions of NASNET
- 2 ideas
-- use depth-wise separable convolutions for 3x3 and 1x1 convolutions
-- use shuffle layer (flatten, transpose, resize back to original dimension)
- illustrations
-- shuffle idea - https://goo.gl/zhTV4E
-- building blocks - https://goo.gl/kok7bL
-- vs. key architectures https://goo.gl/4usdM9
-- vs. MobileNet https://goo.gl/rGoPWX
-- actual inference on mobile device - https://goo.gl/X6vbnd
#deep_learning
#data_science
For new (!) people on the channel:
- This channel is a practicioner's channel on the following topics: internet, data science, math, deep learning, philosophy
- Focus is on data science
- Don't get your opinion in a twist if your opinion differs. You are welcome to contact me via telegram @snakers41 and email - aveysov@gmail.com
- No bs and ads
Give us a rating:
- /channel/tchannelsbot?start=snakers4
Donations
- Buy me a coffee https://buymeacoff.ee/8oneCIN
- Direct donations - https://goo.gl/kvsovi - 5011673505 (paste this agreement number)
- Yandex - https://goo.gl/zveIOr
Our website
- http://spark-in.me
Our chat
- https://goo.gl/IS6Kzz
DS courses review
- http://goo.gl/5VGU5A
- https://spark-in.me/post/learn-data-science
GAN papers review
- https://spark-in.me/post/gan-paper-review
Internet Digest
- Ben Evans - https://goo.gl/TPyLoD
- Youtube tightening moderation screws for small channels - https://goo.gl/SHpC2h
- Camera strapped to plane - https://vimeo.com/240106846
- Guardian online getting profitable - https://goo.gl/CDpNFb
- Amazon testing a shop wo cashiers - you just take goods and walk out - https://goo.gl/hvh63Z
- Drone saving a drowning person - https://goo.gl/RdGYDx
ГЫ
- А это отлично зайдет русским ко-ко-ко разрабам и культуре "обсирания всего", которая царит в нашем IT - https://goo.gl/S5poqv
#internet
#digest
Pytorch in a year review
http://pytorch.org/2018/01/19/a-year-in.html
#deep_learning
Tested bcolz on a simple premise - how fast can it process 1M (1,3476) feature vectors from CNN. Also looks like it provides 2-3x compression straight out of the box. Nice.
Blazingly fast!
- https://goo.gl/z1MKmH
#data_science