snakers4 | Technologies

Telegram-канал snakers4 - Spark in me

2278

Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.

Subscribe to a channel

Spark in me

Некоторое время назад обещал статью про наболевшее и родное - про поиск работы (ну и давно ничего не писал на сайте).

Вот
https://spark-in.me/post/job-panopticum-frustration

Велкам в комменты)

Читать полностью…

Spark in me

В общем решил поковырять непопулярный конкурс Nexar, чтобы узнать про архитектуру SSD (хотел еще на торче поиграться, но отказался от идеи пока).

Прочитал репозитории (эта хрень SSD оказалась дико замороченной) и решил попробовать скачать датасет из GTA / cityscapes / mapillary vistas (последние два требуют регистрации, лол), применить к ним юнет и потом сделать простые bbox-ы вокруг облаков высоких вероятностей. Лень двигатель прогресса, end-to-end модели рулят.

Будет интересно потом сравнить с SSD)
Пока датасеты качаются.

YOLO
v2 (тоже якобы sota для определения bbox-ов объектов на картинке)
- https://arxiv.org/pdf/1612.08242.pdf
- https://pjreddie.com/darknet/yolo/
- https://chatbotslife.com/small-u-net-for-vehicle-detection-9eec216f9fd6
- xslittlegrass/almost-real-time-vehicle-detection-using-yolo-da0f016b43de" rel="nofollow">https://medium.com/@xslittlegrass/almost-real-time-vehicle-detection-using-yolo-da0f016b43de
- https://github.com/experiencor/basic-yolo-keras/blob/master/Basic%20Yolo%20Keras.ipynb

SSD
(якобы sota для определения bbox-ов объектов на картинке)
- https://arxiv.org/abs/1512.02325
- https://github.com/pierluigiferrari/ssd_keras/blob/master/keras_ssd300.py
- https://github.com/rykov8/ssd_keras
- https://github.com/amdegroot/ssd.pytorch

DATASETS
- Города мира с семантической разметкой - https://www.mapillary.com/dataset/vistas?lat=10.260958582987826&lng=-2.6390057525255486&z=1.495610634969737
- Города из GTA - https://download.visinf.tu-darmstadt.de/data/from_games/
- качается медленно но верно, все в паблике
- https://www.getnexar.com/challenge-2/upload/ - сам конкурс, понятно почему он непопулярен - 3 сабмита и даже на старте скачивание файлов сделано убого - ссылка с s3 не успевает скачаться и начинается веселье
- Города Европы с семантической разметкой - https://www.cityscapes-dataset.com - просят регистрацию и дают датасет только если ваша компания или универ им понравятся


#data_science
#neural_nets

Читать полностью…

Spark in me

Интересное в мире интернета
- Ben Evans - https://goo.gl/fJrYZ3
-- Новинки Apple - https://goo.gl/AmbfZN (вроде как в том числе GPU с поддержкой Deep Learning inference)
-- Баги таргетинга - в рекламе Facebook можно таргетировать ненавистников евреев - https://goo.gl/vYMNLa
-- MAU мессенджера FB - 1.3bn - https://goo.gl/m74aC5
-- Вследствие наличия Uber рынок медальонов на такси в NY упал - https://goo.gl/VvWbTG
-- Реконструкция 3D лиц из фото (!) - http://www.cs.nott.ac.uk/~psxasj/3dme/
-- Внезапно исследование журнала The Economist про ... как матери в UK ругаются на форумах - https://goo.gl/XRWUC6


#digest
#internet

Читать полностью…

Spark in me

Если вы пишете аналитический отчет в виде markdown, то вот простой и относительно полный справочник разметки
- https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet#links

#data_science

Читать полностью…

Spark in me

Открылась пара на первый взгляд простых и очевидных конкурсов:
- Задача А тут - https://contest.sdsj.ru (без глубокого изучения задача Б потребует рекуррентных нейросетей, а они пока не находятся на уровне приемлемой точности)
- Соревнование тут - https://www.kaggle.com/c/cdiscount-image-classification-challenge

Первый имхо на факторизацию матриц / bag-of-words, второй на файн-тюнинг imagenet. Может кому зайдет)

#data_science

Читать полностью…

Spark in me

https://www.youtube.com/watch?v=_au3yw46lcg

Читать полностью…

Spark in me

Послушал / прочитал материалы к 8 (первый урок второй серии) уроку fast.ai.

Вот, что кажется интересным / полезным / применимым в ваккууме:

1.
Поиск научных статей
- Искать тут - http://www.arxiv-sanity.com
- Сохранять у себя на ПК и в облаке такой тулзой https://mendeley.com/

2.
Советы по сборке своего ПК для deep learning
- Раз https://goo.gl/3vdqUV
- Два - на рынке все больше консьюмерских NVME дисков
- Три - знакомый советует карточки серии ASUS x99e-WS
- Еще пара ссылок
https://spark-in.me/post/gpu-server-set-up-guide
— /channel/snakers4/1287
— /channel/snakers4/702

3.
Сравнение 2 и 3 питона
- https://goo.gl/rfK2SY

4.
Основные понятия и навыки в deep learning которыми надо владеть - https://goo.gl/Ak8Y68

Transfer learning - https://goo.gl/xWbAiN

Борьба с оверфиттингом - https://goo.gl/8E5fBx

5.
Преимущества pytorch
- https://goo.gl/5SxRfP

6.
Про art style transfer говорить много смысла нет (ибо - http://cv-blog.ru/?p=168), но наркоманскую картинку я сделал
- https://goo.gl/3o4HoA

#data_science
#neural_nets
#digest
#ne

Читать полностью…

Spark in me

Офигенное видео про интуицию квантовой физики и комплексные числа
- https://www.youtube.com/watch?v=MzRCDLre1b4

#math

Читать полностью…

Spark in me

Занятная статья про жизу при внедрении моделей
- https://habrahabr.ru/post/337722/

Отличная картинка, которая демонстирует это на практике
- https://goo.gl/NHgNQX

Бывает весело, когда заказчику охота «крутую нейронную сеть» для специфичной задачи, но убедить его потратиться на сбор данных можно, только предоставив работающий прототип (создание которого невозможно без сбора данных (сбор которых невозможен без работающего прототипа (...))).
#data_science

Читать полностью…

Spark in me

Интересное в мире интернета
- Ben Evans - https://goo.gl/GDr4rg
-- Дисней запустит свой эксклюзивный веб-стриминг в 2019 - https://goo.gl/MqEo3J
-- Гугл хочет купить HTC - https://goo.gl/i3Dz6K
-- Автоматизация на складах амазона - https://goo.gl/Dn4uaF

#internet

Читать полностью…

Spark in me

Недавно натолкнулся на новую фишку при работе с нейросетями - использовать selu вместо relu в качестве активационной функции. По сути это является одним из способов регуляризации и нормализации процесса тренировки нейросетей (другой пример - с batch norm сети как правило тренируются более стабильно и быстро).

Как всегда водится - четких преимуществ на все случаи жизни нету, но иногда это хорошо работает без batch norm, иногда с. 100% плюсом является то, что это очень легко попробовать.

- https://goo.gl/iz72Gv
- https://goo.gl/EBCo8y
- https://goo.gl/6Qeiox

#data_science

Читать полностью…

Spark in me

Очень красивое видео про простые числа
- https://www.youtube.com/watch?v=LFwSIdLSosI&t=0s

#math

Читать полностью…

Spark in me

Играюсь с TTA в одной задаче. Если делать простым перебором - то не получится, т.к. одна итерация занимает 15-20 часов. Поигрался с подбором параметров изменений картинки на небольшой выборке, получил вот такие красивые графики.

Сверху график - тон и значение, снизу насыщенность.

Читать полностью…

Spark in me

Fast.ai тоже оценили то, что pytorch имеет динамический граф вычислений

Introducing Pytorch for fast.ai · fast.ai
http://www.fast.ai/2017/09/08/introducing-pytorch-for-fastai/

Читать полностью…

Spark in me

Если вы хотите начать превращать свой локальный или удаленный зоопарк в более структурированный зоопарк, или избавиться от конфликтов софта и необходимости все иметь всегда в последней версии, то вот несколько хороших вводных точек про докер
- Раз https://habrahabr.ru/post/337306/
- Два https://docs.docker.com/get-started/

#linux

Читать полностью…

Spark in me

Ну и офигенный сниппет кода, который позволяет скачивать файлы в тетрадке с хостингов с кривыми url / ожиданием загрузки и кажется даже с редиректами (серверными редиректами)

file_dict = {
'full_ds_1.zip': 'YOUR_URL_HERE'
}

for file,url in file_dict.items():
url_q = "'" + url + "'"
! wget --no-check-certificate --no-proxy -O $file $url_qКлючи и кавычки добавлены к wget спеицально.

#data_science
#tips #python

Читать полностью…

Spark in me

Интересное в мире ML
- https://goo.gl/srLer2 - размышления на тему "а как автоматически придумывать оптимальные алгоритмы оптимизации функций? - https://goo.gl/r7Mcbe - прыгайте сразу на "How to Learn the Optimizer" - https://goo.gl/dujgph
- Import AI - https://goo.gl/uGmjW9
- FB открывает новый исследовательский офис - https://newsroom.fb.com/news/2017/09/fair-montreal/
- Софт который ... помогает использовать симуляторы дальнобойщиков для тренировки нейросетей для управления грузовиками - https://goo.gl/XdHypw
- Датасет с рейтингами 10к книг - https://goo.gl/GQuvh5
- Гугл открывает API для кастомных визуализаций в TensorBoard - https://goo.gl/qejTfr

#data_science
#digest

Читать полностью…

Spark in me

В процессе поиска решения для задачи А сюда - https://contest.sdsj.ru - натолкнулся на ряд полезных ссылок:
- Настройка параметров XGBoost - https://goo.gl/Av7D1q
- XGBoost на GPU из коробки - https://goo.gl/TWuauv

Пока использование embeddings дало +5% к бейслайну и 18 место из 50 человек. Интуиция подсказывает, что оптимальное решение лежит где-то в сфере смеси авто-энкодеров/декодеров и LTSM.

- ipynb - resources.spark-in.me/baseline.ipynb
- html - http://resources.spark-in.me/baseline.html

#data_science
#nlp

Читать полностью…

Spark in me

Небольшой цикл статей про краткую историю глубокого обучения и основные понятия:

- Раз https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-core-concepts/
- Два - https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-history-training/
- Три - https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-sequence-learning/

Будет полезно, если вы ничего такого не читали.

#deep_learning
#neural_nets

Читать полностью…

Spark in me

Делал тестовое задание а большой выборке (32м наблюдений). Внезапно на таком объеме наивные логистические регрессии дают такой же результат, что и случайные леса.

Занятно.

Читать полностью…

Spark in me

Теперь вы также можете задонатить на развитие канала тут по номеру договора
- https://www.tinkoff.ru/cardtocard/
- 5011673505

Читать полностью…

Spark in me

Статья для развития интуиции про методы снижения размерности данных
- Статья - https://goo.gl/LxUpkF
-- Бойлерплейт для PCA / SVD на tensorflow (на GPU - что важно)
-- T-SNE - на sklearn
-- Простой автоэнкодер - тоже на tf
- Код
-- HTML http://resources.spark-in.me/dim_red_rf.html
-- ipynb resources.spark-in.me/dim_red_rf.ipynb

#data_science

Читать полностью…

Spark in me

Интересное в мирпе ML
- Import AI - https://goo.gl/A3SUUp
- Еще раз про типичные ошибки при тренировке нейросетей - https://goo.gl/w9iBB2
- MS и FB хотят рано или поздно сделать модели на своих ML фреймворках совместимыми - https://research.fb.com/facebook-and-microsoft-introduce-new-open-ecosystem-for-interchangeable-ai-frameworks/


#data_science

Читать полностью…

Spark in me

Занятная статья на тему того, как читать статьи, особенно по deep learning
- http://blizzard.cs.uwaterloo.ca/keshav/home/Papers/data/07/paper-reading.pdf

#data_science

Читать полностью…

Spark in me

Ушел в астрал на некоторое время. Сделать ли продолжение этого цикла - https://spark-in.me/post/job-panopticum?

Да – 56
👍👍👍👍👍👍👍 92%

Нет – 4
👍 7%

В личку / своё – 1
▫️ 2%

👥 61 people voted so far.

Читать полностью…

Spark in me

"Users' 2D TSNE plot. Looks like users populated little islands and war is coming"
📉 @loss_function_porn

Читать полностью…

Spark in me

Знакомый прислал ссылку на библиотеку, которая содержит очень много стандартных аугментаций для изображений
- https://github.com/aleju/imgaug/blob/master/docs/index.rst

#data_science
#neural_nets

Читать полностью…

Spark in me

Пара слов - заметка про TTA = test-time-augmentation.

В современных нейросетях зачастую используются такие способы регуляризации для избежания оверфиттинга
- Аугментации входных данных (повороты, изменение размера, изменения цветовой гаммы, зум, обрезка, итд)
- Batch normalization
- Нормализация входных данных

TTA - это применение аугментаций при формировании предсказаний на самой последней стадии при тестировании на отложенной выборке. Грубо говоря, если мы учили нейросеть, показывая ей измененные и искаженные данные, то при предсказании можно попробовать показывать нейросети разные варианты одной и той же картинки и потом усреднять.

Тут описывается применение такого подхода
- http://benanne.github.io/2015/03/17/plankton.html

#data_science

Читать полностью…

Spark in me

Если вы ищете мощные GPU-accelerated сервера в облаке, то вот вариант
- https://www.servers.com/prisma_cloud

Я сам пробовал Floydhub, но мне очень не понравилось. С другой стороны тут ценник гораздо более кусучий чем на Амазоне.

#hardware

Читать полностью…

Spark in me

Список фреймворков для ML отсортированный по популярности на гитхабе.
- https://oxozle.com/awetop/josephmisiti-awesome-machine-learning?overall=1

#data_science

Читать полностью…
Subscribe to a channel