Некоторое время назад обещал статью про наболевшее и родное - про поиск работы (ну и давно ничего не писал на сайте).
Вот
https://spark-in.me/post/job-panopticum-frustration
Велкам в комменты)
В общем решил поковырять непопулярный конкурс Nexar, чтобы узнать про архитектуру SSD (хотел еще на торче поиграться, но отказался от идеи пока).
Прочитал репозитории (эта хрень SSD оказалась дико замороченной) и решил попробовать скачать датасет из GTA / cityscapes / mapillary vistas (последние два требуют регистрации, лол), применить к ним юнет и потом сделать простые bbox-ы вокруг облаков высоких вероятностей. Лень двигатель прогресса, end-to-end модели рулят.
Будет интересно потом сравнить с SSD)
Пока датасеты качаются.
YOLO
v2 (тоже якобы sota для определения bbox-ов объектов на картинке)
- https://arxiv.org/pdf/1612.08242.pdf
- https://pjreddie.com/darknet/yolo/
- https://chatbotslife.com/small-u-net-for-vehicle-detection-9eec216f9fd6
- xslittlegrass/almost-real-time-vehicle-detection-using-yolo-da0f016b43de" rel="nofollow">https://medium.com/@xslittlegrass/almost-real-time-vehicle-detection-using-yolo-da0f016b43de
- https://github.com/experiencor/basic-yolo-keras/blob/master/Basic%20Yolo%20Keras.ipynb
SSD
(якобы sota для определения bbox-ов объектов на картинке)
- https://arxiv.org/abs/1512.02325
- https://github.com/pierluigiferrari/ssd_keras/blob/master/keras_ssd300.py
- https://github.com/rykov8/ssd_keras
- https://github.com/amdegroot/ssd.pytorch
DATASETS
- Города мира с семантической разметкой - https://www.mapillary.com/dataset/vistas?lat=10.260958582987826&lng=-2.6390057525255486&z=1.495610634969737
- Города из GTA - https://download.visinf.tu-darmstadt.de/data/from_games/
- качается медленно но верно, все в паблике
- https://www.getnexar.com/challenge-2/upload/ - сам конкурс, понятно почему он непопулярен - 3 сабмита и даже на старте скачивание файлов сделано убого - ссылка с s3 не успевает скачаться и начинается веселье
- Города Европы с семантической разметкой - https://www.cityscapes-dataset.com - просят регистрацию и дают датасет только если ваша компания или универ им понравятся
#data_science
#neural_nets
Интересное в мире интернета
- Ben Evans - https://goo.gl/fJrYZ3
-- Новинки Apple - https://goo.gl/AmbfZN (вроде как в том числе GPU с поддержкой Deep Learning inference)
-- Баги таргетинга - в рекламе Facebook можно таргетировать ненавистников евреев - https://goo.gl/vYMNLa
-- MAU мессенджера FB - 1.3bn - https://goo.gl/m74aC5
-- Вследствие наличия Uber рынок медальонов на такси в NY упал - https://goo.gl/VvWbTG
-- Реконструкция 3D лиц из фото (!) - http://www.cs.nott.ac.uk/~psxasj/3dme/
-- Внезапно исследование журнала The Economist про ... как матери в UK ругаются на форумах - https://goo.gl/XRWUC6
#digest
#internet
Если вы пишете аналитический отчет в виде markdown, то вот простой и относительно полный справочник разметки
- https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet#links
#data_science
Открылась пара на первый взгляд простых и очевидных конкурсов:
- Задача А тут - https://contest.sdsj.ru (без глубокого изучения задача Б потребует рекуррентных нейросетей, а они пока не находятся на уровне приемлемой точности)
- Соревнование тут - https://www.kaggle.com/c/cdiscount-image-classification-challenge
Первый имхо на факторизацию матриц / bag-of-words, второй на файн-тюнинг imagenet. Может кому зайдет)
#data_science
Послушал / прочитал материалы к 8 (первый урок второй серии) уроку fast.ai.
Вот, что кажется интересным / полезным / применимым в ваккууме:
1.
Поиск научных статей
- Искать тут - http://www.arxiv-sanity.com
- Сохранять у себя на ПК и в облаке такой тулзой https://mendeley.com/
2.
Советы по сборке своего ПК для deep learning
- Раз https://goo.gl/3vdqUV
- Два - на рынке все больше консьюмерских NVME дисков
- Три - знакомый советует карточки серии ASUS x99e-WS
- Еще пара ссылок
— https://spark-in.me/post/gpu-server-set-up-guide
— /channel/snakers4/1287
— /channel/snakers4/702
3.
Сравнение 2 и 3 питона
- https://goo.gl/rfK2SY
4.
Основные понятия и навыки в deep learning которыми надо владеть - https://goo.gl/Ak8Y68
Transfer learning - https://goo.gl/xWbAiN
Борьба с оверфиттингом - https://goo.gl/8E5fBx
5.
Преимущества pytorch
- https://goo.gl/5SxRfP
6.
Про art style transfer говорить много смысла нет (ибо - http://cv-blog.ru/?p=168), но наркоманскую картинку я сделал
- https://goo.gl/3o4HoA
#data_science
#neural_nets
#digest
#ne
Офигенное видео про интуицию квантовой физики и комплексные числа
- https://www.youtube.com/watch?v=MzRCDLre1b4
#math
Занятная статья про жизу при внедрении моделей
- https://habrahabr.ru/post/337722/
Отличная картинка, которая демонстирует это на практике
- https://goo.gl/NHgNQX
Бывает весело, когда заказчику охота «крутую нейронную сеть» для специфичной задачи, но убедить его потратиться на сбор данных можно, только предоставив работающий прототип (создание которого невозможно без сбора данных (сбор которых невозможен без работающего прототипа (...))).
#data_science
Интересное в мире интернета
- Ben Evans - https://goo.gl/GDr4rg
-- Дисней запустит свой эксклюзивный веб-стриминг в 2019 - https://goo.gl/MqEo3J
-- Гугл хочет купить HTC - https://goo.gl/i3Dz6K
-- Автоматизация на складах амазона - https://goo.gl/Dn4uaF
#internet
Недавно натолкнулся на новую фишку при работе с нейросетями - использовать selu вместо relu в качестве активационной функции. По сути это является одним из способов регуляризации и нормализации процесса тренировки нейросетей (другой пример - с batch norm сети как правило тренируются более стабильно и быстро).
Как всегда водится - четких преимуществ на все случаи жизни нету, но иногда это хорошо работает без batch norm, иногда с. 100% плюсом является то, что это очень легко попробовать.
- https://goo.gl/iz72Gv
- https://goo.gl/EBCo8y
- https://goo.gl/6Qeiox
#data_science
Очень красивое видео про простые числа
- https://www.youtube.com/watch?v=LFwSIdLSosI&t=0s
#math
Играюсь с TTA в одной задаче. Если делать простым перебором - то не получится, т.к. одна итерация занимает 15-20 часов. Поигрался с подбором параметров изменений картинки на небольшой выборке, получил вот такие красивые графики.
Сверху график - тон и значение, снизу насыщенность.
Fast.ai тоже оценили то, что pytorch имеет динамический граф вычислений
Introducing Pytorch for fast.ai · fast.ai
http://www.fast.ai/2017/09/08/introducing-pytorch-for-fastai/
Если вы хотите начать превращать свой локальный или удаленный зоопарк в более структурированный зоопарк, или избавиться от конфликтов софта и необходимости все иметь всегда в последней версии, то вот несколько хороших вводных точек про докер
- Раз https://habrahabr.ru/post/337306/
- Два https://docs.docker.com/get-started/
#linux
Ну и офигенный сниппет кода, который позволяет скачивать файлы в тетрадке с хостингов с кривыми url / ожиданием загрузки и кажется даже с редиректами (серверными редиректами)
file_dict = {
'full_ds_1.zip': 'YOUR_URL_HERE'
}
for file,url in file_dict.items():
url_q = "'" + url + "'"
! wget --no-check-certificate --no-proxy -O $file $url_qКлючи и кавычки добавлены к wget спеицально.
#data_science
#tips #python
Интересное в мире ML
- https://goo.gl/srLer2 - размышления на тему "а как автоматически придумывать оптимальные алгоритмы оптимизации функций? - https://goo.gl/r7Mcbe - прыгайте сразу на "How to Learn the Optimizer" - https://goo.gl/dujgph
- Import AI - https://goo.gl/uGmjW9
- FB открывает новый исследовательский офис - https://newsroom.fb.com/news/2017/09/fair-montreal/
- Софт который ... помогает использовать симуляторы дальнобойщиков для тренировки нейросетей для управления грузовиками - https://goo.gl/XdHypw
- Датасет с рейтингами 10к книг - https://goo.gl/GQuvh5
- Гугл открывает API для кастомных визуализаций в TensorBoard - https://goo.gl/qejTfr
#data_science
#digest
В процессе поиска решения для задачи А сюда - https://contest.sdsj.ru - натолкнулся на ряд полезных ссылок:
- Настройка параметров XGBoost - https://goo.gl/Av7D1q
- XGBoost на GPU из коробки - https://goo.gl/TWuauv
Пока использование embeddings дало +5% к бейслайну и 18 место из 50 человек. Интуиция подсказывает, что оптимальное решение лежит где-то в сфере смеси авто-энкодеров/декодеров и LTSM.
- ipynb - resources.spark-in.me/baseline.ipynb
- html - http://resources.spark-in.me/baseline.html
#data_science
#nlp
Небольшой цикл статей про краткую историю глубокого обучения и основные понятия:
- Раз https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-core-concepts/
- Два - https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-history-training/
- Три - https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-sequence-learning/
Будет полезно, если вы ничего такого не читали.
#deep_learning
#neural_nets
Делал тестовое задание а большой выборке (32м наблюдений). Внезапно на таком объеме наивные логистические регрессии дают такой же результат, что и случайные леса.
Занятно.
Теперь вы также можете задонатить на развитие канала тут по номеру договора
- https://www.tinkoff.ru/cardtocard/
- 5011673505
Статья для развития интуиции про методы снижения размерности данных
- Статья - https://goo.gl/LxUpkF
-- Бойлерплейт для PCA / SVD на tensorflow (на GPU - что важно)
-- T-SNE - на sklearn
-- Простой автоэнкодер - тоже на tf
- Код
-- HTML http://resources.spark-in.me/dim_red_rf.html
-- ipynb resources.spark-in.me/dim_red_rf.ipynb
#data_science
Интересное в мирпе ML
- Import AI - https://goo.gl/A3SUUp
- Еще раз про типичные ошибки при тренировке нейросетей - https://goo.gl/w9iBB2
- MS и FB хотят рано или поздно сделать модели на своих ML фреймворках совместимыми - https://research.fb.com/facebook-and-microsoft-introduce-new-open-ecosystem-for-interchangeable-ai-frameworks/
#data_science
Занятная статья на тему того, как читать статьи, особенно по deep learning
- http://blizzard.cs.uwaterloo.ca/keshav/home/Papers/data/07/paper-reading.pdf
#data_science
Ушел в астрал на некоторое время. Сделать ли продолжение этого цикла - https://spark-in.me/post/job-panopticum?
Да – 56
👍👍👍👍👍👍👍 92%
Нет – 4
👍 7%
В личку / своё – 1
▫️ 2%
👥 61 people voted so far.
"Users' 2D TSNE plot. Looks like users populated little islands and war is coming"
📉 @loss_function_porn
Знакомый прислал ссылку на библиотеку, которая содержит очень много стандартных аугментаций для изображений
- https://github.com/aleju/imgaug/blob/master/docs/index.rst
#data_science
#neural_nets
Пара слов - заметка про TTA = test-time-augmentation.
В современных нейросетях зачастую используются такие способы регуляризации для избежания оверфиттинга
- Аугментации входных данных (повороты, изменение размера, изменения цветовой гаммы, зум, обрезка, итд)
- Batch normalization
- Нормализация входных данных
TTA - это применение аугментаций при формировании предсказаний на самой последней стадии при тестировании на отложенной выборке. Грубо говоря, если мы учили нейросеть, показывая ей измененные и искаженные данные, то при предсказании можно попробовать показывать нейросети разные варианты одной и той же картинки и потом усреднять.
Тут описывается применение такого подхода
- http://benanne.github.io/2015/03/17/plankton.html
#data_science
Если вы ищете мощные GPU-accelerated сервера в облаке, то вот вариант
- https://www.servers.com/prisma_cloud
Я сам пробовал Floydhub, но мне очень не понравилось. С другой стороны тут ценник гораздо более кусучий чем на Амазоне.
#hardware
Список фреймворков для ML отсортированный по популярности на гитхабе.
- https://oxozle.com/awetop/josephmisiti-awesome-machine-learning?overall=1
#data_science