Прочитал статью про гугловый Nasnet
- ИЧСХ - статья не является наборищем формул и читается легко, kudos им за это
- http://arxiv.org/abs/1707.07012
- Статья в 1 картинку https://goo.gl/rNRB7h
-- Суть - они не случайно ищут архитектуру сети, а фиксируют, что у них будет 2 блока (один который не снижает размерность и один который снижате) и дальше проводят поиск архитектур на CIFAR-10, а потом проводят бенчмарк на Imagenet
-- В качестве учителя таких архитектур выступает обычная LSTM со 100 нейронами, которая "выдает" архитектуры
-- Что интересно - якобы их новая модель имеет +1.5% точности по сравнению с прошлыми sota моделями и случайным поиском
-- На практике - ее максимальная версия имеет больше весов и работает медленнее (раза в полтора - два), чем inception4 (!)
-- Все это считается несколько дней на 500 GPU
-- Как выглядит лучший найденный блок https://goo.gl/bfiCXS
-- Архитектура сетки - https://pics.spark-in.me/upload/cfb83f2791d287a4a7a700103a6ce1e5.png
-- Еще неявное преимущество модели - она линейная как бы и количество блоков вы можете выбрать на свое усмотрение
#data_science
#deep_learning
Если вы хотите поиграться с open-cv и keras - то вот вам еще один гайд как это сделать на raspberry pi
- https://goo.gl/5n75xV
#deep_learning
Супер полезная штука в pandas - очень просто one-hot-encoding
le, u = df[feature].factorize()
df[feature] = le
#data_science
Когда я читал про то, что в Америке есть праймериз, налоговый кодекс пишут богатые и прочую подобную хрень - это было смешно но занятно.
Но сейчас они правда пошли в регресс. Учитывая, что в Америке простому обывателю зачастую доступен очень плохой интернет из-за монополий - они там явно хотят кусочек пирога.
Today the Federal Communications Commission voted to eviscerate net neutrality
У нас движется все к Северной Корее, у них к идиократии. Мир прекрасен.
52 безумных факта в 2017 году связанных с интернетом и технологиями.
- https://goo.gl/581Nmz
Несколько самых забавных
-- A fifth of all the Google searches handled via the mobile app and Android devices are voice searches
-- In 1990, more than a third of people on Earth lived on less than $1.90 a day, adjusted for local prices. By 2013, barely 10 percent of people did.
-- In Silicon Valley, startups that result in a successful exit have an average founding age of 47 years
-- A cryptocurrency mining company called Genesis Mining is growing so fast that they rent Boeing 747s to ship graphics cards to their Bitcoin mines in Iceland.
-- Beggars in China have sophisticated ways to collect payment; using QR Codes, WeChat accounts and in one case a Point Of Sale machine to collect donations.
#digest
Wine 3.0 Just Around the Corner with Direct3D 11 Support for AMD and Intel GPUs
—> https://goo.gl/eMBp8h
Про разницу между cosine similarity и евклидовым расстоянием. Суть - евклидово расстояние зависит от длины вектора, а cosine similarity - нет.
https://cmry.github.io/notes/euclidean-v-cosine
Первое лучше использовать в случаях, когда пространства многомерные и длина векторов не особо имеет смысл.
#data_science
Просто несколько графиков отсюда - https://goo.gl/efmUYg
- Papers по годам - https://goo.gl/KnZyFb
- Звезды на гите - https://goo.gl/pQNPR8 (почему TF такое ужасное АПИ имеет - вероятно т.к. много пошло на маркетинг)
- Конференции - https://goo.gl/NGAedK
- Точность Imagenet - https://goo.gl/EmvBfo
- Самые крутые достижения AI за последние годы - https://goo.gl/NNg95U
#data_science
Интересное в мире ML / Deep Learning
Как обычно пропускаю через себя много мусора, чтобы найти что-то ценное =)
"Книги"
- Еще одна "книга" - записки ML специалиста - https://goo.gl/Wmes7p
Python
- Если хотите быстро понять в чем разница между hdf5 и bcolz вам сюда - https://goo.gl/wfcCri
Reading and writing data to a bcolz.carray is typically a lot faster than HDF5- Есть еще pytables - но я читал, что он более монструозный. Вообще такие штуки нужны если у вас есть массивы на сотни миллионов - миллиарды строк и вы хотите быстро оттуда читать
- Прослойка, чтобы работать с датафреймами на GPU - https://goo.gl/r8KPGd - если вы в курсе зачем и как - поделитесь опытом в чате ( GPU Dataframe of GPU Open Analytics Initialive (GOAI) )
Deep learning
- Сетки работают т.к. в мире физики доминируют относительно простые функции - https://goo.gl/JmTA2Y
- Adversarial example для вашего мозга - попробуйте понять что это - https://goo.gl/PGdX5m
- Фреймворки - новый способ доминирования на рынке ML - https://goo.gl/ZtMJVF (почему интерфейсы TF такое говно тогда? =) )
- PR кривые в тензорборд - может кому надо - https://goo.gl/5gM6a1
- Новая статья на Хабре про интуиции нейросетей - https://goo.gl/fwxcrC
- Безумие - но из попиксельных карт теперь можно создавать улицы в 2К разрешении
-- https://goo.gl/hoCA4C
-- https://www.youtube.com/watch?v=3AIpPlzM_qs
-- генератор https://goo.gl/myMXTQ
-- дискриминатор https://goo.gl/oki5rq
- Нашумевший StarGan - https://goo.gl/Gsvuoe
Machine learning / data science
- Внезапно гугл применил свой алгоритм для Го для шахмат - https://goo.gl/jwTtwb
- Новая статья на Distill - https://goo.gl/uLXJMr - про artificial intelligence augmentation (AIA): the use of AI systems to help develop new methods for intelligence augmentation - внезапно они тоже нарисовали списрального кота - https://goo.gl/4KJemD
- Фейсбук и алгоритмы предсказания суицидов - https://goo.gl/tsZvfH
- Статья от авторов LightGBM - https://goo.gl/NQFxai
Датасеты
- Мозилла открывает модель и очень много данных по распознаванию голоса
-- данные - https://voice.mozilla.org/data
-- модель - https://github.com/mozilla/DeepSpeech
Железо
- Nvidia Titan V - пускайте слюни за US$3k - https://www.youtube.com/watch?time_continue=43&v=NPrfiOldKf8
#digest
#data_science
#deep_learning
С сегодняшнего дня, 7 декабря, для получения заграничной покупки доставленной не «Почтой России», а Boxberry, DPD, SPSR, СДЭК и т.д., нужно предъявить свой ИНН и ссылку на купленные товары в онлайн-магазине → https://m.roem.ru/05-12-2017/264736/ny-gift-for-post/
Читать полностью…Молния: кто-то в Телеграме забыл продлить домен, и теперь статьи с telegra.ph временно недоступны. Ждём, пока исправят (или кто-нибудь зарегистрирует его на себя, что вызовет страшный переполох).
Не забывайте продлять домены, друзья.
Интересное в мире ML:
Научно-популярное
- Видео про философию работы ML алгоритмов - https://goo.gl/FsCRg7
Data Science:
- MS хочет добавить питон в эксель. Еще и анаконду купит небось.
-- https://goo.gl/tZ7e82
-- Стили для датафреймов pandas в excel - https://goo.gl/dhKWdo
-- И уже есть питон для экселя. Бедные сотрудники банков - https://www.pyxll.com
Deep Learning
- За кем следят участники NIPS в твиттере - https://goo.gl/y3DXWH
- Unet реально рулит - он еще и текст с картинок выделяет - https://goo.gl/WAEMYA
- Еще гайд про то, как ломать простую капчу - https://goo.gl/bkdRhi - в более продвинутых случаях помогут LSTM с attention и CTC (была статья на Distill)
- Самммари с NIPS - https://goo.gl/Ei7znA
- Пост Fchollet про software 2.0 - https://goo.gl/dAS2PL
Практическая крипота
- Приклеивание лиц к порно - https://goo.gl/saoR7D
#data_science
#deep_learning
#digest
Узнал про существование такой штуки как Dask - по сути это некий аналог Apache spark, который шел от управления многопоточными и многокомпьютерными вычислениями. Сейчас он тоже поддерживает HDFS и его можно использовать для вычислений на кластере. Но, поскольку он является либой на питоне, то все фишки с pandas, numpy, sklearn и прочим - наследуются. В Spark надо или погружаться в их АПИ (которые по ощущениям как-то хреново документированы или более молодые) на скале или строить все вокруг ETL выгрузок.
Сейчас это не всегда актуально, т.к. проще собрать один сверхмощный PC, т.к. сейчас передача по сети - это боттлнек. Но может кому пригодится на работе
- Что такое - http://dask.pydata.org/en/latest/use-cases.html
- Сравнение с PySpark - http://dask.pydata.org/en/latest/spark.html
- http://dask.pydata.org/en/latest/cheatsheet.html
Dask is a parallel programming library that combines with the Numeric Python ecosystem to provide parallel arrays, dataframes, machine learning, and custom algorithms. It is based on Python and the foundational C/Fortran stack. Dask was originally designed to complement other libraries with parallelism, particular for numeric computing and advanced analytics, but has since broadened out. Dask is typically used on a single machine, but also runs well on a distributed cluster.
#data_science
Знакомый посоветовал огромную базу с корпусами и моделями векторными для русского языка.
Стильно, модно молодежно
- http://rusvectores.org/ru/models/
- https://nlpub.ru/Russian_Distributional_Thesaurus
- http://opencorpora.org/?page=downloads
- http://vectors.nlpl.eu/repository/
Раньше я думал, что такого особо нет нигде.
#data_science
#nlp
https://www.youtube.com/watch?v=QmIM24JDE3A
Ну и чтобы не было вау-эффекта, то вот сбалансированный анализ этого
- https://goo.gl/VRFwVn
Хорошая новость для Facebook и плохая для СМИ.
Реформа новостной ленты Facebook привела к тому, что соцсеть уступила Google лидерство по количеству реферального трафика для СМИ. Все сидят в сети и не переходят по ссылкам
¯\_(ツ)_/¯
https://m.roem.ru/12-12-2017/265127/google-oboshla-facebook/
Размышления Бена Эванса про эволюцию технологий
- https://goo.gl/AX67Gj
Просто и офигенно
#internet
Интересное в мире интернета:
Безумный мир
- Супер тонкий тролль вывел свой сарай в топ ресторанов trip advisor в Лондоне- https://goo.gl/7EqDaV
- 52 безумных факта в 2017 году - https://goo.gl/581Nmz
Интернет, IT
- Ben Evans - https://goo.gl/r2rwxe
- Apple скорее всего покупает shazam - https://goo.gl/1ZQ2zB
- Инстаграм тестирует мессенджер - https://goo.gl/72NGFL
- Guardian выходит на точку безубыточности - https://goo.gl/3PuqLf
- Гугл запускает с пяток India first продуктов - поиск, оптимизации ОС, телефон, платежную систему - https://goo.gl/V37HtC
- Как работают бизнес процессы модерации в крупных компаниях - https://goo.gl/Mfd9A5
Дивайсы
- Аналог интернет камеры за 20-30 баксов - https://goo.gl/Ztxm7s
- Adoption новых айфонов - внезапно очень быстро растет - https://goo.gl/QXEaYK
#internet
#digest
Прикол с работы. Потратил какое-то время на проверку архитектур из статей (уже продисконтировав на 90% весь мусор). В итоге оказалось, что простой энкодер + transfer learning лучше, чем то что предлагают ученые. Можно, конечно, сделать скидку на разницу в скорости работы в несколько раз - но иметь 100 или 300 FPS - разницы особо нет.
Вывод - ученые зачастую пишут статьи не на результат, а чтобы было, если это не касается прорывных архитектур или статей. Также зачастую в расчет не принимается вообще насколько бредовой является такая архитектура или насколько непрактичной.
Sad but true.
#data_science
Иллюстрация к новому алгоритму DeepMind для тренировки своих сетей
- https://deepmind.com/blog/population-based-training-neural-networks/#gif-133
#deep_lerning
Нашел просто великолепный конвертер моделей из pytroch в keras, который по идее должен снизить длину пути в продакшен + сборник других конвертеров:
- https://github.com/ysh329/deep-learning-model-convertor
- https://github.com/nerox8664/pytorch2keras
Мне очень понравилось как умно автор решил вопрос конвертации из Pytorch - он идет по графу вычислений и создает модель на keras нативным образом, что по сути дает большую свободу маневра.
#deep_learning
#data_science