Из интересного в новых плагинах в jupyter (все откладываем работу через IDE?)
- там появился variable inspector - незаменимая штука когда у вас много шагов и переменных - https://goo.gl/rNVfNV
- там появились десктопные уведомления - не решение, но помогает, если вы пьете чай и ждете свой небольшой скрипт
#data_science
Linux Now Powers 100% of the World’s Top 500 Supercomputers
—> https://goo.gl/krKTT1
Лайфхак - если нужно в консоли распаковать файл размером в 1 терабайт, причем он запакован исключительно в tar без шифрования, то можно просто запустить несколько tar с ключом k и это решит вопрос в гораздо более сжатые сроки.
#linux
Несмотря на то, что последние 3 квартала рост ВВП РФ положительный, структурных изменений нет
- https://goo.gl/2sKd6D
#statistics
В keras, чтобы использовать встроенную многопоточность в методе fit, надо по идее писать thread-safe генераторы, что иногда немного раздражает.
К счастью, авторы keras сделали специальный класс (очень похожий на класс dataset в pytorch) для решения этой проблемы:
- https://keras.io/utils/#sequence
#data_science
#deep_learning
Интересное в мире ML:
- Import AI - https://goo.gl/RwZRzQ
- Гугл продолжает развивать свой auto-ml. Безумие конечно, но они уже сделали это на Imagenet
-- https://goo.gl/Ng9d8f
-- https://goo.gl/oZX9td
- Еще раз отчет - the state of data science 2017 от Kaggle - https://goo.gl/oKjVtx
- Огромные инвестиции в распознавание лиц от России и Китая - https://goo.gl/qL5SWQ
- Это безумие, но фейсбук научился переводить с одного языка на другой вообще без размеченных текстов сразу на 2 языках - https://goo.gl/kUiQQw
#data_science
#deep_learning
#digest
Рунет впервые официально обошёл по рекламным доходам телеканалы. АКАР опубликовал данные что за 9 месяцев года телеканалы заработали 116-117 млрд руб., интернет-компании - 115-116 млрд руб. В отдельно взятом III квартале интернет уже больше телика. Вот так вот: ТВ больше не крупнейшее медиа в России.
Читать полностью…Ну и визуализации того, что видит inception
- https://distill.pub/2017/feature-visualization/appendix/
#data_science
Долго искал как копировать большие файлы в консоли с прогресс индикатором. Нашел
- https://habrahabr.ru/post/65384/
Интересное в мире интернета
- Ben Evans - https://goo.gl/RM9h1U
- 60M юзеров ФБ фейки, 200M дубликаты - https://goo.gl/MGnefT
- Что люди фоткают на камеры смартфонов - https://goo.gl/xmMU1b
- Человек сделал пару простых бенчмарков с представлением adver
- Гугл планирует активно продвигать TF в Китае - https://goo.gl/CdYVwm
- Как Apple считает смайлики в своих телефонах - https://goo.gl/vdjGUg
#digest
#internet
Нашел еще одну онлайн книгу про машинное обучение.
Кто-то сделал опен-сорсную книгу в виде заметок на полях, видимо написанных в процессе своего обучения
- https://leonardoaraujosantos.gitbooks.io/artificial-
inteligence/content/feature_scaling.html
#data_science
#book
Несколько раз завел пайплайны с ImgAugs - они не такие уж и медленные. Вероятно в прошлый раз беда была с легаси кодом ипмелементации.
На pytorch вообще неплохо получается, когда мы "дешевые" аугментации делаем многопоточно и грузим в очередь, прежде чем запихивать на видеокарту. Особенно если высокая скорость чтения и многоядерный процессор - чтение из видео последовательно не является боттл-неком.
Вообще получается неплохое сочетание для работы с видео:
- moviepy + jupiter notebooks для EDA с видео
- opencv для работы с bbox-ами и детекцией движения
- image.io для генерации входных данных для нейросети без распаковки видео (работает только для простой логики типа склеить кадры - если нужно что-то более монструозное, особенно со снижением размерности, то лучше делать предобработку с сохранением на диск)
- imgaugs + пара расширений классов и свои наработки для генераторов
#deep_learning
#video
#data_science
Каггл увеличит размеры своих датасетов в 20 раз. Вроде как мало, но 500 мб - уж совсем мало.
- https://goo.gl/nSdksa
Для обучения - скорее всего самое оно. Может народ станет выкладывать туда датасеты, а не на academic torrents (где нет сидов) или AWS, который в СНГ медленно качается.
Например на AWS с каггла качается со скоростью 20-30 мбайт/c, что неплохо, но машины с нормальной скоростью IO и одновременно карточками там стоят очень дорого.
#data_science
Лайфхак дня. Как прикрутить TensorBoard к pytorch за 10 минут
- https://github.com/yunjey/pytorch-tutorial/tree/master/tutorials/04-utils/tensorboard
По сути единственное, что продолжает вымораживать в pytorch по сравнению с tf - отсутствие инструментов для дебага графа вычислений (может потому, что он динамический?)
#deep_learning
#pytorch
Интересное в мире интернета
- Instagram обгоняет snapchat - https://goo.gl/9r39H1
- И последний начинают покупать по частям понемногу - https://goo.gl/wPNo34
- Кто-то наконец написал стаью про дичь на Ютубе - https://goo.gl/8PsEgB - неразборчивые потребители + автоматическая генерация дичи + шаблонное SEO + отсутствие выгоды для Ютуба, чтобы банить и модерировать это все
- WeChat - 38 млрд сообщений в день, WhatsApp 50+, СМС в пике - 20+ - https://goo.gl/BE8G3N
- Еще раз обзор текущего рынка видеокарт и софта для работы с ними и с нейросетями - https://goo.gl/twhGLD
- Мысли про то, что нейросети это своебразный софт - https://goo.gl/GdWMtK - вот только про портативность там полный бред написан
- Обзор финансового состояния компании Tesla - https://goo.gl/WBrZfc
- Китайцы покупают соцсеть для караоке за 1 миллиард долларов? - https://goo.gl/F411kS
- Apple работает на VR headset - https://goo.gl/1x2teH
- Онлайн MMORPG second life (симс в онлайне) до сих пор имеет 600к юзеров - https://goo.gl/W3wxSA
#digest
#internet
Про апгрейд на NVME диск
- https://aminux.wordpress.com/2017/11/11/plextor-nvme-ssd-home/
#linux
#hardware
Подписчик канал прислал бенчмарки разных библиотек для работы с видео.
TLDR
- они все используют ffmpeg по умолчанию, так что все это реплицируется через него, только не так удобно
- по скорости - все более менее одинаково
- imageio - имеет по сути 1 метод и лучше всего подходит для последовательного чтения кадров
- moviepy - имеет тонну возможностей, и если вы хотите читать, скажем, 2 кадра в секунду, а не 25 - то она может работает быстрее
HTML
- http://resources.spark-in.me/video_loading_benchmark.html
IPYNB
- resources.spark-in.me/video_loading_benchmark.ipynb
#data_science
#video
В open-cv оказывается есть функция для нормализации картинок
- https://www.pyimagesearch.com/2017/11/06/deep-learning-opencvs-blobfromimage-works/
Хорошие новости про наш веб-блог - только что задеплоил версию 1.3:
- https://spark-in.me - найдите 10 отличий
Ключевые изменения по версиям:
1.0 - январь 2017
- Клиент - сделал сам прототип из шаблона доступного для реакта - понял, что надо или все писать на php или заказывать фронт у фрилансеров
- Все работало, но на клиенте изменения вносить было сложновато
- Написал АПИ, сделал таблицы в базе, сделал админку
1.1 - весна 2017
- На базе шаблона выше у фрилансеры сделали нормальный движок для фронтенд составляющей, который поддерживал такие фичи:
-- страницы тегов, страницы авторов, страницы статей
-- все очень быстро работает
-- ряд фишек с навигацией
1.2 - разные доделки
- https
- RSS, sitemap
- SEO microdata - ld-json + schema.org (тут было очень много извращений в запросах)
- юзабилити фишки - облака тегов
- оптимизация скорости загрузки страниц
1.3
- Добавлены страницы груптегов
- Добавлен "пейджер" для каждой страницы-списка статей со списком для удобства навигации по старому
- При переходе на страницу тега или груптега экран сразу переходит на статьи
Пишу это все потому, что если вам есть что сказать на смежную тематику (данные, наука о данных, сетки, интернет, линукс, иностранные языки, математика итд) - всегда велкам - могу создать аккаунт на сайте.
Отличная статья про Resnet и то, как его лучше понять, и какие у него есть разновидности
- https://towardsdatascience.com/an-overview-of-resnet-and-its-variants-5281e2f56035
#deep_learning
Отличная статья про визуализацию слоев нейросетей
- https://distill.pub/2017/feature-visualization/
#data_science
#deep_learning
Забавное в эпоху современных поисковиков - анализ файлов robots.txt
- http://www.benfrederickson.com/robots-txt-analysis/
#internet
When Data Science Destabilizes Democracy and Facilitates Genocide · fast.ai
http://www.fast.ai/2017/11/02/ethics/
Создание SSH-туннелей с помощью PuTTY
https://putty.org.ru/articles/putty-ssh-tunnels.html
Ведь бывает же такое что вам дали контейнер или сервер а из всех портов открыт только 22 )
Про новое направление в нейросетях
- https://www.youtube.com/watch?v=rTawFwUvnLE
#deep_learning
Великолепная либа на питоне для работы с видео
- https://github.com/Zulko/moviepy
Она построена сверху над image.io и по сути позволяет работать с видео в 1 строчку (вместо просто итерации или ручного использования ffmpeg). Как хорошо что на питоне есть такие инструменты!
#python
#video