snakers4 | Technologies

Telegram-канал snakers4 - Spark in me

2278

Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.

Subscribe to a channel

Spark in me

Из интересного в новых плагинах в jupyter (все откладываем работу через IDE?)
- там появился variable inspector - незаменимая штука когда у вас много шагов и переменных - https://goo.gl/rNVfNV
- там появились десктопные уведомления - не решение, но помогает, если вы пьете чай и ждете свой небольшой скрипт

#data_science

Читать полностью…

Spark in me

Linux Now Powers 100% of the World’s Top 500 Supercomputers
—> https://goo.gl/krKTT1

Читать полностью…

Spark in me

Лайфхак - если нужно в консоли распаковать файл размером в 1 терабайт, причем он запакован исключительно в tar без шифрования, то можно просто запустить несколько tar с ключом k и это решит вопрос в гораздо более сжатые сроки.

#linux

Читать полностью…

Spark in me

Несмотря на то, что последние 3 квартала рост ВВП РФ положительный, структурных изменений нет
- https://goo.gl/2sKd6D

#statistics

Читать полностью…

Spark in me

В keras, чтобы использовать встроенную многопоточность в методе fit, надо по идее писать thread-safe генераторы, что иногда немного раздражает.

К счастью, авторы keras сделали специальный класс (очень похожий на класс dataset в pytorch) для решения этой проблемы:
- https://keras.io/utils/#sequence

#data_science
#deep_learning

Читать полностью…

Spark in me

Epic
- https://arstechnica.com/cars/2017/11/fully-driverless-cars-are-here/

Читать полностью…

Spark in me

Интересное в мире ML:

- Import AI - https://goo.gl/RwZRzQ
- Гугл продолжает развивать свой auto-ml. Безумие конечно, но они уже сделали это на Imagenet
-- https://goo.gl/Ng9d8f
-- https://goo.gl/oZX9td

- Еще раз отчет - the state of data science 2017 от Kaggle - https://goo.gl/oKjVtx

- Огромные инвестиции в распознавание лиц от России и Китая - https://goo.gl/qL5SWQ
- Это безумие, но фейсбук научился переводить с одного языка на другой вообще без размеченных текстов сразу на 2 языках - https://goo.gl/kUiQQw


#data_science
#deep_learning
#digest

Читать полностью…

Spark in me

https://youtu.be/7wt-9fjPDjQ

Читать полностью…

Spark in me

Рунет впервые официально обошёл по рекламным доходам телеканалы. АКАР опубликовал данные что за 9 месяцев года телеканалы заработали 116-117 млрд руб., интернет-компании - 115-116 млрд руб. В отдельно взятом III квартале интернет уже больше телика. Вот так вот: ТВ больше не крупнейшее медиа в России.

Читать полностью…

Spark in me

Ну и визуализации того, что видит inception
- https://distill.pub/2017/feature-visualization/appendix/

#data_science

Читать полностью…

Spark in me

Долго искал как копировать большие файлы в консоли с прогресс индикатором. Нашел
- https://habrahabr.ru/post/65384/

Читать полностью…

Spark in me

Интересное в мире интернета
- Ben Evans - https://goo.gl/RM9h1U
- 60M юзеров ФБ фейки, 200M дубликаты - https://goo.gl/MGnefT
- Что люди фоткают на камеры смартфонов - https://goo.gl/xmMU1b
- Человек сделал пару простых бенчмарков с представлением adver
- Гугл планирует активно продвигать TF в Китае - https://goo.gl/CdYVwm
- Как Apple считает смайлики в своих телефонах - https://goo.gl/vdjGUg

#digest
#internet

Читать полностью…

Spark in me

https://youtu.be/dqxqbvyOnMY

Читать полностью…

Spark in me

Нашел еще одну онлайн книгу про машинное обучение.
Кто-то сделал опен-сорсную книгу в виде заметок на полях, видимо написанных в процессе своего обучения

- https://leonardoaraujosantos.gitbooks.io/artificial-
inteligence/content/feature_scaling.html

#data_science
#book

Читать полностью…

Spark in me

Несколько раз завел пайплайны с ImgAugs - они не такие уж и медленные. Вероятно в прошлый раз беда была с легаси кодом ипмелементации.

На pytorch вообще неплохо получается, когда мы "дешевые" аугментации делаем многопоточно и грузим в очередь, прежде чем запихивать на видеокарту. Особенно если высокая скорость чтения и многоядерный процессор - чтение из видео последовательно не является боттл-неком.

Вообще получается неплохое сочетание для работы с видео:
- moviepy + jupiter notebooks для EDA с видео
- opencv для работы с bbox-ами и детекцией движения
- image.io для генерации входных данных для нейросети без распаковки видео (работает только для простой логики типа склеить кадры - если нужно что-то более монструозное, особенно со снижением размерности, то лучше делать предобработку с сохранением на диск)
- imgaugs + пара расширений классов и свои наработки для генераторов

#deep_learning
#video
#data_science

Читать полностью…

Spark in me

Каггл увеличит размеры своих датасетов в 20 раз. Вроде как мало, но 500 мб - уж совсем мало.
- https://goo.gl/nSdksa

Для обучения - скорее всего самое оно. Может народ станет выкладывать туда датасеты, а не на academic torrents (где нет сидов) или AWS, который в СНГ медленно качается.

Например на AWS с каггла качается со скоростью 20-30 мбайт/c, что неплохо, но машины с нормальной скоростью IO и одновременно карточками там стоят очень дорого.

#data_science

Читать полностью…

Spark in me

Лайфхак дня. Как прикрутить TensorBoard к pytorch за 10 минут
- https://github.com/yunjey/pytorch-tutorial/tree/master/tutorials/04-utils/tensorboard

По сути единственное, что продолжает вымораживать в pytorch по сравнению с tf - отсутствие инструментов для дебага графа вычислений (может потому, что он динамический?)

#deep_learning
#pytorch

Читать полностью…

Spark in me

Интересное в мире интернета
- Instagram обгоняет snapchat - https://goo.gl/9r39H1
- И последний начинают покупать по частям понемногу - https://goo.gl/wPNo34
- Кто-то наконец написал стаью про дичь на Ютубе - https://goo.gl/8PsEgB - неразборчивые потребители + автоматическая генерация дичи + шаблонное SEO + отсутствие выгоды для Ютуба, чтобы банить и модерировать это все
- WeChat - 38 млрд сообщений в день, WhatsApp 50+, СМС в пике - 20+ - https://goo.gl/BE8G3N
- Еще раз обзор текущего рынка видеокарт и софта для работы с ними и с нейросетями - https://goo.gl/twhGLD
- Мысли про то, что нейросети это своебразный софт - https://goo.gl/GdWMtK - вот только про портативность там полный бред написан
- Обзор финансового состояния компании Tesla - https://goo.gl/WBrZfc
- Китайцы покупают соцсеть для караоке за 1 миллиард долларов? - https://goo.gl/F411kS
- Apple работает на VR headset - https://goo.gl/1x2teH
- Онлайн MMORPG second life (симс в онлайне) до сих пор имеет 600к юзеров - https://goo.gl/W3wxSA

#digest
#internet

Читать полностью…

Spark in me

Про апгрейд на NVME диск
- https://aminux.wordpress.com/2017/11/11/plextor-nvme-ssd-home/

#linux
#hardware

Читать полностью…

Spark in me

Подписчик канал прислал бенчмарки разных библиотек для работы с видео.

TLDR
- они все используют ffmpeg по умолчанию, так что все это реплицируется через него, только не так удобно
- по скорости - все более менее одинаково
- imageio - имеет по сути 1 метод и лучше всего подходит для последовательного чтения кадров
- moviepy - имеет тонну возможностей, и если вы хотите читать, скажем, 2 кадра в секунду, а не 25 - то она может работает быстрее

HTML
- http://resources.spark-in.me/video_loading_benchmark.html

IPYNB
- resources.spark-in.me/video_loading_benchmark.ipynb

#data_science
#video

Читать полностью…

Spark in me

https://www.youtube.com/watch?v=qzIbDf_GfAk

Читать полностью…

Spark in me

В open-cv оказывается есть функция для нормализации картинок
- https://www.pyimagesearch.com/2017/11/06/deep-learning-opencvs-blobfromimage-works/

Читать полностью…

Spark in me

Хорошие новости про наш веб-блог - только что задеплоил версию 1.3:
- https://spark-in.me - найдите 10 отличий

Ключевые изменения по версиям:

1.0 - январь 2017
- Клиент - сделал сам прототип из шаблона доступного для реакта - понял, что надо или все писать на php или заказывать фронт у фрилансеров
- Все работало, но на клиенте изменения вносить было сложновато
- Написал АПИ, сделал таблицы в базе, сделал админку

1.1 - весна 2017
- На базе шаблона выше у фрилансеры сделали нормальный движок для фронтенд составляющей, который поддерживал такие фичи:
-- страницы тегов, страницы авторов, страницы статей
-- все очень быстро работает
-- ряд фишек с навигацией

1.2 - разные доделки
- https
- RSS, sitemap
- SEO microdata - ld-json + schema.org (тут было очень много извращений в запросах)
- юзабилити фишки - облака тегов
- оптимизация скорости загрузки страниц

1.3
- Добавлены страницы груптегов
- Добавлен "пейджер" для каждой страницы-списка статей со списком для удобства навигации по старому
- При переходе на страницу тега или груптега экран сразу переходит на статьи

Пишу это все потому, что если вам есть что сказать на смежную тематику (данные, наука о данных, сетки, интернет, линукс, иностранные языки, математика итд) - всегда велкам - могу создать аккаунт на сайте.

Читать полностью…

Spark in me

Отличная статья про Resnet и то, как его лучше понять, и какие у него есть разновидности
- https://towardsdatascience.com/an-overview-of-resnet-and-its-variants-5281e2f56035

#deep_learning

Читать полностью…

Spark in me

Отличная статья про визуализацию слоев нейросетей
- https://distill.pub/2017/feature-visualization/

#data_science
#deep_learning

Читать полностью…

Spark in me

Забавное в эпоху современных поисковиков - анализ файлов robots.txt
- http://www.benfrederickson.com/robots-txt-analysis/

#internet

Читать полностью…

Spark in me

When Data Science Destabilizes Democracy and Facilitates Genocide · fast.ai
http://www.fast.ai/2017/11/02/ethics/

Читать полностью…

Spark in me

Создание SSH-туннелей с помощью PuTTY
https://putty.org.ru/articles/putty-ssh-tunnels.html

Ведь бывает же такое что вам дали контейнер или сервер а из всех портов открыт только 22 )

Читать полностью…

Spark in me

Про новое направление в нейросетях
- https://www.youtube.com/watch?v=rTawFwUvnLE

#deep_learning

Читать полностью…

Spark in me

Великолепная либа на питоне для работы с видео
- https://github.com/Zulko/moviepy

Она построена сверху над image.io и по сути позволяет работать с видео в 1 строчку (вместо просто итерации или ручного использования ffmpeg). Как хорошо что на питоне есть такие инструменты!

#python
#video

Читать полностью…
Subscribe to a channel