Telegram-канал snakers4 - Spark in me: Technologies

Spark in me

18 Oct 2017 10:36

https://habrahabr.ru/post/340262/

Читать полностью…

Spark in me

16 Oct 2017 20:45

https://youtu.be/IHZwWFHWa-w

Читать полностью…

Spark in me

16 Oct 2017 15:34

Интересное в мире ML:
- Import AI https://goo.gl/AUxYsx
- Wild ML https://goo.gl/SSQQxC
- Amazon выпускает компилятор для ускорения работы фреймворков для глубокого обучения до 20% - https://goo.gl/G612Me
- Кому актуально - релиз TF 1.4.0 - https://goo.gl/XZ1N6B
- Alibaba инвестирует US$15bn за 3 года в передовые технологии (включая NLP и ML) - https://goo.gl/D5aG13
- AWS и Microsoft запускают новый фреймворк для глубокого обучения - https://goo.gl/gZGrNf - вроде как там граф вычислений тоже динамический
- Нейросетки раскрашивают старинные фото - https://goo.gl/GPqPwe

#digest
#data_science

Читать полностью…

Spark in me

16 Oct 2017 15:09

Аналитики WEF наглядно показали как китайские стартапы завоевывают рынки и мир

https://www.weforum.org/agenda/2017/10/map-tech-titans-unicorns-china-united-states/

@internetanalytics

Читать полностью…

Spark in me

15 Oct 2017 19:05

https://youtu.be/T_g6S3f0Z5I

Читать полностью…

Spark in me

14 Oct 2017 09:09

Что сейчас больше интересно подписчикам?

Больше полнотекстовых статей – 4
👍👍👍👍👍👍👍 36%

Больше копоти pytorch – 3
👍👍👍👍👍 27%

Больше про GAN / архитектуры / сетки – 2
👍👍👍👍 18%

Больше про рыбок и SSD / yolo. Ну или просто про рыбок – 1
👍👍 9%

Больше интересных ссылок – 1
👍👍 9%

Новые фичи на сайт (пишите в лс какие)
▫️ 0%

👥 11 people voted so far.

Читать полностью…

Spark in me

14 Oct 2017 07:29

У меня встала потребность скачать много данных (30 ГБ) на headless сервере через торренты. Я всегда знал о существовании торрент-клиентов для Linux с cli, но тут я совсем недавно узнал что стандартный transmission имеет не только cli но и встроенный GUI, к которому можно получать доступ как к веб-серверу. Оказалось безумно просто и удобно - https://goo.gl/U4JGHy

Достаточно просто поставить его по гайду, остановить, поставить разрешенные IP для веб-сервера, сменить пароль, запустить - и зайти по локальному адресу в сети. И все - дальше все работает так же как десктопная версия transmission.

#linux

Читать полностью…

Spark in me

14 Oct 2017 07:14

Пара интересных заметок от человека, который участвовал в конкурсе про рыб в прошлом году:
- Сравнение его моделей для классификации фоток рыб
-- https://goo.gl/azDP6A
- Пара слов про finetuning (тут все банально)
-- https://goo.gl/BpCncB (тут нет PyTorch)

#data_science
#neural_nets

Читать полностью…

Spark in me

14 Oct 2017 06:34

Пробую Pytorch (https://goo.gl/YySVm1) - у меня пока безумно позитивные ощущения. Внезапно там гимора больше чем в керасе раза в 2-3, но свобода почти абсолютно полная. Очень много сахара программного, но работа с большим числом карточек (>1) делается одной оберткой.
Довольно легко расширять классы. Документация отстает от функционала, но поэтому проще читать сорс код. Примеры в документации по архитектурам и fine-tuning просто отличные, хоть и громоздкие. Зато они настроены на профессиональное использование.

Из чисто технических плюсов - граф расчетов в торче динамический, т.е. мы можем по понедельникам делать одно, а по вторникам другое (в этих двух гайдах лучше написано - https://goo.gl/GwN5hx - https://goo.gl/AJQ5PW)

Из минусов:
- нет такого же тула как Tensorboard. Для этих целей все используют visdom насколько я понимаю - https://goo.gl/UTD94E . Что с одной стороны отлично, т.к. можно делать все, что угодно, а с другой нужно
- нет встроенных оберток для коллбеков в виде early stopping, lr decay и прочих вкусностей. Есть такой репозиторий - но мне говорили что он пока очень сырой - https://goo.gl/kWRrbJ
- аугментации и работа с картинками - все построены на PIL, что как бы не тру - их там кот наплакал. Благо все очень легко дописывается

Есть опция работы на (!) кластере компьютеров с GPU через сеть.

#data_science
#pytorch

Читать полностью…

Spark in me

12 Oct 2017 06:01

Небольшая заметка про работу с удаленными серверами. Раньше я всегда работал исключительно через текстовые редакторы и jpn, но сейчас вероятно встала необходимость залазить в сорс-код библиотек более удобно (использовать Pycharm к примеру).

Если сочетаются 3 потребности:
- работать удаленно
- использовать IDE с удаленным интерпретатором через ssh (как правило там есть иные опции, в том числе docker плагины, но они локальные как правило) - https://goo.gl/Ej1ZTs
- использовать docker

Для начала пара ссылок про ssh-server и зачем он нужен если вы не в курсе:
- https://goo.gl/o931SR
- https://goo.gl/AQfbKJ

То по идее надо, чтобы ssh-server демон работал в докере это надо учесть еще на стадии докерфайла перед билдом контейнера, сделать EXPOSE и прокинуть порты при run. По идее в контейнер можно и так зайти (https://goo.gl/MWSbBY) но тут нужен именно демон.

По идее ssh доступ в контейнер - это зло (https://goo.gl/P7uYnm), но другого способа в этой задаче нет. Собственно по этой причине собрал и протестировал для себя образ где еще есть ssh (на основе https://goo.gl/wNEr3K).

По идее демона ssh надо просто запускать при запуске контейнера вручную.

service ssh start
Можно поизвращаться и так (https://goo.gl/kspj1h), но это как мне кажется уже совсем.

Если вам нужен докерфайл - вот ссылка
- https://goo.gl/hgUL12

#data_science
#linux
#docker

Читать полностью…

Spark in me

11 Oct 2017 20:14

https://youtu.be/WT0WtoYz2jE

Читать полностью…

Spark in me

10 Oct 2017 20:41

По ряду причин решил попробовать SSD (single shot image detection) именно на питорче и именно эту имплементацию (https://goo.gl/gj9cCX), а тут подоспел цикл статей, который поясняет все детали модели:
- Раз https://goo.gl/VeHv8g
- Два https://goo.gl/nTQddA
- Три https://goo.gl/ACQ4Ts

Как нельзя кстати.

Что такое dilated convolution
- http://www.erogol.com/dilated-convolution/

#data_science
#neural_nets

Читать полностью…

Spark in me

08 Oct 2017 09:42

Отличная паста чтобы проверять хеши файлов.

# make sure you downloaded the files correctly
import hashlib
import os.path as path

def sha256(fname):
hash_sha256 = hashlib.sha256()
with open(fname, 'rb') as f:
for chunk in iter(lambda: f.read(4096), b''):
hash_sha256.update(chunk)
return hash_sha256.hexdigest()

filenames = ['category_names.csv', 'sample_submission.csv', 'train_example.bson',
'test.bson', 'train.bson']

hashes = ['',
'',
'',
'',
'']

data_root = path.join('data/') # make sure you set up this path correctly

# this may take a few minutes
for filename, hash_ in zip(filenames, hashes):
computed_hash = sha256(path.join(data_root, filename))
if computed_hash == hash_:
print('{}: OK'.format(filename))
else:
print('{}: fail'.format(filename))
print('expected: {}'.format(hash_))
print('computed: {}'.format(computed_hash))
#python
#data_science

Читать полностью…

Spark in me

07 Oct 2017 17:18

Давно не читал новости. Накопилось.

Интересное в мире DS/ML:

Лол:
- Раскрашивалка аниме-скетчей - https://github.com/lllyasviel/style2paints - веб морда сейчас не работает

Датасеты:
- Датасет из 100к рентгеновских изображений - https://goo.gl/fxayXJ

Cофт:
- Заканчивается развитие Theano на версии 1.0 (поддержка какое-то время будет) - https://goo.gl/mVBU5F
- Несколько примеров исторических визуализаций данных - https://goo.gl/9bmxFR

Рынок в целом:
- Amazon использует 100к роботов на своих складах - https://goo.gl/TKwnYM
- UN открывает свой ML отдел - https://goo.gl/4mVSP6
- Take-two шлет cease and desist письма исследователям и компаниям, которые используют GTA 5 для тренировки нейросетей - https://goo.gl/NxY3Nt

Про железо:
- P100 GPU в облаке Гугла в бете - https://goo.gl/RdCe2v
- Краткий обзор рынка железа для ML и тренды - https://ark-invest.com/research/gpu-tpu-nvidia
-- Какой % карты Nvidia используется под тензоры - https://goo.gl/a2rVgn
-- Основные игроки на рынке железа для ML https://goo.gl/KeefWy
-- Совместимость фреймворков для ML и железа - https://goo.gl/BZH8XT
-- Рост эффективности карт Nvidia для нейросетей от поколения к поколению - https://goo.gl/z9Gav2

Про новые архитектуры и сетки:
- Замена max pooling https://goo.gl/u5VTJc на параметрический слой и код - https://github.com/singlasahil14/sortpool2d

#data_science
#digest

Читать полностью…

Spark in me

06 Oct 2017 09:17

Epsilon: open-rate email за последние 6 лет растет из-за мобильного трафика. Но CTR в email постоянно снижается

Пик эффективности пройден: общаться с клиентами нужно через мессенджеры и push

Читать полностью…

Spark in me

18 Oct 2017 06:47

Копипаста на pytorch для снижения lr по шагам.

...

parser.add_argument('--gamma', default=0.1, type=float, help='Gamma update for SGD')

...

...

stepvalues = (80000, 100000, 120000)

...

if iteration in stepvalues:
step_index += 1
adjust_learning_rate(optimizer, args.gamma, step_index)

...

def adjust_learning_rate(optimizer, gamma, step):

parser.add_argument('--gamma', default=0.1, type=float, help='Gamma update for SGD')

lr = args.lr * (gamma ** (step))
for param_group in optimizer.param_groups:
param_group['lr'] = lr#pytorch

Читать полностью…

Spark in me

16 Oct 2017 16:24

Хочу сделать себе GPU версию k-means на торче. Вам была бы интересна статья про такое?

Да – 24
👍👍👍👍👍👍👍 77%

Я девочка и не хочу ничего решать – 4
👍 13%

Нет – 3
👍 10%

Своё (в личку)
▫️ 0%

👥 31 people voted so far.

Читать полностью…

Spark in me

16 Oct 2017 15:09

В топ-10 "единорогов" - 4 китайских стартапа, которые по объему инвестиций не намного меньше компаний из США

@internetanalytics

Читать полностью…

Spark in me

16 Oct 2017 06:56

Интересное в мире ML
- Import AI - https://goo.gl/JZvTkT
- Еще раз про "классную" интернет-цензуру в Китае - https://goo.gl/Qtp2An
- Было - тестовый деплой автономных машин в районе с пенсионерами - https://goo.gl/YL3eGF
- Pixel buds - наушники Google c переводом - https://goo.gl/irp8fH
- NLP тулза - точное определение языка с использованием 1МБ памяти - https://goo.gl/Tzjzkt (вероятно логистическая регрессия на большом корпусе текста)
- Про репозитории Гугла - https://goo.gl/yRvkGP
- Google открывает филиал своего AI-research отделения в Монтреале - https://goo.gl/YRzKgF
- Гугл деплоит свой WaveNet на мобильных устройствах - https://goo.gl/AKpfMv
- Как деплоить Squeeze-Net на Raspberry pi и иметь порядка 1 кадра в секунду с распознаванием - https://goo.gl/PWrXSh (не забывайте что Pi стоит 10-20 баксов)
- Размышления про predictive shipping и Amazon - https://goo.gl/QnrtrV
- ЦРУ имеет 137 мини-проекта в сфере ML - https://goo.gl/AtqWL4
- Гугл открыл подразделение Deep Mind посвященное этике - https://goo.gl/SMuh9Z

#digest
#data_science
#machine_learning

Читать полностью…

Spark in me

15 Oct 2017 06:20

В процессе ковыряния SSD нашел такой бойлерплейт для своих кастомных аугментаций на pytorch. Приятность состоит в том, что все такие штуки очень удобно реализовывать на основе их готовых классов
- https://github.com/amdegroot/ssd.pytorch/blob/master/utils/augmentations.py

#data_science
#pytorch

Читать полностью…

Spark in me

14 Oct 2017 09:05

У меня встал вопрос расширения класса Pytorch, который мне понравился. Если бы все было банально - я бы просто написал функцию и вызвал бы ее и передал ей объект класса, но но одна проблема - некоторые утилиты в классе вызывают локальные утилиты, которые не совсем понятно как модифицировать при импорте.

Вдохновившись примером итератора с bson (было выше - https://goo.gl/xvZErF), как оказалось расширение классов делается довольно просто:
- Раз https://goo.gl/JZpfiV
- Два https://goo.gl/D3KkLm
- Ну и старая наркомания для тех кому внутрянка питона интересна
-- https://www.artima.com/weblogs/viewpost.jsp?thread=237121
-- https://www.artima.com/weblogs/viewpost.jsp?thread=236278
-- http://www.artima.com/weblogs/viewpost.jsp?thread=236275

#python
#data_science

Читать полностью…

Spark in me

14 Oct 2017 07:26

На всякий случай собираю ссылки на Image labelling tools, которые показались интересными судя по скриншотам чтобы не искать потом:
- http://sloth.readthedocs.io/en/latest/first_steps.html
- http://labelme.csail.mit.edu/Release3.0/
- https://goo.gl/QKQhCk
- http://is-innovation.eu/ratsnake/index.htm

#data_science

Читать полностью…

Spark in me

14 Oct 2017 07:01

Внезапно обнаружил такой плагин для jupyter notebook
- https://goo.gl/aJ4xcD

Кроме оглавления он еще и растягивает ваш notebook на весь экран, что экономит место)

#data_science

Читать полностью…

Spark in me

12 Oct 2017 06:20

The average web page is 3MB. How much should we care?

#article #performance #ux
@thedevs

https://goo.gl/8CHhtk

Читать полностью…

Spark in me

12 Oct 2017 05:29

Заметка - если вы используете pytorch через докер с их загрузчиками данных, не удивляйтесь, если ничего не будет работать.

Докер надо запускать с флагом nvidia-docker run --shm-size 2G (вставьте сколько не жалко), потому что он использует дисковый кеш и его стандартный размер стоит 64M.

Больше про подобные флаги:
- тут https://docs.docker.com/engine/reference/run/#runtime-constraints-on-resources
- и тут https://docs.docker.com/engine/admin/resource_constraints/

#data_science
#pytorch

Читать полностью…

Spark in me

11 Oct 2017 04:59

Интересное в мире интернета:
- Ben Evans - https://goo.gl/syu48H
- Гугл запускает пару носимых дивайсов - камеру и наушники с функцией перевода, оба заточены под ML https://goo.gl/aJGyVt https://goo.gl/Dyc2X3
- AOL закрыл свой мессенджер с 500к пользователей - https://goo.gl/izqAaF (напоминает судьбу аськи)
- Запуск первого автономного такси в "песочнице" в спальном районе для пенсионеров - https://goo.gl/xvV44J
- Китай пытается сделать интернет-цензуру "классным" местом для работы для молодых - https://goo.gl/eTCXFL
- Medium позиционирует свою бизнес модель как "сразу с подпиской и поэтому мотивирующую делать качественный контент" - https://goo.gl/YDgSSZ

___________________

- Про алгоритмический bias - https://goo.gl/uKgxcX
- Гугл деплоит свой Wavenet в своем мобильном помощнике - https://goo.gl/vjR4WC - и почитать про wavenet - https://goo.gl/vSjNvt
-- https://goo.gl/NvW4HS

___________________

#digest
#internet

Читать полностью…

Spark in me

08 Oct 2017 10:41

Оказывается уже есть готовый squeeze-net для keras с весами =)

Неплохо
- https://github.com/wohlert/keras-squeezenet

#python
#neural_nets

Читать полностью…

Spark in me

07 Oct 2017 17:30

Вышел голливудский Blade Runner 2049 - посмотрел его ночью в кинотеатре в оригинале.

Я предполагал, что будет такая же дичь как сейчас с sci-fi римейками (за списком далеко ходить не надо - GitS, Alien, Total recall - список бесконече) и оказался неправ.

Фильм самобытный, многоуровневый, за ручку почти не держат. Музыка на высоте и уровне оригинала. Визуалка тоже не подкачала, хоть тон и сделали более умеренным (что к лучшему).

В общем, 100% винрар и вин. Хотя нового ничего нет, темы личности, самоопределения человека и бессмысленности существования раскрыты.

#philosophy

Читать полностью…

Spark in me

06 Oct 2017 15:46

Выше писал про библиотеку imgaug. Не проводил рьяных тестов, но если при использовании аугментаций keras или просто через numpy на размере картинок 400x400 скорость батчей не падает, то тут падает в 4 раза даже если просто запускать класс.

Вот так.

#data_science

Читать полностью…

Spark in me

06 Oct 2017 08:57

Давно не читал новости про экономику СНГ. Удручает, что я постоянно слышу от людей с высокой зарплатой (с точки зрения персентилей, а не в долларах) и высшим образованием, что "у нас свой уникальный и особый путь". И каждый раз, когда я открываю макроэкономическую статистику - это отрезвляет от таких суждений.

TLDR - нас по всей вероятности может ждать "потерянное десятилетие". С прикладной точки зрения обывателя - судя по всему за плательщиков налогов кроме НДС и НДПИ тоже возьмутся - так что держитесь.

Последние отчеты от ЦР ВШЭ
- https://goo.gl/QbFTWh
- https://goo.gl/mT9XyY

За что зацепился глаз:
- Опережающие индикаторы - https://goo.gl/cWjbWZ - их кстати строят через PCA
- И 10 лет назад и сейчас качество институтов не меняется - https://goo.gl/aepKiH
- Экономика оживилась в первом квартале за счет отложенного спроса, в т.ч. на импорт - https://goo.gl/BP4v7n
- Перспективы
-- Раз https://goo.gl/t39ftf
-- Два https://goo.gl/KA1k3Q
-- Три https://goo.gl/Ne1HXc

Про открытие (откровенно не понимаю физиков, которые могут держать деньги в таких банках - ведь то, что там УГ можно понять просто видя качество сервиса и тренды, даже не залезая в отчетность, которая по МСФО и публична, к слову, и гуглится на banki.ru)
- Полярный лис подкрался еще в 2015-2016 годах
- Раз https://goo.gl/59grg9
- Два https://goo.gl/EEXdmj
- Три https://goo.gl/PycRoN

#statistics

Читать полностью…