snakers4 | Technologies

Telegram-канал snakers4 - Spark in me

2278

Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.

Subscribe to a channel

Spark in me

https://habrahabr.ru/post/340262/

Читать полностью…

Spark in me

https://youtu.be/IHZwWFHWa-w

Читать полностью…

Spark in me

Интересное в мире ML:
- Import AI https://goo.gl/AUxYsx
- Wild ML https://goo.gl/SSQQxC
- Amazon выпускает компилятор для ускорения работы фреймворков для глубокого обучения до 20% - https://goo.gl/G612Me
- Кому актуально - релиз TF 1.4.0 - https://goo.gl/XZ1N6B
- Alibaba инвестирует US$15bn за 3 года в передовые технологии (включая NLP и ML) - https://goo.gl/D5aG13
- AWS и Microsoft запускают новый фреймворк для глубокого обучения - https://goo.gl/gZGrNf - вроде как там граф вычислений тоже динамический
- Нейросетки раскрашивают старинные фото - https://goo.gl/GPqPwe

#digest
#data_science

Читать полностью…

Spark in me

Аналитики WEF наглядно показали как китайские стартапы завоевывают рынки и мир

https://www.weforum.org/agenda/2017/10/map-tech-titans-unicorns-china-united-states/

@internetanalytics

Читать полностью…

Spark in me

https://youtu.be/T_g6S3f0Z5I

Читать полностью…

Spark in me

Что сейчас больше интересно подписчикам?

Больше полнотекстовых статей – 4
👍👍👍👍👍👍👍 36%

Больше копоти pytorch – 3
👍👍👍👍👍 27%

Больше про GAN / архитектуры / сетки – 2
👍👍👍👍 18%

Больше про рыбок и SSD / yolo. Ну или просто про рыбок – 1
👍👍 9%

Больше интересных ссылок – 1
👍👍 9%

Новые фичи на сайт (пишите в лс какие)
▫️ 0%

👥 11 people voted so far.

Читать полностью…

Spark in me

У меня встала потребность скачать много данных (30 ГБ) на headless сервере через торренты. Я всегда знал о существовании торрент-клиентов для Linux с cli, но тут я совсем недавно узнал что стандартный transmission имеет не только cli но и встроенный GUI, к которому можно получать доступ как к веб-серверу. Оказалось безумно просто и удобно - https://goo.gl/U4JGHy

Достаточно просто поставить его по гайду, остановить, поставить разрешенные IP для веб-сервера, сменить пароль, запустить - и зайти по локальному адресу в сети. И все - дальше все работает так же как десктопная версия transmission.

#linux

Читать полностью…

Spark in me

Пара интересных заметок от человека, который участвовал в конкурсе про рыб в прошлом году:
- Сравнение его моделей для классификации фоток рыб
-- https://goo.gl/azDP6A
- Пара слов про finetuning (тут все банально)
-- https://goo.gl/BpCncB (тут нет PyTorch)

#data_science
#neural_nets

Читать полностью…

Spark in me

Пробую Pytorch (https://goo.gl/YySVm1) - у меня пока безумно позитивные ощущения. Внезапно там гимора больше чем в керасе раза в 2-3, но свобода почти абсолютно полная. Очень много сахара программного, но работа с большим числом карточек (>1) делается одной оберткой.
Довольно легко расширять классы. Документация отстает от функционала, но поэтому проще читать сорс код. Примеры в документации по архитектурам и fine-tuning просто отличные, хоть и громоздкие. Зато они настроены на профессиональное использование.

Из чисто технических плюсов - граф расчетов в торче динамический, т.е. мы можем по понедельникам делать одно, а по вторникам другое (в этих двух гайдах лучше написано - https://goo.gl/GwN5hx - https://goo.gl/AJQ5PW)

Из минусов:
- нет такого же тула как Tensorboard. Для этих целей все используют visdom насколько я понимаю - https://goo.gl/UTD94E . Что с одной стороны отлично, т.к. можно делать все, что угодно, а с другой нужно
- нет встроенных оберток для коллбеков в виде early stopping, lr decay и прочих вкусностей. Есть такой репозиторий - но мне говорили что он пока очень сырой - https://goo.gl/kWRrbJ
- аугментации и работа с картинками - все построены на PIL, что как бы не тру - их там кот наплакал. Благо все очень легко дописывается

Есть опция работы на (!) кластере компьютеров с GPU через сеть.

#data_science
#pytorch

Читать полностью…

Spark in me

Небольшая заметка про работу с удаленными серверами. Раньше я всегда работал исключительно через текстовые редакторы и jpn, но сейчас вероятно встала необходимость залазить в сорс-код библиотек более удобно (использовать Pycharm к примеру).

Если сочетаются 3 потребности:
- работать удаленно
- использовать IDE с удаленным интерпретатором через ssh (как правило там есть иные опции, в том числе docker плагины, но они локальные как правило) - https://goo.gl/Ej1ZTs
- использовать docker

Для начала пара ссылок про ssh-server и зачем он нужен если вы не в курсе:
- https://goo.gl/o931SR
- https://goo.gl/AQfbKJ

То по идее надо, чтобы ssh-server демон работал в докере это надо учесть еще на стадии докерфайла перед билдом контейнера, сделать EXPOSE и прокинуть порты при run. По идее в контейнер можно и так зайти (https://goo.gl/MWSbBY) но тут нужен именно демон.

По идее ssh доступ в контейнер - это зло (https://goo.gl/P7uYnm), но другого способа в этой задаче нет. Собственно по этой причине собрал и протестировал для себя образ где еще есть ssh (на основе https://goo.gl/wNEr3K).

По идее демона ssh надо просто запускать при запуске контейнера вручную.

service ssh start
Можно поизвращаться и так (https://goo.gl/kspj1h), но это как мне кажется уже совсем.

Если вам нужен докерфайл - вот ссылка
- https://goo.gl/hgUL12

#data_science
#linux
#docker

Читать полностью…

Spark in me

https://youtu.be/WT0WtoYz2jE

Читать полностью…

Spark in me

По ряду причин решил попробовать SSD (single shot image detection) именно на питорче и именно эту имплементацию (https://goo.gl/gj9cCX), а тут подоспел цикл статей, который поясняет все детали модели:
- Раз https://goo.gl/VeHv8g
- Два https://goo.gl/nTQddA
- Три https://goo.gl/ACQ4Ts

Как нельзя кстати.

Что такое dilated convolution
- http://www.erogol.com/dilated-convolution/

#data_science
#neural_nets

Читать полностью…

Spark in me

Отличная паста чтобы проверять хеши файлов.

# make sure you downloaded the files correctly
import hashlib
import os.path as path

def sha256(fname):
hash_sha256 = hashlib.sha256()
with open(fname, 'rb') as f:
for chunk in iter(lambda: f.read(4096), b''):
hash_sha256.update(chunk)
return hash_sha256.hexdigest()

filenames = ['category_names.csv', 'sample_submission.csv', 'train_example.bson',
'test.bson', 'train.bson']

hashes = ['',
'',
'',
'',
'']

data_root = path.join('data/') # make sure you set up this path correctly

# this may take a few minutes
for filename, hash_ in zip(filenames, hashes):
computed_hash = sha256(path.join(data_root, filename))
if computed_hash == hash_:
print('{}: OK'.format(filename))
else:
print('{}: fail'.format(filename))
print('expected: {}'.format(hash_))
print('computed: {}'.format(computed_hash))
#python
#data_science

Читать полностью…

Spark in me

Давно не читал новости. Накопилось.

Интересное в мире DS/ML:

Лол:
- Раскрашивалка аниме-скетчей - https://github.com/lllyasviel/style2paints - веб морда сейчас не работает

Датасеты:
- Датасет из 100к рентгеновских изображений - https://goo.gl/fxayXJ

Cофт:
- Заканчивается развитие Theano на версии 1.0 (поддержка какое-то время будет) - https://goo.gl/mVBU5F
- Несколько примеров исторических визуализаций данных - https://goo.gl/9bmxFR

Рынок в целом:
- Amazon использует 100к роботов на своих складах - https://goo.gl/TKwnYM
- UN открывает свой ML отдел - https://goo.gl/4mVSP6
- Take-two шлет cease and desist письма исследователям и компаниям, которые используют GTA 5 для тренировки нейросетей - https://goo.gl/NxY3Nt

Про железо:
- P100 GPU в облаке Гугла в бете - https://goo.gl/RdCe2v
- Краткий обзор рынка железа для ML и тренды - https://ark-invest.com/research/gpu-tpu-nvidia
-- Какой % карты Nvidia используется под тензоры - https://goo.gl/a2rVgn
-- Основные игроки на рынке железа для ML https://goo.gl/KeefWy
-- Совместимость фреймворков для ML и железа - https://goo.gl/BZH8XT
-- Рост эффективности карт Nvidia для нейросетей от поколения к поколению - https://goo.gl/z9Gav2

Про новые архитектуры и сетки:
- Замена max pooling https://goo.gl/u5VTJc на параметрический слой и код - https://github.com/singlasahil14/sortpool2d


#data_science
#digest

Читать полностью…

Spark in me

Epsilon: open-rate email за последние 6 лет растет из-за мобильного трафика. Но CTR в email постоянно снижается

Пик эффективности пройден: общаться с клиентами нужно через мессенджеры и push

Читать полностью…

Spark in me

Копипаста на pytorch для снижения lr по шагам.


...

parser.add_argument('--gamma', default=0.1, type=float, help='Gamma update for SGD')

...

...

stepvalues = (80000, 100000, 120000)

...

if iteration in stepvalues:
step_index += 1
adjust_learning_rate(optimizer, args.gamma, step_index)

...

def adjust_learning_rate(optimizer, gamma, step):

parser.add_argument('--gamma', default=0.1, type=float, help='Gamma update for SGD')

lr = args.lr * (gamma ** (step))
for param_group in optimizer.param_groups:
param_group['lr'] = lr#pytorch

Читать полностью…

Spark in me

Хочу сделать себе GPU версию k-means на торче. Вам была бы интересна статья про такое?

Да – 24
👍👍👍👍👍👍👍 77%

Я девочка и не хочу ничего решать – 4
👍 13%

Нет – 3
👍 10%

Своё (в личку)
▫️ 0%

👥 31 people voted so far.

Читать полностью…

Spark in me

В топ-10 "единорогов" - 4 китайских стартапа, которые по объему инвестиций не намного меньше компаний из США

@internetanalytics

Читать полностью…

Spark in me

Интересное в мире ML
- Import AI - https://goo.gl/JZvTkT
- Еще раз про "классную" интернет-цензуру в Китае - https://goo.gl/Qtp2An
- Было - тестовый деплой автономных машин в районе с пенсионерами - https://goo.gl/YL3eGF
- Pixel buds - наушники Google c переводом - https://goo.gl/irp8fH
- NLP тулза - точное определение языка с использованием 1МБ памяти - https://goo.gl/Tzjzkt (вероятно логистическая регрессия на большом корпусе текста)
- Про репозитории Гугла - https://goo.gl/yRvkGP
- Google открывает филиал своего AI-research отделения в Монтреале - https://goo.gl/YRzKgF
- Гугл деплоит свой WaveNet на мобильных устройствах - https://goo.gl/AKpfMv
- Как деплоить Squeeze-Net на Raspberry pi и иметь порядка 1 кадра в секунду с распознаванием - https://goo.gl/PWrXSh (не забывайте что Pi стоит 10-20 баксов)
- Размышления про predictive shipping и Amazon - https://goo.gl/QnrtrV
- ЦРУ имеет 137 мини-проекта в сфере ML - https://goo.gl/AtqWL4
- Гугл открыл подразделение Deep Mind посвященное этике - https://goo.gl/SMuh9Z

#digest
#data_science
#machine_learning

Читать полностью…

Spark in me

В процессе ковыряния SSD нашел такой бойлерплейт для своих кастомных аугментаций на pytorch. Приятность состоит в том, что все такие штуки очень удобно реализовывать на основе их готовых классов
- https://github.com/amdegroot/ssd.pytorch/blob/master/utils/augmentations.py

#data_science
#pytorch

Читать полностью…

Spark in me

У меня встал вопрос расширения класса Pytorch, который мне понравился. Если бы все было банально - я бы просто написал функцию и вызвал бы ее и передал ей объект класса, но но одна проблема - некоторые утилиты в классе вызывают локальные утилиты, которые не совсем понятно как модифицировать при импорте.

Вдохновившись примером итератора с bson (было выше - https://goo.gl/xvZErF), как оказалось расширение классов делается довольно просто:
- Раз https://goo.gl/JZpfiV
- Два https://goo.gl/D3KkLm
- Ну и старая наркомания для тех кому внутрянка питона интересна
-- https://www.artima.com/weblogs/viewpost.jsp?thread=237121
-- https://www.artima.com/weblogs/viewpost.jsp?thread=236278
-- http://www.artima.com/weblogs/viewpost.jsp?thread=236275

#python
#data_science

Читать полностью…

Spark in me

На всякий случай собираю ссылки на Image labelling tools, которые показались интересными судя по скриншотам чтобы не искать потом:
- http://sloth.readthedocs.io/en/latest/first_steps.html
- http://labelme.csail.mit.edu/Release3.0/
- https://goo.gl/QKQhCk
- http://is-innovation.eu/ratsnake/index.htm

#data_science

Читать полностью…

Spark in me

Внезапно обнаружил такой плагин для jupyter notebook
- https://goo.gl/aJ4xcD

Кроме оглавления он еще и растягивает ваш notebook на весь экран, что экономит место)

#data_science

Читать полностью…

Spark in me

The average web page is 3MB. How much should we care?

#article #performance #ux
@thedevs

https://goo.gl/8CHhtk

Читать полностью…

Spark in me

Заметка - если вы используете pytorch через докер с их загрузчиками данных, не удивляйтесь, если ничего не будет работать.

Докер надо запускать с флагом nvidia-docker run --shm-size 2G (вставьте сколько не жалко), потому что он использует дисковый кеш и его стандартный размер стоит 64M.

Больше про подобные флаги:
- тут https://docs.docker.com/engine/reference/run/#runtime-constraints-on-resources
- и тут https://docs.docker.com/engine/admin/resource_constraints/

#data_science
#pytorch

Читать полностью…

Spark in me

Интересное в мире интернета:
- Ben Evans - https://goo.gl/syu48H
- Гугл запускает пару носимых дивайсов - камеру и наушники с функцией перевода, оба заточены под ML https://goo.gl/aJGyVt https://goo.gl/Dyc2X3
- AOL закрыл свой мессенджер с 500к пользователей - https://goo.gl/izqAaF (напоминает судьбу аськи)
- Запуск первого автономного такси в "песочнице" в спальном районе для пенсионеров - https://goo.gl/xvV44J
- Китай пытается сделать интернет-цензуру "классным" местом для работы для молодых - https://goo.gl/eTCXFL
- Medium позиционирует свою бизнес модель как "сразу с подпиской и поэтому мотивирующую делать качественный контент" - https://goo.gl/YDgSSZ

___________________

- Про алгоритмический bias - https://goo.gl/uKgxcX
- Гугл деплоит свой Wavenet в своем мобильном помощнике - https://goo.gl/vjR4WC - и почитать про wavenet - https://goo.gl/vSjNvt
-- https://goo.gl/NvW4HS

___________________

#digest
#internet

Читать полностью…

Spark in me

Оказывается уже есть готовый squeeze-net для keras с весами =)

Неплохо
- https://github.com/wohlert/keras-squeezenet

#python
#neural_nets

Читать полностью…

Spark in me

Вышел голливудский Blade Runner 2049 - посмотрел его ночью в кинотеатре в оригинале.

Я предполагал, что будет такая же дичь как сейчас с sci-fi римейками (за списком далеко ходить не надо - GitS, Alien, Total recall - список бесконече) и оказался неправ.

Фильм самобытный, многоуровневый, за ручку почти не держат. Музыка на высоте и уровне оригинала. Визуалка тоже не подкачала, хоть тон и сделали более умеренным (что к лучшему).

В общем, 100% винрар и вин. Хотя нового ничего нет, темы личности, самоопределения человека и бессмысленности существования раскрыты.

#philosophy

Читать полностью…

Spark in me

Выше писал про библиотеку imgaug. Не проводил рьяных тестов, но если при использовании аугментаций keras или просто через numpy на размере картинок 400x400 скорость батчей не падает, то тут падает в 4 раза даже если просто запускать класс.

Вот так.

#data_science

Читать полностью…

Spark in me

Давно не читал новости про экономику СНГ. Удручает, что я постоянно слышу от людей с высокой зарплатой (с точки зрения персентилей, а не в долларах) и высшим образованием, что "у нас свой уникальный и особый путь". И каждый раз, когда я открываю макроэкономическую статистику - это отрезвляет от таких суждений.

TLDR - нас по всей вероятности может ждать "потерянное десятилетие". С прикладной точки зрения обывателя - судя по всему за плательщиков налогов кроме НДС и НДПИ тоже возьмутся - так что держитесь.

Последние отчеты от ЦР ВШЭ
- https://goo.gl/QbFTWh
- https://goo.gl/mT9XyY

За что зацепился глаз:
- Опережающие индикаторы - https://goo.gl/cWjbWZ - их кстати строят через PCA
- И 10 лет назад и сейчас качество институтов не меняется - https://goo.gl/aepKiH
- Экономика оживилась в первом квартале за счет отложенного спроса, в т.ч. на импорт - https://goo.gl/BP4v7n
- Перспективы
-- Раз https://goo.gl/t39ftf
-- Два https://goo.gl/KA1k3Q
-- Три https://goo.gl/Ne1HXc

Про открытие (откровенно не понимаю физиков, которые могут держать деньги в таких банках - ведь то, что там УГ можно понять просто видя качество сервиса и тренды, даже не залезая в отчетность, которая по МСФО и публична, к слову, и гуглится на banki.ru)
- Полярный лис подкрался еще в 2015-2016 годах
- Раз https://goo.gl/59grg9
- Два https://goo.gl/EEXdmj
- Три https://goo.gl/PycRoN

#statistics

Читать полностью…
Subscribe to a channel