snakers4 | Technologies

Telegram-канал snakers4 - Spark in me

2278

Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.

Subscribe to a channel

Spark in me

Про оценку компании Tesla
- https://goo.gl/Gdj58z

#internet

Читать полностью…

Spark in me

Про интуицию при работе с многомерным пространство м

https://youtu.be/zwAD6dRSVyI

#math

Читать полностью…

Spark in me

Еще нагуглилось такое на эту тему
- https://github.com/floydhub/dl-setup/blob/master/README.md

Читать полностью…

Spark in me

Памятуя о том, что одна моя знакомая и моя девушка хотят взяться за курсы по DS / Deep Learning, я описал значительную часть своего опыта по настройке серверов для этих целей в статье, чтобы минимально отвечать на их вопросы =)

https://spark-in.me/post/gpu-server-set-up-guide

Комментируйте, критикуйте, будем добавлять и расширять)

#data_science

Читать полностью…

Spark in me

Кажется на курсере появился новый курс про Deep Learning от Andrew Ng.
Как руки дойдут напишу подробнее
- https://www.coursera.org/specializations/deep-learning
- andrewng/deeplearning-ai-announcing-new-deep-learning-courses-on-coursera-43af0a368116" rel="nofollow">https://medium.com/@andrewng/deeplearning-ai-announcing-new-deep-learning-courses-on-coursera-43af0a368116

Пока судя по описанию курс несколько меньше суммы 2 курсов fast.ai. Посмотрим)

#data_science

Читать полностью…

Spark in me

Интересное в мире интернета
- Ben Evans - https://goo.gl/B3qAeu
-- Facebook перевел свой перевод на LTSM нейросети - https://goo.gl/yJSeK1
-- Как используют WhatsApp и Telegram в Африке - https://goo.gl/nY2Q9K
-- Как политика браузера Safari повлияет на рекламную индустрию - https://goo.gl/Hd8ai7
-- Как Гугл управляет своими репозиториями - https://goo.gl/7R4gzC

#internet

Читать полностью…

Spark in me

Седьмая статья в цикле про птичек
- https://spark-in.me/post/bird-voice-recognition-seven

Остается один шаг до финальных архитектур и модели. Ура.

#data_science

Читать полностью…

Spark in me

Несколько раз в последнее время ставил тот же софт на ПК для работы с GPU. Плюс меня спрашивали как настраивать сервер для работы с нейросетями.

Поэтому список полезных ссылок на форумы, скриптов и файлов:
- Ссылка на посты про сборку сервера и установку драйверов GPU
-- /channel/snakers4/702
-- /channel/snakers4/149
- Скрипт для настройки сервера с GPU от fast.ai
(внимание, там theano, старая версия keras, дрова и cuda / cudnn лучше всегда ставить самому на своей машине)
-- resources.spark-in.me/gpu_deep_install.sh
- Софт, который использую я
-- resources.spark-in.me/vds_w_gpu.sh

Disclaimer
- Для исследования данных и отладки лучше использовать jupyter notebook
- Для запуска скриптов на несколько суток - лучше написать отдельный отлаженный .py скрипт, который не будет зависеть от вас, и повесить его на отдельную сессию tmux

И программа всех времен и народов для упрощения жизни - tmux
-- /channel/snakers4/720

#data_science
#digest

Читать полностью…

Spark in me

Для тех, кто недавно присоеденился, как пользоваться каналом
http://spark-in.me/post/how-to-use-channel

Читать полностью…

Spark in me

Неплохая статья про способы фильтрации трафика

Читать полностью…

Spark in me

Посмотрел 3 урок из курса fast.ai про линейную алгебру. Основная идея - прикладные методы для разложения огромных матриц - применимо для анализа текста, сжатия информации и разложения на темы.

- Сабж - https://goo.gl/gk6WPZ
- Видео - https://goo.gl/1TpjUP
- ipynb - https://goo.gl/DDL1Qm

#data_science

Читать полностью…

Spark in me

Из раздела индусского кода - как эффективно загружать много данных в память на питоне в виде .npy массивов
- https://hjweide.github.io/efficient-image-loading

#data_science

Читать полностью…

Spark in me

CloudBerry An Easy To Use Cloud Backup Tool For Linux
-> https://goo.gl/QCbN7k

Читать полностью…

Spark in me

Интересное в мире ML
- Import AI https://goo.gl/edj1qi
- Занятная статья про ImageNet и его роль - https://goo.gl/B2vGyy
-- За 10 лет точность выросла с 70+% до 95-97%
-- https://goo.gl/FrgAvJ
- Баян, но второй конкурс AI-гранта - https://goo.gl/2Lgsw6 - я послал своих птичек
- UK запускает конкурс с призом в US$23m на разработку систем автономных авто
- Соревнование Nexar-2 + 50,000 картинок из авторегистраторов - весьма прикольно и жизненно - https://goo.gl/LPkcsP
- Вы можете подарить свой голос Mozilla Foundation для их исследований - https://goo.gl/vk6aXq
- Китайцы выиграли конкурс WebVision - https://goo.gl/GdZ4V8
- Про AutoML от гугла - https://goo.gl/pv5cPy

#data_science
#digest

Читать полностью…

Spark in me

Продолжая тему с чит-шитами - сборник шаблонов архитектур нейросетей
- https://goo.gl/v9CZsF

#data_science

Читать полностью…

Spark in me

Всю неделю болею и не соображаю - поэтому пытаюсь участвовать в соревновании на Kaggle (точнее все самое интересное я изучил, осталась техника).

Но интересно - модный сайт floydhub, который предоставляет машины для нейросетей, на самом деле просто использует p2.xlarge от Амазона.

Также заявленная фича datasets у них просто не работает для больших датасетов.

#data_science

Читать полностью…

Spark in me

Задался вопросом - а как перекинуть 20ГБ файлов с одного сервера на другой, и через консоль?
Нашелся такой сервис
- https://transfer.sh
# Upload using cURL
$ curl --upload-file ./hello.txt https://transfer.sh/hello.txt https://transfer.sh/66nb8/hello.txtВ сочетании с коммандой tar просто бесценно =)

split -b 1G -d bigfile bigfile-part
cat bigfile-part* > bigfile
scp тут не подходит, т.к. палить свой сервер не хочется, а IP и ssh доступа к удаленному серверу напрямую нет (только через сервис).

#data_science

Читать полностью…

Spark in me

Интересное в мире DS/ML (в этот раз негусто):

- Andrew Ng открыл новый курс на Курсере про Deep Learning - ссылка выше (было)
- Facebook полностью перешел на нейросети для перевода - https://goo.gl/VhjA9H
- Pytorch v0.2 - https://goo.gl/99QpB3 - может кому-то актуально
- Люди из Salesforce тренируют LTSM сети для перевода с одного языка на другой, берут получившийся декодер (часть сети) и используют его чтобы скормить его выход другим нейросетям, которые делают более простые вещи - https://goo.gl/6Kt77o

#data_science

Читать полностью…

Spark in me

Посмотрел 4й урок про прикладную линейную алгебру от fast.ai. Рассказывают про использование SVD (медленно), PCA и robust PCA (рекоммендуют этот метод) для разделения видео на фон и все остальное.

Очень интересно и занятно иметь такое в виду:
- Сабж - https://goo.gl/gk6WPZ
- Видео - https://goo.gl/dxcwV7
- HTML превью - https://goo.gl/VKxsXy

Суть - позволяет делать такие разделения:
- Раз - https://goo.gl/DvJvKU
- Два - https://goo.gl/iP2YZE
- Три - https://goo.gl/Vs22WY

Применяется при анализе фото и потокового видео.

#data_science

Читать полностью…

Spark in me

Заметка про установку Cudnn для keras с tensorflow в качестве бекенда. Внезапно для некоторых слоев в Keras подходит только 5 версия cudnn.

#data_science

Читать полностью…

Spark in me

Раз такое дело, то вот список всех заметок и статей про птичек.

Суть проекта - сделать максимально точную и простую модель, чтобы отличать птиц по их песням с помощью нейросетей.

Распознавание голосов птичек
:
- Тизер - древо жизни - /channel/snakers4/1214
- Птички - начало - /channel/snakers4/1215
- Про птичек перевели одну статью на русский - /channel/snakers4/1241
- Про птичек - часть 3 - /channel/snakers4/1238
- Про птичек - часть 4 - /channel/snakers4/1242
- Про птичек - часть 5 - /channel/snakers4/1265
- Про птичек - часть 6 - /channel/snakers4/1266
- Про птичек - часть 7 - https://spark-in.me/post/bird-voice-recognition-seven

#data_science

Читать полностью…

Spark in me

На тему простых бекапов и стратегии бекапов.
Если вы пользуетесь digital ocean для небольших проектов или для не очень ресурсоемких боевых задач, то у них есть снепшоты для бекапирования. Но их нельзя делать по расписанию.

Скрипт надо запускать раз в сутки по крону. Скрипт написан на третьем питоне. Скрипт создает все снепшоты для всех дроплетов и удаляет старые снепшоты, количество которых больше 7 на 1 дроплет, при этом не трогая снепшоты с особым ключевым словом в названии.

После чтения их доки, написал небольшой прикладной скрипт для создания снепшотов:
- Скрипт - https://resources.spark-in.me/do_backup.html
- Дока их АПИ - https://goo.gl/ZXEfTk
- Оригинальный гайд на Ruby - https://goo.gl/gkDQ4n

Если вам интересно больше на такую тему - пишите в личку, опишу свои текущие приемы.

#internet

Читать полностью…

Spark in me

https://youtu.be/vmkqFRyNUWo

#data_science

Читать полностью…

Spark in me

Для тех, кто недавно присоеденился к каналу (сейчас я делаю пару итераций в паре проектов, все детально опишу в виде статей по итогу) - подборка статей и заметок с канала на тему:

"Длинные" статьи автора на темы которые хотелось покрыть, заметки из практики

Строчек много (и это не все), поэтому они разделены на то, что уже было в подборке и "новое"
(если вы уже читали, мотайте вниз).

Было:
1 Изучение языков - как и зачем http://spark-in.me/post/learning-languages
2 Изучить что-то новое и не стать лохом http://spark-in.me/post/learn-sth-new
3 Оптимизация кальных бизнес процессов http://spark-in.me/post/tedious-process-optimization
4 На пальцах как работает распознавание образов /channel/snakers4/144
5 Сталкинг в соц-сетях http://spark-in.me/post/find-a-lurker
6 Работа маленькой командой на сервере без гимора http://spark-in.me/post/ubuntu-dev-server-for-dummies
7 Заметка про будущее моделей /channel/snakers4/501
8 Заметка про open data day /channel/snakers4/545
9 Заметка про обманщиков /channel/snakers4/549
10 Заметка про Uber /channel/snakers4/562
11 Заметка про jp notebook /channel/snakers4/565
12 Заметка про графики в питоне /channel/snakers4/566
13 Заметка про выбор тикет / таск менеджера /channel/snakers4/568
14 Заметка про организацию бизнес-процессов /channel/snakers4/571
15 Заметка про оптимизацию оффлайн рекламы /channel/snakers4/587
16 Поиск работы в начале 2017 года в Москве http://spark-in.me/post/job-panopticum
17 Треш с которым вы можете столкнуться при покупке квартиры http://spark-in.me/post/flat-purchase-panopticum
18 Финансовый анализ ипотеки - http://spark-in.me/blog/mortgage-analyzed
19 Треш с которым вы можете столкнуться при покупке квартиры http://spark-in.me/post/flat-purchase-panopticum
20 Заметка про CPM в телеграме /channel/snakers4/773
21 Анализ пайплайнов сделок - /channel/snakers4/860
22 Заметка про attention span, CPM и конверсию /channel/snakers4/865
23 Статья автора про онлайн платежные страницы /channel/snakers4/917, /channel/snakers4/951
24 Статья автора про карту артистов - /channel/snakers4/978
25 Про интуицию, здравый смысл и простые байесовы модели на практике - /channel/snakers4/1011
26 Spark-in.me - зачем и почему /channel/snakers4/1015
27 Про разметку кур в нейрокурятнике - /channel/snakers4/1038
29 Как научиться науке о данных не заплатив 150,000 рублей /channel/snakers4/1029

"Новое"
30 Переход на HTTPS - /channel/snakers4/1109
31 The art of learning - /channel/snakers4/1099
32 Как пользоваться каналом - /channel/snakers4/1084
33 Про деплой и поддержку сервера - /channel/snakers4/1074
34 Про бекапы - /channel/snakers4/1069
35 Про бекенд нашего сайта - /channel/snakers4/1046
36 Как пользоваться каналом - /channel/snakers4/1084
37 Заметка про Гугл, Андроид, Эппл и машинное обучение - /channel/snakers4/1085
39 Книга про самообразование - /channel/snakers4/1099
40 Заметка про семантическое ядро - /channel/snakers4/1102
41 Заметка про RTB - /channel/snakers4/1110
42 Анализ рынка через сайтмапы - /channel/snakers4/1127
43 SMTP шлюзы - https://spark-in.me/post/smtp-relay-outsiders-view-1
44 Сайтмапы - часть 3 /channel/snakers4/1171
45 Сайтмапы - часть 2 /channel/snakers4/1153
46 Анализ 1.5м фоток квартир - начало - /channel/snakers4/1180
47 Визуализации нейросетей - фейл - /channel/snakers4/1196
48 Визуализация звука в питоне - /channel/snakers4/1197

#digest
#data_science

Читать полностью…

Spark in me

Рунет обреченный. Часть 2
http://blogerator.org/page/runet-obrechennyj-tor-bridge-i2p-regulirovanie-interneta-i-cenzura-2

Читать полностью…

Spark in me

Занятная статья - мысли профессора финансов про биткоины (несовместимые вещи) =)
- https://goo.gl/DkgWfH

#internet

Читать полностью…

Spark in me

Натолкнулся на такие туториалы по Keras + tensforflow c картинками и пояснениями в ipynb
- https://github.com/leriomaggio/deep-learning-keras-tensorflow

#data_science

Читать полностью…

Spark in me

Думая, как обработать 100к звуков побыстрее, я начал искать материалы про многопоточность в Питоне.

И натолкнулся на пару великолепных статей. Не могу не поделиться:
- Раз - https://goo.gl/FRoRRX
- Два - https://goo.gl/7dzxDP

Простыми словами - многопоточность для чайников в 1 строке.

#data_science

Читать полностью…

Spark in me

Если кому-то нужно скачать очень очень много файлов, то внезапно на просторах интернета нашелся такой пример на multi-curl, который работает из коробки без танцев с бубнами и с минимальным чтением документации
- https://goo.gl/fm1XKf

#data_science

Читать полностью…

Spark in me

Интересное в мире интернета:
- Ben Evans https://goo.gl/PnmXhQ
-- Новая Tesla - https://goo.gl/2ymRpu
-- Spotify - 60m подписчиков - https://goo.gl/6nUD78
-- PG значительно снижает свои бюджеты на онлайн рекламу из-за ее неэффективности (капитан очевидность замечает, что такие компании покупают ее через агентства - эффективностью там и не пахнет) - https://goo.gl/gSeJwm
-- Эппл банит VPN приложения в Китае - https://goo.gl/k2xHnB
-- Прогноз Bloomberg - электроавтомобили взлетят в ~2030x из-за падения цены аккумуляторов - https://goo.gl/kX9Bue

#internet

Читать полностью…
Subscribe to a channel