Interesting dataset with room layouts (a lot of them)
- http://lsun.cs.princeton.edu/2015.html
- http://lsun.cs.princeton.edu/2016/
#datasets
A year in retrospective on Spark-in.me:
- https://spark-in.me/post/spark-in-me-year-one-retrospective
-- Happy holidays!
-- No cringe content
-- Fist year summary and some info for potential customers
#digest
#data_science
Fast.ai выложили версию 2 первых видосов...но смотреть их я конечно не буду)) кто посмотрел оба набора поделитесь чем отличаются
Читать полностью…Завидую людям, которые могут с серьезным лицом стакать 30 фолдов XGBoost на анонимных фичах.
Как-то совсем грустненько
- https://goo.gl/DviUcZ
#data_science
Интересные бойлерплейты от DrivenData для проектов в сфере Data Science.
Давать такие штуки просто тем, кто сделал модель - это безусловно труЪ, но ожидать, что даже за приз люди будут морочиться на все 100% тоже глупо. С другой стороны если работать именно над кодом open-source на работе, то это очень круто. Но я не пишу код за деньги)
- Бойлерплейт
-- http://drivendata.github.io/cookiecutter-data-science/
- GNU make
-- https://www.gnu.org/software/make/
-- http://blog.kaggle.com/2012/10/15/make-for-data-scientists/
-- https://www.gnu.org/prep/standards/html_node/Makefile-Conventions.html#Makefile-Conventions
А вообще я давно заметил что простые инструменты рулят. К примеру на мощной машине .pipe в pandas может заменить вам и makefile и luigi. Все это зачастую технофашизм. Наверное если делать командой 100 проектов в год, то это супер зайдет.
#data_science
Посмотрел фильм Loving Vincent.
Для справки - это как бы детективная история про последние дни жизни Ван Гога, нарисованная в 12 FPS полностью в его стиле за 7 лет. Фильм идет примерно полтора часа - посчитайте сколько там картин.
То есть 100 художников 7 лет кадр за кадром перерисовывали снятые вручную сценки в стиль художника. Фильм собрал много денег на кикстартере - https://www.kickstarter.com/projects/438026311/loving-vincent-film-bring-van-goghs-paintings-to-l - но я читал, что это не единственное финансирование.
А теперь мой punchline - если купить с пяток видеокарт и хорошенько покурить последние статьи про видео и GAN-ы, то вполне вероятно такой фильм условно можно сделать за неделю из любого видео. Понятно, что скорее всего это не будет юзабельно как фильм, но просто подумайте. Это был бы идеальный use-case для таких сеток!
И да - фильм хороший.
#deep_learning
Недавно поднимал вопрос работы с pre-trained embeddings.
До дела не дошло, но вот ссылки набрались полезные
- Работа с готовыми векторами для текста в Pytorch
-- https://github.com/A-Jacobson/CNN_Sentence_Classification/blob/master/WordVectors.ipynb
-- https://discuss.pytorch.org/t/can-we-use-pre-trained-word-embeddings-for-weight-initialization-in-nn-embedding/1222/11
-- https://github.com/pytorch/text/blob/master/torchtext/vocab.py
- И еше ссылка на пост с векторами для русского языка
-- /channel/snakers4/1623
#data_science
#deep_learning
#nlp
С другой стороны - против нас как бы были грандмастеры, что тоже добавило веселья, когда начался замес в самом конце.
Читать полностью…Репост на каггле поста от победителей тачек. Как бы повторяет их гугл-док, но посмотрите, если не видели.
- http://blog.kaggle.com/2017/12/22/carvana-image-masking-first-place-interview/
#deep_learning
Новые статьи от чуваков из fast.ai:
От них немного попахивает душком сейф-спейса и "девочки тоже могут", но в любом случае чуваки делятся опытом бесплатно - и вероятно у них там такая жизнь
- Как создавать валидационные выборки - https://goo.gl/kx39ok - про реальность при деплое и важность отложенной валидации (а не в соревнованиях). В реальности важнее скорее проверить свою модель 5 раз и собрать больше данных, чем стакать 10 фолдов
- Персональные брендинг ("продаванство") и как с этим жить и стоит ли - http://www.fast.ai/2017/12/18/personal-brand/ - мое лично мнение, что у русских его слишком мало, а у американцев - слишком много
- Еще один краткий обзор того, что нужно для работы в сфере AI - http://www.fast.ai/2017/11/16/what-you-need/ - поверхностный обзор железа и либ на рынке
- Если вы сомневаетесь нужна ли вам коробка - посмотрите цены на AWS и есть ли второе или третье применение вашей коробке (кино, помойка, игры, итд). Вот девочки, которые "смогли" в сбор коробки (если вы прочитаете что куда втыкать и не перепутаете нужный вам сокет, то это проще, чем лего)
-- https://goo.gl/VCpNLN
-- https://goo.gl/Ciqe63
-- https://goo.gl/uru3Tz
- Преимущества Pytorch
easier to debug
dynamic computation is much better suited for natural language processing
traditional Object Oriented Programming style (which feels more natural to us)
TensorFlow’s use of unusual conventions like scope and sessions can be confusing and are more to learn
На практике в Pytorch меня только выморозило, что LSTM там очень нестабильны (или руки у меня кривые).
#data_science
#deep_learning
Размышления на тему железа и Nvidia Titan V.
Очень советую прочитать
- http://timdettmers.com/2017/12/21/deep-learning-hardware-limbo/#more-627
TLDR;
So for consumers, I cannot recommend buying any hardware right now. The most prudent choice is to wait until the hardware limbo passes. This might take as little as 3 months or as long as 9 months. So why did we enter deep learning hardware limbo just now?
Отложите покупку карточек.
#deep_learning
Новый конкурс на Driven data. Вроде даже не мерзкий
- https://www.drivendata.org/competitions/50/worldbank-poverty-prediction/
#data_science
Pillow-SIMD is a Pillow fork, that claims 3-6x faster performance on CPU using same resources
- https://github.com/uploadcare/pillow-simd
- https://habrahabr.ru/post/301576/
It claims to be this easy
$ pip uninstall pillow
$ CC="cc -mavx2" pip install -U --force-reinstall pillow-simd
#computer_vision
A small job post for students (please share if you have friends that may like it)
Looking back at the channel stats - it is good for SEO to do reposts on habrahabr.ru. They have an anal policy about "unique content", that does not enable you to promote your blog, unless it is in English (now it is) or you just pay them an unreasonable amount of money.
But it takes a lot of time to translate something back and do an article using their awful CMS. So - if you are interested in helping us to cross-post our recent articles there - you are welcome.
I am ready to pay well for this and in US dollars.
If you are interested - let's discuss the terms here @snakers41
Сделать с первого числа канал преимущественно на английском?
Без разницы – 32
👍👍👍👍👍👍👍 41%
Не разумею такую мову – 21
👍👍👍👍👍 27%
Давно пора – 18
👍👍👍👍 23%
А как же неполиткорректный юмор и троллинг? – 5
👍 6%
Продался отписка – 2
▫️ 3%
👥 78 people voted so far.
Небольшая статья, которая родилась из халтурки которую я делал по-быстрому перед новым годом.
https://spark-in.me/post/playing-with-social-network-data
Заказчики несите мне еще больше золота!
#data_science
Если вы сейчас собираете себе или компании железо для нейросеток, то не только статья про GPU Limbo, но и эта статься про ответ Intel на новые линейки от AMD вам будет интересна
- https://3dnews.ru/954174
- http://timdettmers.com/2017/12/21/deep-learning-hardware-limbo/#more-627
Понятно, что процессор это не боттлнек, но все равно интересно как конкуренция влияет на рынок.
#hardware
Статистика за 2017 год от Kaggle:
- https://goo.gl/XTa3j3
- https://goo.gl/fXzdoA
- https://goo.gl/SdfGyo
Солнечные американцы только не научились еще
- делать письма доступными по ссылке
- взвешивать графики участников по местам. Сразу бы Китай и Россия вышли вперед
#data_science
Закончился конкурс с джунглями. Мы заняли 3 место. Не знаю радоваться или плакать. Пост опубликую, после того как орги нарисуются.
Тренд вроде есть (67 на тачках, 18 на рыбках, 3 тут) - и все конкурсы из списка были не очень простые. Но радости от победы пока мало. С другой стороны изучено было очень много материала, который мы и покроем в статье.
Попробовал новые архитектуры нейросетей в качестве энкодеров для transfer learning (nasnet, densenet) - они ведут себя хуже, чем inception4 / inception-resnet / resnet.
Вот как-то так. Может их надо по-особенному как-то тренировать, но есть еще и такие минусы:
- densenet жрет много памяти при тренировке из-за обильных коннектов внутри модели - градиенты хранить надо
- nasnet имеет веса примерно в 2 раза толще, чем inception4 и резнет - что отражается на памяти и скорости работы
#deep_learning
Оффтоп, но как бы про такое лучше рассказать максимально большому числу людей. Пошлите всем своим друзьям, чтобы не было мучительно обидно.
Не секрет, что "сытые" годы привели к тому, что вероятность встретить на улице "гоп-стоп", бандитов, алкашей и отморозков упала. Но не будучи лохом, и продавая товары на Авито по мелочи очень давно (все остальные сайты полное говно, несмотря на абсолютную мерзопакостность алгоритмов Авито и их бизнес-модели, но это отдельная история) - я начал видеть активных жуликов только примерно год назад, как раз аккурат после начала валютного кризиса. Капитан очевидность также подсказывает, что это неспроста.
Вот 3 бизнес-модели жуликов, с которыми я столкнулся (они по-своему гениальны):
1. Если товар "дорогой" (я продавал картонную кровать из Икеи), то вам пишет СМС реальный человек (или робот с телефона, который также читает человек), упоминая цену и ваше имя в СМС. Потом он звонит (из другого региона кстати) и предлагает перевести предоплату на вашу карту. (Еще кстати звонки на его телефон как-то странно тарифицируются...) Вроде пока ок. Он спрашивает банк и говорит, что ему надо подумать. В реальности он пробивает по своей базе какая дырка в безопасности есть в таком банке. Потом он перезванивает и просит номер карты и говорит, что мол готов сейчас скинуть деньги и приехать вечером. Как бы номер карты это не криминал, но потом он просит код из СМС. Антракт. При очевидных попытках потроллить - вы сразу попадаете в бан на звонки. Дозвониться можно через скайп - и троллинг милицией вызывает бурю веселого мата в ответ - как минимум развлечение. На следующий день - телефон уже недоступен и через скайп.
2. Вам приходит такая СМС с указанием, что вам перевели деньги. Логично - 2017 год на дворе и все говно-сервисы по идее должны сделать escrow - но никто нормальный в России естественно этим пользоваться не будет. Пройдя по ссылке - вы видите это - https://goo.gl/fLRzkc. Сломанный CSS и какая-то пародия на домен и админку. Топорно. Обратите внимание, что имя и цена заказа были спарсены в базу жуликов.
3. Приходит СМС - https://goo.gl/NZh4AQ. С именем и суммой. Потом пройдя по ссылке вы видите такой сайт - https://goo.gl/39sZJW. Причем андроид сразу подсказывает вам в чем фишка. Домен уже лучше подделали - не сразу отличить от субдомена.
А теперь самое классное:
1 Если вы пойдете в милицию - то с высокой степенью вероятности вам откажут в помощи за отсутствием состава преступления, если вы не повелись. Это как потерять биткоины - не преступление;
2 Парсинг, база, говно-домены и динамический сайт с простейшим АПИ, тупые психологические трюки - все до боли гениально и просто;
3 Если у вас "продвинутый" банк - авторизация по СМС, регистрация по номеру телефона с СМС на старый номер и прочее - то вас ждет приятный сюрприз. Плюс иногда даже по номеру карты + CVV на иностранных сайтах можно что-то купить. А учитывая такие эпизоды - https://goo.gl/PTFVfb - 3 цифры подбираются брутфорсом по идее;
#internet
"Классическая" статьи - MobileNet от гугла.
- TLDR - на Imagenet дает точность 70% и в 4 раза быстрее, чем SqueezeNet - https://goo.gl/RhmuLw
- Статья http://arxiv.org/abs/1704.04861
- Базовый блок - очень похож на inception - блок в котором свертки по каналам и их линейная комбинация идут последовательно - https://goo.gl/Rj2nhM
- Вся архитектура сетки - https://goo.gl/GrCtGG
- Бенчи сетки по числу параметров
-- https://goo.gl/P5t952
-- https://goo.gl/K3Rvsk
Из интересного - из-за скорости можно использовать для transfer learning и knowledge distillation
- берем выход вашего некого "хорошего" алгоритма
- учим сетку на этом выходе - она учится очень быстро и просто
- profit
Ну и очень интересно использовать как энкодер.
#deep_learning
Для тех, кто хочет сделать rsync большого числа файлов через ssh + ключ.
Не выполняйте команду, пока не прочтете доку по всем флагам.
sudo rsync --dry-run --stats --ignore-existing --size-only -rvz -e 'ssh -p PORT -i /home/USER/.ssh/PRIVATE_KEY' --progress REMOTE_USER@REMOTE_HOST:/path/to/remote/folder /path/to/local/folder/
#linux
Блог пост с недавнего конкурса про рыб
- http://drivendata.co/blog/fish-winners/
#deep_learning