Еще и про птиц перевели:
https://spark-in.me/post/ru-bird-voice-recognition-one
Местами видно, что правили а так кое-где феерические высказывания проскакивают)
#data_science
Про интуицию при пользовании t-SNE - https://distill.pub/2016/misread-tsne/
#data_science
Послушал первую лекцию в новом цикле лекций fast.ai про вычислительную линейную алгебру
- Syllabus - http://www.fast.ai/2017/07/17/num-lin-alg/
- Репозиторий - https://github.com/fastai/numerical-linear-algebra/blob/master/README.md
- Видео - https://goo.gl/3X52jP
Это все безумно кстати, потому что в новом проекте я дошел до точки, когда нужно сделать кое-какие простые преобразования с матрицами на GPU и неплохо бы посмотреть какие есть альтернативы.
Что показалось интересным / занятным:
- Сравнение скорости основных вычислений - https://goo.gl/zM5r7b
- Наглядная иллюстрация того, как как работают алгоритмы ускорения вычислений на низком уровне -https://goo.gl/aMvVgf
- Еще один интерактивный источник по линейной алгебре - http://immersivemath.com/ila/learnmore.html
- Опять серия видео 3blue1brown про линейную алгебру - https://goo.gl/pM15Ao
#data_science
Обратил внимание, что последние статьи на английском гораздо меньше читали - https://goo.gl/Rszso9. Сделать русскую версию?
1 Да – 63
👍👍👍👍👍👍👍 60%
3 Без разницы – 31
👍👍👍 30%
2 Нет – 11
👍 10%
4 Свое (в личку)
▫️ 0%
👥 105 people voted so far.
кому интересно, инструмент для первичного анализа большого массива текста
https://spacy.io/
Пара занятных рассылок от Kaggle
- Про рыб - https://goo.gl/Xmd1Lg
-- Проходя курс от fast.ai на коленке только на keras я добился адекватной точности. В посте описано как люди победили. Очень умно (не считая стекинга 10 моделей) - правильная валидация с кораблями + определение ночных фото
- Описание того, как люди заняли второе место на Data Science superbowl при поиске рака легких - https://goo.gl/UEKMRG
#data_science
Продолжая тему с Cheat-sheet-ами:
- Описание методов в sklearn - https://goo.gl/z48WUf
- Про сводные таблички в питоне наглядно и просто - https://goo.gl/nhRpfh
#data_science
Из прикольного - если вы будете работать с поиском объектов на живом видео, то вот люди, которые делают это в 100-1000 раз быстрее, чем самые быстрые нейросети
- http://dawn.cs.stanford.edu/2017/06/22/noscope/
- в качестве классификатора для кадров используется линейная логистическая регрессия
#data_science
На этой волне продублирую еще пару ссылок, которые были на канале где-то:
- Философия обучения - top-down
-- http://www.fast.ai/2016/10/08/teaching-philosophy/
- Серия видео для развития интуиции про линейную алгебру
-- https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab
#data_science
Интересное в мире интернета:
- Ben Evans - https://goo.gl/4sJ7Bs
-- Размышления на тему движения технологических компаний в телек https://goo.gl/Ua5S95
- Размышления на тему того, что мобильники открыли путь в "профессиональные" приложения (фото) для 95% людей, а на ПК это все делают 5% людей - https://goo.gl/wXPE73
-- Фейсбук хочет выпустить VR очки за US$200 - https://goo.gl/m2XtxD
-- Amazon Alexa уже выполняет 15k комманд - https://goo.gl/yLtWsM https://goo.gl/HQzt1B
-- Исследование компьютерной грамости в разных странах - https://goo.gl/AmYV7b
-- Про WeChat в Китае - https://goo.gl/kkvBU5
#internet
Пара сверх-полезных cheat-sheet-ов для "ковыряния" в данных на pandas
- Часть раз https://goo.gl/NYkqWb
- Часть два https://goo.gl/EXjGXu
Полезно будет тем, кто только начинает такие "ковыряния".
На мой взгляд тут сильно не хватает сводных таблиц.
Про них можно прочитать тут:
- In a nutshell - https://goo.gl/K1xucE
- Ссылка http://pbpython.com/pandas-pivot-table-explained.html
#data_science
#cheat_sheet
Для самых занятых или ленивых - самое интересное на канале за неделю:
http://tinyletter.com/snakers41/letters/spark-in-me-11
#digest
Мы начали новый супер классный проект.
Вкратце - сделать мобильное приложение, которое бы по звуку птички говорило вам, что это за птичка (ссылка на вики, фото, текст с вики - опционально) с какой вероятностью.
Вот первые две статьи из него. Пока все идет по плану.
- Раз https://spark-in.me/post/bird-voice-recognition-one
- Два https://spark-in.me/post/birds-voices-taxonomy
#data_science
Ответил всем подписчикам, которые написали.
Пара заметок на всякий случай для всех:
- Оригинальный список курсов в гугл-доке лежит тут - http://goo.gl/5VGU5A - там есть комментарии и сортировка
- Тут есть список курсов в виде веб-таблицы по функционалу аналогичный гугл-доку - http://author.spark-in.me/course-list.html (сортировка, скачивание, поиск)
- У нашего канала также есть email-рассылка - http://tinyletter.com/snakers41
- Как пользоваться нашим каналом в телеграме - https://spark-in.me/post/how-to-use-channel
Немного криво перевели одну из статей на сайте на русский (угадайте как):
- https://spark-in.me/post/ru-neural-net-used-for-flats
#data_science
Пара новостей
- Скоро будут некоторые статьи, которые были на английском, но на русском
- Продолжаем цикл статей про распознавание голосов птичек. Часть третья - https://spark-in.me/post/bird-voice-recognition-three - внимание там можно послушать птичек прямо в браузере (а если вы следите за кодом, то вы можете прямо сами скачать и послушать птичек)
#data_science
Mathologer выпустил пару видео про многомерные фигуры
- https://www.youtube.com/watch?v=rAHcZGjKVvg&t=0s
- https://www.youtube.com/watch?v=cEhLNS5AHss&t=0s
#math
Знакомый посоветовал такое для мультипоточного парсинга
- http://docs.grablib.org/en/latest/spider/intro.html
Aswath Damodaran про онлайн обучение и свой опыт. Очень занимательно, по сути человек 10+лет как уже выкладывает свои материалы в интернет и пишет занятные статьи на тему финансов.
- https://youtu.be/BK0umdfCDbs
- https://goo.gl/cn1RT3
#internet
Это, конечно, далеко от реальности, но это просто отличная визуальная иллюстрация того, как работают решающие деревья (и их ансамбли)
- http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
#data_science
Интересное в мире ML:
- Import AI рассылка - https://goo.gl/i2T1vY
-- RL-алгоритмы уже могу научить виртуальные модельки ходить - https://goo.gl/RDMd6X . На эту тему было видео
-- https://www.youtube.com/watch?v=gn4nRCC9TwQ
-- Нейросети используют для распознавания болезней аналога картошки из Южной Америки на датасете из ~3k фото
-- Применение нейросетей в кардиологии с точностью превышающей панель докторов (Andrew Ng) - https://goo.gl/eFvVd7
-- Гугл улучшает свою ферму из рук роботов и учит ее хватать уже разные объекты
-- Майкрософт создает свой аналог лаборатории DeepMind - https://goo.gl/kkFuqt
-- Гугл создает Gradient Ventures для инвестиций в AI и также обещает выдавать своих инженеров в аренду - https://goo.gl/k6qZcB
-- Внутрянка машин с автопилотом - https://goo.gl/a5tZfc
#data_science
На канале я очень много писал про fast.ai, их блог и их курсы. Но форуме они даже показывали "закрытую" бету второй серии курсов про нейросети (но пока не зарелизили).
Позавчера на их сайте появилась новость про их курс про линейную алгебру (Numerical Linear Algebra for Coders)
- http://www.fast.ai/2017/07/17/num-lin-alg/
- Репо https://github.com/fastai/numerical-linear-algebra/blob/master/README.md
- Видео https://www.youtube.com/playlist?list=PLtmWHNX-gukIc92m1K0P6bIOnZb-mg0hY
Всем очень сильно советую глянуть, т.к. более качественной, открытой, эффективной и непредвзятой подачи материала чем на их прошлом курсе я не видел.
Как более детально сяду коптить - обязательно отпишу что да как.
#data_science
Yandex выложил в опенсорс свою библиотеку градиент бустинга. Зачем в век диплернинга вообще такие библиотеки? Ну например потому, что в реальном продакшне нейронные сети подходят далеко не для всех типов задач. При этом градиент бустинг (на примере CatBoost) куда производительнее (как на обучении так и в рантайме), устойчивее к переобучению и вообще работает предсказуемые с точки зрения качества конечного результата.
Если вы разработчик, обратите так же внимание на то, что CatBoost внутри яндекса собирается в довольно интересном окружении. Следы от него (и даже части его самого) можно найти на GitHub проекта и в соседних с ним репозиториях. И вообще, попробуйте собрать catboost из исходных текстов - посмотрите какой необычный туллинг есть у разработчиков поиска яндекса.
https://techcrunch.com/2017/07/18/yandex-open-sources-catboost-a-gradient-boosting-machine-learning-librar/
Случайно натолкнулся на такое.
- http://bokeh.pydata.org/en/latest/docs/gallery.html
Авторы заявляют, что это простая альтернатива D3.js на питоне, одновременно с низко- и высокоуровнеыми АПИ, которая позволяет делать интерактивные визуализации в том числе в Jupyter Notebook.
Разве не идеально?
#data_science
Отличная статья про применение RNN для генерации музыки.
- Статья - https://goo.gl/LqqoFL
- Ссылка содержит не только статью, но и описание данных, презентацию результатов и прочие презентационные материалы
#data_science
CSS Трюки для работы с видео
- https://css-tricks.com/NetMag/FluidWidthVideo/Article-FluidWidthVideo.php
Лучшая инфографика, которую я когда-либо видел в своей жизни - древо жизни:
- Картинка - https://goo.gl/HzF9gK
- Источник - https://www.evogeneao.com/explore/tree-of-life-explorer
#data_science
Полезная информация для построения карт и нестандартных визуализаций.
Для таких целей по идее есть d3.js и по идее можно обратиться с клиента / сделать простейшее АПИ из одного метода (или просто залить данные в json). Но а что, если хочется построить сразу много визуализаций, постоянно меняя что-то и процессе ковырясь в данных?
Тут есть ответы на эти вопросы:
- Мотивация зачем in a nutshell - https://goo.gl/21q75f
- Видео - https://goo.gl/YF4q2D
- Репозиторий - https://goo.gl/HWySNK
- pdf презентация - https://goo.gl/xX4dKF
#data_science