Кстати, у этого же Дэвида есть такие заметки и с других недавних ML конференций 😍
https://david-abel.github.io/notes.html
ICML 2019 (Long Beach, California, USA)
IACAP 2019 (Mexico City, Mexico)
ICLR 2019 (New Orleans, Louisiana, USA)
AAAI 2019 (Honolulu, Hawaii, USA)
ICML 2018 (Stockholm, Sweden)
AAAI 2018 (New Orleans, Louisiana, USA)
TensorFlow Hub - кладезь моделей
https://tfhub.dev/ - это большое количество натренированных моделей для разных задач. Модель включает в себя кусок TensorFlow графа с весами и может быть переиспользована для transfer learning чтобы:
- Натренировать новую модель с использованием меньшего количества данных
- Улучшить обобщающую способность модели
- Ускорить тренировку
!pip install "tensorflow_hub==0.4.0"
!pip install "tf-nightly"
import tensorflow as tf
import tensorflow_hub as hub
tf.enable_eager_execution()
module_url = "https://tfhub.dev/google/tf2-preview/nnlm-en-dim128/1"
embed = hub.KerasLayer(module_url)
embeddings = embed(["A long sentence.", "single-word","http://example.com"])
print(embeddings.shape) #(3,128)
Zalando Research выпустил flair - крутой и простой фреймворк для Natural Language Processing
Невероятно простой интерфейс, несколько встроенных state-of-the-art моделей, поддержка нескольких языков и PyTorch🔥
Новый пост на нашем сайте - http://pusheen-machine.com/zalando-research-vypustil-ochien-prostuiu-bibliotieku-dlia-state-of-the-art-nlp/
Дорогие читатели, сразу несколько важных новостей!
1. У нас появился сайт⚡http://pusheen-machine.com/
До этого все публиковалось в Телеграме t.me/pusheen_machine и Вконтакте vk.com/pusheen_machine
Теперь порядок публикаций такой: все обновления будут продолжать отправляться в ТГ и ВК, но если мы пишем лонгрид, то это будет жить на сайте. Там все выглядит гораздо красивее и удобнее искать.
2. У нас прибавление в авторах! Может теперь будем чаще что-то публиковать🙂 И Оля уже написала для вас первый пост - нежное введение в Reinforcement learning http://pusheen-machine.com/reinforcement-learning-an-introduction/
3. И последнее - мы приглашаем вас стать автором! Или просто поделиться с нами интересными ссылками. Лучшее опубликуем.
Если хотите делиться с миром тем, что вам интересно или дать обратную связь нам - теперь есть специальный чат команды https://t.me/joinchat/BkbvjA5WEZuDGrLewJ7aew
Пожалуйста вступайте только если:
а) Хотите стать автором и уже знаете о чем напишете
б) У вас есть ссылка на что-то крутое, но автором стать пока не хотите
в) Хотите оставить отзыв/замечание
Ну, и конечно, не забудьте прочитать новый материал :)
http://pusheen-machine.com/reinforcement-learning-an-introduction/
Летняя школа по deep learning на задачах анализа звука, изображений, и аудиовизуального распознавания эмоций
Летнюю школу организовывет ЦРТ - Центр речевых технологий в Петербурге со 2 по 15 августа. И набор в нее уже закрыт.
Но можно зарегестрироваться и получить ссылки на онлайн лекции!
Поэтому если кому интересно - https://mlschool.speechpro.ru/
В этой статье рассказываю об обновленном бесплатном курсе по практическому и быстрому во всех смыслах Deep Learning - fast.ai
http://telegra.ph/Navyki-Deep-Learning-segodnya-schitayutsya-chem-to-ehksklyuzivnym-i-modnym-07-08
Вести с полей - новые идеи, обсуждаемые на одной из лучших конференций по машинному обучению ICLR
В канале все притихло потому, что я была в долгом путешествии по Америке и Канаде, была на двух классных конференциях - ICLR в Ванкувере и IEEE Security & Privacy в Сан-Франциско. Теперь наконец-то вернулась домой и хочу поделиться с вами свежими пирожками - самыми интересными статьями и идеями, в этом посте речь пойдет об ICLR. Первый раз красиво сверстала пост в сервисе telegra.ph 🐼
http://telegra.ph/Novye-idei-obsuzhdaemye-na-mezhdunarodnoj-konferencii-ICLR-2018-po-mashinnomu-obucheniyu-06-02
Минитест на знание Machine Learning
Недавно я публиковала ссылку на классный блог профессора ВМК МГУ Александра Дъяконова.
В одном из своих постов он пригласил читателей пройти минитест на знание машинного обучения, который "довольно неплохо отфильтровывает совсем слабых соискателей" потому что "сейчас у каждого в резюме написано, что он знает Python, прошёл несколько курсов на курсере, но 80% не знают, что такое логистическая регрессия и как инвертировать список на Python".
Не хотите попробовать пройти? 🙂 В конце будут правильные ответы и статистика по остальным участникам.
Ссылка на минитест: https://docs.google.com/forms/d/e/1FAIpQLScFNuftP6MHVMhGHKpCPJu9jWphSiCTBkP16U21tLMFdDQHFQ/viewform
Ссылка на пост: https://alexanderdyakonov.wordpress.com/2017/07/19/%D0%BC%D0%B8%D0%BD%D0%B8%D1%82%D0%B5%D1%81%D1%82-%D0%BD%D0%B0-%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B5-ml-%D0%B8-dm/
На всякий случай, все материалы с канала Pusheen Machine дублируются в этой группе в вк https://vk.com/pusheen_machine
Читать полностью…Я ненавижу Spark
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Мост между deep learning и game theory: Generative Adversarial Networks (GANs)
GANs (генеративно-состязательная сеть) - это алгоритм, состоящий из двух нейронных сетей, одна из которых (генератор) пытается обмануть другую и сгенерировать некоторые данные так, чтобы вторая (дискриминатор) поверила, что они реальные. У этих двух нейронных сетей цели противоположны, поэтому такую конструкцию можно рассмотреть как пример игры с нулевой суммой с двумя игроками, в которой игроки стремятся найти эквилибриум.
На практике обученный генератор будет делать следующее: ты подаешь ему случайный вектор, а он генерирует реалистичный экземпляр данных, которым он обучился, например изображение случайного человеческого лица, если до этого соперником-дискриминатором была нейронная сеть, различающая лица. В ссылке ниже вы найдете пример кода на Python, где GANs генерирует изображение лягушек, т.к. соперником генератора была сеть, различающая лягушек.
Полезные материалы:
1. Веселое видео, чтобы понять про GAN в общих чертах https://www.youtube.com/watch?v=deyOX6Mt_As
2. Глава 8.5 книги "Deep learning with Python" (Francois Chollet), стр. 284 (см. приложенный pdf файл к посту) и код из этой главы: https://github.com/fchollet/deep-learning-with-python-notebooks/blob/master/8.5-introduction-to-gans.ipynb
3. Глава 20.10.4 книги "Deep learning" (I.Goodfellow, Y.Bengio and A.Courville), стр. 690 http://www.deeplearningbook.org/contents/generative_models.html
4. Туториал по GANs, представленный их автором I.Goodfellow на конференции NIPS 2016 - https://arxiv.org/abs/1701.00160 и слайды http://www.iangoodfellow.com/slides/2016-12-04-NIPS.pdf
Короткая, но интересная презентация “Метрики и несбалансированные выборки” - о разных метриках для классификации и регрессии, разнице между ними, полезные графики для измерения качества и немного про несбалансированность в данных:
https://ld86.github.io/ml-slides/unbalanced.html#
Источником новых мутаций, появляющихся у детей, по большей части являются старые отцы, а не старые матери (см график и статью)
У меня уже несколько раз заходил разговор на эту тему, и я скидывала одну интересную статью, в которой об этом рассказывается. Возможно не одна я думала, что источником мутаций являются по большей части женщины, и этот аргумент часто мелькает в спорах про позднюю беременность. Конечно, скорее всего с возрастом физически сложнее рожать, но все-таки мутации ребенка списывать на возраст женщины не нужно 🙂
Разбор от N+1: https://nplus1.ru/news/2017/09/25/iceland-DNMs
Оригинальная статья: https://www.nature.com/articles/nature24018
Давно хочу поделиться крутым блогом профессора ВМК МГУ Александра Дьяконова "Анализ Малых Данных", в котором он редко, но метко рассматривает интересные задачи и их решения, объясняет сложные техники простым языком, пишет код, делает визуализацию и многое другое. Обязательно заглядывайте сюда время от времени 🙂
Блог: https://alexanderdyakonov.wordpress.com
На его личном сайте тоже много полезных ссылок и материалов лекций http://alexanderdyakonov.narod.ru/
Интересные недавние статьи:
Аномалии: https://alexanderdyakonov.wordpress.com/2017/04/19/%D0%BF%D0%BE%D0%B8%D1%81%D0%BA-%D0%B0%D0%BD%D0%BE%D0%BC%D0%B0%D0%BB%D0%B8%D0%B9-anomaly-detection/
Минитест на знание ML и DM: https://alexanderdyakonov.wordpress.com/2017/07/19/%D0%BC%D0%B8%D0%BD%D0%B8%D1%82%D0%B5%D1%81%D1%82-%D0%BD%D0%B0-%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B5-ml-%D0%B8-dm/
Про стекинг: https://alexanderdyakonov.wordpress.com/2017/03/10/c%D1%82%D0%B5%D0%BA%D0%B8%D0%BD%D0%B3-stacking-%D0%B8-%D0%B1%D0%BB%D0%B5%D0%BD%D0%B4%D0%B8%D0%BD%D0%B3-blending/
Чему не учат в анализе данных и машинном обучении http://alexanderdyakonov.narod.ru/lpot4emu.pdf
Градиентный бустинг: https://alexanderdyakonov.wordpress.com/2017/06/09/%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B9-%D0%B1%D1%83%D1%81%D1%82%D0%B8%D0%BD%D0%B3/
Категориальные признаки + комментарии к посту https://alexanderdyakonov.wordpress.com/2016/08/03/python-%D0%BA%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%B8/
Ссылки на видео из блог постов: https://alexanderdyakonov.wordpress.com/%D0%BF%D0%BE%D0%BB%D0%B5%D0%B7%D0%BD%D1%8B%D0%B5-%D1%81%D1%81%D1%8B%D0%BB%D0%BA%D0%B8/
🚗 Недавно Uber выпустил Pyro - probabilistic programming framework, построенный на базе Python и PyTorch
В этом посте я хочу вкратце рассказать что такое probabilistic programming и скинуть несколько полезных ссылок.
Probabilistic programming language (PPL) - это высокоуровневый язык, который чаще всего расширяет язык общего назначения (Java, Python, C++ и тд). Инструменты и средства выразительности PPL позволяют проще строить вероятностные модели и работать с ними, чем если бы вы писали то же самое на базовом языке. С PPL вы можете создавать вероятностные модели, которые учитывают prior knowledge и работают в условиях неопределенности (uncertainty).
Probabilistic Programming System включает в себя:
1. PPL с удобными языковыми конструкциями для задания распределений, построения вероятностных моделей и проверки гипотез (Bayesian inference)
2. Компилятор, который осуществляет Bayesian inference
Строить вероятностные модели и делать inference можно и на обычном языке программирования, но это будет гораздо сложнее и дольше, чем на PPL. Различие то же самое как между обычными языками программирования и языками Ассемблера: с PPL многие вещи уже идут из коробки, весь процесс короче и быстрее, моделирование поддерживается на уровне языка.
В классическом ML мы часто моделируем условную вероятность P(y|X), когда хотим знать значение некоторого таргета по наблюдаемым данным. В PPL (как и в графических вероятностных моделях) возможно апроксимировать совместное распределение P(X,y), которое представляет собой полную информацию о связи переменных, и вы можете задавать гораздо больше вопросов вашей модели.
Важный момент: inference - вычислительно сложная задача, и это было основным камнем предкновения в развитии PPL. Благодаря развитию Variational inference и его представлению в виде задачи оптимизации, стало возможным масштабировать этот подход на большие данные тоже.
Блог пост про Pyro: http://eng.uber.com/pyro/
Сам Pyro: http://pyro.ai/
Сайт, который собирает информацию про PPL: http://probabilistic-programming.org/wiki/Home
Книга "Bayesian Methods for Hackers", в которой рассказывается о PPL и Bayesian inference https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers
Лекция про Bayesian modelling: http://mlg.eng.cam.ac.uk/zoubin/talks/lect1bayes.pdf
PyMC: https://pymc-devs.github.io/pymc/
Заметки, сверстанные в LaTeX с конференции ICML-2019
https://david-abel.github.io/notes/icml_2019.pdf
Дэвид Абель, PhD студент из Брауновского университета, сделал офигенный документ об International Conference on Machine Learning, которая прошла 9 июня недалеко от Лос-Анджелеса. В основном, он делал упор на лекции о reinforcement learning, но и другие темы там тоже есть. Он даже формулы все сверстал!
Вот бы с каждой конференции были такие документы 😌
Давно тут ничего не было - давайте снова пообщаемся 🙂
Хочу предложить вам почитать отличный пост небезызвестного Андрея Карпатого (директор AI в Tesla, в прошлом - исследователь в OpenAI и DeepMind) - где он делится собственным рецептом тренировки нейронных сетей - https://karpathy.github.io/2019/04/25/recipe/ (но мне кажется, что эти советы подойдут и для любого data science проекта)
Кстати, у него очень крутой блог - почитайте:
https://karpathy.github.io/ (основной блог)
karpathy" rel="nofollow">https://medium.com/@karpathy (недавняя попытка перейти на медиум)
Помните, этим летом проходило две крутые летних школы в Торонто: Deep Learning and Reinforcement Learning Summer School?
Дак, вот: совсем недавно выложили материалы!
По этой ссылке вы найдете все видео лекции: http://videolectures.net/DLRLsummerschool2018_toronto/
А вот тут блог пост по итогам школ: https://bit.ly/2qAvros
Кажется, организаторы вышеупомянутой школы сдались, и лекции стали просто доступны по ссылке без смс и регистрации🙂 Вот сегодняшняя лекция (3 августа), которая была в 10:00
https://www.youtube.com/watch?v=JZtRpKwk8p0
Ian Goodfellow расскажет что-то про Adversarial Machine Learning на бесплатном вебинаре 😏
Регистрируйтесь!
24 июля, вторник
Длительность: 1 час
https://event.on24.com/eventRegistration/EventLobbyServlet?target=reg20.jsp&partnerref=twitterShareFromReg&ms=1531251848082&eventid=1633807&sessionid=1&key=8B7A8F4B65B54C35752F8A6FE23F641A&regTag=&sourcepage=register
Заставляем Jupyter автоматически подхватывать изменения в кастомных функциях, которые вы импортируете из ноутбука
Ситуация: вы из ноутбука импортируете что-то из .py файлов (модулей), например какие-то util функции и классы. Также, вы иногда эти модули редактируете и хотите, чтобы в ноутбуке после ре-ипорта автоматически подгружались изменения (ожидаемое поведение, да?)
Кажется смешным, но Jupyter не регистрирует изменения в этих файлах после того как kernel был запущен. Это довольно досадно и неудобно, в худшем случае приходится перезапускать kernel, в лучшем все время использовать магические команды в импортах или функцию reload()
.
Чтобы раз и навсегда решить эту проблему и забыть об этом недостатке Jupyter, можно создать и отредактировать ipython profile.
1. Создайте ipython profile и откройте его конфигурацию:ipython profile create
nano ~/.ipython/profile_default/ipython_config.py
2. Вставьте эти строки в конец файла:#---------------------
# Autoreload extension
#---------------------
c.InteractiveShellApp.exec_lines = []
c.InteractiveShellApp.exec_lines.append('%load_ext autoreload')
c.InteractiveShellApp.exec_lines.append('%autoreload 2')
3. Готово! После того как вы делаете изменения во внешних функциях, вам просто надо вызвать фунцию и все (даже не надо делать заново импорт).
🦄 Awesome List - это репозитории на GitHub, в которых собрано невероятное количество крутых материалов: статей, туториалов, лекций и книг. Выбрала лучшие Awesome lists по нашим любимым ML/AI:
✨ Awesome Natural Language Processing
https://github.com/keon/awesome-nlp
✨ Awesome Deep Learning
https://github.com/ChristosChristofidis/awesome-deep-learning
✨ Awesome Most Cited Deep Learning Papers
https://github.com/terryum/awesome-deep-learning-papers
✨ Awesome Data Science
https://github.com/bulutyazilim/awesome-datascience
✨ Awesome Machine Learning & Deep Learning Tutorials
https://github.com/ujjwalkarn/Machine-Learning-Tutorials
✨ Awesome R
https://github.com/qinwf/awesome-R
✨ A curated list of data science blogs
https://github.com/rushter/data-science-blogs
✨ Awesome Artificial Intelligence
https://github.com/owainlewis/awesome-artificial-intelligence
✨ Awesome Machine Learning for Cyber Security
https://github.com/jivoi/awesome-ml-for-cybersecurity
✨ Awesome Python
https://github.com/vinta/awesome-python
✨ А это - список всех awesome списков по любым темам 🙂
https://github.com/sindresorhus/awesome
Классный сайт, который надо знать - distill.pub
Проект Distill ставит своей целью популяризовать новый формат научных статей в сфере машинного обучения. Идея в том, что статьи должны быть понятными, привлекательными, графически динамичными и яркими (а не скучными и трудолюбиво сверстанными в LaTex).
Distill - это не только очередной блог, это официально зарегистрированный журнал с ревью и всеми станадртными процедурами по проверке качества.
Красиво оформленная, динамичная и хорошо написанная статья помогает быстрее и глубже понять тему исследования, а также делает работу прозрачной и четкой. Такие статьи невероятно приятно и интересно читать, только попробуйте!
Больше всего впечатляют люди, стоящие за проектом Distill:
Разработчики и исследователи из Google Brain, Deep Mind, YC, Tesla, NYT, а также Yoshua Bengio и Ian Goodfellow.
Сейчас там не очень много статей, но каждая - настоящее произведение искусства https://distill.pub
TensorFlow выпустил тулбокс для probabilistic reasoning
TensorFlow Probability позволяет интегрировать вероятностный подход с deep learning, делать inference с помощью градиентных методов и автоматического дифференциирования. А это значит - строить генеративные вероятностные модели, измерять uncertainty и добавлять prior к моделям на больших данных.
В TensorFlow используется вероятностный язык Edward https://github.com/blei-lab/edward
Блог пост: https://medium.com/tensorflow/introducing-tensorflow-probability-dca4c304e245
GitHub: https://github.com/tensorflow/probability
13 апреля пройдёт встреча «Яндекс изнутри: качество поиска, Турбо и картинки», где будет рассказано про то, как Яндекс ищет картинки, как работают турбо-страницы, и о сложностях измерения счастья пользователей. Будет онлайн трансляция - только надо зарегистрироваться.
https://events.yandex.ru/events/meetings/13-apr-2018
Амазон открыл первый супермаркет без касс в Сиэтле
На входе выдаются специальные пакеты в которые нужно складывать продукты, камеры следят за каждым твоим шагом, а умные алгоритмы понимают что ты взял и списывают с тебя автоматически деньги на выходе.
https://naked-science.ru/article/hi-tech/amazon-otkryla-pervyy-supermarket
PornHub выпустил ежегодный репорт со статистикой за 2017 с психологическим разбором :) А на картинке выше вы найдёте «запросы, определяющие 2017». Самое интересное, что на первом месте «porn for women», а на третьем «fidget spinner» 😂
https://www.pornhub.com/insights/2017-year-in-review
Руки все не доходят дописать пост про категориальные данные, поэтому пока публикую для прочтения подборку отличных статей 🙂
❄ Unsupervised Image-to-Image Translation Networks: с помощью GANs можно транслировать изображение из одного домена в изображение из совсем другого домена без тренировочных пар изображений. Например фото зимнего пейзажа превратить в летний, а кошку во льва.
https://arxiv.org/pdf/1703.00848.pdf
https://github.com/mingyuliutw/unit
❄ Mathematics of Deep Learning: математическое обоснование почему глубокие нейронные сети работают (рассматривается несколько важных свойств)
https://arxiv.org/pdf/1712.04741.pdf
❄ WaveNets: генерирование аудио с помощью RNN. Например голоса, сохрянющего привычные нам интонации, призвуки и паузы, да так, что его трудно отличить от человеческого! Также музыки, которая звучит вполне как авангардное произведение современного музыканта 🙂
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
❄ Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm: статья про AlphaZero - программу, которая научилась играть в шахаматы за 24 часа без тренировочных данных, зная только правила. Теперь профессиональные игроки учатся от нее красивым новым тактикам.
https://arxiv.org/pdf/1712.01815.pdf
❄ Оптимизация B-tree и других структур данных с помощью глубоких нейронных сетей
https://arxiv.org/pdf/1712.01208.pdf
❄ DeepZip: компрессия данных с помощью RNN
https://web.stanford.edu/class/cs224n/reports/2761006.pdf
📋Результаты опроса “The state of Data Science & Machine Learning 2017” от Kaggle
Типичный портрет дата саентиста сегодня в мире такой: парень 28 лет, работает полный рабочий день с зарплатой $55 440 в год. Имеет высшее образование, чаще всего магистратуру, а его самый любимый алгоритм - Логистическая регрессия (а пореже нейронные сети и деревья). Пишет на python, анализирует реляционные данные, использует git чтобы показать свою работу другим. Грязные данные и отсутствие таланта в data science - самые большие препятствия на работе. Kaggle, Stackoverflow и Online курсы - лучшие друзья, которые помогают изучать data science.
https://www.kaggle.com/surveys/2017
P.S. Картинки взяты не из этого опроса, но тоже актуальные