roma_toloka | Unsorted

Telegram-канал roma_toloka - Роман с данными

1145

Все о данных, ML, AI Founder & CEO TrainingData.Pro 7 лет занимаюсь сбором и разметкой данных Контакты: @roman_kucev

Subscribe to a channel

Роман с данными

Выложил перевод статьи про концепцию Human-in-the-Loop. На мой взгляд статья довольно толковая, на пальцах объясняет плюсы данного подхода и отличия от модели Waterfall.

https://habr.com/ru/post/596353/

А вы используете Human-in-the-Loop для своих задач? Как организуете процесс?

В рамках курса "Сбор и обработка данных с помощью краудсорсинга" мы рассказали студентам ВШЭ и ШАДа, как внедрять HITL, а также сделали интересную домашку. Если вам тоже интересно ознакомиться, вот ссылка: github.com/Kucev/human_in_the_loop_task

Читать полностью…

Роман с данными

Посмотрел сегодня Tesla AI Day.
https://youtu.be/j0z4FweCy4M

Больше всего впечатлил блок про
1:24:35 - Manual Labeling 
1:28:11 - Auto Labeling

Интересные факты:
• Тесла имеет внутренний штат разметчиков из 1000+ человек и собственную инфраструктуру для разметки данных
• Тесла перешла от 2D разметки к 4D, что позволило ускорить разметку в 100 раз
• Тесла использует синтетические данные для обучения своих моделей 
• По реальным данным Тесла научилась генерировать виртуальный мир

Как мне кажется, Тесла сейчас на передовой IT индустрии, и мне было интересно узнать какие фишки и идеи они внедряют)

Читать полностью…

Роман с данными

Недавно общался со своим другом Ринатом, который работает в Boston Consulting. Разговор зашел о трендах в разметке и куда движется отрасль. Вместе пришли к выводу, что индустрия разметки данных в 2021 очень похожа на индустрию колл-центров в 2000-х годах.

А что же было с колл-центрами 20 лет назад?
Бизнес только зарождался, процессы были не оптимальны, автоматизации практически не было. Но был дикий спрос на эти услуги! Каждая фирма, каждый магазин, банк имел свой внутренний колл-центр, в котором сотни людей 24/7 отвечали на входящие звонки.

Что же происходит с колл-центрами сейчас?
Забавно, но пару лет назад я работал в Тинькофф и занимался задачами по оптимизации процессов в колл-центре. И что я могу точно сказать: колл-центры медленно умирают. 
И главная причина этому: автоматизация. Людей просто заменили. Заменили на машин. Машинам не нужно платить зарплату, машины не берут больничный, отпуск, они работают 24 на 7. В отличии от людей.

Голосовые помощники, роботы, чат-боты стали обыденностью. Они уже без проблем решают простые вопросы (которых процентов 80), а на оставшиеся 20% сложнейших робот переводит на оператора.

Таким образом, бизнесу удается уменьшить штат операторов в несколько раз. И если раньше компаниям нужно было 20-30 операторов колл-центов, то сейчас достаточно 3-4 человек и подписки на NLab или Twin.

То же самое ждет и разметку данных. 
Благодаря автоматизации получится повысить производительность разметчиков в десятки раз. Всю простую разметку будет делать машина, а задача человека - проверять за машиной и размечать сложные кейсы.

И самое интересно, что эра автоматизации уже наступила.
На этих выходных я обнаружил офигенный стартап Hasty.ai
Идея стартапа максимально проста - упростить и ускорить разметку.

Фича, которая мне больше всего понравилась: после разметки 30 картинок, на них моментально обучается нейронка и все следующие картинки размечает уже она, а ты просто сидишь и проверяешь за ней.

Я попробовал уже разметить пару своих проектов и технология на них себя просто офигенно показала.
У Hasty.ai есть два наглядных демо. Если вы хотите увидеть как будет происходить разметка 90% данных через пару лет, рекомендую зарегистрироваться в Hasty.ai и с ними ознакомиться.

А как вы думаете, что ждет область разметки данных через пару лет?

Читать полностью…

Роман с данными

Перевел статью "How to Organize Data Labeling for Machine Learning: Approaches and Tools” и выложил на хабр. Статья состоит из двух частей: “Методологии разметки" и “Инструменты для разметки”. Эту статью я прочитал еще в 2018 году, и именно она меня вдохновила перейти из ML в разметку.

К сожалению, за 3 года большинство описанных в статье инструментов устарели. При этом методологии разметки на мой взгляд до сих пор не утратили актуальность. Так что всем интересующимся рекомендую к прочтению) 

Ссылка на перевод: https://habr.com/ru/post/572508/

Читать полностью…

Роман с данными

Мы уже довольно давно занимаемся оценкой релевантности и качества поиска. Даже сделали отдельную страничку на нашем сайте.

Оценка качества поиска - это очень интересная задача. Благодаря собираемым оценкам поисковые движки учатся подбирать наиболее релевантную поисковую выдачу под каждый запрос пользователя. Таким образом все подходящие ссылки/документы оказываются сверху страницы, а неподходящие на страницу не попадают.
Если вы хотите более детально разобраться в принципах работы, советую посмотреть курс от МФТИ на Coursera

В вебинаре "Crowdsourcing с механической поддержкой”  Игорь Кураленок (руководитель Yandex.Cloud ML) рассказывал что раньше для оценки качества поиска Яндекс использовал внутренних асессоров и им для работы приходилось изучать инструкцию из более чем 100 страниц. Сейчас же Яндекс довольно много оценок собирает с помощью краудсорсинга, чем сильно упростил и отмаштабировал процесс получения новых данных. А вы пробовали выполнять в Толоке задания от Я.Массалия и Я.Юпитер?

Почему я решил рассказать вам об этом?
Недавно я наткнулся на инструкцию для асессоров из Google. Прикрепляю ее, чтобы вы могли оценить масштаб и сложность задачи. Инструкция состоит из 175 страниц, а чтобы получить работу, необходимо пройти 4 уровня отбора.

Забавно, что для такой работы до сих пор нанимают в штат людей по всему миру, платят по 5-23 доллара за час, хотя эту же задачу можно было решить быстрее, дешевле и качественнее с помощью краудсорсинга.

Читать полностью…

Роман с данными

Вместе с Андреем встроили графический редактор в саму Толоку.
Используем мы его для разных задач, но в основном применяем для теста на узнаваемость и запоминаемость логотипов.

Любой компании хочется, чтобы ее бренд и логотип оставался в памяти у покупателей.
Но как определить, какой логотип запоминается лучше?

Мы используем следующий метод:
В течение 30 секунд показываем толокерам 10 различных логотипов, затем скрываем и просим по памяти нарисовать один из них. Затем анализируем результаты и определяем сколько процентов людей нарисовало логотип правильно.

Результаты всегда получаются очень интересными. Например, пару месяцев назад мы попросили толокеров нарисовать логотип Яндекс.Толоки, и вот что из этого вышло: https://kucev.ru/toloka_logo.html

Читать полностью…

Роман с данными

Задание было с постприемкой. Почему же мы принимали аудио, записанные с помощью озвучки Google Translate?
Ответ банален: мы не подумали, что кто-то мог так сделать, поэтому в инструкции для валидаторов не было пункта об отклонении такого типа аудио.

Какие выводы мы сделали из данной ситуации:
• Толокеры очень умные и изобретательные
• Если у вас очень дорогие задания, то шанс фрода со стороны толокеров возрастает
• Для валидаторов нужно тщательно прописывать инструкцию со всевозможными кейсами
• Если случаются какие-то аномалии на проекте, нужно разбираться, почему они произошли

Читать полностью…

Роман с данными

Очень забавная история случилась с нами на этих выходных.
Мы по своей невнимательности за два дня профукали 1500$ в Толоке😬
Хотите узнать, как так получилось? Тогда усаживайтесь поудобнее!

Уже несколько месяцев мы для одного крупного заказчика собираем аудиозаписи из различных стран. На этих аудиозаписях заказчик обучает своего голосового помощника. Голосовой помощник должен работать во всем мире, поэтому команды мы собираем на разных языках. 

Краудсорсинг отлично подходит для этих целей: ведь на платформе присутствуют исполнители со всего мира, и нам не приходится в каждой стране искать людей. Поэтому, настроив одно задание в Толоке, у нас получилось охватить несколько десяток стран! (А вы уже оценили новую функцию написания инструкции на нескольких языках? Это просто 🔥!)

Самыми трудными для нас стали страны: Франция и Германия. 
Все дело в уровне жизни в этих странах. Если исполнители в Африке и странах СНГ готовы работать за 1.5-2$ в час, то в Европе есть "Минимальный размер оплаты труда в час”, который равен €9,35. Поэтому заманить европейцев на наше задание оказалось сложнее всего. Что мы только не делали: и придумали бонусную систему оплаты за объем, и просили саму Толоку наливать нам трафик, и увеличивали цену в 4 раза.

И вот, 20-го числа, мы получаем такой график:
Объем присылаемых аудио увеличился в 4 раза.
Вот как здорово, подумали мы!)

Читать полностью…

Роман с данными

Посмотрел интересный вебинар от Романа Суворова "Полуавтоматическое составление датасета и активное обучение”.
Какие мысли для себя подчерпнул:

• 5:07 Предельное качество модели, которое можно получить на размечанных данных - это средняя мера качества асессоров.

• 6:34 Для обучения модели лучше сначала разметить немного, но качественно.

• 10:35 Оптимизировать стоимость разметки можно двумя способами: “Снижать стоимость разметки 1-го примера” и “Размечать меньше примеров”.

• 13:58 Сегментация по клику. Интересно, можно ли такое внедрить в Толоку?

• 25:46 Роман рассказывает как Samsung AI использует Яндекс.Толоку.

• 34:05 Стратегрии для Active learning.

Читать полностью…

Роман с данными

Выложил на kaggle Russian Open Speech To Text (STT/ASR) Dataset.

Датасет содержит 118 000 аудиозаписей. Аудиозаписи были получены с помощью краудсорсинговой платформы Яндекс.Толока. В создании датасета участвовало 66 человек. Людям предлагались предложения для озвучки, необходимо было произносить предложения и записывать этот процесс на телефон.

Изначально датасет создавался для китайского заказчика Gstar-Marketing, но он пропал, так и не заплатив полную стоимость работ за проект. В связи с этим решено было выложить все уже собранные записи в открытый доступ (не пропадать же добру). К сожалению, мы так и не реализовали проект по валидации и проверке аудиозаписей, поэтому датасет немного "шумный" и может содержать "бракованные" аудиозаписи.

Но все-равно надеюсь, что кому-нибудь он пригодится.

Читать полностью…

Роман с данными

Друзья, на этих выходных я поучаствовал в интереснейшей авантюре и купил домен toloka.ru😀😀😀
Как такое произошло, спросите вы меня?

В октября я готовил материал для семинара в ШАДе. И однажды, заходя на сайт Толоки, я случайно вместо toloka.yandex.ru, ввел в браузере toloka.ru.

К своему удивлению, я не попал на привычный для меня сайт. Вместо этого открылся магазин доменов rf.ru, на котором было написано, что домен toloka.ru продается по договорной цене. Ради интереса я оставил заявку.

На следующий день менеджер rf.ru написала мне и назвала цену, но к сожалению, цена была крайне высока. Сообщив об этом менеджеру, я начал вести переговоры.

По прошествии шести недель переговоров мне удалось снизить цену в несколько раз. 
И я решил его купить. Зачем?

1. Ну блин, это же прикольно владеть доменом toloka.ru

2. Я разместил на нем сайт, посвященный значению слова “Толока”. Пусть лучше на нем будет образовательный контент, чем редирект на страницу о продаже.

Читать полностью…

Роман с данными

Всем привет! Ровно через час буду выступать на онлайн конференции DataStart c докладом
"Методы оптимизации процесса разметки для обучения нейронных сетей

Расскажу:
• Сколько данных нужно для обучения нейронной сети
• Что выгоднее: улучшать архитектуру нейронной сети или увеличивать датасет
• Зачем использовать Active Learning
• Как предразметка позволяет удешевить создание датасета
• В чем главный плюс концепции Human in the Loop
• Тренды в разметке данных

Регистрация на конференцию бесплатная. Кому интересно присоединяйтесь 😉

P.S Записи не будет, но материал моего доклада на 80% пересекается с материалом, который я читаю в ШАДе и ВШЭ, вот ссылка на него: https://youtu.be/mUI-I74_ydU

Читать полностью…

Роман с данными

Небольшой камень в сторону Толоки.
Я являюсь сооснователем компании TrainingData.Solutions
Мы занимаемся сбором и разметкой данных для обучения ML.

Обычно мы размечаем данные двумя способами:
1. Внутренним штатом исполнителей
2. Через краудсорсинг, а именно через Толоку

Перед каждым проектом мы выбираем, каким способом его оптимально решить: inhouse или через краудсорсинг.

Inhouse команда в основном используется, когда нужно работать с NDA данными, либо когда для разметки требуются узкоспециализированные специалисты, например, врачи онкологи.

Краудсорсинг отлично заходит, когда необходимо что-то сделать очень быстро, или массово. Через Толоку мы проводим UX исследования, оценку качества поиска, антиспуфинг атаки, простую детекцию, сегментацию, транскрибацию, сбор данных.

Мы работаем официально, у нас в РФ зарегистрирована ООО на УСН, внутренние разметчики устроены по договору как самозанятые. В Толоке мы зарегистрированы как юр лицо из РФ. 
И тут возникает довольно остро вопрос налогообложения. 

Предположим у нас есть Вася, который работает у нас как самозанятый и толокер Петя. И каждому мы хотим выплатить на руки 100 руб. 

Чтобы заплатить Васе 100 руб, нам нужно 106.38 руб (100 Васе и 6% налог на самозанятого).

С Петей все интереснее. Чтобы Петя получил 100 руб, мы должны заплатить 130 руб Яндексу (комиссия 30%). Но это не финальные траты. Так как договор у нас с российским Яндексом, то по закону мы сверх всей суммы должны платить НДС 20%. Таким образом, чтобы заплатить Пете 100 руб, мы должны потратить 152 руб. При этом Толока сама пытается перевести всех исполнителей из РФ на самозанятость и Петя получит 94 руб. 

В таком случае Вася получит 94% от суммы, которую мы потратили, а Петя 61%. 
Если, вдруг, Яндекс сделает комиссию 50%, то Петя уже получит 52%

Мои подписчики, у меня к вам вопрос: какие есть лазейки с этим НДС? Может ли РФ компания заключиться на прямую с иностранным Яндексом? Есть ли фирмы посредники из-за границы?

Сейчас из-за этого НДС появляется дискриминация заказчиков из РФ (физлиц и юр лиц на УСН), для них услуги выходят на 20% дороже, чем для иностранных заказчиков.

Читать полностью…

Роман с данными

Всем привет!
Давно не писал в ТГ канале. Причина проста: работы очень много и не доходят руки рассказать вам о чем-то интересном. А за последние 2 месяца много чего произошло, уж поверьте) 

А раз работы много, то мы расширяем команду TrainingData.ru!
Итак, ищу человека, который будет моей правой рукой и будет помогать настраивать, мониторить и оптимизировать проекты в Толоке. 

Если вы хотите стать крутым Crowd Solutions Architect, то это отличная возможность прокачать свои навыки. Каждый месяц мы запускаем десятки новых проектов на тысячи долларов в Толоке и создаем нетривиальные пайплайны по разметке данных. 

Условия: 20 часов в неделю, гибкий график, удаленная работа. Можно без проблем совмещать с учебой/основной работой. 
Зарплата: от 40к руб в месяц за part-time. 

Заинтересовались? Пишите в ЛС @roman_kucev
P.S. Репост приветствуется

Читать полностью…

Роман с данными

Уже больше года я общаюсь с людьми из Random Coffee. Узнаю у них что-то новое, рассказываю про себя.
И довольно часто от них слышу один и тот же вопрос:
Вот вы размечаете данные, чтобы обучать нейронные сети. А что вы будете делать, когда все нейронные сети будут обучены? 

Большинство людей уверены, что скоро человечество создаст нейронные сети под любые задачи и разметчики больше будут не нужны. 

Отчасти они правы. Я уже четвертый год занимаюсь разметкой данных и вижу как меняется рынок. 
Да, нейронные сети с каждым годом решают все больше задач. И если несколько лет назад у нас заказывали простую разметку для задач Face Detection, License Plate Recognition, то сейчас разметку для таких задач практически не заказывают, так как уже есть множество хорошо работающих решений. Зачем самому обучать нейронную сеть находить лица людей, если можно купить LUNA SDK?

При этом область AI активно развивается. Но чем же ученые занимаются сейчас?

Ученые перешли на более сложные задачи, которые раньше не могли решить.

Как вы можете узнать из рассказа Ольги Мегорской, AI сейчас держится на трех китах:
1. Алгоритмы
2. Вычислительные мощности
3. Данные

За последние несколько лет алгоритмы продвинулись далеко вперед, появились BERTы, трансформеры, дипфейки. Развитие вычислительных мощностей тоже не стояло на месте. Если раньше для обучения ResNet требовалось более 1000 видеокарт и несколько месяцев, то теперь любой может обучить ResNet за 40$ и 18 минут.

А что же с данным? Тренды интересные)

Для обучения более сложных алгоритмов теперь нужно еще больше данных. 
Например, BERT обучали на корпусе, состоящим из более 3х миллиардов слов. А для обучения ASR наша команда транскрибировала более 30 000 часов аудио, потратив на это более 120 000 человеко-часов.

При этом и сама разметка стала еще сложнее.
Все чаще приходится размечать данные высококвалифицированными специалистами. У нас в штате уже более 20 врачей размечают опухоли головного мозга на МРТ, детектируют пораженные участки легких на КТ, классифицируют больные зубы на рентгеновских снимках.
А недавно мы начали размечать данные с лидаров (лидары - это такие приборы, похожие на локаторы, благодаря которым беспилотные автомобили могут видеть объекты вокруг себя).

Так что разметчики еще не скоро останутся без работы.

Читать полностью…

Роман с данными

Собрал через Толоку 500 GB изображений людей в медицинских масках.

250 000 изображений, 28 000 уникальных лиц, 4 способа ношения масок.
Для каждого человека указан его пол, возраст, способ ношения маски. 
Выложил первую часть данных на kaggle: 
https://www.kaggle.com/tapakah68/medical-masks-part1

Также записал 6-и минутное видео, в котором рассказываю о построении пайплайна по сбору датасета: https://youtu.be/gAt1d-f_CK0

Как вы думаете, для решении какой задачи был собран этот датасет?

Читать полностью…

Роман с данными

Снова поучаствовал в датафесте. 
В прошлый раз я выступал с докладом "Обзор инструментов для разметки в CV”.

В этот раз решил рассказать об одном интересном проекте, который я реализовывал для американского стартапа XIX.ai. Стартап разрабатывает систему биометрической аутентификации человека по лицу. И для обучения системы было необходимо собрать множество спуфинг атак.

О том, что такое спуфинг атаки и как их собрать через Толоку, вы можете узнать из моего выступления “Как собрать датасет для аутентификации человека по лицу через Толоку”.
• 1:15 Биометрическая идентификация человека и виды хакерских атак
• 4:33 Собираем 10 000 spoofing attack за 10 дней и 300$
• 10:34 Заставляем крутить головой 25 000 человек
• 11:44 Собираем еще 11 000 spoofing attack
• 12:51 Интеграция сканера лица в Толоку
• 15:12 Планы на будущее

Читать полностью…

Роман с данными

Но все оказалось не так радужно. Вот вам на обозрение сообщение от честного толокера, который помог нам найти причину

Читать полностью…

Роман с данными

Объявляю вторую неофициальную встречу заказчиков Яндекс.Толоки!

Все мы помним ламповые посиделки заказчиков в офисе Яндекса, где мы обсуждали насущные для нас вопросы, делились мнениями и находили решения для различных задач. 
К сожалению, из-за коронавируса Яндекс был вынужден поставить встречи на паузу.

Но это не остановило нас, и мы продолжили встречаться, но уже на нейтральной территории в барах Москвы) 

В этот раз у нас появилась идея расширить наше комьюнити и позвать новых людей.
Поэтому мы с Андреем приглашаем вас присоединиться!) 
Когда: 26 апреля (пн) в 20:00
Где: Brasserie Lambic (метро Таганская)
Повестка: неформальное общение, обмен опытом, обсуждение и поиск новых идей для текущих задач

Если вам интересно присоединиться, пишите в ЛС.

Читать полностью…

Роман с данными

Вместе с @FunFrog интегрировали Яндекс.Формы в Яндекс.Толоку.

О том
• какие сейчас есть варианты проведения опросов через Яндекс.Толоку,
• чем текущие варианты неудобны,
• почему наше решение нравится и толокерам и заказчикам,

смотрите в нашем видео: youtu.be/tTCxHrrj-ho

Читать полностью…

Роман с данными

На прошлой неделе совместно с CEO Яндекс.Толоки, Ольгой Мегорской, провели вебинар во ФРИИ.

Ольга рассказала о том, как Толоке позволяет размечать данные в больших масштабах.

Я же рассказал о бизнес задачах, которые можно решить с помощью краудсорсинга.

Ссылка на запись вебинара: https://youtu.be/afeRF2rTh64

Читать полностью…
Subscribe to a channel