Зачем нужна децентрализация при распознавании речи и может ли брокер общаться с клиентами так, как это показано в фильме «Волк с Уолл-Стрит», рассказал в интервью сооснователь блокчейн-сервиса по распознаванию и анализу речи Anryze Михаил Ежов.

CoinFox: Зачем нужен блокчейн в распознавании речи?

Михаил Ежов: Сейчас на рынке есть сервисы по распознаванию от Google, Amazon, IBM. Apple использует технологию Nuance Technology, своей у них нет. У всех этих сервисов есть недостаток: для рядового пользователя эти услуги бесплатны, потому что их задача– учиться на основе человека и продавать им рекламу. Для компаний же эти сервисы платны. Минута распознавания обходится приблизительно в 2,5 цента. Но для крупного call-центра, который генерирует 20 миллионов минут в неделю, стоимость сервиса нельзя назвать дешевой.

Децентрализация в распознавании речи нужна, чтобы сделать этот сервис дешевле. С помощью распределенной технологии можно сделать цену в 5 раз дешевле, чем у того же Google, то есть снизить стоимость до полуцента за минуту. Если 2,5 цента не все call-центры готовы платить, то полцента подходит почти всем.

Распределенные мощности также дают возможность нам лучше больше обучать нейросети распознаванию. Сейчас обучение нейросетей стоит дорого, это высокозатратная вещь. В месяц на обучение нейросети может уходить от $20 тысяч. Распределенные мощности позволяют сокращать расходы на мощности, поскольку используются уже готовые мощности — они предоставляются людьми, которые занимаются майнингом. У них уже есть готовая инфраструктура.

К тому же, майнеры в основном стараются находить более дешевую электроэнергию. Таким образом, мы как компания не несем амортизационных затрат на поддержание оборудования. Эти расходы на амортизацию лежат на майнерах. Так что мы снимаем с себя часть затрат, передаем их майнерам, но даем им самим возможность заработать. Мы берем только комиссию в размере 10% с каждой транзакции.

CF: Не будет ли внедрение этой технологии для корпорации связано с еще большими расходами, чем уже привычная технология?

Ежов: Для корпорации подключение происходит через подключение back-end и серверной части. Наш сервис подключается так же легко, особых затрат на подключение нет.

Мы также гарантируем безопасность и сохранность всех голосовых сообщений, которые попадут в нашу децентрализованную сеть. Они не будут переданы третьим лицам. Система построена таким образом, что майнерам невыгодно передавать данные куда-либо и нарушать правила системы.

Любую систему можно взломать. Это аксиома. Но у любого взлома есть себестоимость. Мы сделали так, что себестоимость взлома намного больше, чем ценность отдельно взятого звонка. Есть блэклист «железа»: у каждой материнской платы и видеокарты есть свой номер, который можно узнать, если она подключена к системе. Если майнер, например, попадается на жульничестве или мошенничествах, то номера его майнингового оборудования заносятся в блэклист, и он больше никогда не сможет майнить в нашей системе.

CF: На компании из каких стран ориентирован сервис?

Ежов: В настоящее время мы ориентируемся на англоязычный рынок, потому что у нас написан движок на распознавание англоязычной и русскоязычной речи. Англоязычный нацелен на компании из США, Великобритании, Австралии, Индии – у них очень большие call-центры. Это наиболее перспективный с точки зрения доходов рынок. В планах – испанский язык к концу года. Также планируем запустить сервис по распознаванию речи на немецком и китайском языках.

CF: Насколько качественно распознавание речи?

Ежов: Качество распознавание зависит от качества аудиозаписи, насколько человек четко говорит, а также от того, насколько отличаются примеры, на которых обучалась система, от аудиозаписи. Чем больше голосовых образцов, тем больше будет качество.

У нас есть система, которая, как мы рассчитываем, сможет превзойти по качеству сервисы распознавания речи от Google и Amazon. Наша система использует надуровневую нейронную сеть. Первый уровень в ней распознает слоги, второй уровень собирает слоги в слова, третий уровень собирает слова в предложения, при этом учитывает, какие слова чаще встречаются рядом с друг другом. С помощью такой архитектуры уровень ошибок сведен к минимуму.

Не все компании используют нейронные сети. Многие используют систему, основанную на базе данных модели Маркова.

Нейронная сеть обучается самостоятельно. Она способна настроиться под разные параметры. База данных менее точно опознает речь. Технология распознавания на основе базы данных была разработана впервые еще в 90-е годы и считается устаревшей.

CF: Прошел ли сервис тестирование?

Мы тестировали наш сервис в Киеве в колл-центре Beeper.

CF: Есть ли у Anryze уже подписанные соглашения с компаниями?

Ежов: Мы сотрудничаем с американскими компаниями: Mast Mobile, Weeden & Co, Bino, CohereComm, TelecomConsulting. Есть еще call-центры, но они предпочитают не светить своим названием в публичном пространстве. Позднее мы сможем обнародовать их названия.

CF: Штаб-квартира Anryze расположена в Нью-Йорке, основной упор на англоязычный рынок. Были ли учтены недавние заявления регуляторов США, Канады, Австралии относительно ICO?

Ежов: Мы проконсультировались с юристами из Deloitte СНГ. Наш токен не является ценной бумагой, обязательством или долей в компании или распределении прибыли. Это utility token. Это токен для оплаты внутри системы, внутренняя валюта. Они разрешены Комиссией по ценным бумагам и биржам США.

Помимо этого, мы не делаем public offer для граждан США, не предлагаем публично гражданам США вкладываться в наш проект. На сайте нашего проекта будет стоять графа, каждый участник должен будет отметить, что он не является резидентом либо гражданином США. Таким образом мы защищаем себя от возможных действий со стороны регулятора. Даже если SEC завтра скажет, что граждане и резиденты США не могут вкладывать средства ни в какие ICO, то наш проект будет защищен. Но в принципе наш токен соответствует требованиям SEC, и мы не нарушаем существующее американское законодательство.

CF: А были ли учтены последние заявления китайских регуляторов?

Ежов: Китайским инвесторам участие в проекте не запрещено, потому что, как показывает практика, если Китай и запрещает что-то, то для того, чтобы потом сделать это легальным.

В любом случае закон обратной силы не имеет. Мы запустили краудсейл до того, как китайские власти объявили о своем отношении к ICO. Но если будет прецедент и судебные решения, то придется вернуть деньги китайским инвесторам. Стоит еще отметить, что пока Китай запретил проводить и регистрировать ICO в Китае, но он не запрещал китайским гражданам инвестировать в ICO-проекты, зарегистрированные в других юрисдикциях.

CF: Как была придумана концепция платформы?

Ежов: Мы работаем с голосовыми технологиями уже давно. У нас был проект Audaster по аудизации твиттера: переводу сообщений в твиттере в голосовую форму. Но эта технология опережала свое время, количество ее пользователей насчитывало несколько тысяч человек, в основном в Калифорнии.

Но со временем, наша команда уверена, мир будет уходить от привычных интерфейсов и переходить на голосовое управление. Мы будем управлять компьютером и смартфонами не нажатием кнопок, а с помощью голосовых команд. Историю с твиттером мы решили отложить на будущее, а пока заняться call-центрами. У них есть потребность в аналитике их голосовых коммуникаций с клиентами. Это касается и call-центров, которые занимаются продажей, так и тех, которые занимаются техподдержкой.

Call-центру выгодно иметь текстовую версию разговора, чтобы иметь возможность проанализировать общение сотрудника call-центра с клиентом. Мы придумали продукт аналитики для compliance. Этот сервис позволяет проанализировать, соответствует ли разговор сотрудника call-центра определенным требованиям. Это актуально, например, для финансовых брокеров. Почему им это важно? У каждого финансового брокера в США, который работает на рынке ценных бумаг, есть определенное количество клиентов, с которыми он постоянно созванивается и предлагает что-то купить. Эта деятельность – общение брокера с клиентами – очень зарегулирована в США.

Вы смотрели фильм «Волк с Уолл-стрит»? Так вот, брокер не может так общаться с клиентом, как показано в фильме. Брокер не может сказать, что он гарантирует 50% прибыли в год, не может материться. Иначе он рискует потерять брокерскую лицензию либо получить штраф. Если текстовое общение брокера с клиентом – это письма, обращения – хранятся и уже давно проверяются, то аудиозаписи разговоров хранятся, но не анализируются брокерскими компаниями. Если в ходе разговоре брокер нарушает законодательство, то его компания рискует нарваться на многомиллионные штрафы от американского регулятора.

CF: Какова архитектура самой системы?

Ежов: Майнинг происходит на вычислительных мощностях графического процессора. Само по себе это сложно назвать майнингом. Новые токены не эмитируются, эмиссия ограничена. Сколько токенов будет продано с помощью краудсейла, столько их и будет в системе. Мы как команда оставим себе лишь 4,5%  токенов.

Мы не интересуемся хайпом, не хотим разгонять капитализацию токена системы, спекулировать на его курсе. Мы берем 10% с транзакций системы, так что мы заинтересованы, чтобы система работала, чтобы в ней были транзакции.

CF: В чем будет заключаться тогда майнинг?

Ежов: Майнер – это человек, который устанавливает себе на компьютер нашу программу, запускает ее и получает заказы/минуты, которые он распознает и отправляет обратно уже в виде текста. Как только майнер отправил текст, он получает 70% от транзакции.

Например, распознать 10 минут будет стоить 10 токенов. Майнер получает 7 токенов, 2 токена – распределяются равномерно между всеми держателями токенов. Это распределение происходит раз в сутки с помощью смарт-контракта, который будет выпущен на платформе Waves. 1 токен – это те самые 10%, которые получаем мы. Инвесторы, которые будут участвовать в краудсейле либо в дальнейшем приобретут токены, получат как пассивный доход (комиссию со всех транзакций в системе), так и активный доход — от роста цены токена. Рост цены токена будет обеспечен тем, что эмиссия токенов ограничена, а спрос на них будет расти.

Например, есть 100 токенов и есть клиент, который каждый месяц заказывает 100 минут для распознавания. Цена токена – 1 минута. Когда появится еще один клиент, тоже со 100 минутами, спрос на токены составит 200 минут. Таким образом цена токена вырастет до 2 минут. То есть с каждым клиентом токен становится обеспечен большим количеством минут, и поэтому его цена растет.

CF: Почему вы решили выпустить монету на платформе Waves, а не на более популярном Ethereum?

Ежов: Мы выбрали Waves, потому что платформа предлагает самый простой алгоритм для выпуска токенов. К концу года Waves начнет выпускать смарт-контракты, которые будут значительно дешевле, чем смарт-контракты на Ethereum.

В нашей системе будет проводиться множество транзакций, которые сами по себе стоят копейки. Call-центры будут отправлять минуты на распознавание не раз в день, а после каждого телефонного разговора. Это могут быть транзакции по 3-5-10 центов. Такие транзакции в Ethereum были бы дороже, чем стоимость их распознавания. Таким образом использование Ethereum нецелесообразно. Не подходит и Ethereum Classic, который хоть и дешевле Ethereum, но все равно выходит дороже Waves.

CF: Пробовали ли вы привлечь финансирование от венчурных фондов или сразу решили обратиться к ICO?

Ежов: Мы решили обратиться к ICO, потому что нам дорого использовать аренду серверов. Себестоимость распознавания речи в случае аренды обходится дороже, чем ныне существующие сервисы. С помощью ICO мы будем использовать ту инфраструктуру, которая имеется у майнеров.

Пока наш сервис работает централизованно. На сайте можно протестировать распознавание англоязычной речи. В распределенной сети платформа, как мы ожидаем, запустится в декабре 2017 года — январе 2018 года.