dastapov: (Default)
[personal profile] dastapov
В продолжение вчерашней дискуссии.

Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.

Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).

Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".

Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:

Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?

У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.

Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).

Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.


Полнотекстовый поиск
====================

Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.

Читать постфактум
=================

Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.

Итого
=====

Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.

Discuss?

(no subject)

Date: 2012-07-05 02:16 pm (UTC)
From: [identity profile] pascendi.livejournal.com
Можно выделять тексты, выпадающие из кластера для данного человека или группы людей, то есть выходящие за обычную для них тематику. Можно автоматически отфильтровывать бытовые разговоры и женский треп. Можно выделять тексты, содержащие определенные эмоциональные оценки. Можно опознавать иносказания (например, "наши крошки" или "нанолидеры"). Можно определять (грубо) эмоциональное состояние (более точно это делается по интонациям). Можно делать еще много всякого. Все это можно эффективно использовать для предварительной фильтрации потока, чтобы передавать экспертам уже отфильтрованный массив.

Проблема же в другом: приемлемого распознавания speech to text на русском языке пока не существует.

(no subject)

Date: 2012-07-05 02:19 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А где это коммерчески используется? Уж больно охота поглядеть.

(no subject)

Date: 2012-07-05 02:23 pm (UTC)
From: [identity profile] pascendi.livejournal.com
http://www.mlg.ru/
http://www.kribrum.ru/

и др.

Эти две -- лучшие в России.

(no subject)

Date: 2012-07-06 07:20 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
То, что они делают, выглядит красиво. Но я для меня не очевидно, что переход от мониторинга 10+ СМИ к обработке миллионов неструктурированных плохо распознанных разговоров (в которых полные предложения будут редкостью) будет легким и простым.

Я неправ?

(no subject)

Date: 2012-07-06 07:35 am (UTC)
From: [identity profile] pascendi.livejournal.com
Во-первых, там не 10+, а десятки тысяч источников, с сотнями и тысячами сообщений в сутки в каждом.
Во-вторых, используемая методология позволяет работать с неполными предложениями (по крайней мере, твиты и чаты прекрасно обрабатываются уже сейчас).

(no subject)

Date: 2012-07-06 08:48 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Я в предыдущем комментарии хотел написать "10К+" :(

Еще вопрос, если позволите: можно ли как-то среднепотолочно оценить производительность или ресурсоемкость? Например, реально ли обработать 1 млн твитов в час, и на какого класса железе?

(no subject)

Date: 2012-07-06 08:54 am (UTC)
From: [identity profile] pascendi.livejournal.com
В прошлый раз я за такой расчет с обоснованием получил 120 тыс. рублей :-)

Можно.
Железо должно быть производительное.
Если надо больше, то рулят кластеризация и шардинг.

(no subject)

Date: 2012-07-06 09:22 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Намек понятен (хоть я и не спрашивал про спеки и обоснование) :)

Значит, действительно все упирается в распознавание и практическию проверку того, насколько качество полученных текстов будет "хуже" того же твиттера.

Profile

dastapov: (Default)
Dmitry Astapov

May 2022

M T W T F S S
       1
2345678
9101112131415
161718 19202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags