Распознавание и анализ разговоров
В продолжение вчерашней дискуссии.
Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.
Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).
Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".
Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:
Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?
У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.
Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).
Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.
Полнотекстовый поиск
====================
Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.
Читать постфактум
=================
Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.
Итого
=====
Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.
Discuss?
Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.
Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).
Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".
Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:
Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?
У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.
Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).
Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.
Полнотекстовый поиск
====================
Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.
Читать постфактум
=================
Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.
Итого
=====
Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.
Discuss?
no subject
Достаточно дать любому параноику часов 5 телефонной прослушки и заставить разобрать по абонентам и расшифровать в текст.
Просветление наступает через полчаса-час даже у самых упертых.
no subject
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
То есть, сам по себе метод даёт немного, но в комплексе с другими - очень полезен, ИМХО.
no subject
no subject
;)
(no subject)
no subject
Остальных можно попытаться вычислить, построив граф связей.
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
Re: Скажу за Латвию
Re: Скажу за Латвию
Re: Скажу за Латвию
Re: Скажу за Латвию
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
Уточнение классификаторов
Re: Уточнение классификаторов
Re: Уточнение классификаторов
no subject
Про чтение постфактум - если есть полная база "какой телефон когда с каким коннектился" - можно попробовать вытянуть хоть что-то. Если добавить к этому распознавание голоса (ну, основы) - то ещё хоть что-то.
В общем, выхлоп со всего этого можно получить, но он практически не зависит от тайности такой прослушки.
no subject
в таком случае задача хоть и добирает вычислительной сложности, но выход становится значительно более достоверным
однако даже в этом случае вопрос "нахера весь этот цирк?" все равно остается актуальным
даже если предположить, что оно таки кому-то надо, то кроме распила бабла на оборудование и развертывание такого комплекса в госмасштабах, ничего другого в голову не приходит. целевое слежение за отдельными особами и агентурная работа - метод более эффективный и, что важно для суда, законный
no subject
Руки привязаны к конкретному человеку, и это объект, а не процесс. Вот если бы мы говорили про какой-то гипотетически логгинг рукопожатий, напрмер, аналогия была бы полной.
Камеры привязан к месту и отвечают на вопросы, связанные с местом. Давайте вместо этого говорить про наблюдение за людьми на основании фотопотока с flickr, напрмер.
(no subject)
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(Anonymous) - 2012-11-19 23:12 (UTC) - Expand(no subject)
no subject
no subject
(no subject)
(no subject)
(no subject)
no subject
Погуглите кластеризацию, автоматическую классификацию, анализ эмоционального отношения, ранжирование и т.п. Сейчас такая обработка делается почти в реальном времени на массивах в сотни тысяч текстовых документов, и это в коммерческих проектах -- прикиньте возможности у серьезных госструктур.
Кстати, в этой области сейчас весьма активные исследования ведут китайцы, у них патентов почти столько же, сколько у евросоюза.
no subject
Расскажете исходя из своего опыта, что же реально получить на основании последних достижений в этой области, если тексты у нас - это распознанное аудио соотв. качества?
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
(no subject)
(no subject)
(no subject)
(no subject)
no subject
(Anonymous) 2012-07-05 01:55 pm (UTC)(link)Ну и чем короче текст, тем распознование лучше. Ещё лучше - если говорящий - мужчина и без акцента (как-то слушал, как француз говорит по немецки - человек не поймёт). Большие трудности с названием фирм, с именами собственными. Ну и слов, которые примерно одинаково звучат - тоже много.
В целом смысл собирать такие данные есть - надо иметь только очень огромный бюджет и быть готовым, что где-то около 80% качество распознавания остановится.
Ах да - на новый год качество распознавания было 40% :)
no subject
no subject
Рекомендую почитать оригинальную новость, а не хреновый пересказ хренового перевода.
А то сядете опять в лужу, как с препейдом и паспортами.
no subject
Причем журнал не назовешь ни параноидальным, да и не "Московский комсомолец" чай это.