Распознавание и анализ разговоров
2012-07-05 07:45 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
В продолжение вчерашней дискуссии.
Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.
Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).
Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".
Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:
Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?
У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.
Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).
Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.
Полнотекстовый поиск
====================
Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.
Читать постфактум
=================
Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.
Итого
=====
Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.
Discuss?
Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.
Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).
Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".
Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:
Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?
У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.
Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).
Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.
Полнотекстовый поиск
====================
Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.
Читать постфактум
=================
Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.
Итого
=====
Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.
Discuss?
(no subject)
Date: 2012-07-05 07:11 am (UTC)Достаточно дать любому параноику часов 5 телефонной прослушки и заставить разобрать по абонентам и расшифровать в текст.
Просветление наступает через полчаса-час даже у самых упертых.
(no subject)
Date: 2012-07-05 07:39 am (UTC)(no subject)
Date: 2012-07-05 08:13 am (UTC)То есть, сам по себе метод даёт немного, но в комплексе с другими - очень полезен, ИМХО.
(no subject)
Date: 2012-07-05 08:35 am (UTC)(no subject)
Date: 2012-07-05 08:52 am (UTC);)
(no subject)
Date: 2012-07-05 08:53 am (UTC)Про чтение постфактум - если есть полная база "какой телефон когда с каким коннектился" - можно попробовать вытянуть хоть что-то. Если добавить к этому распознавание голоса (ну, основы) - то ещё хоть что-то.
В общем, выхлоп со всего этого можно получить, но он практически не зависит от тайности такой прослушки.
(no subject)
Date: 2012-07-05 08:54 am (UTC)Остальных можно попытаться вычислить, построив граф связей.
(no subject)
Date: 2012-07-05 09:04 am (UTC)в таком случае задача хоть и добирает вычислительной сложности, но выход становится значительно более достоверным
однако даже в этом случае вопрос "нахера весь этот цирк?" все равно остается актуальным
даже если предположить, что оно таки кому-то надо, то кроме распила бабла на оборудование и развертывание такого комплекса в госмасштабах, ничего другого в голову не приходит. целевое слежение за отдельными особами и агентурная работа - метод более эффективный и, что важно для суда, законный
(no subject)
Date: 2012-07-05 09:18 am (UTC)Конечно, другое дело, метод даёт стопроцентный сбой на тех, кто озаботился отдельной симкой на чужие паспортные данные и все "интересные" разговоры ведёт с неё. Но в обсуждаемом контексте (как поможет контролю тотальная прослушка) ответ из-за этого не меняется.
(no subject)
Date: 2012-07-05 09:40 am (UTC)(no subject)
Date: 2012-07-05 10:25 am (UTC)Если же абоненты у разных операторов ...
Как-то раз оператор А думал вычислить тех абонентов оператора Б, которые часто звонят одним и тем же абонентам оператора А. Чтобы, значит, сделать им выгодное предложение и переманить.
И у него ничего не вышло.
Как вы думаете, почему?
(no subject)
Date: 2012-07-05 10:34 am (UTC)(no subject)
Date: 2012-07-05 10:34 am (UTC)(no subject)
Date: 2012-07-05 10:35 am (UTC)Речь идёт о том, что "террорист" может завести левую симку и вести с неё только "террористические" разговоры - тогда биллинговый профиль совпадения не даст, остальные методы тоже не прокатят. Такую симку надо вылавливать уже прицельно - например, через наружную слежку со снятием параметров излучающих неподалёку телефонов и т.п. Так пасут наркоторговцев и т.п.
А вот для "борьбы" с "болотной оппозицией" метод тотальной прослушки и статистического анализа пройдёт "на ура" - там никто особенно не шифруется.
(no subject)
Date: 2012-07-05 10:37 am (UTC)(no subject)
Date: 2012-07-05 10:41 am (UTC)Руки привязаны к конкретному человеку, и это объект, а не процесс. Вот если бы мы говорили про какой-то гипотетически логгинг рукопожатий, напрмер, аналогия была бы полной.
Камеры привязан к месту и отвечают на вопросы, связанные с местом. Давайте вместо этого говорить про наблюдение за людьми на основании фотопотока с flickr, напрмер.
(no subject)
Date: 2012-07-05 10:42 am (UTC)(no subject)
Date: 2012-07-05 10:47 am (UTC)И номер звонящего абонента может быть ... странным, если он едет через какую-то транзитную сеть, и там его ... творчески обрабатывают.
Но самой большой проблемой был выбор нормального критерия определения того, что вот это вот - искомый абонент.
Была сделана ручная выборка тех, кто должен быть хорошим кандидатом (выбирали среди друзей-знакомых-родственников сотрудников оператора А). Тесты показали, что выбрать критерий, который надежно "вылавливает" их всех и при этом работает с приемлемой скоростью (напрмер, за несколько дней) не представляется возможным.
(no subject)
Date: 2012-07-05 11:20 am (UTC)(no subject)
Date: 2012-07-05 11:25 am (UTC)2. Тоже нет. Полно симок, с которых мало звонят - телефоны пожилых людей, телефоны "для интернета", служебные малоиспользуемые телефоны и т.д.
(no subject)
Date: 2012-07-05 11:28 am (UTC)Ох-ох-ох ...
(no subject)
Date: 2012-07-05 11:28 am (UTC)(no subject)
Date: 2012-07-05 11:31 am (UTC)У вас какие-то странные представления о мобильной связи.
2)Они не хотели звонить всем подряд. Им нужны были _телефоны_ (не адреса) тех, кому имеет смысл звонить. Потому как иначе (как бы в это не было сложно поверить) соотношение усилия/результат такие, что лучше не начинать
(no subject)
Date: 2012-07-05 11:43 am (UTC)Аналог дактилоскопирования - это связка "фио/адрес/паспорт -> номер телефона". Т.е. мы про всех знаем "отпечатки". Это уже есть сейчас у любого оператора.
Запись всех разговоров = фиксация всех отпечатков.
Или таки ищите аналогию получше.
(no subject)
Date: 2012-07-05 11:58 am (UTC)