dastapov: (Default)
Dmitry Astapov ([personal profile] dastapov) wrote2012-07-05 07:45 am
Entry tags:

Распознавание и анализ разговоров

В продолжение вчерашней дискуссии.

Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.

Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).

Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".

Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:

Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?

У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.

Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).

Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.


Полнотекстовый поиск
====================

Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.

Читать постфактум
=================

Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.

Итого
=====

Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.

Discuss?

[identity profile] norguhtar.livejournal.com 2012-07-05 03:07 pm (UTC)(link)
В нем запросто может быть openvpn. Его может хватить. А остальное можно найти и внутри самого Китая, было бы желание.

[identity profile] norguhtar.livejournal.com 2012-07-05 03:09 pm (UTC)(link)
В том что архив живет отдельно. К примеру на магнитной ленте в запакованном виде. Значит его надо восстановить. А это уже ручная операция.

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-05 03:26 pm (UTC)(link)
Насчет "в среднем дешевле" по-прежнему не уверен - я, напрмер, сменил три постпейда, прежде чем выбрал этот припейд, и он сильно дешевле для моих usage patterns.

Напомню, что начали мы с "препейд без паспорта не купишь, и с него выгоняют рублем - он на порядок дороже, соответственно _все_ сидят на постпейде". Вот с этим я не согласен. Будете дальше отрицать? :)

Особенно часть про пасспорт.

[identity profile] norguhtar.livejournal.com 2012-07-05 03:37 pm (UTC)(link)

и что, операторы каждый раз при подключении каждого абонента лезут в архив ручками ?

Вы не поняли. Есть минимальная информация о клиенте. А вот к примеру куда он звонил год назад уже нет. Или детализация начислений есть только за месяц.

[identity profile] norguhtar.livejournal.com 2012-07-05 03:39 pm (UTC)(link)
Давайте завязывать утрировать. Что вы мне хотите сказать, я понимаю. И да это потребует определенных знаний. И те кто этими знаниями обладает вполне могут пройти фаерволл. Как и криминалитет может легко найти наркотики и оружие.

[identity profile] norguhtar.livejournal.com 2012-07-05 03:42 pm (UTC)(link)
Тут возникает куда они все это будут прятать :) Машин не маленько, мощности тоже не маленькие. Спрятать это где-то в глухих местах не получится, требуются толстые каналы связи.

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-05 03:43 pm (UTC)(link)
Процесс сбора долгов с октлючившихся или отключающихся абонентов - это совершенно отдельный процесс, не связанный с биллингом никак. Если человек в архиве - значит, долги или собрали или забили.

Как бы то ни было, долги собираются отнюдь не в момент переподключения.

[identity profile] pascendi.livejournal.com 2012-07-05 03:48 pm (UTC)(link)
А зачем это где-то прятать?
Все стоит где-нибудь в крупном государственном датацентре на самом виду.

[identity profile] knyar.livejournal.com 2012-07-05 04:28 pm (UTC)(link)
Я только за последние полгода без паспорта покупал sim-карточки в Великобритании, Ирландии, Таиланде и Малайзии. В прошлом аналогично покупал в Америке, например. Единственные страны, где при покупке sim-карточек пришлось показывать паспорт — Китай и Беларусь. И то, естественно, никакого гражданства или вида на жительство с меня не потребовали.

Да, возможно тарифы pre-paid чуть дороже контракта. Однако, мобильная связь сейчас стоит так невероятно дёшево, так что этим вполне можно пренебречь.

[identity profile] ghrar.livejournal.com 2012-07-05 06:19 pm (UTC)(link)
записи в биллинге и так создаются, ведь распечатка звонков предоставляется же). и хотя я не сильно копенгаген в базах данных, но добавить дополнительное поле и сформировать автоматически уникальное имя каждой записи - не проблема. опять же удобно - аудиозапись разговора будет одна на двоих и запись в БД будет одинаковая.
и синтетические id создавать не обязательно, ведь сейчас запросы из мвд приходят чаще без фамилий), тайна следствия, видите ли). да и не факт, что говорить будут именно владельцы контрактов.

Re: Скажу за Латвию

[identity profile] nponeccop.livejournal.com 2012-07-05 08:39 pm (UTC)(link)
В Нигерии тоже требуют док-ты за припейд, и тоже пару лет как.

[identity profile] dezelent.livejournal.com 2012-07-05 09:26 pm (UTC)(link)
а как оно туда в реальном времени приходит?
И что они делают в ночь с 31 на 1е? :)

Re: Скажу за Латвию

[identity profile] proforg.livejournal.com 2012-07-05 09:53 pm (UTC)(link)
но никто не мешает купить карточку с рук на рынке, например

Re: Скажу за Латвию

[identity profile] proforg.livejournal.com 2012-07-06 12:39 am (UTC)(link)
ну с ними и 10 лет назад собирались бороться, но вот как то так и не поборолись.
при этом в соседней португалии - карточки продаются без всяких документов.
ну и про литву / латвию / этонию и многие страны ЮВА уже написали, как впрочем и про то что анонимный препейд симки часто оказываются вполне себе выгодными для постоянного использования.

Уточнение классификаторов

[identity profile] Павел Мосенцев (from livejournal.com) 2012-07-06 04:24 am (UTC)(link)
Есть событие - митинг на болотной, т.е. событие с четкой привязкой к координатам и времени. Есть массив записанных разговоров, так же имеющий привязки к координатам базовых станций и времени. Составляем граф какой номер какому звонил, расширяя его на месяц назад (мы же по условиям задачи пишем все все все :) ) На это граф накладываем людей из вконтакте и мордокнига, у многих там есть телефон в профиле.Добавляем людей из твиттера, они ведь не особенно скрываются. И получаем несколько хорошо таргетированных множеств, которые уже можно анализировать выявляя лидеров, т.е. именно тех кого и стоит слушать

[identity profile] pascendi.livejournal.com 2012-07-06 04:28 am (UTC)(link)
Если Вы про текстовые материалы, то есть же интернет :-)

Если про потенциальную возможность обрабатывать конвертированные в текст речевые сообщения, то есть же СОРМ -- или Вы думаете, что СОРМ-системы, установленные у операторов связи, не соединены ни с каким центром обработки?

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 06:09 am (UTC)(link)

СОРМ не рассчитан на перехват всего трафика. Через него не пролезет.

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 06:27 am (UTC)(link)
И что вы там такого увидели?

Рекомендую почитать оригинальную новость, а не хреновый пересказ хренового перевода.

А то сядете опять в лужу, как с препейдом и паспортами.

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 06:39 am (UTC)(link)
Для препейда может не быть никакой биллинговой записи, так как нету bill-а (счета). Может быть баланс в SCP (это такая железка рядом с коммутатором) и все.

Сформировать произвольное синтетическое ID, конечно же, очень легко, но толку от него будет 0. Мы же хотим, чтобы ID идентифицировало говорящего, а не номер, так?

Re: Уточнение классификаторов

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 06:49 am (UTC)(link)
Есть массив записанных разговоров, так же имеющий привязки к координатам базовых станций

Ну, это вам потребуется сделать отдельно. Нигде ни в базовой сети ни в биллинге этих координат нет, т.к. они там нафиг не нужны.


Составляем граф какой номер какому звонил, расширяя его на месяц назад (мы же по условиям задачи пишем все все все :)
Как вы оцениваете (на глазок) кол-во узлов и ребер в таком графе? Почему цифра именно такая?

Re: Скажу за Латвию

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 06:57 am (UTC)(link)
Я думаю, что вы очень отдаленно представляете себе вычислительную сложность определения того, поменялся ли "профиль разговора" или нет с качеством, допускающим практическое применение (да-да, я опять про false positives и прочие нудные вещи).

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 07:02 am (UTC)(link)
Вы опять начинаете передергивать. Начиналось все с того, что жители страны (не туристы) не сидят на препейде, т.к. с них требуют паспорт и это безумно дорого, и поэтому их _звонки_ будет очень легко идентифицировать.

Вам показали, что это не так, и теперь вы уводите разговор куда-то в сторону.нном.

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 07:05 am (UTC)(link)
Вы мобильной связью никогда не занимались (сейчас это уже очевидно), и вы совершенно не представляете себе разделение рынка между препейдом и постпейдом и темпы роста обоих сегментов.

Ваши знакомые-друзья (в кол-ве хорошо если 50 человек) совсем не показатель.

Давайте уже завязывать рассказывать о вкусе апельсинов, которых вы не ели.

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 07:20 am (UTC)(link)
То, что они делают, выглядит красиво. Но я для меня не очевидно, что переход от мониторинга 10+ СМИ к обработке миллионов неструктурированных плохо распознанных разговоров (в которых полные предложения будут редкостью) будет легким и простым.

Я неправ?

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-06 07:23 am (UTC)(link)
Кстати про скорость: как вы считаете, с какой скоростью надо оцифровывать разговоры, чтобы хотя бы успевать (в масштабах России)? И чтобы можно было на день выключить систему для апгрейда или чего-то подобного и не получить "хвост", который придется разгребать месяц.

Если у вас получилась цифра - как вы ее посчитали?

Page 3 of 4