dastapov | Распознавание и анализ разговоров

В продолжение вчерашней дискуссии.

Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.

Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).

Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".

Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:

Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?

У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.

Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).

Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.

Полнотекстовый поиск
====================

Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.

Читать постфактум
=================

Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.

Итого
=====

Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.

Discuss?

Page 1 of 4 << [1] [2] [3] [4] >>

Threaded | Top-Level Comments Only

From:

africanec.livejournal.com

Не о чем discuss.
Достаточно дать любому параноику часов 5 телефонной прослушки и заставить разобрать по абонентам и расшифровать в текст.
Просветление наступает через полчаса-час даже у самых упертых.

From:

norguhtar.livejournal.com

Да вон уже на примере китая продемонстрировано, что великий китайский фаервол прошибается, при наличии желания.

Edited Date: 2012-07-05 07:39 am (UTC)

From:

stranger-p-a.livejournal.com

Всё верно, но только если рассматривать проблему отдельно. А если в комплексе - картина совсем другая: допустим, натравливаем классификатор на уже отобранную по каким-то другим критериям целевую группу абонентов (например, "люди, активно засветившиеся в "ВКонтакте" в предмитинговой активности") - по этой подгруппе поиск и классификация будут на порядки более результативны.

То есть, сам по себе метод даёт немного, но в комплексе с другими - очень полезен, ИМХО.

From:

http://users.livejournal.com/_adept_/

А как связать людей из вконтакта с номерами/imsi/... ?

From:

jonni.livejournal.com

Специально обученные Кровавым Режымом гномики помогут, что вы как маленькие прям

;)

From:

aamonster.livejournal.com

Про supervised/unsupervised методы: если делать двуслойную сеть - первый слой сеть Кохонена, второй - звёзды Гроссберга, то при изменении критериев переучивать придётся только второй слой, а это заметно "дешевле".

Про чтение постфактум - если есть полная база "какой телефон когда с каким коннектился" - можно попробовать вытянуть хоть что-то. Если добавить к этому распознавание голоса (ну, основы) - то ещё хоть что-то.

В общем, выхлоп со всего этого можно получить, но он практически не зависит от тайности такой прослушки.

From:

aamonster.livejournal.com

Часть законопослушных граждан уже связана с номерами.
Остальных можно попытаться вычислить, построив граф связей.

From:

barch.livejournal.com

если говорить про "базу разговоров" и привязке отдельных разговоров к определенным личностям, тут я бы рассматривал задачу не изолированно от других источников информации, а в контексте всех доступных средств идентификации говорящих
в таком случае задача хоть и добирает вычислительной сложности, но выход становится значительно более достоверным
однако даже в этом случае вопрос "нахера весь этот цирк?" все равно остается актуальным
даже если предположить, что оно таки кому-то надо, то кроме распила бабла на оборудование и развертывание такого комплекса в госмасштабах, ничего другого в голову не приходит. целевое слежение за отдельными особами и агентурная работа - метод более эффективный и, что важно для суда, законный

From:

stranger-p-a.livejournal.com

Так там сейчас практически обязательное требование указание реального ФИО и телефона. Ну и в принципе по фотографии и связям вычисляется легко.

Конечно, другое дело, метод даёт стопроцентный сбой на тех, кто озаботился отдельной симкой на чужие паспортные данные и все "интересные" разговоры ведёт с неё. Но в обсуждаемом контексте (как поможет контролю тотальная прослушка) ответ из-за этого не меняется.

From:

xoma-xoma.livejournal.com

Если у Кровавого РежЫма есть таке гномики, то что стоит оному РежЫму этих же гномиков сразу посадить на прослушку, тем самым избежав ненужных финансовых затрат на аппаратуру и программы?

From:

http://users.livejournal.com/_adept_/

Слово "элементарно" и "автоматически" тут можно оставить только при условии, что все живут в сети одного оператора и симку нельзя купить без паспорта (за пределами России есть жизнь, ага).

Если же абоненты у разных операторов ...

Как-то раз оператор А думал вычислить тех абонентов оператора Б, которые часто звонят одним и тем же абонентам оператора А. Чтобы, значит, сделать им выгодное предложение и переманить.

И у него ничего не вышло.

Как вы думаете, почему?

From:

norguhtar.livejournal.com

Взять их у вконтакта и дальше уже по ним пробить паспортные данные у оператора связи и запросить данные о телефонах по остальным.

From:

norguhtar.livejournal.com

Это все понятно. Но если до конца проводить аналогию, то тут скорее закрывание двери на щеколду.

From:

stranger-p-a.livejournal.com

Это как раз понятно.

Речь идёт о том, что "террорист" может завести левую симку и вести с неё только "террористические" разговоры - тогда биллинговый профиль совпадения не даст, остальные методы тоже не прокатят. Такую симку надо вылавливать уже прицельно - например, через наружную слежку со снятием параметров излучающих неподалёку телефонов и т.п. Так пасут наркоторговцев и т.п.

А вот для "борьбы" с "болотной оппозицией" метод тотальной прослушки и статистического анализа пройдёт "на ура" - там никто особенно не шифруется.

From:

norguhtar.livejournal.com

И почему же? Аналитика заняла слишком много времени?

From:

http://users.livejournal.com/_adept_/

Аналогии плохие.

Руки привязаны к конкретному человеку, и это объект, а не процесс. Вот если бы мы говорили про какой-то гипотетически логгинг рукопожатий, напрмер, аналогия была бы полной.

Камеры привязан к месту и отвечают на вопросы, связанные с местом. Давайте вместо этого говорить про наблюдение за людьми на основании фотопотока с flickr, напрмер.

From:

http://users.livejournal.com/_adept_/

Я что-то пропустил, и где-то уже есть повсеместное снятие всех отпечатков со всех поверхностей в конце дня?

From:

http://users.livejournal.com/_adept_/

Потому что сети связи, сцуко, опасные :)

И номер звонящего абонента может быть ... странным, если он едет через какую-то транзитную сеть, и там его ... творчески обрабатывают.

Но самой большой проблемой был выбор нормального критерия определения того, что вот это вот - искомый абонент.

Была сделана ручная выборка тех, кто должен быть хорошим кандидатом (выбирали среди друзей-знакомых-родственников сотрудников оператора А). Тесты показали, что выбрать критерий, который надежно "вылавливает" их всех и при этом работает с приемлемой скоростью (напрмер, за несколько дней) не представляется возможным.

From:

ghrar.livejournal.com

вполне полезная для МВД херь. при осуществлении оперативно-розыскных мероприятий запросы к оператору так и приходят: в связи с расследованием такого-то дела прислать местоположение, распечатку звонков, тексты смс для таких-то номеров.

From:

stranger-p-a.livejournal.com

1. Почему "служебный"? 500 рублей местному алкашу - и симка на его паспорт.

2. Тоже нет. Полно симок, с которых мало звонят - телефоны пожилых людей, телефоны "для интернета", служебные малоиспользуемые телефоны и т.д.

From:

http://users.livejournal.com/_adept_/

Служебные симки? Элементарно вычисляется?

Ох-ох-ох ...

From:

norguhtar.livejournal.com

Не равен. Щеколду проще пройти :]

From:

http://users.livejournal.com/_adept_/

1)Я купил симку в англии без прописки. Что я делаю не так? Даже, точнее, получил даром. Еще и следом бежали и уговаривали взять вторую. Таким тут занимаются все, кому не лень (это не один оператор такой)

У вас какие-то странные представления о мобильной связи.

2)Они не хотели звонить всем подряд. Им нужны были _телефоны_ (не адреса) тех, кому имеет смысл звонить. Потому как иначе (как бы в это не было сложно поверить) соотношение усилия/результат такие, что лучше не начинать

From:

http://users.livejournal.com/_adept_/

Еще раз.

Аналог дактилоскопирования - это связка "фио/адрес/паспорт -> номер телефона". Т.е. мы про всех знаем "отпечатки". Это уже есть сейчас у любого оператора.

Запись всех разговоров = фиксация всех отпечатков.

Или таки ищите аналогию получше.

From:

http://users.livejournal.com/_adept_/

Ну, то что нет такой возможности - это беда вашей аналогии, и только. Давайте, как предложено в соседнем треде, заменим на снятие всех отпечатков везде. Тут-то с тех. возможностью проблем нет, да?

Page 1 of 4 << [1] [2] [3] [4] >>

Threaded | Top-Level Comments Only

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

dump -0f - /dev/mind

Я знаю Haskell, OCaml, GSM, эндофункторы и много других страшных слов

Распознавание и анализ разговоров

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

Profile

May 2022

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags