dastapov: (Default)
[personal profile] dastapov
В продолжение вчерашней дискуссии.

Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.

Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).

Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".

Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:

Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?

У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.

Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).

Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.


Полнотекстовый поиск
====================

Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.

Читать постфактум
=================

Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.

Итого
=====

Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.

Discuss?

(no subject)

Date: 2012-07-05 08:35 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А как связать людей из вконтакта с номерами/imsi/... ?

(no subject)

Date: 2012-07-05 08:52 am (UTC)
From: [identity profile] jonni.livejournal.com
Специально обученные Кровавым Режымом гномики помогут, что вы как маленькие прям

;)

(no subject)

Date: 2012-07-05 09:40 am (UTC)
From: [identity profile] xoma-xoma.livejournal.com
Если у Кровавого РежЫма есть таке гномики, то что стоит оному РежЫму этих же гномиков сразу посадить на прослушку, тем самым избежав ненужных финансовых затрат на аппаратуру и программы?

(no subject)

Date: 2012-07-05 08:54 am (UTC)
From: [identity profile] aamonster.livejournal.com
Часть законопослушных граждан уже связана с номерами.
Остальных можно попытаться вычислить, построив граф связей.

(no subject)

Date: 2012-07-05 09:18 am (UTC)
From: [identity profile] stranger-p-a.livejournal.com
Так там сейчас практически обязательное требование указание реального ФИО и телефона. Ну и в принципе по фотографии и связям вычисляется легко.

Конечно, другое дело, метод даёт стопроцентный сбой на тех, кто озаботился отдельной симкой на чужие паспортные данные и все "интересные" разговоры ведёт с неё. Но в обсуждаемом контексте (как поможет контролю тотальная прослушка) ответ из-за этого не меняется.
(deleted comment)

(no subject)

Date: 2012-07-05 10:25 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Слово "элементарно" и "автоматически" тут можно оставить только при условии, что все живут в сети одного оператора и симку нельзя купить без паспорта (за пределами России есть жизнь, ага).

Если же абоненты у разных операторов ...

Как-то раз оператор А думал вычислить тех абонентов оператора Б, которые часто звонят одним и тем же абонентам оператора А. Чтобы, значит, сделать им выгодное предложение и переманить.

И у него ничего не вышло.

Как вы думаете, почему?

(no subject)

Date: 2012-07-05 10:37 am (UTC)
From: [identity profile] norguhtar.livejournal.com
И почему же? Аналитика заняла слишком много времени?

(no subject)

Date: 2012-07-05 10:47 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Потому что сети связи, сцуко, опасные :)

И номер звонящего абонента может быть ... странным, если он едет через какую-то транзитную сеть, и там его ... творчески обрабатывают.

Но самой большой проблемой был выбор нормального критерия определения того, что вот это вот - искомый абонент.

Была сделана ручная выборка тех, кто должен быть хорошим кандидатом (выбирали среди друзей-знакомых-родственников сотрудников оператора А). Тесты показали, что выбрать критерий, который надежно "вылавливает" их всех и при этом работает с приемлемой скоростью (напрмер, за несколько дней) не представляется возможным.
(deleted comment)

(no subject)

Date: 2012-07-05 11:31 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
1)Я купил симку в англии без прописки. Что я делаю не так? Даже, точнее, получил даром. Еще и следом бежали и уговаривали взять вторую. Таким тут занимаются все, кому не лень (это не один оператор такой)

У вас какие-то странные представления о мобильной связи.

2)Они не хотели звонить всем подряд. Им нужны были _телефоны_ (не адреса) тех, кому имеет смысл звонить. Потому как иначе (как бы в это не было сложно поверить) соотношение усилия/результат такие, что лучше не начинать
(deleted comment)

(no subject)

Date: 2012-07-05 12:07 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
1)Тарифы выше в разы? Нет, не видел.

https://www.vectonemobile.co.uk/pay-as-you-go/vm-rates/standard/national-rates.aspx

Давайте, покажите мне контракт с ценами на _порядок_ ниже.

У меня получается 10 фунтов в месяц, из них 5 - интерент (безлимитный пакет). А сколько получается у вас? Какой у вас оператор? Неужели укладываетесь в 1 фунт в месяц?

2)Спорю, что вы попадали под "ковровую бомбардировку". В зависимости от ситуации на конкретном рынке, за такое могут "набить морду".
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 01:16 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 02:11 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 03:26 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 07:05 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] alishka.livejournal.com - Date: 2012-07-16 06:36 pm (UTC) - Expand

(no subject)

Date: 2012-07-05 04:28 pm (UTC)
From: [identity profile] knyar.livejournal.com
Я только за последние полгода без паспорта покупал sim-карточки в Великобритании, Ирландии, Таиланде и Малайзии. В прошлом аналогично покупал в Америке, например. Единственные страны, где при покупке sim-карточек пришлось показывать паспорт — Китай и Беларусь. И то, естественно, никакого гражданства или вида на жительство с меня не потребовали.

Да, возможно тарифы pre-paid чуть дороже контракта. Однако, мобильная связь сейчас стоит так невероятно дёшево, так что этим вполне можно пренебречь.
(deleted comment)
(deleted comment)
(deleted comment)

Re: Скажу за Латвию

From: [identity profile] nponeccop.livejournal.com - Date: 2012-07-05 08:39 pm (UTC) - Expand

Re: Скажу за Латвию

From: [identity profile] proforg.livejournal.com - Date: 2012-07-05 09:53 pm (UTC) - Expand
(deleted comment)

Re: Скажу за Латвию

From: [identity profile] proforg.livejournal.com - Date: 2012-07-06 12:39 am (UTC) - Expand

(no subject)

Date: 2012-07-06 07:02 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Вы опять начинаете передергивать. Начиналось все с того, что жители страны (не туристы) не сидят на препейде, т.к. с них требуют паспорт и это безумно дорого, и поэтому их _звонки_ будет очень легко идентифицировать.

Вам показали, что это не так, и теперь вы уводите разговор куда-то в сторону.нном.

(no subject)

Date: 2012-07-05 10:35 am (UTC)
From: [identity profile] stranger-p-a.livejournal.com
Это как раз понятно.

Речь идёт о том, что "террорист" может завести левую симку и вести с неё только "террористические" разговоры - тогда биллинговый профиль совпадения не даст, остальные методы тоже не прокатят. Такую симку надо вылавливать уже прицельно - например, через наружную слежку со снятием параметров излучающих неподалёку телефонов и т.п. Так пасут наркоторговцев и т.п.

А вот для "борьбы" с "болотной оппозицией" метод тотальной прослушки и статистического анализа пройдёт "на ура" - там никто особенно не шифруется.
(deleted comment)

(no subject)

Date: 2012-07-05 11:25 am (UTC)
From: [identity profile] stranger-p-a.livejournal.com
1. Почему "служебный"? 500 рублей местному алкашу - и симка на его паспорт.

2. Тоже нет. Полно симок, с которых мало звонят - телефоны пожилых людей, телефоны "для интернета", служебные малоиспользуемые телефоны и т.д.
(deleted comment)

(no subject)

Date: 2012-07-05 12:13 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Я вам советую как художник художнику - в этой области огромный недостаток коробочных решений. Сможете сделать свое - озолотитесь :)

Или же _почему-то_ решите, что не получается.

(no subject)

From: [identity profile] stranger-p-a.livejournal.com - Date: 2012-07-05 12:16 pm (UTC) - Expand

(no subject)

Date: 2012-07-05 11:28 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Служебные симки? Элементарно вычисляется?

Ох-ох-ох ...

(no subject)

Date: 2012-07-05 10:34 am (UTC)
From: [identity profile] norguhtar.livejournal.com
Взять их у вконтакта и дальше уже по ним пробить паспортные данные у оператора связи и запросить данные о телефонах по остальным.

Profile

dastapov: (Default)
Dmitry Astapov

May 2022

M T W T F S S
       1
2345678
9101112131415
161718 19202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags