dastapov: (Default)
Dmitry Astapov ([personal profile] dastapov) wrote2012-07-04 09:08 am
Entry tags:

Теория заговора интереса, следовательно она верна!

Забавно наблюдать, как люди стартуют с посылки "Кровавый Режим удаленно включает телефон и СЛУШАЕТ", а когда им начинают задавать вопросы, это превращается в "Ну, может и не включает удаленно, но уж точно внедряет в телефон ЧТО-ТО, чтобы он сам потом включался и передавал".

Когда начинаешь интересоваться, как же это может работать, и зачем это нужно, происходит следующее волшебное превращение: "Ну, может он и не передает все подряд, но телефонные разговоры-то точно записывает куда-то на флешку, а потом при удобном случае по интернету сливает куда надо".

В результате мы говорим про запись разговоров, которую Кровавому Режиму в 100 раз проще вести через СОРМ (и не зависить от того, поменяет субъект свой телефонный аппарат на что-то другое или нет, например). Но теория заговора производителей телефонов и спецслужб гораздо интереснее и привлекательнее. Это же прямо как фильм про Бонда - брутальный агент Кровавого Режима знает 100500 способов удаленного внедрения в firmware любого телефона закладки, которая будет заниматся зверским шпионажем.

[identity profile] ximaera.livejournal.com 2012-07-04 01:04 pm (UTC)(link)
Проиндексировать, выделить ключевые слова и при необходимости уведомить кого надо. Типа, если в списке распознанных слов есть слово "терроризм" -- то сразу взяли на карандаш и прослушали весь разговор.

[identity profile] awind.livejournal.com 2012-07-04 01:16 pm (UTC)(link)
что-то мне подсказывает, что чаще всего слово "терроризм" используют сотрудники соответствующих служб. а коммерческий код придмали как бы не раньше чем письменность.

[identity profile] dezelent.livejournal.com 2012-07-04 02:30 pm (UTC)(link)
плюсуюсь.

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-04 01:19 pm (UTC)(link)
А что делать с false positives?

Допустим, у нас 0.001% false positives (это нереально круто, типа).
Мы прослушали 1 млн разговоров (нагрузка типичного коммутатора за пару часов). Получили 1000 false positives.

Вопрос: как быстро на подобную систему будет забит болт по причине того, что она генерирует 100% дурной работы и 0% полезного выхлопа?

Продолжаем фантазировать!

[identity profile] ximaera.livejournal.com 2012-07-04 02:01 pm (UTC)(link)
На основе некоей выборки (например, пара десятков террористов, уже вычисленных ранее путём агентурной работы) составляем взвешенное множество слов, часто употребляемых в разговоре террористами и редко -- обычными гражданами. Разрабатываем систему штрафов и определяем для каждого абонента порог, начиная с которого, записи разговоров с данного номера, зарабатывающие наибольший штраф, сохраняются.

Итеративно отлаживаем систему штрафов, отлаживаем порог, отлаживаем выборку и через год, возможно, получаем работоспособный детектор, а возможно, идём с этим всем в задницу. Но, по крайней мере, на десяток публикаций тут наберётся, полагаю :-)
Edited 2012-07-04 14:02 (UTC)

Re: Продолжаем фантазировать!

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-04 02:23 pm (UTC)(link)
Ок, а кто будет заниматься этой разработкой - оператор или Кровавый Режим?

И все равно, что же делать с false positives? Даже если мы усушим 1 млн разговоров до 10К потенциально подозрительныз разговоров, любые false positives хоронят идею на корню.

[identity profile] ximaera.livejournal.com 2012-07-04 03:22 pm (UTC)(link)
В идеале, исследовательская лаборатория или технологический подрядчик ВПК при Кровавом Режиме. При этом я не считаю себя компетентным в плане оценки пригодности лабораторий какого бы то ни было Кровавого Режима для качественного решения этой задачи. Хотя предполагаю, что американский КР, возможно, осилил бы.

Усушивать 1 млн разговоров до тысячи потенциально подозрительных и далее как раз и должны эти исследователи. Пару тысяч разговоров в сутки уже способно переварить полдесятка человек.

Главный вопрос тут вообще не в человеческих ресурсах, а в выборке. Ибо всё это зиждется на предположении, что вообще есть такая выборка ключевых слов, по частоте употребления которых можно найти потенциальных террористов. В этом я сильно не уверен. В остальном же -- при условии, что этот метод работоспособен -- благодаря нажитой обществом истерике на тему терроризма найдут штат и в полсотни человек.

[identity profile] dezelent.livejournal.com 2012-07-04 02:31 pm (UTC)(link)
пару десятков слушает четыре десятка спецов. это как раз куда проще. и пишут в полном объеме.

[identity profile] ximaera.livejournal.com 2012-07-04 03:14 pm (UTC)(link)
Пару десятков слушает, а ещё пару сотен не может обнаружить.

[identity profile] dezelent.livejournal.com 2012-07-04 03:27 pm (UTC)(link)
универ. лекция. хороший лектор. 150 студентов. понял 45 минутную лекцию - 1% присутствующих. и это все люди, а не машины с фильтрами. проблема не в распознавании, запишут образцы речи всех абонов мира и распознают когдато. проблема в понимании речи. четком и однозначном.
(deleted comment)

[identity profile] http://users.livejournal.com/_adept_/ 2012-07-05 06:53 am (UTC)(link)
Тезис "круг поиска ясен" как-то не очевиден.

[identity profile] dezelent.livejournal.com 2012-07-04 02:29 pm (UTC)(link)
"мой малыш терроризирует меня каждую ночь".
слово терроризм, террористы не употребляют как мне кажется, это глупо. наверняка они оперируют куда более приближенными к их делам терминами,"сходи", "сделай", "положи" и так далее..

[identity profile] honeyman.livejournal.com 2012-07-04 05:23 pm (UTC)(link)
Так и представляю разговор, который, похоже, считают основным юз-кейсом разработчики систем распознавания по ключевым словам.

Иншалла, Ахмед!
Аллах акбар, Ибрагим. Как поживает твоя террористическая ячейка?
— В моей ячейке всё в порядке. Поставки оружия вовремя, обучение шахидок идёт по графику. К сожалению, смертницы кончились раньше, чем динамит, поэтому закупаем дополнительную партию взрывчатки с армейских складов. Можешь для нас ещё немного отмыть денег, и перевести на потайной счёт?
— К сожалению, мои люди в банке были расколоты антитеррористическим подразделением. Придумай что-нибудь сам.
— А, без проблем. Тогда будем действовать по-старинке: займёмся киднеппингом, поставками наркотиков и заказными убийствами.


А в реале любые нормальные люди будут общаться так:
— Привет. Проблемы есть?
— Химия кончилась. Нужны ресурсы на закупку. Поможешь?
— Не могу. Сами справитесь?
— Угу.
Edited 2012-07-04 17:26 (UTC)

[identity profile] ximaera.livejournal.com 2012-07-04 05:51 pm (UTC)(link)
Часто ли вы в переговорах по мобильному телефону используете слово "химия"?

[identity profile] honeyman.livejournal.com 2012-07-04 06:01 pm (UTC)(link)
"Пойдёшь домой — купи в БытовойХимии крота". Рядом со старой квартирой был магазин, который все знали именно под таким названием.

"Химию подготовил? Завтра в 6, до занятий, подходи к универу" — а это вообще звучит не как страдания студента, а как жуткий террористический заговор.

[identity profile] ximaera.livejournal.com 2012-07-04 06:05 pm (UTC)(link)
Вы на вопрос не ответили. Так часто или редко?

[identity profile] honeyman.livejournal.com 2012-07-04 06:07 pm (UTC)(link)
Достаточно редко, но случается. Впрочем, кажется, некоторые другие слова из выделенных, я использовал чаще. И по вполне себе (ну, относительно) мирным поводам.

[identity profile] ximaera.livejournal.com 2012-07-04 06:35 pm (UTC)(link)
Ну так я же и пишу:

1> На основе некоей выборки (например, пара десятков террористов,
1> уже вычисленных ранее путём агентурной работы) составляем взвешенное
1> множество
слов, часто употребляемых в разговоре террористами и редко
1> -- обычными гражданами. Разрабатываем систему штрафов и определяем
1> для каждого абонента порог

2> Главный вопрос тут вообще не в человеческих ресурсах, а в выборке.
2> Ибо всё это зиждется на предположении, что вообще есть такая выборка
2> ключевых слов, по частоте употребления которых можно найти
2> потенциальных террористов. В этом я сильно не уверен.

Само собой, что, если мы будем искать разговоры по одному отдельному слову, то мы поймаем огромное число ложных срабатываний. Но, если смотреть на историю, то, может быть, и поймается что-нибудь.

И, само собой, это не проект готового решения, которое можно завтра проинтегрировать и уже послезавтра пачками ловить Рулонов Обоевых. Это тема для длительного исследования. Мне просто кажется, что подобное исследование уже на текущем уровне развития алгоритмов распознавания речи может иметь смысл.

Кроме того, учитывая сам факт того, что вы читаете данный журнал и понимаете, о чём тут идёт речь, можно сделать вывод о том, что те переговоры, которые вы периодически ведёте по телефону, отличаются от переговоров, которые ведёт большинство населения. Т. е. да, кроме террористов, мы сразу же поймаем ещё и уйму гиков, леперов, двачеров и прочая и прочая, но насколько велик будет процент ложных срабатываний -- наобум сказать сложно, и мой уважаемый собеседник -- ни в коем случае не показатель, по которому можно судить.
Edited 2012-07-04 18:39 (UTC)

[identity profile] honeyman.livejournal.com 2012-07-04 07:07 pm (UTC)(link)
> Мне просто кажется, что подобное исследование уже на текущем уровне
> развития алгоритмов распознавания речи может иметь смысл.

Возможно. Но боюсь, что оно будет уж слишком междисциплинарным — а значит, чтобы получить от него практическую пользу, слишком много ресурсов придётся затратить просто для его организации. Тут и распознавание речи, и весьма специфическая психология (чтобы иметь хоть что-то для начала обучения системы; «люди, склонные скрывать настоящий смысл фраз и говорить эвфемизмами, обычно говорят так»), тут и практическая информация от спецслужб («а C-4 в Бангладеже и Северной Индии сейчас называют глиной» — опять же, для «засева» алгоритмов самообучения), и алгоритмы data mining-а... Ибо пока, если думать об этом только на уровне технологий (наподобие взвешенных множеств, Байеса и т.п.) это не выглядит вообще хоть как-то способным отфильтровать одного террориста от двухсот тысяч каунтерстрайкеров и пейнтболльщиков.

> Кроме того, учитывая сам факт того, что вы читаете данный журнал и
> понимаете, о чём тут идёт речь, можно сделать вывод о том, что те
> переговоры, которые вы периодически ведёте по телефону, отличаются
> от переговоров, которые ведёт большинство населения.

Типа, «вызываю огонь на себя» — поддели, спасибо :)

[identity profile] kzayko.livejournal.com 2012-07-08 09:35 pm (UTC)(link)
Выборка в пару десятков террористов (пускай, на паре тысяч разговоров) даст и вероятность ложного срабатывания порядка 10 в -3. Это статистика :)
А для среднего оператора 20-30 миллионов разговоров в час - вовсе не проблема.
При таком "качестве" отбора мы каждый час будем иметь 20 тысяч разговоров, которые надо кому-то прослушать, и отметить. Это ну совсем никак нереально.