![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Забавно наблюдать, как люди стартуют с посылки "Кровавый Режим удаленно включает телефон и СЛУШАЕТ", а когда им начинают задавать вопросы, это превращается в "Ну, может и не включает удаленно, но уж точно внедряет в телефон ЧТО-ТО, чтобы он сам потом включался и передавал".
Когда начинаешь интересоваться, как же это может работать, и зачем это нужно, происходит следующее волшебное превращение: "Ну, может он и не передает все подряд, но телефонные разговоры-то точно записывает куда-то на флешку, а потом при удобном случае по интернету сливает куда надо".
В результате мы говорим про запись разговоров, которую Кровавому Режиму в 100 раз проще вести через СОРМ (и не зависить от того, поменяет субъект свой телефонный аппарат на что-то другое или нет, например). Но теория заговора производителей телефонов и спецслужб гораздо интереснее и привлекательнее. Это же прямо как фильм про Бонда - брутальный агент Кровавого Режима знает 100500 способов удаленного внедрения в firmware любого телефона закладки, которая будет заниматся зверским шпионажем.
Когда начинаешь интересоваться, как же это может работать, и зачем это нужно, происходит следующее волшебное превращение: "Ну, может он и не передает все подряд, но телефонные разговоры-то точно записывает куда-то на флешку, а потом при удобном случае по интернету сливает куда надо".
В результате мы говорим про запись разговоров, которую Кровавому Режиму в 100 раз проще вести через СОРМ (и не зависить от того, поменяет субъект свой телефонный аппарат на что-то другое или нет, например). Но теория заговора производителей телефонов и спецслужб гораздо интереснее и привлекательнее. Это же прямо как фильм про Бонда - брутальный агент Кровавого Режима знает 100500 способов удаленного внедрения в firmware любого телефона закладки, которая будет заниматся зверским шпионажем.
(no subject)
Date: 2012-07-04 12:55 pm (UTC)Что потом делать с этим распознанным на 50% разговором?
Запись еще можно так-сяк и в суде попытаться "пришить", и послушать самому. А вот с наполовину распознанным текстом чего? Читать его? А зачем?
(no subject)
Date: 2012-07-04 01:04 pm (UTC)(no subject)
Date: 2012-07-04 01:16 pm (UTC)(no subject)
Date: 2012-07-04 02:30 pm (UTC)(no subject)
Date: 2012-07-04 01:19 pm (UTC)Допустим, у нас 0.001% false positives (это нереально круто, типа).
Мы прослушали 1 млн разговоров (нагрузка типичного коммутатора за пару часов). Получили 1000 false positives.
Вопрос: как быстро на подобную систему будет забит болт по причине того, что она генерирует 100% дурной работы и 0% полезного выхлопа?
Продолжаем фантазировать!
Date: 2012-07-04 02:01 pm (UTC)Итеративно отлаживаем систему штрафов, отлаживаем порог, отлаживаем выборку и через год, возможно, получаем работоспособный детектор, а возможно, идём с этим всем в задницу. Но, по крайней мере, на десяток публикаций тут наберётся, полагаю :-)
Re: Продолжаем фантазировать!
Date: 2012-07-04 02:23 pm (UTC)И все равно, что же делать с false positives? Даже если мы усушим 1 млн разговоров до 10К потенциально подозрительныз разговоров, любые false positives хоронят идею на корню.
(no subject)
Date: 2012-07-04 03:22 pm (UTC)Усушивать 1 млн разговоров до тысячи потенциально подозрительных и далее как раз и должны эти исследователи. Пару тысяч разговоров в сутки уже способно переварить полдесятка человек.
Главный вопрос тут вообще не в человеческих ресурсах, а в выборке. Ибо всё это зиждется на предположении, что вообще есть такая выборка ключевых слов, по частоте употребления которых можно найти потенциальных террористов. В этом я сильно не уверен. В остальном же -- при условии, что этот метод работоспособен -- благодаря нажитой обществом истерике на тему терроризма найдут штат и в полсотни человек.
(no subject)
Date: 2012-07-04 02:31 pm (UTC)(no subject)
Date: 2012-07-04 03:14 pm (UTC)(no subject)
Date: 2012-07-04 03:27 pm (UTC)(no subject)
Date: 2012-07-05 06:53 am (UTC)(no subject)
Date: 2012-07-04 02:29 pm (UTC)слово терроризм, террористы не употребляют как мне кажется, это глупо. наверняка они оперируют куда более приближенными к их делам терминами,"сходи", "сделай", "положи" и так далее..
(no subject)
Date: 2012-07-04 05:23 pm (UTC)— Иншалла, Ахмед!
— Аллах акбар, Ибрагим. Как поживает твоя террористическая ячейка?
— В моей ячейке всё в порядке. Поставки оружия вовремя, обучение шахидок идёт по графику. К сожалению, смертницы кончились раньше, чем динамит, поэтому закупаем дополнительную партию взрывчатки с армейских складов. Можешь для нас ещё немного отмыть денег, и перевести на потайной счёт?
— К сожалению, мои люди в банке были расколоты антитеррористическим подразделением. Придумай что-нибудь сам.
— А, без проблем. Тогда будем действовать по-старинке: займёмся киднеппингом, поставками наркотиков и заказными убийствами.
А в реале любые нормальные люди будут общаться так:
— Привет. Проблемы есть?
— Химия кончилась. Нужны ресурсы на закупку. Поможешь?
— Не могу. Сами справитесь?
— Угу.
(no subject)
Date: 2012-07-04 05:51 pm (UTC)(no subject)
Date: 2012-07-04 06:01 pm (UTC)"Химию подготовил? Завтра в 6, до занятий, подходи к универу" — а это вообще звучит не как страдания студента, а как жуткий террористический заговор.
(no subject)
Date: 2012-07-04 06:05 pm (UTC)(no subject)
Date: 2012-07-04 06:07 pm (UTC)(no subject)
Date: 2012-07-04 06:35 pm (UTC)1> На основе некоей выборки (например, пара десятков террористов,
1> уже вычисленных ранее путём агентурной работы) составляем взвешенное
1> множество слов, часто употребляемых в разговоре террористами и редко
1> -- обычными гражданами. Разрабатываем систему штрафов и определяем
1> для каждого абонента порог
2> Главный вопрос тут вообще не в человеческих ресурсах, а в выборке.
2> Ибо всё это зиждется на предположении, что вообще есть такая выборка
2> ключевых слов, по частоте употребления которых можно найти
2> потенциальных террористов. В этом я сильно не уверен.
Само собой, что, если мы будем искать разговоры по одному отдельному слову, то мы поймаем огромное число ложных срабатываний. Но, если смотреть на историю, то, может быть, и поймается что-нибудь.
И, само собой, это не проект готового решения, которое можно завтра проинтегрировать и уже послезавтра пачками ловить Рулонов Обоевых. Это тема для длительного исследования. Мне просто кажется, что подобное исследование уже на текущем уровне развития алгоритмов распознавания речи может иметь смысл.
Кроме того, учитывая сам факт того, что вы читаете данный журнал и понимаете, о чём тут идёт речь, можно сделать вывод о том, что те переговоры, которые вы периодически ведёте по телефону, отличаются от переговоров, которые ведёт большинство населения. Т. е. да, кроме террористов, мы сразу же поймаем ещё и уйму гиков, леперов, двачеров и прочая и прочая, но насколько велик будет процент ложных срабатываний -- наобум сказать сложно, и мой уважаемый собеседник -- ни в коем случае не показатель, по которому можно судить.
(no subject)
From:(no subject)
From:(no subject)
Date: 2012-07-04 07:17 pm (UTC)суть затеи "запись и индексирование всего" в том, чтобы сократить аналитику пространство перебора. то есть если интересует "леоспилка" (привет, Навальный), и слово такое распозналась, можно слушать не 100\500 часов,а только тот 15и-минутный разговор, где она упоминается.
далее, не надо забывать, что технологии рапознавания всё время улучшаются, поэтому можно перидоически (например, с появлением новой версии распознавалки) проходить базу записей по-новой, получая более качественные результаты.
(no subject)
Date: 2012-07-05 06:56 am (UTC)(no subject)
Date: 2012-07-05 07:22 am (UTC)(no subject)
Date: 2012-07-05 07:33 am (UTC)(no subject)
Date: 2012-07-05 07:39 am (UTC)