dastapov: (Default)
[personal profile] dastapov
Забавно наблюдать, как люди стартуют с посылки "Кровавый Режим удаленно включает телефон и СЛУШАЕТ", а когда им начинают задавать вопросы, это превращается в "Ну, может и не включает удаленно, но уж точно внедряет в телефон ЧТО-ТО, чтобы он сам потом включался и передавал".

Когда начинаешь интересоваться, как же это может работать, и зачем это нужно, происходит следующее волшебное превращение: "Ну, может он и не передает все подряд, но телефонные разговоры-то точно записывает куда-то на флешку, а потом при удобном случае по интернету сливает куда надо".

В результате мы говорим про запись разговоров, которую Кровавому Режиму в 100 раз проще вести через СОРМ (и не зависить от того, поменяет субъект свой телефонный аппарат на что-то другое или нет, например). Но теория заговора производителей телефонов и спецслужб гораздо интереснее и привлекательнее. Это же прямо как фильм про Бонда - брутальный агент Кровавого Режима знает 100500 способов удаленного внедрения в firmware любого телефона закладки, которая будет заниматся зверским шпионажем.

(no subject)

Date: 2012-07-04 12:55 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Я задам вопрос, который может показаться глупым.

Что потом делать с этим распознанным на 50% разговором?

Запись еще можно так-сяк и в суде попытаться "пришить", и послушать самому. А вот с наполовину распознанным текстом чего? Читать его? А зачем?

(no subject)

Date: 2012-07-04 01:04 pm (UTC)
From: [identity profile] ximaera.livejournal.com
Проиндексировать, выделить ключевые слова и при необходимости уведомить кого надо. Типа, если в списке распознанных слов есть слово "терроризм" -- то сразу взяли на карандаш и прослушали весь разговор.

(no subject)

Date: 2012-07-04 01:16 pm (UTC)
From: [identity profile] awind.livejournal.com
что-то мне подсказывает, что чаще всего слово "терроризм" используют сотрудники соответствующих служб. а коммерческий код придмали как бы не раньше чем письменность.

(no subject)

Date: 2012-07-04 02:30 pm (UTC)
From: [identity profile] dezelent.livejournal.com
плюсуюсь.

(no subject)

Date: 2012-07-04 01:19 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А что делать с false positives?

Допустим, у нас 0.001% false positives (это нереально круто, типа).
Мы прослушали 1 млн разговоров (нагрузка типичного коммутатора за пару часов). Получили 1000 false positives.

Вопрос: как быстро на подобную систему будет забит болт по причине того, что она генерирует 100% дурной работы и 0% полезного выхлопа?

Продолжаем фантазировать!

Date: 2012-07-04 02:01 pm (UTC)
From: [identity profile] ximaera.livejournal.com
На основе некоей выборки (например, пара десятков террористов, уже вычисленных ранее путём агентурной работы) составляем взвешенное множество слов, часто употребляемых в разговоре террористами и редко -- обычными гражданами. Разрабатываем систему штрафов и определяем для каждого абонента порог, начиная с которого, записи разговоров с данного номера, зарабатывающие наибольший штраф, сохраняются.

Итеративно отлаживаем систему штрафов, отлаживаем порог, отлаживаем выборку и через год, возможно, получаем работоспособный детектор, а возможно, идём с этим всем в задницу. Но, по крайней мере, на десяток публикаций тут наберётся, полагаю :-)
Edited Date: 2012-07-04 02:02 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Ок, а кто будет заниматься этой разработкой - оператор или Кровавый Режим?

И все равно, что же делать с false positives? Даже если мы усушим 1 млн разговоров до 10К потенциально подозрительныз разговоров, любые false positives хоронят идею на корню.

(no subject)

Date: 2012-07-04 03:22 pm (UTC)
From: [identity profile] ximaera.livejournal.com
В идеале, исследовательская лаборатория или технологический подрядчик ВПК при Кровавом Режиме. При этом я не считаю себя компетентным в плане оценки пригодности лабораторий какого бы то ни было Кровавого Режима для качественного решения этой задачи. Хотя предполагаю, что американский КР, возможно, осилил бы.

Усушивать 1 млн разговоров до тысячи потенциально подозрительных и далее как раз и должны эти исследователи. Пару тысяч разговоров в сутки уже способно переварить полдесятка человек.

Главный вопрос тут вообще не в человеческих ресурсах, а в выборке. Ибо всё это зиждется на предположении, что вообще есть такая выборка ключевых слов, по частоте употребления которых можно найти потенциальных террористов. В этом я сильно не уверен. В остальном же -- при условии, что этот метод работоспособен -- благодаря нажитой обществом истерике на тему терроризма найдут штат и в полсотни человек.

(no subject)

Date: 2012-07-04 02:31 pm (UTC)
From: [identity profile] dezelent.livejournal.com
пару десятков слушает четыре десятка спецов. это как раз куда проще. и пишут в полном объеме.

(no subject)

Date: 2012-07-04 03:14 pm (UTC)
From: [identity profile] ximaera.livejournal.com
Пару десятков слушает, а ещё пару сотен не может обнаружить.

(no subject)

Date: 2012-07-04 03:27 pm (UTC)
From: [identity profile] dezelent.livejournal.com
универ. лекция. хороший лектор. 150 студентов. понял 45 минутную лекцию - 1% присутствующих. и это все люди, а не машины с фильтрами. проблема не в распознавании, запишут образцы речи всех абонов мира и распознают когдато. проблема в понимании речи. четком и однозначном.
(deleted comment)

(no subject)

Date: 2012-07-05 06:53 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Тезис "круг поиска ясен" как-то не очевиден.

(no subject)

Date: 2012-07-04 02:29 pm (UTC)
From: [identity profile] dezelent.livejournal.com
"мой малыш терроризирует меня каждую ночь".
слово терроризм, террористы не употребляют как мне кажется, это глупо. наверняка они оперируют куда более приближенными к их делам терминами,"сходи", "сделай", "положи" и так далее..

(no subject)

Date: 2012-07-04 05:23 pm (UTC)
From: [identity profile] honeyman.livejournal.com
Так и представляю разговор, который, похоже, считают основным юз-кейсом разработчики систем распознавания по ключевым словам.

Иншалла, Ахмед!
Аллах акбар, Ибрагим. Как поживает твоя террористическая ячейка?
— В моей ячейке всё в порядке. Поставки оружия вовремя, обучение шахидок идёт по графику. К сожалению, смертницы кончились раньше, чем динамит, поэтому закупаем дополнительную партию взрывчатки с армейских складов. Можешь для нас ещё немного отмыть денег, и перевести на потайной счёт?
— К сожалению, мои люди в банке были расколоты антитеррористическим подразделением. Придумай что-нибудь сам.
— А, без проблем. Тогда будем действовать по-старинке: займёмся киднеппингом, поставками наркотиков и заказными убийствами.


А в реале любые нормальные люди будут общаться так:
— Привет. Проблемы есть?
— Химия кончилась. Нужны ресурсы на закупку. Поможешь?
— Не могу. Сами справитесь?
— Угу.
Edited Date: 2012-07-04 05:26 pm (UTC)

(no subject)

Date: 2012-07-04 05:51 pm (UTC)
From: [identity profile] ximaera.livejournal.com
Часто ли вы в переговорах по мобильному телефону используете слово "химия"?

(no subject)

Date: 2012-07-04 06:01 pm (UTC)
From: [identity profile] honeyman.livejournal.com
"Пойдёшь домой — купи в БытовойХимии крота". Рядом со старой квартирой был магазин, который все знали именно под таким названием.

"Химию подготовил? Завтра в 6, до занятий, подходи к универу" — а это вообще звучит не как страдания студента, а как жуткий террористический заговор.

(no subject)

Date: 2012-07-04 06:05 pm (UTC)
From: [identity profile] ximaera.livejournal.com
Вы на вопрос не ответили. Так часто или редко?

(no subject)

Date: 2012-07-04 06:07 pm (UTC)
From: [identity profile] honeyman.livejournal.com
Достаточно редко, но случается. Впрочем, кажется, некоторые другие слова из выделенных, я использовал чаще. И по вполне себе (ну, относительно) мирным поводам.

(no subject)

Date: 2012-07-04 06:35 pm (UTC)
From: [identity profile] ximaera.livejournal.com
Ну так я же и пишу:

1> На основе некоей выборки (например, пара десятков террористов,
1> уже вычисленных ранее путём агентурной работы) составляем взвешенное
1> множество
слов, часто употребляемых в разговоре террористами и редко
1> -- обычными гражданами. Разрабатываем систему штрафов и определяем
1> для каждого абонента порог

2> Главный вопрос тут вообще не в человеческих ресурсах, а в выборке.
2> Ибо всё это зиждется на предположении, что вообще есть такая выборка
2> ключевых слов, по частоте употребления которых можно найти
2> потенциальных террористов. В этом я сильно не уверен.

Само собой, что, если мы будем искать разговоры по одному отдельному слову, то мы поймаем огромное число ложных срабатываний. Но, если смотреть на историю, то, может быть, и поймается что-нибудь.

И, само собой, это не проект готового решения, которое можно завтра проинтегрировать и уже послезавтра пачками ловить Рулонов Обоевых. Это тема для длительного исследования. Мне просто кажется, что подобное исследование уже на текущем уровне развития алгоритмов распознавания речи может иметь смысл.

Кроме того, учитывая сам факт того, что вы читаете данный журнал и понимаете, о чём тут идёт речь, можно сделать вывод о том, что те переговоры, которые вы периодически ведёте по телефону, отличаются от переговоров, которые ведёт большинство населения. Т. е. да, кроме террористов, мы сразу же поймаем ещё и уйму гиков, леперов, двачеров и прочая и прочая, но насколько велик будет процент ложных срабатываний -- наобум сказать сложно, и мой уважаемый собеседник -- ни в коем случае не показатель, по которому можно судить.
Edited Date: 2012-07-04 06:39 pm (UTC)

(no subject)

From: [identity profile] honeyman.livejournal.com - Date: 2012-07-04 07:07 pm (UTC) - Expand

(no subject)

From: [identity profile] kzayko.livejournal.com - Date: 2012-07-08 09:35 pm (UTC) - Expand

(no subject)

Date: 2012-07-04 07:17 pm (UTC)
From: [identity profile] auto194419.livejournal.com
почему же глупым. вопрос в целях этой работы.

суть затеи "запись и индексирование всего" в том, чтобы сократить аналитику пространство перебора. то есть если интересует "леоспилка" (привет, Навальный), и слово такое распозналась, можно слушать не 100\500 часов,а только тот 15и-минутный разговор, где она упоминается.

далее, не надо забывать, что технологии рапознавания всё время улучшаются, поэтому можно перидоически (например, с появлением новой версии распознавалки) проходить базу записей по-новой, получая более качественные результаты.

(no subject)

Date: 2012-07-05 06:56 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
"Лесопилка - about 339,000 results". При этом, если в том самом нужном разговоре слово "лесопилка" не распозналось, то мы слушаем 339 левых разговоров совершенно на шару. См. следующий пост

(no subject)

Date: 2012-07-05 07:22 am (UTC)
From: [identity profile] auto194419.livejournal.com
"лесопилка" всего - 399000. в папочке "навальный" (номера-то известны) - 1 раз.

(no subject)

Date: 2012-07-05 07:33 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Если номера известны, то есть СОРМ, и не надо заморачиваться, не?

(no subject)

Date: 2012-07-05 07:39 am (UTC)
From: [identity profile] auto194419.livejournal.com
ну кроме как СОРМом, записать разговоры и нечем. дальше вопрос анализа. при большом количестве это поможет.

Profile

dastapov: (Default)
Dmitry Astapov

May 2022

M T W T F S S
       1
2345678
9101112131415
161718 19202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags