Entry tags:
Теория заговора интереса, следовательно она верна!
Забавно наблюдать, как люди стартуют с посылки "Кровавый Режим удаленно включает телефон и СЛУШАЕТ", а когда им начинают задавать вопросы, это превращается в "Ну, может и не включает удаленно, но уж точно внедряет в телефон ЧТО-ТО, чтобы он сам потом включался и передавал".
Когда начинаешь интересоваться, как же это может работать, и зачем это нужно, происходит следующее волшебное превращение: "Ну, может он и не передает все подряд, но телефонные разговоры-то точно записывает куда-то на флешку, а потом при удобном случае по интернету сливает куда надо".
В результате мы говорим про запись разговоров, которую Кровавому Режиму в 100 раз проще вести через СОРМ (и не зависить от того, поменяет субъект свой телефонный аппарат на что-то другое или нет, например). Но теория заговора производителей телефонов и спецслужб гораздо интереснее и привлекательнее. Это же прямо как фильм про Бонда - брутальный агент Кровавого Режима знает 100500 способов удаленного внедрения в firmware любого телефона закладки, которая будет заниматся зверским шпионажем.
Когда начинаешь интересоваться, как же это может работать, и зачем это нужно, происходит следующее волшебное превращение: "Ну, может он и не передает все подряд, но телефонные разговоры-то точно записывает куда-то на флешку, а потом при удобном случае по интернету сливает куда надо".
В результате мы говорим про запись разговоров, которую Кровавому Режиму в 100 раз проще вести через СОРМ (и не зависить от того, поменяет субъект свой телефонный аппарат на что-то другое или нет, например). Но теория заговора производителей телефонов и спецслужб гораздо интереснее и привлекательнее. Это же прямо как фильм про Бонда - брутальный агент Кровавого Режима знает 100500 способов удаленного внедрения в firmware любого телефона закладки, которая будет заниматся зверским шпионажем.
no subject
no subject
no subject
no subject
Но, да, некоторый сенс во всём этом есть, и можно писать всё подряд и хранить, скажем, месяц, а то, что проиндексировалось в positive (можно же кстати, вполне брать false positives) - сколько нужно, годы, если не вечно (индекс, правда, тогда придётся делать минимум двухуровневый)
no subject
Что потом делать с этим распознанным на 50% разговором?
Запись еще можно так-сяк и в суде попытаться "пришить", и послушать самому. А вот с наполовину распознанным текстом чего? Читать его? А зачем?
no subject
no subject
no subject
no subject
Допустим, у нас 0.001% false positives (это нереально круто, типа).
Мы прослушали 1 млн разговоров (нагрузка типичного коммутатора за пару часов). Получили 1000 false positives.
Вопрос: как быстро на подобную систему будет забит болт по причине того, что она генерирует 100% дурной работы и 0% полезного выхлопа?
Продолжаем фантазировать!
Итеративно отлаживаем систему штрафов, отлаживаем порог, отлаживаем выборку и через год, возможно, получаем работоспособный детектор, а возможно, идём с этим всем в задницу. Но, по крайней мере, на десяток публикаций тут наберётся, полагаю :-)
Re: Продолжаем фантазировать!
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
слово терроризм, террористы не употребляют как мне кажется, это глупо. наверняка они оперируют куда более приближенными к их делам терминами,"сходи", "сделай", "положи" и так далее..
no subject
— Иншалла, Ахмед!
— Аллах акбар, Ибрагим. Как поживает твоя террористическая ячейка?
— В моей ячейке всё в порядке. Поставки оружия вовремя, обучение шахидок идёт по графику. К сожалению, смертницы кончились раньше, чем динамит, поэтому закупаем дополнительную партию взрывчатки с армейских складов. Можешь для нас ещё немного отмыть денег, и перевести на потайной счёт?
— К сожалению, мои люди в банке были расколоты антитеррористическим подразделением. Придумай что-нибудь сам.
— А, без проблем. Тогда будем действовать по-старинке: займёмся киднеппингом, поставками наркотиков и заказными убийствами.
А в реале любые нормальные люди будут общаться так:
— Привет. Проблемы есть?
— Химия кончилась. Нужны ресурсы на закупку. Поможешь?
— Не могу. Сами справитесь?
— Угу.
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
суть затеи "запись и индексирование всего" в том, чтобы сократить аналитику пространство перебора. то есть если интересует "леоспилка" (привет, Навальный), и слово такое распозналась, можно слушать не 100\500 часов,а только тот 15и-минутный разговор, где она упоминается.
далее, не надо забывать, что технологии рапознавания всё время улучшаются, поэтому можно перидоически (например, с появлением новой версии распознавалки) проходить базу записей по-новой, получая более качественные результаты.
no subject
no subject
(no subject)
(no subject)
no subject
и 25% разговоров ситуацию ну никак не улучшат.
Повторю за адептом:
Реально для того, чтобы построить эффективную систему необходимо уменьшить вероятность ложного срабатывания до 10 в -6, а для этого нужно иметь миллионы точно известных позитивных примеров для обучения.
Где их взять?
no subject
ваша система отберет вас в наркоманы. И меня заодно - я в том же диалоге повторил :).
Проблема не в том, что разговоры трудно найти. А в том, что число ложных срабатываний
превышает число истинных на порядки. Т.е., при 100 потенциальных наркоманах мы получим 100000 подозреваемых. И что с ними делать? Это статистика...
А если есть ГП и его связи, так тотальная прослушка _не нужна_. Решение суда - и операторы с радостью все выдадут, согласно закону :).
no subject
no subject
no subject
no subject