dastapov: (Default)
[personal profile] dastapov
В продолжение вчерашней дискуссии.

Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.

Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).

Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".

Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:

Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?

У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.

Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).

Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.


Полнотекстовый поиск
====================

Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.

Читать постфактум
=================

Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.

Итого
=====

Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.

Discuss?

(no subject)

Date: 2012-07-05 07:11 am (UTC)
From: [identity profile] africanec.livejournal.com
Не о чем discuss.
Достаточно дать любому параноику часов 5 телефонной прослушки и заставить разобрать по абонентам и расшифровать в текст.
Просветление наступает через полчаса-час даже у самых упертых.

(no subject)

Date: 2012-07-05 07:39 am (UTC)
From: [identity profile] norguhtar.livejournal.com
Да вон уже на примере китая продемонстрировано, что великий китайский фаервол прошибается, при наличии желания.
Edited Date: 2012-07-05 07:39 am (UTC)
(deleted comment)

(no subject)

Date: 2012-07-05 10:34 am (UTC)
From: [identity profile] norguhtar.livejournal.com
Это все понятно. Но если до конца проводить аналогию, то тут скорее закрывание двери на щеколду.
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 11:28 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 12:34 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 02:31 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 03:07 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 03:39 pm (UTC) - Expand

(no subject)

Date: 2012-07-05 08:13 am (UTC)
From: [identity profile] stranger-p-a.livejournal.com
Всё верно, но только если рассматривать проблему отдельно. А если в комплексе - картина совсем другая: допустим, натравливаем классификатор на уже отобранную по каким-то другим критериям целевую группу абонентов (например, "люди, активно засветившиеся в "ВКонтакте" в предмитинговой активности") - по этой подгруппе поиск и классификация будут на порядки более результативны.

То есть, сам по себе метод даёт немного, но в комплексе с другими - очень полезен, ИМХО.

(no subject)

Date: 2012-07-05 08:35 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А как связать людей из вконтакта с номерами/imsi/... ?

(no subject)

Date: 2012-07-05 08:52 am (UTC)
From: [identity profile] jonni.livejournal.com
Специально обученные Кровавым Режымом гномики помогут, что вы как маленькие прям

;)

(no subject)

From: [identity profile] xoma-xoma.livejournal.com - Date: 2012-07-05 09:40 am (UTC) - Expand

(no subject)

Date: 2012-07-05 08:54 am (UTC)
From: [identity profile] aamonster.livejournal.com
Часть законопослушных граждан уже связана с номерами.
Остальных можно попытаться вычислить, построив граф связей.

(no subject)

From: [identity profile] stranger-p-a.livejournal.com - Date: 2012-07-05 09:18 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 10:25 am (UTC) - Expand

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 10:37 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 10:47 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 11:31 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 12:07 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 01:16 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 02:11 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 03:26 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 07:05 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] alishka.livejournal.com - Date: 2012-07-16 06:36 pm (UTC) - Expand

(no subject)

From: [identity profile] knyar.livejournal.com - Date: 2012-07-05 04:28 pm (UTC) - Expand
(deleted comment)
(deleted comment)
(deleted comment)

Re: Скажу за Латвию

From: [identity profile] nponeccop.livejournal.com - Date: 2012-07-05 08:39 pm (UTC) - Expand

Re: Скажу за Латвию

From: [identity profile] proforg.livejournal.com - Date: 2012-07-05 09:53 pm (UTC) - Expand
(deleted comment)

Re: Скажу за Латвию

From: [identity profile] proforg.livejournal.com - Date: 2012-07-06 12:39 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 07:02 am (UTC) - Expand

(no subject)

From: [identity profile] stranger-p-a.livejournal.com - Date: 2012-07-05 10:35 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] stranger-p-a.livejournal.com - Date: 2012-07-05 11:25 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 12:13 pm (UTC) - Expand

(no subject)

From: [identity profile] stranger-p-a.livejournal.com - Date: 2012-07-05 12:16 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 11:28 am (UTC) - Expand

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 10:34 am (UTC) - Expand
From: [identity profile] Павел Мосенцев (from livejournal.com)
Есть событие - митинг на болотной, т.е. событие с четкой привязкой к координатам и времени. Есть массив записанных разговоров, так же имеющий привязки к координатам базовых станций и времени. Составляем граф какой номер какому звонил, расширяя его на месяц назад (мы же по условиям задачи пишем все все все :) ) На это граф накладываем людей из вконтакте и мордокнига, у многих там есть телефон в профиле.Добавляем людей из твиттера, они ведь не особенно скрываются. И получаем несколько хорошо таргетированных множеств, которые уже можно анализировать выявляя лидеров, т.е. именно тех кого и стоит слушать

(no subject)

Date: 2012-07-05 08:53 am (UTC)
From: [identity profile] aamonster.livejournal.com
Про supervised/unsupervised методы: если делать двуслойную сеть - первый слой сеть Кохонена, второй - звёзды Гроссберга, то при изменении критериев переучивать придётся только второй слой, а это заметно "дешевле".

Про чтение постфактум - если есть полная база "какой телефон когда с каким коннектился" - можно попробовать вытянуть хоть что-то. Если добавить к этому распознавание голоса (ну, основы) - то ещё хоть что-то.

В общем, выхлоп со всего этого можно получить, но он практически не зависит от тайности такой прослушки.

(no subject)

Date: 2012-07-05 09:04 am (UTC)
From: [identity profile] barch.livejournal.com
если говорить про "базу разговоров" и привязке отдельных разговоров к определенным личностям, тут я бы рассматривал задачу не изолированно от других источников информации, а в контексте всех доступных средств идентификации говорящих
в таком случае задача хоть и добирает вычислительной сложности, но выход становится значительно более достоверным
однако даже в этом случае вопрос "нахера весь этот цирк?" все равно остается актуальным
даже если предположить, что оно таки кому-то надо, то кроме распила бабла на оборудование и развертывание такого комплекса в госмасштабах, ничего другого в голову не приходит. целевое слежение за отдельными особами и агентурная работа - метод более эффективный и, что важно для суда, законный
(deleted comment)

(no subject)

Date: 2012-07-05 10:41 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Аналогии плохие.

Руки привязаны к конкретному человеку, и это объект, а не процесс. Вот если бы мы говорили про какой-то гипотетически логгинг рукопожатий, напрмер, аналогия была бы полной.

Камеры привязан к месту и отвечают на вопросы, связанные с местом. Давайте вместо этого говорить про наблюдение за людьми на основании фотопотока с flickr, напрмер.
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 11:58 am (UTC) - Expand
(deleted comment)

(no subject)

Date: 2012-07-05 10:42 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Я что-то пропустил, и где-то уже есть повсеместное снятие всех отпечатков со всех поверхностей в конце дня?
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 11:43 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 12:11 pm (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-05 12:26 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 12:40 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 01:23 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 02:35 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 03:09 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] norguhtar.livejournal.com - Date: 2012-07-05 03:37 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 03:43 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 07:23 am (UTC) - Expand

(no subject)

From: [identity profile] ziavra.livejournal.com - Date: 2012-07-05 01:33 pm (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-05 01:07 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 01:24 pm (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-05 06:19 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 06:39 am (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-06 07:34 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 08:58 am (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-06 10:52 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 11:10 am (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-06 11:30 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 12:09 pm (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-06 04:55 pm (UTC) - Expand

(no subject)

From: (Anonymous) - Date: 2012-11-19 11:12 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-11-20 08:03 am (UTC) - Expand

(no subject)

Date: 2012-07-05 11:20 am (UTC)
From: [identity profile] ghrar.livejournal.com
вполне полезная для МВД херь. при осуществлении оперативно-розыскных мероприятий запросы к оператору так и приходят: в связи с расследованием такого-то дела прислать местоположение, распечатку звонков, тексты смс для таких-то номеров.

(no subject)

Date: 2012-07-05 12:08 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Ну, это же несколько отличается от "аудиозаписи звонков", ага?

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-05 12:20 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 12:37 pm (UTC) - Expand

(no subject)

From: [identity profile] ghrar.livejournal.com - Date: 2012-07-05 01:06 pm (UTC) - Expand

(no subject)

Date: 2012-07-05 01:51 pm (UTC)
From: [identity profile] pascendi.livejournal.com
Вы просто не в курсе последних работ по автоматическому анализу текстов. Я тут в двух таких проектах поучаствовал в прошлом году и в этом.
Погуглите кластеризацию, автоматическую классификацию, анализ эмоционального отношения, ранжирование и т.п. Сейчас такая обработка делается почти в реальном времени на массивах в сотни тысяч текстовых документов, и это в коммерческих проектах -- прикиньте возможности у серьезных госструктур.

Кстати, в этой области сейчас весьма активные исследования ведут китайцы, у них патентов почти столько же, сколько у евросоюза.

(no subject)

Date: 2012-07-05 02:08 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Я, натурально, не в курсе.

Расскажете исходя из своего опыта, что же реально получить на основании последних достижений в этой области, если тексты у нас - это распознанное аудио соотв. качества?

(no subject)

From: [identity profile] pascendi.livejournal.com - Date: 2012-07-05 02:16 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 02:19 pm (UTC) - Expand

(no subject)

From: [identity profile] pascendi.livejournal.com - Date: 2012-07-05 02:23 pm (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 07:20 am (UTC) - Expand

(no subject)

From: [identity profile] pascendi.livejournal.com - Date: 2012-07-06 07:35 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 08:48 am (UTC) - Expand

(no subject)

From: [identity profile] pascendi.livejournal.com - Date: 2012-07-06 08:54 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 09:22 am (UTC) - Expand

(no subject)

Date: 2012-07-05 03:42 pm (UTC)
From: [identity profile] norguhtar.livejournal.com
Тут возникает куда они все это будут прятать :) Машин не маленько, мощности тоже не маленькие. Спрятать это где-то в глухих местах не получится, требуются толстые каналы связи.

(no subject)

From: [identity profile] pascendi.livejournal.com - Date: 2012-07-05 03:48 pm (UTC) - Expand

(no subject)

From: [identity profile] dezelent.livejournal.com - Date: 2012-07-05 09:26 pm (UTC) - Expand

(no subject)

From: [identity profile] pascendi.livejournal.com - Date: 2012-07-06 04:28 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-06 06:09 am (UTC) - Expand

(no subject)

Date: 2012-07-05 01:55 pm (UTC)
From: (Anonymous)
У нас качество рапознавание было где-то 70% (немецкий язык) Что бы записать 1 минуту аудио текстом - надо использовать фактор 15 для новичков и фактор 10 для тех, кто в танке. Тренировка распознавания дело муторное и после заливки около 1000 распознанных текстов качество общего распознавания ивеличивалось где-то на 0.5%.
Ну и чем короче текст, тем распознование лучше. Ещё лучше - если говорящий - мужчина и без акцента (как-то слушал, как француз говорит по немецки - человек не поймёт). Большие трудности с названием фирм, с именами собственными. Ну и слов, которые примерно одинаково звучат - тоже много.
В целом смысл собирать такие данные есть - надо иметь только очень огромный бюджет и быть готовым, что где-то около 80% качество распознавания остановится.
Ах да - на новый год качество распознавания было 40% :)

(no subject)

Date: 2012-07-06 07:24 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А что такое "фактор 10" или 15?
(deleted comment)

(no subject)

Date: 2012-07-06 06:27 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
И что вы там такого увидели?

Рекомендую почитать оригинальную новость, а не хреновый пересказ хренового перевода.

А то сядете опять в лужу, как с препейдом и паспортами.

(no subject)

Date: 2012-07-06 07:43 pm (UTC)
From: [identity profile] drug123.livejournal.com
У меня те же вопросы и претензии к самой идее, но вот вайред не так давно писал вот такое: http://www.wired.com/threatlevel/2012/03/ff_nsadatacenter/all/
Причем журнал не назовешь ни параноидальным, да и не "Московский комсомолец" чай это.

Profile

dastapov: (Default)
Dmitry Astapov

May 2022

M T W T F S S
       1
2345678
9101112131415
161718 19202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags