dump -0f - /dev/mind

Я задам вопрос, который может показаться глупым.

Что потом делать с этим распознанным на 50% разговором?

Запись еще можно так-сяк и в суде попытаться "пришить", и послушать самому. А вот с наполовину распознанным текстом чего? Читать его? А зачем?

From:

Проиндексировать, выделить ключевые слова и при необходимости уведомить кого надо. Типа, если в списке распознанных слов есть слово "терроризм" -- то сразу взяли на карандаш и прослушали весь разговор.

From:

awind.livejournal.com

что-то мне подсказывает, что чаще всего слово "терроризм" используют сотрудники соответствующих служб. а коммерческий код придмали как бы не раньше чем письменность.

From:

плюсуюсь.

From:

А что делать с false positives?

Допустим, у нас 0.001% false positives (это нереально круто, типа).
Мы прослушали 1 млн разговоров (нагрузка типичного коммутатора за пару часов). Получили 1000 false positives.

Вопрос: как быстро на подобную систему будет забит болт по причине того, что она генерирует 100% дурной работы и 0% полезного выхлопа?

From:

На основе некоей выборки (например, пара десятков террористов, уже вычисленных ранее путём агентурной работы) составляем взвешенное множество слов, часто употребляемых в разговоре террористами и редко -- обычными гражданами. Разрабатываем систему штрафов и определяем для каждого абонента порог, начиная с которого, записи разговоров с данного номера, зарабатывающие наибольший штраф, сохраняются.

Итеративно отлаживаем систему штрафов, отлаживаем порог, отлаживаем выборку и через год, возможно, получаем работоспособный детектор, а возможно, идём с этим всем в задницу. Но, по крайней мере, на десяток публикаций тут наберётся, полагаю :-)

Edited Date: 2012-07-04 02:02 pm (UTC)

From:

Ок, а кто будет заниматься этой разработкой - оператор или Кровавый Режим?

И все равно, что же делать с false positives? Даже если мы усушим 1 млн разговоров до 10К потенциально подозрительныз разговоров, любые false positives хоронят идею на корню.

From:

В идеале, исследовательская лаборатория или технологический подрядчик ВПК при Кровавом Режиме. При этом я не считаю себя компетентным в плане оценки пригодности лабораторий какого бы то ни было Кровавого Режима для качественного решения этой задачи. Хотя предполагаю, что американский КР, возможно, осилил бы.

Усушивать 1 млн разговоров до тысячи потенциально подозрительных и далее как раз и должны эти исследователи. Пару тысяч разговоров в сутки уже способно переварить полдесятка человек.

Главный вопрос тут вообще не в человеческих ресурсах, а в выборке. Ибо всё это зиждется на предположении, что вообще есть такая выборка ключевых слов, по частоте употребления которых можно найти потенциальных террористов. В этом я сильно не уверен. В остальном же -- при условии, что этот метод работоспособен -- благодаря нажитой обществом истерике на тему терроризма найдут штат и в полсотни человек.

From:

пару десятков слушает четыре десятка спецов. это как раз куда проще. и пишут в полном объеме.

From:

Пару десятков слушает, а ещё пару сотен не может обнаружить.

From:

универ. лекция. хороший лектор. 150 студентов. понял 45 минутную лекцию - 1% присутствующих. и это все люди, а не машины с фильтрами. проблема не в распознавании, запишут образцы речи всех абонов мира и распознают когдато. проблема в понимании речи. четком и однозначном.

(deleted comment)

From:

Тезис "круг поиска ясен" как-то не очевиден.

From:

"мой малыш терроризирует меня каждую ночь".
слово терроризм, террористы не употребляют как мне кажется, это глупо. наверняка они оперируют куда более приближенными к их делам терминами,"сходи", "сделай", "положи" и так далее..

From:

honeyman.livejournal.com

Так и представляю разговор, который, похоже, считают основным юз-кейсом разработчики систем распознавания по ключевым словам.

— Иншалла, Ахмед!
— Аллах акбар, Ибрагим. Как поживает твоя террористическая ячейка?
— В моей ячейке всё в порядке. Поставки оружия вовремя, обучение шахидок идёт по графику. К сожалению, смертницы кончились раньше, чем динамит, поэтому закупаем дополнительную партию взрывчатки с армейских складов. Можешь для нас ещё немного отмыть денег, и перевести на потайной счёт?
— К сожалению, мои люди в банке были расколоты антитеррористическим подразделением. Придумай что-нибудь сам.
— А, без проблем. Тогда будем действовать по-старинке: займёмся киднеппингом, поставками наркотиков и заказными убийствами.

А в реале любые нормальные люди будут общаться так:
— Привет. Проблемы есть?
— Химия кончилась. Нужны ресурсы на закупку. Поможешь?
— Не могу. Сами справитесь?
— Угу.

Edited Date: 2012-07-04 05:26 pm (UTC)

From:

Часто ли вы в переговорах по мобильному телефону используете слово "химия"?

From:

honeyman.livejournal.com

"Пойдёшь домой — купи в БытовойХимии крота". Рядом со старой квартирой был магазин, который все знали именно под таким названием.

"Химию подготовил? Завтра в 6, до занятий, подходи к универу" — а это вообще звучит не как страдания студента, а как жуткий террористический заговор.

From:

Вы на вопрос не ответили. Так часто или редко?

From:

honeyman.livejournal.com

Достаточно редко, но случается. Впрочем, кажется, некоторые другие слова из выделенных, я использовал чаще. И по вполне себе (ну, относительно) мирным поводам.

From:

Ну так я же и пишу:

1> На основе некоей выборки (например, пара десятков террористов,
1> уже вычисленных ранее путём агентурной работы) составляем взвешенное
1> множество слов, часто употребляемых в разговоре террористами и редко
1> -- обычными гражданами. Разрабатываем систему штрафов и определяем
1> для каждого абонента порог

2> Главный вопрос тут вообще не в человеческих ресурсах, а в выборке.
2> Ибо всё это зиждется на предположении, что вообще есть такая выборка
2> ключевых слов, по частоте употребления которых можно найти
2> потенциальных террористов. В этом я сильно не уверен.

Само собой, что, если мы будем искать разговоры по одному отдельному слову, то мы поймаем огромное число ложных срабатываний. Но, если смотреть на историю, то, может быть, и поймается что-нибудь.

И, само собой, это не проект готового решения, которое можно завтра проинтегрировать и уже послезавтра пачками ловить Рулонов Обоевых. Это тема для длительного исследования. Мне просто кажется, что подобное исследование уже на текущем уровне развития алгоритмов распознавания речи может иметь смысл.

Кроме того, учитывая сам факт того, что вы читаете данный журнал и понимаете, о чём тут идёт речь, можно сделать вывод о том, что те переговоры, которые вы периодически ведёте по телефону, отличаются от переговоров, которые ведёт большинство населения. Т. е. да, кроме террористов, мы сразу же поймаем ещё и уйму гиков, леперов, двачеров и прочая и прочая, но насколько велик будет процент ложных срабатываний -- наобум сказать сложно, и мой уважаемый собеседник -- ни в коем случае не показатель, по которому можно судить.

Edited Date: 2012-07-04 06:39 pm (UTC)

(no subject)

From:

honeyman.livejournal.com - Date: 2012-07-04 07:07 pm (UTC) - Expand

(no subject)

From:

kzayko.livejournal.com - Date: 2012-07-08 09:35 pm (UTC) - Expand

From:

auto194419.livejournal.com

почему же глупым. вопрос в целях этой работы.

суть затеи "запись и индексирование всего" в том, чтобы сократить аналитику пространство перебора. то есть если интересует "леоспилка" (привет, Навальный), и слово такое распозналась, можно слушать не 100\500 часов,а только тот 15и-минутный разговор, где она упоминается.

далее, не надо забывать, что технологии рапознавания всё время улучшаются, поэтому можно перидоически (например, с появлением новой версии распознавалки) проходить базу записей по-новой, получая более качественные результаты.

From:

"Лесопилка - about 339,000 results". При этом, если в том самом нужном разговоре слово "лесопилка" не распозналось, то мы слушаем 339 левых разговоров совершенно на шару. См. следующий пост

From:

auto194419.livejournal.com

"лесопилка" всего - 399000. в папочке "навальный" (номера-то известны) - 1 раз.

From: