dastapov: (Default)
[personal profile] dastapov
Забавно наблюдать, как люди стартуют с посылки "Кровавый Режим удаленно включает телефон и СЛУШАЕТ", а когда им начинают задавать вопросы, это превращается в "Ну, может и не включает удаленно, но уж точно внедряет в телефон ЧТО-ТО, чтобы он сам потом включался и передавал".

Когда начинаешь интересоваться, как же это может работать, и зачем это нужно, происходит следующее волшебное превращение: "Ну, может он и не передает все подряд, но телефонные разговоры-то точно записывает куда-то на флешку, а потом при удобном случае по интернету сливает куда надо".

В результате мы говорим про запись разговоров, которую Кровавому Режиму в 100 раз проще вести через СОРМ (и не зависить от того, поменяет субъект свой телефонный аппарат на что-то другое или нет, например). Но теория заговора производителей телефонов и спецслужб гораздо интереснее и привлекательнее. Это же прямо как фильм про Бонда - брутальный агент Кровавого Режима знает 100500 способов удаленного внедрения в firmware любого телефона закладки, которая будет заниматся зверским шпионажем.

(no subject)

Date: 2012-07-04 08:42 am (UTC)
From: [identity profile] dmarck.livejournal.com
Писать худо-бедно можно. Выкопать нужное из "записанного всего" зато получается чудовищно дорого и геморройно.

(no subject)

Date: 2012-07-04 09:40 am (UTC)
From: [identity profile] auto194419.livejournal.com
voice recog уже приближается к тому, чтобы распознвать "good enough for indexing"

(no subject)

Date: 2012-07-04 09:45 am (UTC)
From: [identity profile] dmarck.livejournal.com
Хм-хм, для английского с индийским акцентом тоже? Не говоря уж про прочие экзотические языки типа русского...

(no subject)

Date: 2012-07-04 10:44 am (UTC)
From: [identity profile] auto194419.livejournal.com
ещё раз - не нужно 100%, достаточно 50%, а то и меньше. длинные слова ловятся лучше, что хорошо понятно любому, кто сталкивался с dragon dictate да и с гуглёвой распознавалкой в анднроиде. а для индексирования - сойдёт. я много лет назад объяснял перфекционистам, что не надо пытаться отловить все ошибки в распознавании, мы модель мира строим, а не точную копию. да, что-то проебётся, но это не страшно. типичное beta than nothin' :)

(no subject)

Date: 2012-07-04 12:28 pm (UTC)
From: [identity profile] dmarck.livejournal.com
Ну, вообще, как мы помним из обще статистики, лучше всего 80% ;-P

Но, да, некоторый сенс во всём этом есть, и можно писать всё подряд и хранить, скажем, месяц, а то, что проиндексировалось в positive (можно же кстати, вполне брать false positives) - сколько нужно, годы, если не вечно (индекс, правда, тогда придётся делать минимум двухуровневый)

(no subject)

Date: 2012-07-04 12:55 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Я задам вопрос, который может показаться глупым.

Что потом делать с этим распознанным на 50% разговором?

Запись еще можно так-сяк и в суде попытаться "пришить", и послушать самому. А вот с наполовину распознанным текстом чего? Читать его? А зачем?

(no subject)

Date: 2012-07-04 01:04 pm (UTC)
From: [identity profile] ximaera.livejournal.com
Проиндексировать, выделить ключевые слова и при необходимости уведомить кого надо. Типа, если в списке распознанных слов есть слово "терроризм" -- то сразу взяли на карандаш и прослушали весь разговор.

(no subject)

Date: 2012-07-04 01:16 pm (UTC)
From: [identity profile] awind.livejournal.com
что-то мне подсказывает, что чаще всего слово "терроризм" используют сотрудники соответствующих служб. а коммерческий код придмали как бы не раньше чем письменность.

(no subject)

Date: 2012-07-04 02:30 pm (UTC)
From: [identity profile] dezelent.livejournal.com
плюсуюсь.

(no subject)

Date: 2012-07-04 01:19 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А что делать с false positives?

Допустим, у нас 0.001% false positives (это нереально круто, типа).
Мы прослушали 1 млн разговоров (нагрузка типичного коммутатора за пару часов). Получили 1000 false positives.

Вопрос: как быстро на подобную систему будет забит болт по причине того, что она генерирует 100% дурной работы и 0% полезного выхлопа?

Продолжаем фантазировать!

Date: 2012-07-04 02:01 pm (UTC)
From: [identity profile] ximaera.livejournal.com
На основе некоей выборки (например, пара десятков террористов, уже вычисленных ранее путём агентурной работы) составляем взвешенное множество слов, часто употребляемых в разговоре террористами и редко -- обычными гражданами. Разрабатываем систему штрафов и определяем для каждого абонента порог, начиная с которого, записи разговоров с данного номера, зарабатывающие наибольший штраф, сохраняются.

Итеративно отлаживаем систему штрафов, отлаживаем порог, отлаживаем выборку и через год, возможно, получаем работоспособный детектор, а возможно, идём с этим всем в задницу. Но, по крайней мере, на десяток публикаций тут наберётся, полагаю :-)
Edited Date: 2012-07-04 02:02 pm (UTC)

(no subject)

From: [identity profile] dezelent.livejournal.com - Date: 2012-07-04 02:31 pm (UTC) - Expand

(no subject)

From: [identity profile] ximaera.livejournal.com - Date: 2012-07-04 03:14 pm (UTC) - Expand

(no subject)

From: [identity profile] dezelent.livejournal.com - Date: 2012-07-04 03:27 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 06:53 am (UTC) - Expand

(no subject)

Date: 2012-07-04 02:29 pm (UTC)
From: [identity profile] dezelent.livejournal.com
"мой малыш терроризирует меня каждую ночь".
слово терроризм, террористы не употребляют как мне кажется, это глупо. наверняка они оперируют куда более приближенными к их делам терминами,"сходи", "сделай", "положи" и так далее..

(no subject)

Date: 2012-07-04 05:23 pm (UTC)
From: [identity profile] honeyman.livejournal.com
Так и представляю разговор, который, похоже, считают основным юз-кейсом разработчики систем распознавания по ключевым словам.

Иншалла, Ахмед!
Аллах акбар, Ибрагим. Как поживает твоя террористическая ячейка?
— В моей ячейке всё в порядке. Поставки оружия вовремя, обучение шахидок идёт по графику. К сожалению, смертницы кончились раньше, чем динамит, поэтому закупаем дополнительную партию взрывчатки с армейских складов. Можешь для нас ещё немного отмыть денег, и перевести на потайной счёт?
— К сожалению, мои люди в банке были расколоты антитеррористическим подразделением. Придумай что-нибудь сам.
— А, без проблем. Тогда будем действовать по-старинке: займёмся киднеппингом, поставками наркотиков и заказными убийствами.


А в реале любые нормальные люди будут общаться так:
— Привет. Проблемы есть?
— Химия кончилась. Нужны ресурсы на закупку. Поможешь?
— Не могу. Сами справитесь?
— Угу.
Edited Date: 2012-07-04 05:26 pm (UTC)

(no subject)

Date: 2012-07-04 05:51 pm (UTC)
From: [identity profile] ximaera.livejournal.com
Часто ли вы в переговорах по мобильному телефону используете слово "химия"?

(no subject)

From: [identity profile] honeyman.livejournal.com - Date: 2012-07-04 06:01 pm (UTC) - Expand

(no subject)

From: [identity profile] ximaera.livejournal.com - Date: 2012-07-04 06:05 pm (UTC) - Expand

(no subject)

From: [identity profile] honeyman.livejournal.com - Date: 2012-07-04 06:07 pm (UTC) - Expand

(no subject)

From: [identity profile] ximaera.livejournal.com - Date: 2012-07-04 06:35 pm (UTC) - Expand

(no subject)

From: [identity profile] honeyman.livejournal.com - Date: 2012-07-04 07:07 pm (UTC) - Expand

(no subject)

From: [identity profile] kzayko.livejournal.com - Date: 2012-07-08 09:35 pm (UTC) - Expand

(no subject)

Date: 2012-07-04 07:17 pm (UTC)
From: [identity profile] auto194419.livejournal.com
почему же глупым. вопрос в целях этой работы.

суть затеи "запись и индексирование всего" в том, чтобы сократить аналитику пространство перебора. то есть если интересует "леоспилка" (привет, Навальный), и слово такое распозналась, можно слушать не 100\500 часов,а только тот 15и-минутный разговор, где она упоминается.

далее, не надо забывать, что технологии рапознавания всё время улучшаются, поэтому можно перидоически (например, с появлением новой версии распознавалки) проходить базу записей по-новой, получая более качественные результаты.

(no subject)

Date: 2012-07-05 06:56 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
"Лесопилка - about 339,000 results". При этом, если в том самом нужном разговоре слово "лесопилка" не распозналось, то мы слушаем 339 левых разговоров совершенно на шару. См. следующий пост

(no subject)

From: [identity profile] auto194419.livejournal.com - Date: 2012-07-05 07:22 am (UTC) - Expand

(no subject)

From: [identity profile] http://users.livejournal.com/_adept_/ - Date: 2012-07-05 07:33 am (UTC) - Expand

(no subject)

From: [identity profile] auto194419.livejournal.com - Date: 2012-07-05 07:39 am (UTC) - Expand
(deleted comment)

(no subject)

Date: 2012-07-08 09:29 pm (UTC)
From: [identity profile] kzayko.livejournal.com
Но при этом и требуется учет контекстов - например, Главного Подозреваемого свои будут называть "наш", "папа", "шеф", "Вася", и т.д. Так что, всех, кто сказал "папа" на карандаш брать?
и 25% разговоров ситуацию ну никак не улучшат.
Повторю за адептом:
Реально для того, чтобы построить эффективную систему необходимо уменьшить вероятность ложного срабатывания до 10 в -6, а для этого нужно иметь миллионы точно известных позитивных примеров для обучения.

Где их взять?
(deleted comment)

(no subject)

From: [identity profile] kzayko.livejournal.com - Date: 2012-07-14 10:56 am (UTC) - Expand

(no subject)

Date: 2012-07-04 07:45 pm (UTC)
From: [identity profile] ziavra.livejournal.com
по слухам (http://roem.ru/2012/01/31/addednews41963/?c#message116217) распознавание у гугла идёт в связке с популярными запросами, и если просто начитать длинный текст, то качество распознавания будет очень плохое. не хватит даже для индексации

(no subject)

Date: 2012-07-04 02:26 pm (UTC)
From: [identity profile] dezelent.livejournal.com
в штатах по колцентрам робоьабы, которым ты голосом говоришь что тебе за операцию надо...

(no subject)

Date: 2012-07-04 02:45 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Распознать одну из 20 допустимых альтернатив в известном контексте - это совсем не то же самое, что распознать произвольную устную речь.

(no subject)

Date: 2012-07-04 03:09 pm (UTC)
From: [identity profile] dezelent.livejournal.com
есть две проблемы. распознать речь и понять речь. С первым пунктом, скоро вообще не будет проблем у устройств, а со вторым пунктом, проблемы наблюдаются даже у людей. и именно его еще долго не смогут решить и именно он есть основное. Люди очень легко в процессе разговора переходят на подтекст, машинам для этого не хватает чувства юмора.

(no subject)

Date: 2012-07-05 05:01 am (UTC)
From: [identity profile] fregimus.livejournal.com
Э-э-э… Ну как сказать. В 1980-х Ваше утверждение было несомненно истинным. Сейчас — дисковая память для конторы с бюджетом внутренней разведки не стоит ничего, а насчет инструментов анализа в открытой печати сколько угодно, а что там делается по военным контрактам — бог весть, но делается много интересного и не очень приятного.

Profile

dastapov: (Default)
Dmitry Astapov

May 2022

M T W T F S S
       1
2345678
9101112131415
161718 19202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags