dastapov: (Default)
[personal profile] dastapov
Анонимус ... гхм ... доставил такой вот вопрос: "Увидел на просторах интернета такой рассказ,
интересует на сколько это правда и может соответствоввать реальности?

Специальному оборудованию достаточно всего пары фраз сказанные
вами, чтобы создать своего рода цифровую подпись, каторая вопщем
и выглядит как набор цифр (типа: 2764536172645367), и аккуратно записана
в базу в виде: тел.№ 82121234567=2764536172645367,после аппаратуре
достаточно пары минут чтоб обнаружить ваш след и выдать полный
список номеров с которых вы звонили.


Кого интерисуют подробности, скажу, что система создает запись/анализ спектра,
только в момент когда вы звоните, если звонят вам аппаратура отдыхает
Запись происходит постоянно, и только по ключевам словам
(типа: алло, говорите, здравствуйте и тд ,всего неболее 50 ключевых слов).
Анализ спектра (условно говоря), производится по мере необходимости, но на
практике постоянно, тк и должников надо выявлять и разных жуликов тоже полно.
Технология этого очень проста, вы произносите слово - срабатывает команда
типа "копировать" это слово копируется и обрабатывается - далее создается
аудио подпись - её автоматически обрабатывает система, и вся эта муть
заноситься в лог, а дальше с ними работают спецы из службы контроля.
Данная штука несертифицирована у нас пока, и соответственно неимеет
силу докозательства, в суде к примеру, поэтому используется исключительно
для внутреннего употребления службами безопастности опсосов.
"

Начать хочется вот с чего - есть несколько внешне похожих задач, которые существенно различаются в способах решения, условиях применимости, надежности получаемых результатов и так далее:

  1. Голосовая подпись - известный системе человек говорит заранее согласованную фразу. Задача: сличить произнесенное с эталонным образцом.
  2. Сопоставление голоса человека с ранее сделанной записью. Задача: существует "эталонная модель" голоса человека и запись речи другого человека. Задача: установить, это два разных человека или один и тот же. Фактически, вариация голосовой подписи, но без заранее согласованной фразы.
  3. Идентификация человека по голосу. Задача: имея запись разговора, выбрать из базы "эталонных голосов" наиболее похожий (или несколько).
  4. Распознавание голосовых команд конкретного человека. Задача: из базы записанных речевых отрывков выбрать тот, который наиболее похож на произнесенное слово (или короткую команду).
  5. Распознавание голосовых команд произвольного человека. См. "распознавание команд" выше, но записанных эталонных отрывков не существует. Фактически, речь идет о распознавании голоса без предварительного обучения и сопоставлении распознанного с ограниченным набором слов-команд.
  6. Распознавание голоса конкретного человека. Задача: превращать речь конкретного человека в, грубо говоря, текст.
  7. Распознавание голоса произвольного человека. Задача: превращать речь произвольного человека в текст, как правило - без предварительного обучения.


Я перечислил задачи в, как мне кажется, порядке увеличения сложности. Почему же эта самая сложность варьируется от задачи к задаче? Что облегчает решение более простых задач?

Для проверки голосовой подписи не надо разбирать сказанное на слова или иные части. Достаточно посчитать какие-то интегральные характеристики услышанного, сопоставить с образцом и выдать бинарный ответ ("Да"/"Нет"). Более того, исходя из задачи, можно (и даже нужно) достаточно безболезненно трактовать любую значительную неопределенность как ответ "Нет".

Для того, чтобы сличить две записи и установить, разные ли на них люди или нет, в принципе тоже достаточно каких-то интегральных характеристик, но они должны описывать не запись в целом, а какие-то ее характеристики: тембр голоса, ритм речи, особенности произнесения звонких/ударных звуков и т.п. Сравнение по-прежнему делается с одним образцом, что существенно облегчает окончательный анализ - функция сравнения с имеющимся образцом может быть относительно несложной.

Если же образцов много, и надо выбрать из них самый похожий, то нам понадобится какая-то метрика над пространством всех возможных голосов - способ превратить набор характеристик двух записей в какое-то число (или несколько чисел), описывающих "степень подобия". Разработка метрики сама по себе может быть достаточно нетривиальной задачей.

Распознавание голосовых команд (известного заранее или произвольного человека) в чем-то похоже на выбор самой похожей записи голоса из "банка голосов". Я рискну предположить, что в этих двух задачах используются разные характеристики услышанного и разные меры подобия, а в остальном они очень похожи.

Распознавание голоса конкретного человека требует разделения услышанного на слова, слоги, звуки. Сложность задачи резко повышается. Чтобы улучшить конечный результат, все системы распознавания голоса "тренируются" с участием конкретного человека - его просят произносить определенные звуки, слоги, слова и используют их характеристики в разделении голосового потока на части. Затем разобранный таким образом поток звуков необходимо преобразовать в слова, а слова - в текст, при этом как можно больше неоднозначностей распознавания должно устраняться автоматически на основании синтаксического анализа получаемых предложений. Обе подзадачи - и разделение записи на компоненты, и их распознавание и составление связанного текста - очень ресурсоемки.

Распознавание голоса произвольного человека отличается от распознавания голоса конкретного человека тем, что нет никакого способа облегчить разбор голосового потока за счет знания особенностей произнесения говорящим отдельных звуков, слогов и т.п.

Теперь вернемся к сути вопроса.

Вряд ли получится идентифицировать людей на основании каких-то характеристик "их голоса вообще" - слишком велико количество абонентов, слишком много в них людей с похожими голосами. Следовательно, понадобится какой-то характерный текст ("Я Линус Торвальдс, и я произношу слово 'Linux' как 'Линукс'"), который будет использоваться в качестве образца для сравнения.

Таким образом, чтобы сделать "сигнатуру голоса", которая относительно легко вычисляется и позволяет выбирать абонента из большой абонентской базы, необходимо три условия:

  • Все абоненты должны в какой-то момент времени зачитать один и тот же текст-маркер, желательно - без помех, так свойственных GSM - это позволит создать базу "эталонов"
  • Все абоненты должны время от времени произносить этот же текст-маркер в ходе разговора - это позволит получать информацию для сличения с базой эталонов.
  • Произнесенный маркер надо уметь вычленять из разговора без подробного анализа структуры произнесенного - иначе не хватит никаких ресурсов. Идеально - чтобы каждый разговор начинался с сигнала "пиииип!" установленной частоты (а лучше - трех), после чего абонент четко и внятно произносит текст-маркер, после чего опять следует "пииип!" и уже затем - весь остальной разговор ;)


В вопросе высказанно предположение, что "система анализа спектра" использует определенные слова для того, чтобы начать анализ, и делается это якобы для экономии ресурсов. На деле же окажется обратное - возможность распознавать в речи произвольного человека конкретные слова является существенно более сложной задачей, чем вычисление какой-то интегральной характеристики "куска аудиозаписи".

Итого, вердикт: конспирологическая фигня. Слишком сложная система для решения описанных задач.

Ну, и я могу сказать, что мне в моем опыте никогда не попадалось ничего подобного - но кто ж мне поверит, я наверняка Куплен Системой :)

PS:Я знаю, что меня читают люди, которые "в материале", т.к. разрабатывают и внедряют подобные системы. Надеюсь, они что-то добавят от себя.

(no subject)

Date: 2010-03-12 10:44 am (UTC)
From: [identity profile] xoma-xoma.livejournal.com
Новое слово об "Эшелоне"? ;)

(no subject)

Date: 2010-03-12 10:44 am (UTC)
From: [identity profile] thenexus6.livejournal.com
Вот прямо сейчас в одной стране готовят к сдаче систему для реалтайм идентификации голоса известных системе людей. То есть, пункт 3 разработан (у нас в стране, кстати) и успешно реализован. Впрочем, судя по стоимости их проекта, нам, как странам бывшего СССР, о Большом Брате пока можно не беспокоиться.

(no subject)

Date: 2010-03-12 02:49 pm (UTC)
From: [identity profile] bagamut.livejournal.com
в другой стране такой коммерческий продукт запланирован на ближайшее будущее, и любой гондурас сможет его купить

(no subject)

Date: 2010-03-12 03:26 pm (UTC)
From: [identity profile] thenexus6.livejournal.com
Когда выйдет "в ближайшем будущем", тогда и посмотрим :)
У работоспособных на сегодняшний день решений по мониторингу телефонных переговоров в масштабе страны (в настоящем Гондурасе, кстати, проживает гораздно меньше людей чем в одной Москве) стоимость софта исчезает на фоне стоимости железа и его содержания.

(no subject)

Date: 2010-03-12 03:34 pm (UTC)
From: [identity profile] bagamut.livejournal.com
в смысле тотального мониторинга?
в правовых государствах мониторят с санкции прокурора, это гораздо меньше по объему :)

(no subject)

Date: 2010-03-12 03:52 pm (UTC)
From: [identity profile] thenexus6.livejournal.com
В моём исходном комментарии речь шла только о пункте 3. Это ещё не прослушка. Это идентификация абонента, который может позвонить откуда угодно куда угодно.
То есть да, мониторинг тут тотальный, но круг отслеживаемых им лиц весьма узок.

(no subject)

Date: 2010-03-12 10:58 am (UTC)
From: [identity profile] djdance.livejournal.com
вот уже 3 года, как это не очень ресурсоемко, по крайней мере audio fingerprint, всё запатентовали и внедрили. А вот по лексемам и прочему распознаванию РЕЧИ - тут я не в теме, но судя по отсутствию вменяемых программных продуктов - дело пока швах.

(no subject)

Date: 2010-03-12 11:44 am (UTC)
From: [identity profile] metaclass.livejournal.com
Продуктов нормальных нет. Только с предварительным обучением, огромными базами по языкам и известным набором слов.

(no subject)

Date: 2010-03-12 11:02 am (UTC)
From: [identity profile] rayden-nvl.livejournal.com
Простейшие автоматические системы, стоящие в саппорте у тех же провайдеров, распознают ключевые слова моих ответов на их вопросы. И это с учетом того, что я говорю их на неродном мне языке. Значит не всё так уж плохо :-)

(no subject)

Date: 2010-03-12 11:09 am (UTC)
wizzard: (Default)
From: [personal profile] wizzard
а можно ли что-то ковырять уже по результатам предварительного анализа голоса, проведенного кодеком?

мне почему-то кажется, что зто может бть намного менее затратно, чем анализировать raw waveform.

(no subject)

Date: 2010-03-12 12:04 pm (UTC)
From: [identity profile] dezelent.livejournal.com
И вообще, продукция паяльниковых заводов, в среднем наилучий дешифратор.

(no subject)

Date: 2010-03-12 01:03 pm (UTC)
From: [identity profile] angry-elf.livejournal.com
Первое слово в эфире с вероятностью в 99% одно из парочки типа "Алло", "Да", "Слушаю". Годится на маркер? :)

(no subject)

Date: 2010-03-12 01:24 pm (UTC)
From: [identity profile] nealar.livejournal.com
Отсюда мораль: чтоб лучше спрятаться от спецслужб, надо начинать разговор словом "превед" или "**й".

(no subject)

Date: 2010-03-12 01:41 pm (UTC)
From: [identity profile] checat.livejournal.com
а второе - "ты где?" :)

(no subject)

Date: 2010-03-12 01:43 pm (UTC)
From: [identity profile] angry-elf.livejournal.com
Ну в общем, да. Словарный запас 80% разговоров уложится в набор Эллочки-людоедочки. Так что, не всё так сложно :)

(no subject)

Date: 2010-03-15 11:33 am (UTC)
From: [identity profile] ghrar.livejournal.com
ну искать-то будут слова и выражения не из словаря Эллочки. хотя это, наверное, только упрощает задачу)

(no subject)

Date: 2010-03-12 01:34 pm (UTC)
From: [identity profile] lionet.livejournal.com
Для полноты картины нужно заметить, что войсмейлы, приходящие, например, на Blackberry, автоматически распознаётся по типу #7 и в виде текстового дампа того, что человек сказал, отображается на экране. Это работает уже сейчас, худо-ли бедно-ли.

(no subject)

Date: 2010-03-12 01:35 pm (UTC)
From: [identity profile] lionet.livejournal.com
Для полноты картины нужно добавить, что служба Google 411 распознаёт команды, данные от человека "я в сан-франциско, хочу пиццу" и даёт список телефонов пиццерий рядом с говорящим. Происходит распознование голоса по типу #5.

(no subject)

Date: 2010-03-12 02:09 pm (UTC)
From: [identity profile] lionet.livejournal.com
Для полноты картины нужно сказать, что сервис YouTube начал автоматически генерировать captions для роликов на английском языке. По типу #7.

(no subject)

Date: 2010-03-12 03:29 pm (UTC)
From: [identity profile] thenexus6.livejournal.com
Все три примера выше реалтайма либо не требуют, либо нагрузка на них невелика, а плата за обработку окупает покупку мощного железа.

(no subject)

Date: 2010-03-12 04:32 pm (UTC)
From: [identity profile] lionet.livejournal.com
Как это не требуют реалтайма? Goog 411 не требует реалтайма? Я говорю "дай мне пиццу", а он мне отвечает сразу. Что такое реалтайм в твоём понимании?

(no subject)

Date: 2010-03-12 04:51 pm (UTC)
From: [identity profile] thenexus6.livejournal.com
Вот Goog 411 попадает под "плата за обработку окупает".
Поток звонков невелик, железа много, за каждое распознавание платят рекламодатели (или как там гугл на этом зарабатывает?)

(no subject)

Date: 2010-03-12 02:19 pm (UTC)
From: [identity profile] vp.livejournal.com
факт в том, что мы узнаем людей по голосу за первые 3..5 сек, по любой фразе.
Какие при этом мозг использует критерии - совершенно непонятно. Но распознает же.

(no subject)

Date: 2010-03-12 07:19 pm (UTC)
From: [identity profile] asper.livejournal.com
Только обычно звонят нам одни и те же люди, несколько десятков, много - сотен знакомых.

Если позвонит человек, которого ты несколько лет не слышал, можешь и не узнать, или перепутать с кем-то.

А тут системе нужно не путать миллионы людей.

(no subject)

Date: 2010-04-30 07:13 pm (UTC)
From: [identity profile] fi_mihej.livejournal.com
В данном случае - не очень хороший аргумент.

Ибо:

"Если попросить тебя пересказать некий момент из книжки, которую ты читал несколько лет назад, можешь и не вспомнить.

А тут системе хранить не путать миллионы книг, и не забывать их."

:)

(no subject)

Date: 2010-04-30 07:36 pm (UTC)
From: [identity profile] asper.livejournal.com
ок, система (интернет) хранит миллионы книг. В состоянии она мгновенно выдать нужную книгу по краткому описанию сюжета? (в гугле)

(no subject)

Date: 2010-04-30 07:51 pm (UTC)
From: [identity profile] fi_mihej.livejournal.com
Похоже, я тоже не точно сформулировал. :)

Суть в том, что запомнить какие то там параметры речи разных человеков - не проблема, а сравнение типа "вот человек не узнал - забыл за несколько лет, так значит и машине трудно будет" - создает асоциацию именно с "забыть". Если бы там было что то типа "вот буквально каждый день он мне звонит, а узнать его, все равно, можно только через раз" - тогда бы ближе к реальной проблеме было.
Я просто уточняю формулировку - что бы потом тролли всякие не придирались, если кто эту формулировку повторить, в будущем, захочет.

:)

(no subject)

Date: 2010-04-30 08:09 pm (UTC)
From: [identity profile] asper.livejournal.com
я уже, честно говоря, совсем запутался, а перечитывать тред с самого начала - лень, тем более, что ему вроде уже не один месяц))

(no subject)

Date: 2010-04-30 07:29 pm (UTC)
From: [identity profile] fi_mihej.livejournal.com
Ну или не очень хорошая формулировка аргумента. :)

(no subject)

Date: 2010-03-12 02:33 pm (UTC)
From: [identity profile] olegy.livejournal.com
Еще в 80-х годах на АТС стояли системы, позволяющие по ключевым словам абонентов производить различные действия - включать многоканальный магнитофон, разъединять линию. Подозреваю, что это было что то аналоговое...
Сейчас есть коммерческие системы предотвращения утечки информации.

(no subject)

Date: 2010-03-15 10:41 am (UTC)
From: [identity profile] arkanoid.livejournal.com
городская легенда это по-моему

а смысл разъединять линию?

(no subject)

Date: 2010-03-15 12:51 pm (UTC)
From: [identity profile] olegy.livejournal.com
Может совпадение, но я дважды сталкивался
1. 1986 - звонок в Киев, по слову "чернобыль" - разрыв соединения. Мы были на практике в прибалтике, проверили.
2. Заметил, что общаясь с одним коллегой, при произнесении слова "xxxxx" (на всякий случай замарал) - разрыв соединения, причем для того что бы дозвонится в следующий раз, требовалось пол часа. Рассказал коллегам, так они специально потешались - эффект повторялся раз за разом. xxxxx - слово, связанное с профессиональной деятельностью.

(no subject)

Date: 2010-04-20 07:21 am (UTC)
From: (Anonymous)
Кстати, да.
Сотовые операторы сейчас зачем-то всегда рвут связь по ключевой фразе "я въезжаю в туннель метро". У меня, по крайней мере.

(no subject)

Date: 2010-05-01 09:45 pm (UTC)
From: [identity profile] golosptic.livejournal.com
Это не совсем городская легенда.
Я общался с одним из разработчиков. (В 1996ом, когда беседовали - он занимался компьютерной телефонией - диалоджиком всяким).
Действительно, аналоговая фигня, в системе были записаны определённым образом обработанные темплейты ключевых слов, несколько десятков, по примерному совпадению с сигналом, снимаемым с линии включалась запись.
Время начала внедрения - начало 1980ых.

Насчёт разрыва линии я не спрашивал, а он сам не сказал.

(no subject)

Date: 2010-05-01 11:23 pm (UTC)
From: [identity profile] arkanoid.livejournal.com
У такой системы есть , считай, один основной параметр -- сколько линий она тянет одновременно?

Кстати, если это первая система, то все-таки легенда, потому что пик этих баек пришелся на 70-е.
Edited Date: 2010-05-01 11:29 pm (UTC)

(no subject)

Date: 2010-05-01 11:32 pm (UTC)
From: [identity profile] fi_mihej.livejournal.com
А учитывая, что, судя по комментариям, такие системы активировались только для очень ограниченного круга лиц/предприятий, и что это был СССР, для которого, на военные приоритеты (в том числе и на сохранение технологических/научных тайны), денег хватало - то даже этот параметр, был не слишком критичен. Как мне кажется, по крайней мере. :)

(no subject)

Date: 2010-03-12 11:12 pm (UTC)
From: [identity profile] mit-idv.livejournal.com
Да, я "в материале". Я продукт-менеджер коммерчески продаваемой системы, решающей задачу (3). Чуть раньше разрабатывал систему, помогающую эксперту-фоноскописту решать задачу (2). Распознавание речи делает соседняя команда.

Первое, что можно добавить - это задачи:
8. "Поиск ключевых слов" - это как раз та задача, на которую ссылается исходный конспиролог. В потоке речи необходимо выявить произнесение определённого слова или фразы.
9. "Распознавание темы разговора" - отдельная задача, решающаяся принципиально другими алгоритмами. В принципе, её можно решить и через решение задач (6) и (7) с последующим анализом полученного текста. Однако, современный подход состоит в том, чтобы принимать решение сразу о теме разговора, не пытаясь подвергнуть его транскрипции.

Я бы скорректировал порядок по возрастанию сложности по моему опыту:
4 - 1 - 5 - 3 - 8 - 9 - 6 - 7.

Распознавание команд, даже не зависящее от диктора - довольно хорошо решённая задача. Упрощается она тем, что мы распознаём команду от паузы до паузы, так что количество вариантов относительно невелико. В качестве математического аппарата используются скрытые марковские модели. Эта задача довольно надёжно решена и используется с системах голосового самообслуживания (когда ты говоришь через распознавание и синтез с IVR).

Следующим в этом направлении идёт поиск ключевых слов. Сложность возрастает, потому что мы не можем ориентироваться на обработку короткого произнесения. Искомая фраза может появиться где угодно. Задача решается с переменным успехом для русского языка, обычно получается очень много ложных срабатываний. Для английского, кажется, она решена намного лучше, поскольку Гугл сейчас собрал всех мировых знаменитостей в этой области под своей крышей.

Наш поиск ключевых слов, например, делается где-то в 8 раз быстрее реального времени на 1 вычислительном ядре типа Intel x86. Как видим, уже довольно быстро, но на всех точно не напасёшься.

Самая сложная задача - это установление дословного содержания произвольного разговора. Тот же Гугл для английского языка уже неплохо её решает (см. хотя бы проект http://labs.google.com/gaudi/), для русского же дела намного сложнее из-за плавающих ударений, множества окончаний и редукции гласных. Ещё лет 5 работать, не меньше. У нас, например, только сырые прототипы.

В целом, ты совершенно правильно развенчал конспирологическую хрень. Она появляется исключительно от невежества и нежелания разобраться в теме.

Рассмотрим задачу (3). Системы голосового поиска (они же системы идентификации по голосу) действительно официально считаются в России спецтехникой и их продажа регулируется специальным законодательством. Однако, на этом конспирология заканчивается. Все характеристики подобных систем открыты, статьи об алгоритмах открыто публикуются, все разработчики участвуют в открытом международном соревновании NIST. Лучшие в мире алгоритмы разрабатывают в Чехии, системы промышленного масштаба делаем мы, испанцы и итальянцы. Ещё есть американо-израильская сильная компания. Всё это не секреты.

(no subject)

Date: 2010-03-12 11:14 pm (UTC)
From: [identity profile] mit-idv.livejournal.com
Весь текст не влез в комментарий, вот завершение мысли:

Проблемы в использовании современных систем поиска по голосу для "тотальной слежки" две:
1. Ресурсоёмкость. Наша технология, например, работает в 2 раза быстрее реального времени на 1 ядре. Испанцы хвастают, что будто у них в 6 раз быстрее. В любом случае обрабатывать все потоки звука подряд вычислительных ресурсов не напасёшься.
2. Высокий уровень ошибки. Даже более конкретно - большое количество ложных срабатываний. Голос является "поведенческим" биометрическим признаком. В отличие от отпечатков пальцев, радужной оболочки или даже лица, голос имеет огромную внутридикторскую вариативность, потому что он является не столько физиологической характеристикой, сколько навыком. Плюс серьёзные потери качества в микрофонах, усилителях и кодеках. Есть шанс "узнать" не человека, а его мобильник - настолько он может искажать характеристики сигнала. Лучшие образцы алгоритмов дают в идеальных лабораторных условиях 5% EER (equal error rate - равный уровень ошибки, при котором вероятность пропустить цель равна вероятности захватить чужого). Это обозначает, что если искать среди 100 образцов, рассчитывая пропустить цель не более чем в 5% случаев, мы будем получать список из 5 "подозреваемых". При поиске по 100000 образцов мы получим 5000 "подозреваемых". И что вы с ними будете делать? "Выкручиваем" порог принятия решения на 0.01%, пропускаем цель больше, чем в половине случаев, и всё равно получаем 50 "подозреваемых" из любого поиска.

Так что такие технологии могут использоваться только очень "адресно". Они действительно помогают одному оператору прослушивать не 2, а 10 каналов, но всё равно и компьютеров нужно много, и людей для обработки результатов - порядочно. Не надо думать, что кому-то в спецслужбах больше не на что потратить свои ресурсы, кроме как прослушивать кого попало вроде конспирологов-любителей. Им вполне достаточно организованной преступности, которую нужно прослушивать и обрабатывать.

Сейчас есть только 1 сценарий, ради которого роботы будут нас прослушивать на самом деле в массовом порядке в ближайшее время. В наших разговорах будут искать ключевые слова, чтобы потом вместо гудков воспроизводить контекстную рекламу по темам, на которые мы говорили. Точно так же, как gmail читает наши письма. Но это совсем другой сценарий, даже и не знаю, заинтересуются ли им конспирологи? :)

(no subject)

Date: 2010-03-15 11:37 am (UTC)
From: [identity profile] ghrar.livejournal.com
про рекламу - присоединяюсь)))

(no subject)

Date: 2010-05-20 07:43 am (UTC)
From: [identity profile] yurikravchik.livejournal.com
когда вместо гудков начнут крутить рекламу, я перестану пользоваться телефоном :(

(no subject)

Date: 2010-03-13 11:55 am (UTC)
From: [identity profile] alexeyk77.livejournal.com
Распознавание речи в общем очень интересная и очень сложная задача. И вчем-то даже безнадежная, как мне кажется. Будучи студентом грыз это гранит с утра до вечера несколько лет, диплом писал (работающую программу). Было это все во второй половине 90х. С тех пор не занимался темой. Уже тогда тогдашнее ПО типа dragon dictate на последних 486х и первых пеньках даже работало и распознавало в реалтайме, но только для английского языка. И алгоритмы были тогда все те-же, что и упоминались сейчас - скрытые марковские модели.
Но дело не в алгоритмах. Вообще одна из особенностей этой задачи в том, что мозг слышит то, что хочет или ожидает услышать, т.е. высшая нервная деятельность напрямую влияет на то что слышится физически (кажется что слышится) через обратную связь. И в отличии от распознавания картинок отличается еще и тем, что невозможно сказать, почему вот это похоже на то. Причем в каждом языке есть свои особенности, например русскому человеку китайская речь - набор мяуканий. А ведь тональность играет роль такую, которой в русском языке нет. И там, где для нас одинаково - для них абсолютно разное. Т.е. невозможность отстраненной рефлексии сильно усложняет.
Посему с учетом возможностей пришлось сосредоточится на алгоритмах предобработки речевого сигнала, выделения вектора признаков, годного для дальнейшего расколбаса.

(no subject)

Date: 2010-03-14 09:55 am (UTC)
From: [identity profile] spiridonov.livejournal.com
По задаче 7:
Сервис "все ли сделал" спокойно с голоса по мобильнику преобразует в текст сообщения для дальнейшей передачи по e-mail/SMS

(no subject)

Date: 2010-03-14 09:56 am (UTC)
From: [identity profile] http://users.livejournal.com/_arty/
при помощи студентов, насколько я знаю
то есть, люди там помогают автоматике в сложных случаях

(no subject)

Date: 2010-03-14 09:57 am (UTC)
From: [identity profile] spiridonov.livejournal.com
А, ну тады ой
Я думал, там все серьезно :)

(no subject)

Date: 2010-03-15 10:38 pm (UTC)
From: [identity profile] asc-ii.livejournal.com
даже без сложного анализа можно вынести подобный вердикт, просто на основании информации о том, что городская телефонная связь рубит частоты выше 3,5кГц, и GSM недалеко ушёл
а фонемы, содержащие шипящие и свистящие согласные, основную массу информации несут как раз выше, от 3 до 8 кГц
поэтому даже человек далеко не всегда с первого раза по телефону узнаёт голос человека, с которым знаком лично, да и впоследствии узнавание происходит скорее по паттернам речи и интонациям, нежели по частотным характеристикам
From: [identity profile] yatagarasu.livejournal.com
не вчитывался, но впринципе согласен.
хотя вот буквально позавчера по вестям-2 был репортаж про такую систему.
Так что это уже никак не конспирологическая фигня, думайу это скорее инструмент давления на массы.

Profile

dastapov: (Default)
Dmitry Astapov

April 2017

M T W T F S S
     12
3 45 6789
10111213141516
17181920212223
24252627282930

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags