У нас качество рапознавание было где-то 70% (немецкий язык) Что бы записать 1 минуту аудио текстом - надо использовать фактор 15 для новичков и фактор 10 для тех, кто в танке. Тренировка распознавания дело муторное и после заливки около 1000 распознанных текстов качество общего распознавания ивеличивалось где-то на 0.5%. Ну и чем короче текст, тем распознование лучше. Ещё лучше - если говорящий - мужчина и без акцента (как-то слушал, как француз говорит по немецки - человек не поймёт). Большие трудности с названием фирм, с именами собственными. Ну и слов, которые примерно одинаково звучат - тоже много. В целом смысл собирать такие данные есть - надо иметь только очень огромный бюджет и быть готовым, что где-то около 80% качество распознавания остановится. Ах да - на новый год качество распознавания было 40% :)
(no subject)
Date: 2012-07-05 01:55 pm (UTC)Ну и чем короче текст, тем распознование лучше. Ещё лучше - если говорящий - мужчина и без акцента (как-то слушал, как француз говорит по немецки - человек не поймёт). Большие трудности с названием фирм, с именами собственными. Ну и слов, которые примерно одинаково звучат - тоже много.
В целом смысл собирать такие данные есть - надо иметь только очень огромный бюджет и быть готовым, что где-то около 80% качество распознавания остановится.
Ах да - на новый год качество распознавания было 40% :)