А.Я.Калюжный, В.Ю.Семенов
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями

Акустический вестник, Том 12 № 2, (2009) с.31-38
В статье предложен метод автоматической классификации речевых фрагментов по признаку "мужчина/женщина" и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распределения вектора акустических признаков голоса взвешенной суммой нескольких гауссовских распределений (метод гауссовых смесей). Каждый из членов GMM соответствует некоторому подклассу множества акустических параметров голосового сигнала. В качестве вектора акустических признаков была выбрана совокупность кепстральных RASTA-PLP коэффициентов, дополненных периодом основного тона. Обучение гауссовых смесей для мужских и женских голосов проводилось по методу expectation-maximization с инициализацией согласно алгоритму K-средних. Исследована зависимость процента ошибок классификации от типа ковариационных матриц GMM и их порядков. В различных экспериментах предложенный метод показал достаточно малую вероятность ошибки классификации (от 9 до 0%). Сделан вывод о вторичности порядка и типа GMM по сравнению с необходимостью разнообразного представления дикторов в обучающей базе речевых сигналов.
КЛЮЧЕВЫЕ СЛОВА:
обработка речевого сигнала, голос диктора, распознавание пола, метод гауссовых смесей, кепстральные коэффициенты
ЯЗЫК ТЕКСТА: русский