Мовленнєві корпуси як засоби створення та зберігання зразкових мовленнєвих сигналів

Мовленнєві корпуси є важливою складовою частиною інструментарію сучасних дослідників у таких галузях, як корекція мовних сигналів, розроблення та тестування елементів телекомунікаційних систем і систем автоматичного розпізнавання мови. У статті виконано пошук елементів технології порівняно швидкої побудови звукової частини корпусів зашумленого українського мовлення. З цією метою розглянуто характеристики найбільш вживаних сучасних корпусів зашумленого мовлення, що дало можливість сформулювати принципи розроблення таких корпусів. Правильність сформульованих принципів показано на прикладі доволі відомого сучасного програмного інструментарію FaNT, який дає змогу швидко формувати мовленнєві корпуси із потрібними властивостями. Розроблено рекомендації з побудови аналогічного програмного інструментарію в середовищі Matlab. Такий інструментарій у подальшому дасть можливість не тільки одержати спільними зусиллями кращий варіант корпусу зашумленого українського мовлення, але й порівнювати між собою алгоритми придушення завад та алгоритми автоматичного розпізнавання мови, запропоновані різними розробниками.

Рік видання: 
2013
Номер: 
1
УДК: 
004.934
С. 20–26. Іл. 2. Бібліогр.: 22 назви.
Література: 

1. Ладошко О.М. Дослідження впливу характеристик телефонного каналу зв’язку на надійність розпізнавання фонем // Інфор. сист. управ. і комп. моніторинг: Зб. пр. міжнар. наук.-техн. конф. – Київ, 2012. – С. 308–313.
2. S. Moller, Quality of Telephone-Based Spoken Dialogue Systems. Boston: Springer Science+Business Media, Inc., 2005, 490 p.
3. P. Moreno and R. Stern, “Sources of Degradation of Speech Recognition in the Telephone Network”, Proc. of the IEEE International Conf. on Acoustics, Speech, and Signal Processing, Adelaide, Australia, vol. I, рр. 109– 112, April 1994.
4. Кривнова О.Ф. Речевые корпусы на новом технологическом витке // Речевые технол. – 2008. – № 2. – С. 13–23.
5. Jankowski C. et al., “NTIMIT: A Phonetically Balanced, Continuous Sspeech, Telephone Bandwidth Speech Database”, Proc. ICASSP-90, vol. 1, pp. 109–112, 1990.
6. Corpora Group at CSLU [Online]. Available: http: //www. cslu.ogi.edu/corpora/corpCurrent.html
7. H.-G. Hirsch, The Aurora-5 Experimental Framework for the Performance Evaluation of Speech Recognition in Case of a Hands-free Speech Input in Noisy Environments [Online]. Available: http://aurora. hsnr.de/background.html
8. The University at Texas at Dallas. Speech Processing Lab. Noisy Speech Corpus [Online]. Available: http: //www. utdallas. edu/~loizou/speech/noizeus/
9. Центр Речевых Технологий [Электронный ресурс]. – Режим доступа: http://speechpro. ru/
10. Викторов А.Б., Викторова К.О., Воронцова А.В. Речевые базы данных для задач автоматического распознавания речи и верификации говорящего // Сов. речевые технол.: Сб. тр. IX сессии Рос. акустич. общества. – 1999. – C. 5–15.
11. Wideband Speech Database for Russian [Online]. Available: http://www. auditech.ru/page/widerband.html
12. SpeechDat-Car data base [Online]. Available: http: //www. fee.vutbr.cz/SPEECHDAT-E/sample/russian.html
13. Сайт з розпізнавання та синтезу мовлення в Україні [Електронний ресурс]. – Режим доступу: http: //www. speech.com.ua/developers.html
14. Центр Глобальних Повідомлень Україна – Global Message Services [Електронний ресурс]. – Режим доступу: http://www. gmsu.ua/
15. H.G. Hirsch and H. Finster, “The Simulation of Realistic Acoustic Input Scenarios for Speech Recognition Systems”, in 9th European Conf. on Speech Commun. and Technol., Lisboa, Portugal, September 2005, pp. 1–4.
16. LDC Top Ten Corpora [Online]. Available: http: //www.ldc. upenn.edu/Catalog/topten.jsp
17. Васильева Н.Б., Пилипенко В.В., Радуцкий А.М. и др. Корпус украинской эфирной речи // Речевые технол. 2012. – № 2. – С. 12–21.
18. Продеус А.Н., Дидковский В.С., Дидковская М.В. Акустическая экспертиза каналов речевой коммуникации: Монография. – К.: Имэкс-ЛТД, 2008. – 420 с.
19. Продеус А.Н. О некоторых особенностях развития объективных методов измерений разборчивости речи // Электрон. и связь. Тем. вып. Электрон. и нанотехнол. – 2010. – № 2. – С. 217–223.
20. FaNT and the Calculation of the Signal-to-Noise-Ratio (SNR) [Online]. Available: http://dnt. kr.hsnr.de/down load/snr_comments.html
21. Recommendation ITU-T P.56. Series P: Terminals and Subjective and Objective Assesement Methods Objective measuring apparatus. Objective Measurement of Active Speech Level, Telecommun. Standartisation Sector of ITU, vol. 12, 24 p., 2011.
22. VoiceBox: Speech Processing Toolbox for MATLAB [Online]. Available: http://www. ee.ic.ac.uk/hp/staff/dmb/ voicebox/voicebox.html#file

Текст статтіРозмір
2013-1-2.pdf208.4 КБ