Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
8,21 MB
Nội dung
SỞ KHOA HỌC VÀ CƠNG NGHỆ TP HỒ CHÍ MINH VIỆN KHOA HỌC VÀ CƠNG NGHỆ TÍNH TỐN BÁO CÁO TỔNG KẾT Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói Đơn vị thực hiện: PTN Mở Chủ nhiệm nhiệm vụ: PGS TS Vũ Hải Quân TP HỒ CHÍ MINH, THÁNG …/20… SỞ KHOA HỌC VÀ CƠNG NGHỆ TP HỒ CHÍ MINH VIỆN KHOA HỌC VÀ CƠNG NGHỆ TÍNH TỐN BÁO CÁO TỔNG KẾT Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói Viện trưởng Đơn vị thực hiện: PTN Mở Chủ nhiệm nhiệm vụ Nguyễn Kỳ Phùng PGS TS Vũ Hải Quân TP HỒ CHÍ MINH, THÁNG …/20… Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói MỤC LỤC Trang TĨM TẮT ĐƠN VỊ THỰC HIỆN Chương Tổng quan 1.1 Lĩnh vực đề tài 1.2 Tình hình nghiên cứu giới 1.3 Tình hình nghiên cứu nước 1.4 Mục tiêu đề tài 1.5 Ý nghĩa khoa học thực tiễn 10 1.6 Bố cục báo cáo 11 Chương Hệ thống tạo biên bảo họp tự động 12 2.1 Frontend 12 2.1.1 Phân đoạn âm 12 2.1.2 Phân cụm người nói 14 2.1.3 Tăng cường âm thoại 15 2.2 Backend 15 2.2.1 Mô hình ngữ âm điều kiện tài nguyên hạn chế 16 2.2.2 Mơ hình ngữ âm đại 18 Chương Thực nghiệm 19 3.1 Thu thập tổ chức kho liệu 19 3.2 Thực nghiệm phân đoạn 20 3.2.1 Phân loại speech non-speech 20 3.2.2 Phân cụm người nói 21 3.2.3 Phân loại người nói 21 3.3 Thực nghiệm ASR 22 3.3.1 Mơ hình ngơn ngữ 22 3.3.2 Hiệu SGMM 22 3.3.3 Hiệu DNN 23 3.4 Thời gian đáp ứng 25 Chương Triển khai ứng dụng 26 4.1 Thiết kế tính 26 4.2 Thiết kế liệu 26 4.3 Thiết kế giao diện 27 Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói Chương Tổng kết 30 5.1 Kết đạt 30 5.1.1 Về nội dung đăng ký 30 5.1.2 Về sản phẩm đề tài 31 5.1.3 Về công tác đào tạo 31 5.2 Kết luận 31 TÀI LIỆU THAM KHẢO 31 PHỤ LỤC PHỤ LỤC 1: XUẤT BẢN KHOA HỌC 35 PHỤ LỤC 2: CHỨNG NHẬN ĐÀO TẠO 42 Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói TĨM TẮT Nhiệm vụ nhắm đến việc xây dựng phát triển ứng dụng có khả tự động ghi lại biên họp, xác định rõ dạng thơng tin: (1) nói, (2) nói Một ứng dụng thường gọi với tên hình thức hệ thống ghi nhật ký tiếng nói, hay cịn gọi hệ thống ghi biên họp (Meeting Diarization System) Hệ thống hỗ trợ tự động phân đoạn, chuyển hóa liệu âm họp thành văn để phục vụ cho việc rút trích nội dung, tìm kiếm truy xuất thông tin sau Hệ thống không giúp người họp tự động lưu lại thông tin chi tiết mà cịn cho phép người khơng thể tham dự họp xem lại nội dung cách dễ dàng, nhanh chóng đầy đủ Về mặt kinh tế xã hội, ứng dụng mà nhiệm vụ nhắm đến (ghi biên họp) giúp tiêu giảm chi phí nhân lực hội nghị, tự động hóa hoạt động hội họp, cung cấp thêm dạng thức thông tin bỗ trợ (biên bản) ngồi âm hình ảnh cho liệu đa phương tiện Ứng dụng giúp cho người khiếm thính tiếp cận dễ dàng với thơng tin hịa nhập xã hội Sản phẩm đề tài ứng dụng ghi biên họp tiếng Việt tự động Việt Nam Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói ĐƠN VỊ THỰC HIỆN Phịng thí nghiệm: Mở Chủ nhiệm nhiệm vụ: PGS TS Vũ Hải Quân Thành viên nhiệm vụ: Th.S Cao Xuân Nam, Thư ký khoa học NCS Trịnh Quốc Sơn, Thành viên NCS Phạm Minh Nhựt, Thành viên Th.S Trần Minh Trường, Thành viên Th.S Lê Nguyễn Tường Nhi, Thành viên CH Đặng Thanh Tùng, Thành viên CN Phạm Thị Bích Lan, Thành viên KS Phạm Minh Trí, Kỹ Thuật viên Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói Chương TỔNG QUAN 1.1 Lĩnh vực đề tài Đề tài thuộc lĩnh vực xử lý ngôn ngữ nói (Spoken Language Processing – SLP) Về bản, SLP gồm nhánh chính: Máy nói Máy nghe – Tổng hợp tiếng nói (TTS) – Nhận dạng tiếng nói (ASR) ngài xin Máy hiểu chào “đem cafe tới đây” – Xử lý ngôn ngữ tự nhiên (NLP) cafe ~ - ASR / Nhận dạng tiếng nói: nghiên cứu tốn chuyển tín hiệu tiếng nói sang văn - TTS / Tổng hợp tiếng nói: nghiên cứu tốn chuyển văn sang tín hiệu tiếng nói mà người nghe - NLP / Xử lý ngôn ngữ tự nhiên: nghiên cứu toán hiểu ngữ nghĩa hàm chứa lời thoại tín hiệu tiếng nói Mỗi hướng nhánh lại gồm nhiều toán lớn khác mà cộng đồng khoa học chưa có lời giải triệt để/tối ưu Tuy nhiên, kết hợp kết có từ cơng trình khác giới, nhiều ứng dụng SLP đời Có thể dẫn số ví dụ Siri, A.L.I.C.E., Mitsuku, Google SLP Engine Đối tượng nghiên cứu mà đề tài nhắm đến thuộc mảng nhận dạng tiếng nói (Automatic Speech Recognition - ASR) ứng dụng bối cảnh kỳ họp Quốc hội 1.2 Tình hình nghiên cứu giới Dữ liệu âm dạng liệu quan trọng vô phổ biến đời sống hàng ngày: hàng nghìn họp, hàng trăm chương trình truyền hình truyền thanh, hàng tỉ video xem Internet… Với việc giảm chi phí thiết bị lưu trữ số (đĩa cứng, điện tốn đám mây ) việc tăng kích thước lưu trữ (đơn vị terabyte petabyte ), tổ chức/cơng ty lưu trữ liệu chứa âm vơ lớn Ví dụ trang web Youtube (Google) lưu trữ hàng tỉ video, hay kênh truyền hình INA Pháp lưu trữ 300,000 chương trình truyền hình Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói 400,000 chương trình phát 45 năm qua [8] Trong nội công ty/tổ chức, liệu hàng ngàn họp lưu trữ ngày Việc lưu trữ tạo kho liệu vơ hữu ích, cho phép truy xuất tìm kiếm thơng tin sau Ghi biên họp: Ai nói? Nói gì? A B C A: Xin chào bạn A: Chúng ta bắt đầu buổi họp E: Z cịn chưa đến C: Thơi bắt đầu … … D E F D: Rất cám ơn ý kiến đề xuất A: Cuộc họp kết thúc Hình Hệ thống tự động ghi biên họp Cùng với việc bùng nổ hệ thống lưu trữ, yêu cầu phát triển công cụ xử lý liệu âm để hỗ trợ việc rút trích nội dung, truy xuất tìm kiếm ngày cấp thiết, nhằm nâng cao hiệu việc sử dụng loại liệu Một công cụ nghiên cứu để đáp ứng nhu cầu hệ thống ghi nhật ký tiếng nói [1] Hệ thống ghi nhật ký tiếng nói nhận vào chuỗi tín hiệu âm tạo kịch phân đoạn nội dung theo người nói theo thời gian, sau chuyển hóa tiếng nói thành văn ứng với người nói (minh họa Hình 1) Một hệ thống có nhiều ứng dụng rộng rãi thực tế như: - Tạo thích cho chương trình truyền hình, video internet, giảng trực tuyến - Ghi lại nội dung hội thoại qua telephone hay họp… Trong đó, ghi nội dung họp ứng dụng quan trọng ngày nhận nhiều quan tâm từ tổ chức cơng ty họp phương thức trao đổi, thảo luận chủ yếu tổ chức [2] Ngoài ra, kỹ thuật ghi nhật ký tiếng nói đặc biệt nghiên cứu nhằm tạo liệu giàu thông tin (rich transcription) Điển hình việc tự động tạo thích (annotation) cho liệu ti-vi radio phát sóng hàng ngày giới Bản thích bao gồm nội dung tiếng nói nhãn liệu thơng tin lượt người nói Từ 2002, quan tâm giới khoa học đổ dồn vào lĩnh vực hội nghị với đời nhiều dự án dự án European Union (EU) Multimodal Meeting Manager (M4), dự án Swiss Interactive Multimodal Information Management (IM2), dự án EU Augmented Multi-party Interaction (AMI), theo sau dự án Viện Khoa học Công nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói EU Augmented Multi-party Interaction with Distant Access (AMIDA) EU Computers in the Human Interaction Loop (CHIL) [2] Tất dự án hướng đến việc nghiên cứu phát triển kỹ thuật đa mơ hình để nâng cao khả truyền thông người với người, cách tự động rút trích nội dung liệu âm hay đơn tạo lưu trữ giàu thông tin, làm cho liệu âm không nghe mà cịn đọc tìm kiếm dễ dàng Các hội nghị xử lý tiếng nói lớn uy tín giới ICASSP (IEEE International Conference on Acoustics, Speech and Signal Processing), Interspeech đưa toán ghi nhật ký tiếng nói (Speech/Speaker Diarization – SD) trở thành tốn ngành, bên cạnh tốn nhận dạng tiếng nói (Automatic Speech Recognition – ASR) định danh người nói (Speaker Recognition) Sự kiện rầm rộ thi Rich Transcription Evaluation National Institute of Standards and Technology (NIST) Mỹ tài trợ [9] Qua đó, thấy việc nghiên cứu đầy đủ cho hệ thống ghi nhật ký tiếng nói mở nhiều lợi ích lĩnh vực xử lý tiếng nói tin thời sự, hội họp hay hội thoại qua điện thoại Đặc biệt, ứng dụng quan trọng thiết thực ghi nhật ký tiếng nói tạo ghi họp hay ghi nhật ký họp [2] Họp hình thức phổ biến để thảo luận hay chuyển giao công việc công ty hay tổ chức Trong họp dài, việc ghi nhớ chi tiết tất nội dung điều vơ khó Giải pháp truyền thống sử dụng người đóng vai trị thư ký ghi lại tất thông tin Điều làm tốn thêm nhân lực độ xác khơng phải lúc đảm bảo việc ghi chép tay sinh sai sót Giải pháp sử dụng camera để ghi âm/ghi hình cho họp đảm bảo độ xác cao Tuy nhiên cách làm nhiều thời gian để xem lại nội dung, người vắng mặt Thay vào đó, người ta tiếp cận vấn đề thơng quan cơng nghệ nhận dạng tiếng nói kết hợp với thiết bị ghi âm đa chiều, biết đến với tên gọi microphone array [11] Thiết bị giúp phân loại âm đến từ hướng khác không gian giúp ta biết chủ thể phát âm tiếng nói hành Các thuật tốn phân loại người nói, cải thiện tín hiệu âm thanh, hỗ trợ nhận dạng tiếng nói từ phát triển cộng đồng nghiên cứu khoa học 1.3 Tình hình nghiên cứu nước Các nghiên cứu công nghệ xử lý tiếng nói Việt Nam thu kết ban đầu đáng khích lệ Có nhóm nghiên cứu lĩnh vực Nhóm thuộc Viện Cơng nghệ Thơng tin Phó Giáo sư Lương Chi Mai đứng đầu Nhóm tập trung vào thu thập liệu xây dựng công cụ cho tốn nhận dạng ngơn điệu cho hệ thống nhận dạng Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói tiếng nói [13, 14, 15] Nguồn tài trợ nhóm đề tài trọng điểm cấp nhà nước phủ hỗ trợ từ năm 2006 Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh PGS.TS Vũ Hải Quân đứng đầu Các nghiên cứu ban đầu nhóm tập trung vào tốn truy vấn thông tin cho tin thời tiếng Việt [16, 17, 18, 19, 20] Nhóm nhận tài trợ cho đề tài cấp quốc gia KC01.01/06-10 [21] với tốn khai thác thơng tin đa phương tiện hướng ngữ nghĩa Ngồi ra, nhóm tài trợ từ nguồn đại học Quốc Gia thành phố Hồ Chí Minh để nghiên cứu phương pháp mơ hình hóa ngữ âm điều kiện tài ngun hạn chế Liên tục 10 năm qua, nhóm xây dựng thành công số hệ thống ASR như: - Hệ thống nhận dạng tiếng nói tiếng Việt liên tục, từ vựng không hạn chế - Tổng đài hỏi đáp thơng tin tự động giọng nói - Ứng dụng báo nói iNghe - Trợ lý thơng tin du lịch iSago - Hệ thống nhận dạng tiếng nói tiếng Việt điều kiện tài nguyên hạn chế - Nhận dạng tiếng nói với cơng nghệ máy học tiên tiến Các hệ thống cho kết nhận dạng cao, đạt gần 95% Tuy nhiên giới hạn chúng hoạt động máy tính cá nhân có cấu hình mạnh, chưa khai thác ứng dụng tiềm xử lý tiếng nói hệ thống truyền thơng, chip/mạch tích hợp… Riêng ghi nhật ký tiếng nói (Speech/Speaker Diarization), năm 2010 đánh dấu bước ngoặc phát triển nhánh nghiên cứu AILab Mở đầu dự án hợp tác phịng thí nghiệm AILab trường Đại học NTU Singapore, mang tên “A Fast And Robust Clustering Algorithm For Real-Time Speaker Diarization System” [12] Dự án nhắm đến mục tiêu phát triển hệ thống phân loại người nói theo thời gian thực Từ 2010 đến 2016, AILab liên tục mở rộng phát triển công nghệ ASR phối hợp với SD, làm tiền đề cho ứng dụng ghi biên họp 1.4 Mục tiêu đề tài Nhiệm vụ hướng đến việc nghiên cứu xây dựng hệ thống ghi nhật ký tiếng nói cho họp, hay gọi tắt hệ thống ghi biên họp (Meeting Diarization System) Hệ thống hỗ trợ tự động phân đoạn, chuyển hóa liệu âm họp thành văn để phục vụ cho việc rút trích nội dung, tìm kiếm truy xuất thông tin sau Hệ thống không Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói Hình 14 Màn hình truy vấn Hình 15 Màn hình xem nội dung Hình 16 Màn hình đại biểu Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 29 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói Chương TỔNG KẾT Chương tổng kết kết đạt dự án, có so sánh đối chiếu với nội dung đăng ký ban đầu 5.1 Kết đạt 5.1.1 Về nội dung đăng ký STT Nội dung nghiên cứu (đã đăng ký theo hợp đồng NCKH) Xây dựng thuyết minh nhiệm vụ Khoa học Cơng nghệ Kết Hồn thành - Thuyết minh nhiệm vụ Khoa học Cơng nghệ Hồn thành Thu thập tổ chức kho liệu - 200 ngữ liệu tiếng nói - 60 ngữ liệu tiếng nói kỳ họp quốc hội Hồn thành Xây dựng phân đoạn Segmentator - Module Segmentator - Báo cáo kỹ thuật Hoàn thành Xây dựng phân cụm người nói - Module phân cụm người nói - Báo cáo kỹ thuật Hoàn thành Xây dựng tăng cường âm thoại - Module tăng cường âm thoại áp dụng cho microphone array - Báo cáo kỹ thuật Hoàn thành Xây dựng động nhận dạng tiếng nói Speech Recognizer - Bộ nhận dạng tiếng nói cho meeting/hội nghị, với độ xác từ (word accuracy rate) 83.3% - Bộ nhận dạng tiếng nói sử dụng DNN, với độ xác (word accuracy rate) 88.2% - Báo cáo kỹ thuật Hoàn thành Giả lập thực nghiệm Thực tính tốn, mơ động nhận dạng tiếng nói hệ thống tính - Các nhóm cấu hình tham số hệ thống tương ứng cho điều kiện sở vật chất bố trí dạng phịng họp - Báo cáo kỹ thuật Hồn thành - Báo cáo liệu mơ tính tốn Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 30 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói tốn hiệu cao (HPC) Hoàn thành 10 Triển khai ứng dụng Viết báo cáo tổng hợp - Hoàn thành triển khai cho kỳ họp Quốc hội - Báo cáo thực nghiệm đánh giá Hoàn thành - Báo cáo tổng kết đề tài 5.1.2 Về sản phẩm đề tài STT Tên sản phầm (đã đăng ký theo hợp đồng NCKH) Hệ thống ghi biên họp tự động Bộ ngữ liệu (corpus) họp quốc hội Một (1) báo khoa học tạp chí nước Nội dung thực Hệ thống triển khai http://quochoi.vietcap.org/ Bộ ngữ liệu 60h video kỳ họp Quốc hội Một (1) đăng Tạp chí Tin học Điều khiển học (phụ lục) 5.1.3 Về công tác đào tạo - Đào tạo Thạc sĩ 5.2 Kết luận Tự động hóa sản xuất đời sống xu thời đại Cách mạng Cơng nghiệp Theo dịng phát triển đó, dự án muốn góp viên gạch nhỏ xây dựng chế tự động hóa thơng tin quy trình hội họp Giải pháp khơng làm tiêu giảm nhân lực ghi nhận, biên tập, hệ thống hóa liệu, mà cịn giúp phát triển kinh tế nghiệp vụ, nâng cao tiến xã hội TÀI LIỆU THAM KHẢO [1] S Furui, “Speaker-independent isolated word recognition based on emphasized spectral dynamics,” Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86 [2] Katz, Slava M "Estimation of probabilities from sparse data for the language model component of a speech recognizer." Acoustics, Speech and Signal Processing, IEEE Transactions on 35.3 (1987): 400-401 [3] Lamere, Paul, et al "The CMU SPHINX-4 speech recognition system." IEEE Intl Conf on Acoustics, Speech and Signal Processing (ICASSP 2003), Hong Kong Vol 2003 Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 31 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói [4] Och, Franz Josef, and Hermann Ney "Discriminative training and maximum entropy models for statistical machine translation." Proceedings of the 40th Annual Meeting on Association for Computational Linguistics Association for Computational Linguistics, 2002 [5] Gauvain, Jean-Luc, Lori Lamel, and Gilles Adda "The LIMSI broadcast news transcription system." Speech communication 37.1 (2002): 89-108 [6] Povey, Daniel, et al "Subspace Gaussian mixture models for speech recognition." Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on IEEE, 2010 [7] Hinton, Geoffrey, et al "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." Signal Processing Magazine, IEEE 29.6 (2012): 8297 [8] SIRI, www.apple.com/ios/siri, 2015 [9] Google Voice Search, "Introducing Voice Actions for Android in the UK, France, Italy, Germany and Spain" Google Mobile Blog September 16, 2011 [10] Lew, Michael S., et al "Content-based multimedia information retrieval: State of the art and challenges." ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 2.1 (2006): 1-19 [11] Brown, Martin G., et al "Automatic content-based retrieval of broadcast news." Proceedings of the third ACM international conference on Multimedia ACM, 1995 [12] Babaguchi, N., Kawai, Y and Kitahashi, T., ―Event based indexing of broadcasted sports video by intermodal collaboration, IEEE Transactions on Multimedia, vol 4, iss 1, pp 68–75, 2002 [13] Fujii, A., Itou, K., and Ishikawa, T., ―LODEM: a system for on-demand video lectures, Speech Communication, vol 48, iss 5, pp 516–531, May 2006 [14] Rossetto, Luca, et al "IMOTION—a content-based video retrieval engine." MultiMedia Modeling Springer International Publishing, 2015 [15] Vu Thang Tat, Dung Tien Nguyen, Mai Luong Chi, John-Paul Hosom, “Vietnamese Large Vocabulary Recognition”, Proc Eurospeech05, pp 1689-1692 [16] Luong Chi Mai, Dang Ngoc Duc, “Design of Vietnamese Speech Corpus and Current Status”, Proceeding of Chinese Spoken Language Processing”, 6th International Symposium, ISCSLP 2006, ISBN: 981-05-7009-0, Singapore 13- 16, Dec 2006, pp 748-758 Viện Khoa học Công nghệ Tính tốn TP Hồ Chí Minh Trang 32 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói [17] Thang Tat Vu, Khanh Nguyen Tang, Son Hai Le, Mai Chi Luong, “Vietnamese tone recognition based on Multi-layer Perceptron network”, Proceedings of Oriental COCOSDA (Conference of Oriental Chapter of the International Coordinating Committee on Speech Database and Speech I/O system), Kyoto, 25-27 December 2008, pp.253-256 [18] N.M.Tuan, V.H.Quan, Vietnamese Broadcast News Retrieval System, ICT.rda’08, Hanoi, 2008 [19] N.D.H.Ha, V.H.Quan, Selection of Phonetic Units for Vietnamese Large Vocabulary Continuous Speech Recognition, RIVF2006 - Research, Innovation and Vision of the Future The 4rd IEEE International Conference in Computer Science, Tp.HCM, 2006 [20] N.D.H.Ha, V.H.Quan, Progress in Transcription of Vietnamese Broadcast News, In Proc International Conference on Communications and Electronics (ICCE'06), IEEE, Hanoi, 2006 [21] V.H.Quan et al, Preliminary Experiences on Acoustic Models for Vietnamese Large Vocabulary Continuous Speech Recognition, The International Conference on Speech and Computer SPECOM'2005, Greece [22] Q Vu, K Demuynck, D Van Compernolle “Vietnamese automatic speech recognition: the FLaVoR approach”, Lecture notes in computer science, vol 4274, pp 464-474, 2006 [23] Quan VU, et al., A Robust Transcription System for Soccer Video Database, ICALIP, Shanghai, 2010 [24] Web crawler, Wikipedia, 2015 [25] Maganti, Hari Krishna, Petr Motlicek, and Daniel Gatica-Perez "Unsupervised speech/nonspeech detection for automatic speech recognition in meeting rooms." Acoustics, Speech and Signal Processing, 2007 ICASSP 2007 IEEE International Conference on Vol IEEE, 2007 [26] K.K Wojcicki, B.J Shannon, and K.K Paliwal, “Spectral Subtraction with Variance Reduced Noise Spectrum Estimates,” Proceedings of the 11th Australian International Conference on Speech Science & Technology, New Zealand, 2006 [27] Báo cáo nghiệm thu đề tài trọng điểm cấp ĐHQG, “Mơ hình ngữ âm cho ngơn ngữ có tài nguyên hạn chế sử dụng ràng buộc không gian đặc trưng – thực nghiệm với tiếng Việt” (B2011-18-02TĐ), 2015 Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 33 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói [28] George E Dahl, Dong Yu, Li Deng, and Alex Acero, “Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition,” IEEE Trans on audio, speech, and language processing, 2011 [29] Hinton, Geoffrey, et al "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." Signal Processing Magazine, IEEE 29.6 (2012): 8297 Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 34 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói CÁC PHỤ LỤC PHỤ LỤC 1: XUẤT BẢN KHOA HỌC Đề tài xuất báo khoa học: - Quan Vu et.al, “Acceleration in State-of-the-Art ASR applied to a Vietnamese Transcription System,” Journal of Computer Science and Cybernetics, December 2018 Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 35 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói ACCELERATION IN STATE-OF-THE-ART ASR APPLIED TO A VIETNAMESE TRANSCRIPTION SYSTEM NHUT M PHAM, QUAN H VU University of Science, HCMC, Vietnam; Institute for Computational Science and Technology; vhquan@fit.hcmus.edu.vn Abstract This paper presents the adoption of state-of-the-art ASR techniques into Vietnamese To better assess these techniques, speech corpora in the research community are assembled, and expanded, making a unified evaluation material under the name VN-Corpus On this corpus, three ASR systems are built using the conventional HMM-GMM recipe, SGMM, and DNN respectively Experimental results crown DNN with the overall WER of 12.1% In the best case, DNN even cut down to 9.7% error rate Keywords Vietnamese automatic speech recognition, transcription system INTRODUCTION Research and findings in Vietnamese automatic speech recognition (ASR) have been stagnant for the last few years Causal factors and catalysts that precipitated the situation include the lack of inspiring approaches, changes in research direction and trend The most up-to-date Vietnamese ASR engine, deployed in common speech applications [1] [2], makes use of the standard HMM-GMM recipe [3] This is quite inapt compared to other advanced techniques After the rise of SGMM [4] and DNN [5] along with their impressive performances, we picked up our pace and resumed the work on Vietnamese ASR Thus making the motivation to push further TABLE I DIACRITICS IN VIETNAMESE Diacritic none / \ ? ~ Example xa xá xà xả xã xạ Meaning far bow snake release village musk For a brief introduction, Vietnamese is a monosyllable, tonal language Each word unit is pronounced as a syllable and its meaning depends on the tone There are about 6596 phonetically distinguishable syllables [6] which comprise of legal combinations between basic syllables (i.e., syllables without tone) and five tones Table I illustrates the diacritics used for representing tones, including: level tone (denoted by “none”), high-rising tone (/), low-falling tone (\), dipping-rising tone (?), high-rising glottalized tone (~), and low glottalized tone (.) Although word, a group of one to several syllables, is the smallest syntactically meaningful unit, syllable is the basic pronunciation unit in Vietnamese speech Hence, using syllable as a basic lexical unit is an ideal choice for Vietnamese ASR Earlier works focus in refining the acoustic model [7], domain adjustments [8], and graph twitching [9] But none has seriously taken into account the nature of tones and their impact on the overall performance Furthermore, the findings are diverse, each with their own evaluation datasets The Vietnamese ASR research community really needs a common source of data and an adoption of state-ofthe-art techniques So here, we move on with two parallel but dependent tasks: (1) building a standard Vietnamese speech corpus as a unified evaluation material; and (2) adopting SGMM and DNN into Vietnamese ASR with the attention of tone and acoustic modeling We also setup and facilitate the conventional HMM-GMM system for comparison purposes The rest of this paper is organized as follows Section presents the unified Vietnamese speech corpus Section covers our ASR systems and their experimental results Section concludes the paper Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 36 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói THE VN-CORPUS Before the establishment of VN-Corpus, experiments of Vietnamese ASR were conducted on several local corpora and recorded data, including: § The VOH corpus (broadcast news): consisting of roughly 21 hour speech from 17 speakers (6 males, 11 females) with Southern dialect § The VOV corpus (broadcast news): made up from 18 hour speech of 20 speakers (8 males, 12 females) with Northern dialect § The LAB corpus (conversational speech): composed of 28 hour closed-mic recording sessions from 158 speakers who are students in the university These corpora are small in size and imbalanced in both speaker/dialect Therefore we planned on developing a unified corpus that is sustainable to balanced distribution and large scale evaluations 2.1 Composing The construction of VN-Corpus starts off with VOH, VOV, and LAB in hand So we got categories to fill in: news and conversations For the news, we proceed to download video clips from the official national TV channels, including VTV, HTV, and FBNC Audio streams are extracted from the clips, and then manually segmented and transcribed to remove any non-speech segments such as music, ads, or background noise For the conversations, we launched additional recording campaigns to extend the LAB corpus, one in the University of Science, and the other in the School of Dramatic Arts A total of 103,239 dramatic spoken scripts were chosen for recording These scripts cover 4951 vocabulary entries, efficiently balance out 93% of the lexical span Recordings were taken place in a quiet room with closed-mic setting All speech data is then sampled to a common format of PCM, 16 KHz, 16 bits, mono 2.2 Partitioning After making the speech and their transcriptions ready, we divide them into subsets: the training, the development, and the test set Details are given in Table II These subsets are used to train, fine-tune, and test the ASR systems presented in Section The corpus was also published for academic usage, under the name VN-Corpus TABLE II THE VN-CORPUS 18h 15h 73h 11h 78h 24h Development set 1h 1h 1h 1h 1h 1h 104h 1h 13h 118h 323h 7h 44h 374h Training set News Conversations VOH VOV VTV FBNC HTV LAB LABexpansion Total Test set Total 2h 2h 14h 2h 8h 3h 21h 18h 88h 14h 87h 28h ASR SYSTEMS Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 37 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói 3.1 Language Modeling The language model (trigram) was built with the 273M-word text corpus collected from online news and forum threads available on the Internet between 4/2010 – 11/2014 Transcriptions of the training set are also blended in (i.e., interpolation) to make content variation Abbreviation and numeric expression occurring in the text are then replaced by their written words The vocabulary contains 5281 words, a combination of words in audio transcriptions and those occurring at least 12 times in the text corpus; thus made an OOV rate of 2.6% TABLE III LANGUAGE MODEL PERPLEXITIES Perplexity Without Interpolation With Interpolation 212.6 135.8 To evaluate the language model, 3000 sentences containing 56k tokens are randomly selected from the test set transcription Table III reports perplexities of the language models with and without the joining of audio transcription It is obvious that the perplexity of the interpolated LM was dramatically reduced, from 212.6 to 135.8, ensuring better performance for the ASR systems 3.2 Acoustic modeling Modeling of acoustic data is formerly designed following the Chinese approach [10] in which each syllable is decomposed into initial and final parts While most of Vietnamese syllables consist of an Initial and a Final, some of them have only the Final The initial part always corresponds to a consonant The final part includes main sound plus tone and an optional ending sound This decomposition results in a total number of 44 monophones It has two advantages First, the number of monophones is relatively small Second, by treating tone as a distinct phone, followed immediately after the main sound, the context-dependent model for tone can be built straightforwardly It means that the recognition of tones was fully integrated in the system in just one recognition pass However, distinct representations of tones have brought upon a disadvantage: the deficiency in modeling tonal features (i.e., pitch) across a syllable Since tones are stressed on the main vowels, separating tone from vowel would degrade the parameterization of tonal vowels S → F → I → V → E → [I] F V [E] b c ch d đ g gh gi h k kh l m n ng ngh nh p ph qu r s t tr th v aăâiơuưy áắấéếíóốớúứý àằầèềìịồờùừỳ ảẳẩẻểỉỏổởủửỷ ãẵẫẽễĩõỗỡũữỹ ạặậẹệịọộợụựỵ c ch ng nh m n p t Figure Integrated tone phoneme set To better model the tonal feature, a modification to the acoustic model is needed, in which tones are integrated into tonal vowels This results in a new decomposition consisting of 99 monophones including 27 phones for consonants, 12 phones for non-tonal vowels, and 60 phones for tonal vowels as show in Figure Table IV gives examples showing the differences between tone representations Viện Khoa học Công nghệ Tính tốn TP Hồ Chí Minh Trang 38 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói TABLE IV SAMPLES OF TONE REPRESENTATIONS ngày nghệ Separated tone ng a \ y ng a y ngh ê Integrated tone ng y ng a y ngh ệ Using this decomposition scheme, we worked on different ASR systems The following Subsections will take turn to describe them Baseline system The first system is based on the conventional HMM-GMM structure which was introduced in [3] Composed features, including pitch, 12 MFCCs, energy, their first and second derivatives, are modeled for each of the context-dependent phonemes (triphones) The trained recognizer contains 3861 tied-states with 16 Gaussian mixtures per state distribution TABLE V BASELINE PERFORMANCES Baseline Baseline + fMLLR Baseline + fMLLR + MMI Broadcast news 34% 30.4% 24.8% WER Conversations 41.3% 35.2% 28.9% Overall 36.6% 32.1% 26.2% We also make baseline augmentations: (1) one with additional fMLLR technique [11] as a speaker adaptive training (SAT) recipe, (2) the other using discriminative training with Maximum Mutual Information (MMI) criteria Performances obtained by these settings are reported in Table V SGMM system The second system is built following the renowned SGMM technique which was originally formulated under low-resourced conditions [4] In SGMM, each state distribution is modeled by a mixture of state vectors instead of a GMM as shown in Figure These vectors are indeed projections from a pool of collective Gaussian functions, called by the name Universal Background Model (UBM) Our UBM consists of 800 Gaussian components An SGMM configuration of 40-dimensional state vectors, and 12 sub-states per state was chosen on the development set TABLE VI SGMM PERFORMANCES WER Broadcast news Conversations Overall SGMM 20.1% 26.7% 22.5% SGMM + fMLLR 18.5% 25.4% 21% SGMM + fMLLR + MMI 17.6% 23% 19.6% Same case with the baseline, SGMM system also got augmentations: fMLLR and MMI Table VI reports their performances As expected, SGMM provides better results than the baseline for both types of data Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 39 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói S1 S2 Weight S3 State-vector Sub-state c1 v1 Sub-state c2 v2 … … cm vm Sub-state m Figure SGMM modeling DNN system DNN has been known as the big jump in machine learning and is much closed in taking the heir to the ASR throne For acoustic modeling, DNN replaces the role of GMM It estimates the posterior for each HMM state However, in the training phase, DNN still relies on the HMM-GMM structure to determine its target via a force-alignment procedure In our Vietnamese implementation, the network is trained using Adam algorithm with a configuration of 0.02 learning rate, 64 mini-batches, and 30 epochs Its hidden layer count is decided by a tuning phase on the development set as shown in Table VII For the input layer, speech features (i.e., pitch and MFCC) are composed using a 40 dimensional LDA transformation, and further expanded by concatenating 11 contextual frames The process ends with a series of 440 dimension vectors as described in [12] TABLE VII DNN TUNING WER # Hidden layers Broadcast news Conversations Overall 23.7% 25.4% 24.3% 20.5% 23.6% 21.6% 19.6% 22.9% 20.8% 17.2% 21.8% 18.8% 18.1% 22.3% 19.6% TABLE VIII DNN PERFORMANCES WER Broadcast news Conversations Overall DNN 17.2% 21.8% 18.8% DNN + fMLLR 16.5% 21.2% 18.2% DNN + fMLLR + MPE 9.7% 16.3% 12.1% And again, we also explore the effect of fMLLR and discriminative training (with MPE criteria) on DNN With the numbers outlined in Table VIII, DNN surpasses SGMM and the baseline However, it’s worth noting that fMLLR gives little improvement for DNN since the network normalizes the speaker effects by its nature Looking back all the way to the worst overall score of 36.6%, DNN contributes to 66.9% relative improvement, effectively cutting down the error rate to 12.1% Viện Khoa học Công nghệ Tính tốn TP Hồ Chí Minh Trang 40 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói CONCLUSIONS Out of the ASR systems performing on the VN-Corpus, DNN give best results, obtaining 9.7% WER in the best case Who could have thought such critical changes in machine learning would bring a strong leap to state-of-the-art Vietnamese ASR Before the introduction of SGMM and DNN, performances were mediocre Researchers got stuck in their own limitations, and the works had been stagnant since then The outcome of this work implies many possibilities to build sustainable speech applications as well as carry on the research Viable directions can be bottleneck features and the i-vector approach ACKNOWLEDGMENT This work is part of the research project No.16/2017/HĐ-KHCNTT, supported by the Institute for Computational Science and Technology, Department of Science and Technology, HCMC-DOST REFERENCES [1] Quan Vu, et al., “A Robust Vietnamese Voice Server for Automated Directory Assistance Application,” RIVF-VLSP, HCM City, Viet Nam, 2012 [2] Quan Vu, et al., “iSago: The Vietnamese Mobile Speech Assistant for Food-court and Restaurant Location,” RIVF-VLSP, HCM City, Viet Nam, 2012 [3] S Young, "HMMs and Related Speech Recognition Technologies." Springer Handbook of Speech Processing, Springer, 2007 [4] D Povey, et al., “Subspace Gaussian mixture models for speech recognition,” Proceedings of ICASSP’10, 2010 [5] G Hinton, et al "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." Signal Processing Magazine, IEEE 29.6, pp 82-97, 2012 [6] P Hoang, Syllable Dictionary, Danang Publishing House, 1996 [7] Quan Vu, et al., “Advances in Acoustic Modeling for Vietnamese LVCSR,” International Conference on Asian Language Processing, Singapore, 2009 [8] Quan Vu, et al., “A Robust Transcription System for Soccer Video Database,” International Conference on Audio Language and Image Processing (ICALIP), 2010 [9] Quan Vu, et al., "Temporal confusion network for speech-based soccer event retrieval," International Conference on Advanced Technologies for Communications (ATC), 2013 [10] H Nguyen, et al., “Selection of Basic Units for Vietnamese Large Vocabulary Continuous Speech Recognition,” The 4th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future, HCMC, Vietnam, 2006 [11] D Povey and G Saon, “Feature and model space feature adaptation with full covariance gaussian,” Proceedings of the 9th International Conference on Spoken Language Processing (ICSLP), pp 4330– 4333, 2006 [12] F Seide, G Li, X Chien, and D Yu, “Feature engineering in context- dependent deep neural networks for conversational speech transcription,” Proceedings of Automatic Speech Recognition and Understanding Workshop (ASRU), 2011 Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 41 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng công nghệ nhận dạng tiếng nói PHỤC LỤC 2: CHỨNG NHẬN ĐÀO TẠO Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 42 Phát triển hệ thống hỗ trợ tự động tạo biên họp sử dụng cơng nghệ nhận dạng tiếng nói Viện Khoa học Cơng nghệ Tính tốn TP Hồ Chí Minh Trang 43