Nghiên cứu hệ thống nhận dạng bền vững tiếng nói ứng dụng trong nhận dạng từ khóa tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ ANH XUÂN Nghiên cứu hệ thống nhận dạng bền vững tiếng nói Ứng dụng nhận dạng từ khóa tiếng Việt Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN THẠC SĨ KHOA HỌC : ĐO LƯỜNG NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN QUỐC CƯỜNG Hà Nội, 2010 Luận văn thạc sỹ khoa học MỤC LỤC………………………………………………………………………… i LỜI CAM ĐOAN iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii MỞ ĐẦU 1 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 3 1.1.Mô hình hệ thống tự động nhận dạng tiếng nói 3 1.2 Các vấn đề tồn hệ thống nhận dạng tiếng nói 6 1.2.1 Các vấn đề tồn 6 1.2.2 Hướng giải .7 1.3 Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói .8 1.3.1 Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào 8 1.3.2 Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói .12 1.3.3 Mô hình nhận dạng thích nghi với môi trường .14 1.4 Lựa chọn phương pháp nhận dạng bền vững với nhiễu môi trường 21 CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS) 27 2.1 Ý tưởng sơ đồ khối phương pháp VTS .27 2.2 Thuật toán cập nhật lại Mean Variance mô hình hệ thống nhận dạng tiếng nói 28 2.3 Cập nhật lại Mean Variance nhiễu kênh truyền .31 2.3.1 Cập nhật lại Mean kênh truyền .32 Trần Thị Anh Xuân i Luận văn thạc sỹ khoa học 2.3.2 Cập nhật lại Mean Variance nhiễu .32 2.4 Lưu đồ thuật toán 35 CHƯƠNG 3: TRIỂN KHAI THUẬT TOÁN VTS 37 3.1 Những khó khăn trình triển khai thuật toán 37 3.2 Tổng quan Sphinx 38 3.3 Cách tích hợp thuật toán VTS vào hệ thống Sphinx 40 3.3.1 Cấu trúc chung module Sphinx 40 3.3.2 Xây dựng module thuật toán VTS 42 3.4 Ứng dụng thuật toán VTS toán nhận dạng tiếng nói chữ số tiếng Việt .45 3.4.1 Cơ sở liệu 45 3.4.2 Xây dựng mô hình nhận dạng 47 3.4.3 Chạy thử nghiệm đánh giá kết thuật toán thử nghiệm 50 3.5 Xây dựng chương trình mô thuật toán HMM + VTS 55 3.5.1 Giao diện chương trình mô 56 3.5.2 Cách sử dụng chương trình mô 56 CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA 58 4.1 Khái niệm nhận dạng từ khóa 58 4.2 Mô hình hệ thống nhận dạng từ khóa .58 4.3 Các phương pháp nhận dạng từ khóa .61 4.3.1 Xây dựng mô hình dựa kinh nghiệm hiểu biết mặt âm học tiếng nói 61 4.3.2 Xây dựng mô hình dựa hệ thống nhận dạng từ điển lớn 61 4.3.3 Xây dựng mô hình cho nhóm từ bổ sung 62 Trần Thị Anh Xuân ii Luận văn thạc sỹ khoa học 4.4 Ứng dụng thuật toán VTS toán nhận dạng từ khóa tiếng Việt 62 4.4.1 Cơ sở liệu 62 4.4.2 Xây dựng mô hình nhận dạng 63 4.4.3 Chạy thử nghiệm đánh giá kết thuật toán thử nghiệm 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 TÀI LIỆU THAM KHẢO .67 Trần Thị Anh Xuân iii Luận văn thạc sỹ khoa học LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tôi, hướng dẫn trực tiếp TS.Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội.Các số liệu, kết nghiên cứu trình bày luận văn trung thực chưa công bố công trình nghiên cứu khác Học viên Trần Trần Thị Anh Xuân iv Thị Anh Xuân Luận văn thạc sỹ khoa học LỜI CẢM ƠN Tác giả xin chân thành cảm ơn TS.Nguyễn Quốc Cường tận tình bảo, hướng dẫn, giúp đỡ tạo điều kiện suốt thời gian tác giả nghiên cứu để hoàn thành luận văn Tác giả xin chân thành cảm ơn ban lãnh đạo anh chị trung tâm MICA – Đại học Bách Khoa Hà Nội tạo điều kiện cho tác giả suốt thời gian thực tập hoàn thành luận văn Trần Thị Anh Xuân v Luận văn thạc sỹ khoa học DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các ký hiệu, chữ viết tắt sử dụng luận văn: CMN : Cepstral Mean Normalization CMVN : Cepstral Mean and Variance Normalization HMM : Hidden Markov Models MFCC : Mel-Frequency Cepstrum Coefficients MLLR : Maximum Likelihood Linear Regression PMC : Parallel Model Combination VTS : Vector Taylor Series WAcc : Word Accuracy WER : Word Error Rate Trần Thị Anh Xuân vi Luận văn thạc sỹ khoa học DANH MỤC CÁC BẢNG Bảng 1: Tỷ lệ nhận dạng PMC VTS môi trường có nhiễu 21 Bảng 2: Tỷ lệ nhận dạng PMC VTS môi trường có ồn trắng .22 Bảng 3: Tỷ lệ nhận dạng PMC VTS môi trường có nhiễu pink 22 Bảng 4: Tỷ lệ nhận dạng PMC VTS môi trường có nhiễu 23 công nghiệp .23 Bảng 5: Tỷ lệ lỗi trung bình phương pháp PMC MLLR,1 24 Bảng 6: Tỷ lệ lỗi trung bình phương pháp PMC MLLR, 24 Bảng 7: Tỷ lệ nhận dạng VTS MLLR môi trường có nhiễu thuộc nhóm A: a, VTS; b, MLLR .25 Bảng 8: Tỷ lệ nhận dạng VTS MLLR môi trường có nhiễu thuộc nhóm B: a, VTS; b, MLLR .26 Bảng 9: WER hệ thống nhận dạng với HMM thử nghiệm 51 Bảng 10: WER hệ thống nhận dạng với HMM + VTS thử nghiệm 51 Bảng 11: WER HMM HMM+VTS SNR =0dB, thử nghiệm .64 Trần Thị Anh Xuân vii Luận văn thạc sỹ khoa học DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Sơ đồ trình huấn luyện Hình 2: Sơ đồ hệ thống tự động nhận dạng tiếng nói Hình 3: Sơ đồ khối thuật toán nâng cao chất lượng tiếng nói sử dụng 10 phương pháp trừ phổ 10 Hình 4: Mô hình tiếng nói môi trường có nhiễu 12 Hình 5: Mô hình phương pháp PMC 20 Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTS i Hình 7: Mô hình tiếng nói môi trường có nhiễu .28 Hình 8: Sơ đồ lưu đồ thuật toán thích nghi mô hình HMM dùng xấp xỉ Taylor 37 Hình 9: Mô hình hệ thống nhận dạng từ khóa không áp dụng thuật toán VTS 48 Hình 10: Mô hình hệ thống nhận dạng từ khóa áp dụng thuật toán VTS 48 Hình 11: Sơ đồ khối phân tích đặc trưng MFCC tín hiệu tiếng nói 49 Hình 12: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 0dB thử nghiệm 53 Hình 13: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 5dB thử nghiệm 53 Hình 14: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 10dB thử nghiệm 54 Hình 15: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 15dB thử nghiệm 54 Hình 16: Giao diện chương trình mô thuật toán VTS 56 Hình 17: Sơ đồ nhận dạng tiếng nói chung .60 Hình 18: Mô hình ngôn ngữ sử dụng nhận dạng từ khóa .60 Hình 19: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 0dB thử nghiệm 65 Trần Thị Anh Xuân viii Luận văn thạc sỹ khoa học MỞ ĐẦU Lý chọn đề tài • Cơ sở khoa học: Nhận dạng tiếng nói lĩnh vực nghiên cứu đuợc năm 1960 nghiên cứu phòng thí nghiệm giới Nhận dạng tiếng nói bao gồm: xử lý tín hiệu tiếng nói kỹ thuật nhận dạng • Cơ sở thực tiễn: Các hệ thống tự động nhận dạng tiếng nói có ứng dụng tích cực vào đời sống người Các hệ thống góp phần làm “thông minh hóa” sống chúng ta, điều khiển thiết bị điện-điện tử tiếng nói: ti vi, điều hòa nhiệt độ,…,nhập thông tin tiếng nói, đặc biệt có vai trò quan trọng trường hợp điều khiển mà hai tay người vận hành bận Do vậy, việc nâng cao chất lượng hệ thống nhận dạng tiếng nói cần thiết Đó lý quan trọng để chọn đề tài “Nghiên cứu hệ thống nhận dạng bền vững tiếng nói – Ứng dụng nhận dạng từ khóa tiếng Việt” làm luận văn thạc sỹ Lịch sử nghiên cứu Các phương pháp bền vững tiếng nói nghiên cứu từ khoảng cách 10 năm, phương pháp nghiên cứu phát triển vào hệ thống nhận dạng tiếng nói Việt Nam năm gần Mục đích nghiên cứu luận văn Nghiên cứu lựa chọn phương pháp nhận dạng tiếng nói bền vững với nhiễu để cải thiện chất lượng nhận dạng tiếng nói so với mô hình hệ thống nhận dạng huấn luyện liệu Trần Thị Anh Xuân 1 Luận văn thạc sỹ khoa học SNR = 10dB Hình 14: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 10dB thử nghiệm SNR = 15dB Hình 15: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 15dB thử nghiệm d Nhận xét Trần Thị Anh Xuân 54 Luận văn thạc sỹ khoa học Từ bảng đồ thị kết mục a, b, c, nhận thấy: Hệ thống nhận dạng huấn luyện liệu (HMM sạch) (thu môi trường không nhiễu nhiễu ít) giảm chất lượng đáng kể hoạt động môi trường có nhiễu Để nâng cao chất lượng hệ thống nhận dạng môi trường nhiễu, thuật toán thích nghi nhiễu VTS áp dụng cho thấy cải thiện đáng kể hệ thống hầu hết loại nhiễu khác nhau: • Trong môi trường tỷ lệ tín hiệu nhiễu khoảng 0dB, cải thiện hệ thống thể rõ với trung bình 5,24% tỷ lệ lỗi từ giảm Hệ thống hoạt động tốt môi trường nhiễu phòng triển lãm, tàu điện, đường phố: giảm xấp xỉ 9% tỷ lệ lỗi từ • Trong môi trường tỷ lệ tín hiệu nhiễu khoảng 5dB đến 10dB, thuật toán thích nghi cải thiện trung bình 0,57 đến % tỷ lệ lỗi từ • Trong trường nhiễu với tỷ lệ tín hiệu nhiễu khoảng 15dB, thuật toán thích nghi không cải thiện nhiều so với mô hình với 0,17% tỷ lệ lỗi từ cải thiện Như vậy, thuật toán thích nghi nhiễu VTS làm giảm nhiều tỷ lệ lỗi từ hệ thống nhận dạng tiếng nói SNR thấp (tức môi trường có nhiễu mạnh), thuật toán nâng cao chất lượng hệ thống nhận dạng tiếng nói môi trường có SNR thấp Còn môi trường có SNR cao (môi trường nhiễu) chất lượng nhận dạng không cải thiện nhiều so với hệ thống HMM 3.5 Xây dựng chương trình mô thuật toán HMM + VTS Tác giả xây dựng chương trình mô thuật toán VTS chạy offline hệ thống nhận dạng tiếng nói chữ số tiếng Việt Trần Thị Anh Xuân 55 Luận văn thạc sỹ khoa học 3.5.1 Giao diện chương trình mô Hình 16: Giao diện chương trình mô thuật toán VTS 3.5.2 Cách sử dụng chương trình mô Nhập cấu hình cho hệ thống nhận dạng tiếng nói chữ số tiếng Việt, gồm có: • Mô hình âm học (HMM): nhập đường dẫn chứa file mô hình âm học HMM huấn luyện liệu luyện • cleanHMM scriptFile: nhập đường dẫn đến file chứa lệnh thực cho trình nhận dạng mô hình HMM • VTS HMM scriptFile: nhập đường dẫn đến file chứa lệnh thực cho trình nhận dạng mô hình HMM+VTS Trần Thị Anh Xuân 56 Luận văn thạc sỹ khoa học • Exc Directory: nhập đường dẫn đến folder chứa file chạy hệ thống nhận dạng, bao gồm module chạy Sphinx module VTS Đưa vào câu tiếng nói cần nhận dạng: • Tiếng nói có nhiễu: nhập đường dẫn đến file tiếng nói cần nhận dạng (.wav) Tiến hành nhận dạng câu tiếng nói đưa vào với hai mô hình HMM HMM+VTS, kết nhận dạng hiển thị dạng text trong: • HMM sach: hiển thị kết nhận dạng câu tiếng nói dùng mô hình HMM • HMM + VTS: hiển thị kết nhận dạng câu tiếng nói dùng mô hình HMM + VTS Trần Thị Anh Xuân 57 Luận văn thạc sỹ khoa học CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA 4.1 Khái niệm nhận dạng từ khóa Trong nhận dạng tiếng nói, nhận dạng từ khóa trường hợp đặc biệt toán nhận dạng tiếng nói liên tục Trong mục tiêu nhận dạng từ khóa phát xuất từ vựng thuộc tập nhỏ hữu hạn (từ điển nhận dạng) đưa câu tiếng nói vào hệ thống Nhận dạng từ khóa ứng dụng nhiều hệ thống tương tác người – máy, tập từ khóa thường bao gồm từ vựng mang thông tin nhiều câu Bài toán nhận dạng từ khóa yêu cầu khả phân biệt tốt hệ thống mặt âm học từ khóa với âm khác, bao gồm từ vựng từ khóa, từ vựng thuộc ngôn ngữ khác loại nhiễu xuất môi trường phát âm Các tín hiệu nhiễu có đặc trưng phân bố tương đối khác so với tín hiệu tiếng nói nên dùng phương pháp nâng cao chất lượng tiếng nói để giảm bớt Nhưng tín hiệu tiếng nói từ vựng từ khóa từ vựng thuộc ngôn ngữ khác có đặc trưng phân bố tương đương với từ khóa cần nhận dạng, đó, toán nhận dạng từ khóa yêu cầu mô hình hóa tốt cho tập từ vựng từ khóa 4.2 Mô hình hệ thống nhận dạng từ khóa Một hệ thống nhận dạng từ khóa [8],[10], có cấu trúc tương đương hệ thống nhận dạng tiếng nói nói chung (Hình 17) Mô hình âm học hệ thống nhận dạng từ khóa ý việc mô hình hóa từ từ khóa Mô hình ngôn ngữ [9]: thông thường từ khóa cần nhận dạng độc lập mặt ý nghĩa nên mô hình ngôn ngữ hệ thống nhận dạng từ khóa đơn giản, chủ yếu mô tả kết hợp mô hình từ khóa, mô hình từ bổ xung (bao gồm từ từ khóa) mô hình khoảng lặng câu Mô hình ngôn ngữ Trần Thị Anh Xuân 58 Luận văn thạc sỹ khoa học Hình 18 Trần Thị Anh Xuân 59 Luận văn thạc sỹ khoa học Mô hình âm học Tín hiệu Trích chọn Giải mã Kết tiếng nói đặc trưng (Decoding) nhận dạng Từ điển Mô hình phiên âm ngôn ngữ Hình 17: Sơ đồ nhận dạng tiếng nói chung Keyword Keyword N Filler Filler N Hình 18: Mô hình ngôn ngữ sử dụng nhận dạng từ khóa Mỗi đường mũi tên thể khả chuyển mô hình từ khóa từ bổ xung câu với xác xuất Trần Thị Anh Xuân 60 Luận văn thạc sỹ khoa học 4.3 Các phương pháp nhận dạng từ khóa Như nói trên, vấn đề toán nhận dạng từ khóa chủ yếu xoay quanh việc xây dựng mô hình cho từ bổ xung Theo tiêu chí kĩ thuật xây dựng mô hình từ bổ xung, có số phương pháp sau cho toán nhận dạng từ khóa: 4.3.1 Xây dựng mô hình dựa kinh nghiệm hiểu biết mặt âm học tiếng nói Phương pháp chủ yếu dựa kinh nghiệm người xây dựng hệ thống mặt âm học ngôn ngữ cần nhận dạng Theo người xây dựng đưa cấu trúc số lượng mô hình từ bổ xung thích hợp cho hệ thống 4.3.2 Xây dựng mô hình dựa hệ thống nhận dạng từ điển lớn 4.3.2.1 Xây dựng mô hình cấp từ Mỗi mô hình từ bổ xung tương đương với mô hình từ từ khóa từ điển nhận dạng hệ thống nhận dạng từ điển lớn Mô hình ngôn ngữ hệ thống nhận dạng từ điển lớn thay đổi cho phù hợp với toán nhận dạng từ khóa Phương pháp có nhược điểm: • Lượng sở liệu luyện phải đủ lớn • Từ điển nhận dạng lớn số mô hình cần phải xây dựng nhiều • Khối lượng tính toán thời gian tính toán lớn 4.3.2.2 Xây dựng mô hình cấp âm vị Các từ khóa phiên âm tập âm vị, âm vị tương đương với mô hình Markov ẩn Các từ từ khóa phiên âm theo âm vị Khi tất các mô hình âm vị độc lập ngữ cảnh coi mô hình từ bổ xung, mô hình từ khóa mô hình kết hợp âm vị tương ứng Trần Thị Anh Xuân 61 Luận văn thạc sỹ khoa học Ưu điểm: giảm số lượng mô hình, khối lượng tính toán thời gian tính toán so với phương pháp Nhược điểm: Cơ sở liệu cần thiết để luyện phải đủ lớn 4.3.3 Xây dựng mô hình cho nhóm từ bổ sung Một phương pháp lượng tử hóa (K-means) sử dụng để phân từ từ khóa thành nhóm có đặc trưng âm học tương tự Mỗi nhóm sau mô hình hóa mô hình từ bổ xung tương ứng Các từ khóa mô hình hóa cấp từ cấp âm vị • Mô hình từ khóa độc lập ngữ cảnh: từ khóa cần nhận dạng mô hình độc lập với ngữ cảnh • Mô hình từ khóa phụ thuộc ngữ cảnh: từ khóa mô hình phụ thuộc vào ngữ cảnh trái phải từ câu 4.4 Ứng dụng thuật toán VTS toán nhận dạng từ khóa tiếng Việt Đây thử nghiệm thứ luận văn mà tác giả nêu phần Mở đầu 4.4.1 Cơ sở liệu Từ khóa: mười tiếng nói chữ số tiếng việt, từ không đến chín a Bộ liệu huấn luyện Gồm liệu thu thập 60 người chủ yếu sinh sống tỷnh phía Bắc, yêu cầu đọc loại văn gồm: • đoạn tin tức lấy báo (dạng văn viết) • câu đối thoại đơn giản thường thấy đời sống hàng ngày (dạng văn nói) • số điện thoại • câu lệnh điều khiển thiết bị nhà Trần Thị Anh Xuân 62 Luận văn thạc sỹ khoa học Dữ liệu thu âm tần số 8kHz, mã hóa 16 bits có dấu, kênh lưu định dạng wav – windows PCM b Bộ liệu nhiễu Được lấy từ sở liệu nhiễu AURORA gồm loại nhiễu khác đặc trưng cho loại môi trường khác lấy từ liệu nhiễu thử nghiệm c Bộ liệu kiểm tra Gồm 700 câu tiếng nói thu thập khoảng người, người nói yêu cầu đọc câu mệnh lệnh ngắn có chứa nhiều từ khóa Dữ liệu lấy mẫu lưa trữ giống liệu luyện nói Bộ liệu kiểm tra cộng mô với liệu nhiễu với tỷ lệ tín hiệu nhiễu 0dB, 5dB, 10dB, 15dB để tạo liệu kiểm tra nhiễu phục vụ cho thử nghiệm đánh giá chất lượng thuật toán VTS nhận dạng tiếng nói 4.4.2 Xây dựng mô hình nhận dạng Tác giả tiến hành xây dựng hai hệ thống nhận dạng tiếng nói sau: • Hệ thống nhận dạng tiếng nói không áp dụng thuật toán VTS: HMM • Hệ thống nhận dạng tiếng nói có áp dụng thuật toán VTS: HMM + VTS 4.4.2.1 Mô hình hệ thống nhận dạng Giống thử nghiệm 4.4.2.2 Module trích chọn đặc trưng Giống thử nghiệm 4.4.2.3 Mô hình âm học 10 từ khóa chữ số bao gồm : không, , hai, ba, bốn, năm, sáu, bảy, tám, chín khoảng lặng từ (mô hình sil) hình hóa mô hình Markov ẩn trái phải gồm trạng thái, trạng thái mô tả hàm phân bố mix Gauss gồm Gauss Trần Thị Anh Xuân 63 Luận văn thạc sỹ khoa học Các từ từ khóa xuất ngôn ngữ tiếng Việt phiên âm thành đơn vị tiếng nói nhỏ âm vị Sau âm vị lại mô hình hóa mô hình Markov ẩn trái phải gồm trạng thái Tổng cộng có 47 âm vị sử dụng 47 mô hình sử dụng làm mô hình bổ xung cho hệ thống nhận dạng từ khóa 4.4.3 Chạy thử nghiệm đánh giá kết thuật toán thử nghiệm Thử nghiệm tiến hành với hai hệ thống thử nghiệm Từ kết thử nghiệm 1, nhận thấy thuật toán VTS cải thiện đáng kể chất lượng nhận dạng môi trường có nhiều nhiễu (SNR thấp) Do đó, toán nhận dạng từ khóa tiếng Việt, tác giả tiến hành khảo sát với số liệu kiểm tra với SNR =0dB a Kết Bảng kết tỷ lệ lỗi từ hai hệ thống HMM HMM+VTS với số liệu kiểm tra SNR = 0dB: Bảng 11: WER HMM HMM+VTS SNR =0dB, thử nghiệm WER Nhiễu HMM HMM+VTS airport 38.52% 36.97% babble 41.17% 41.00% car 35.06% 34.38% exhibition 42.38% 36.54% restaurant 40.61% 40.17% street 36.68% 36.12% subway 41.03% 36.36% train 36.72% 36.64% Đồ thị biểu diễn WER HMM HMM+VTS toán nhận dạng từ khóa SNR = 0dB ( Hình 19) Trần Thị Anh Xuân 64 Luận văn thạc sỹ khoa học Hình 19: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 0dB thử nghiệm b Nhận xét Từ kết a, ta nhận thấy với hệ thống nhận dạng từ khóa SNR = dB, hệ thống nhận dạng tiếng nói có sử dụng VTS cải thiện chất lượng nhận dạng hệ thống HMM Điều thể sau: Trung bình hệ thống nhận dạng HMM+VTS làm giảm 1,75% tỷ lệ lỗi từ so với hệ thống HMM Hệ thống HMM+VTS hoạt động tốt môi trường có nhiễu phòng triển lãm: giảm tỷ lệ lỗi từ khoảng 6%; môi trường có nhiễu tàu điện ngầm: giảm tỷ lệ lỗi từ khoảng 5% Tuy nhiên, nhận thấy rằng, SNR = 0dB, mức độ cải thiện chất lượng thuật toán HMM+VTS thử nghiệm thấp so với thử nghiệm Có điều do: • Do hệ thống nhận dạng từ khóa mô hình hóa chưa tốt, đạt tỷ lệ nhận dạng 78%, so với với hệ thống nhận dạng tiếng nói chữ số tiếng Việt đạt 98% tập liệu kiểm tra nhiễu Trần Thị Anh Xuân 65 Luận văn thạc sỹ khoa học KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tác giả nghiên cứu triển khai thành công thuật toán nhận dạng bền vững với nhiễu – Vector Taylor Series, thử nghiệm cho thấy hệ thống nhận dạng tiếng nói có sử dụng phương pháp VTS giảm tỷ lệ lỗi từ, nhờ mà chất lượng nhận dạng tiếng nói nâng cao so với phương pháp nhận dạng với mô hình huấn luyện Sự cải thiện chất lượng hệ thống nhận dạng tiếng nói kết hợp thuật toán thích nghi nhiễu VTS thể rõ rệt môi trường có SNR thấp, tức với môi trường có nhiễu mạnh thuật toán phát huy tác dụng Tuy nhiên, chất lượng nhận dạng toán nhận dạng từ khóa tiếng Việt chưa cải thiện nhiều Một nguyên nhân định tới yếu tố này, hệ thống nhận dạng từ khóa mô hình hóa chưa tốt Do đó, tham số HMM cập nhật lại không xác không phù hợp với câu tiếng nói đưa vào nhận dạng, dẫn đến chất lượng nhận dạng tiếng nói không cải thiện Vì vậy, hướng phát triển đề tài là: • Xây dựng hệ thống nhận dạng từ khóa có khả hoạt động tốt môi trường có nhiễu • Tích hợp thuật toán nhận dạng tiếng nói bền vững với nhiễu VTS vào hệ thống nhận dạng online • Triển khai thuật toán thiết bị nhúng, robot Trần Thị Anh Xuân 66 Luận văn thạc sỹ khoa học TÀI LIỆU THAM KHẢO Acero, A.,Hon, H.W.,Huang, X., (2001), Spoken language processing,pp 1008 Acero, Deng, L., A., Gong, Y., Yu, D., Li, J., (2007), “High-performance HMM adaptation with joint compensation of additive convolutive distortions via Vector Taylor Series”, In: Proc IEEE ASRU Acero, A., Deng, L., Kritjansson, T., Zhang, J., (2000),HMM adaptation using vector taylor series for noise speech recognition Benesty, J., Huang, Y., Sondhi, M., (2008), Handbook of speech processing, 5.Kim, D., Kim, L., Un, C., (1998),“Speech recognition in noise environtments using first-order Vector Taylor Series” 6.Alwan, A., “Noise Robust Speech Recognition Using Feature Compensation based on polynomial Regression of Utterance SNR” ,IEEE Juang, B., Rabiner, L., (1993).Fundamentals of speech recognition Paul, B., Richard, C.,“A Hidden Markov Model based keyword recognition system” Manos, A., (1996), A Study on Out-of-Vocabulary Word Modelling for a Segment-based keyword spottings system, Brown University 10 Hiroshi, K., Hoichi, T., Hiroyuki, T., “Keyword spotting in noise continuos speech using word pattern vector subabstraction and noise immunity learning” 11 Boll S F (1979), “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,” IEEE_J_ASSP , Vol ASSP-27 , pp 113-120 12 Berouti, M Schwartz, R.,Makhoul, J (1979), “Enhancement of speech corrupted by acoustic noise,” Proc IEEE ICASSP , Vol , pp 208-211 Trần Thị Anh Xuân 67 Luận văn thạc sỹ khoa học 13 Ephraim, Y , Malah, D (1984), “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator,” IEEE_J_ASSP , Vol 32 , pp 1109-1121 14 Jim, K., Gong, Y., “HMM Adaptation and microphone array processing for distant speech recognition” 15 http://www.speech.cs.cmu.edu/sphinx/doc/doxygen/sphinx3/index.html Trần Thị Anh Xuân 68 ... đề tài Nghiên cứu hệ thống nhận dạng bền vững tiếng nói – Ứng dụng nhận dạng từ khóa tiếng Việt làm luận văn thạc sỹ Lịch sử nghiên cứu Các phương pháp bền vững tiếng nói nghiên cứu từ khoảng... lượng hệ thống nhận dạng Khi thiết kế hệ thống tự động nhận dạng tiếng nói, yếu tố có tính chất định tính khả thi hệ thống là: Chất lượng nhận dạng tiếng nói Chất lượng hệ thống nhận dạng tiếng nói. .. vào hệ thống nhận dạng tiếng nói, nhờ hệ thống nhận dạng tiếng nói ứng dụng vào môi trường khác mà chất lượng nhận dạng hệ thống cải thiện Một số phương pháp nhận dạng tiếng nói bền vững với nhiễu:

Định dạng
Số trang	76
Dung lượng	1,45 MB