Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
1,59 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ ANH XUÂN Nghiên cứu hệ thống nhận dạng bền vững tiếng nói Ứng dụng nhận dạng từ khóa tiếng Việt Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN THẠC SĨ KHOA HỌC : ĐO LƯỜNG NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN QUỐC CƯỜNG Hà Nội, 2010 Luận văn thạc sỹ khoa học MỤC LỤC………………………………………………………………………… i LỜI CAM ĐOAN iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii MỞ ĐẦU 1 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 3 1.1.Mơ hình hệ thống tự động nhận dạng tiếng nói 3 1.2 Các vấn đề tồn hệ thống nhận dạng tiếng nói 6 1.2.1 Các vấn đề tồn 6 1.2.2 Hướng giải .7 1.3 Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói .8 1.3.1 Các phương pháp lọc nhiễu tín hiệu tiếng nói đầu vào 8 1.3.2 Các phương pháp biến đổi chuẩn hóa đặc trưng tín hiệu tiếng nói .12 1.3.3 Mơ hình nhận dạng thích nghi với mơi trường .14 1.4 Lựa chọn phương pháp nhận dạng bền vững với nhiễu môi trường 21 CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MƠ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS) 27 2.1 Ý tưởng sơ đồ khối phương pháp VTS .27 2.2 Thuật toán cập nhật lại Mean Variance mơ hình hệ thống nhận dạng tiếng nói 28 2.3 Cập nhật lại Mean Variance nhiễu kênh truyền .31 2.3.1 Cập nhật lại Mean kênh truyền .32 Trần Thị Anh Xuân i Luận văn thạc sỹ khoa học 2.3.2 Cập nhật lại Mean Variance nhiễu .32 2.4 Lưu đồ thuật toán 35 CHƯƠNG 3: TRIỂN KHAI THUẬT TOÁN VTS 37 3.1 Những khó khăn trình triển khai thuật tốn 37 3.2 Tổng quan Sphinx 38 3.3 Cách tích hợp thuật toán VTS vào hệ thống Sphinx 40 3.3.1 Cấu trúc chung module Sphinx 40 3.3.2 Xây dựng module thuật toán VTS 42 3.4 Ứng dụng thuật toán VTS toán nhận dạng tiếng nói chữ số tiếng Việt .45 3.4.1 Cơ sở liệu 45 3.4.2 Xây dựng mơ hình nhận dạng 47 3.4.3 Chạy thử nghiệm đánh giá kết thuật toán thử nghiệm 50 3.5 Xây dựng chương trình mơ thuật toán HMM + VTS 55 3.5.1 Giao diện chương trình mơ 56 3.5.2 Cách sử dụng chương trình mô 56 CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA 58 4.1 Khái niệm nhận dạng từ khóa 58 4.2 Mơ hình hệ thống nhận dạng từ khóa .58 4.3 Các phương pháp nhận dạng từ khóa .61 4.3.1 Xây dựng mơ hình dựa kinh nghiệm hiểu biết mặt âm học tiếng nói 61 4.3.2 Xây dựng mơ hình dựa hệ thống nhận dạng từ điển lớn 61 4.3.3 Xây dựng mơ hình cho nhóm từ bổ sung 62 Trần Thị Anh Xuân ii Luận văn thạc sỹ khoa học 4.4 Ứng dụng thuật toán VTS toán nhận dạng từ khóa tiếng Việt 62 4.4.1 Cơ sở liệu 62 4.4.2 Xây dựng mơ hình nhận dạng 63 4.4.3 Chạy thử nghiệm đánh giá kết thuật toán thử nghiệm 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 TÀI LIỆU THAM KHẢO .67 Trần Thị Anh Xuân iii Luận văn thạc sỹ khoa học LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, hướng dẫn trực tiếp TS.Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội.Các số liệu, kết nghiên cứu trình bày luận văn trung thực chưa công bố cơng trình nghiên cứu khác Học viên Trần Trần Thị Anh Xuân iv Thị Anh Xuân Luận văn thạc sỹ khoa học LỜI CẢM ƠN Tác giả xin chân thành cảm ơn TS.Nguyễn Quốc Cường tận tình bảo, hướng dẫn, giúp đỡ tạo điều kiện suốt thời gian tác giả nghiên cứu để hoàn thành luận văn Tác giả xin chân thành cảm ơn ban lãnh đạo anh chị trung tâm MICA – Đại học Bách Khoa Hà Nội tạo điều kiện cho tác giả suốt thời gian thực tập hoàn thành luận văn Trần Thị Anh Xuân v Luận văn thạc sỹ khoa học DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các ký hiệu, chữ viết tắt sử dụng luận văn: CMN : Cepstral Mean Normalization CMVN : Cepstral Mean and Variance Normalization HMM : Hidden Markov Models MFCC : Mel-Frequency Cepstrum Coefficients MLLR : Maximum Likelihood Linear Regression PMC : Parallel Model Combination VTS : Vector Taylor Series WAcc : Word Accuracy WER : Word Error Rate Trần Thị Anh Xuân vi Luận văn thạc sỹ khoa học DANH MỤC CÁC BẢNG Bảng 1: Tỷ lệ nhận dạng PMC VTS mơi trường có nhiễu 21 Bảng 2: Tỷ lệ nhận dạng PMC VTS mơi trường có ồn trắng .22 Bảng 3: Tỷ lệ nhận dạng PMC VTS môi trường có nhiễu pink 22 Bảng 4: Tỷ lệ nhận dạng PMC VTS mơi trường có nhiễu 23 công nghiệp .23 Bảng 5: Tỷ lệ lỗi trung bình phương pháp PMC MLLR,1 24 Bảng 6: Tỷ lệ lỗi trung bình phương pháp PMC MLLR, 24 Bảng 7: Tỷ lệ nhận dạng VTS MLLR mơi trường có nhiễu thuộc nhóm A: a, VTS; b, MLLR .25 Bảng 8: Tỷ lệ nhận dạng VTS MLLR môi trường có nhiễu thuộc nhóm B: a, VTS; b, MLLR .26 Bảng 9: WER hệ thống nhận dạng với HMM thử nghiệm 51 Bảng 10: WER hệ thống nhận dạng với HMM + VTS thử nghiệm 51 Bảng 11: WER HMM HMM+VTS SNR =0dB, thử nghiệm .64 Trần Thị Anh Xuân vii Luận văn thạc sỹ khoa học DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Sơ đồ trình huấn luyện Hình 2: Sơ đồ hệ thống tự động nhận dạng tiếng nói Hình 3: Sơ đồ khối thuật toán nâng cao chất lượng tiếng nói sử dụng 10 phương pháp trừ phổ 10 Hình 4: Mơ hình tiếng nói mơi trường có nhiễu 12 Hình 5: Mơ hình phương pháp PMC 20 Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTS i Hình 7: Mơ hình tiếng nói mơi trường có nhiễu .28 Hình 8: Sơ đồ lưu đồ thuật tốn thích nghi mơ hình HMM dùng xấp xỉ Taylor 37 Hình 9: Mơ hình hệ thống nhận dạng từ khóa khơng áp dụng thuật tốn VTS 48 Hình 10: Mơ hình hệ thống nhận dạng từ khóa áp dụng thuật tốn VTS 48 Hình 11: Sơ đồ khối phân tích đặc trưng MFCC tín hiệu tiếng nói 49 Hình 12: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 0dB thử nghiệm 53 Hình 13: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 5dB thử nghiệm 53 Hình 14: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 10dB thử nghiệm 54 Hình 15: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 15dB thử nghiệm 54 Hình 16: Giao diện chương trình mơ thuật tốn VTS 56 Hình 17: Sơ đồ nhận dạng tiếng nói chung .60 Hình 18: Mơ hình ngơn ngữ sử dụng nhận dạng từ khóa .60 Hình 19: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 0dB thử nghiệm 65 Trần Thị Anh Xuân viii Luận văn thạc sỹ khoa học MỞ ĐẦU Lý chọn đề tài • Cơ sở khoa học: Nhận dạng tiếng nói lĩnh vực nghiên cứu đuợc năm 1960 nghiên cứu phịng thí nghiệm giới Nhận dạng tiếng nói bao gồm: xử lý tín hiệu tiếng nói kỹ thuật nhận dạng • Cơ sở thực tiễn: Các hệ thống tự động nhận dạng tiếng nói có ứng dụng tích cực vào đời sống người Các hệ thống góp phần làm “thơng minh hóa” sống chúng ta, điều khiển thiết bị điện-điện tử tiếng nói: ti vi, điều hịa nhiệt độ,…,nhập thơng tin tiếng nói, đặc biệt có vai trị quan trọng trường hợp điều khiển mà hai tay người vận hành bận Do vậy, việc nâng cao chất lượng hệ thống nhận dạng tiếng nói cần thiết Đó lý quan trọng để tơi chọn đề tài “Nghiên cứu hệ thống nhận dạng bền vững tiếng nói – Ứng dụng nhận dạng từ khóa tiếng Việt” làm luận văn thạc sỹ Lịch sử nghiên cứu Các phương pháp bền vững tiếng nói nghiên cứu từ khoảng cách 10 năm, phương pháp nghiên cứu phát triển vào hệ thống nhận dạng tiếng nói Việt Nam năm gần Mục đích nghiên cứu luận văn Nghiên cứu lựa chọn phương pháp nhận dạng tiếng nói bền vững với nhiễu để cải thiện chất lượng nhận dạng tiếng nói so với mơ hình hệ thống nhận dạng huấn luyện liệu Trần Thị Anh Xuân 1 Luận văn thạc sỹ khoa học SNR = 10dB Hình 14: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 10dB thử nghiệm SNR = 15dB Hình 15: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 15dB thử nghiệm d Nhận xét Trần Thị Anh Xuân 54 Luận văn thạc sỹ khoa học Từ bảng đồ thị kết mục a, b, c, nhận thấy: Hệ thống nhận dạng huấn luyện liệu (HMM sạch) (thu mơi trường khơng nhiễu nhiễu ít) giảm chất lượng đáng kể hoạt động môi trường có nhiễu Để nâng cao chất lượng hệ thống nhận dạng mơi trường nhiễu, thuật tốn thích nghi nhiễu VTS áp dụng cho thấy cải thiện đáng kể hệ thống hầu hết loại nhiễu khác nhau: • Trong mơi trường tỷ lệ tín hiệu nhiễu khoảng 0dB, cải thiện hệ thống thể rõ với trung bình 5,24% tỷ lệ lỗi từ giảm Hệ thống hoạt động tốt mơi trường nhiễu phịng triển lãm, tàu điện, đường phố: giảm xấp xỉ 9% tỷ lệ lỗi từ • Trong mơi trường tỷ lệ tín hiệu nhiễu khoảng 5dB đến 10dB, thuật tốn thích nghi cải thiện trung bình 0,57 đến % tỷ lệ lỗi từ • Trong trường nhiễu với tỷ lệ tín hiệu nhiễu khoảng 15dB, thuật tốn thích nghi khơng cải thiện nhiều so với mơ hình với 0,17% tỷ lệ lỗi từ cải thiện Như vậy, thuật tốn thích nghi nhiễu VTS làm giảm nhiều tỷ lệ lỗi từ hệ thống nhận dạng tiếng nói SNR thấp (tức mơi trường có nhiễu mạnh), thuật toán nâng cao chất lượng hệ thống nhận dạng tiếng nói mơi trường có SNR thấp Cịn mơi trường có SNR cao (mơi trường nhiễu) chất lượng nhận dạng khơng cải thiện nhiều so với hệ thống HMM 3.5 Xây dựng chương trình mơ thuật tốn HMM + VTS Tác giả xây dựng chương trình mơ thuật toán VTS chạy offline hệ thống nhận dạng tiếng nói chữ số tiếng Việt Trần Thị Anh Xuân 55 Luận văn thạc sỹ khoa học 3.5.1 Giao diện chương trình mơ Hình 16: Giao diện chương trình mơ thuật tốn VTS 3.5.2 Cách sử dụng chương trình mơ Nhập cấu hình cho hệ thống nhận dạng tiếng nói chữ số tiếng Việt, gồm có: • Mơ hình âm học (HMM): nhập đường dẫn chứa file mơ hình âm học HMM huấn luyện liệu luyện • cleanHMM scriptFile: nhập đường dẫn đến file chứa lệnh thực cho trình nhận dạng mơ hình HMM • VTS HMM scriptFile: nhập đường dẫn đến file chứa lệnh thực cho q trình nhận dạng mơ hình HMM+VTS Trần Thị Anh Xuân 56 Luận văn thạc sỹ khoa học • Exc Directory: nhập đường dẫn đến folder chứa file chạy hệ thống nhận dạng, bao gồm module chạy Sphinx module VTS Đưa vào câu tiếng nói cần nhận dạng: • Tiếng nói có nhiễu: nhập đường dẫn đến file tiếng nói cần nhận dạng (.wav) Tiến hành nhận dạng câu tiếng nói đưa vào với hai mơ hình HMM HMM+VTS, kết nhận dạng hiển thị dạng text trong: • HMM sach: hiển thị kết nhận dạng câu tiếng nói dùng mơ hình HMM • HMM + VTS: hiển thị kết nhận dạng câu tiếng nói dùng mơ hình HMM + VTS Trần Thị Anh Xuân 57 Luận văn thạc sỹ khoa học CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA 4.1 Khái niệm nhận dạng từ khóa Trong nhận dạng tiếng nói, nhận dạng từ khóa trường hợp đặc biệt tốn nhận dạng tiếng nói liên tục Trong mục tiêu nhận dạng từ khóa phát xuất từ vựng thuộc tập nhỏ hữu hạn (từ điển nhận dạng) đưa câu tiếng nói vào hệ thống Nhận dạng từ khóa ứng dụng nhiều hệ thống tương tác người – máy, tập từ khóa thường bao gồm từ vựng mang thơng tin nhiều câu Bài tốn nhận dạng từ khóa yêu cầu khả phân biệt tốt hệ thống mặt âm học từ khóa với âm khác, bao gồm từ vựng từ khóa, từ vựng thuộc ngơn ngữ khác loại nhiễu xuất môi trường phát âm Các tín hiệu nhiễu có đặc trưng phân bố tương đối khác so với tín hiệu tiếng nói nên dùng phương pháp nâng cao chất lượng tiếng nói để giảm bớt Nhưng tín hiệu tiếng nói từ vựng khơng phải từ khóa từ vựng thuộc ngơn ngữ khác có đặc trưng phân bố tương đương với từ khóa cần nhận dạng, đó, tốn nhận dạng từ khóa u cầu mơ hình hóa tốt cho tập từ vựng khơng phải từ khóa 4.2 Mơ hình hệ thống nhận dạng từ khóa Một hệ thống nhận dạng từ khóa [8],[10], có cấu trúc tương đương hệ thống nhận dạng tiếng nói nói chung (Hình 17) Mơ hình âm học hệ thống nhận dạng từ khóa ý việc mơ hình hóa từ khơng phải từ khóa Mơ hình ngơn ngữ [9]: thơng thường từ khóa cần nhận dạng độc lập mặt ý nghĩa nên mơ hình ngơn ngữ hệ thống nhận dạng từ khóa đơn giản, chủ yếu mô tả kết hợp mô hình từ khóa, mơ hình từ bổ xung (bao gồm từ khơng phải từ khóa) mơ hình khoảng lặng câu Mơ hình ngơn ngữ Trần Thị Anh Xuân 58 Luận văn thạc sỹ khoa học Hình 18 Trần Thị Anh Xuân 59 Luận văn thạc sỹ khoa học Mơ hình âm học Tín hiệu Trích chọn Giải mã Kết tiếng nói đặc trưng (Decoding) nhận dạng Từ điển Mơ hình phiên âm ngơn ngữ Hình 17: Sơ đồ nhận dạng tiếng nói chung Keyword Keyword N Filler Filler N Hình 18: Mơ hình ngơn ngữ sử dụng nhận dạng từ khóa Mỗi đường mũi tên thể khả chuyển mô hình từ khóa từ bổ xung câu với xác xuất Trần Thị Anh Xuân 60 Luận văn thạc sỹ khoa học 4.3 Các phương pháp nhận dạng từ khóa Như nói trên, vấn đề tốn nhận dạng từ khóa chủ yếu xoay quanh việc xây dựng mơ hình cho từ bổ xung Theo tiêu chí kĩ thuật xây dựng mơ hình từ bổ xung, có số phương pháp sau cho tốn nhận dạng từ khóa: 4.3.1 Xây dựng mơ hình dựa kinh nghiệm hiểu biết mặt âm học tiếng nói Phương pháp chủ yếu dựa kinh nghiệm người xây dựng hệ thống mặt âm học ngôn ngữ cần nhận dạng Theo người xây dựng đưa cấu trúc số lượng mơ hình từ bổ xung thích hợp cho hệ thống 4.3.2 Xây dựng mơ hình dựa hệ thống nhận dạng từ điển lớn 4.3.2.1 Xây dựng mơ hình cấp từ Mỗi mơ hình từ bổ xung tương đương với mơ hình từ khơng phải từ khóa từ điển nhận dạng hệ thống nhận dạng từ điển lớn Mơ hình ngơn ngữ hệ thống nhận dạng từ điển lớn thay đổi cho phù hợp với tốn nhận dạng từ khóa Phương pháp có nhược điểm: • Lượng sở liệu luyện phải đủ lớn • Từ điển nhận dạng lớn số mơ hình cần phải xây dựng nhiều • Khối lượng tính tốn thời gian tính tốn lớn 4.3.2.2 Xây dựng mơ hình cấp âm vị Các từ khóa phiên âm tập âm vị, âm vị tương đương với mơ hình Markov ẩn Các từ khơng phải từ khóa phiên âm theo âm vị Khi tất các mơ hình âm vị độc lập ngữ cảnh coi mơ hình từ bổ xung, cịn mơ hình từ khóa mơ hình kết hợp âm vị tương ứng Trần Thị Anh Xuân 61 Luận văn thạc sỹ khoa học Ưu điểm: giảm số lượng mơ hình, khối lượng tính tốn thời gian tính tốn so với phương pháp Nhược điểm: Cơ sở liệu cần thiết để luyện phải đủ lớn 4.3.3 Xây dựng mơ hình cho nhóm từ bổ sung Một phương pháp lượng tử hóa (K-means) sử dụng để phân từ khơng phải từ khóa thành nhóm có đặc trưng âm học tương tự Mỗi nhóm sau mơ hình hóa mơ hình từ bổ xung tương ứng Các từ khóa mơ hình hóa cấp từ cấp âm vị • Mơ hình từ khóa độc lập ngữ cảnh: từ khóa cần nhận dạng mơ hình độc lập với ngữ cảnh • Mơ hình từ khóa phụ thuộc ngữ cảnh: từ khóa mơ hình phụ thuộc vào ngữ cảnh trái phải từ câu 4.4 Ứng dụng thuật toán VTS tốn nhận dạng từ khóa tiếng Việt Đây thử nghiệm thứ luận văn mà tác giả nêu phần Mở đầu 4.4.1 Cơ sở liệu Từ khóa: mười tiếng nói chữ số tiếng việt, từ khơng đến chín a Bộ liệu huấn luyện Gồm liệu thu thập 60 người chủ yếu sinh sống tỷnh phía Bắc, yêu cầu đọc loại văn gồm: • đoạn tin tức lấy báo (dạng văn viết) • câu đối thoại đơn giản thường thấy đời sống hàng ngày (dạng văn nói) • số điện thoại • câu lệnh điều khiển thiết bị nhà Trần Thị Anh Xuân 62 Luận văn thạc sỹ khoa học Dữ liệu thu âm tần số 8kHz, mã hóa 16 bits có dấu, kênh lưu định dạng wav – windows PCM b Bộ liệu nhiễu Được lấy từ sở liệu nhiễu AURORA gồm loại nhiễu khác đặc trưng cho loại môi trường khác lấy từ liệu nhiễu thử nghiệm c Bộ liệu kiểm tra Gồm 700 câu tiếng nói thu thập khoảng người, người nói yêu cầu đọc câu mệnh lệnh ngắn có chứa nhiều từ khóa Dữ liệu lấy mẫu lưa trữ giống liệu luyện nói Bộ liệu kiểm tra cộng mô với liệu nhiễu với tỷ lệ tín hiệu nhiễu 0dB, 5dB, 10dB, 15dB để tạo liệu kiểm tra nhiễu phục vụ cho thử nghiệm đánh giá chất lượng thuật tốn VTS nhận dạng tiếng nói 4.4.2 Xây dựng mơ hình nhận dạng Tác giả tiến hành xây dựng hai hệ thống nhận dạng tiếng nói sau: • Hệ thống nhận dạng tiếng nói khơng áp dụng thuật tốn VTS: HMM • Hệ thống nhận dạng tiếng nói có áp dụng thuật tốn VTS: HMM + VTS 4.4.2.1 Mơ hình hệ thống nhận dạng Giống thử nghiệm 4.4.2.2 Module trích chọn đặc trưng Giống thử nghiệm 4.4.2.3 Mơ hình âm học 10 từ khóa chữ số bao gồm : không, , hai, ba, bốn, năm, sáu, bảy, tám, chín khoảng lặng từ (mơ hình sil) hình hóa mơ hình Markov ẩn trái phải gồm trạng thái, trạng thái mô tả hàm phân bố mix Gauss gồm Gauss Trần Thị Anh Xuân 63 Luận văn thạc sỹ khoa học Các từ từ khóa xuất ngơn ngữ tiếng Việt phiên âm thành đơn vị tiếng nói nhỏ âm vị Sau âm vị lại mơ hình hóa mơ hình Markov ẩn trái phải gồm trạng thái Tổng cộng có 47 âm vị sử dụng 47 mơ hình sử dụng làm mơ hình bổ xung cho hệ thống nhận dạng từ khóa 4.4.3 Chạy thử nghiệm đánh giá kết thuật toán thử nghiệm Thử nghiệm tiến hành với hai hệ thống thử nghiệm Từ kết thử nghiệm 1, nhận thấy thuật toán VTS cải thiện đáng kể chất lượng nhận dạng mơi trường có nhiều nhiễu (SNR thấp) Do đó, tốn nhận dạng từ khóa tiếng Việt, tác giả tiến hành khảo sát với số liệu kiểm tra với SNR =0dB a Kết Bảng kết tỷ lệ lỗi từ hai hệ thống HMM HMM+VTS với số liệu kiểm tra SNR = 0dB: Bảng 11: WER HMM HMM+VTS SNR =0dB, thử nghiệm WER Nhiễu HMM HMM+VTS airport 38.52% 36.97% babble 41.17% 41.00% car 35.06% 34.38% exhibition 42.38% 36.54% restaurant 40.61% 40.17% street 36.68% 36.12% subway 41.03% 36.36% train 36.72% 36.64% Đồ thị biểu diễn WER HMM HMM+VTS tốn nhận dạng từ khóa SNR = 0dB ( Hình 19) Trần Thị Anh Xuân 64 Luận văn thạc sỹ khoa học Hình 19: Đồ thị kết nhận dạng HMM HMM+VTS SNR = 0dB thử nghiệm b Nhận xét Từ kết a, ta nhận thấy với hệ thống nhận dạng từ khóa SNR = dB, hệ thống nhận dạng tiếng nói có sử dụng VTS cải thiện chất lượng nhận dạng hệ thống HMM Điều thể sau: Trung bình hệ thống nhận dạng HMM+VTS làm giảm 1,75% tỷ lệ lỗi từ so với hệ thống HMM Hệ thống HMM+VTS hoạt động tốt mơi trường có nhiễu phòng triển lãm: giảm tỷ lệ lỗi từ khoảng 6%; mơi trường có nhiễu tàu điện ngầm: giảm tỷ lệ lỗi từ khoảng 5% Tuy nhiên, nhận thấy rằng, SNR = 0dB, mức độ cải thiện chất lượng thuật toán HMM+VTS thử nghiệm thấp so với thử nghiệm Có điều do: • Do hệ thống nhận dạng từ khóa mơ hình hóa chưa tốt, đạt tỷ lệ nhận dạng 78%, so với với hệ thống nhận dạng tiếng nói chữ số tiếng Việt đạt 98% tập liệu kiểm tra khơng có nhiễu Trần Thị Anh Xn 65 Luận văn thạc sỹ khoa học KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tác giả nghiên cứu triển khai thành cơng thuật tốn nhận dạng bền vững với nhiễu – Vector Taylor Series, thử nghiệm cho thấy hệ thống nhận dạng tiếng nói có sử dụng phương pháp VTS giảm tỷ lệ lỗi từ, nhờ mà chất lượng nhận dạng tiếng nói nâng cao so với phương pháp nhận dạng với mơ hình huấn luyện Sự cải thiện chất lượng hệ thống nhận dạng tiếng nói kết hợp thuật tốn thích nghi nhiễu VTS thể rõ rệt mơi trường có SNR thấp, tức với mơi trường có nhiễu mạnh thuật tốn phát huy tác dụng Tuy nhiên, chất lượng nhận dạng tốn nhận dạng từ khóa tiếng Việt chưa cải thiện nhiều Một nguyên nhân định tới yếu tố này, hệ thống nhận dạng từ khóa mơ hình hóa chưa tốt Do đó, tham số HMM cập nhật lại khơng xác khơng phù hợp với câu tiếng nói đưa vào nhận dạng, dẫn đến chất lượng nhận dạng tiếng nói khơng cải thiện Vì vậy, hướng phát triển đề tài là: • Xây dựng hệ thống nhận dạng từ khóa có khả hoạt động tốt mơi trường có nhiễu • Tích hợp thuật tốn nhận dạng tiếng nói bền vững với nhiễu VTS vào hệ thống nhận dạng online • Triển khai thuật tốn thiết bị nhúng, robot Trần Thị Anh Xuân 66 Luận văn thạc sỹ khoa học TÀI LIỆU THAM KHẢO Acero, A.,Hon, H.W.,Huang, X., (2001), Spoken language processing,pp 1008 Acero, Deng, L., A., Gong, Y., Yu, D., Li, J., (2007), “High-performance HMM adaptation with joint compensation of additive convolutive distortions via Vector Taylor Series”, In: Proc IEEE ASRU Acero, A., Deng, L., Kritjansson, T., Zhang, J., (2000),HMM adaptation using vector taylor series for noise speech recognition Benesty, J., Huang, Y., Sondhi, M., (2008), Handbook of speech processing, 5.Kim, D., Kim, L., Un, C., (1998),“Speech recognition in noise environtments using first-order Vector Taylor Series” 6.Alwan, A., “Noise Robust Speech Recognition Using Feature Compensation based on polynomial Regression of Utterance SNR” ,IEEE Juang, B., Rabiner, L., (1993).Fundamentals of speech recognition Paul, B., Richard, C.,“A Hidden Markov Model based keyword recognition system” Manos, A., (1996), A Study on Out-of-Vocabulary Word Modelling for a Segment-based keyword spottings system, Brown University 10 Hiroshi, K., Hoichi, T., Hiroyuki, T., “Keyword spotting in noise continuos speech using word pattern vector subabstraction and noise immunity learning” 11 Boll S F (1979), “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,” IEEE_J_ASSP , Vol ASSP-27 , pp 113-120 12 Berouti, M Schwartz, R.,Makhoul, J (1979), “Enhancement of speech corrupted by acoustic noise,” Proc IEEE ICASSP , Vol , pp 208-211 Trần Thị Anh Xuân 67 Luận văn thạc sỹ khoa học 13 Ephraim, Y , Malah, D (1984), “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator,” IEEE_J_ASSP , Vol 32 , pp 1109-1121 14 Jim, K., Gong, Y., “HMM Adaptation and microphone array processing for distant speech recognition” 15 http://www.speech.cs.cmu.edu/sphinx/doc/doxygen/sphinx3/index.html Trần Thị Anh Xuân 68 ... đề tài ? ?Nghiên cứu hệ thống nhận dạng bền vững tiếng nói – Ứng dụng nhận dạng từ khóa tiếng Việt? ?? làm luận văn thạc sỹ Lịch sử nghiên cứu Các phương pháp bền vững tiếng nói nghiên cứu từ khoảng... lượng hệ thống nhận dạng Khi thiết kế hệ thống tự động nhận dạng tiếng nói, yếu tố có tính chất định tính khả thi hệ thống là: Chất lượng nhận dạng tiếng nói Chất lượng hệ thống nhận dạng tiếng nói. .. vào hệ thống nhận dạng tiếng nói, nhờ hệ thống nhận dạng tiếng nói ứng dụng vào môi trường khác mà chất lượng nhận dạng hệ thống cải thiện Một số phương pháp nhận dạng tiếng nói bền vững với nhiễu: