ứng dụng lý thuyết phi tuyến trong xử lý và nhận dạng tiếng việt

Luận văn tốt nghiệp cao học BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM HỮU BIÊN ỨNG DỤNG LÝ THUYẾT PHI TUYẾN TRONG XỬ LÝ VÀ NHẬN DẠNG TIẾNG VIỆT CHUYÊN NGÀNH: KỸ THUẬT ĐIỆN TỬ LUẬN VĂN THẠC SĨ KHOA HỌC KỸ THUẬT ĐIỆN TỬ NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS Nguyễn Tiến Dũng Hà Nội – 2014 i Luận văn tốt nghiệp cao học Lời cam đoan Tôi xin cam đoan luận văn công trình nghiên cứu thực cá nhân tôi, đƣợc thực dƣới hƣớng dẫn khoa học PGS.TS Nguyễn Tiến Dũng Các số liệu, kết nghiên cứu luận văn trung thực Tôi xin chịu trách nhiệm nghiên cứu Học viên Phạm Hữu Biên ii Luận văn tốt nghiệp cao học MỤC LỤC Lời cam đoan ii MỤC LỤC iii Danh mục ký hiệu chữ viết tắt v Danh sách bảng vi Danh sách hình vẽ đồ thị vii MỞ ĐẦU CHƢƠNG 1: NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói nƣớc giới 1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR) 1.3 Mối quan hệ tiếng nói hệ thống động phi tuyến 1.4 Tổng kết CHƢƠNG 2: CƠ SỞ XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH NHẬN DẠNG TIẾNG NÓI 2.1 Cơ sở xử lý tín hiệu số 10 2.1.1 Phép biến đổi tần số liên tục 10 2.1.2 Phép biến đổi tần số rời rạc 13 2.1.3 Các lọc số 15 2.2 Phân tích phổ tách đặc trƣng 17 2.2.1 Giới thiệu phƣơng pháp phân tích phổ 17 2.2.2 Hệ số Cepstral tần số Mel (MFCC) 19 2.2.3 Đặc trƣng lƣợng, đạo hàm bậc đạo hàm bậc 23 2.2.4 Tổng hợp vectơ đặc trƣng 24 2.3 Mô hình thống kê cho nhận dạng mẫu 25 2.3.1 Mô hình Gauss 25 2.3.2 Mô hình Markov ẩn 30 2.4 HMM toán nhận dạng tiếng nói 39 iii Luận văn tốt nghiệp cao học 2.4.1 Xây dựng mô hình Markov ẩn 39 2.4.2 Xây dựng HMM cho nhận dạng số tiếng Việt 39 2.5 Tổng kết 40 CHƢƠNG 3: PHƢƠNG THỨC XỬ LÝ TÍN HIỆU PHI TUYẾN TÍNH VÀ CÁC PHƢƠNG PHÁP TÌM ĐẶC TRƢNG TRONG KHÔNG GIAN PHI TUYẾN TÍNH 41 3.1 Cơ sở lý thuyết định lý Takens 42 3.2 Các đặc trƣng thu đƣợc từ không gian RPS 45 3.2.1 Phân bố tự nhiên 45 3.2.2 Thông tin quỹ đạo 47 3.2.3 Kết hợp vectơ đặc trƣng thu đƣợc từ xử lý phi tuyến vectơ đặc trƣng MFCC 48 3.3 Kỹ thuật mô hình hóa nhận dạng 50 3.3.1 Mô hình hóa đặc trƣng thu đƣợc RPS 50 3.3.2 Mô hình hóa vectơ chung 52 3.3.3 Xây dựng mô hình nhận dạng từ tiếng Việt 53 3.4 Tổng kết 55 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI VÀ ĐÁNH GIÁ KẾT QUẢ 56 4.1 Phần mềm 56 4.2 Dữ liệu 57 4.3 Cài đặt thí nghiệm 58 4.3.1 Lựa chọn tham số 58 4.3.2 Xây dựng thí nghiệm 61 4.4 Một số kết 62 4.5 Đánh giá kết 72 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 76 Tài liệu tham khảo 77 PHỤ LỤC 80 iv Luận văn tốt nghiệp cao học Danh mục ký hiệu chữ viết tắt Ký hiệu Tên tiếng Anh ANN Artificial Neural Network ASR Automatic Speech Recognition DCT Discrete Cosine Transform DFT Discrete Fourier Transform DTW Dynamic Time Warping EM Expectation Maximization FFT Fast Fourier Transform GMM Gaussian Mixture Model HMM Hidden Markov Model HTK Hidden Markov Modeling Toolkit IDFT Inverse Discrete Fourier Transform LPC Linear Predicative Coding MFCC Mel Frequency Cepstral Coefficients PDF Probability Density Function RPS Reconstructed Phase Space TIMIT Texas Instruments & Massachusetts Institute of Technology speech corpus Z Z Transform MGHMM Mixture of Gauss Hidden Markov Model v Luận văn tốt nghiệp cao học Danh sách bảng Bảng 1: Bảng ký hiệu dùng cho phân tích tín hiệu Bảng 2: Bảng ký hiệu dùng để xử lý tín hiệu không gian phi tuyến tính 41 Bảng 3: Bảng ký hiệu dùng cho thí nghiệm 56 Bảng 4: Tên thí nghiệm thực 61 Bảng 5: Kết nhận dạng sử dụng đặc trƣng MFCC 62 Bảng 6: Kết nhận dạng sử dụng đặc trƣng phi tuyến 64 Bảng 7: Kết nhận dạng sử dụng kết hợp đặc trƣng phi tuyến với đặc trƣng MFCC 66 Bảng 8: Kết nhận dạng sử dụng mô hình trọng số 68 Bảng 9: Bảng so sánh kết nhận dạng với đặc trƣng khác 72 Bảng 10: Bảng so sánh kết nhận dạng đặc trƣng 74 vi Luận văn tốt nghiệp cao học Danh sách hình vẽ đồ thị Hình 1: Sơ đồ không gian pha (RPS) tiếng nói từ Hình 2: Đồ thị hàm X (e jw ) 10 Hình 3: Biểu diễn Z theo phần thực phần ảo 11 Hình 4: Biểu diễn Z mặt phẳng phức 12 Hình 5: Thực biến đổi Z vòng tròn đơn vị 12 Hình 6: Sơ đồ khối mô hình tạo tiếng nói 17 Hình 7: Sơ đồ khối mô hình lọc nguồn tạo tiếng nói 17 Hình 8: Đồ thị minh họa đặc trƣng phổ logarithm độ lớn phổ 18 Hình 9: Sơ đồ tính toán đặc trƣng MFCC 19 Hình 10: Đồ thị cửa sổ Hamming 21 Hình 11: Đồ thị minh họa mối quan hệ thang tần số Mel thang tần số Hz 22 Hình 12: Sơ đồ khối minh họa tính toán vectơ đặc trƣng MFCC 25 Hình 13: Hàm mật độ Gauss 25 Hình 14: Mô hình Gauss 26 Hình 15: Hàm mật độ Gauss ba phân phối 27 Hình 16: Mô hình Markov trạng thái 30 Hình 17: Mô hình Markov ẩn trạng thái 31 Hình 18: Chuỗi Q tối ƣu cục 35 Hình 19: Sơ đồ xây dựng HMM 40 Hình 20: Hình vẽ minh họa RPS từ „một‟, „hai‟, „ba‟, „bốn‟ 43 Hình 21: Đồ thị RPS từ “một” với độ trễ khác (τ = 1, τ = 6, τ =24 ) 44 Hình 22: So sánh tâm bán kính quỹ đạo từ ”một” quỹ đạo từ “hai” 45 Hình 23: So sánh tâm bán kính quỹ đạo từ ”một” quỹ đạo “hai” 46 Hình 24: So sánh tâm bán kính quỹ đạo từ ”một” với hai ngƣời nói khác 47 Hình 25: Hình vẽ minh họa phân bố điểm RPS quỹ đạo RPS 47 Hình 26: Mối quan hệ số cho vectơ tổng hợp 50 vii Luận văn tốt nghiệp cao học Hình 27: Minh họa RPS mô hình Gauss với 256 Mixtures 51 Hình 28: Mô hình Markov ẩn left-right ẩn trạng thái 53 Hình 29: Sơ đồ khởi tạo ma trận xác suất phát 54 Hình 30: Sơ đồ thuật toán huấn luyện 54 Hình 31: Thuật toán nhận dạng từ tiếng Việt 54 Hình 32: Chƣơng trình thu nhận âm huấn luyện 57 Hình 33: Sơ đồ thuật toán cắt tự động 58 Hình 34: Đồ thị RPS từ “một” với độ trễ khác 58 Hình 35: Đồ thị minh hoạ RPS dùng mô hình Gauss với 256 Mixtures 60 Hình 36: Đồ thị kết nhận dạng số tiếng Việt với đặc trƣng MFCC 63 Hình 37: Đồ thị kết nhận dạng số tiếng Việt với đặc trƣng thu đƣợc từ RPS 65 Hình 38: Biều đồ thể tỉ lệ nhận dạng xác số tiếng Việt với vectơ đặc trƣng đƣợc kết hợp từ vectơ đặc trƣng phi tuyến vectơ đặc trƣng MFCC 67 Hình 39: Đồ thị kết nhận dạng sử dụng mô hình Markov ẩn trạng thái với vectơ đặc trƣng (dùng mô hình trọng số) 69 Hình 40: Đồ thị kết nhận dạng sử dụng mô hình Markov ẩn 15 trạng thái với vectơ đặc trƣng (dùng mô hình trọng số) 70 Hình 41: Đồ thị kết nhận dạng với mô hình Markov ẩn 70 Hình 42: Giao diện chƣơng trình demo kết 71 Hình 43: Đồ thị kết nhận dạng với mô hình dùng trọng số không dùng trọng số 75 viii Luận văn tốt nghiệp cao học MỞ ĐẦU Ngày nhu cầu trao đổi thông tin ngày nhiều dẫn đến tƣơng tác ngƣời máy tính ngày gia tăng Có nhiều phƣơng thức tiếp cận khác nhƣ thông qua sóng tín hiệu điện não để lệnh cho máy, thông qua tiếng nói, thông qua cử chuyển động Một phƣơng thức giao tiếp với máy tính đƣợc phát triển nhiều thông qua tiếng nói Đã có nhiều công trình nghiên cứu nhận dạng tiếng nói giới có thành công đáng kể nhƣ: hệ thống nhận dạng tiếng nói tiếng Anh Via Voice IBM, Spoken Toolkit CSLU(Central of Spoken Laguage Under-standing), Speech Recognition Microsoft, Hidden Markov Model tookit đại học Cambridge, CMU Sphinx đại học Carnegie Mello,…Ngoài số hệ thống nhận dạng tiếng nói tiếng Pháp, Đức, Trung Quốc,… phát triển Nhận dạng tiếng nói tiếng Việt có số công trình nhƣ Robot hƣớng dẫn làm hƣớng dẫn viên bảo tàng, AILab, Vietvoice, Vspeech… Phần lớn công trình nghiên cứu sử dụng công cụ kỹ thuật phân tích xử lý tín hiệu tuyến tính Gần có công cụ đƣợc phát triển cho việc phân tích xử lý tín hiệu mô hình ứng dụng lý thuyết phi tuyến Tại số nƣớc nhƣ Nhật, Pháp, Anh mô hình đƣợc áp dụng cho nhận dạng tiếng nói có kết tốt Đối với tiếng Việt, phƣơng pháp tiếp cận nghiên cứu dùng lý thuyết phi tuyến nhằm ứng dụng cho nhận dạng tiếng nói chƣa đƣợc nghiên cứu Với mong muốn góp phần tạo nên bƣớc phát triển lĩnh vực nhận dạng tiếng nói nƣớc ta mặt nghiên cứu nhƣ ứng dụng sản phẩm thực tiễn cho đời sống, với định hƣớng thầy giáo PGS.TS Nguyễn Tiến Dũng thầy giáo PGS.TS Hoàng Mạnh Thắng luận văn tập trung vào việc thu nhận tiếng nói tiếng Việt, ứng dụng kết l thuyết phi tuyến tính để tìm đặc trƣng phục vụ cho việc xử l nhận dạng từ tiếng Việt Để hoàn thành đƣợc luận văn em xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Tiến Dũng thầy giáo PGS.TS Hoàng Mạnh Thắng tận tình hƣớng dẫn giúp đỡ em trình thực luận văn Em xin cảm ơn thầy, cô giáo Luận văn tốt nghiệp cao học Viện điện tử - viễn thông, trƣờng Đại học Bách khoa Hà Nội tạo điều kiện cho em hoàn thành luận văn Em xin cảm ơn thành viên SIPLAB bạn sinh viên tạo điều kiện cho em trình thu thập liệu làm luận văn Bố cục luận văn đƣợc tổ chức nhƣ sau: Chƣơng 1: Nghiên cứu tổng quan Chƣơng giới thiệu tổng quan tình hình nghiên cứu nhận dạng tiếng nói nƣớc nƣớc giới, lịch sử phát triển nghiên cứu nhận dạng tiếng nói, giới thiệu số kết nhận dạng tiếng nói sử dụng lý thuyết phi tuyến giới hạn phạm vi nghiên cứu luận văn Chƣơng 2: Cơ sở xử lý tiếng nói mô hình nhận dạng tiếng nói Chƣơng giới thiệu mô hình tuyến tính sử dụng cho phân tích tìm đặc trƣng từ tiếng Việt cần nhận dạng, giới thiệu mô hình thống kê nhận dạng mẫu, xây dựng mô hình nhận dạng từ tiếng Việt sử dụng mô hình Markov ẩn Chƣơng 3: Phƣơng thức xử lý tín hiệu phi tuyến tính phƣơng pháp tìm vectơ đặc trƣng không gian phi tuyến tính Chƣơng giới thiệu kết lý thuyết phi tuyến tính Takens, trình bày phƣơng pháp tách đặc trƣng không gian phi tuyến tính, xây dựng mô hình Markov ẩn cho nhận dạng từ tiếng Việt với đặc trƣng phi tuyến, trình bày phƣơng pháp kết hợp đặc trƣng đƣợc tách từ không gian phi tuyến đặc trƣng đƣợc tách từ phƣơng thức xử lý tuyến tính thông thƣờng Xây dựng mô hình Markov ẩn cho vectơ đặc trƣng chung tìm đƣợc Chƣơng 4: Cài đặt chƣơng trình nhận dạng tiếng nói đánh giá kết Chƣơng trình bày kết nhận dạng tiếng nói với đặc trƣng tìm đƣợc không gian phi tuyến đặc trƣng tìm đƣợc không gian phi tuyến kết hợp với đặc trƣng MFCC, đồng thời đánh giá kết nhận dạng tiếng nói đạt đƣợc Phần cuối luận văn kết luận hƣớng phát triển đề tài trình bày vấn đề luận văn làm đƣợc vấn đề cần phát triển sau luận văn Sau chi tiết chƣơng: Luận văn tốt nghiệp cao học Hình 40: Đồ thị kết nhận dạng sử dụng mô hình Markov ẩn 15 trạng thái với vectơ đặc trƣng (dùng mô hình trọng số) Hình 41: Đồ thị kết nhận dạng với mô hình Markov ẩn 70 Luận văn tốt nghiệp cao học Ngoài quan sát Hình 41 thấy rõ đƣờng màu tím (số trạng thái mô hình Markov ẩn số lần lặp (n = 5)) đƣờng màu đỏ (số trạng thái mô hình Markov ẩn 15 số lần lặp (n = 5)) nằm cao so với đƣờng màu xanh (số trạng thái mô hình Markov ẩn 15 số lần lặp (n = 3)) đƣờng màu xanh da trời (số trạng thái mô hình Markov ẩn số lần lặp (n = 3)) Nghĩa tỉ lệ nhận dạng xác trƣờng hợp số lần huấn luyện lặp (n = 5) cao so với độ xác trƣờng hợp số lần huấn luyện lặp (n = 3) (mặc dù số trạng thái khác nhau) Từ cho thấy vai trò quan trọng thực huấn luyện tìm tham số cho mô hình Markov, phải chạy số lần lặp cho kiểm tra lại tỉ lệ nhận dạng xác trƣờng hợp thuật toán bắt đầu hội tụ trƣờng hợp lặp sau thuật toán hội tụ phải giống 4.4.3 Phần mềm Demo nhận dạng tiếng Việt Hình 42 dƣới giao diện chƣơng trình nhận dạng số tiếng Việt đƣợc xây dựng phần mềm Matlab Hình 42: Giao diện chƣơng trình demo kết Chƣơng trình Demo có cửa sổ chính: - Cửa sổ preview cho phép thu thập liệu thời gian thực - Một cửa sổ hiển thị liệu thu đƣợc liệu đƣợc tải lên từ máy tính để nhận dạng 71 Luận văn tốt nghiệp cao học - Một cửa sổ hiển thị kết nhận dạng đƣợc Ngoài chƣơng trình số nút bấm cho phép tùy chỉnh thời gian ghi liệu 4.5 Đánh giá kết Từ Bảng 5, 6, ta có Bảng tổng kết HMM có số trạng thái 15 nhƣ sau: Tỉ lệ nhận dạng từ xác với mô hình Markov ẩn 15 trạng thái Đặc trƣng Đặc trƣng phi tuyến Kết hợp hai đặc trƣng Đặc trƣng MFCC số lần lặp số lần lặp số lần lặp số lần lặp số lần lặp số lần lặp (n=1) (n=2) (n=3) (n=4) (n=5) (n=6) 11.111% 28.419% 47.650% 55.235% 57.585% 64.637% 11.111% 95.085% 97.650% 97.756% 97.650% 98.077% 11.111% 94.979% 97.543% 98.077% 98.291% 98.077% Bảng 9: Bảng so sánh kết nhận dạng với đặc trƣng khác  Đánh giá kết nhận dạng với đặc trƣng phi tuyến tìm đƣợc Theo kết thực nhận dạng Bảng với đặc trƣng thu đƣợc từ không gian phi tuyến tính dùng làm kết phân loại nhận dạng đƣợc Đây tập đặc trƣng với số lƣợng phần tử (có 10 phần tử) nhƣng tỉ lệ phân loại lên tới 64,67 % Nhƣ đặc trƣng tìm đƣợc dùng để phân loại  So sánh đánh giá kết đặc trƣng phi tuyến tìm đƣợc với đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến So sánh kết tỉ lệ nhận dạng Bảng 6, Bảng Bảng ta thấy: Với đặc trƣng phi tuyến tính tìm đƣợc tỉ lệ nhận dạng cao 64,67% (theo số liệu Bảng 6), đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến tỉ lệ nhận dạng cao 98.291% (theo số liệu Bảng 5, 7) Nhƣ đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến cho kết nhận dạng cao so với đặc trƣng phi tuyến 72 Luận văn tốt nghiệp cao học  Đánh giá kết đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến Từ số liệu bảng bảng ta thấy: Với số lần lặp (n = 2) số trạng thái thấp (HMM có số trạng thái thay đổi từ đến 7) rõ ràng kết nhận dạng thu đƣợc phƣơng pháp kết hợp vectơ đặc trƣng xác phƣơng pháp sử dụng riêng biệt vectơ đặc trƣng MFCC Cụ thể với số lần lặp (n = 2), HMM có số trạng thái phƣơng pháp sử dụng vectơ đặc trƣng MFCC cho kết 93.590% , phƣơng pháp kết hợp hai vectơ đặc trƣng cho kết 94.230% Tuy nhiên, với số lần lặp n > kết phƣơng pháp xấp xỉ Cụ thể nhƣ với số lần lặp (n = 3), HMM số trang thái phƣơng pháp sử dụng vectơ đặc trƣng MFCC cho kết 95.406%, phƣơng pháp kết hợp hai vectơ đặc trƣng cho kết thấp chút (95.190%); Với số lần lặp lại (n = 5), HMM có số trạng thái 6, vectơ đặc trƣng MFCC cho kết nhận dạng 95,726%, vectơ đặc trƣng kết hợp lại cho kết 96.580% Với số lần lặp (n = 6), HMM có số trạng thái 15 phƣơng pháp cho kết 98,077% (theo số liệu Bảng 9) Do vậy, ta chƣa thể đánh giá xác xem phƣơng pháp ƣu việt Nhƣ vậy, phƣơng pháp: sử dụng riêng biệt vectơ MFCC, sử dụng vectơ đặc trƣng phi tuyến phƣơng pháp kết hợp hai vectơ đặc trƣng, phƣơng pháp sử dụng vectơ MFCC phƣơng pháp kết hợp hai vectơ đặc trƣng cho kết nhận dạng tốt hẳn Nhƣng vấn đề đặt phƣơng pháp dùng vectơ riêng biệt MFCC phƣơng pháp kết hợp hai vectơ đặc trƣng, chƣa thể đánh giá xem phƣơng pháp hiệu hơn, câu hỏi đặt liệu có phƣơng pháp tốt phƣơng pháp không? Một phƣơng pháp đƣợc đƣa phƣơng pháp trọng số:  Đánh giá kết sử dụng mô hình trọng số kết hợp hai vectơ đặc trƣng Kết hợp Bảng 9, Bảng Bảng ta có bảng so sánh kết nhận dạng số tiếng Việt vectơ đặc trƣng nhƣ sau: 73 Luận văn tốt nghiệp cao học Trọng số Mô hình trọng số Ghép hai vectơ đặc trƣng Đặc trƣng MFCC ρ = 0% 98.397% 98.077% 97.970% ρ =5% 98.080% 98.077% 97.970% ρ =10% 97.760% 98.077% 97.970% ρ =15% 97.970% 98.077% 97.970% ρ =20% 97.860% 98.077% 97.970% ρ =25% 97.860% 98.077% 97.970% ρ =30% 97.970% 98.077% 97.970% ρ =35% 97.330% 98.077% 97.970% ρ =40% 96.900% 98.077% 97.970% ρ =45% 96.690% 98.077% 97.970% ρ =50% 96.800% 98.077% 97.970% ρ =55% 95.620% 98.077% 97.970% ρ =60% 95.300% 98.077% 97.970% ρ =65% 95.410% 98.077% 97.970% ρ =70% 96.150% 98.077% 97.970% ρ =75% 96.470% 98.077% 97.970% ρ =80% 95.830% 98.077% 97.970% ρ =85% 96.260% 98.077% 97.970% ρ =90% 95.510% 98.077% 97.970% ρ =95% 93.160% 98.077% 97.970% ρ =100% 93.160% 98.077% 97.970% Bảng 10: Bảng so sánh kết nhận dạng đặc trƣng Từ Bảng 10 ta có đánh giá nhƣ sau: - Khi sử dụng phƣơng pháp: trọng số, kết hợp, MFCC kết nhận dạng cao ta thu đƣợc dùng phƣơng pháp trọng số trọng số 0% (kết nhận dạng 98,397%) Tuy nhiên, trọng số tăng dần lên tới 100% kết nhận dạng 74 Luận văn tốt nghiệp cao học sử dụng mô hình trọng số lại ƣu việt so với kết nhận dạng sử dụng phƣơng pháp kết hợp hay phƣơng pháp MFCC - Khi kết hợp hai vectơ đặc trƣng theo mô hình trọng số ρ = 0% ρ = 5% có kết nhận dạng số tiếng Việt xác so với sử dụng MFCC kết hợp hai vectơ đặc trƣng không dùng mô hình trọng số L đặc trƣng thu đƣợc không gian tuyến tính có vai trò mạnh trình nhận dạng Vì ghép hai vec tơ đặc trƣng lại lại với vai trò hai vectơ nhận dạng nhƣ dẫn đến kết nhận nhận dạng xác Hình 44 dƣới minh họa lại kết Bảng 10 Hình 43: Đồ thị kết nhận dạng với mô hình dùng trọng số không dùng trọng số Nhƣ với kết từ chƣơng chứng minh không gian phi tuyến hoàn toàn tìm đặc trƣng để nâng cao tỉ lệ nhận dạng xác hệ thống nhận dạng tiếng nói tiếng Việt tự động 75 Luận văn tốt nghiệp cao học KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN  Kết luận Qua trình nghiên cứu ứng dụng lý thuyết phi tuyến cho nhận dạng tiếng Việt, luận văn làm đƣợc số công việc sau: - Nghiên cứu tiếng nói, phƣơng pháp xử lý tiếng nói, rút trích đặc trƣng - Nghiên cứu thực huấn luyện mô hình âm học theo từ áp dụng cho tiếng Việt - Tìm đƣợc đặc trƣng cho nhận dạng tiếng nói tiếng Việt mô hình lý thuyết phi tuyến - Xây dựng đƣợc chƣơng trình demo nhận dạng tiếng Việt Do chƣa có nhiều kiến thức xử lý tín hiệu số phi tuyến xử lý tiếng nói nên luận văn không tránh khỏi nhiều thiếu sót Tuy nhiên, với số kết đạt đƣợc hy vọng luận văn góp phần nhỏ vào việc nghiên cứu nhận dạng tiếng nói tiếng Việt  Hƣớng phát triển Do việc thu âm xử lý liệu chƣa đƣợc phong phú nên kết chƣa đƣợc tốt Vì khắc phục cách thu nhiều mẫu huy động thêm ngƣời tình nguyện để thu âm Có thể xem xét tận dụng nguồn âm tiếng nói radio, internet để làm phong phú thêm liệu huấn luyện Ngoài cần phát triển thêm phần sau: - Dựa không gian phi tuyến tính để tìm đặc trƣng ảnh hƣởng đến điệu để cải thiện việc nhận dạng điệu - Cải tiến phƣơng pháp tách từ câu để có kết nhận dạng tốt - Tìm hiểu thêm mô hình ngôn ngữ thuật toán tìm kiếm nhận dạng tiếng nói để tăng tốc độ nhận dạng - Xây dựng mô hình Markov cho nhận dạng từ vựng với số lƣợng lớn sử dụng đặc trƣng phi tuyến Điều đƣợc chứng minh với kết hình dạng quỹ đạo nguyên âm bảng chữ đƣợc thể phụ lục 76 Luận văn tốt nghiệp cao học Tài liệu tham khảo [1] A C Lindgren, M T Johnson, and R J Povinelli, "Speech recognition using phase space features," presented at IEEE International Conference on Acoustics, Speech, and Signal Processing, Hong Kong, China, 2003 [2] A Kumar and S K Mullick, "Nonlinear dynamical analysis of speech," Journal of the Acoustical Society of America, vol 100, pp 615-629, 1996 [3] A Papoulis and A U Pillai, Probability, Random Variables, and Stochastic Processes, Fourth ed Boston: McGraw Hill, 2002 [4] A Petry, D Augusto, and C Barone, "Speaker Identification using nonlinear dynamical features," Chaos, Solitons, and Fractals, vol 13, pp 221-231, 2002 [5] B Gold and N Morgan, Speech and Audio Signal Processing New York: John Wiley & Sons Inc., 2000 [6] B.Gold and N.Morgan, Speech and Audio Signal Processing New York: John Wiley & Sons Inc., 2000 [7] C Becchetti and L P Ricotti, Speech Recognition Chichester: John Wiley & Sons, Inc., 1999 [8] C Grebogi, E Ott, and J A Yorke, "Unstable periodic orbits and the dimensions of multifractal chaotic attractors," Physical Review A, vol 37, pp 1711-24, 1988 [9] D M Tumey, P E Morton, D F Ingle, C W Downey, and J H Schnurer, "Neural network classification of EEG using chaotic preprocessing and phase space reconstruction," presented at IEEE Seventh Annual Northeast Bioengineering Conference, 1991 [10] D M Tumey, P E Morton, D F Ingle, C W Downey, and J H Schnurer, "Neural network classification of EEG using chaotic preprocessing and phase space reconstruction," presented at IEEE Seventh Annual Northeast Bioengineering Conference, 1991 [11] F M Roberts, R J Povinelli, and K M Ropella, "Identification of ECG arrhythmias using phase space reconstruction," presented at Principles and Practice of Knowledge Discovery in Databases (PKDD'01), Freiburg, Germany, 2001 [12] F Takens, "Dynamical systems and turbulence," in Lecture Notes in Mathematics, vol 898, D A Rand and L S Young, Eds Berlin: Springer, 1981 77 Luận văn tốt nghiệp cao học [13] H D I Abarbanel, Analysis of Observed Chaotic Data, softcover ed New York: Springer-Verlag, 1996 [14] H D I Abarbanel, Analysis of Observed Chaotic Data, softcovered New York: Springer-Verlag, 1996 [15] H Kantz and T Schreiber, Nonlinear Time Series Analysis, vol 7, Paperbacked Cambridge: Cambridge University Press, 1997 [16] H Packard, J P Crutchfield, J D Farmer, and R S Shaw, "Geometry from a time series," Physical Review Letters, vol 45, pp 712-716, 1980 [17] H Whitney, "Differentiable manifolds," The Annals of Mathematics, 2nd Series, vol 37, pp 645-680, 1936 [18] http://forum.bkav.com.vn/showthread.php/30357-vspeech-dieu-khien-may-tinh bang-giong-noi [19] http://www.baomoi.com/Viet-Voice ung-dung-tim-kiem-bang-giong-noi-co-ho-troTieng-Viet-danh-cho-Windows-Phone-8/76/11581801.epi [20] http://www.tinhte.vn/threads/isago-siri-nhan-dang-tieng-viet.970694/ [21] J R Deller, J H L Hansen, and J G Proakis, Discrete-Time Processing of Speech Signals, vol IEEE Press, Second ed New York, 2000 [22] L I Eguiluz, M Manana, and J C Lavandero, "Disturbance classification based on the geometrical properties of signal phase space representation," presented at International Conference on Power System Technology, 2000 [23] M A Jackson and I S Burnett, "Phase-space portraits of speech employing mutual information and perceptual masking," presented at IEEE Workshop on Speech Coding: Models, Coders, and Error Criteria, 1999 [24] M Banbrook, S McLaughlin, and I Mann, "Speech characterization and synthesis by nonlinear methods," IEEE Transactions on Speech and Audio Processing, vol 7, pp 117, 1999 [25] M T Johnson, A C Lindgren, R J Povinelli, and X Yuan, "Performance of nonlinear speech enhancement using phase space reconstruction," presented at IEEE International Conference on Acoustics, Speech, and Signal Processing, Hong Kong, China, 2003 78 Luận văn tốt nghiệp cao học [26] Merkwirth, U Parlitz, I Wedekind, and W Lauterborn, "TS Tools," http://www.physik3.gwdg.de/tstool/index.html, 2001 [27] N Tishby, "A dynamical systems approach to speech processing," presented at IEEE International Conference on Acoustics, Speech, and Signal Processing, Albuquerque, New Mexico, 1990 [28] P Blanchard, R L Devaney, and G R Hall, Differential Equations Pacific Grove: Brooks/Cole Publishing Company, 1998 [29] R Hegger, H Kantz, and L Matassini, "Denoising human speech signals using chaoslike features," Physical Review Letters, vol 84, pp 3197-3200, 2000 [30] R J Povinelli, J F Bangura, N A O Demerdash, and R H Brown, "Diagnostics of bar and end-ring connector breakage faults in polyphase induction motors through a novel dual track of time-series data mining and time-stepping coupled FE-state space modeling," IEEE Transactions on Energy Conversion, vol 17, pp 39-46, 200 [31] S S Narayanan and A A Alwan, "A nonlinear dynamical systems analysis of fricative consonants," Journal of the Acoustical Society of America, vol 97, pp 25112524, 1995 [32] S Young, G Evermann, D Kershaw, G Moore, J Odell, D Ollason, V Valtchev, and P Woodland, The HTK Book: Microsoft Corporation, 2001 [33] T Sauer, J A Yorke, and M Casdagli, "Embedology," Journal of Statistical Physics, vol 65, pp 579-616, 1991 [34] T Sauer, J A Yorke, and M Casdagli, "Embedology," Journal of Statistical Physics, vol 65, pp 579-616, 1991 [35] V Pitsikalis and P Maragos, "Speech analysis and feature extraction using chaotic models," presented at EEE International Conference on Acoustics, Speech, and Signal Processing, Orlando, Florida, 2002 [36] W V d Water and J D Weger, "Failure of chaos control," Physical Review E, vol 62, pp 6398-408, 2000 [37] Y C Lai, Y Nagai, and C Grebogi, "Characterization of natural measure by unstable periodic orbits in chaotic attractors," Physical Review Letters, vol 79, pp 64952, 1997 [38] vnexpress.net/tin-tuc/khoa-hoc/robot-lam-huong-dan-vien-bao-tang-2246991.html 79 Luận văn tốt nghiệp cao học [39] PGS.TS Nguyễn Quốc Trung “Xử lý tín hiệu lọc số” Nhà xuất khoa học kĩ thuật hà nội PHỤ LỤC Quỹ đạo không gian RPS (τ= 6) Quỹ đạo không gian RPS (τ= 24) 80 Luận văn tốt nghiệp cao học Quỹ đạo không gian RPS chữ (τ= 6) 81 Luận văn tốt nghiệp cao học Đồ thị RPS với d =5 minh mô hình Gauss ( số Mixtures = 256) Đồ thị RPS với d =10 minh mô hình Gauss ( số Mixtures = 256) 82 Luận văn tốt nghiệp cao học Một số hàm phân tích, xử lý tín hiệu luận văn Hàm tạo RPS function phaseSpace = embed_nonlinear(timeSeries, lags,dimension) N= length(timeSeries);%Xac dinh tong so diem cua tin hieu goc lags = [0 lags];%dat tre cho phan tu dau tien maxlag= max(lags); Q = dimension; % Kich thuoc pointsInPhaseSpace = N- (Q-1)*maxlag; % Xay dung cau truc khong gian pha for i = 1:Q lag = (Q-i)*maxlag; phaseSpace(i,(1:pointsInPhaseSpace))= timeSeries(1+lag:pointsInPhaseSpace+lag); end Hàm tìm đặc trƣng phi tuyến function y = feature_nonlinear1(timeSeries,lags,dimension) % tao khong gian phaseSpace phaseSpace = embed_nonlinear(timeSeries, lags,dimension); % thuc hien chuan hoa phaseSpace_normal = normalize_nonlinear(phaseSpace'); % lay tin hieu x = phaseSpace_normal(1,:); % tinh delta window = ones(1,2*2+1); out_seq=delta_for_nonlinear(x,window); y = [x out_seq]; 83 Luận văn tốt nghiệp cao học Hàm tìm tâm (CenterofMass) % Input: la mot ma tran X : duoc xay dung bang tre % output: la vecto trung binh cua cac cot ma tran X %% function y = find_center_nonlinear(x) [row col] = size(x); y = zeros(1,col); for i= 1:1:col y(i) = sum(x(:,i)); end y = y./row; Hàm tìm bán kính quỹ đạo % Input: X la ma tran lech so voi gia tri trung binh % Ouput: y vec to lech chuan( ban kinh) %% function y = fstandard_deviation_nonlinear(x) y = sqrt(sum(sum((x.^2)'))./length(x(:,1))); 84 [...]... hình nghiên cứu nhận dạng tiếng nói ở trong nƣớc và các nƣớc trên thế giới, lịch sử phát triển của nghiên cứu nhận dạng tiếng nói, giới thiệu một số kết quả nhận dạng tiếng nói sử dụng lý thuyết phi tuyến và giới hạn phạm vi nghiên cứu của luận văn 1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói trong nƣớc và trên thế giới Vấn đề nghiên cứu các phƣơng pháp nhận dạng tiếng nói đã và đang thu hút... mở Microsoft Speech SDK nhận dạng tiếng Anh thông qua phƣơng thức huấn luyện dữ liệu tiếng Việt và phƣơng thức chuyển đổi trung gian giữa tiếng Việt và tiếng Anh, việc nhận dạng từ tiếng Việt đƣợc thực hiện trong Vspeech để nhận biết tiếng nói tiếng Việt 1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR) Hệ thống nhận dạng tiếng nói đầu tiên đƣợc xây dựng tại Bell Labs vào trƣớc năm 1950 [6] Nhiệm... từ cần nhận dạng Mặc dù vậy kỹ thuật xử lý tín hiệu phi tuyến ít đƣợc quan tâm và chúng không đƣợc sử dụng rộng rãi nhƣ kỹ thuật xử lý tín hiệu tuyến tính Để làm sáng tỏ khả năng phân tích của mô hình xử lý tín hiệu phi tuyến, khám phá các đặc trƣng thu đƣợc từ RPS và mở rộng sự hiểu biết về những phƣơng thức xử lý tín hiệu phi tuyến này Luận văn thực hiện nhiệm vụ là nhận dạng các số tiếng Việt phát... điểm hấp dẫn trong RPS [1, 11] Luận văn này tập trung vào phƣơng pháp đánh giá phân bố tự nhiên của các điểm hấp dẫn trong RPS một cách tự động thông qua mô hình Gauss và sử dụng chúng làm đặc trƣng nhận dạng và phân loại từ tiếng Việt 1.4 Tổng kết Nhƣ vậy kỹ thuật xử lý tín hiệu phi tuyến có thể áp dụng cho nhận dạng tiếng nói Bởi vì chúng có khả năng khôi phục lại hệ thống động phi tuyến và không gian... là có thể áp dụng các kỹ thuật xử lý tín hiệu phi tuyến cho nhận dạng tiếng nói từ con ngƣời [1, 2, 4, 6, 8, 9, 10, 11, 14, 15, 22, 24, 25, 30] 1.3 Mối quan hệ giữa tiếng nói và hệ thống động phi tuyến Trong hệ thống động phi tuyến nói chung, các ứng dụng đƣợc xây dựng dựa trên các kết quả thí nghiệm về sự biến thiên chuỗi dữ liệu trạng thái theo thời gian của Takens, Sauer và Yorke Lý thuyết Takens... nhận dạng các số rời rạc đƣợc phát ra từ một ngƣời nói Hệ thống sử dụng kỹ thuật xử lý tín hiệu tƣơng tự và thực hiện nhận dạng bằng cách phát hiện ra các đỉnh tần số cộng hƣởng (gọi là các formants) Mặc dù hệ thống vẫn còn thô sơ nhƣng đã nhận dạng chính xác đến 98%, kết quả này đã chứng tỏ rằng máy móc có thể nhận dạng tiếng nói của con ngƣời [6] Vào các năm từ 1960 đến 1970 các nghiên cứu nhận dạng. .. phát ra từ tiếng nói của con ngƣời Nguyên nhân là do nhận dạng các từ tiếng Việt với số lƣợng nhỏ cho phép tập trung sâu vào hiệu suất của các đặc trƣng Chƣơng tiếp theo sẽ làm sáng tỏ về mặt kiến thức cũng nhƣ mô hình phân tích đặc trƣng và phân loại các từ tiếng Việt 8 Luận văn tốt nghiệp cao học CHƢƠNG 2: CƠ SỞ XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH NHẬN DẠNG TIẾNG NÓI Chƣơng này giới thiệu mô hình tuyến tính... (HTK) Nổi tiếng nhất là IBM Via Voice và Dragon System Naturally speaking Từ năm 2000 đến nay các nhà nghiên cứu tập trung vào áp dụng mô hình xử lý tín hiệu phi tuyến để tìm ra các đặc trƣng mới cho hệ thống nhận dạng tiếng nói, xây dựng mô hình mới để nâng cao độ chính xác của hệ thống nhận dạng tiếng nói Khởi đầu cho thời kì này là các nghiên cứu của Banbrook [24], Narayanan [31] và Kumar [2] Và hiện... tiếng nói (tiếng Việt) theo ngôn ngữ chuẩn miền Bắc nói với tốc độ trung bình thì tỷ lệ nhận dạng chính xác 90% trong môi trƣờng ít nhiễu AILab: Đây là công trình đƣợc phòng thí nghiệm Trí tuệ Nhân tạo – AILab thuộc Đại học Khoa học Tự nhiên tạo ra dựa trên các công nghệ tiên tiến nhất về nhận dạng và tổng hợp tiếng nói để đáp ứng nhu cầu của ngƣời dùng Dựa trên công nghệ xử lý tiếng nói tiếng Việt, AILab... Cepstral coeffcients) và phƣơng thức nhận dạng HMM Cũng trong giai đoạn này các nhóm nghiên cứu và các tổ chức đã xây dựng đƣợc hệ thống cơ sở dữ liệu và các phần mềm nhận dạng tiếng nói dùng chung cho các bài thí nghiệm để so sánh, đánh giá kết quả nghiên cứu của các nhà khoa học Cơ sở dữ liệu tiếng nói chuẩn đƣợc biên dịch và công bố nhƣ là TIMIT Những công cụ phần mềm nhận dạng tiếng nói với mã nguồn

Định dạng
Số trang	92
Dung lượng	2,92 MB