Ứng dụng lý thuyết phi tuyến trong xử lý và nhận dạng tiếng việt

Luận văn tốt nghiệp cao học BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM HỮU BIÊN ỨNG DỤNG LÝ THUYẾT PHI TUYẾN TRONG XỬ LÝ VÀ NHẬN DẠNG TIẾNG VIỆT CHUYÊN NGÀNH: KỸ THUẬT ĐIỆN TỬ LUẬN VĂN THẠC SĨ KHOA HỌC KỸ THUẬT ĐIỆN TỬ NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS Nguyễn Tiến Dũng Hà Nội – 2014 i Luận văn tốt nghiệp cao học Lời cam đoan Tôi xin cam đoan luận văn cơng trình nghiên cứu thực cá nhân tôi, đƣợc thực dƣới hƣớng dẫn khoa học PGS.TS Nguyễn Tiến Dũng Các số liệu, kết nghiên cứu luận văn trung thực Tôi xin chịu trách nhiệm nghiên cứu Học viên Phạm Hữu Biên ii Luận văn tốt nghiệp cao học MỤC LỤC Lời cam đoan ii MỤC LỤC iii Danh mục ký hiệu chữ viết tắt v Danh sách bảng vi Danh sách hình vẽ đồ thị vii MỞ ĐẦU CHƢƠNG 1: NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói nƣớc giới 1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR) 1.3 Mối quan hệ tiếng nói hệ thống động phi tuyến 1.4 Tổng kết CHƢƠNG 2: CƠ SỞ XỬ LÝ TIẾNG NĨI VÀ CÁC MƠ HÌNH NHẬN DẠNG TIẾNG NÓI 2.1 Cơ sở xử lý tín hiệu số 10 2.1.1 Phép biến đổi tần số liên tục 10 2.1.2 Phép biến đổi tần số rời rạc 13 2.1.3 Các lọc số 15 2.2 Phân tích phổ tách đặc trƣng 17 2.2.1 Giới thiệu phƣơng pháp phân tích phổ 17 2.2.2 Hệ số Cepstral tần số Mel (MFCC) 19 2.2.3 Đặc trƣng lƣợng, đạo hàm bậc đạo hàm bậc 23 2.2.4 Tổng hợp vectơ đặc trƣng 24 2.3 Mơ hình thống kê cho nhận dạng mẫu 25 2.3.1 Mơ hình Gauss 25 2.3.2 Mơ hình Markov ẩn 30 2.4 HMM tốn nhận dạng tiếng nói 39 iii Luận văn tốt nghiệp cao học 2.4.1 Xây dựng mơ hình Markov ẩn 39 2.4.2 Xây dựng HMM cho nhận dạng số tiếng Việt 39 2.5 Tổng kết 40 CHƢƠNG 3: PHƢƠNG THỨC XỬ LÝ TÍN HIỆU PHI TUYẾN TÍNH VÀ CÁC PHƢƠNG PHÁP TÌM ĐẶC TRƢNG TRONG KHƠNG GIAN PHI TUYẾN TÍNH 41 3.1 Cơ sở lý thuyết định lý Takens 42 3.2 Các đặc trƣng thu đƣợc từ không gian RPS 45 3.2.1 Phân bố tự nhiên 45 3.2.2 Thông tin quỹ đạo 47 3.2.3 Kết hợp vectơ đặc trƣng thu đƣợc từ xử lý phi tuyến vectơ đặc trƣng MFCC 48 3.3 Kỹ thuật mơ hình hóa nhận dạng 50 3.3.1 Mơ hình hóa đặc trƣng thu đƣợc RPS 50 3.3.2 Mơ hình hóa vectơ chung 52 3.3.3 Xây dựng mơ hình nhận dạng từ tiếng Việt 53 3.4 Tổng kết 55 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH NHẬN DẠNG TIẾNG NĨI VÀ ĐÁNH GIÁ KẾT QUẢ 56 4.1 Phần mềm 56 4.2 Dữ liệu 57 4.3 Cài đặt thí nghiệm 58 4.3.1 Lựa chọn tham số 58 4.3.2 Xây dựng thí nghiệm 61 4.4 Một số kết 62 4.5 Đánh giá kết 72 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 76 Tài liệu tham khảo 77 PHỤ LỤC 80 iv Luận văn tốt nghiệp cao học Danh mục ký hiệu chữ viết tắt Ký hiệu Tên tiếng Anh ANN Artificial Neural Network ASR Automatic Speech Recognition DCT Discrete Cosine Transform DFT Discrete Fourier Transform DTW Dynamic Time Warping EM Expectation Maximization FFT Fast Fourier Transform GMM Gaussian Mixture Model HMM Hidden Markov Model HTK Hidden Markov Modeling Toolkit IDFT Inverse Discrete Fourier Transform LPC Linear Predicative Coding MFCC Mel Frequency Cepstral Coefficients PDF Probability Density Function RPS Reconstructed Phase Space TIMIT Texas Instruments & Massachusetts Institute of Technology speech corpus Z Z Transform MGHMM Mixture of Gauss Hidden Markov Model v Luận văn tốt nghiệp cao học Danh sách bảng Bảng 1: Bảng ký hiệu dùng cho phân tích tín hiệu Bảng 2: Bảng ký hiệu dùng để xử lý tín hiệu khơng gian phi tuyến tính 41 Bảng 3: Bảng ký hiệu dùng cho thí nghiệm 56 Bảng 4: Tên thí nghiệm thực 61 Bảng 5: Kết nhận dạng sử dụng đặc trƣng MFCC 62 Bảng 6: Kết nhận dạng sử dụng đặc trƣng phi tuyến 64 Bảng 7: Kết nhận dạng sử dụng kết hợp đặc trƣng phi tuyến với đặc trƣng MFCC 66 Bảng 8: Kết nhận dạng sử dụng mô hình trọng số 68 Bảng 9: Bảng so sánh kết nhận dạng với đặc trƣng khác 72 Bảng 10: Bảng so sánh kết nhận dạng đặc trƣng 74 vi Luận văn tốt nghiệp cao học Danh sách hình vẽ đồ thị Hình 1: Sơ đồ khơng gian pha (RPS) tiếng nói từ Hình 2: Đồ thị hàm X (e jw ) 10 Hình 3: Biểu diễn Z theo phần thực phần ảo 11 Hình 4: Biểu diễn Z mặt phẳng phức 12 Hình 5: Thực biến đổi Z vòng tròn đơn vị 12 Hình 6: Sơ đồ khối mơ hình tạo tiếng nói 17 Hình 7: Sơ đồ khối mơ hình lọc nguồn tạo tiếng nói 17 Hình 8: Đồ thị minh họa đặc trƣng phổ logarithm độ lớn phổ 18 Hình 9: Sơ đồ tính toán đặc trƣng MFCC 19 Hình 10: Đồ thị cửa sổ Hamming 21 Hình 11: Đồ thị minh họa mối quan hệ thang tần số Mel thang tần số Hz 22 Hình 12: Sơ đồ khối minh họa tính tốn vectơ đặc trƣng MFCC 25 Hình 13: Hàm mật độ Gauss 25 Hình 14: Mơ hình Gauss 26 Hình 15: Hàm mật độ Gauss ba phân phối 27 Hình 16: Mơ hình Markov trạng thái 30 Hình 17: Mơ hình Markov ẩn trạng thái 31 Hình 18: Chuỗi Q tối ƣu cục 35 Hình 19: Sơ đồ xây dựng HMM 40 Hình 20: Hình vẽ minh họa RPS từ „một‟, „hai‟, „ba‟, „bốn‟ 43 Hình 21: Đồ thị RPS từ “một” với độ trễ khác (τ = 1, τ = 6, τ =24 ) 44 Hình 22: So sánh tâm bán kính quỹ đạo từ ”một” quỹ đạo từ “hai” 45 Hình 23: So sánh tâm bán kính quỹ đạo từ ”một” quỹ đạo “hai” 46 Hình 24: So sánh tâm bán kính quỹ đạo từ ”một” với hai ngƣời nói khác 47 Hình 25: Hình vẽ minh họa phân bố điểm RPS quỹ đạo RPS 47 Hình 26: Mối quan hệ số cho vectơ tổng hợp 50 vii Luận văn tốt nghiệp cao học Hình 27: Minh họa RPS mơ hình Gauss với 256 Mixtures 51 Hình 28: Mơ hình Markov ẩn left-right ẩn trạng thái 53 Hình 29: Sơ đồ khởi tạo ma trận xác suất phát 54 Hình 30: Sơ đồ thuật toán huấn luyện 54 Hình 31: Thuật tốn nhận dạng từ tiếng Việt 54 Hình 32: Chƣơng trình thu nhận âm huấn luyện 57 Hình 33: Sơ đồ thuật tốn cắt tự động 58 Hình 34: Đồ thị RPS từ “một” với độ trễ khác 58 Hình 35: Đồ thị minh hoạ RPS dùng mơ hình Gauss với 256 Mixtures 60 Hình 36: Đồ thị kết nhận dạng số tiếng Việt với đặc trƣng MFCC 63 Hình 37: Đồ thị kết nhận dạng số tiếng Việt với đặc trƣng thu đƣợc từ RPS 65 Hình 38: Biều đồ thể tỉ lệ nhận dạng xác số tiếng Việt với vectơ đặc trƣng đƣợc kết hợp từ vectơ đặc trƣng phi tuyến vectơ đặc trƣng MFCC 67 Hình 39: Đồ thị kết nhận dạng sử dụng mơ hình Markov ẩn trạng thái với vectơ đặc trƣng (dùng mơ hình trọng số) 69 Hình 40: Đồ thị kết nhận dạng sử dụng mơ hình Markov ẩn 15 trạng thái với vectơ đặc trƣng (dùng mơ hình trọng số) 70 Hình 41: Đồ thị kết nhận dạng với mơ hình Markov ẩn 70 Hình 42: Giao diện chƣơng trình demo kết 71 Hình 43: Đồ thị kết nhận dạng với mơ hình dùng trọng số khơng dùng trọng số 75 viii Luận văn tốt nghiệp cao học MỞ ĐẦU Ngày nhu cầu trao đổi thông tin ngày nhiều dẫn đến tƣơng tác ngƣời máy tính ngày gia tăng Có nhiều phƣơng thức tiếp cận khác nhƣ thơng qua sóng tín hiệu điện não để lệnh cho máy, thông qua tiếng nói, thơng qua cử chuyển động Một phƣơng thức giao tiếp với máy tính đƣợc phát triển nhiều thơng qua tiếng nói Đã có nhiều cơng trình nghiên cứu nhận dạng tiếng nói giới có thành công đáng kể nhƣ: hệ thống nhận dạng tiếng nói tiếng Anh Via Voice IBM, Spoken Toolkit CSLU(Central of Spoken Laguage Under-standing), Speech Recognition Microsoft, Hidden Markov Model tookit đại học Cambridge, CMU Sphinx đại học Carnegie Mello,…Ngoài số hệ thống nhận dạng tiếng nói tiếng Pháp, Đức, Trung Quốc,… phát triển Nhận dạng tiếng nói tiếng Việt có số cơng trình nhƣ Robot hƣớng dẫn làm hƣớng dẫn viên bảo tàng, AILab, Vietvoice, Vspeech… Phần lớn cơng trình nghiên cứu sử dụng cơng cụ kỹ thuật phân tích xử lý tín hiệu tuyến tính Gần có cơng cụ đƣợc phát triển cho việc phân tích xử lý tín hiệu mơ hình ứng dụng lý thuyết phi tuyến Tại số nƣớc nhƣ Nhật, Pháp, Anh mơ hình đƣợc áp dụng cho nhận dạng tiếng nói có kết tốt Đối với tiếng Việt, phƣơng pháp tiếp cận nghiên cứu dùng lý thuyết phi tuyến nhằm ứng dụng cho nhận dạng tiếng nói chƣa đƣợc nghiên cứu Với mong muốn góp phần tạo nên bƣớc phát triển lĩnh vực nhận dạng tiếng nói nƣớc ta mặt nghiên cứu nhƣ ứng dụng sản phẩm thực tiễn cho đời sống, với định hƣớng thầy giáo PGS.TS Nguyễn Tiến Dũng thầy giáo PGS.TS Hoàng Mạnh Thắng luận văn tập trung vào việc thu nhận tiếng nói tiếng Việt, ứng dụng kết l thuyết phi tuyến tính để tìm đặc trƣng phục vụ cho việc xử l nhận dạng từ tiếng Việt Để hoàn thành đƣợc luận văn em xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Tiến Dũng thầy giáo PGS.TS Hồng Mạnh Thắng tận tình hƣớng dẫn giúp đỡ em trình thực luận văn Em xin cảm ơn thầy, cô giáo Luận văn tốt nghiệp cao học Viện điện tử - viễn thông, trƣờng Đại học Bách khoa Hà Nội tạo điều kiện cho em hoàn thành luận văn Em xin cảm ơn thành viên SIPLAB bạn sinh viên tạo điều kiện cho em trình thu thập liệu làm luận văn Bố cục luận văn đƣợc tổ chức nhƣ sau: Chƣơng 1: Nghiên cứu tổng quan Chƣơng giới thiệu tổng quan tình hình nghiên cứu nhận dạng tiếng nói nƣớc nƣớc giới, lịch sử phát triển nghiên cứu nhận dạng tiếng nói, giới thiệu số kết nhận dạng tiếng nói sử dụng lý thuyết phi tuyến giới hạn phạm vi nghiên cứu luận văn Chƣơng 2: Cơ sở xử lý tiếng nói mơ hình nhận dạng tiếng nói Chƣơng giới thiệu mơ hình tuyến tính sử dụng cho phân tích tìm đặc trƣng từ tiếng Việt cần nhận dạng, giới thiệu mơ hình thống kê nhận dạng mẫu, xây dựng mơ hình nhận dạng từ tiếng Việt sử dụng mơ hình Markov ẩn Chƣơng 3: Phƣơng thức xử lý tín hiệu phi tuyến tính phƣơng pháp tìm vectơ đặc trƣng khơng gian phi tuyến tính Chƣơng giới thiệu kết lý thuyết phi tuyến tính Takens, trình bày phƣơng pháp tách đặc trƣng khơng gian phi tuyến tính, xây dựng mơ hình Markov ẩn cho nhận dạng từ tiếng Việt với đặc trƣng phi tuyến, trình bày phƣơng pháp kết hợp đặc trƣng đƣợc tách từ không gian phi tuyến đặc trƣng đƣợc tách từ phƣơng thức xử lý tuyến tính thơng thƣờng Xây dựng mơ hình Markov ẩn cho vectơ đặc trƣng chung tìm đƣợc Chƣơng 4: Cài đặt chƣơng trình nhận dạng tiếng nói đánh giá kết Chƣơng trình bày kết nhận dạng tiếng nói với đặc trƣng tìm đƣợc không gian phi tuyến đặc trƣng tìm đƣợc khơng gian phi tuyến kết hợp với đặc trƣng MFCC, đồng thời đánh giá kết nhận dạng tiếng nói đạt đƣợc Phần cuối luận văn kết luận hƣớng phát triển đề tài trình bày vấn đề luận văn làm đƣợc vấn đề cần phát triển sau luận văn Sau chi tiết chƣơng: Luận văn tốt nghiệp cao học Hình 40: Đồ thị kết nhận dạng sử dụng mơ hình Markov ẩn 15 trạng thái với vectơ đặc trƣng (dùng mơ hình trọng số) Hình 41: Đồ thị kết nhận dạng với mơ hình Markov ẩn 70 Luận văn tốt nghiệp cao học Ngồi quan sát Hình 41 cịn thấy rõ đƣờng màu tím (số trạng thái mơ hình Markov ẩn số lần lặp (n = 5)) đƣờng màu đỏ (số trạng thái mô hình Markov ẩn 15 số lần lặp (n = 5)) nằm cao so với đƣờng màu xanh (số trạng thái mơ hình Markov ẩn 15 số lần lặp (n = 3)) đƣờng màu xanh da trời (số trạng thái mô hình Markov ẩn số lần lặp (n = 3)) Nghĩa tỉ lệ nhận dạng xác trƣờng hợp số lần huấn luyện lặp (n = 5) cao so với độ xác trƣờng hợp số lần huấn luyện lặp (n = 3) (mặc dù số trạng thái khác nhau) Từ cho thấy vai trò quan trọng thực huấn luyện tìm tham số cho mơ hình Markov, phải chạy số lần lặp cho kiểm tra lại tỉ lệ nhận dạng xác trƣờng hợp thuật toán bắt đầu hội tụ trƣờng hợp lặp sau thuật toán hội tụ phải giống 4.4.3 Phần mềm Demo nhận dạng tiếng Việt Hình 42 dƣới giao diện chƣơng trình nhận dạng số tiếng Việt đƣợc xây dựng phần mềm Matlab Hình 42: Giao diện chƣơng trình demo kết Chƣơng trình Demo có cửa sổ chính: - Cửa sổ preview cho phép thu thập liệu thời gian thực - Một cửa sổ hiển thị liệu thu đƣợc liệu đƣợc tải lên từ máy tính để nhận dạng 71 Luận văn tốt nghiệp cao học - Một cửa sổ hiển thị kết nhận dạng đƣợc Ngồi chƣơng trình cịn số nút bấm cho phép tùy chỉnh thời gian ghi liệu 4.5 Đánh giá kết Từ Bảng 5, 6, ta có Bảng tổng kết HMM có số trạng thái 15 nhƣ sau: Tỉ lệ nhận dạng từ xác với mơ hình Markov ẩn 15 trạng thái Đặc trƣng Đặc trƣng phi tuyến Kết hợp hai đặc trƣng Đặc trƣng MFCC số lần lặp số lần lặp số lần lặp số lần lặp số lần lặp số lần lặp (n=1) (n=2) (n=3) (n=4) (n=5) (n=6) 11.111% 28.419% 47.650% 55.235% 57.585% 64.637% 11.111% 95.085% 97.650% 97.756% 97.650% 98.077% 11.111% 94.979% 97.543% 98.077% 98.291% 98.077% Bảng 9: Bảng so sánh kết nhận dạng với đặc trƣng khác  Đánh giá kết nhận dạng với đặc trƣng phi tuyến tìm đƣợc Theo kết thực nhận dạng Bảng với đặc trƣng thu đƣợc từ khơng gian phi tuyến tính dùng làm kết phân loại nhận dạng đƣợc Đây tập đặc trƣng với số lƣợng phần tử (có 10 phần tử) nhƣng tỉ lệ phân loại lên tới 64,67 % Nhƣ đặc trƣng tìm đƣợc dùng để phân loại  So sánh đánh giá kết đặc trƣng phi tuyến tìm đƣợc với đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến So sánh kết tỉ lệ nhận dạng Bảng 6, Bảng Bảng ta thấy: Với đặc trƣng phi tuyến tính tìm đƣợc tỉ lệ nhận dạng cao 64,67% (theo số liệu Bảng 6), đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến tỉ lệ nhận dạng cao 98.291% (theo số liệu Bảng 5, 7) Nhƣ đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến cho kết nhận dạng cao so với đặc trƣng phi tuyến 72 Luận văn tốt nghiệp cao học  Đánh giá kết đặc trƣng MFCC đặc trƣng MFCC kết hợp với đặc trƣng phi tuyến Từ số liệu bảng bảng ta thấy: Với số lần lặp (n = 2) số trạng thái thấp (HMM có số trạng thái thay đổi từ đến 7) rõ ràng kết nhận dạng thu đƣợc phƣơng pháp kết hợp vectơ đặc trƣng xác phƣơng pháp sử dụng riêng biệt vectơ đặc trƣng MFCC Cụ thể với số lần lặp (n = 2), HMM có số trạng thái phƣơng pháp sử dụng vectơ đặc trƣng MFCC cho kết 93.590% , phƣơng pháp kết hợp hai vectơ đặc trƣng cho kết 94.230% Tuy nhiên, với số lần lặp n > kết phƣơng pháp xấp xỉ Cụ thể nhƣ với số lần lặp (n = 3), HMM số trang thái phƣơng pháp sử dụng vectơ đặc trƣng MFCC cho kết 95.406%, phƣơng pháp kết hợp hai vectơ đặc trƣng cho kết thấp chút (95.190%); Với số lần lặp lại (n = 5), HMM có số trạng thái 6, vectơ đặc trƣng MFCC cho kết nhận dạng 95,726%, vectơ đặc trƣng kết hợp lại cho kết 96.580% Với số lần lặp (n = 6), HMM có số trạng thái 15 phƣơng pháp cho kết 98,077% (theo số liệu Bảng 9) Do vậy, ta chƣa thể đánh giá xác xem phƣơng pháp ƣu việt Nhƣ vậy, phƣơng pháp: sử dụng riêng biệt vectơ MFCC, sử dụng vectơ đặc trƣng phi tuyến phƣơng pháp kết hợp hai vectơ đặc trƣng, phƣơng pháp sử dụng vectơ MFCC phƣơng pháp kết hợp hai vectơ đặc trƣng cho kết nhận dạng tốt hẳn Nhƣng vấn đề đặt phƣơng pháp dùng vectơ riêng biệt MFCC phƣơng pháp kết hợp hai vectơ đặc trƣng, chƣa thể đánh giá xem phƣơng pháp hiệu hơn, câu hỏi đặt liệu có phƣơng pháp tốt phƣơng pháp không? Một phƣơng pháp đƣợc đƣa phƣơng pháp trọng số:  Đánh giá kết sử dụng mơ hình trọng số kết hợp hai vectơ đặc trƣng Kết hợp Bảng 9, Bảng Bảng ta có bảng so sánh kết nhận dạng số tiếng Việt vectơ đặc trƣng nhƣ sau: 73 Luận văn tốt nghiệp cao học Trọng số Mơ hình trọng số Ghép hai vectơ đặc trƣng Đặc trƣng MFCC ρ = 0% 98.397% 98.077% 97.970% ρ =5% 98.080% 98.077% 97.970% ρ =10% 97.760% 98.077% 97.970% ρ =15% 97.970% 98.077% 97.970% ρ =20% 97.860% 98.077% 97.970% ρ =25% 97.860% 98.077% 97.970% ρ =30% 97.970% 98.077% 97.970% ρ =35% 97.330% 98.077% 97.970% ρ =40% 96.900% 98.077% 97.970% ρ =45% 96.690% 98.077% 97.970% ρ =50% 96.800% 98.077% 97.970% ρ =55% 95.620% 98.077% 97.970% ρ =60% 95.300% 98.077% 97.970% ρ =65% 95.410% 98.077% 97.970% ρ =70% 96.150% 98.077% 97.970% ρ =75% 96.470% 98.077% 97.970% ρ =80% 95.830% 98.077% 97.970% ρ =85% 96.260% 98.077% 97.970% ρ =90% 95.510% 98.077% 97.970% ρ =95% 93.160% 98.077% 97.970% ρ =100% 93.160% 98.077% 97.970% Bảng 10: Bảng so sánh kết nhận dạng đặc trƣng Từ Bảng 10 ta có đánh giá nhƣ sau: - Khi sử dụng phƣơng pháp: trọng số, kết hợp, MFCC kết nhận dạng cao ta thu đƣợc dùng phƣơng pháp trọng số trọng số 0% (kết nhận dạng 98,397%) Tuy nhiên, trọng số tăng dần lên tới 100% kết nhận dạng 74 Luận văn tốt nghiệp cao học sử dụng mô hình trọng số lại ƣu việt so với kết nhận dạng sử dụng phƣơng pháp kết hợp hay phƣơng pháp MFCC - Khi kết hợp hai vectơ đặc trƣng theo mơ hình trọng số ρ = 0% ρ = 5% có kết nhận dạng số tiếng Việt xác so với sử dụng MFCC kết hợp hai vectơ đặc trƣng khơng dùng mơ hình trọng số L đặc trƣng thu đƣợc không gian tuyến tính có vai trị mạnh q trình nhận dạng Vì ghép hai vec tơ đặc trƣng lại lại với vai trị hai vectơ nhận dạng nhƣ dẫn đến kết nhận nhận dạng xác Hình 44 dƣới minh họa lại kết Bảng 10 Hình 43: Đồ thị kết nhận dạng với mơ hình dùng trọng số khơng dùng trọng số Nhƣ với kết từ chƣơng chứng minh khơng gian phi tuyến hồn tồn tìm đặc trƣng để nâng cao tỉ lệ nhận dạng xác hệ thống nhận dạng tiếng nói tiếng Việt tự động 75 Luận văn tốt nghiệp cao học KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN  Kết luận Qua trình nghiên cứu ứng dụng lý thuyết phi tuyến cho nhận dạng tiếng Việt, luận văn làm đƣợc số công việc sau: - Nghiên cứu tiếng nói, phƣơng pháp xử lý tiếng nói, rút trích đặc trƣng - Nghiên cứu thực huấn luyện mơ hình âm học theo từ áp dụng cho tiếng Việt - Tìm đƣợc đặc trƣng cho nhận dạng tiếng nói tiếng Việt mơ hình lý thuyết phi tuyến - Xây dựng đƣợc chƣơng trình demo nhận dạng tiếng Việt Do chƣa có nhiều kiến thức xử lý tín hiệu số phi tuyến xử lý tiếng nói nên luận văn khơng tránh khỏi nhiều thiếu sót Tuy nhiên, với số kết đạt đƣợc hy vọng luận văn góp phần nhỏ vào việc nghiên cứu nhận dạng tiếng nói tiếng Việt  Hƣớng phát triển Do việc thu âm xử lý liệu chƣa đƣợc phong phú nên kết chƣa đƣợc tốt Vì khắc phục cách thu nhiều mẫu huy động thêm ngƣời tình nguyện để thu âm Có thể xem xét tận dụng nguồn âm tiếng nói radio, internet để làm phong phú thêm liệu huấn luyện Ngoài cần phát triển thêm phần sau: - Dựa khơng gian phi tuyến tính để tìm đặc trƣng ảnh hƣởng đến điệu để cải thiện việc nhận dạng điệu - Cải tiến phƣơng pháp tách từ câu để có kết nhận dạng tốt - Tìm hiểu thêm mơ hình ngơn ngữ thuật tốn tìm kiếm nhận dạng tiếng nói để tăng tốc độ nhận dạng - Xây dựng mơ hình Markov cho nhận dạng từ vựng với số lƣợng lớn sử dụng đặc trƣng phi tuyến Điều đƣợc chứng minh với kết hình dạng quỹ đạo nguyên âm bảng chữ đƣợc thể phụ lục 76 Luận văn tốt nghiệp cao học Tài liệu tham khảo [1] A C Lindgren, M T Johnson, and R J Povinelli, "Speech recognition using phase space features," presented at IEEE International Conference on Acoustics, Speech, and Signal Processing, Hong Kong, China, 2003 [2] A Kumar and S K Mullick, "Nonlinear dynamical analysis of speech," Journal of the Acoustical Society of America, vol 100, pp 615-629, 1996 [3] A Papoulis and A U Pillai, Probability, Random Variables, and Stochastic Processes, Fourth ed Boston: McGraw Hill, 2002 [4] A Petry, D Augusto, and C Barone, "Speaker Identification using nonlinear dynamical features," Chaos, Solitons, and Fractals, vol 13, pp 221-231, 2002 [5] B Gold and N Morgan, Speech and Audio Signal Processing New York: John Wiley & Sons Inc., 2000 [6] B.Gold and N.Morgan, Speech and Audio Signal Processing New York: John Wiley & Sons Inc., 2000 [7] C Becchetti and L P Ricotti, Speech Recognition Chichester: John Wiley & Sons, Inc., 1999 [8] C Grebogi, E Ott, and J A Yorke, "Unstable periodic orbits and the dimensions of multifractal chaotic attractors," Physical Review A, vol 37, pp 1711-24, 1988 [9] D M Tumey, P E Morton, D F Ingle, C W Downey, and J H Schnurer, "Neural network classification of EEG using chaotic preprocessing and phase space reconstruction," presented at IEEE Seventh Annual Northeast Bioengineering Conference, 1991 [10] D M Tumey, P E Morton, D F Ingle, C W Downey, and J H Schnurer, "Neural network classification of EEG using chaotic preprocessing and phase space reconstruction," presented at IEEE Seventh Annual Northeast Bioengineering Conference, 1991 [11] F M Roberts, R J Povinelli, and K M Ropella, "Identification of ECG arrhythmias using phase space reconstruction," presented at Principles and Practice of Knowledge Discovery in Databases (PKDD'01), Freiburg, Germany, 2001 [12] F Takens, "Dynamical systems and turbulence," in Lecture Notes in Mathematics, vol 898, D A Rand and L S Young, Eds Berlin: Springer, 1981 77 Luận văn tốt nghiệp cao học [13] H D I Abarbanel, Analysis of Observed Chaotic Data, softcover ed New York: Springer-Verlag, 1996 [14] H D I Abarbanel, Analysis of Observed Chaotic Data, softcovered New York: Springer-Verlag, 1996 [15] H Kantz and T Schreiber, Nonlinear Time Series Analysis, vol 7, Paperbacked Cambridge: Cambridge University Press, 1997 [16] H Packard, J P Crutchfield, J D Farmer, and R S Shaw, "Geometry from a time series," Physical Review Letters, vol 45, pp 712-716, 1980 [17] H Whitney, "Differentiable manifolds," The Annals of Mathematics, 2nd Series, vol 37, pp 645-680, 1936 [18] http://forum.bkav.com.vn/showthread.php/30357-vspeech-dieu-khien-may-tinh bang-giong-noi [19] http://www.baomoi.com/Viet-Voice ung-dung-tim-kiem-bang-giong-noi-co-ho-troTieng-Viet-danh-cho-Windows-Phone-8/76/11581801.epi [20] http://www.tinhte.vn/threads/isago-siri-nhan-dang-tieng-viet.970694/ [21] J R Deller, J H L Hansen, and J G Proakis, Discrete-Time Processing of Speech Signals, vol IEEE Press, Second ed New York, 2000 [22] L I Eguiluz, M Manana, and J C Lavandero, "Disturbance classification based on the geometrical properties of signal phase space representation," presented at International Conference on Power System Technology, 2000 [23] M A Jackson and I S Burnett, "Phase-space portraits of speech employing mutual information and perceptual masking," presented at IEEE Workshop on Speech Coding: Models, Coders, and Error Criteria, 1999 [24] M Banbrook, S McLaughlin, and I Mann, "Speech characterization and synthesis by nonlinear methods," IEEE Transactions on Speech and Audio Processing, vol 7, pp 117, 1999 [25] M T Johnson, A C Lindgren, R J Povinelli, and X Yuan, "Performance of nonlinear speech enhancement using phase space reconstruction," presented at IEEE International Conference on Acoustics, Speech, and Signal Processing, Hong Kong, China, 2003 78 Luận văn tốt nghiệp cao học [26] Merkwirth, U Parlitz, I Wedekind, and W Lauterborn, "TS Tools," http://www.physik3.gwdg.de/tstool/index.html, 2001 [27] N Tishby, "A dynamical systems approach to speech processing," presented at IEEE International Conference on Acoustics, Speech, and Signal Processing, Albuquerque, New Mexico, 1990 [28] P Blanchard, R L Devaney, and G R Hall, Differential Equations Pacific Grove: Brooks/Cole Publishing Company, 1998 [29] R Hegger, H Kantz, and L Matassini, "Denoising human speech signals using chaoslike features," Physical Review Letters, vol 84, pp 3197-3200, 2000 [30] R J Povinelli, J F Bangura, N A O Demerdash, and R H Brown, "Diagnostics of bar and end-ring connector breakage faults in polyphase induction motors through a novel dual track of time-series data mining and time-stepping coupled FE-state space modeling," IEEE Transactions on Energy Conversion, vol 17, pp 39-46, 200 [31] S S Narayanan and A A Alwan, "A nonlinear dynamical systems analysis of fricative consonants," Journal of the Acoustical Society of America, vol 97, pp 25112524, 1995 [32] S Young, G Evermann, D Kershaw, G Moore, J Odell, D Ollason, V Valtchev, and P Woodland, The HTK Book: Microsoft Corporation, 2001 [33] T Sauer, J A Yorke, and M Casdagli, "Embedology," Journal of Statistical Physics, vol 65, pp 579-616, 1991 [34] T Sauer, J A Yorke, and M Casdagli, "Embedology," Journal of Statistical Physics, vol 65, pp 579-616, 1991 [35] V Pitsikalis and P Maragos, "Speech analysis and feature extraction using chaotic models," presented at EEE International Conference on Acoustics, Speech, and Signal Processing, Orlando, Florida, 2002 [36] W V d Water and J D Weger, "Failure of chaos control," Physical Review E, vol 62, pp 6398-408, 2000 [37] Y C Lai, Y Nagai, and C Grebogi, "Characterization of natural measure by unstable periodic orbits in chaotic attractors," Physical Review Letters, vol 79, pp 64952, 1997 [38] vnexpress.net/tin-tuc/khoa-hoc/robot-lam-huong-dan-vien-bao-tang-2246991.html 79 Luận văn tốt nghiệp cao học [39] PGS.TS Nguyễn Quốc Trung “Xử lý tín hiệu lọc số” Nhà xuất khoa học kĩ thuật hà nội PHỤ LỤC Quỹ đạo không gian RPS (τ= 6) Quỹ đạo không gian RPS (τ= 24) 80 Luận văn tốt nghiệp cao học Quỹ đạo không gian RPS chữ (τ= 6) 81 Luận văn tốt nghiệp cao học Đồ thị RPS với d =5 minh mơ hình Gauss ( số Mixtures = 256) Đồ thị RPS với d =10 minh mơ hình Gauss ( số Mixtures = 256) 82 Luận văn tốt nghiệp cao học Một số hàm phân tích, xử lý tín hiệu luận văn Hàm tạo RPS function phaseSpace = embed_nonlinear(timeSeries, lags,dimension) N= length(timeSeries);%Xac dinh tong so diem cua tin hieu goc lags = [0 lags];%dat tre cho phan tu dau tien maxlag= max(lags); Q = dimension; % Kich thuoc pointsInPhaseSpace = N- (Q-1)*maxlag; % Xay dung cau truc khong gian pha for i = 1:Q lag = (Q-i)*maxlag; phaseSpace(i,(1:pointsInPhaseSpace))= timeSeries(1+lag:pointsInPhaseSpace+lag); end Hàm tìm đặc trƣng phi tuyến function y = feature_nonlinear1(timeSeries,lags,dimension) % tao khong gian phaseSpace phaseSpace = embed_nonlinear(timeSeries, lags,dimension); % thuc hien chuan hoa phaseSpace_normal = normalize_nonlinear(phaseSpace'); % lay tin hieu x = phaseSpace_normal(1,:); % tinh delta window = ones(1,2*2+1); out_seq=delta_for_nonlinear(x,window); y = [x out_seq]; 83 Luận văn tốt nghiệp cao học Hàm tìm tâm (CenterofMass) % Input: la mot ma tran X : duoc xay dung bang tre % output: la vecto trung binh cua cac cot ma tran X %% function y = find_center_nonlinear(x) [row col] = size(x); y = zeros(1,col); for i= 1:1:col y(i) = sum(x(:,i)); end y = y./row; Hàm tìm bán kính quỹ đạo % Input: X la ma tran lech so voi gia tri trung binh % Ouput: y vec to lech chuan( ban kinh) %% function y = fstandard_deviation_nonlinear(x) y = sqrt(sum(sum((x.^2)'))./length(x(:,1))); 84 ... trung gian tiếng Việt tiếng Anh, việc nhận dạng từ tiếng Việt đƣợc thực Vspeech để nhận biết tiếng nói tiếng Việt 1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR) Hệ thống nhận dạng tiếng. .. Mạnh Thắng luận văn tập trung vào việc thu nhận tiếng nói tiếng Việt, ứng dụng kết l thuyết phi tuyến tính để tìm đặc trƣng phục vụ cho việc xử l nhận dạng từ tiếng Việt Để hoàn thành đƣợc luận... Pháp, Anh mơ hình đƣợc áp dụng cho nhận dạng tiếng nói có kết tốt Đối với tiếng Việt, phƣơng pháp tiếp cận nghiên cứu dùng lý thuyết phi tuyến nhằm ứng dụng cho nhận dạng tiếng nói chƣa đƣợc nghiên

Định dạng
Số trang	92
Dung lượng	3,2 MB