Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 103 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
103
Dung lượng
1,56 MB
Nội dung
K H TN TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC NGUYỄN HỒNG QUANG - 0012081 H NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT C N TT – Đ TÌM HIỂU VÀ ỨNG DỤNG LUẬN VĂN CỬ NHÂN TIN HỌC K H O A GIÁO VIÊN HƯỚNG DẪN Th.s BÙI TIẾN LÊN NIÊN KHÓA 2000 – 2004 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Lời cảm ơn Hoàn thành luận văn có đóng góp lớn thầy K H TN Bùi Tiến Lên, thầy hướng dẫn tạo điều kiện cho em trình thực nghiên cứu nhận dạng tiếng nói, em xin chân thành cảm ơn thầy Em xin gởi lời cảm ơn đến thầy cô trường, đặc biệt thầy cô môn Công Nghệ Tri Thức đă tạo môi trường thật hoàn hảo cho chúng em học tập nghiên cứu khoa H học Đ Em không nhắc đến động viên chăm sóc – gia đình, cộng tác giúp đỡ ủng hộ tinh thần bạn bè C N TT Em xin tri ơn tất TP Hồ Chí Minh, tháng năm 2004 K H O A Nguyễn Hồng Quang Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỤC LỤC K H O A C N TT – Đ H K H TN DANH SÁCH HÌNH VẼ M Ở Đ Ầ U Chương TỔNG QUAN 1.1 Nhận dạng 1.2 Nhận dạng tiếng nói .9 1.2.1 Xử lý âm 1.2.2 Phân loại nhận dạng tiếng nói 10 1.2.2.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 10 1.2.2.2 Nhận dạng phụ thuộc người nói độc lập người nói 11 1.2.3 Hệ thống nhận dạng tiếng nói tự động 13 1.2.4 Lý thuyết nhận dạng tiếng nói 14 1.2.4.1 Rút trích vector đặc trưng 15 1.2.4.2 Phân lớp 17 Chương XỬ LÝ TIẾNG NÓI RÚT TRÍCH VECTOR ĐẶC TRƯNG 21 2.1 Xử lý tiếng nói 21 2.1.1 Lấy mẫu tín hiệu 21 2.1.2 Bộ lọc tín hiệu 22 2.1.3 Dò tìm điểm cuối (end-point detection) 24 2.2 Rút trích đặc trưng 26 2.2.1 Các bước rút trích đặc trưng .27 2.2.1.1 Làm rõ tín hiệu 27 2.2.1.2 Phân đoạn thành khung 27 2.2.1.3 Lấy cửa sổ .28 2.2.2 Các dạng đặc trưng tiếng nói 33 2.2.2.1 Biến đổi tín hiệu sang miền tần số 33 2.2.2.2 Đặc trưng lượng 35 2.2.2.3 Đặc trưng MFCC 36 2.2.2.4 Đặc trưng LPC 39 2.2.2.5 Đặc trưng tần số 42 Chương MÔ HÌNH MARKOV ẨN 49 3.1 Mô hình Markov ẩn 49 3.2 Ứng dụng Mô hình Markov vào nhận dạng tiếng nói 51 3.2.1 Thuật toán tiến 52 3.2.2 Thuật toán lùi 53 3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu 54 3.2.4 Thuật toán Viterbi .55 3.2.5 Ước lượng Baum-Welch 58 3.3 Cấu trúc ngôn ngữ mô hình nhận dạng theo âm vị 60 3.3.1 Cấu trúc ngôn ngữ .60 3.3.2 Mô hình âm vị .63 3.3.3 Tha âm vị (allophones) .63 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 K H O A C N TT – Đ H K H TN 3.3.4 Nhận xét 65 Chương HMM TOOLKIT 67 4.1 Cấu trúc tập tin HTK 69 4.1.1 Cấu trúc tập tin vector đặc trưng HTK .69 4.1.2 Cấu trúc tập tin mô hình HMM 71 4.1.3 Cấu trúc tập tin đánh nhãn liệu 75 4.1.4 Cấu trúc tập tin văn phạm 78 4.2 Nhận dạng nguyên từ 81 4.3 Nhận dạng theo mô hình âm vị 85 Chương ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI 88 5.1 Thử nghiệm nhận dạng tiếng nói Tiếng Việt .89 5.1.1 Nhận dạng tĩnh (offline) 89 5.1.1.1 Dùng vector đặc trưng dạng LPCEPSTRA_E_D 89 5.1.1.2 Dùng vector đặc trưng dạng LPCEPSTRA_E_D_A 89 5.1.1.3 Dùng vector đặc trưng dạng MFCC_0_D .89 5.1.1.4 Dùng vector đặc trưng dạng MFCC_0_D_A 90 5.1.1.5 Dùng vector đặc trưng dạng MFCC_0_D_A_Z 90 5.1.2 Nhận dạng thời gian thực (online) 91 5.1.2.1 Nhận dạng theo mô hình âm vị dùng MFCC_0_D_A_Z 91 5.1.2.2 Nhận dạng nguyên từ dùng MFCC_0_D_A_Z .92 5.2 Ứng dụng nhận dạng tiếng nói 93 KẾT LUẬN 96 TÀI LIỆU THAM KHẢO 98 Phụ lục MỘT SỐ CÔNG CỤ TRONG HTK 99 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 DANH SÁCH HÌNH VẼ K H O A C N TT – Đ H K H TN Hình 1.1: Sơ đồ nhận dạng tổng quát Hình 1.2: Các lĩnh vực xử lý tiếng nói 10 Hình 1.3: Ranh giới “cô” “ấy” không rõ ràng 11 Hình 1.4: Người nói khác phát âm khác 12 Hình 1.5: Mô hình nhận dạng bán độc lập người nói 13 Hình 1.6: Các thành phần hệ thống ASR .14 Hình 1.7: Các dạng cửa sổ thường dùng 16 Hình 1.8: Tổng quát trình rút trích vector đặc trưng 17 Hình 1.9: Các kỹ thuật nhận dạng tiếng nói xu hướng phát triển .18 Hình 1.10: HMM với trạng thái trọng số chuyển trạng thái 20 Hình 2.1: Ví dụ lấy mẫu tín hiệu f(t) miền thời gian 22 Hình 2.2: Minh họa hoạt động lọc FIR 23 Hình 2.3: Minh họa hoạt động lọc IIR .23 Hình 2.4: Dò tìm điểm cuối dựa vào mức lượng .25 Hình 2.5: Sơ đồ rút trích vector đặc trưng tổng quát .26 Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết 27 Hình 2.7: Phân đoạn tiếng nói thành khung chồng lấp .28 Hình 2.8: Sự khác biệt dạng cửa sổ tín hiệu 32 Hình 2.9: Đồ thị biểu diễn mối quan hệ Mel Hz 36 Hình 2.10: Các bước trích đặc trưng MFCC 37 Hình 2.11: Bộ lọc thang Mel .37 Hình 2.12: Bộ lọc tần số thật 38 Hình 2.13: Minh họa bước biến đổi MFCC .38 Hình 2.14: Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói 40 Hình 2.15: Hình dạng tín hiệu tiếng nói 47 Hình 2.16: Kết trích F0 48 Hình 2.17: Kết sau lọc Median 48 Hình 3.1: Minh họa hoạt động mô hình Markov ẩn 49 Hình 3.2: Mô hình Left - Right 51 Hình 3.3: Mô hình Bakis 51 Hình 3.4: Mô hình Tuyến tính 51 Hình 3.5:Minh họa thuật toán tiến 53 Hình 3.6:Minh họa thuật toán lùi .53 Hình 3.7: Ví dụ minh họa thuật toán Viterbi 56 Hình 3.8:Ví dụ minh họa thuật toán Viterbi (tt) .57 Hình 3.9: Ví dụ minh họa so khớp dùng thuật toán tiến-lùi .58 Hình 3.10: Minh họa ước lượng Baum - Welch 59 Hình 3.11: Minh họa việc nhận dạng âm vị HMM 60 Hình 4.1: Mô hình đơn giản nhận dạng tiếng nói 67 Hình 4.2: Các module chức HTK 68 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 K H O A C N TT – Đ H K H TN Hình 4.3: Các công cụ chức HTK .69 Hình 4.4: Phân bố tham số số vector đặc trưng HTK 71 Hình 4.5: Các dạng đặc trưng chuyển đổi qua lại HCopy 71 Hình 4.6: Dạng tập tin HMM (chưa khởi tạo) 72 Hình 4.7: Dạng tập tin HMM có sử dụng pha trộn Gaussian 74 Hình 4.8: Dạng tập tin HMM có sử dụng đa luồng 75 Hình 4.9: Vai trò văn phạm nhận dạng dùng HTK 78 Hình 4.10: Lược đồ văn phạm 79 Hình 4.11: Mô hình minh họa văn phạm 80 Hình 4.12: Minh họa việc nhận dạng nguyên từ .81 Hình 4.13: Huấn luyện nguyên từ công cụ hỗ trợ 82 Hình 4.14: Quy trình hoạt động HInit 83 Hình 4.15: Quy trình hoạt động HCompV 83 Hình 4.16: Quy trình hoạt động HRest 84 Hình 4.17: Huấn luyện theo mô hình âm vị dùng HTK 85 Hình 4.18: Quá trình xử lý tập tin HERest .87 Hình 5.1: Mô hình ngôn ngữ dành cho hệ nhận dạng 88 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỞ Đ Ầ U K H TN Tiếng nói phương tiện giao tiếp loài người, hình thành phát triển song song với trình tiến hóa loài người Đối với người, sử dụng lời nói cách diễn đạt đơn giản hiệu Ưu điểm việc giao tiếp tiếng nói trước tiên tốc độ giao tiếp, tiếng nói từ người nói người nghe hiểu sau phát Bên cạnh đó, tiếng nói cách giao tiếp sử dụng rộng rãi – (dĩ nhiên trừ người khuyết tật) nói Ngày nay, nhờ phát triển khoa học kỹ thuật, máy móc thay H lao động tay chân Tuy nhiên để điều khiển máy móc, người phải làm Đ nhiều thao tác tốn nhiều thời gian cần phải đào tạo Điều gây trở ngại không việc sử dụng máy móc, thành tựu khoa học kỹ thuật – Trong đó, điều khiển máy móc thiết bị tiếng nói dễ dàng Nhu C N TT cầu điều khiển máy móc thiết bị tiếng nói thiết thiết bị cầm tay, như: điện thoại di động, máy Palm/Pocket PC,… K H O A Để cho máy tính nghe nhiều người vật lộn với tín hiệu âm nửa kỷ qua lĩnh vực nhận dạng tiếng nói Quá trình đánh dấu kết nghiên cứu đặc sắc lĩnh vực phân tích xử lý tiếng nói, ứng dụng thực tế hữu ích Nhưng dù sao, khả máy vẫn khoảng giới hạn, cần phát triển để thật đáp ứng nhu cầu thực sống Mặt khác, nhận dạng tiếng nói phát triển thứ tiếng khác, chưa phát triển ứng dụng mạnh nước ta Do tình hình phát triển Việt Nam, công nhận dạng tiếng nói thật quan tâm, đầu tư tạo thành nhóm phòng thí nghiệm chuyên nghiên cứu nhận dạng tiếng nói thật gặp khó khăn Luận văn xây dựng với mong muốn góp phần thúc đẩy trình trên, cách kế thừa đàn anh đàn chị trước, thông qua việc tìm hiểu thành tựu nước em mong góp phần tạo nên bước phát triển lĩnh vực nhận dạng tiếng nói nước ta Qua trình nghiên cứu, em Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 K H TN nhận thấy có phổ biến kiến thức rộng rãi, không cho người chuyên lĩnh vực công nghệ thông tin, mà cho người không chuyên hoàn toàn thúc đẩy, phát triển gặt hái nhiều thành công Vì lúc vấn đề không nghiên cứu, phát triển số người mà nhiều người Những lĩnh vực nghiên cứu khác cưng làm tương tự K H O A C N TT – Đ H Vì lý mà em không tìm tòi nghiên cứu lý thuyết, mà cố gắng phát triển thành ứng dụng Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Chương 1.1 TỔNG QUAN Nhận dạng Nhận dạng loài người trình hoàn hảo, quan sát đối K H TN tượng cần nhận dạng, ghi nhận lại đặc trưng đối tượng, phân lớp đối tượng có sử dụng khả phán đoán suy luận để phân biệt đối tượng với đối tượng khác (trong tập gần vô hạn đối tượng) Trong đó, nhận dạng tự động – nhận dạng công cụ máy vi tính đơn giản trình phân biệt tín hiệu với tín hiệu khác (trong tập hữu hạn tín hiệu), trình thực cách thực bước tổng quát Đ H sau (như hình 1.1) Tín hiệu – Tiền xử lý rút trích vector đặc trưng C N TT Tín hiệu cần nhận dạng Tín hiệu dùng để học Học mẫu, phân lớp Nhận dạng, so khớp mẫu Kết Tập hợp từ điển lớp tín hiệu K H O A Ngưỡng luật định Hình 1.1: Sơ đồ nhận dạng tổng quát • Thu nhận tín hiệu trích đặc trưng: thu nhận tín hiệu cần nhận dạng, khử nhiễu lọc tín hiệu (tiền xử lý) rút đặc trưng tín hiệu (vector đặc trưng) • Học mẫu: kết nhóm, phân lớp nhóm vector đặc trưng nhóm tín hiệu (bằng thuật giải Heristic, cách sử dụng mạng Neural, siêu phẳng dùng thuật toán K-means, Batchelor- Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Wilkins, ……) Quá trình tạo lớp tín hiệu, lớp đặc trưng cho nhóm tín hiệu • Nhận dạng, so khớp mẫu: tìm mối liên hệ tín hiệu cần nhận dạng lớp tín hiệu tạo bước trước (bằng cách thông qua quy K H TN tắc người láng giềng gần chẳng hạn) Nếu tín hiệu so khớp (và mức độ so khớp thỏa ngưỡng đó) ứng với lớp tín hiệu hệ thống nhận dạng xác định tín hiệu tín hiệu thuộc vào nhóm tín hiệu với tỉ lệ định gọi độ xác hệ thống nhận dạng (tỉ lệ dĩ nhiên cao tốt) Nhận dạng tiếng nói H 1.2 Đ 1.2.1 Xử lý âm Khi âm máy vi tính hỗ trợ nhu cầu xử lý âm – xuất Các nhu cầu tạo nhiều lĩnh vực ứng dụng thực tế C N TT Chẳng hạn như: Tổng hợp âm (Synthesis), nén âm (Compression), nhận dạng người nói (speaker recognition), nhận dạng tiếng nói (speech recognition)… Các lĩnh vực ứng dụng khác xử lý tiếng nói thể qua hình 1.2 Xử lý âm đóng vai trò quan trọng trình nhận dạng K H O A tiếng nói, cần việc lọc nhiễu tín hiệu, biến đổi tín hiệu, rút trích vector đặc trưng,… Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Chương ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI Các tiếng hệ nhận dạng điều khiển xe tự động gồm: Tiếng Mô hình Lệnh thực trái trais Xe bẻ lái sang trái phải phair Xe bẻ lái sang phải thẳng thawngr Xe chạy thẳng tiến tieens Xe chạy tới lui lui Xe chạy lui dừng duwngf Dừng xe lại khoảng lặng sil H K H TN STT Đ Chỉ dùng nhận dạng – Hệ dùng 100 mẫu huấn luyện cho tiếng (tổng cộng 600 mẫu huấn K H O A C N TT luyện) Hệ dùng mô hình ngôn ngữ sau: Hình 5.1: Mô hình ngôn ngữ dành cho hệ nhận dạng 88 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 5.1 Thử nghiệm nhận dạng tiếng nói Tiếng Việt 5.1.1 Nhận dạng tĩnh (offline) 5.1.1.1 Nhận dạng nguyên từ dùng LPCEPSTRA_E_D ¾ Số mẫu nhận dạng: 600 ¾ Số mẫu đúng: 600, Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, K H TN Nhận dạng tập huấn luyện: đạt tỉ lệ: 100% đạt tỉ lệ: 100% ¾ Số mẫu nhận dạng: ¾ Số mẫu đúng: Đ Nhận dạng tập huấn luyện: H 5.1.1.2 Nhận dạng nguyên từ dùng LPCEPSTRA_E_D_A 600 đạt tỉ lệ: 100% – 600, Nhận dạng tập liệu mới: C N TT ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% Nhận xét: Trong hệ nhận dạng tiếng nói này, việc dùng dạng đặc trưng hệ số Cepstral LPC mà có hai đạo hàm bậc bậc không cần thiết K H O A (vector 39 chiều), để tiết kiệm chi phí tính toán cần dùng đạo hàm bậc 1, có nghĩa dùng dạng vector đặc trưng LPCEPSTRA_E_D (vector 26 chiều) 5.1.1.3 Nhận dạng nguyên từ dùng MFCC_0_D Nhận dạng tập huấn luyện: ¾ Số mẫu nhận dạng: 600 ¾ Số mẫu đúng: 600, đạt tỉ lệ: 100% Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 89 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% 5.1.1.4 Nhận dạng nguyên từ dùng MFCC_0_D_A ¾ Số mẫu nhận dạng: 600 ¾ Số mẫu đúng: 600, Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, K H TN Nhận dạng tập huấn luyện: đạt tỉ lệ: 100% đạt tỉ lệ: 100% H 5.1.1.5 Nhận dạng nguyên từ dùng MFCC_0_D_A_Z Nhận dạng tập huấn luyện: ¾ Số mẫu đúng: 600 Đ ¾ Số mẫu nhận dạng: 600, đạt tỉ lệ: 100% – Nhận dạng tập liệu mới: C N TT ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% 5.1.1.6 Nhận dạng theo mô hình âm vị triphone dùng MFCC_0_D_A_Z Nhận dạng tập huấn luyện: 600 ¾ Số mẫu đúng: 600, K H O A ¾ Số mẫu nhận dạng: đạt tỉ lệ: 100% Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% 90 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 5.1.2 Nhận dạng thời gian thực (online) 5.1.2.1 Nhận dạng nguyên từ dùng MFCC_0_D_A_Z ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 30 Đúng: 21 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 96.67% o phair: 30 28 Sai: (nhận dạng trais) Tỉ lệ đúng: 93.33% Đ 30 Đúng: 29 – Sai: H Đúng: o thawngr: C N TT Tỉ lệ đúng: o tieens: (nhận dạng phair) 96.67% 30 Đúng: 28 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 93.33% o lui: K H O A K H TN o trais: 180 30 Đúng: 30 Tỉ lệ đúng: 100% o duwngf: 30 Đúng: 30 Tỉ lệ đúng: 100% ¾ Tổng số mẫu đúng: 174, đạt tỉ lệ: 96.67% 91 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 5.1.2.2 Nhận dạng theo mô hình âm vị triphone dùng MFCC_0_D_A_Z ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: o trais: 30 28 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 96.67% 30 K H TN Đúng: o phair: 28 Sai: (nhận dạng trais) Tỉ lệ đúng: 93.33% Đúng: Đ 30 H Đúng: o thawngr: Sai: (nhận dạng phair) – 30 C N TT Tỉ lệ đúng: o tieens: 93.33% 30 Đúng: 28 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 93.33% o lui: K H O A 180 30 Đúng: 30 Tỉ lệ đúng: 100% o duwngf: 30 Đúng: 30 Tỉ lệ đúng: 100% ¾ Tổng số mẫu đúng: 175, đạt tỉ lệ: 97.22% 92 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 5.2 Ứng dụng nhận dạng tiếng nói Từ thử nghiệm trên, hệ nhận dạng điều khiển xe tự động dùng mô hình nhận dạng theo âm vị triphone dùng MFCC_0_D_A_Z Xử lý lệnh Trích đặc trưng Nhận dạng Mô hình ngôn ngữ C N TT – Đ Thiết bị Thu tín hiệu (theo khung) H Micro K H TN Mô hình hoạt động chương trình ứng dụng K H O A Một số hình ảnh thiết bị 93 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Tập mô hình HMM K H TN H Đ – C N TT K H O A 94 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 K H TN H Đ – C N TT K H O A 95 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 KẾT LUẬN Sau trình nghiên cứu nhận dạng tiếng nói Tiếng Việt, luận văn làm số công việc sau: K H TN • Khảo sát đặc trưng tiếng nói, thử áp dụng vào nhận dạng tiếng nói Tiếng Việt • Khảo sát mô hình âm vị, thử nghiệm ứng dụng mô hình nhận dạng âm vị triphone • Cài đặt hệ nhận dạng thời gian thực ứng dụng vào điều khiển thiết bị Trong giới hạn thời gian sức lực người, em có khởi đầu tiếp H cận nghiên cứu nhận dạng tiếng nói, chắn luận văn Đ nhiều thiếu sót So với phát triển nhận dạng kết đạt luận văn không đáng kể, em mong luận văn góp phần – vào việc thúc đẩy nghiên cứu ứng dụng hệ nhận dạng tiếng nói Tiếng C N TT Việt Chương trình ứng dụng Demo cài đặt hệ thống với thông số sau: • Máy PC AMD XP 2500+ 1.8 GHz, FSB 333, 512 MB DDR • Card âm onboard • Micro dùng để thu dùng để thu âm dạng cầm tay K H O A • Tiếng nói thu với tần số lấy mẫu 16000Hz, kích thước mẫu 16 bit Hướng phát triển: Trong thời gian ngắn, lượng liệu thu vào chưa phong phú (độ đa dạng số lượng), kết chưa xác Do đó, cải tiến độ xác hệ nhận dạng cách tăng cường mặt liệu huấn luyện 96 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Khảo sát thêm đặc điểm ngữ âm Tiếng Việt mà có ảnh hưởng đến điệu, từ tạo vector đặc trưng tốt hơn, có khả đặc trưng cho tiếng nói Tiếng Việt cao Đây hướng phát triển khả quan tương lai K H O A C N TT – Đ H K H TN Việc tách tiếng chuỗi tín hiệu dừng mức kiểm tra mức lượng nó, điều dẫn đến việc tách từ chuỗi âm có tỉ lệ xác không cao Có thể dùng đặc tính tần số để hỗ trợ thêm cho việc tách từ loại bỏ khoảng lặng, độ ồn nhiễu 97 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 TÀI LIỆU THAM KHẢO Christine Englund, Speech recognition in the JAS 39 Gripen aircraft adaptation to speech at different G-loads, 2004, pp - [2] Steve Young et all, “The HTK Book”, the Cambridge University Engineering Department, July 2000 [3] Lawrence Rabiner and Biing-Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall, 1993 [4] Đỗ Xuân Đạt -Võ Văn Tuấn, Luận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 2003 [5] Bob Dunn, Speech Signal Processing and Speech Recognition, 29 April 2003 [6] Arnon Cohen and Yaniv Zigel, Feature Selection in Speaker Verification Systems, Electrical and Computer Eng Dept., Ben-Gurion University, BeerSheva, Israel [7] Keiichi Tokuda, HMM-Based Speech Synthesis toward Human-like Talking Machines K H O A C N TT – Đ H K H TN [1] 98 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Phụ lục MỘT SỐ CÔNG CỤ TRONG HTK HCopy HCopy công cụ HTK dùng để chuyển đổi dạng tập tin hỗ trợ nói HCopy sử dụng theo cách sau: K H TN HTK (xem hình 4.5), công cụ để rút trích đặc trưng tập tin chứa tiếng Bước 1: Tạo tập tin script (chẳng hạn đặt tên convert.scp) dùng để chứa tên tập tin cần chuyển đổi tên tập tin kết Mỗi dòng tập tin script chứa: Tên_tập_tin_cần_xử_lý Tên_tập_tin_kết_quả_tương_ứng Ví dụ: Đ H Data\Nhanh\MFCC\nhanh.001.mfcc Data\Nhanh\MFCC\nhanh.002.mfcc Data\Nhanh\MFCC\nhanh.003.mfcc Data\Nhanh\MFCC\nhanh.004.mfcc Data\Nhanh\MFCC\nhanh.005.mfcc Data\Nhanh\MFCC\nhanh.006.mfcc – Data\Nhanh\Wav\nhanh.001.wav Data\Nhanh\Wav\nhanh.002.wav Data\Nhanh\Wav\nhanh.003.wav Data\Nhanh\Wav\nhanh.004.wav Data\Nhanh\Wav\nhanh.005.wav Data\Nhanh\Wav\nhanh.006.wav C N TT Bước 2: Tạo tập tin cấu hình chứa thông tin (đặt tên HCopy.cfg) kiểu tập tin nguồn, kiểu tập tin đích, tần số nguồn đích, kích thước cửa sổ (đều tính 100ns) (các thuộc tính khác để mặc định) K H O A Ví dụ: SOURCEKIND = WAVEFORM #dạng hình sóng SOURCEFORMAT = WAV #kiểu tập tin wav SOURCERATE = 625 #tần số tập tin nguồn 16KHz TARGETKIND = LPCEPSTRA #kiểu tập tin kết LPCEPSTRA TARGETFORMAT = HTK #kiểu tập tin HTK TARGETRATE = 100000 #tần số tập tin kết 100Hz WINDOWSIZE = 250000.0 #kích thước cửa sổ 25ms 99 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Bước 3: Thực thi HCopy với dòng lệnh tham số tập tin tạo được, chẳng hạn sau: HCopy –C HCopy.cfg –S convert.scp Kết thúc trình, ta tạo tập tin kết mong muốn HCompV K H TN HCompV dùng để khởi tạo mô hình Markov ẩn tập huấn luyện chưa đánh nhãn, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Tạo tập tin mô hình HMM prototype (tên proto) HCompV –S train.scp proto H Bước 3: Thực thi HCompV với dòng lệnh tham số, chẳng hạn như: HInit – Đ Kết thúc trình ta thu HMM khởi tạo tập tin “proto” HInit dùng để khởi tạo mô hình Markov ẩn với tập huấn luyện C N TT đánh nhãn tập tin dùng để huấn luyện chứa từ (hoặc âm vị) ứng với tập tin mô hình, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Tạo tập tin mô hình HMM prototype (tên proto) K H O A Bước 3: Thực thi HInit với dòng lệnh tham số nó, chẳng hạn sau: HInit –S train.scp proto Kết thúc trình ta thu HMM khởi tạo tập tin “proto” HParse HParse dùng để tạo tập tin mô hình ngôn ngữ (dạng mạng) từ tập tin văn phạm, sử dụng cách sau: 100 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Bước 1: Tạo tập tin văn phạm phù hợp với hệ thống nhận dạng xây dựng (đặt tên grammar), chẳng hạn chứa nội dung sau: K H TN ( sil (one | two | three | four | five | six | seven | eight | nine | zero) sil ) Bước 2: Thực thi HParse với dòng lệnh tham số nó, chẳng hạn sau: HParse grammar lattice Kết thúc trình ta thu mạng ngôn ngữ tập tin lattice, tập tin HRest Đ H dùng HVite HRest dùng để huấn luyện mô hình Markov ẩn, sử dụng – cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện C N TT (chẳng hạn đặt tên train.scp) Bước 2: Khởi tạo tập tin mô hình HMM (bằng HInit HCompV) (chẳng hạn với từ nhanh – tên tập tin HMM nhanh) Bước 3: Thực thi HRest với dòng lệnh tham số, chẳng hạn như: HRest –S train.scp nhanh K H O A Kết thúc trình ta thu HMM huấn luyện tập tin “nhanh” HERest HERest dùng để huấn luyện hệ nhận dạng tiếng nói mô hình âm vị, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Chuẩn bị tập tin như: danh sách tên mô hình HMM hmmlist, tập mô hình HMM khởi tạo hmmset, Master 101 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Label chứa tất mô tả (hoặc đánh nhãn) liệu huấn luyện train.mlf Bước 3: Thực thi HERest với dòng lệnh tham số, chẳng hạn như: HERest –I train.mlf –S train.scp –H hmmset hmmlist K H TN Bước nên thực lần, kết thúc trình ta thu tập mô hình HMM huấn luyện hmmset HVite HVite dùng để nhận dạng hệ nhận dạng tiếng nói mô hình Markov ẩn, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin cần nhận dạng (chẳng hạn H đặt tên test.scp) Bước 2: Chuẩn bị tập tin như: từ điển phát âm dictionary, mạng ngôn Đ ngữ lattice, danh sách tên mô hình HMM hmmlist, tập mô – hình HMM huấn luyện hmmset Bước 3: Thực thi HVite với dòng lệnh tham số, chẳng hạn như: C N TT HVite –w lattice –i recout.mlf –S test.scp –H hmmset dictionary hmmlist Kết thúc trình ta thu tập tin recout.mlf, tập tin Master Label K H O A chứa mô tả liệu cần nhận dạng 102 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 [...]... lĩnh vực trong xử lý tiếng nói Nhận dạng từ liên tục và nhận dạng từ cách biệt C N TT 1.2.2.1 – 1.2.2 Phân loại nhận dạng tiếng nói Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và nhận dạng từng từ Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trong một chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh K H O A hoặc một đoạn văn được đọc bởi người... nói khác nhau sẽ phát âm khác nhau 12 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 K H TN H Đ – Hình 1.5: Mô hình nhận dạng bán độc lập người nói C N TT 1.2.3 Hệ thống nhận dạng tiếng nói tự động Nhận dạng tiếng nói tự động (Automatic Speech Recognition - ASR): có nghĩa là chuyển đổi tự động tiếng nói thành chữ viết hoặc thành một trong các chức năng của thiết bị Một hệ thống nhận dạng. .. O A thư ký điện tử,… 1.2.4 Lý thuyết nhận dạng tiếng nói Nhận dạng tiếng nói là kỹ thuật nhận ra các thành phần lời nói của con người Tiến trình này có thể được thực hiện từ việc thu vào tín hiệu tiếng nói từ micro, và kết thúc bằng từ đã được nhận dạng được hệ thống xuất ra Những bước của quá trình trên sẽ được đề cập ở phần sau Việc nghiên cứu nhận dạng tiếng nói đã được bắt đầu từ cuối thập niên... thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 một rất quan trọng Ngày nay, nhờ sự phát triển tăng vọt trong công nghệ, nhận dạng tiếng nói đã có mặt trong công nghiệp ở một số lĩnh vực Trong công nghiệp, khi tay và mắt của con người đã được tận dụng triệt để, thì việc điều khiển bằng tiếng nói có một thuận lợi rất lớn Những trình ứng dụng khác K H TN thì áp dụng nhận dạng tiếng nói vào hệ... người nói thì mỗi một hệ nhận dạng chỉ phục vụ được cho một người, và nó sẽ không hiểu người khác nói gì nếu như chưa được huấn luyện lại từ đầu Do đó, hệ thống nhận dạng người nói khó được chấp nhận rộng rãi vì không phải ai cũng đủ khả K H O A năng kiến thức và nhất là kiên nhẫn để huấn luyện hệ thống Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi công cộng Ngược lại, hệ thống nhận dạng độc... văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 liên tục, đồng thời cũng có những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số bằng giọng nói , với độ chính Đ H K H TN xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với mô hình trên – Hình 1.3: Ranh giới giữa “cô” và “ấy” không rõ ràng Nhận dạng phụ thuộc người nói và độc lập người nói C N TT 1.2.2.2 Đối với nhận dạng phụ... 1.2.4.2 Phân lớp Sau việc biến đổi tiếng nói thành vector đặc trưng là việc nhận ra cái gì thực sự được nói ra Có một vài cách tiếp cận vấn đề này, như là: hướng cơ sở tri thức, hướng so khớp mẫu,… những phương pháp này có K H O A thể được kết hợp với nhau 17 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 K H TN H Đ Hình 1.9: Các kỹ thuật nhận dạng tiếng nói và xu hướng phát triển – a) Kỹ... phân loại khung trước đó Phương pháp này cố loại bỏ đi những 24 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 phần không phải tiếng nói, như: tiếng nhép miệng, thở, hoặc độ ồn nền H K H TN (chẳng hạn tiếng đóng cửa) K H O A C N TT – Đ Hình 2.4: Dò tìm điểm cuối dựa vào mức năng lượng 25 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Rút trích đặc trưng C N TT – Đ H K H... tín hiệu 32 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 2.2.2 Các dạng đặc trưng tiếng nói Để rút trích đặc trưng, ta cần phải chọn đặc trưng thỏa mãn những vấn đề sau đây: • Có khả năng diễn dạt thông tin tiếng nói độc lập người nói K H TN • Dễ dàng tính toán • Ổn định theo thời gian • Xảy ra tự nhiên và liên tục trong tiếng nói • Ít thay đổi theo môi trường nói (độc lập môi trường)... này quá trình này có thể chỉ đơn giản là xuất ra chuỗi văn bản nhận dạng được hoặc là một quá trình phân tích H K H TN chuỗi nhận được ứng với tác vụ gì và thực hiện tác vụ đó Đ Hình 1.6: Các thành phần cơ bản của hệ thống ASR – Ứng dụng: • Điều khiển bằng tiếng nói (khoảng 30 từ): Nhận dạng tên người, C N TT chữ số của hệ thống quay số bằng giọng nói trên điện thoại di động, điều khiển thiết bị điện ... loại nhận dạng tiếng nói 10 1.2.2.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 10 1.2.2.2 Nhận dạng phụ thuộc người nói độc lập người nói 11 1.2.3 Hệ thống nhận dạng tiếng nói tự động... 78 4.2 Nhận dạng nguyên từ 81 4.3 Nhận dạng theo mô hình âm vị 85 Chương ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI 88 5.1 Thử nghiệm nhận dạng tiếng nói Tiếng Việt .89... Luanvanaz@mail.com - 0972.162.399 K H TN H Đ Hình 1.2: Các lĩnh vực xử lý tiếng nói Nhận dạng từ liên tục nhận dạng từ cách biệt C N TT 1.2.2.1 – 1.2.2 Phân loại nhận dạng tiếng nói Một hệ nhận dạng tiếng nói