Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 103 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
103
Dung lượng
1,47 MB
Nội dung
K H TN TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC NGUYỄN HỒNG QUANG - 0012081 H NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT C N TT – Đ TÌM HIỂU VÀ ỨNG DỤNG LUẬN VĂN CỬ NHÂN TIN HỌC K H O A GIÁO VIÊN HƯỚNG DẪN Th.s BÙI TIẾN LÊN NIÊN KHÓA 2000 – 2004 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Hoàn thành luận văn có đóng góp lớn thầy K H TN Bùi Tiến Lên, thầy hướng dẫn tạo điều kiện cho em trình thực nghiên cứu nhận dạng tiếng nói, em xin chân thành cảm ơn thầy Em xin gởi lời cảm ơn đến thầy cô trường, đặc biệt thầy cô môn Công Nghệ Tri Thức đă tạo mơi trường thật hồn hảo cho chúng em học tập nghiên cứu khoa H học Đ Em khơng thể khơng nhắc đến động viên chăm sóc – gia đình, cộng tác giúp đỡ ủng hộ tinh thần bạn bè C N TT Em xin tri ơn tất TP Hồ Chí Minh, tháng năm 2004 K H O A Nguyễn Hồng Quang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC K H O A C N TT – Đ H K H TN DANH SÁCH HÌNH VẼ M Ở Đ Ầ U Chương TỔNG QUAN 1.1 Nhận dạng 1.2 Nhận dạng tiếng nói .9 1.2.1 Xử lý âm 1.2.2 Phân loại nhận dạng tiếng nói 10 1.2.2.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 10 1.2.2.2 Nhận dạng phụ thuộc người nói độc lập người nói 11 1.2.3 Hệ thống nhận dạng tiếng nói tự động 13 1.2.4 Lý thuyết nhận dạng tiếng nói 14 1.2.4.1 Rút trích vector đặc trưng 15 1.2.4.2 Phân lớp 17 Chương XỬ LÝ TIẾNG NĨI RÚT TRÍCH VECTOR ĐẶC TRƯNG 21 2.1 Xử lý tiếng nói 21 2.1.1 Lấy mẫu tín hiệu 21 2.1.2 Bộ lọc tín hiệu 22 2.1.3 Dị tìm điểm cuối (end-point detection) 24 2.2 Rút trích đặc trưng 26 2.2.1 Các bước rút trích đặc trưng .27 2.2.1.1 Làm rõ tín hiệu 27 2.2.1.2 Phân đoạn thành khung 27 2.2.1.3 Lấy cửa sổ .28 2.2.2 Các dạng đặc trưng tiếng nói 33 2.2.2.1 Biến đổi tín hiệu sang miền tần số 33 2.2.2.2 Đặc trưng lượng 35 2.2.2.3 Đặc trưng MFCC 36 2.2.2.4 Đặc trưng LPC 39 2.2.2.5 Đặc trưng tần số 42 Chương MƠ HÌNH MARKOV ẨN 49 3.1 Mơ hình Markov ẩn 49 3.2 Ứng dụng Mơ hình Markov vào nhận dạng tiếng nói 51 3.2.1 Thuật toán tiến 52 3.2.2 Thuật toán lùi 53 3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu 54 3.2.4 Thuật toán Viterbi .55 3.2.5 Ước lượng Baum-Welch 58 3.3 Cấu trúc ngơn ngữ mơ hình nhận dạng theo âm vị 60 3.3.1 Cấu trúc ngôn ngữ .60 3.3.2 Mơ hình âm vị .63 3.3.3 Tha âm vị (allophones) .63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com K H O A C N TT – Đ H K H TN 3.3.4 Nhận xét 65 Chương HMM TOOLKIT 67 4.1 Cấu trúc tập tin HTK 69 4.1.1 Cấu trúc tập tin vector đặc trưng HTK .69 4.1.2 Cấu trúc tập tin mơ hình HMM 71 4.1.3 Cấu trúc tập tin đánh nhãn liệu 75 4.1.4 Cấu trúc tập tin văn phạm 78 4.2 Nhận dạng nguyên từ 81 4.3 Nhận dạng theo mơ hình âm vị 85 Chương ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI 88 5.1 Thử nghiệm nhận dạng tiếng nói Tiếng Việt .89 5.1.1 Nhận dạng tĩnh (offline) 89 5.1.1.1 Dùng vector đặc trưng dạng LPCEPSTRA_E_D 89 5.1.1.2 Dùng vector đặc trưng dạng LPCEPSTRA_E_D_A 89 5.1.1.3 Dùng vector đặc trưng dạng MFCC_0_D .89 5.1.1.4 Dùng vector đặc trưng dạng MFCC_0_D_A 90 5.1.1.5 Dùng vector đặc trưng dạng MFCC_0_D_A_Z 90 5.1.2 Nhận dạng thời gian thực (online) 91 5.1.2.1 Nhận dạng theo mơ hình âm vị dùng MFCC_0_D_A_Z 91 5.1.2.2 Nhận dạng nguyên từ dùng MFCC_0_D_A_Z .92 5.2 Ứng dụng nhận dạng tiếng nói 93 KẾT LUẬN 96 TÀI LIỆU THAM KHẢO 98 Phụ lục MỘT SỐ CÔNG CỤ TRONG HTK 99 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH SÁCH HÌNH VẼ K H O A C N TT – Đ H K H TN Hình 1.1: Sơ đồ nhận dạng tổng quát Hình 1.2: Các lĩnh vực xử lý tiếng nói 10 Hình 1.3: Ranh giới “cô” “ấy” không rõ ràng 11 Hình 1.4: Người nói khác phát âm khác 12 Hình 1.5: Mơ hình nhận dạng bán độc lập người nói 13 Hình 1.6: Các thành phần hệ thống ASR .14 Hình 1.7: Các dạng cửa sổ thường dùng 16 Hình 1.8: Tổng qt q trình rút trích vector đặc trưng 17 Hình 1.9: Các kỹ thuật nhận dạng tiếng nói xu hướng phát triển .18 Hình 1.10: HMM với trạng thái trọng số chuyển trạng thái 20 Hình 2.1: Ví dụ lấy mẫu tín hiệu f(t) miền thời gian 22 Hình 2.2: Minh họa hoạt động lọc FIR 23 Hình 2.3: Minh họa hoạt động lọc IIR .23 Hình 2.4: Dị tìm điểm cuối dựa vào mức lượng .25 Hình 2.5: Sơ đồ rút trích vector đặc trưng tổng quát .26 Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết 27 Hình 2.7: Phân đoạn tiếng nói thành khung chồng lấp .28 Hình 2.8: Sự khác biệt dạng cửa sổ tín hiệu 32 Hình 2.9: Đồ thị biểu diễn mối quan hệ Mel Hz 36 Hình 2.10: Các bước trích đặc trưng MFCC 37 Hình 2.11: Bộ lọc thang Mel .37 Hình 2.12: Bộ lọc tần số thật 38 Hình 2.13: Minh họa bước biến đổi MFCC .38 Hình 2.14: Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói 40 Hình 2.15: Hình dạng tín hiệu tiếng nói 47 Hình 2.16: Kết trích F0 48 Hình 2.17: Kết sau lọc Median 48 Hình 3.1: Minh họa hoạt động mơ hình Markov ẩn 49 Hình 3.2: Mơ hình Left - Right 51 Hình 3.3: Mơ hình Bakis 51 Hình 3.4: Mơ hình Tuyến tính 51 Hình 3.5:Minh họa thuật toán tiến 53 Hình 3.6:Minh họa thuật tốn lùi .53 Hình 3.7: Ví dụ minh họa thuật tốn Viterbi 56 Hình 3.8:Ví dụ minh họa thuật toán Viterbi (tt) .57 Hình 3.9: Ví dụ minh họa so khớp dùng thuật tốn tiến-lùi .58 Hình 3.10: Minh họa ước lượng Baum - Welch 59 Hình 3.11: Minh họa việc nhận dạng âm vị HMM 60 Hình 4.1: Mơ hình đơn giản nhận dạng tiếng nói 67 Hình 4.2: Các module chức HTK 68 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com K H O A C N TT – Đ H K H TN Hình 4.3: Các cơng cụ chức HTK .69 Hình 4.4: Phân bố tham số số vector đặc trưng HTK 71 Hình 4.5: Các dạng đặc trưng chuyển đổi qua lại HCopy 71 Hình 4.6: Dạng tập tin HMM (chưa khởi tạo) 72 Hình 4.7: Dạng tập tin HMM có sử dụng pha trộn Gaussian 74 Hình 4.8: Dạng tập tin HMM có sử dụng đa luồng 75 Hình 4.9: Vai trị văn phạm nhận dạng dùng HTK 78 Hình 4.10: Lược đồ văn phạm 79 Hình 4.11: Mơ hình minh họa văn phạm 80 Hình 4.12: Minh họa việc nhận dạng nguyên từ .81 Hình 4.13: Huấn luyện ngun từ cơng cụ hỗ trợ 82 Hình 4.14: Quy trình hoạt động HInit 83 Hình 4.15: Quy trình hoạt động HCompV 83 Hình 4.16: Quy trình hoạt động HRest 84 Hình 4.17: Huấn luyện theo mơ hình âm vị dùng HTK 85 Hình 4.18: Quá trình xử lý tập tin HERest .87 Hình 5.1: Mơ hình ngơn ngữ dành cho hệ nhận dạng 88 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ Đ Ầ U K H TN Tiếng nói phương tiện giao tiếp lồi người, hình thành phát triển song song với q trình tiến hóa lồi người Đối với người, sử dụng lời nói cách diễn đạt đơn giản hiệu Ưu điểm việc giao tiếp tiếng nói trước tiên tốc độ giao tiếp, tiếng nói từ người nói người nghe hiểu sau phát Bên cạnh đó, tiếng nói cách giao tiếp sử dụng rộng rãi – (dĩ nhiên trừ người khuyết tật) nói Ngày nay, nhờ phát triển khoa học kỹ thuật, máy móc thay H lao động tay chân Tuy nhiên để điều khiển máy móc, người phải làm Đ nhiều thao tác tốn nhiều thời gian cần phải đào tạo Điều gây trở ngại khơng việc sử dụng máy móc, thành tựu khoa học kỹ thuật – Trong đó, điều khiển máy móc thiết bị tiếng nói dễ dàng Nhu C N TT cầu điều khiển máy móc thiết bị tiếng nói thiết thiết bị cầm tay, như: điện thoại di động, máy Palm/Pocket PC,… K H O A Để cho máy tính nghe nhiều người vật lộn với tín hiệu âm nửa kỷ qua lĩnh vực nhận dạng tiếng nói Q trình đánh dấu kết nghiên cứu đặc sắc lĩnh vực phân tích xử lý tiếng nói, ứng dụng thực tế hữu ích Nhưng dù sao, khả máy vẫn khoảng giới hạn, cần phát triển để thật đáp ứng nhu cầu thực sống Mặt khác, nhận dạng tiếng nói phát triển thứ tiếng khác, chưa phát triển ứng dụng mạnh nước ta Do tình hình phát triển Việt Nam, công nhận dạng tiếng nói thật quan tâm, đầu tư tạo thành nhóm phịng thí nghiệm chun nghiên cứu nhận dạng tiếng nói thật gặp khó khăn Luận văn xây dựng với mong muốn góp phần thúc đẩy q trình trên, cách kế thừa đàn anh đàn chị trước, thơng qua việc tìm hiểu thành tựu nước ngồi em mong góp phần tạo nên bước phát triển lĩnh vực nhận dạng tiếng nói nước ta Qua trình nghiên cứu, em LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com K H TN nhận thấy có phổ biến kiến thức rộng rãi, không cho người chuyên lĩnh vực công nghệ thông tin, mà cịn cho người khơng chun hồn tồn thúc đẩy, phát triển gặt hái nhiều thành cơng Vì lúc vấn đề khơng nghiên cứu, phát triển số người mà nhiều người Những lĩnh vực nghiên cứu khác cưng làm tương tự K H O A C N TT – Đ H Vì lý mà em khơng tìm tịi nghiên cứu lý thuyết, mà cố gắng phát triển thành ứng dụng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 1.1 TỔNG QUAN Nhận dạng Nhận dạng loài người q trình hồn hảo, quan sát đối K H TN tượng cần nhận dạng, ghi nhận lại đặc trưng đối tượng, phân lớp đối tượng có sử dụng khả phán đốn suy luận để phân biệt đối tượng với đối tượng khác (trong tập gần vô hạn đối tượng) Trong đó, nhận dạng tự động – nhận dạng cơng cụ máy vi tính đơn giản q trình phân biệt tín hiệu với tín hiệu khác (trong tập hữu hạn tín hiệu), trình thực cách thực bước tổng quát Đ H sau (như hình 1.1) Tín hiệu – Tiền xử lý rút trích vector đặc trưng C N TT Tín hiệu cần nhận dạng Tín hiệu dùng để học Học mẫu, phân lớp Nhận dạng, so khớp mẫu Kết Tập hợp từ điển lớp tín hiệu K H O A Ngưỡng luật định Hình 1.1: Sơ đồ nhận dạng tổng qt • Thu nhận tín hiệu trích đặc trưng: thu nhận tín hiệu cần nhận dạng, khử nhiễu lọc tín hiệu (tiền xử lý) rút đặc trưng tín hiệu (vector đặc trưng) • Học mẫu: kết nhóm, phân lớp nhóm vector đặc trưng nhóm tín hiệu (bằng thuật giải Heristic, cách sử dụng mạng Neural, siêu phẳng dùng thuật toán K-means, Batchelor- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Wilkins, ……) Quá trình tạo lớp tín hiệu, lớp đặc trưng cho nhóm tín hiệu • Nhận dạng, so khớp mẫu: tìm mối liên hệ tín hiệu cần nhận dạng lớp tín hiệu tạo bước trước (bằng cách thông qua quy K H TN tắc người láng giềng gần chẳng hạn) Nếu tín hiệu so khớp (và mức độ so khớp thỏa ngưỡng đó) ứng với lớp tín hiệu hệ thống nhận dạng xác định tín hiệu tín hiệu thuộc vào nhóm tín hiệu với tỉ lệ định gọi độ xác hệ thống nhận dạng (tỉ lệ dĩ nhiên cao tốt) Nhận dạng tiếng nói H 1.2 Đ 1.2.1 Xử lý âm Khi âm máy vi tính hỗ trợ nhu cầu xử lý âm – xuất Các nhu cầu tạo nhiều lĩnh vực ứng dụng thực tế C N TT Chẳng hạn như: Tổng hợp âm (Synthesis), nén âm (Compression), nhận dạng người nói (speaker recognition), nhận dạng tiếng nói (speech recognition)… Các lĩnh vực ứng dụng khác xử lý tiếng nói thể qua hình 1.2 Xử lý âm đóng vai trị quan trọng q trình nhận dạng K H O A tiếng nói, cần việc lọc nhiễu tín hiệu, biến đổi tín hiệu, rút trích vector đặc trưng,… LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI Các tiếng hệ nhận dạng điều khiển xe tự động gồm: Tiếng Mơ hình Lệnh thực trái trais Xe bẻ lái sang trái phải phair Xe bẻ lái sang phải thẳng thawngr Xe chạy thẳng tiến tieens Xe chạy tới lui lui Xe chạy lui dừng duwngf Dừng xe lại khoảng lặng sil H K H TN STT Đ Chỉ dùng nhận dạng – Hệ dùng 100 mẫu huấn luyện cho tiếng (tổng cộng 600 mẫu huấn K H O A C N TT luyện) Hệ dùng mơ hình ngơn ngữ sau: Hình 5.1: Mơ hình ngôn ngữ dành cho hệ nhận dạng 88 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.1 Thử nghiệm nhận dạng tiếng nói Tiếng Việt 5.1.1 Nhận dạng tĩnh (offline) 5.1.1.1 Nhận dạng nguyên từ dùng LPCEPSTRA_E_D ¾ Số mẫu nhận dạng: 600 ¾ Số mẫu đúng: 600, Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, K H TN Nhận dạng tập huấn luyện: đạt tỉ lệ: 100% đạt tỉ lệ: 100% ¾ Số mẫu nhận dạng: ¾ Số mẫu đúng: Đ Nhận dạng tập huấn luyện: H 5.1.1.2 Nhận dạng nguyên từ dùng LPCEPSTRA_E_D_A 600 đạt tỉ lệ: 100% – 600, Nhận dạng tập liệu mới: C N TT ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% Nhận xét: Trong hệ nhận dạng tiếng nói này, việc dùng dạng đặc trưng hệ số Cepstral LPC mà có hai đạo hàm bậc bậc không cần thiết K H O A (vector 39 chiều), để tiết kiệm chi phí tính tốn cần dùng đạo hàm bậc 1, có nghĩa dùng dạng vector đặc trưng LPCEPSTRA_E_D (vector 26 chiều) 5.1.1.3 Nhận dạng nguyên từ dùng MFCC_0_D Nhận dạng tập huấn luyện: ¾ Số mẫu nhận dạng: 600 ¾ Số mẫu đúng: 600, đạt tỉ lệ: 100% Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 89 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% 5.1.1.4 Nhận dạng nguyên từ dùng MFCC_0_D_A ¾ Số mẫu nhận dạng: 600 ¾ Số mẫu đúng: 600, Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, K H TN Nhận dạng tập huấn luyện: đạt tỉ lệ: 100% đạt tỉ lệ: 100% H 5.1.1.5 Nhận dạng nguyên từ dùng MFCC_0_D_A_Z Nhận dạng tập huấn luyện: ¾ Số mẫu đúng: 600 Đ ¾ Số mẫu nhận dạng: 600, đạt tỉ lệ: 100% – Nhận dạng tập liệu mới: C N TT ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% 5.1.1.6 Nhận dạng theo mơ hình âm vị triphone dùng MFCC_0_D_A_Z Nhận dạng tập huấn luyện: 600 ¾ Số mẫu đúng: 600, K H O A ¾ Số mẫu nhận dạng: đạt tỉ lệ: 100% Nhận dạng tập liệu mới: ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 300 ¾ Số mẫu đúng: 300, đạt tỉ lệ: 100% 90 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.1.2 Nhận dạng thời gian thực (online) 5.1.2.1 Nhận dạng nguyên từ dùng MFCC_0_D_A_Z ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: 30 Đúng: 21 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 96.67% o phair: 30 28 Sai: (nhận dạng trais) Tỉ lệ đúng: 93.33% Đ 30 Đúng: 29 – Sai: H Đúng: o thawngr: C N TT Tỉ lệ đúng: o tieens: (nhận dạng phair) 96.67% 30 Đúng: 28 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 93.33% o lui: K H O A K H TN o trais: 180 30 Đúng: 30 Tỉ lệ đúng: 100% o duwngf: 30 Đúng: 30 Tỉ lệ đúng: 100% ¾ Tổng số mẫu đúng: 174, đạt tỉ lệ: 96.67% 91 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.1.2.2 Nhận dạng theo mô hình âm vị triphone dùng MFCC_0_D_A_Z ¾ Số mẫu dùng huấn luyện: 600 ¾ Số mẫu dùng để thử: o trais: 30 28 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 96.67% 30 K H TN Đúng: o phair: 28 Sai: (nhận dạng trais) Tỉ lệ đúng: 93.33% Đúng: Đ 30 H Đúng: o thawngr: Sai: (nhận dạng phair) – 30 C N TT Tỉ lệ đúng: o tieens: 93.33% 30 Đúng: 28 Sai: (nhận dạng duwngf) Tỉ lệ đúng: 93.33% o lui: K H O A 180 30 Đúng: 30 Tỉ lệ đúng: 100% o duwngf: 30 Đúng: 30 Tỉ lệ đúng: 100% ¾ Tổng số mẫu đúng: 175, đạt tỉ lệ: 97.22% 92 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2 Ứng dụng nhận dạng tiếng nói Từ thử nghiệm trên, hệ nhận dạng điều khiển xe tự động dùng mơ hình nhận dạng theo âm vị triphone dùng MFCC_0_D_A_Z Xử lý lệnh Trích đặc trưng Nhận dạng Tập mơ hình HMM Mơ hình ngơn ngữ C N TT – Đ Thiết bị Thu tín hiệu (theo khung) H Micro K H TN Mơ hình hoạt động chương trình ứng dụng K H O A Một số hình ảnh thiết bị 93 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com K H TN H Đ – C N TT K H O A 94 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com K H TN H Đ – C N TT K H O A 95 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Sau trình nghiên cứu nhận dạng tiếng nói Tiếng Việt, luận văn làm số công việc sau: K H TN • Khảo sát đặc trưng tiếng nói, thử áp dụng vào nhận dạng tiếng nói Tiếng Việt • Khảo sát mơ hình âm vị, thử nghiệm ứng dụng mơ hình nhận dạng âm vị triphone • Cài đặt hệ nhận dạng thời gian thực ứng dụng vào điều khiển thiết bị Trong giới hạn thời gian sức lực người, em có khởi đầu tiếp H cận nghiên cứu nhận dạng tiếng nói, chắn luận văn cịn Đ nhiều thiếu sót So với phát triển nhận dạng kết đạt luận văn không đáng kể, em mong luận văn góp phần – vào việc thúc đẩy nghiên cứu ứng dụng hệ nhận dạng tiếng nói Tiếng C N TT Việt Chương trình ứng dụng Demo cài đặt hệ thống với thông số sau: • Máy PC AMD XP 2500+ 1.8 GHz, FSB 333, 512 MB DDR • Card âm onboard • Micro dùng để thu dùng để thu âm dạng cầm tay K H O A • Tiếng nói thu với tần số lấy mẫu 16000Hz, kích thước mẫu 16 bit Hướng phát triển: Trong thời gian ngắn, lượng liệu thu vào chưa phong phú (độ đa dạng số lượng), kết chưa xác Do đó, cải tiến độ xác hệ nhận dạng cách tăng cường mặt liệu huấn luyện 96 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khảo sát thêm đặc điểm ngữ âm Tiếng Việt mà có ảnh hưởng đến điệu, từ tạo vector đặc trưng tốt hơn, có khả đặc trưng cho tiếng nói Tiếng Việt cao Đây hướng phát triển khả quan tương lai K H O A C N TT – Đ H K H TN Việc tách tiếng chuỗi tín hiệu dừng mức kiểm tra mức lượng nó, điều dẫn đến việc tách từ chuỗi âm có tỉ lệ xác khơng cao Có thể dùng đặc tính tần số để hỗ trợ thêm cho việc tách từ loại bỏ khoảng lặng, độ ồn nhiễu 97 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Christine Englund, Speech recognition in the JAS 39 Gripen aircraft adaptation to speech at different G-loads, 2004, pp - [2] Steve Young et all, “The HTK Book”, the Cambridge University Engineering Department, July 2000 [3] Lawrence Rabiner and Biing-Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall, 1993 [4] Đỗ Xuân Đạt -Võ Văn Tuấn, Luận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 2003 [5] Bob Dunn, Speech Signal Processing and Speech Recognition, 29 April 2003 [6] Arnon Cohen and Yaniv Zigel, Feature Selection in Speaker Verification Systems, Electrical and Computer Eng Dept., Ben-Gurion University, BeerSheva, Israel [7] Keiichi Tokuda, HMM-Based Speech Synthesis toward Human-like Talking Machines K H O A C N TT – Đ H K H TN [1] 98 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục MỘT SỐ CƠNG CỤ TRONG HTK HCopy HCopy cơng cụ HTK dùng để chuyển đổi dạng tập tin hỗ trợ nói HCopy sử dụng theo cách sau: K H TN HTK (xem hình 4.5), cơng cụ để rút trích đặc trưng tập tin chứa tiếng Bước 1: Tạo tập tin script (chẳng hạn đặt tên convert.scp) dùng để chứa tên tập tin cần chuyển đổi tên tập tin kết Mỗi dòng tập tin script chứa: Tên_tập_tin_cần_xử_lý Tên_tập_tin_kết_quả_tương_ứng Ví dụ: Đ H Data\Nhanh\MFCC\nhanh.001.mfcc Data\Nhanh\MFCC\nhanh.002.mfcc Data\Nhanh\MFCC\nhanh.003.mfcc Data\Nhanh\MFCC\nhanh.004.mfcc Data\Nhanh\MFCC\nhanh.005.mfcc Data\Nhanh\MFCC\nhanh.006.mfcc – Data\Nhanh\Wav\nhanh.001.wav Data\Nhanh\Wav\nhanh.002.wav Data\Nhanh\Wav\nhanh.003.wav Data\Nhanh\Wav\nhanh.004.wav Data\Nhanh\Wav\nhanh.005.wav Data\Nhanh\Wav\nhanh.006.wav C N TT Bước 2: Tạo tập tin cấu hình chứa thơng tin (đặt tên HCopy.cfg) kiểu tập tin nguồn, kiểu tập tin đích, tần số nguồn đích, kích thước cửa sổ (đều tính 100ns) (các thuộc tính khác để mặc định) K H O A Ví dụ: SOURCEKIND = WAVEFORM #dạng hình sóng SOURCEFORMAT = WAV #kiểu tập tin wav SOURCERATE = 625 #tần số tập tin nguồn 16KHz TARGETKIND = LPCEPSTRA #kiểu tập tin kết LPCEPSTRA TARGETFORMAT = HTK #kiểu tập tin HTK TARGETRATE = 100000 #tần số tập tin kết 100Hz WINDOWSIZE = 250000.0 #kích thước cửa sổ 25ms 99 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bước 3: Thực thi HCopy với dòng lệnh tham số tập tin tạo được, chẳng hạn sau: HCopy –C HCopy.cfg –S convert.scp Kết thúc trình, ta tạo tập tin kết mong muốn HCompV K H TN HCompV dùng để khởi tạo mơ hình Markov ẩn tập huấn luyện chưa đánh nhãn, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Tạo tập tin mơ hình HMM prototype (tên proto) HCompV –S train.scp proto H Bước 3: Thực thi HCompV với dòng lệnh tham số, chẳng hạn như: HInit – Đ Kết thúc trình ta thu HMM khởi tạo tập tin “proto” HInit dùng để khởi tạo mơ hình Markov ẩn với tập huấn luyện C N TT đánh nhãn tập tin dùng để huấn luyện chứa từ (hoặc âm vị) ứng với tập tin mơ hình, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Tạo tập tin mơ hình HMM prototype (tên proto) K H O A Bước 3: Thực thi HInit với dịng lệnh tham số nó, chẳng hạn sau: HInit –S train.scp proto Kết thúc trình ta thu HMM khởi tạo tập tin “proto” HParse HParse dùng để tạo tập tin mơ hình ngơn ngữ (dạng mạng) từ tập tin văn phạm, sử dụng cách sau: 100 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bước 1: Tạo tập tin văn phạm phù hợp với hệ thống nhận dạng xây dựng (đặt tên grammar), chẳng hạn chứa nội dung sau: K H TN ( sil (one | two | three | four | five | six | seven | eight | nine | zero) sil ) Bước 2: Thực thi HParse với dịng lệnh tham số nó, chẳng hạn sau: HParse grammar lattice Kết thúc trình ta thu mạng ngơn ngữ tập tin lattice, tập tin HRest Đ H dùng HVite HRest dùng để huấn luyện mơ hình Markov ẩn, sử dụng – cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện C N TT (chẳng hạn đặt tên train.scp) Bước 2: Khởi tạo tập tin mơ hình HMM (bằng HInit HCompV) (chẳng hạn với từ nhanh – tên tập tin HMM nhanh) Bước 3: Thực thi HRest với dòng lệnh tham số, chẳng hạn như: HRest –S train.scp nhanh K H O A Kết thúc trình ta thu HMM huấn luyện tập tin “nhanh” HERest HERest dùng để huấn luyện hệ nhận dạng tiếng nói mơ hình âm vị, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Chuẩn bị tập tin như: danh sách tên mơ hình HMM hmmlist, tập mơ hình HMM khởi tạo hmmset, Master 101 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Label chứa tất mô tả (hoặc đánh nhãn) liệu huấn luyện train.mlf Bước 3: Thực thi HERest với dòng lệnh tham số, chẳng hạn như: HERest –I train.mlf –S train.scp –H hmmset hmmlist K H TN Bước nên thực lần, kết thúc trình ta thu tập mơ hình HMM huấn luyện hmmset HVite HVite dùng để nhận dạng hệ nhận dạng tiếng nói mơ hình Markov ẩn, sử dụng cách sau: Bước 1: Tạo tập tin script chứa tất tập tin cần nhận dạng (chẳng hạn H đặt tên test.scp) Bước 2: Chuẩn bị tập tin như: từ điển phát âm dictionary, mạng ngôn Đ ngữ lattice, danh sách tên mơ hình HMM hmmlist, tập mơ – hình HMM huấn luyện hmmset Bước 3: Thực thi HVite với dòng lệnh tham số, chẳng hạn như: C N TT HVite –w lattice –i recout.mlf –S test.scp –H hmmset dictionary hmmlist Kết thúc trình ta thu tập tin recout.mlf, tập tin Master Label K H O A chứa mô tả liệu cần nhận dạng 102 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... xử lý tiếng nói Nhận dạng từ liên tục nhận dạng từ cách biệt C N TT 1.2.2.1 – 1.2.2 Phân loại nhận dạng tiếng nói Một hệ nhận dạng tiếng nói hai dạng: nhận dạng liên tục nhận dạng từ Nhận dạng. .. tử,… 1.2.4 Lý thuyết nhận dạng tiếng nói Nhận dạng tiếng nói kỹ thuật nhận thành phần lời nói người Tiến trình thực từ việc thu vào tín hiệu tiếng nói từ micro, kết thúc từ nhận dạng hệ thống xuất... 1.1 Nhận dạng 1.2 Nhận dạng tiếng nói .9 1.2.1 Xử lý âm 1.2.2 Phân loại nhận dạng tiếng nói 10 1.2.2.1 Nhận dạng từ liên tục nhận dạng từ cách