Thiết kế hệ nhúng nhận dạng tiếng việt nói

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI * LUẬN VĂN THẠC SĨ KHOA HỌC Ngành: Xử lý Thông tin Truyền thông Đề tài: THIẾT KẾ HỆ NHÚNG NHẬN DẠNG TIẾNG VIỆT NÓI LÊ BÁ VUI Hà Nội, 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI * LUẬN VĂN THẠC SĨ KHOA HỌC Ngành: Xử lý Thông tin Truyền thông Đề tài: THIẾT KẾ HỆ NHÚNG NHẬN DẠNG TIẾNG VIỆT NÓI Design of embedded system for Vietnamese recognition LÊ BÁ VUI Người hướng dẫn khoa học: TS TRỊNH VĂN LOAN Hà Nội, 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -1- LỜI MỞ ĐẦU Nhận dạng tiếng nói tự động khơng cịn xa lạ với người Đã có hệ thống xây dựng có sử dụng nhận dạng tiếng nói điều khiển máy tính giọng nói, quay số điện thoại giọng nói… Tuy nhiên, hệ thống phát triển dựa công nghệ đại với hệ thống máy tính lớn sở liệu tiếng nói hồn chỉnh (ngơn ngữ chủ yếu tiếng Anh, tiếng Pháp) Ở Việt Nam, việc nghiên cứu phát triển hệ thống nhận dạng tiếng nói bước đầu chủ yếu thực máy tính việc phát triển hệ thống nhận dạng tiếng nói hệ nhúng chưa nghiên cứu nhiều Với mục đích tìm hiểu góp phần phát triển chương trình nhận dạng tiếng nói hệ nhúng, tác giả thực đề tài “Thiết kế hệ nhúng nhận dạng tiếng Việt nói” Đề tài thực việc tìm hiểu thiết kế hệ nhúng có khả nhận dạng từ tiếng Việt rời rạc, số lượng từ vựng hạn chế Để hoàn thành luận văn, xin cảm ơn TS TRỊNH VĂN LOAN, bận rộn dành thời gian hướng dẫn tận tình cho tơi lời khuyên quý báu Đại học Bách khoa Hà Nội, 11/2009 Học viên thực Lê Bá Vui Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -2- MỤC LỤC PHẦN I TỔNG QUAN VỀ HỆ NHÚNG 1.1 Giới thiệu chung 1.2 Đặc điểm hệ nhúng 1.3 Các kiến trúc phần mềm hệ thống nhúng 12 1.4 Giới thiệu số hệ nhúng 15 1.4.1 DSK C6713 15 1.4.2 T-Engine 17 PHẦN II TÌM HIỂU DSPIC30F6014A VÀ CODEC SI3000 .21 2.1 Vi điều khiển dsPIC30F6014A 21 2.1.1 Giới thiệu chung 21 2.1.2 Nhân vi điều khiển dsPIC30F6014A 22 2.2 Module DCI (Data Converter Interface) 24 2.2.1 Giới thiệu chung module DCI 24 2.2.2 Hoạt động khối DCI .26 2.3 Codec Si3000 .37 2.3.1 Sơ đồ chân .37 2.3.2 Đặc điểm codec Si3000 38 2.3.3 Các ghi .39 2.3.4 Mô tả chức 43 PHẦN III TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI 48 3.1 Giới thiệu chung 48 3.2 Tín hiệu tiếng nói 49 3.2.1 Cơ chế tạo tiếng nói 49 3.2.2 Biểu diễn tín hiệu tiếng nói 51 3.3 Trích chọn tham số tiếng nói .52 3.3.1 Phương pháp tiên đốn tuyến tính 52 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -3- 3.3.2 Phương pháp phổ mel – tần số 53 3.3.2.1 Cepstrum 54 3.3.2.2 Thang đo mel 55 3.4 Trích chọn tham số đặc trưng tiếng nói theo phương pháp phổ mel – tần số 56 3.4.1 Xác định khoảng lặng 57 3.4.2 Lọc hiệu chỉnh .58 3.4.3 Phân khung 59 3.4.4 Lấy cửa sổ .60 3.4.5 Tính DFT .60 3.4.6 Băng lọc tam giác 61 3.4.7 Biến đổi Cosine rời rạc 62 3.4.8 Cepstral có trọng số .62 3.5 Lượng tử hóa vector 62 3.5.1 Đặc điểm lượng tử hóa vector 63 3.5.2 Xây dựng codebook 64 3.6 Mơ hình Markov ẩn .66 3.6.1 Giới thiệu chung mơ hình Markov ẩn 66 3.6.2 Mô hình Markov rời rạc mặt thời gian .66 3.6.3 Mơ hình Markov ẩn rời rạc mặt thời gian 67 3.6.4 Ba tốn mơ hình Markov ẩn 68 3.6.4.1 Bài toán thứ nhất, đánh giá xác suất 68 3.6.4.2 Bài tốn thứ hai, tìm dãy trạng thái tối ưu .70 3.6.4.3 Bài tốn thứ ba, ước lượng tham số mơ hình 71 3.6.5 Những vấn đề khác mơ hình Markov ẩn .73 3.6.5.1 Các loại mơ hình Markov ẩn 73 3.6.5.2 Mật độ quan sát rời rạc mật độ quan sát liên tục .76 3.6.5.3 Huấn luyện với nhiều dãy quan sát 76 3.6.5.4 Khởi tạo tham số ước lượng mơ hình .77 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -4- PHẦN IV THIẾT KẾ HỆ THỐNG NHÚNG 78 4.1 Yêu cầu chung hệ thống 78 4.2 Thiết kế sơ đồ khối hệ thống nhúng 78 4.3 Thiết kế chi tiết phần cứng 79 4.3.1 Khối vi điều khiển dsPIC 79 4.3.2 Khối giao tiếp Codec 81 4.3.3 Khối giao tiếp MMC .82 4.3.4 Khối ghép nối LCD .83 4.3.5 Khối ghép nối UART 83 4.3.6 Khối cung cấp nguồn 84 4.3.7 Khối ghép nối nút bấm 85 4.3.8 Khối giao tiếp Led 86 4.3.9 Khối tạo dao động 86 4.3.10 Khối ghép nối với kit lập trình 87 4.4 Thiết kế chi tiết phần mềm 87 4.4.1 Giao tiếp với Codec .87 4.4.2 Giao tiếp với MMC .89 4.4.3 Giao tiếp với LCD 90 4.4.4 Giao tiếp với nút bấm 92 4.4.5 Giao tiếp với Led 93 4.4.6 Giao tiếp UART 93 4.4.7 Mơ đun trích chọn đặc trưng 94 4.4.8 Mô đun nhận dạng .95 4.4.9 Mô đun tạo codebook (thực PC) 97 4.4.10 Mô đun huấn luyện (thực PC) 99 4.4.11 Một số phương pháp tối ưu chương trình 100 PHẦN V KẾT QUẢ THỬ NGHIỆM HỆ THỐNG 103 PHẦN VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 110 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -5- PHỤ LỤC Bài báo dự kiến tham gia hội nghị FAIR tháng 12 năm 2009 Hà Nội .111 TÀI LIỆU THAM KHẢO 122 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -6- MỤC LỤC HÌNH Hình 1.1 Kit xử lý tín hiệu số C6713 .15 Hình 1.2 Sơ đồ khối DSK C6713 16 Hình 1.3 Kit T-Engine SH7760 .19 Hình 1.4 Sơ đồ khối kit T-Engine SH7760 20 Hình 2.1 Sơ đồ chân dsPIC30F6014A-30I/PF 22 Hình 2.2 Sơ đồ khối module DCI 26 Hình 2.3 Khung đồng thời gian, chế độ đa kênh 30 Hình 2.4 Khung đồng thời gian, AC-link Start khung .30 Hình 2.5 Khung giao diện I2S đồng thời gian 30 Hình 2.6 Sơ đồ cấu tạo chân Si3000 37 Hình 2.7 Sơ đồ mơ tả chức Si3000 43 Hình 2.8 Giản đồ thời gian yêu cầu khung thứ cấp 45 Hình 2.9 Giản đồ thời gian chu kỳ viết khung thứ cấp 46 Hình 2.10 Giản đồ thời gian chu kỳ đọc khung thứ cấp 46 Hình 2.11 Hệ thống phát clock Si3000 46 Hình 3.1 Sơ đồ trình hình thành cảm nhận tiếng nói 49 Hình 3.2 Bộ máy phát âm người .50 Hình 3.3 Sơ đồ khối máy phát âm 50 Hình 3.4 Biểu diễn tín hiệu miền thời gian 51 Hình 3.5 Biểu diễn tín hiệu miền tần số .51 Hình 3.6 Biểu diễn Spectrogram tín hiệu 52 Hình 3.7 Mơ hình tuyến âm .52 Hình 3.8 Các bước tính tốn cepstrum thực 54 Hình 3.9.Cepstrum tín hiệu kích thích lọc tuyến âm 55 Hình 3.10 Đồ thị hàm chuyển đổi Hz mel 56 Hình 3.11 Sơ đồ trích chọn tham số đặc trưng tiếng nói .57 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -7- Hình 3.12 Phân khung tín hiệu tiếng nói .59 Hình 3.13 Sơ đồ băng lọc tam giác 61 Hình 3.14 Mơ hình Markov ẩn liên kết đầy đủ với trạng thái 74 Hình 3.15 Mơ hình Markov ẩn liên kết trái-phải với trạng thái 75 Hình 4.1 Sơ đồ khối hệ nhúng 78 Hình 4.2 Vi điều khiển dsPIC 80 Hình 4.3 Giao tiếp với Codec Si3000 81 Hình 4.4 Giao tiếp với thẻ nhớ MMC 82 Hình 4.5 Ghép nối với LCD 83 Hình 4.6 Ghép nối với máy tính thơng qua UART 84 Hình 4.7 Khối cung cấp nguồn cho hệ thống 84 Hình 4.8 Giao tiếp với nút bấm 85 Hình 4.9 Giao tiếp với đèn Led .86 Hình 4.10 Khối tạo dao động 86 Hình 4.11 Khối ghép nối với kit lập trình 87 Hình 4.12 Sơ đồ thực mơ đun nhận dạng .95 Hình 4.13 Sơ đồ thực việc tạo codebook 97 Hình 4.14 Sơ đồ thực module huấn luyện mơ hình .99 Hình 5.1 Hệ nhúng nhận dạng tiếng Việt rời rạc 103 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -8- MỤC LỤC BẢNG Bảng 1.1 Các đặc tả T-Engine SH7760 19 Bảng 2.1 Tần số clock tương ứng với tốc độ lấy mẫu 32 Bảng 2.2 Chức chân Si3000 .38 Bảng 2.4 Các chế độ Si3000 44 Bảng 5.1 Thử nghiệm hệ thống nhận dạng cho người nói huấn luyện 107 Bảng 5.2 Thử nghiệm hệ thống nhận dạng cho người nói chưa huấn luyện 108 Bảng 5.3 Thử nghiệm hệ thống nhận dạng với nhiều người nói huấn luyện 109 Bảng 5.4 Thử nghiệm hệ thống nhận dạng với người nói chưa huấn luyện 109 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói - 118 - Số lần Độ xác Từ Số lần thử “không” 50 43 86% “một” 50 42 84% “hai” 50 45 90% “ba” 50 40 80% 85% Bảng Thử nghiệm hệ thống nhận dạng cho người nói chưa huấn luyện Kết cho thấy, huấn luyện thực người, nhận dạng hệ thống cho kết với tỷ lệ xác cao người tham gia huấn luyện Cịn với người khơng tham gia huấn luyện, nhận dạng tỷ lệ xác thấp nhiều Thử nghiệm Thử nghiệm hệ thống huấn luyện với nhiều người nói Các từ huấn luyện “khơng”, “một”, “hai”, “ba” Có người tham gia huấn luyện, người thu âm 20 lần với từ Người tham gia nhận dạng người huấn luyện, kết nhận dạng cho bảng Số lần Độ xác Từ Số lần thử “không” 50 50 100% “một” 50 49 98% Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói - 119 - “hai” 50 50 100% “ba” 50 48 96% 98.5% Bảng Thử nghiệm hệ thống nhận dạng với nhiều người nói huấn luyện Với trường hợp người tham gia nhận dạng người huấn luyện, kết nhận dạng bảng Số lần Độ xác Từ Số lần thử “khơng” 50 45 90% “một” 50 43 86% “hai” 50 46 92% “ba” 50 42 84% 88% Bảng Thử nghiệm hệ thống nhận dạng với người nói chưa huấn luyện Như vậy, trường hợp hệ thống thực huấn luyện nhiều người, nhận dạng, hệ thống cho kết nhận dạng với tỷ lệ cao người tham gia huấn luyện, cho kết nhận dạng với tỷ lệ thấp người không tham gia huấn luyện Tuy nhiên, trường hợp nhận dạng người không tham gia huấn luyện, tỷ lệ nhận dạng cao thử nghiệm 1, việc huấn luyện thực với nhiều người V Kết luận Hệ nhúng thiết kế cho phép nhận dạng từ rời rạc tiếng Việt thời gian thực, từ vựng hạn chế với tỷ lệ nhận dạng xác cao Đây phiên dùng cho thử nghiệm nên kết cấu mạch cần đưa thêm linh kiện vào để kiểm thử Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói - 120 - gỡ rối Với ứng dụng thực tế cần chế tạo hàng loạt hệ nhúng , không cần thiết đưa thêm linh kiện nên kết cấu kích thước mạch cho phép đơn giản nhỏ gọn nhiều Để nâng cao tỷ lệ nhận dạng xác nhận dạng tiếng nói liên tục tiếng Việt, sử dụng kết nghiên cứu trình bày [4] [5] Tài liệu tham khảo [1] [2] Lê Bá Vui, “Thiết kế hệ nhúng nhận dạng tiếng Việt nói”, Luận văn cao học Đại học Bách khoa Hà Nội, 2009 Đoàn Hải Bằng, Trịnh Văn Loan, “Hệ thống nhận dạng tiếng Việt thời gian thực từ vựng hạn chế tích hợp hệ thống vào hệ điều hành Windows”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ hai nghiên cứu, phát triển ứng dụng Công nghệ Thông tin truyền thông ICT.rda, Hà Nội, 2004, pp 235241 [3] [4] [5] [6] [7] [8] [9] Nguyễn Hồng Quang, Trịnh Văn Loan, “Nhận dạng tiếng nói tiếng Việt phát âm liên tục”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ hai nghiên cứu, phát triển ứng dụng Công nghệ Thông tin truyền thơng ICT.rda, Hà Nội, 2004, pp 243-250 Nguyễn Phú Bình, Trịnh Văn Loan, “Vietnamese Speech Recognition using Subword Models and Test Experiments for Comparing Some Methods of Vietnamese”, Proceedings of the 3rd National Symposium on Research, Developpment and Application of Information and Communication, Hà Nội, 2006, pp 187-196 Nguyen Hong Quang, P Nocera, E Castelli, Trinh Van Loan, “A Novel Approach in Continuous Speech Recognition for Vietnamese, an Isolating Tonal Language”, Proceedings of the INTERSPEECH 2008, Brisbane, Australia, 22-26 September, 2008, pp 1149-1152 Stuart R Ball, “Embedded Microprocessor Systems Real World Design”, Newnes L R Rabiner, B H Juang, “Fundamentals of Speech Recognition”, Prentice Hall Inc., 1993 L R Rabiner, “A tutorial on Hidden Markov Models and selected applications in speech recognition”, IEEE Proceedings, vol 77, no 2, pp 257–286, 1989 Các tài liệu dsPIC Microchip a dsPIC30F Family Reference Manual Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói b c d e dsPIC30F Programmer’s Reference Manual MPLAB C30 C Compiler User’s Guide dsPIC30F6014A datasheet Si3000 Codec datasheet Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 - 121 - Thiết kế hệ nhúng nhận dạng tiếng Việt nói - 122 - TÀI LIỆU THAM KHẢO [1] [2] Lê Bá Vui, “Hệ nhúng nhận dạng tiếng Việt”, Đồ án Tốt nghiệp Đại học Bách khoa Hà Nội, 2007 Đoàn Hải Bằng, Trịnh Văn Loan, “Hệ thống nhận dạng tiếng Việt thời gian thực từ vựng hạn chế tích hợp hệ thống vào hệ điều hành Windows”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ hai nghiên cứu, phát triển ứng dụng Công nghệ Thông tin truyền thông ICT.rda, Hà Nội, 2004, pp 235241 [3] [4] [5] [6] [7] [8] [9] Nguyễn Hồng Quang, Trịnh Văn Loan, “Nhận dạng tiếng nói tiếng Việt phát âm liên tục”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ hai nghiên cứu, phát triển ứng dụng Công nghệ Thông tin truyền thông ICT.rda, Hà Nội, 2004, pp 243-250 Nguyễn Phú Bình, Trịnh Văn Loan, “Vietnamese Speech Recognition using Subword Models and Test Experiments for Comparing Some Methods of Vietnamese”, Proceedings of the 3rd National Symposium on Research, Developpment and Application of Information and Communication, Hà Nội, 2006, pp 187-196 Nguyen Hong Quang, P Nocera, E Castelli, Trinh Van Loan, “A Novel Approach in Continuous Speech Recognition for Vietnamese, an Isolating Tonal Language”, Proceedings of the INTERSPEECH 2008, Brisbane, Australia, 22-26 September, 2008, pp 1149-1152 Stuart R Ball, “Embedded Microprocessor Systems Real World Design”, Newnes L R Rabiner, B H Juang, “Fundamentals of Speech Recognition”, Prentice Hall Inc., 1993 L R Rabiner, “A tutorial on Hidden Markov Models and selected applications in speech recognition”, IEEE Proceedings, vol 77, no 2, pp 257–286, 1989 Các tài liệu dsPIC Microchip a dsPIC30F Family Reference Manual b dsPIC30F Programmer’s Reference Manual c MPLAB C30 C Compiler User’s Guide d dsPIC30F6014A datasheet e Si3000 Codec datasheet Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 THIẾT KẾ HỆ NHÚNG NHẬN DẠNG TIẾNG VIỆT NĨI Lê Bá Vui, Trịnh Văn Loan Tóm tắt báo Hệ nhúng nhận dạng tiếng Việt nói chúng tơi thiết kế xây dựng hồn chỉnh cho phép nhận dạng từ tiếng Việt rời rạc huấn luyện theo thời gian thực, với tỷ lệ nhận dạng trung bình 95% Về phần cứng, hệ nhúng sử dụng vi điều khiển dsPIC30F6014A hãng Microchip để tính tốn điều khiển hoạt động hệ thống Codec Si3000 sử dụng để giao tiếp với tín hiệu âm Ngồi ra, hệ nhúng cịn có giao tiếp khác nhằm nâng cao hiệu hệ thống giao tiếp với thẻ nhớ để lưu trữ tham số hệ thống, giao tiếp với máy tính để trao đổi liệu, … Kết thể trực quan thông qua LCD đèn Led Về phần mềm, chương trình viết ngơn ngữ C sử dụng trình dịch C30 hãng Microchip Bài tốn nhận dạng tiếng nói sử dụng phương pháp trích chọn đặc trưng phổ mel – tần số, phương pháp đối sánh mẫu sử dụng mơ hình Markov ẩn Pha huấn luyện tốn thực máy tính nhằm tạo từ điển codebook mơ hình HMM Sau đó, liệu lưu vào thẻ nhớ phục vụ cho pha nhận dạng thời gian thực thực hệ nhúng Từ khóa: thiết kế hệ nhúng, nhận dạng tiếng Việt nói, mơ hình Markov ẩn, xử lý tín hiệu số Abstract Embedded system for Vietnamese recognition designed and built completely by us is able to recognize Vietnamese speech in real-time, with recognition ratio more than 95% In hardware, this embedded system uses dsPIC30F6014A micro controller of Microchip to compute and to control all operates of system Si3000 codec is used to interface with speech signal The embedded system has other interfaces to improve performance such as interface with memory card to store models of the system or interface with personal computer to transfer data… The results are displayed via LCD or LED In software, the firmware of system is written by C language using C30 compiler of Microchip Speech recognition uses Mel – Frequency algorithm to extract features and hidden Markov model to recognize patterns Training phase is done on personal computer to create codebook and HMM models After that, this data stored into memory card is used in recognition phase in embedded system Keyword: Design, Embedded System, Vietnamese Speech Recognition, Hidden Markov Model, Digital Signal Processor I Đặt vấn đề Nhận dạng tiếng nói tự động từ lâu mơ ước người Trong năm gần đây, mà khoa học công nghệ tiến cho phép ước mơ trở thành thực Trong sống có nhiều ứng dụng cần đến nhận dạng tự động tiếng nói nhập liệu máy tính lời, hỗ trợ người tàn tật, quay số điện thoại lời nói, Hiện giới có số hệ thống nhận dạng tiếng nói cỡ lớn, có độ xác tương đối cao Các hệ thống chủ yếu phát triển công nghệ đại với máy tính lớn, vi mạch xử lý tiếng nói chuyên dụng sử dụng sở liệu tiếng nói hồn chỉnh (chủ yếu tiếng Anh, tiếng Pháp) Ở Việt Nam, việc nghiên cứu phát triển hệ thống nhận dạng tiếng nói cịn bước đầu chủ yếu thực máy tính việc phát triển hệ thống nhận dạng tiếng nói hệ nhúng chưa nghiên cứu nhiều Bài báo trình bày việc thiết kế xây dựng hệ thống nhúng cho phép nhận dạng tiếng Việt nói rời rạc thời gian thực II Thiết kế hệ thống nhúng 2.1 Yêu cầu chung hệ thống Yêu cầu đặt thiết kế xây dựng hệ nhúng cho phép nhận dạng từ tiếng Việt rời rạc số lượng từ vựng hạn chế thời gian thực Với yêu cầu vậy, hệ thống cần có số chức sau: • Có khả giao tiếp với tín hiệu âm để tiến hành việc thu âm tín hiệu tiếng nói • Các nút bấm để thực chức • Hiển thị kết thơng qua đèn Led LCD • Giao tiếp với máy tính để truyền nhận liệu • Giao tiếp với thẻ nhớ để lưu liệu • Cung cấp nguồn cho khối hoạt động 2.2 Lựa chọn thiết bị phần cứng Với yêu cầu hệ thống đặt ra, việc lựa chọn vi điều khiển để xây dựng hệ nhúng hợp lý Các dịng vi điều khiển xử lý tín hiệu số có thị trường dsPIC Microchip, TMS Texas Instrument, ARM Atmel … sử dụng để xây dựng hệ nhúng Vi điều khiển dsPIC30F6014A lựa chọn với lý sau: Đây dịng vi điều khiển xử lý tín hiệu số Microchip có tốc độ lớn, hiệu cao, hỗ trợ lệnh xử lý tín hiệu số Ngồi ra, dịng vi điều khiển có giao diện ghép nối với codec để làm việc với tín hiệu tiếng nói đơn giản Cơng cụ để làm việc bao gồm biên dịch C30 thư viện cung cấp miễn phí Microchip Việc tìm mua linh kiện để làm việc với vi điều khiển Việt Nam thực được, thuận tiện cho việc thay sửa chữa 2.3 Thiết kế sơ đồ khối hệ thống nhúng Hệ thống nhúng thiết kế theo sơ đồ khối hình 1: Nguồn cung cấp LEDs LCD DCI Codec Si3000 SPI Thẻ nhớ MMC Vi điều khiển dsPIC30F6014A Buttons RS232 Máy tính Hình Sơ đồ khối hệ nhúng Vi điều khiển dsPIC30F6014A đóng vai trị xử lý trung tâm, có nhiệm vụ xử lý tính tốn điều khiển tồn khối cịn lại Đầu vào hệ thống tín hiệu tiếng nói thu âm thông qua micro tới codec Si3000, codec giao tiếp với vi điều khiển module DCI Giắc cắm micro loại giắc chuẩn 3,5mm Ngồi cịn có nút bấm cho phép thực số chức hệ thống Kết hiển thị thông qua LCD đèn Led Dữ liệu hệ thống bao gồm mơ hình codebook lưu trữ thẻ nhớ MMC Vi điều khiển giao tiếp với thẻ nhớ thơng qua module SPI Hệ thống giao tiếp với máy tính thơng qua cổng Com theo giao thức RS232 Việc giao tiếp với máy tính nhằm truyền liệu lên máy tính để thực pha huấn luyện mơ hình truyền liệu từ máy tính xuống hệ nhúng để lưu liệu cần thiết vào thẻ nhớ Ngồi mạch cịn có chân cắm ICSP cho phép nạp chương trình cách thuận tiện Nguồn cung cấp cho hệ thống bao gồm việc cung cấp nguồn điện cho mạch tích hợp hoạt động Mạch tích hợp bao gồm vi điều khiển dsPIC30F6014A, codec Si3000, chuyển đổi tín hiệu Max232, thẻ nhớ MMC Các mạch tích hợp hoạt động điện áp khác nhau, nguồn điện cần cung cấp đầy đủ điện áp 2.4 Thiết kế phần mềm Phần mềm hệ nhúng viết ngơn ngữ C, hỗ trợ trình dịch C30 Microchip Phần mềm điều khiển thực việc ghép nối vi điều khiển dsPIC30F6014A với khối chức hệ thống Phương pháp nhận dạng tiếng nói sử dụng hệ nhúng phương pháp sử dụng nhiều ứng dụng nhận dạng tiếng nói Việc trích chọn đặc trưng tiếng nói thực theo phương pháp phổ mel – tần số Sau đó, mơ hình Markov ẩn sử dụng để đối sánh mẫu Do khả tính tốn tài ngun vi điều khiển bị hạn chế, tồn tốn nhận dạng tiếng nói khơng thực hồn tồn hệ nhúng Pha huấn luyện toán thực máy tính nhằm tạo mơ hình, sau lưu trữ vào thẻ nhớ Hệ nhúng thực pha nhận dạng thời gian thực Để giảm thiểu sai số tính tốn dsPIC6014A máy tính, việc trích chọn đặc trưng thực hồn tồn hệ nhúng IV Các kết thực nghiệm Hình hình ảnh hệ nhúng thiết kế Hệ thống nhúng có khả nhận dạng từ rời rạc tiếng Việt huấn luyện Hình Hệ nhúng nhận dạng tiếng Việt rời rạc Số lượng từ mà hệ thống nhận dạng phụ thuộc vào dung lượng thẻ nhớ, yếu tố thời gian thực phụ thuộc vào thời gian tính toán vi điều khiển dsPIC30F6014A thời gian truy nhập thẻ nhớ để đọc mơ hình huấn luyện Thẻ nhớ sử dụng để lưu tham số mơ hình từ điển codebook, ngồi sử dụng để lưu liệu tạm thời trình hoạt động hệ thống Thẻ nhớ sử dụng có dung lượng 128MB Mỗi mơ hình cần 1380 bytes từ điển codebook cần 3328 bytes không gian thẻ nhớ để lưu trữ Do vậy, theo lý thuyết, số lượng từ huấn luyện lên đến hàng trăm từ Tuy nhiên, hệ nhúng có số từ huấn luyện nhiều thời gian để nhận dạng từ lại lâu hơn, ảnh hưởng đến yếu tố thời gian thực Yếu tố thời gian thực ngồi việc phụ thuộc vào thời gian tính toán dsPIC30F6014A thời gian truy nhập thẻ nhớ để đọc tham số mơ hình từ điển, cịn phụ thuộc vào số lượng từ huấn luyện Thời gian để thực việc trích chọn đặc trưng cho từ phát âm khoảng 1.4s, thời gian thực lâu chủ yếu phần tính tốn theo thuật tốn FFT để xác định phổ tín hiệu Thời gian thực so sánh với mơ hình khoảng 7.2ms Các tham số sử dụng để dự liệu khả nhận dạng thời gian thực hệ nhúng với vốn từ vựng cho trước tùy theo yêu cầu cụ thể thực tế Thử nghiệm hệ thống nhận dạng Trong pha huấn luyện, người nói thu âm thơng qua micro nối với hệ nhúng phát âm theo từ xác định, từ lưu vào từ điển để nhận dạng Hệ nhúng tiến hành trích chọn đặc trưng, đặc trưng truyền lên PC để tiến hành q trình tạo codebook huấn luyện theo tốn thứ cùa mơ hình Markov ẩn Mỗi từ từ điển tạo mơ hình riêng Các mơ hình sau huấn luyện codebook để lượng tử hóa truyền lại xuống hệ nhúng lưu vào thẻ nhớ Trong pha nhận dạng, người sử dụng nói vào micro từ từ điển Hệ nhúng thực thao tác nhận dạng hiển thị kết lên hình LCD Thử nghiệm Thử nghiệm hệ thống nhận dạng đối cho người nói huấn luyện Các từ huấn luyện: “khơng”, “một”, “hai”, “ba” Mỗi từ thu âm 50 lần Người nói tham gia nhận dạng người huấn luyện, kết nhận dạng bảng 1: Số lần Độ xác Từ Số lần thử “khơng” 50 50 100% “một” 50 50 100% “hai” 50 50 100% “ba” 50 48 96% 99% Bảng Thử nghiệm hệ thống nhận dạng cho người nói huấn luyện Người nói tham gia nhận dạng khơng phải người huấn luyện, kết nhận dạng bảng Số lần Độ xác Từ Số lần thử “không” 50 43 86% “một” 50 42 84% “hai” 50 45 90% “ba” 50 40 80% 85% Bảng Thử nghiệm hệ thống nhận dạng cho người nói chưa huấn luyện Kết cho thấy, huấn luyện thực người, nhận dạng hệ thống cho kết với tỷ lệ xác cao người tham gia huấn luyện Cịn với người khơng tham gia huấn luyện, nhận dạng tỷ lệ xác thấp nhiều Thử nghiệm Thử nghiệm hệ thống huấn luyện với nhiều người nói Các từ huấn luyện “khơng”, “một”, “hai”, “ba” Có người tham gia huấn luyện, người thu âm 20 lần với từ Người tham gia nhận dạng người huấn luyện, kết nhận dạng cho bảng Số lần Độ xác Từ Số lần thử “không” 50 50 100% “một” 50 49 98% “hai” 50 50 100% “ba” 50 48 96% 98.5% Bảng Thử nghiệm hệ thống nhận dạng với nhiều người nói huấn luyện Với trường hợp người tham gia nhận dạng người huấn luyện, kết nhận dạng bảng Số lần Độ xác Từ Số lần thử “không” 50 45 90% “một” 50 43 86% “hai” 50 46 92% “ba” 50 42 84% 88% Bảng Thử nghiệm hệ thống nhận dạng với người nói chưa huấn luyện Như vậy, trường hợp hệ thống thực huấn luyện nhiều người, nhận dạng, hệ thống cho kết nhận dạng với tỷ lệ cao người tham gia huấn luyện, cho kết nhận dạng với tỷ lệ thấp người không tham gia huấn luyện Tuy nhiên, trường hợp nhận dạng người không tham gia huấn luyện, tỷ lệ nhận dạng cao thử nghiệm 1, việc huấn luyện thực với nhiều người V Kết luận Hệ nhúng thiết kế cho phép nhận dạng từ rời rạc tiếng Việt thời gian thực, từ vựng hạn chế với tỷ lệ nhận dạng xác cao Đây phiên dùng cho thử nghiệm nên kết cấu mạch cần đưa thêm linh kiện vào để kiểm thử gỡ rối Với ứng dụng thực tế cần chế tạo hàng loạt hệ nhúng , không cần thiết đưa thêm linh kiện nên kết cấu kích thước mạch cho phép đơn giản nhỏ gọn nhiều Để nâng cao tỷ lệ nhận dạng xác nhận dạng tiếng nói liên tục tiếng Việt, sử dụng kết nghiên cứu trình bày [4] [5] Tài liệu tham khảo [1] [2] [3] Lê Bá Vui, “Thiết kế hệ nhúng nhận dạng tiếng Việt nói”, Luận văn cao học Đại học Bách khoa Hà Nội, 2009 Đoàn Hải Bằng, Trịnh Văn Loan, “Hệ thống nhận dạng tiếng Việt thời gian thực từ vựng hạn chế tích hợp hệ thống vào hệ điều hành Windows”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ hai nghiên cứu, phát triển ứng dụng Công nghệ Thông tin truyền thông ICT.rda, Hà Nội, 2004, pp 235-241 Nguyễn Hồng Quang, Trịnh Văn Loan, “Nhận dạng tiếng nói tiếng Việt phát âm liên tục”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ hai nghiên cứu, phát triển ứng dụng Công nghệ Thông tin truyền thông ICT.rda, Hà Nội, 2004, pp 243250 [4] [5] [6] [7] [8] [9] Nguyễn Phú Bình, Trịnh Văn Loan, “Vietnamese Speech Recognition using Subword Models and Test Experiments for Comparing Some Methods of Vietnamese”, Proceedings of the 3rd National Symposium on Research, Developpment and Application of Information and Communication, Hà Nội, 2006, pp 187-196 Nguyen Hong Quang, P Nocera, E Castelli, Trinh Van Loan, “A Novel Approach in Continuous Speech Recognition for Vietnamese, an Isolating Tonal Language”, Proceedings of the INTERSPEECH 2008, Brisbane, Australia, 22-26 September, 2008, pp 1149-1152 Stuart R Ball, “Embedded Microprocessor Systems Real World Design”, Newnes L R Rabiner, B H Juang, “Fundamentals of Speech Recognition”, Prentice Hall Inc., 1993 L R Rabiner, “A tutorial on Hidden Markov Models and selected applications in speech recognition”, IEEE Proceedings, vol 77, no 2, pp 257–286, 1989 Các tài liệu dsPIC Microchip a dsPIC30F Family Reference Manual b dsPIC30F Programmer’s Reference Manual c MPLAB C30 C Compiler User’s Guide d dsPIC30F6014A datasheet e Si3000 Codec datasheet ... chương trình nhận dạng tiếng nói hệ nhúng, tác giả thực đề tài ? ?Thiết kế hệ nhúng nhận dạng tiếng Việt nói? ?? Đề tài thực việc tìm hiểu thiết kế hệ nhúng có khả nhận dạng từ tiếng Việt rời rạc, số... 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -4- PHẦN IV THIẾT KẾ HỆ THỐNG NHÚNG 78 4.1 Yêu cầu chung hệ thống 78 4.2 Thiết kế sơ đồ khối hệ thống nhúng 78 4.3 Thiết kế. .. thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 - 27 - Thiết kế hệ nhúng nhận dạng tiếng Việt nói - 28 -  Bit cho

Định dạng
Số trang	134
Dung lượng	3,52 MB