Hệ thống ụnhúng đượ ử ục s d ng trong rất nhiều lĩnh v c từự các thi t b cao cế ị ấp như v ệtinh, tên lửa, tàu con thoi đ n các thiết bị tiêu dùng như lò vi ba, máy sấy, máy hút bụi… ếTh
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI * LUẬN VĂN THẠC SĨ KHOA HỌC Ngành: Xử lý Thông tin Truyền thông Đề tài: THIẾT KẾ HỆ NHÚNG NHẬN DẠNG TIẾNG VIỆT NÓI LÊ BÁ VUI Hà Nội, 2009 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205166601000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI * LUẬN VĂN THẠC SĨ KHOA HỌC Ngành: Xử lý Thông tin Truyền thông Đề tài: THIẾT KẾ HỆ NHÚNG NHẬN DẠNG TIẾNG VIỆT NÓI Design of embedded system for Vietnamese recognition LÊ BÁ VUI Người hướng dẫn khoa học: TS TRỊNH VĂN LOAN Hà Nội, 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -1- LỜI MỞ ĐẦU Nhận dạng tiếng nói tự động khơng cịn xa lạ với người Đã có hệ thống xây dựng có sử dụng nhận dạng tiếng nói điều khiển máy tính giọng nói, quay số điện thoại giọng nói… Tuy nhiên, hệ thống phát triển dựa công nghệ đại với hệ thống máy tính lớn sở liệu tiếng nói hồn chỉnh (ngơn ngữ chủ yếu tiếng Anh, tiếng Pháp) Ở Việt Nam, việc nghiên cứu phát triển hệ thống nhận dạng tiếng nói bước đầu chủ yếu thực máy tính việc phát triển hệ thống nhận dạng tiếng nói hệ nhúng chưa nghiên cứu nhiều Với mục đích tìm hiểu góp phần phát triển chương trình nhận dạng tiếng nói hệ nhúng, tác giả thực đề tài “Thiết kế hệ nhúng nhận dạng tiếng Việt nói” Đề tài thực việc tìm hiểu thiết kế hệ nhúng có khả nhận dạng từ tiếng Việt rời rạc, số lượng từ vựng hạn chế Để hoàn thành luận văn, xin cảm ơn TS TRỊNH VĂN LOAN, bận rộn dành thời gian hướng dẫn tận tình cho tơi lời khuyên quý báu Đại học Bách khoa Hà Nội, 11/2009 Học viên thực Lê Bá Vui Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -2- MỤC LỤC PHẦN I TỔNG QUAN VỀ HỆ NHÚNG 1.1 Giới thiệu chung 1.2 Đặc điểm hệ nhúng 1.3 Các kiến trúc phần mềm hệ thống nhúng 12 1.4 Giới thiệu số hệ nhúng 15 1.4.1 DSK C6713 15 1.4.2 T-Engine 17 PHẦN II TÌM HIỂU DSPIC30F6014A VÀ CODEC SI3000 .21 2.1 Vi điều khiển dsPIC30F6014A 21 2.1.1 Giới thiệu chung 21 2.1.2 Nhân vi điều khiển dsPIC30F6014A 22 2.2 Module DCI (Data Converter Interface) 24 2.2.1 Giới thiệu chung module DCI 24 2.2.2 Hoạt động khối DCI .26 2.3 Codec Si3000 .37 2.3.1 Sơ đồ chân 37 2.3.2 Đặc điểm codec Si3000 38 2.3.3 Các ghi .39 2.3.4 Mô tả chức 43 PHẦN III TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI 48 3.1 Giới thiệu chung 48 3.2 Tín hiệu tiếng nói 49 3.2.1 Cơ chế tạo tiếng nói 49 3.2.2 Biểu diễn tín hiệu tiếng nói 51 3.3 Trích chọn tham số tiếng nói .52 3.3.1 Phương pháp tiên đốn tuyến tính 52 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -3- 3.3.2 Phương pháp phổ mel – tần số 53 3.3.2.1 Cepstrum 54 3.3.2.2 Thang đo mel 55 3.4 Trích chọn tham số đặc trưng tiếng nói theo phương pháp phổ mel – tần số .56 3.4.1 Xác định khoảng lặng 57 3.4.2 Lọc hiệu chỉnh .58 3.4.3 Phân khung 59 3.4.4 Lấy cửa sổ .60 3.4.5 Tính DFT .60 3.4.6 Băng lọc tam giác 61 3.4.7 Biến đổi Cosine rời rạc 62 3.4.8 Cepstral có trọng số .62 3.5 Lượng tử hóa vector 62 3.5.1 Đặc điểm lượng tử hóa vector 63 3.5.2 Xây dựng codebook 64 3.6 Mơ hình Markov ẩn .66 3.6.1 Giới thiệu chung mơ hình Markov ẩn 66 3.6.2 Mơ hình Markov rời rạc mặt thời gian .66 3.6.3 Mơ hình Markov ẩn rời rạc mặt thời gian 67 3.6.4 Ba tốn mơ hình Markov ẩn 68 3.6.4.1 Bài toán thứ nhất, đánh giá xác suất 68 3.6.4.2 Bài tốn thứ hai, tìm dãy trạng thái tối ưu .70 3.6.4.3 Bài toán thứ ba, ước lượng tham số mơ hình 71 3.6.5 Những vấn đề khác mô hình Markov ẩn .73 3.6.5.1 Các loại mơ hình Markov ẩn 73 3.6.5.2 Mật độ quan sát rời rạc mật độ quan sát liên tục .76 3.6.5.3 Huấn luyện với nhiều dãy quan sát 76 3.6.5.4 Khởi tạo tham số ước lượng mơ hình .77 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -4- PHẦN IV THIẾT KẾ HỆ THỐNG NHÚNG 78 4.1 Yêu cầu chung hệ thống 78 4.2 Thiết kế sơ đồ khối hệ thống nhúng 78 4.3 Thiết kế chi tiết phần cứng 79 4.3.1 Khối vi điều khiển dsPIC 79 4.3.2 Khối giao tiếp Codec 81 4.3.3 Khối giao tiếp MMC .82 4.3.4 Khối ghép nối LCD .83 4.3.5 Khối ghép nối UART 83 4.3.6 Khối cung cấp nguồn 84 4.3.7 Khối ghép nối nút bấm 85 4.3.8 Khối giao tiếp Led 86 4.3.9 Khối tạo dao động 86 4.3.10 Khối ghép nối với kit lập trình 87 4.4 Thiết kế chi tiết phần mềm 87 4.4.1 Giao tiếp với Codec .87 4.4.2 Giao tiếp với MMC .89 4.4.3 Giao tiếp với LCD 90 4.4.4 Giao tiếp với nút bấm 92 4.4.5 Giao tiếp với Led 93 4.4.6 Giao tiếp UART 93 4.4.7 Mô đun trích chọn đặc trưng 94 4.4.8 Mô đun nhận dạng .95 4.4.9 Mô đun tạo codebook (thực PC) 97 4.4.10 Mô đun huấn luyện (thực PC) 99 4.4.11 Một số phương pháp tối ưu chương trình 100 PHẦN V KẾT QUẢ THỬ NGHIỆM HỆ THỐNG 103 PHẦN VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 110 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -5- PHỤ LỤC Bài báo dự kiến tham gia hội nghị FAIR tháng 12 năm 2009 Hà Nội .111 TÀI LIỆU THAM KHẢO .122 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -6- MỤC LỤC HÌNH Hình 1.1 Kit xử lý tín hiệu số C6713 .15 Hình 1.2 Sơ đồ khối DSK C6713 16 Hình 1.3 Kit T-Engine SH7760 .19 Hình 1.4 Sơ đồ khối kit T-Engine SH7760 20 Hình 2.1 Sơ đồ chân dsPIC30F6014A-30I/PF 22 Hình 2.2 Sơ đồ khối module DCI 26 Hình 2.3 Khung đồng thời gian, chế độ đa kênh 30 Hình 2.4 Khung đồng thời gian, AC-link Start khung .30 Hình 2.5 Khung giao diện I2S đồng thời gian 30 Hình 2.6 Sơ đồ cấu tạo chân Si3000 37 Hình 2.7 Sơ đồ mơ tả chức Si3000 43 Hình 2.8 Giản đồ thời gian yêu cầu khung thứ cấp 45 Hình 2.9 Giản đồ thời gian chu kỳ viết khung thứ cấp 46 Hình 2.10 Giản đồ thời gian chu kỳ đọc khung thứ cấp 46 Hình 2.11 Hệ thống phát clock Si3000 46 Hình 3.1 Sơ đồ trình hình thành cảm nhận tiếng nói 49 Hình 3.2 Bộ máy phát âm người .50 Hình 3.3 Sơ đồ khối máy phát âm 50 Hình 3.4 Biểu diễn tín hiệu miền thời gian 51 Hình 3.5 Biểu diễn tín hiệu miền tần số .51 Hình 3.6 Biểu diễn Spectrogram tín hiệu 52 Hình 3.7 Mơ hình tuyến âm .52 Hình 3.8 Các bước tính tốn cepstrum thực 54 Hình 3.9.Cepstrum tín hiệu kích thích lọc tuyến âm 55 Hình 3.10 Đồ thị hàm chuyển đổi Hz mel 56 Hình 3.11 Sơ đồ trích chọn tham số đặc trưng tiếng nói .57 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -7- Hình 3.12 Phân khung tín hiệu tiếng nói .59 Hình 3.13 Sơ đồ băng lọc tam giác 61 Hình 3.14 Mơ hình Markov ẩn liên kết đầy đủ với trạng thái 74 Hình 3.15 Mơ hình Markov ẩn liên kết trái-phải với trạng thái 75 Hình 4.1 Sơ đồ khối hệ nhúng 78 Hình 4.2 Vi điều khiển dsPIC 80 Hình 4.3 Giao tiếp với Codec Si3000 81 Hình 4.4 Giao tiếp với thẻ nhớ MMC 82 Hình 4.5 Ghép nối với LCD 83 Hình 4.6 Ghép nối với máy tính thơng qua UART 84 Hình 4.7 Khối cung cấp nguồn cho hệ thống 84 Hình 4.8 Giao tiếp với nút bấm 85 Hình 4.9 Giao tiếp với đèn Led .86 Hình 4.10 Khối tạo dao động 86 Hình 4.11 Khối ghép nối với kit lập trình 87 Hình 4.12 Sơ đồ thực mô đun nhận dạng .95 Hình 4.13 Sơ đồ thực việc tạo codebook 97 Hình 4.14 Sơ đồ thực module huấn luyện mơ hình .99 Hình 5.1 Hệ nhúng nhận dạng tiếng Việt rời rạc 103 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009 Thiết kế hệ nhúng nhận dạng tiếng Việt nói -8- MỤC LỤC BẢNG Bảng 1.1 Các đặc tả T-Engine SH7760 19 Bảng 2.1 Tần số clock tương ứng với tốc độ lấy mẫu 32 Bảng 2.2 Chức chân Si3000 .38 Bảng 2.4 Các chế độ Si3000 44 Bảng 5.1 Thử nghiệm hệ thống nhận dạng cho người nói huấn luyện 107 Bảng 5.2 Thử nghiệm hệ thống nhận dạng cho người nói chưa huấn luyện 108 Bảng 5.3 Thử nghiệm hệ thống nhận dạng với nhiều người nói huấn luyện 109 Bảng 5.4 Thử nghiệm hệ thống nhận dạng với người nói chưa huấn luyện 109 Lê Bá Vui – Lớp Cao học Xử lý Thông tin Truyền thông 2007 – 2009