Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T - Engine SH7760
Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 LỜI NÓI ĐẦU PHẦN I GIỚI THIỆU T-ENGINE SH7760 1.1 Đặc tả T-Engine 1.2 Mơ hình tổng quan 1.3 Giao diện SH7760 PHẦN II TƠNG QUAN VỀ TÍN HIỆU TIẾNG NĨI 2.1 Q trình phát âm 10 2.2 Biểu diễn tín hiệu tiếng nói 11 2.3 Âm vị tiếng nói 13 2.4 Kết luận 15 PHẦN III 16 NHẬN DẠNG TIẾNG NÓI TRÊN T-ENGINE 16 3.1 Tổng quan 16 3.2 Phân tích tham số đặc trưng tín hiệu tiếng nói 19 3.2.1 Ghi âm tiền xử lý tín hiệu 20 3.2.2 Loại bỏ khoảng lặng 22 3.2.3 Phân khung hàm cửa sổ 24 3.2.4 Tách tham số đặc trưng 26 3.2.5 Đánh giá lượng 30 3.2.6 Các tham số tức thời (tham số động) 31 3.2.7 Hiệu chỉnh kết 33 3.2.8 Kết luận 34 3.3 Ứng dụng mơ hình Markov nhận dạng tiếng nói 34 3.3.1 Tổng quan HMM 35 3.3.2 Lựa chọn mơ hình Markov cho ứng dụng nhận dạng tiếng nói 47 PHẦN IV 53 TỔNG HỢP TIẾNG NÓI TRÊN T-ENGINE 53 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 4.1 Tổng quan tổng hợp tiếng nói 53 4.1.1 Phương pháp mơ hệ thống phát âm 53 4.1.2 Phương pháp tổng hợp Formant 53 4.1.3 Phương pháp ghép nối 55 4.2 Mơ hình tổng hợp tiếng nói từ văn 57 4.2.1 Tổng hợp mức cao 58 4.2.2 Tổng hợp mức thấp 60 4.2.3 So sánh phương pháp tổng hợp tiếng nói 61 4.3 Tổng hợp tiếng nói tiếng Việt sử dụng giải thuật PSOLA 62 4.4 Cấu trúc lưu trữ sở liệu diphone 70 PHẦN V 71 ĐÁNH GIÁ KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 71 5.1 Kết đạt 71 5.2 Hạn chế hướng phát triển 75 PHỤ LỤC A – LẬP TRÌNH T-ENGINE AUDIO CODEC UDA1342 76 A.1 Modul âm lập trình sử dụng DMAC 76 A.2 Giao diện âm nối tiếp (SSI- Sound Serial Interface) 88 A.2.1 Các chân vào/ra 89 A.2.2 Mô tả ghi 89 A.2.3 Hoạt động modul SSI 93 PHỤ LỤC B – DANH SÁCH CÁC ÂM VỊ VÀ CÂU CẦN THU ÂM 102 PHỤ LỤC C - BẢNG CÁC TỪ VIẾT TẮT TIẾNG ANH 113 TÀI LIỆU THAM KHẢO 114 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 LỜI NÓI ĐẦU Cùng với phát triển nhanh chóng xu hướng tương tác người-máy sử dụng ngơn ngữ tự nhiên, hệ thống nhúng việc kết hợp hệ thống nhận dạng tổng hợp trở thành hệ thống có tính tương tác cao đồng thời đáp ứng đòi hỏi tốc độ thực thi thời gian thực vấn đề quan trọng Trên sở yêu cầu cần thiết đó, tác giả định lựa chọn đề tài: Xây dựng hệ tổng hợp nhận dạng tiếng Việt hệ nhúng để thực hiện, với mong muốn nghiên cứu đóng góp phần trình phát triển ứng dụng tương tác người-máy, tài liệu tham khảo tốt đề tài khác sau Bên cạnh việc tìm tịi, tối ưu hóa giải thuật chứng minh sử dụng rộng rãi toán nhận dạng tổng hợp tiếng Việt, đề tài tác giả đề cách tiếp cận toán tổng hợp nhằm nâng cao chất lượng tiếng Việt tổng hợp, đồng thời đưa phương án xây dựng hệ thống kết hợp nhận dạng tổng hợp tiếng Việt hệ nhúng T-Engine sử dụng cho ứng dụng tương tác người – máy sử dụng tiếng nói Với nhiệm vụ đề , thuyết minh đề tài tác giả trình bày theo bố cục sau: Phần I: Giới thiệu T-Engine SH7760 Trong phần tác giả giới thiệu tổng qua thành phần hệ nhúng T-Engine SH7760 Phần II: Tổng quan tín hiệu tiếng nói Trong phần tác giả trình bày lý thuyết sở tiếng nói xử lý tín hiệu tiếng nói Phần III: Nhận dạng tiếng nói T-Engine Phần cung cấp lý thuyết phân tích đặc trưng tín hiệu tiếng nói mơ hình nhận dạng mẫu sử dụng, đồng thời đưa mơ hình thực thi hệ thống nhận dạng với phần cứng phần mềm hệ nhúng T-Engine vấn đề cân khắc phục cài đặt hệ T-Engine Phần IV: Tổng hợp tiếng nói T-Engine Phần IV mơ tả giải thuật PSOLA sử dụng tổng hợp tiếng Việt, tác giả phần vấn đề áp dụng PSOLA tiếng Việt, sở đề phương án để nâng cao chất lượng tổng hợp với tiếng Việt Phần V: Đánh giá kết hướng phát triển Trong phần tác giả đánh giá công việc đạt được, hạn chế giải pháp khắc phục Hà Nội, ngày tháng 11 năm 2007-11-07 Thực đề tài Lã Thế Vinh Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 PHẦN I GIỚI THIỆU T-ENGINE SH7760 T-Engine SH7760 vi xử lí, có tính năng: điều khiển LCD, USB host chức ngoại vi khác SuperHRISC engine vi xử lí tảng 32bit RISC SuperHRISC engine có tập lệnh chiều dài cố định 16 bit, cho phép giảm khoảng gần 50% kích thước chương trình so với tập lệnh 32 bit SH7760 có CPU SH4 mà mức độ đối tượng lệnh hồn tồn tương thích với vi xử lí SH-1, SH-2 SH-3 Vi xử lí có cache lệnh, cache tốn hạng mà chuyển chế độ copy-back writethrough, quản lí nhớ với 64 phần tử liên kết đầy đủ chia sẻ TLB( Translation Look aside Buffer) Kích thước cache lệnh cache tốn hạng 16 kbyte 32 kbyte Vi mạch có tính điều khiển trạng thái bus(Bus State Controller-BSC) mà lên kết với SDRAM Và có chức on-chip điều khiển LCD, USB host, định chức truyền tin nối tiếp yêu cầu cho phương tiện multimedia OA nên vi mạch cho phép giảm thiểu lớn giá thành hệ thống Trong phần em xin trình bày số tìm hiểu T-Engine SH7760 bao gồm kiến trúc tổng quát, đặc tả tìm hiểu tập trung vào thành phần cần thiết cho việc xây dựng hệ thống nhận dạng tiếng Việt số lượng từ hạn chế Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 1.1 Đặc tả T-Engine Các đặc tả T-Engine trình bày bảng đây: Mục CPU Flash memory SDRAM PC Card I/F Serial I/F Sound USB Host TFT color LCD module Bộ điều khiển nguồn cung cấp Đặc tả SH7760 Tên mơ hình: HD6417760BP200D (RENESAS Technology) Tần số đồng hồ cung cấp: 16.6667MHz Tần số hoạt động (Internal): 200MHz (x 12) (External): 66MHz (x 4) Mạch: 256-pin BGA Dung lượng: 8MB MBM29DL640E90TN (Fujitsu) x Dung lượng: 64MB EDS2516APTA-75 (ELPIDA) x Một khe Controller: MR-SHPC-01 V2T (Marubun) Mạch: 144pin TQFP Controller gồm kênh: ST16C2550CQ48 (EXAR) Package: 48pin TQFP Tên model: UDA1342TS (Philips) Mạch: 28pin SSOP Earphone/microphone: - Một đầu tai nghe - Một đầu vào micro - Trở kháng: 2.2KOhm Độ nhạy: -51dB/Pa - Tai nghe có trở kháng:32Ohm 1kênh Controller: SH7760 on-chip USB Host NL2432DR22-02B (NEC) Số màu hiển thị : 262,144 màu Kích thước: 240(Chiều ngang) x 320 (chiều dọc) Controller:SH7760 on-chip LCDC H8/3048F-ONE Tên model: HD64F3048BVTE25 Thiết bị đích -Kênh A: H8/3048FONE I/F -Kênh B: Theo dõi việc gỡ lỗi SSI tích hợp SH7760 sử dụng để vận chuyển liệu IIC SH7760 sử dụng để chọn chế độ hoạt động Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 (Renesas Technology) Tần số hoạt động: 7.3728MHz Mạch: 100-pin TQFP Tên model: RV5C348B (RICOH) RTC Mạch: 10pin SSOP-G Màn hình cảm ứng I/F Tên Model: ADS7843 (TI) Package: 16pin SSOP Dung lượng: 512 bytes Serial EEPROM Tên model: S-29391AFJA (SII) Điều khiển từ xa Bộ phát: hồng ngoại Tên model: GL100MN0MP (SHARP) Sóng mang: 38KHz Bộ thu: Tên model: GP1UC101 (SHARP) Sóng mang: 38KHz Thông qua H8/3048FONE Thông qua H8/3048FONE (Được gắn bảng mạch LCD) Thông qua H8/3048FONE Thông quaH8/3048FONE 1.2 Mơ hình tổng quan Sơ đồ khối tổng quan T-Engine hình đây: Hình 1.1 – Sơ đồ khối tổng quan T-Engine Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 Hình khối cấu thành nên phát triển T-Engine khối quan trọng vi xử lí SH7760 đóng vai trị xử lí trung tâm Hình đồng thời kết nối khối cho nhìn tổng quan phát triển T-Engine Sơ đồ khối bên T-Engine hình đây: Hình 1.2 – Sơ đồ T-Engine Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 1.3 Giao diện SH7760 Hình 1.3 – Giao diện T-Engine Như thấy hình T-Engine gồm bảng mạch kết nối với Trên bảng mạch LCD cung cấp chức hình cảm ứng phím điều khiển, có phím đa chiều Dưới bảng mạch LCD bảng mạch CPU nơi gắn vi xử lí trung tâm SH7760 đóng vai trị điều khiển hoạt động tồn phận phát triển Dưới bảng mạch CPU bảng mạch phụ trách hai việc : vào gỡ lỗi Trên mạch vào có gắn thiết bị hỗ trợ vào liên kết cổng COM, USB, codec, thẻ nhớ CF, điều khiển sóng hồng ngoại vv.vv Cuối mạch gỡ lỗi cho phép liên kết với máy tính để cung cấp chức gỡ lỗi cho chương trình chạy phát triển Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 PHẦN II TƠNG QUAN VỀ TÍN HIỆU TIẾNG NÓI Nội dung phần nhằm giới thiệu khái niệm lý thuyết tiếng nói: nguồn gốc tín hiệu tiếng nói (q trình phát âm người) cảm nhận người tín hiệu tiếng nói Những khái niệm sở tảng không xét đến trước định hướng tiếp cận tốn nhận dạng hay tổng hợp tiếng nói Giao tiếp người với sử dụng tiếng nói trình bắt đầu với việc phát âm ngưịi nói kết thúc người nghe cảm nhận, diễn dịch đáp ứng tín hiệu tiếng nói người nói tạo q trình phát âm (Hình 2.1) Hình thành nội dung Người nói Phát âm Người nghe Tín hiệu tiếng nói DE Cảm nhận diễn dịch Hình 2.1 – Quá trình giao tiếp tiếng nói Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 10 Sơ đồ mơ tả sau: trước tiên người nói hình thành nội dung hội thoại não (A), thông tin tạo xung thần kinh điều khiển phận phát âm (dây thanh, khoang miệng, khoang mũi ) để tạo tín hiệu tiếng nói(B), thực chất lan truyền áp suất thay đổi khơng gian (C), q trình lan truyền khơng gian, tín hiệu tiếng nói cộng hưởng triệt tiêu với tín hiệu khác tạo tín hiệu có nhiễu với dạng sóng tương đối phức tạp, tín hiệu truyền đến tai người nghe tạo dao động màng nhĩ nhờ người nghe cảm nhận tiếng nói (D) trình phân tích ngữ nghĩa diễn não bộ(E) Từ phân tích nêu trên, ta thấy vấn đề đặt nhận dạng tiếng nói là: làm ta mơ q trình cảm nhận tiếng nói người khâu thu nhận tín hiệu(D) đến khâu phân tích ngữ nghĩa(E) Một vấn đề cần ý q trình cảm nhận người hồn tồn khơng tuyến tính, chi tiết ta nói phần sau 2.1 Quá trình phát âm Hình 2.2 – Cơ quan phát âm Khi người phát âm, khơng khí đẩy từ phổi qua khí quản, luồng khơng khí chuyển động làm cho dây rung kết hợp với hình dạng tuyến âm, mơi, lưỡi đóng vai trị cộng hưởng lọc tạo âm khác Người ta mơ hình hóa tồn q trình phát âm mơ hình Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 102 Bắt đầu Thốt t/thái thiết lập lại, cấu hình bit SSICR Chỉ rõ TRMD, EN, SCKD, SWSD, MUEN, DEL, PDTA, SDTA, SPDP, SWSP, SCKP, SWL, DWL, CDNL Cho phép SSI, ngắt liệu, ngắt lỗi EN=1, DMEN=1, UIEN=1, OIEN=1 Chờ ngắt từ SSI Ngắt liệu? Đúng Sử dụng bit SSISR để tổ chức lại liệu sau tràn Sai Đọc liệu từ ghi nhận liệu Đúng Truyền tiếp? Sai Dừng SSI, ngắt liệu, ngắt lỗi, cho phép ngắt Idle EN=0, DMEN=0, UIEN=0, OIEN=0, IIEN=1 Chờ ngắt Idle từ SSI Kết thúc Cũng giống thao tác truyền liệu, thao tác nhận liệu điều khiển cách: sử dụng DMA sử dụng ngắt Khi cấm modul SSI, đồng hồ SSI phải cung cấp liên tục modul vào trạng thái idle, mà bit IIRQ Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 PHỤ LỤC B – DANH SÁCH CÁC ÂM VỊ VÀ CÂU CẦN THU ÂM _a: an pơi A_: xa pơi Á_: xá pơi À_: xà pơi Ã_: xã pơi Ả_: xả pơi Ạ_: xạ pơi Ác_: Tôi xác pơi ạc_: Tôi xạc pơi ách_: Tôi xách pơi ạch:Tôi xạch pơi Ai_: Tôi xai pơi ái_: Tôi xái pơi ài_: xài pơi Ãi_: xãi pơi Ải_: xải pơi Ại_: xại pơi Am_:Tôi xam pơi ám_:tôi xám pơi àm_:tôi xàm pơi Ãm_: xãm pơi Ảm_: xảm pơi Ạm_: xạm pơi An_: Tôi xan pơi Án_:tôi xán pơi Àn_:tôi xàn pơi Ãn_: xãn pơi Ản_: xản pơi Ạn_: xạn pơi ang_: Tôi xang pơi áng_:tôi xáng pơi àng_:tôi xàng pơi ãng_: xãng pơi ảng_: xảng pơi ạng_: xạng pơi anh_: Tôi xanh pơi ánh_:tôi xánh pơi ành_: xành pơi ãnh_: xãnh pơi ảnh_: xảnh pơi _ba: Tôi ban pơi _be: Tôi ben pơi _Bê: Tôi bên pơi _Bi: Tôi bin pơi _Bo: Tôi bon pơi _Bô: Tôi bôn pơi _Bơ: Tôi bơn pơi _Bu: Tôi bun pơi _Bư: Tôi bưn pơi _ca: Tôi can pơi _co: Tôi pơi _cô: Tôi côn pơi _cơ: pơi _cu: Tôi cun pơi _cư: Tôi cưn pơi _cha: Tôi chan pơi _che: Tôi chen pơi _chê: Tôi chên pơi _chi: Tôi chin pơi _cho:Tôi chon pơi _chô: Tôi chôn pơi _chơ: Tôi chơn pơi _chu: Tôi chun pơi _chư: Tôi chưn pơi _da: Tôi dan pơi _de: Tôi den pơi _dê: Tôi dên pơi _di: Tôi din pơi _do: Tôi don pơi _dô: Tôi dôn pơi _dơ:Tôi dơm pơi _du:Tôi dun pơi _dư: Tôi dưn pơi _đa: Tôi đan pơi _đe: Tôi đen pơi _đê: Tôi đên pơi _đi: Tôi đim pơi _đo: Tôi đon pơi _đô: Tôi đôn pơi _đơ: Tôi đơm pơi 103 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 ạnh_: xạnh pơi Ao_: Tôi xao pơi áo_:tôi xáo pơi ào_:tôi xào pơi Ão_: xão pơi Ảo_: xảo pơi Ạo_: xạo pơi Ap_: Tôi xáp pơi ạp_: Tôi xạp pơi Át_: Tôi xát pơi ạt_: Tôi xạt pơi Au_: Tôi xau pơi áu_: xáu pơi àu_: xàu pơi Ãu_: xãu pơi Ảu_: xảu pơi Ạu_: xạu pơi Ay_: Tôi xay pơi áy_: xáy pơi ày_: xày pơi Ãy_: xãy pơi Ảy_: xảy pơi Ạy_: xạy pơi ắc_: Tôi xắc pơi ặc_: xặc pơi Ăm_: Tôi xăm pơi Ắm_: xắm pơi Ằm_: xằm pơi Ẵm_: xẵm pơi Ẳm_: xẳm pơi Ặm_: xặm pơi Ăn_: Tôi xăn pơi Ắn_: xắn pơi Ằn_: xằn pơi Ẵn_: xẵn pơi Ẳn_: xẳn pơi Ặn_: xặn pơi ăng_: Tôi xăng pơi Ắng_: xắng pơi Ằng_: xằng pơi Ẵng_: xẵng pơi Ẳng_: xẳng pơi _đu: Tôi đun pơi _đư: Tôi đưn pơi ưa_: xưa pơi ứa_: xứa pơi ừa_: xừa pơi ữa_: xữa pơi ửa_: xửa pơi ựa_: xựa pơi iêm_: xiêm pơi iếm_ xiếm pơi iềm_: xiềm pơi iễm_: xiễm pơi iểm_:tôi xiểm pơi iệm_: xiệm pơi oay_: xoay pơi ốy_: tơi xốy pơi ồy_: tơi xồy pơi oãy_: xoãy pơi oảy_: oảy pơi oạy_: xoạy pơi oăng_: xoăng pơi oắng_: xoắng pơi oằng_: xoằng pơi oẵng_: xoẵng pơi oẳng_: xoẳng pơi oặng_:tôi xoặng pơi ươm_:tôi xươm pơi ướm_: xướm pơi ườm_ tô xườm pơi ưỡm_: xưỡm pơi ưởm_: xưởm pơi ượm_: xượm pơi oen_: xoen pơi oén_: xoén pơi oèn_: tô xoèn pơi oẽn_:tôi xoẽn pơi oẻn_: xoẻn pơi oẹn_: xoẹn pơi oăm_:tôi xoăm pơi oắm_: xoắm pơi oằm_: xoằm pơi oẵm_: xoẵm pơi 104 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 Ặng_: xặng pơi ắp_: Tôi xắp pơi ặp_ :Tôi xặp pơi ắt_: Tôi xắt pơi ặt_: Tôi xặt pơi ấc_: Tôi xấc pơi ậc_: Tôi xậc pơi Âm_: Tôi xâm pơi Ấm_: xấm pơi Ầm_: xầm pơi Ẫm_: xẫm pơi Ẩm_: xấm pơi Ậm_: xậm pơi Ân_: Tôi xân pơi Ấn_: xấn pơi Ần_: xần pơi Ẫn_: xẫn pơi Ẩn_: xẩn pơi Ận_: xận pơi âng_: Tôi xâng pơi ấng_: xấng pơi ầng_: xầng pơi ẫng_: xẫng pơi ẩng_: xẩng pơi ậng_: xậng pơi ấp_: Tôi xấp pơi ập_: Tôi xập pơi ất_: Tôi xất pơi ật_: xật pơi Âu_: xâu pơi Ấu_: xấu pơi Ầu_: xầu pơi Ẫu_: xẫu pơi Ẩu_: xẩu pơi Ậu_: xậu pơi ây_: Tôi xây pơi Ấy_: xấy pơi Ầy_: xầy pơi Ẫy_: xẫy pơi Ẩy_: xẩy pơi Ậy_: xậy pơi oẳm_: xoẳm pơi oặm_: xoặm pơi oăn_:tôi xoăn pơi oắn_: xoắn pơi oằn_: xoằn pơi oẵn_: xoẵn pơi oẳn_: pơi oặn_: xoặn pơi uênh_: xuênh pơi uếnh_: xuếnh pơi uềnh_: xuềnh pơi uễnh_: xuễnh pơi uểnh_: xuểnh pơi uệnh_: uệnh pơi uynh_:tôi xuynh pơi uýnh_: xuýnh pơi uỳnh_: xuỳnh pơi uỹnh_: xuỹnh pơi uỷnh_: xuỷnh pơi uỵnh_: xuỵnh pơi _Hu: hun pơi _Hư: hưm pơi _Hy: _i: in pơi i_: tơi xi pơi í_: tơi xí pơi ì_: tơi xì pơi ĩ_: tơi xĩ pơi ỉ_: xỉ pơi ị_: xị pơi Ia_: tơi xia pơi ía_: tơi xía pơi ìa_: tơi xìa pơi ĩa_: tơi xĩa pơi ỉa_: xỉa pơi ịa_: xịa pơi Ích_: tơi xích pơi ịch_: tơi xịch pơi iếc_: xiếc pơi iệc_: xiệc pơi iêng_: xiêng pơi 105 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 _e: en pơi e_: Tôi xe pơi é_: xé pơi è_: xè pơi ẽ_: xẽ pơi ẻ_: xẻ pơi ẹ_: xẹ pơi Em_: Tôi xem pơi ém_: xém pơi èm_: xèm pơi ẽm_: xẽm pơi ẻm_: xẻm pơi ẹm_: xẹm pơi En_:Tôi xen pơi Én_: xén pơi èn_: xèn pơi ẽn_: xẽn pơi ẻn_: xẻn pơi ẹn_: xẹn pơi Eng_:tôi xeng pơi éng_: xéng pơi èng_: xèng pơi ẽng_: xẽng pơi ẻng_: xẻng pơi ẹng_: xẹng pơi Eo_: xeo pơi éo_: xéo pơi èo_: xèo pơi ẽo_: xẽo pơi ẻo_: xẻo pơi ẹo_: xẹo pơi ép_: xép pơi ẹp_: xẹp pơi Ét_: xét pơi ẹt_: xẹt pơi _ê: ên pơi ê_: xê pơi ế_: xế pơi ề_: xề pơi ễ_: xễ pơi ể_: xể pơi ệ_: xệ pơi iếng_: xiếng pơi iềng_: xiềng pơi iễng_: xiễng pơi iểng_: xiểng pơi iệng_: xiệng pơi iếp_: xiếp pơi iệp_: xiệp pơi iết_: xiết pơi iệt_: xiệt pơi Iêu_: xiêu pơi iếu_: xiếu pơi iều_: xiều pơi iễu_: xiễu pơi iểu_: xiểu pơi iệu_: tơi xiệu pơi Im_: tơi xim pơi Ím_: tơi xím pơi Ìm_: tơi xìm pơi ĩm_: xĩm pơi ỉm_: xỉm pơi ịm_: tơi xịm pơi In_: tơi xin pơi Ín_: tơi xín pơi Ìn_: tơi xìn pơi ĩn_: xĩn pơi ỉn_: xỉn pơi ịn_: tơi xịn pơi Inh_: tơi xinh pơi Ính_: tơi xính pơi Ình_: tơi xình pơi ĩnh_: xĩnh pơi ỉnh_: xỉnh pơi ịnh_: tơi xịnh pơi Íp_: tơi xíp pơi ịp_: tơi xịp pơi Ít_: tơi mua xít pơi ịt_: mua xịt pơi iu_: mua xiu pên tây íu_: tơi xíu pơi ìu_: tơi xìu pơi ĩu_: xĩu pơi ỉu_: xỉu pơi 106 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 ếch_: mua xếch pơi ệch_: xệch pơi Êm_: mua xêm cơm ếm_: xếm pơi ềm_: xềm pơi ễm_: xễm pơi ểm_: xểm pơi ệm_: ệm pơi Ên_: xên pơi Ến_: xến pơi ền_: xền pơi ễn_: xễn pơi ển_: xển pơi ện_: xện pơi Ênh_: xênh pơi ếnh_: xếnh pơi ềnh_: xềnh pơi ễnh_: xễnh pơi ểnh_: xểnh pơi ệnh_: xệnh pơi ếp_:tôi xếp pơi ệp_: pơi ết_: xết pơi ệt_: xệt pơi Êu_: xêu pơi Ếu_: xếu pơi Ều_: xều pơi ễu_: xễu pơi ểu_: xểu pơi ệu_: xệu pơi _Ga: mua gan pơi _Ghi: mua ghim pơi _Gia: _Ghe: mua ghen pơi _Ghê: mua ghên pơi _Ghi: mua ghin pơi _go: mua gon pơi _gô: mua gôm pơi _gơ: mua gơn pơi _gu: mua gum pơi _gư: mua gưm pơi _ha:tôi mua han pơi ịu_: xịu pơi _Ke: kem pơi _Kê: kêm pơi _Ki: kin pơi _Kha: khan pơi _Khe: khen pơi _Khê: khên pơi _Kho: khom pơi _Khô: khôn pơi _Khơ: khơn pơi _Khu: khum pơi _Khư: khưm pơi _Ky: _La: lan pơi _Le: len pơi _Lê: lên pơi _Li: lin pơi ợp_: xợp pơi ớt_: xớt pơi ợt_:tôi xợt pơi _pa: pan pơi _pe: pen pơi _pê: pên pơi _pi: pin pơi _po: pon pơi _pô: pôn pơi _pơ: pơn pơi _pu:tôi pun pơi _pư:tôi pưn pơi py _pha: phan pơi _phe: phen pơi _phê: phên pơi _nhơ: nhơn pơi _nhu: nhum pơi _như: nhưn pơi _o: mua om pên tây o_: tơi xo pơi ó_: tơi xó pơi ị_: tơi xị pơi õ_: tơi xõ pơi 107 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 _he: mua hen pơi _hê: mua hên pơi _hi: mua him pơi _ho: mua hon pơi _hô: mua hôm pơi _hơ: mua pơi uâng_:tôi xuâng pơi uấng_: xuấng pơi uầng_: xuầng pơi uẫng_: xuẫng pơi uẩng_: xuẩng pơi uậng_: xuậng pơi uây_:tôi xuây pơi uấy_: xuấy pơi uầy_: xuầy pơi uẫy_: xuẫy pơi uẩy_: xuẩy pơi uậy_: xuậy pơi uỵch_: xuỵch uych_:tôi xuych pơi ơn_: xơn pơi ớn_: xớn pơi ờn_: tô xờn pơi ỡn_: xỡn pơi ởn_: xởn pơi ợn_: xợn pơi ớp_: xớp pơi _lo: mua lon pên tây _Lô: mua lôm côm pơi _lơ: mua lơn pên tây _lu: mua lum pên tây _lư: mua lưm pên tây _ly: _ma:tôi man pên tây _me:tôi men pên tây _mê: mêm pên tây _mi: pên tây _mo: mon pên tây _mô: môn pên tây _mơ: mơm pên tây _mu: mun pên tây ỏ_: xỏ pơi ọ_: xọ pơi Oa_: tơi xoa pơi óa_: tơi xóa pơi ịa_: tơi xịa pơi õa_: tơi xõa pơi ỏa_: xỏa pơi ọa_: xọa pơi ốt_: tơi xốt pơi oạt_: tơi xoạt pơi oai_: tơi xoai pơi ối_: tơi xối pơi ồi_: tơi xồi pơi ỗi_: tơi xỗi pơi oải_: tơi xoải pơi oại_: tơi xoại pơi oan_: tơi xoan pơi ốn_: tơi xốn pơi ồn_: tơi xồn pơi ỗn_: tơi xỗn pơi oản_: tơi xoản pơi oạn_: tơi xoạn pơi oang_: tơi xoang pơi ống_: tơi xống pơi ồng_: tơi xồng pơi ỗng_: tơi xỗng pơi oảng_: tơi xoảng pơi oạng_: tơi xoạng pơi oanh_:tơi xoanh pơi ốnh_: tơi xốnh pơi ồnh_: tơi xồnh pơi ỗnh_: tơi xỗnh pơi oảnh_: tơi xoảnh pơi oạnh_: tơi xoạnh pơi Ĩc_: tơi xóc pơi ọc_:tơi xọc pơi Oe_:tơi xoe pơi óe_: tơi xóe pơi òe_: xòe pơi õe_: xõe pơi ỏe_: xỏe pơi ọe_: xọe pơi 108 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 _mư: mưn pên tây _my: _na: mua nan pên tây _ne: mua nem pên tây _nê: mua nêm pên tây _ni: mua nim pên tây _no:tôi mua non pên tây _nô: mua nôm pên tây _nơ: m ua nơm pên tây _nu: mua num pên tây _nư: nưm pên tây _nga: ngan pên tây _nghe: pên tây _nghê: nghên pên tây _nghi: nghin pên tây _ngo: ngon pên tây _ngô:tôi mua ngôn pên tây _ngơ: mua ngơn pên tây _ngu: mua ngum pên tây _ngư: mua ngưn pên tây _nha: mua nhan pên tây _nhe:tôi mua nhen pên tây _nhê: mua nhên pơi _nhi: mua nhin pơi _nho: mua nhom pơi _nhô: mua nhôm pơi _phi: phim pơi _pho: phom pơi _phô: phôn pơi _phơ: phơm pơi _phu: phun pơi _phư: phưn pơi _qua: quan pơi _que: quen pơi _quê: quên pơi _qui: quin pơi _quơ: quơn pơi _quy: _ra: ran pơi _re: ren pơi _rê: rên pơi _ri: tơi rin pơi Oi_: tơi xoi pơi ói_: tơi xói pơi ịi_: tơi xịi pơi õi_: xõi pơi ỏi_: xỏi pơi ọi_: tơi xọi pơi Om_: tơi xom pơi óm_: tơi xóm pơi ịm_: tơi xịm pơi õm_: xõm pơi ỏm_: xỏm pơi ọm_: tơi xọm pơi On_: tơi xon pơi ón_: tơi xón pơi ịn_: tơi xịn pơi õn_: xõn pơi ỏn_: xỏn pơi ọn_: tơi xọn pơi ong_: tơi xong pơi óng_: tơi xóng pơi ịng_: tơi xịng pơi õng_: xõng pơi ỏng_: xỏng pơi ọng_: xọng pơi oong_: xoong pơi oongs_: xoongs pơi oongf_: xoongf pơi oongj_: xoongj pơi oongx_: xoongx pơi oongr_: tơi oongr pơi Ĩp_: tơi xóp pơi ọp_: tơi xọp pơi Ĩt_: tơi xót pơi ọt_: xọt pơi _ô: ôn pơi ô_: xô pơi ố_: xố pơi ồ_: xồ pơi ỗ_: xỗ pơi ổ_: xổ pơi ộ_: xộ pơi ốc_: xốc pơi 109 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 _ro: ron pơi _rô: rôn pơi _rơ: rơn pơi _ru: run pơi _Rư: rưn pơi _Sa: san pơi _ơ: ơn pơi ơ_: xơ pơi ớ_: xớ pơi ờ_:tôi xờ pơi ỡ_: xỡ pơi ở_: xở pơi ợ_: xợ pơi Ơi_: mua xơi pên tây ới_: xới pơi ời_: xời pơi ỡi_: xỡi pơi ởi_: xởi pơi ợi_: xợi pơi Ơm_: xơm pơi ớm_: xớm pơi ờm_: xờm pơi ỡm_: xỡm pơi ởm_: xởm pơi ợm_:tôi xợm pơi _se: sen pơi _sê: sên pơi _si: sin pơi _so: son pơi _sô: sôn pơi _sơ: sơn pơi _su: sun pơi _sư: sưn pơi _ta: tan pơi _te: ten pơi _tê: tên pơi _ti: tin pơi _to: ton pơi _tô: tôn pơi _tơ: tơn pơi _tu: tun pơi ộc_: tơi xộc pơi Ơi_: tơi xơi pơi ối_: xối pơi ồi_: xồi pơi ỗi_: xỗi pơi ổi_: xổi pơi ội_: tơi xội pơi Ơm_: tơi xơm pơi ốm_: xốm pơi ồm_: xồm pơi ỗm_: xỗm pơi ổm_: xổm pơi ộm_: tơi xộm pơi Ơn_: tơi xơn pơi ốn_: xốn pơi ồn_: xồn pơi ỗn_: xỗn pơi ổn_: xổn pơi ộn_: xộn pơi ông_: xông pơi ống_: xống pơi ồng_: xồng pơi ỗng_: xỗng pơi ổng_: xổng pơi ộng_: xộng pơi ốp_: mua xốp pơi ộp_: xộp pơi ốt_: xốt pơi ột_: tô xột pơi ướt_: xướt pơi ược_: xược pơi uật_: xuật pơi úc_: xúc pơi ục_: xục pơi uê_: xuê pơi uế_: xuế pơi uề_: xuề pơi uễ_: xuễ pơi uể_: pơi uệ_: xuệ pơi ui_: xui pơi 110 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 _tư: tưn pơi _tha: than pơi _the: then pơi _thê: thêm pơi _thi: thim pơi _tho: thon pơi _thô: thôn pơi _thơ: thơm pơi _thu: thun pơi _thư: thưm pơi _tra: tran pơi _tre: tren pơi _trê: pơi _tri: trim pơi _tro: tron pơi _trô: trôn pơi _trơ: trơn pơi _tru: trun pơi _trư: trưm pơi _u: un pơi u_: xu pơi ú_: xú pơi ù_: xù pơi ũ_: xũ pơi ủ_: xủ pơi ụ_: xụ pơi ua_: xua pơi úa_: xúa pơi ùa_: xùa pơi ũa_: xũa pơi ủa_: xủa pơi ụa_: xụa pơi uân_: xuân pơi uấn_: xuấn pơi uần_: xuần pơi uẩn_:tôi xuẩn pơi uẫn_:tôi xuẫn pơi uận_: xuận pơi uất_: xuất pơi uyết_: xuyết pơi uyệt_: xuyệt pơi uýt_: xuýt pơi úi_: xúi pơi ùi_: xùi pơi ũi_: xũi pơi ủi_: xủi pơi ụi_: xụi pơi um_: xum pơi úm_: xúm pơi ùm_: xùm pơi ũm_: xũm pơi ủm_: xủm pơi ụm_: xụm pơi un_: xun pơi ún_: xún pơi ùn_: xùn pơi ũn_: xũn pơi ủn_: xủn pơi ụn_: xụn pơi ung_: xung pơi úng_: xúng pơi ùng_: xùng pơi ũng_: xũng pơi ủng_: xủng pơi ụng_: xụng pơi uốc_: xuốc pơi uộc_:tôi xuộc pơi uôi_:tôi xuôi pơi uối_: xuối pơi uồi_: xuồi pơi uỗi_: xuỗi pơi uổi_: xuổi pơi uội_: xuội pơi uôn_:tôi xuôn pơi uốn_: xuốn pơi uồn_: xuồn pơi uỗn_: xuỗn pơi uổn_: xuổn pơi uộn_: xuộn pơi uôm_:tôi xuôm pơi uốm_: xuốm pơi uồm_: xuồm pơi uỗm_: xuỗm pơi uổm_: xuổm pơi 111 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 uỵt_: uỵt pơi _ư: ưm pơi ư_: xư pơi ứ_: xứ pơi ừ_: xừ pơi ữ_:tôi xữ pơi ử_: xử pơi ự_: xự pơi ức_: xức pơi ực_: xực pơi ưm_: xưm pơi ứm_: xứm pơi ừm_: xừm pơi ữm_: xữm pơi ửm_: xửm pơi ựm_: xựm pơi ưn_: xưn pơi ứn_: xứn pơi ừn_: xừn pơi ữn_: xữn pơi ửn_: xửn pơi ựn_: xựn pơi ưng_: xưng pơi ứng_: ứng pơi ừng_: xừng pơi ững_: xững pơi ửng_: xửng pơi ựng_:tôi xựng pơi ước_: xước pơi ươi_: xươi pơi ưới_: xưới pơi ười_: xười pơi ưỡi_: xưỡi pơi ượi_:tôi xượi pơi ưởi_: xưởi pơi ướn_: xướn pơi ườn_: xườn pơi ươn_: xươn pơi ưỡn_: xưỡn pơi ưởn_:tôi xưởn pơi ượn_:tôi xượn pơi _vô: vôn pơi uộm_: xuộm pơi uốt_:tôi xuốt pơi uột_:tôi xuột pơi uông_:tôi xuông pơi uống_: xuống pơi uồng_: xuồng pơi uỗng_: xuỗng pơi uổng_: xuổng pơi uộng_: xuộng pơi úp_: xúp pơi ụp_: xụp pơi út_: xút pơi ụt_: xụt pơi uy_: xuy pơi úy_: xúy pơi ùy_: xùy pơi ũy_: xũy pơi ủy_: xủy pơi ụy_: xụy pơi uya_: xuya pơi uýa_: xuýa pơi uỳa_: xuỳa pơi uỹa_: xuỹa pơi uỷa_: xuỷa pơi uỵa_: xuỵa pơi uyến_: xuyến pơi uyền_: xuyền pơi uyên_: xuyên pơi uyễn_: xuyễn pơi uyển_: xuyển chởi uyện_: xuyện pơi ướng_: xướng pơi ường_: xường pơi ương_: xương pơi ưỡng_: xưỡng pơi ưởng_: xưởng pơi ượng_: xượng pơi ượt_:tôi xượt pơi ứt_:tôi xứt pơi ựt_:tôi xựt pơi ưu_:tôi xưu pơi ứu_: xứu pơi 112 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 _vơ:tôi vơn pơi ừu_: xừu pơi _vu: vun pơi ữu_: xữu pơi _vư: vưn pơi ửu_: xửu pơi _xa: xan pơi ựu_: xựu pơi _xe: xen pơi _va: van pơi _xê: xên pơi _ve: ven pơi _xi: xin pơi _vê: vên pơi _xo: xon pơi _vi: đo vin pơi _xơ: xơn pơi _vo: von pơi PHỤ LỤC C - BẢNG CÁC TỪ VIẾT TẮT TIẾNG ANH ANN Artificial Neural Networks ASR Automatic Speech Recognition DCT Discrete Cosine Transform DFT Discrete Fourier Transform DTW Dynamic Time Warping EM Expectation Maximization FFT Fast Fourier Transform GMM Gaussian Mixture Model HMM Hidden Markov Model HTK Hidden Markov Modeling Toolkit IDFT Inverse Discrete Fourier Transform LPC Linear Predicative Coding MFCC Mel Frequency Cepstral Coefficients PDF Probability Density Function RPS Reconstructed Phase Space TIMIT Texas Instruments & Massachusetts Institute of Technology speech corpus Z Transform ZT 113 Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 114 TÀI LIỆU THAM KHẢO Lawrence Rabiner, Biing – Hwang Juang,”Fundamentals of speech recognition”, Prentice Hall Joseph Picone, ”Fundamentals of speech recognition”, http://www.isip.msstate.edu/resources/courses/ece_8463 Joseph Picone, " Signal modeling techniques in speech recognition", Proceedings of IEEE 03/06/1993 Valtcho Valtchev,"Discriminative Methods in HMM-based Speech Recognition", St.John's College Quách Tuấn Ngọc, "Xử lý tín hiệu số", NXBGD 1997 Santa Babara, “High-Performance Automatic Speech Recognition via Enhance Front-end Analysis and Acoustic Modeling”, University of California 12/2001 AT&T advanced Speech Products Group home page http://www.att.com/aspg/ Lucent Technologies: Bell Laboratories http://www.bell-labs.com Carnegie Mellon University: Language Technologies Institue http://www.lti.cs.cmu.edu/ 10 Carnegie Mellon University: Speech at CMU Web page http://www.speech.cs.cmu.edu/speech/index.html 11 University College Dublin: Digital Signal Processing(DSP)Research Group http://dsp.ucd.ie/ 12 University of Amsterda: Institute of Phonetic Sciences http://fonsg3.let.uva.nl/Welcome.html 13 University of Delaware: Speech Research Laboratory http://www.asel.udel.edu/speech/ 14 University of Edinburgh: Centre for Speech Technology Research http://www.cstr.ed.ac.uk/ Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 115 TÓM TẮT LUẬN VĂN Đề tài “Tổng hợp nhận dạng tiếng Việt” hệ nhúng T-Engine thực học viên Lã Thế Vinh hướng dẫn TS.Trịnh Văn Loan, đặt nhiệm vụ xây dựng hệ thống kết hợp chức nhận dạng tổng hợp tiếng Việt hệ thống nhúng T-Engine, nhằm hướng đến ứng dụng tương tác người – máy Bên cạnh tác giả đề tài đề xuất số giải pháp nhằm nâng cao chất lượng tiếng Việt tổng hợp Các vấn đề sau tác giả giải đề tài: • Nghiên cứu tìm hiểu hệ thống nhúng T-Engine, phát triển ứng dụng hệ thống nhúng T-Engine với hệ điều hành nhúng thời gian thực (T-Kernel) • Các vấn đề nhận dạng tiếng nói tiếng Việt từ rời rạc • Các vấn đề tổng hợp tiếng Việt với số lượng từ vựng khơng giới hạn • Kết hợp module nhận dạng tổng hợp tiếng Việt hệ thống nhúng T-Engine: Tác giả hoàn thành việc xây dựng ứng dụng có khả kết hợp nhận dạng tổng hợp tiếng Việt cho phép người dùng tương tác với máy nhờ sử dụng tiếng nói • Chất lượng tiếng nói tiếng Việt tổng hợp được cải thiện đáng kể so với đề tài tổng hợp tiếng Việt thực trước đó, nhờ việc tác giả đưa phương pháp ghép nối cân lượng tốt diphone TỪ KHĨA: tiếng nói, tổng hợp tiếng việt, hệ nhúng, nhận dạng, t-Engine, psola, hmm, markov, tron, t-kernel, mfcc Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760 116 SUMMARY The target of this thesis is to built a “Embedded Vietnamese speech synthesis and recognition system” with T-Engine embedded system, aimed at human-computer interaction using speech applications To reach the desired purpose, the author have solved the following involved problems: • Find out about T-Engine embedded system with T-Kernel realtime operating system, and application development environment on TEngine • Speech recognition problems: feature extraction, pattern recognition model… • Vietnamese speech synthesis problems: Vietnamese diphones, TDPSOLA algorithm, and some enhancement in systhesizing Vietnamese speech • Implementation: the author have successfully combine the two problems of Vietnamese speech into one product in T-Engine embedded system KEYWORD: speech, tts, asr, td-psola, psola, t-engine, embedded system, tkernel, diphones, concat, markov, hmm, mfcc ... qu? ?t, đặc t? ?? t? ?m hiểu t? ??p trung vào thành phần cần thi? ?t cho việc xây dựng hệ thống nhận dạng tiếng Vi? ?t số lượng t? ?? hạn chế T? ??ng hợp nhận dạng tiếng Vi? ?t hệ nhúng T- Engine SH7760 1.1 Đặc t? ?? T- Engine. .. cách tiếp cận toán t? ??ng hợp nhằm nâng cao ch? ?t lượng tiếng Vi? ?t t? ??ng hợp, đồng thời đưa phương án xây dựng hệ thống k? ?t hợp nhận dạng t? ??ng hợp tiếng Vi? ?t hệ nhúng T- Engine sử dụng cho ứng dụng t? ?ơng... đưa giải thu? ?t theo t? ? t? ?ởng quy lạp là: • Giải thu? ?t tiến • Giải thu? ?t lùi T? ??ng hợp nhận dạng tiếng Vi? ?t hệ nhúng T- Engine SH7760 41 Giải thu? ?t tiến Ta đ? ?t biến α t (i) = P(o1o o t ,q t = i|λ