Tổng quan và mô phỏng về nhận dạng tiếng nói (an overview and simulation on vietnamese speech recognition)

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐỀ TÀI TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT AN OVERVIEW AND SIMULATION ON VIETNAMESE SPEECH RECOGNITION GVHD: TS LÊ TIẾN THƯỜNG HVTH:THIỀM CÔNG NGUYÊN NĂM 2003 LỜI CẢM ƠN Con xin chân thành cảm ơn bố mẹ sinh thành, nuôi dưỡng, hướng dẫn, dạy dỗ nên người Em xin cảm ơn Thầy Tiến Só LÊ TIẾN THƯỜNG tận tình hướng dẫn, bảo, truyền đạt kiến thức kinh nghiệm cho em suốt trình thực luận văn Em xin cám ơn thầy cô Bộ môn Viễn thông, Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh dạy dỗ, truyền đạt tri thức làm sở cho em hoàn thành luận văn Xin cám ơn gia đình, bạn bè, đồng nghiệp giúp đỡ, động viên, tạo điều kiện cho suốt thời gian qua THIỀM CÔNG NGUYÊN Đại học Quốc gia Tp Hồ Chí Minh Trường Đại học Bách khoa Cộng hoà Xã hội Chủ nghóa Việt nam Độc lập – Tự – Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SỸ Họ tên học viên: Nguyễn Hoài Nam Phái: Nam Ngày,tháng, năm sinh: 20/10/1976 Nơi sinh: Thanh Hoá Chuyên ngành: Kó thuật Vô tuyến – Điện tử Mã số: 2.07.01 I TÊN ĐỀ TÀI Tổng Quan Các Phương Pháp Mã Hoá Ảnh II NHIỆM VỤ VÀ NỘI DUNG - Nghiên cứu, tìm hiểu số sở toán học ảnh - Nghiên cứu, tìm hiểu mô hình nén ảnh, kỹ thuật nén ảnh không suy hao suy hao - Nghiên cứu, tìm hiểu sở toán học phương pháp biến đổi ảnh Fourier, DCT, Hadamard, Wavelets, - Xây dựng giải thuật ứng dụng phép biến đổi vào nén ảnh xử lý ảnh - Xây dựng chương trình mô - Dựa vào kết mô so sánh phương pháp, đánh giá độ hiệu phương pháp Ứng dụng vào thực tế - Hướng phát triển đề tài III NGÀY GIAO NHIỆM VỤ: 01/12/2002 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/06/2003 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN TS Lê Tiến Thường TS Đinh Việt Hào CB HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH TS Lê Tiến Thường TS Đinh Việt Hào PGS TS Vũ Đình Thành TS Phạm Hồng Liên Nội dung đề cương luận văn thạc sỹ Hội Đồng Chuyên Ngành thông qua Ngày PHÒNG ĐÀO TẠO SĐH tháng KHOA QUẢN LÝ NGÀNH năm 2003 TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD: TS LÊ TIẾN THƯỜNG AN OVERVIEW AND SIMULATION ON VIETNAMESE SPEECH RECOGNITION Abstract For many years, speech recognition by machine existed only in the minds of sciencefiction writers However, in recent years, the real problem of automatic speech recognition has been addressed in many research laboratories throughout the world The ultimate goal of this research is to produce a machine which will recognise accurately normal human speech from any speaker Such a machine could be used in a wide variety of applications including speech input to computers, office automation, factory automation, security systems, aids for handicapped, consumer products In an ever-expanding information technology and advanced telecommunication age, speech recognition and synthesis devices would permit remote access to a wide variety of information services over the telephone There are three main areas in speech technology – speech synthesis, speech recognition and speech coding The content of thesis is about automatic speech recognition (ASR) with application to command and control system, and development the independent motion system using DSP56303 of Motorola to recognize speech, control motion as demand The problem to be solved in designing an ASR system are related to a large variety of disciplines such as acoustics, signal processing, pattern recognition, phonetics, linguistics, neuroscience, and computer science The thesis also introduces many signal analysis techniques such as: STFT and CWT in extracting formants, extracting pitch period by phase of CWT, MFSC, MFCC,PLP And some recognizer are used for Vietnamese speech recognition: DTW, codebook recognition, HMM, Neuron network ABSTRACT HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD: TS LÊ TIẾN THƯỜNG LỜI NÓI ĐẦU Việc sử dụng thiết bị máy móc để thay sức người xã hội ngày trở nên phổ biến, đặc biệt lónh vực : y tế, giáo dục, công nghiệp, ngành thăm dò, thám hiểm Do đó, nhu cầu nghiên cứu hiểu biết với ứng dụng máy móc tự động ngày trở nên cấp thiết Quá trình giao tiếp với máy móc lónh vực nghiên cứu mới, đặc biệt Việt Nam Việc giao tiếp người máy thông qua nhiều hình thức, nhiên phương pháp tiên tiến mà ngày thường sử dụng giao tiếp ngôn ngữ tự nhiên : Tiếng nói Có ba lónh vực công nghệ tiếng nói là: tổng hợp tiếng nói, nhận dạng tiếng nói mã hoá tiếng nói Mục đích lónh vực tổng hợp tiếng nói phát triển hệ máy chuyển đổi dạng văn thành tiếng nói tự nhiên Các ứng dụng bao gồm hệ thống tiếng nói phát từ máy tính, máy đọc, hệ thống tin công cộng ng dụng Chip lập trình - ví dụ DSP ( digital signal processing) - vào xử lý tiếng nói mang lại lợi ích lớn, đặc biệt hệ thống độc lập yêu cầu tiêu tốn lượng, giá thành hạ, nhỏ gọn Đây lónh vực nghiên cứu mới, hứa hẹn có ứng dụng lớn Nội dung đề tài khái quát phương pháp nhận dạng tiếng nói lựa chọn phương pháp để xây dựng hệ thống nhận dạng xử lý tiếng nói ứng dụng việc điều khiển hệ thống máy móc thực thi yêu cầu người điều khiển Việc nhận dạng xử lý tiếng nói thực song song hệ thống giả lập máy tính thực tế để theo dõi đánh giá kết thực Đề tài xây dựng theo cấu trúc sau: Tổng hợp kỹ thuật, phương pháp xử lý tiếng nói DTW, HMM, Wavelets, Neural network Xây dựng mô hình nhận dạng tiếng nói máy tính để làm sở nhận dạng so sánh với mô hình thực tế Nghiên cứu hệ xử lý số tính hiệu DSP56303 Motorala ứng dụng vào hệ thống xử lý tiếng nói ABSTRACT HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD: TS LÊ TIẾN THƯỜNG Phần trình bày luận văn bao gồm phần sau: Chương Cơ sở ngữ âm học Trình bày số khái niệm ngữ âm học, phân tích đặc điểm cấu trúc âm tiết tiếng Việt Chương Cơ sở lý thuyết phân tích tín hiệu Trình bày tóm tắt lý thuyết khái quát số phương pháp xử lý, phân tích tín hiệu Chương Cơ sở nhận dạng tiếng nói Trình bày phương pháp xử lý tín hiệu tiếng nói: số hoá tín hiệu tiếng nói, tách tín hiệu khỏi nhiễu, trích đặc trưng tiếng nói đưa mô hình huấn luyện, nhận dạng Chương đề cập đến hai trình liên quan với xử lý tiếng nói: front-end back-end processing Chương Nhận dạng dùng kỹ thuật đối sánh mẫu Trình bày phương pháp nhận dạng dựa kỹ thuật đối sánh mẫu: DTW, VQ Chương Nhận dạng dùng mô hình Markov ẩn Mô hình Markov ẩn kỹ thuật nhận dạng dựa mô hình thống kê Chương trình bày khái niệm HMM, cấu trúc biến thể cuûa HMM: Gaussian HMM, Autoregressive HMM, semiMarkov model đưa hệ nhận dạng dùng mô hình HMM Chương Nhận dạng dùng mạng Neuron Mạng neuron hình thành dựa ý tưởng mô lại hoạt động não người, Mạng neuron diễn tả cấu tổ chức mạng, đặc tính nút mạng qui luật học tập, có nhiều ứng dụng quan trọng đặc biệt lónh vực xử lý tiếng nói Chương giới giải thuật quan trọng mạng neuron kỹ thuật lan truyền ngược – backpropagation Đồng thời giới tjiệu mô hình kết hợp NN HMM Chương Tổng quan Kit DSP56303 Chương trình bày cấu trúc tổng quát Kit DSP56303, ấu trúc khối chức năng, chế hoạt động chúng để làm sở cho việc xây dựng hệ nhận dạng dựa Kit DSP56303 Chương Kết thực Trình bày sơ đồ giải thuật, mô hình nhận dạng tiếng nói Kit DSP56303, số kết thực hiện, hướng phát triển đề tài ABSTRACT HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VỀ NHẬN DẠNG TIẾNG VIỆT GVHD: TS LÊ TIẾN THƯỜNG MỤC LỤC CHƯƠNG CƠ SỞ NGỮ ÂM HỌC 1.1 1.2 BẢN CHẤT CỦA TIẾNG NÓI 1.1.1.Các đặc trưng vật lý 1.1.2.Phân loại tiếng nói CƠ SỞ NGỮ ÂM TIẾNG VIỆT 1.2.1.Ngữ âm Tiếng Việt 1.2.2.Âm tiết Tiếng Việt 1.2.3.Hệ thống âm vị Tiếng Việt .9 CHƯƠNG CƠ SỞ LÝ THUYẾT PHÂN TÍCH TÍN HIỆU 2.1 CÁC PHÉP BIẾN ĐỔI 19 2.1.1.Phân tích Fourier thời gian ngắn STFT 19 2.1.2.Phép biến đổi wavelets 21 2.2 2.3 XỬ LÝ VÀ BIỂU DIỄN TÍN HIỆU 25 2.2.1.Xửõ lý tín hiệu liên tục 26 2.2.2.Xử lý tín hiệu rời rạc 27 2.2.3.Khai triển chuỗi cho hàm thời gian liên tục 27 2.2.4.Độ phân giải thời gian, tần số khai triển 29 2.2.5.Khai triển Haar .31 2.2.6.Phương pháp dãy lọc 32 2.2.7.Phương pháp mã dự báo tuyến tính LPC 41 NÂNG CAO KHẢ NĂNG BIỂU DIỄN TÍN HIỆU 49 2.3.1.Các phần tử 51 2.3.2.Thủ tục phân lớp 52 2.3.3.So sánh lượng tử hóa vector vô hướng 54 MỤC LỤC i HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VỀ NHẬN DẠNG TIẾNG VIỆT GVHD: TS LÊ TIẾN THƯỜNG CHƯƠNG CƠ SỞ NHẬN DẠNG TIẾNG NÓI 3.1 XỬ LÝ TÍN HIỆU 56 3.1.1.Số hóa tín hiệu tiếng nói 56 3.1.2.Tách tiếng nói khỏi nhiễu 58 3.1.3.Trích đặc trưng tiếng nói 76 3.2 HUẤN LUYỆN VÀ NHẬN DẠNG 105 3.2.1.Hệ nhận dạng tiếng nói tự động (ASR) 105 3.2.2.Hệ nhận dạng người nói 109 3.2.3.Giới thiệu phương pháp 110 CHƯƠNG NHẬN DẠNG DÙNG KỸ THUẬT ĐỐI SÁNH MẪU 4.1 CÁC ĐỘ LỆCH TRONG NHẬN DẠNG TIẾNG NÓI 113 4.1.1.Định nghóa độ lệch .113 4.1.2.Một số độ lệch thường dùng .113 4.2 CANH LỀ VÀ CHUẨN HÓA THEO THỜI GIAN 117 4.2.1.Ý nghóa 117 4.2.2.Các ràng buộc 118 4.2.3.Quy hoaïch ñoäng DP .119 4.3 4.4 PHÉP CO GIÃN THỜI GIAN ĐỘNG 120 4.3.1.Giới thiệu phương pháp 120 4.3.2.Tìm lời giải quy hoạch động 122 4.3.3.Tóm tắt giải thuật 123 HỆ NHẬN DẠNG ĐỐI SÁNH MẪU HƯỚNG DTW 125 4.4.1.Huấn luyện mẫu 125 4.4.2.Nhận dạng 127 4.5 HỆ NHẬN DẠNG ĐỐI SÁNH MẪU HƯỚNG VQ 128 4.5.1.Đặt vấn đề 128 4.5.2.VQ đối sánh mẫu không cần chuẩn hóa theo thời gian 128 4.5.3.VQ nhận dạng người nói 130 CHƯƠNG NHẬN DẠNG DÙNG MÔ HÌNH MARKOV ẨN 5.1 NHỮNG KHÁI NIỆM 133 5.1.1.Những thành phần mô hình Markov ẩn 133 5.1.2.HMM – Bộ tạo dãy quan sát 134 5.1.3.Nhận xét .135 MỤC LỤC ii HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VỀ NHẬN DẠNG TIẾNG VIỆT 5.2 5.3 GVHD: TS LÊ TIẾN THƯỜNG CÁC LOẠI CẤU TRÚC VÀ BIẾN THỂ CỦA HMM 136 5.2.1.Các loại cấu trúc 136 5.2.2.Bieán thể HMM .138 5.2.3.So saùnh caùc HMM 148 HỆ NHẬN DẠNG DÙNG MÔ HÌNH MARKOV ẨN 149 5.3.1.Đặt vấn đề 149 5.3.2.Lựa chọn tham số cho mô hình 151 5.3.3.Dùng thuật toán K-means phân chia thành trạng thái 152 5.3.4.Sát nhập khoảng trạng thái vào mô hình HMM 153 CHƯƠNG NHẬN DẠNG DÙNG MẠNG NEURON 6.1 6.2 NHỮNG KHÁI NIỆM CHUNG 155 6.1.1.Giới thiệu mạng neuron nhân tạo .155 6.1.2.Mô hình neuron nhân tạo 157 6.1.3.Cấu trúc mạng 159 KỸ THUẬT LAN TRUYỀN NGƯC 161 6.2.1.Giới thiệu 161 6.2.1.Giaûi thuaät conjugate_ gradient .164 6.2.2.Giải thuật cập nhật Fletcher-Reeves 165 6.2.3.Giải thuậât khởi động lại Powell_Beale .165 6.2.4.Các giải thuật Quasi_Newton 165 6.2.5.Giải thuật Levenberg_Marquardt 166 6.2.6.Các vấn đề huấn luyện .166 6.3 KẾT HP NN-HMM 168 6.3.1.Duøng NN thi coâng HMM 168 6.3.2.Huấn luyện cấp frame 169 6.3.3.Huấn luyện cấp segment 170 6.3.4.Huấn luyện cấp từ 170 6.3.5.Tối ưu hóa toàn diện 171 6.3.6.Sự phụ thuộc vào ngữ cảnh 171 6.3.7.Sự độc lập với người nói .174 6.3.8.Nhận biết từ 176 CHƯƠNG TỔNG QUAN VỀ KIT DSP56303 7.1 ĐẶC ĐIỂM VÀ MÔ TẢ KIT DSP56303 178 7.1.1.Bộ nhớ 178 7.1.2.FSRAM .178 7.1.3.Audio codec CS4218 180 MỤC LỤC iii HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD: TS LÊ TIẾN THƯỜNG Bộ nhớ liệu X Y có cấu trúc chức độc lập với nhau, ngoại trừ 128 word bên không gian 128 word bên nhớ 7.3.7 Cấu hình không gian nhớ Không gian nhớ đánh địa 24-bit DSP56303 chuyển sang chế độ tương thích 16-bit địa set bit SC (Sixteen-bit Compatibility) ghi SR (Status Register) Bit Tên Bit viết tắt Vị trí Bit SC SR 13 7.3.7.1 Sixteen-bit Compatibility Cleared=0 Set=1 nh Ảnh hưởng hưởng (Mặc định) 16Mx24-bit 64Kx16-bit Cấu hình RAM DSP56303 có 8K RAM, mặc định sau: • RAM chương trình, 4K • RAM liệu X, 2K • RAM liệu Y, 2K Cấu hình RAM tuỳ thuộc vào hai bit: CE (Cache Enable) SR MS (Memory Select) ghi chế độ hoạt động (Operating Mode Register – OMR) Bit viết tắt Tên Bit CE Cache Enable SR 19 MS Memory Switch C7-TỔNG QUAN VỀ KIT DSP56303 Vị trí Bit OMR 196 Cleared=0 Set=1 nh Ảnh hưởng hưởng (Mặc định) Cache disabled Cache enabled 1K RAM chương RAM chương trình 4K trình 2K RAM liệu X RAM liệu X 2K 3K RAM liệu Y RAM liệu Y 2K 3K HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT 7.3.7.2 GVHD: TS LÊ TIẾN THƯỜNG Cấu Hình Không Gian Bộ Nhớ Bảng 7-16 Cấu hình không gian nhớ DSP56303 Chọn Bit Kích thước SC nhớ địa 16 M words 64 K words Khoảng địa Số bit địa $000000 - 24 $FFFFFF $0000 - $FFFF 16 Bảng 7-17 Cấu hình RAM Choïn Bit MS CE 0 1 1 Kích thước nhớ (K) RAM chương RAM RAM Cache trình liệu X liệu Y 2 2 3 3 Vị trí nhớ thật RAM chương trình nhớ lệnh tức thời nhớ chương trình xác định bit MS CE, theo bảng 7-18 Bảng 7-18 Vị trí nhớ RAM chương trình nhớ lệnh tức thời MS CE 0 1 1 Vị trí RAM chương trình $000 - $FFF $000 - $BFF $000 - $7FF $000 - $3FF Vị trí Cache N/A $C00 - $FFF N/A $400 - $7FF Vị trí nhớ RAM liệu X Y xác định bit MS theo bảng sau MS C7-TỔNG QUAN VỀ KIT DSP56303 Vị trí liệu RAM $000 - $7FF $000 - $BFF 197 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG CHƯƠNG KẾT QUẢ THỰC HIỆN HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Chương xây dựng hệ thống nhận dạng tiếng nói độc lập dựa kit Motorola DSP56303 Mô hình thực sau: người nói huấn luyện hệ thống cách lưu trử từ vựng vào nhớ Sau người lặp lại từ từ vựng để hệ thống nhận dạng điều khiển cách tay máy theo yêu cầu Trong chương đưa số kết đạt luận văn, so sánh kết nhận dạng chương trình viết phần mềm (ngôn ngữ MATLAB) kết nhận dạng phần cứng (Kit DSP56303 Motorola) Đồng thời đưa số hướng phát triển đề tài C8-KẾT QUẢ THỤC HIỆN 198 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG 8.1 SƠ ĐỒ KHỐI Huấn luyện hệ thống Đọc Biến đổi A/D Vào Microphone Lưu vào nhớ Tính toán hệ số LPC Hình 8.1 Sơ đồ huấn luyện hệ thống Nhận dạng từ Đọc Đầu Biến đổi A/D Vào Microphone So sách với hệ số lưu trữ Tính toán hệ số LPC Hình 8.2 Sơ đồ nhận dạng từ C8-KẾT QUẢ THỤC HIỆN 199 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG 8.2 THỰC HIỆN Sơ đồ thiết kế hệ thống Tín hiệu vào Biến đổi A/D Tách tiếng nói Lọc Pre-emphasis Hamming window Chia khung Tự tương quan Giải thuật Durbin Levinson- So sánh SSD Output Hình 8.3 Sơ đồ giải thuật thực C8-KẾT QUẢ THỤC HIỆN 200 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG 8.2.1 Bộ biến đổi A/D DSP56303 biến đổi tính hiệu analog sang tính hiệu số CODEC A/D, tốc độ lấy mẫu 8000 samples/second 8.2.2 Tách tiếng nói khỏi nhiễu Mỗi mẫu sau qua biến đổi A/D so sánh với mức ngưỡng, giá trị mẫu nhỏ mức ngưỡng xem nhiểu bị bỏ qua, giá trị mẫu lớn mức ngưỡng xem tín hiệu 2000 mẫu lưu vào buffer để xử lý 8.2.3 Làm tín hiệu Tín hiệu cho qua lọc số bậc thấp Bộ lọc có hàm truyền sau: (8.1) H ( z ) = − 0.9375 z −1 Bộ lọc làm tăng thành phần tần số cao tín hiệu tiếng nói, làm giảm thành phần tần số thấp 8.2.4 Chia khung tín hiệu Sau làm nổi, tín hiệu phân vào khung nối tiếp có chiều dài 30ms Số mẫu khung tính theo công thức sau: (Tốc độ lấy mẫu) x (chiều dài khung) = Số mẫu khung (8000 mẫu/giây) x (0.03 giây) = 240 mẫu Hai khung liên tiếp chồng lên 160 mẫu, có 80 mẫu tách biệt 8.2.5 Cửa sổ Hamming Biểu thức cửa sổ Hamming sau: w(n) = 0.54 − 0.46 cos(2πn / 239) C8-KẾT QUẢ THỤC HIỆN với ≤ n ≤ 239 201 (8.2) HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG Biểu thức (8.2) tạo 240 điểm rời rạc cho cửa sổ Hamming Với khung cửa sổ 30ms, 240 mẫu nhân điểm – điểm với 240 điểm cửa sổ Hamming rời rạc 8.2.6 Phân tích tự tương quan Sau cửa sổ Hamming, khung cửa sổ dùng để tính hệ số tự tương quan Ta có công thức tính hệ số tự tương quan 239 Ri = ∑ x(n) x(n − i ) với i= đến 10 N =1 (8.3) Trong giá trị biến i lớn tương đương với bậc LPC Với tốc độ lấy mẫu 8kHz, bậc LPC chọn 10 Chú ý hệ số tự tương quan, R0, lượng khung cửa sổ tín hiệu Sau tín toán xong 11 hệ số tự tương quan giải giải thuật Levinson-Durbin để tìm 10 hệ số LPC 8.2.7 Giải thuật Levinson-Durbin Mỗi khung cửa sổ xem lọc IIR có biểu thức hàm truyền sau: H ( z) = G + A1 z + A2 z − + + A10 z −10 ( −1 (8.4) ) 10 hệ số LPC ( A1 , A2 , , A10 ) giải theo biểu thức tự tương quan (8.5) R0 R1 R1 R0 R2 R1 R9 A1 R8 A2 R2 R1 R0 R7 A3 = − R3 R9 R8 R7 R1 R2 R0 A10 R10 (8.5) Để giải phương trình ta dùng phương pháp đệ quy: C8-KẾT QUẢ THỤC HIỆN 202 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG Cho An (0) = vaø E = R0 For n = to 10, { n-1 Kn = (-1/En-1) ∑ An-1(i) Rn-i i=0 An(n) = Kn For i = to n-1, An(i) = An-1(i) + Kn An-1(n-i) End For En = En-1 (1 - Kn2 ) } End For Với A10 (1), A10 (2), A10 (3), , A10 (10) laø 10 hệ số Ta xem xét đoạn chương trình giải thuật Levinson-Durbin viết ngôn ngữ assembly: r k acoeffs anew nk org ds ds org dc ds dc ds equ 10 x:0 nk+1 nk y:0 $7fffff nk $7fffff nk đoạn chương trình chọn giá trị cho giải thuật xác định hệ số LPC Chọn số bậc LPC , nk, 10 Giá trị xuất ghi vào ghi liệu x, hệ số tự tương quan theo (8.3) , r, 11 định nghóa ghi giá trị tạm thời y Các giá trị đầu vào cho a(0), acoeffs Chương trình dùng hai vòng lặp gọi outer loop inner loop để tính giá trị hệ số LPC: ; Với ghi quy ước sau: ; r0 - r[i] r4 - acoeffs[i] ; r1 - k[i-1] r5 - acoeffs[j-1] C8-KEÁT QUẢ THỤC HIỆN 203 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT ; ; ; r2 - r[i-j+1] r3 - anew[j-1] outer loop GVHD : TS LÊ TIẾN THƯỜNG r6 - acoeffs[i-j+1] r7 - loop counter #nk-1,L6 ; loop nk-1 = laàn move r0,r2 move #acoeffs,r5 move (r0)+ clr a x:(r2)-,x0 y:(r5)+,y0 ; inner loop laàn r7,L4 mac x0,y0,a x:(r2)-,x0 y:(r5)+,y0 8.2.8 So sánh tổng bình phương sai phân So sánh tổng bình phương sai phân phương pháp định lượng để so sánh hai hệ số LPC Giả sử hệ số LPC mẫu A’1, A’2, A’3, …., A’10, hệ số LPC cần so sánh từ khung cửa sổ A1, A2, A3, …., A10: SSD = (A’1 – A1)2 + (A’2 – A2)2 + (A’3 – A3)2 + … + (A’10 – A10)2 (8.6) Mỗi lần khung cửa sổ dịch, tính giá trị SSD hệ số LPC từ khung cửa sổ tất hệ số LPC database Mẫu database có giá trị SSD nhỏ nghóa mẫu gần giống với từ nhận dạng Tuy nhiên đặt giá trị ngưỡng để đảm bảo giá trị SSD nhỏ không lớn giá trị ngưỡng 8.2.9 Mô hình thiết kế Computer: Analyze, Simulate Speaker Micro Sound card DSP56303EVM Hình 8.4 Sơ đồ thực mô hình C8-KẾT QUẢ THỤC HIỆN 204 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG Tín hiệu tiếng nói đưa vào máy tính để phân tích, mô phần mềm Đồng thời đưa sang Kit DSP56303 thông qua card Sound máy tính, thân Kit DSP56303 có phần line in CS4218, nhận mức tín hiệu từ Micro đưa vào Mẫu nhận dạng cuối đưa đưa loa thông qua line out CS4218 8.3 KẾT QUẢ THỰC HIỆN 8.3.1 Chương trình mô thực Matlab Chương trình thực máy tính viết ngôn ngữ Matlab, công cụ hỗ trợ cho xử lý tín hiệu mạnh Chương trình thực số phương pháp trích đặc trưng sau: STFT, CWT, PITCH, LPC, MFSC, MFCC Quá trình huấn luyện nhận dạng dùng kỹ thuật DTW, VQ-HMM, HMM,MLP 8.3.1.1 Quá trình phân tích, huấn luyện phần tiến hành phân tích tín hiệu tiếng nói dựa vào đặc trưng ta lựa chọn ô feature method Kết lưu thư mục data Hình 8.5 Kết phân tích từ “lên” C8-KẾT QUẢ THỤC HIỆN 205 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG 8.3.1.2 Quá trình nhận dạng Sau phân tích để trích đặc trưng lựa chọn phương pháp huấn luyện, nhận dạng ta phải lựa chọn phương pháp nhận dạng phù hợp 8.3.2 Đánh giá khả thực Kit DSP56303 Phần thực Kit DSP56303 sử dụng phương pháp LPC mô tả trên, nhiên lý hạn chế nhớ lưu trữ liệu Kit DSP56303 nên chương trình thực nhận dạng 10 từ đơn giản độc lập sau: “Lên”, “Xuống”, “Trái”, “Phải”, “Tới”, “Một”, “Ba”, “Năm”, “Bảy”, “Chính” Hình 8.6 Kết phân tích từ “Lên” DSP C8-KẾT QUẢ THỤC HIỆN 206 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG Mặc dù có số hạn chế khả nhớ DSP56303, cấu trúc chương trình viết assembler phức tạp Tuy nhiên mặt giải thuật ta ứng dụng DSP56303 vào số hệ thống nhận dạng, lưu trử tiếng nói voice command, voice mail, telephone banking 8.3.3 Đánh giá kết Kết thực nhận dạng với 10 từ : “Lên”, “Xuống”, “Trái”, “Phải”, “Tới”, “Một”, “Ba”, “Năm”, “Bảy”, “Chính” Mỗi từ thực 50 lần Từ đọc Lên 45 Lên 42 Xuống 1 Trái Phải 1 Tới Một 0 Ba 2 Năm Bảy Chính Từ nhận dạng Xuống 0 47 40 1 1 0 1 1 Traùi 40 38 3 1 1 1 Phaûi 1 42 38 3 1 2 Tới 0 2 41 39 2 2 1 Moät 1 2 2 44 39 0 2 Đánh Mô giá hình Ba 0 0 1 0 42 40 1 1 Naêm 1 0 1 38 37 1 Baûy 0 2 1 2 2 42 37 Chính 0 0 1 1 1 44 39 90% 84% 94% 80% 80% 76% 84% 76% 82% 78% 88% 78% 84% 80% 76% 74% 84% 74% 88% 78% Matlab DSP Matlab DSP Matlab DSP Matlab DSP Matlab DSP Matlab DSP Matlab DSP Matlab DSP Matlab DSP Matlab DSP Các kết thực nhận dạng Matlab cho độ xác cao (cùng phương pháp LPC), giải thuật thực Matlab ta thực phép biến đổi hệ số LPC thành hệ số Cepstrum 8.3.4 Kết luận Hệ thống nhận dạng thiết kế dựa Board DSP56303 thực nhận dạng số lệnh đơn giản, điều khiển hoạt động theo yêu cầu Tuy nhiên hạn chế nhớ chương trình nhớ liệu, nên 2000 mẫu tín hiệu lưu trữ xử lý lúc, C8-KẾT QUẢ THỤC HIỆN 207 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG liệu lưu trữ làm sở nhận dạng hạn chế Bên cạnh phương pháp LPC dùng để trích đặc trưng tín hiệu tiếng nói tính ổn định cao nên ảnh hưởng nhiều đến kết nhận dạng Một lợi điểm Kit DSP56303 đáp ứng thời gian thực, nhờ vào việc xử lý song song phép toán DSP 8.4 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Nhận dạng tiếng Việt có đặc trưng riêng mà cần phải quan tâm đến để tăng độ xác lựa chọn phương pháp phù hợp Để xây dựng hệ nhận dạng độc lập hoàn chỉnh việc lựa chọn mô hình lý thuyết phù hợp, cần phải xây dựng sở liệu đầy đủ toàn hệ thống ngữ âm tiếng Việt, khoảng 60.000 từ Với hệ cần phải giải toán phương pháp phân tích đặc trưng, lưu trữ, giải thuật tìm kiếm nhận dạng Ngoài môi trường với tác động yếu tố quan trọng định đến kết nhận dạng hệ Vì cần nghiên cứu lựa chọn phương pháp tách điểm cuối để tăng độ xác nhận dạng Để xây dựng hệ nhận dạng độc lập hoàn chỉnh xây dựng giải thuật, cần phải xây dựng hệ phần cứng phù hợp đủ mạnh để thực hiệu giải thuật Với Kit DSP56303 nhớ liệu nhớ chương trình hạn chế, cần phải sử dụng nhớ để tăng khả lưu trữ liệu Lập trình ngôn ngữ Assembly gặp nhiều khó khăn, đặc biệt với ứng dụng xử lý tín hiệu tiếng nói Trong sử dụng ngôn ngữ lập trình C đơn giản nhiều vừa dễ dàng việc xây dựng giải thuật trình kiểm tra lỗi, nhiên dùng ngôn ngữ C có hạn chế cho phép sử dụng nhớ DSP56303EVM biên dịch thành dạng assembler Một hướng nghiên cứu xây dựng mô hình nhận dạng tiếng nói cách chụp lại hình dạng miệng phát âm để nhận dạng mà không cần dựa vào âm phát Sau so sánh với kết nhận dạng âm để đánh giá kết C8-KẾT QUẢ THỤC HIỆN 208 HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG TÀI LIỆU THAM KHẢO [1] Martin Vetterli, ‘Wavelets and subband coding’, Printice Hall, 1995 [2] Michel Misiti, Yves Misiti, Georges Oppenhein, Jean-Michel Poggi, ‘MATLAB – Wavelet toolbox User’s Guide’, 1997 [3] Robi Polikar, ‘The Engineer’s Ultimate Guide To Wavelet Analysis’, http://www.public.iastate.edu/∼rpolikar/WAVELETS/Tutorial.html, 1996 [4] F.J.Owens, ‘Signal Processing of Speech’, MACMILLAN, 1993 ISBN 0-33351921 [5] Thuong Le-Tien, ‘A study on the continous wavelet transform for the Vietnamese speech processing’, Proceedings of the 1997 Intenational Conference on Neural Information Processing and Intelligent Information Systems, ICONIP'97, University of Otago, Dunedin, New Zealand, pp 1072-1075, November 1997 [7] Peter I Corke, ‘Robotics Toolbox’, http://www.brb.dmt.csiro.au/dmt/programs/autom/matlab.html, 1996 [8] Garett A Sohl, James E Bobrow, ‘ A recursive multibody dynamics and sensitivity algorithim for branched kinematic chains’, http://www.eng.uci.edu/∼ bobrow, 2000 [9] Hữu Đạt, Thanh Lam, ‘Cơ sở tiếng Việt’, NXB Văn Hoá-Thông Tin, 2000 [10] Cao Xuân Hạo, ‘Tiếng Việt vấn đề ngữ âm, ngữ nghóa ngữ pháp’ NXB Giáo Dục, 1998 [11] S Kadamble, G.F Boudreaux-Bartels, ‘Application of the wavelet transform for pitch detection of speech signals’ IEEE tran On Inf Theory, vol.38, Mar 1992 [12] T.Le-Tien, H Talhami, D.T Nguyen, ‘simple algorithim for wavelet maxima modulus extraction in time-scale representation’, IEEE Electronic Letter, Feb 97 vol.33 [13] J Do, PD Dieu, S.E Goodman, ‘Vietnam Information technology for the transition’, IEEE Computer Society, March 1996 TÀI LIỆU THAM KHẢO A HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD : TS LÊ TIẾN THƯỜNG [14] H.V Khuong, L.N Phu, ‘A study on Vietnamese speech-base controller for communication using wavelets’, Graduation thesis, Supervisor Dr Thuong Le-Tien, Telecom Department Ho Chi Minh University of Technology, 12-2000 [15] T.T Hung, ‘ Astudy on speech recognition for robot communication using wavelet transform’, Master thesis, Supervisor Dr Thuong Le-Tien, Telecom Department Ho Chi Minh University of Technology, 8-2000 [16] DSP56303 Digital Signal Processor User’s Manual, Technical Data, Motorola Inc., 1996 [17] Motorola DSP Assembler Reference Manual, Motorola Inc., 1996 [18] T Le-Tien, T Tien Duc, "Continuous Vietnamese Speech Recognition using Neural networks" , Journal of Science & Technology Development, Vietnam Nation university of HOCHIMINH city, 10-2002, Vol.5, pp 13-21 (in Vietnamese) [19] T Le-Tien, et al, "An efficient wavelets-based approach for Vietnamese speech recognition", DGPT – Posts and Telecommunications Journal, Special Issue on Research and Development on Telecommunications and Information Technology, May-2002, ISSN 0866-7039, pp 5-14 (in Vietnamese) [20] T Le-Tien, T.T.Hung, T.T Duc, H.D Chien, "Recognizing formants anh pitch periods for Vietnamese speech based on the local modulus maxima in the wavelet domain", Journal of Science & Technology Development, Vietnam Nation university of HOCHIMINH city, Vol 4, No 1&2-2001, pp 43-55 (in English) [21] T Le-Tien, et al, "Feature extraction based on discrete wavelet transform for Vietnamese Speech recognition", Proceedings of 8th Conference on Science and Technology, 26&27th April, 2002, HoChiMinh University of Technology, Vietnam, pp 1-4 (in Vietnamese) [22] N.T.Duy-L.M.Linh, “Wavelet and neural networks applied to vietnamese speech recognition”, Graduation thesis, Supervisor Dr Thuong Le-Tien, Telecom Department Ho Chi Minh University of Technology, 01-2002 TÀI LIỆU THAM KHẢO B HVTH: THIỀM CÔNG NGUYÊN ... NGÀNH năm 2003 TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG VIỆT GVHD: TS LÊ TIẾN THƯỜNG AN OVERVIEW AND SIMULATION ON VIETNAMESE SPEECH RECOGNITION Abstract For many years, speech recognition by machine... : Tiếng nói Có ba lónh vực công nghệ tiếng nói là: tổng hợp tiếng nói, nhận dạng tiếng nói mã hoá tiếng nói Mục đích lónh vực tổng hợp tiếng nói phát triển hệ máy chuyển đổi dạng văn thành tiếng. .. MFCC,PLP And some recognizer are used for Vietnamese speech recognition: DTW, codebook recognition, HMM, Neuron network ABSTRACT HVTH: THIỀM CÔNG NGUYÊN TỔNG QUAN VÀ MÔ PHỎNG VỀ NHẬN DẠNG TIẾNG

Định dạng
Số trang	221
Dung lượng	3,8 MB