Nghiên cứu hệ thống nhúng giám sát, điều khiển các thiết bị dân dụng bằng tiếng nói tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH : ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN NGHIÊN CỨU HỆ THỐNG NHÚNG GIÁM SÁT, ĐIỀU KHIỂN CÁC THIẾT BỊ DÂN DỤNG BẰNG TIẾNG NÓI TIẾNG VIỆT KHUẤT QUANG VINH Hà Nội 2009 LỜI CẢM ƠN Sau thời gian thực tập nghiên cứu Trung tâm MICA – Trường Đại học Bách Khoa Hà Nội, hoàn thành luận văn “Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt” theo yêu cầu giao luận văn cao học Tôi xin gửi lời cảm ơn chân thành tới Trung tâm MICA nơi tạo điều kiện cho thực tập nghiên cứu làm luận văn Qua xin chân thành cảm ơn TS Eric Castelli, TS Nguyễn Thị Lan Hương, TS Nguyễn Quốc Cường, TS Nguyễn Việt Tùng nhiều cán nghiên cứu khác giúp đỡ hoàn thành tốt luận văn Đặc biệt xin gửi tới PGS-TS Phạm Thị Ngọc Yến lòng biết ơn sâu sắc, người trực tiếp hướng dẫn tạo điều kiện giúp đỡ hoàn thành luận văn Xin bảy tỏ lòng biết ơn tới thày cô Bộ môn Kỹ thuật Đo Tin học công nghiệp tạo điều kiện giúp đỡ suốt trình học tập chương trình đào tạo thạc sỹ vừa qua Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình bạn bè khóa học ủng hộ, khích lệ để yên tâm học tập, nghiên cứu trưởng thành ngày hôm Một lần xin chân thành cảm ơn! Hà Nội, ngày 02 tháng 11 năm 2009 -2Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt CÁC THUẬT NGỮ SỬ DỤNG TRONG LUẬN VĂN STT Thuật ngữ Ý nghĩa HMM Hidden Markov Moden LPC Linear Predictive Coding MFCC Mel Frequency Coefficient Cepstral ANN Artificial Neuron Network MLP Multilayer Perceptron DSP Digital Signal Processor CCS Code Composer Studio TI Texas Instrument CSDL Cơ sở liệu 10 DTW Khuất Quang Vinh Dynamic Time Wrapping Đo lường Các Hệ thống điều khiển -3Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt MỤC LỤC LỜI MỞ ĐẦU - CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ HỆ THỐNG TƯƠNG TÁC NGƯỜI – MÁY BẰNG TIẾNG NÓI - 11 1.1 1.2 Nhận dạng tiếng nói: - 11 Các phương pháp tiếp cận nhận dạng tiếng nói - 14 - 1.2.1 Phương pháp âm học – ngữ âm học: - 14 1.2.2 Phương pháp nhận dạng mẫu - 16 1.2.3 1.3 1.4 1.5 Phương pháp ứng dụng trí tuệ nhân tạo - 18 Tình hình nghiên cứu ứng dụng nhận dạng tiếng nói tiếng Việt- 20 Hệ thống tương tác người – máy tiếng nói - 21 Mục tiêu nhiệm vụ luận văn - 23 - 1.5.1 Mục tiêu - 23 1.5.2 Nhiệm vụ - 23 CHƯƠNG 2: 2.1 XÂY DỰNG CƠ SỞ DỮ LIỆU - 25 - Nhà thông minh: - 25 - 2.1.1 Quan niệm nhà thông minh - 25 2.1.2 Các đối tượng điều khiển nhà thông minh - 26 2.2 Điều khiển thiết bị nhà tiếng nói: - 27 2.2.1 Các phương thức điều khiển thiết bị gia dụng nhà: - 27 2.2.2 Nghiên cứu, đề xuất “cú pháp” điều khiển cho thiết bị: - 29 2.2.3 Đề xuất tập lệnh lệnh định danh cho số thiết bị gia dụng:- 29 2.2.4 Tổng kết tập lệnh: - 33 2.3 Xây dựng sở liệu: - 34 2.3.1 Bảng từ cần thu âm - 34 2.3.2 Các bước thu âm - 34 CHƯƠNG 3: XÂY DỰNG THUẬT TOÁN NHẬN DẠNG TỪ ĐIỀU KHIỂN TRÊN PC - 35 3.1 Tiền xử lý tín hiệu: - 35 - 3.1.1 Hàm lượng ngắn hạn - 35 3.1.2 Phát điểm đầu điểm cuối tiếng nói - 35 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -4Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 3.1.3 Bộ lọc hiệu chỉnh - 36 3.2 Trích chọn đặc trưng tín hiệu tiếng nói: - 37 3.2.1 Phân khung tín hiệu - 37 3.2.2 Mô hình LPC (Linear Predictive Coding model) - 39 3.2.3 Phương pháp MFCC (Mel-Frequency Ceptrum Coefficients) - 46 3.3 Mô hình nhận dạng: - 49 3.3.1 Mô hình Markov ẩn - 49 3.3.2 Mô hình mạng neuron - 57 3.4 Thử nghiệm thuật toán Matlab - 62 3.4.1 Phạm vi thử nghiệm (giới hạn) - 62 3.4.2 Kết - 62 3.4.2.1 Mô hình Markov ẩn (HMM) - 62 3.4.2.2 Mô hình mạng Neuron - 69 3.4.3 Lựa chọn thuật toán để cài đặt lên hệ nhúng - 71 CHƯƠNG 4: TRIỂN KHAI THUẬT TOÁN NHẬN DẠNG TIẾNG VIỆT TRÊN DSP - 72 4.1 Giới thiệu DSP C6713 - 72 - 4.1.1 Một số đặc điểm kĩ thuật DSP C6713 - 72 4.1.2 Bộ DSK 6713 - 74 4.1.3 Bộ Codec AIC23 - 75 4.1.4 Code Compose Studio (CCS) - 76 4.2 Viết thuật toán nhận dạng từ điều khiển cho DSP - 78 4.2.1 Lưu đồ thuật toán nhận dạng tiếng nói tự động cho DSP - 78 4.2.2 Xây dựng module chương trình - 79 4.3 Cài đặt thuật toán nhận dạng DSP 6713 - 79 4.3.1 Thu tín hiệu âm DSK 6713 - 79 4.3.2 Cài đặt thuật toán trích đặc trưng MFCC mạng Neuron lên chip DSP - 80 CHƯƠNG 5: 5.1 5.2 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN - 82 - Nhận xét kết chung luận văn - 82 Phương hướng - 83 - 5.2.1 Cải tiến thuật toán - 83 5.2.2 Thiết kế hệ nhúng tự chủ - 84 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -5Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt TÀI LIỆU THAM KHẢO - 86 - Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -6Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt DANH MỤC HÌNH VẼ Hình 1.1: Các phần tử hệ thống nhận dạng tiếng nói điển hình 13 Hình 1.2: Sơ đồ khối phương pháp âm học ngữ âm học - 15 Hình 1.3: Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu - 17 Hình 1.4: Mô hình phương pháp bottom-up - 20 Hình 1.5: Sơ đồ hoạt động hệ thống giao tiếp người máy tiếng nói 22 Hình 1.6: Rô bốt trợ giúp ALBERT triển lãm Hannover, Rô bốt điều khiển tiếng nói [Rogalla 2002] - 23 Hình 2.1: Điều khiển TV từ xa - 29 Hình 2.2: Điều khiển từ xa cho Điều hòa - 30 Hình 2.3: Nồi cơm điện có hẹn nấu - 31 Hình 2.4: Điều khiển từ xa Đầu đọc đĩa DVD - 32 Hình 3.1: Trích đặc trưng tiếng nói - 38 Hình 3.2: Tin hiệu gốc tín hiệu khôi phục hệ số LPC - 43 Hình 3.3: Các bước thực thuật toán LPC - 43 Hình 3.4: Tấn số Mel - 47 Hình 3.5: Qui trình trích đặc trưng MFCC - 47 Hình 3.6: Các lọc tam giác để tính lượng dải tần số - 48 Hình 3.7: Mô hình bóng màu - 50 Hình 3.8: Hàm forward - 52 Hình 3.9: Hàm backward - 52 Hình 3.10: Biến Forward-backward - 54 Hình 3.11: Mô hình phi tuyến mạng Neuron - 57 Hình 3.12: a) Hàm ngưỡng b) Hàm tuyến tính c)Hàm sigmoid - 58 Hình 3.13: Cấu trúc mạng Neuron mức - 58 Hình 3.14: Mạng Neuron đa lớp - 59 Hình 3.15: Mạng hồi qui Hopfield - 59 Hình 3.16: Quá trình học mạng đa mức - 61 Hình 3.17: Quá trình họcHMM - 63 Hình 3.18: Quá trình kiểm tra HMM - 64 Hình 3.19: Hàm tính codebook - 65 Hình 3.20: Hàm huấn luyện HMM - 65 Hình 3.21: Hàm kiểm tra - 65 Hình 3.22: Kết theo kích thước codebook - 66 Hình 3.23: Kết theo số trạng thái HMM - 66 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -7Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 3.24: Kết theo số bậc LPC - 67 3.25: Kết theo số trạng thái HMM - 67 3.26: Test lần để nâng cao kết - 68 3.27: Quá trình tìm tham số tối ưu cho mạng Neuron - 69 3.28: Hàm chuẩn bị liệu - 70 3.29: Hàm huấn luyện mạng Neuron - 70 3.30: Hàm Kiểm tra - 70 3.31: Mạng Neuron với đặc trưng LPC - 70 3.32: Mạng Neuron với đặc trưng MFCC - 71 4.1: Cấu trúc nhớ DSP - 73 4.2: Bảng mạch DSK 6713 - 74 4.3: Cấu trúc kit DSK 6713 - 75 4.4: Mô hình CodecAIC23 - 75 4.5: Kết nối CCS với DSK 6713 - 77 4.6: Lưu đồ thuật toán nhận dạng tiếng nói rời rạc cho DSP - 78 4.7: Sai lệch tính hệ số MFCC chương trình C - 81 5.1: Mô hình nhận dạng kết hợp DTW mạng Neuron cho từ - 84 - Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -8Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt LỜI MỞ ĐẦU Nhận dạng tiếng nói tự động từ lâu mơ ước người Trong năm gần đây, mà khoa học công nghệ tiến cho phép ước mơ trở thành thực Trong sống có nhiều ứng dụng cần đến nhận dạng tự động tiếng nói nhapaj liệu máy tính lời, hỗ trợ người tàn tật, quay số điện thoại lời nói … Hiện giới có só hệ thống nhận dạng tiếng nói cỡ lớn, có độ xác tương đối cao Các hệ thống chủ yếu phát triển công nghệ đại với máy tính lớn, vi mạch xử lý tiếng nói chuyên dụng sử dụng sở liệu tiếng nói hoàn chỉnh (chủ yếu tiếng Anh) Còn tiếng Việt, có đặc thù riêng, nên việc chọn lựa cách tiếp cận toán nhận dạng cho phù hợp với tiếng Việt vấn đề quan trọng tương đối khó khăn Trong năm gần đây, Việt Nam nói chung Đại học Bách Khoa HN nói riêng, có nhiều nghiên cứu nhận dạng tiếng nói tiếng Việt Tuy nhiên, so với giới kết tương đối hạn chế Cho đến nay, hệ thống nhận dạng tiếng nói thành công nhật chủ yế dựa khuynh hướng nhận dạng mẫu Các kỹ thuật nhận dạng mẫu đơn giản lượng tử hóa vector, hiệu chỉnh thời gian động … áp dụng thành công vào ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế Tuy nhiên, mục tiêu nhận dạng tiếng nói tự động máy phải tiến tới hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc người nói Vì vậy, hệ thống nhận dạng tiếng nói ngày thường xây dựng sở áp dụng kỹ thuật nhận Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -9Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt dạng mẫu phức tạp hơn, mô hình Markov ẩn, mô hình lai Markov mạng Neuron Việc ứng dụng nhận dạng tiếng nói vào lĩnh vực khác Việt Nam hạn chế chưa có ứng dụng đáng kể thực tế Có số sản phẩm nhận dạng tiếng nói giới thiệu phần mềm nhận dạng tiếng Việt VSpeech phát triển nhóm BK02 [Internet05] Phần mềm phát triển tảng dựng sẵn Microsoft (Microsoft Recognition Engine) áp dụng cho tiếng Anh Để mở rộng ứng dụng nhận dạng tiếng nói tiếng Việt tự động, ứng dụng công nghệ không phát triển máy tính mà cần phải phát triển hệ nhúng Với mục đích đưa nghiên cứu nhận dạng tiếng nói tiếng Việt vào ứng dụng thực tế, mang lại sản phẩm thực hữu ích thân thiện cho người sử dụng Luận văn giải vấn đề nghiên cứu thiết kế vỉ mạch nhúng cấy ghép vào thiết bị gia dụng sẵn có, để thêm tính điều khiển giọng nói cho thiết bị Nội dung luận văn tập trung vào vấn đề sau: - Nghiên cứu kỹ thuật nhận dạng tiếng nói - Nghiên cứu hệ DSP - Xây dựng cú pháp CSDL tiếng nói tiếng Việt dùng điều khiển thiết bị gia dụng thông thường - Nghiên cứu thử nghiệm số thuật toán nhận dạng tiếng nói tiếng Việt rời rạc - Lập trình thử nghiệm thuật toán KIT phát triển DSK6713 cho dòng DSP dấu phảy động hãng Texas Instrument Nhằm thực đầy đủ nội dung đặt trên, luận văn xếp chia thành chương chính: Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 72 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt CHƯƠNG 4: TRIỂN KHAI THUẬT TOÁN NHẬN DẠNG TIẾNG VIỆT TRÊN DSP 4.1 Giới thiệu DSP C6713 Vi xử lý TMS320C6713 nằm series chip DSP TMS320C67x dòng chip DSP dấu phẩy động (floating-point) dựa TNS320C6000 C6713 dựa kiến trúc very-long-intruction-word (VLIW) phát triển Texas Intrusment (TI), điều làm trở thành lựa chọn hoàn hảo cho ứng dụng đa kênh đa chức 4.1.1 Một số đặc điểm kĩ thuật DSP C6713 Hoạt động tần số 225MHz, C6713 thực 1350 triệu phép toán dấu phẩy động giây (MFLOPS), 1800 triệu câu lệnh giây (MIPS) C6713 sử dụng kiến trúc nhớ cache cấp: • Cấp1: Bộ nhớ chương trình (L1P) nhớ địa trực tiếp 4K-Byte, nhớ liệu chiều 4K-Byte • Cấp2: không gian nhớ 256K-Byte sử dụng chung nhớ chương trình nhớ liệu Trong 64K cấu hình thành memory cache kết hợp 192K lại định vị làm SRAM Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 73 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình 4.1: Cấu trúc nhớ DSP Bên vi xử lý C6713 có khối hàm bao gồm khối tính toán logic (ALU) khối nhân, chế bus địa 32bit cho phép đánh địa 4G, tập ghi general-perpose 32-bit C6713 có ngoại vi phong phú cổng Serial Audio đa kênh (McASPs), cổng Serial Buffered đa kênh (McBSPs), mạch bus tích hợp, mô dun Input/Output General-Purpose (GPIO), timer, … Mô đun giao diện hai kênh McASP hỗ trợ dải xung nhịp đồng hồ cho việc truyền dải cho việc nhận Mỗi kênh có chân liệu nối tiếp phân phối với dải xung nhịp đồng hồ Cổng nối tiếp hỗ trợ phân chia thời gian đa thành phần (time-division multiplexing) chân từ đến 32 time slot Nó có dải thông đủ rộng để hỗ trợ 16 chân liệu nối tiếp truyền tín hiệu 192kHz stereo Tín hiệu đc truyền nhận chân nối tiếp đc định dạng cách da dạng dựa định dạng âm Philips Inter-IC Thêm vào đó, truyền nhận McASP đc lập trình để đưa liệu đc mã hoá theo chuẩn S/PDIF, IEC60958, AES-3, CP-430, với nhớ RAM để chứa liệu người dùng trạng thái kênh McASP cung cấp chức kiểm tra lỗi phục hồi, như: mạch phát lỗi xung đồng hồ để xác nhận xung master nằm dải tần số lập trình Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 74 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt cổng I2C TMS320C6713 cho phép DSP dễ dàng điều khiển thiết bị ngoại vi giao tiếp với chíp Thêm vào đó, cổng McBSP sử dụng để giao tiếp với thiết bị ngoại vi sử dụng chuẩn giao tiếp SPI (serial peripheral interface) 4.1.2 Bộ DSK 6713 Bộ kit phát triển C6713 kit tương đối rẻ (395$) hãng Texas Instrument bao gồm phần cứng phần mềm kèm dễ sử dụng Các đặc trưng kit phát triển là: • Gồm Vi xử lí TMS320C6713 DSP với tần số hoạt động lên đến 225Mhz phù hợp với ứng dụng liên qua đến tính toán đến dấu phẩy động • Một codec AIC23 phù hợp với ứng dụng âm • Gồm phím nhấn đèn LED dễ dàng cho việc kiểm tra • Bộ nhớ flash nhớ SDRAM lên tới 16Mb Hình 4.2: Bảng mạch DSK 6713 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 75 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình 4.3: Cấu trúc kit DSK 6713 Đi kèm với kit phát triển có phần mềm Code Composer Studio hỗ trợ cho việc viết gỡ rối chương trình hay thuật toán tính toán 4.1.3 Bộ Codec AIC23 Mô hình AIC23 Hình 4.4: Mô hình CodecAIC23 DSK 6713 dùng codec AIC23 hãng Texas Instrumnet cho tín hiệu vào âm Bộ codec lấy mẫu tín hiệu tương tự từ đường mic in hay đường line in chuyển chúng thành dạng số thông qua ADC sau xử lí Sau DSP kết thúc việc xử lí, liệu chuyển qua DAC để Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 76 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt thành dạng tín hiệu tương tự đưa đầu codec line out hay head phone Giao tiếp với codec thông qua kênh nối tiếp, dung để điều khiển codec thông qua việc cấu hình cho ghi điều khiển bên lại dùng cho việc truyền nhận liệu dạng số AIC23 hỗ trợ nhiều cách câu hình mà thay đổi định dạng liệu kênh điều khiển kênh liệu Các thông số điều khiển chứa ghi điều khiển Các giá trị truyền thông qua kênh McBSP0 16 bit Đây đường truyền có chiều từ DSP đến codec Các ghi có độ rộng bit Một từ 16 bit truyền đến codec 16 bit gồm bit để định địa ghi, bit lại chứa liệu truyền đến ghi 4.1.4 Code Compose Studio (CCS) CCS cung cấp Intergrated Development Environment (IDE) CCS có tool cho việc soạn code, trình dịch C, hợp ngữ, linker Nó có chức đồ hoạ hỗ trợ gỡ rối thời gian thực Đây công cụ phần mềm dễ sử dụng để xây dựng debug chương trình Trình dịch C dịch chương trình mã nguồn C (file c)thành mã nguồn hợp ngữ (file asm) Chương trình dịch hợp ngữ dịch file asm ngôn ngữ máy (file obj) Bộ linker kết hợp object file với thư viện object để tạo thành file chạy (.out) File chạy nạp xuống chạy trực tiếp vi xử lý C6713 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 77 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình 4.5: Kết nối CCS với DSK 6713 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 78 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 4.2 Viết thuật toán nhận dạng từ điều khiển cho DSP 4.2.1 Lưu đồ thuật toán nhận dạng tiếng nói tự động cho DSP Bắt đầu Thu âm Phát điểm đầu (B) Lưu mẫu tín hiệu Phát điểm cuối (E) Kiểm tra độ dài đoạn âm Thuộc khoảng độ dài từ Tiền xử lý (lọc, hiêu chỉnh) Phân khung cửa sổ hóa Tính toán đặc trưng MFCC Mô hình nhận dạng (mạng Neuron) Xử lý kết Input khác Giao tiếp PC Kết thúc Hình 4.6: Lưu đồ thuật toán nhận dạng tiếng nói rời rạc cho DSP Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 79 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 4.2.2 Xây dựng module chương trình Từ lưu đồ thuật toán chia chương trình thành module nhỏ sau: - Module thu âm - Module tính lượng ngắn hạn - Module tiền xử lý: o Module lọc hiệu chỉnh o Module phát điểm đầu – cuối - Module phân khung cửa sổ hóa - Module tính đặc trưng MFCC cho frame: o Module tính biến đổi FFT o Module tính lượng theo dải tần số Mel o Module tính biến đổi DCT - Module tập hợp biến đổi đặc trưng toàn tín hiệu - Module nhận dạng o Tính toán mạng neuron dựa thông số mạng có - Module xử lý kết nhận dạng - Module giao tiếp với PC 4.3 Cài đặt thuật toán nhận dạng DSP 6713 4.3.1 Thu tín hiệu âm DSK 6713 Hai hàm input_sample output_sample Có phương pháp lập trình thu âm: • Thu âm sử dụng ngắt (Tín hiệu vào từ line in) • Thu âm dùng vòng quét (Tín hiệu vào từ MIC) Thu âm sử dụng ngắt: Sau khởi tạo cho phép ngắt, chương trình đợi vòng lặp vô hạn đến kiện ngắt xuất Ngắt thực chu kì lấy mẫu (Ví dụ với tần số lấy mẫu 8kHz chu kì Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 80 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 0.125ms), thời điểm đó, giá trị tín hiệu vào đọc đưa đến ADC mã hoá gửi đến DAC Hoàn toàn đặt thêm hệ số khuyếch đại cho việc thu phát tín hiệu Thu âm sử dụng vòng quét: ADC lấy tín hiệu vào từ đường MIC IN Sử dụng kĩ thuật vòng quét thủ tục liên tục để kiểm tra xem liệu sẵn sàng Đây kĩ thuật đơn giản kĩ thuật ngắt hiệu liệu cần kiểm tra liên tục để xác định xem sẵn sàng để nhận hay để truyền Các hàm input_sample, output_sample, comm_intr hay comm_poll định nghĩa sẵn file C6713dskinit.c Điều giúp cho chương trình nguồn giảm kích thước nhiều 4.3.2 Cài đặt thuật toán trích đặc trưng MFCC mạng Neuron lên chip DSP Toàn chương trình xử lý chuyển từ code Matlab thành dạng code C nằm file mfcc_neuron.c Tín hiệu sau thu sử lý để trích đặc trưng MFCC, cho vectơ hệ số đặc trưng Ceptrals gồm 130 phần tử Mạng Neuron sau huấn luyện chương trình Matlab lưu lại dạng ma trận W, L, B1, B2 file text tương ứng : W.txt, L.txt, B1.txt, B1.txt chương trình C đọc vào Chương trình tính toán vector đặc trưng với mạng Neuron đưa kết cuối từ nhận Trong thực tế, chương trình tính hệ số MFCC C gặp phải sai số tính toán dẫn đến sai lệch kết hệ số MFCC Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 81 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình 4.7: Sai lệch tính hệ số MFCC chương trình C Do vậy, giải pháp thực sử dụng chương trình tính MFCC C để tính hệ số lưu lại dạng file txt Chương trình huấn luyện mạng Neuron Matlab sử dụng hệ số để huấn luyện mạng Neuron Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 82 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt CHƯƠNG 5: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 5.1 Nhận xét kết chung luận văn Trong trình làm luận văn, học viên thu nhiều kiến thức bổ ích bao gồm: Tìm hiểu đặt trưng âm tiếng nói; tìm hiểu lý thuyết thuật toán phân tích đặc trưng âm toán nhận dạng; nghiên cứu dòng DSP kỹ thuật lập trình nhúng, làm quen với phương pháp nghiên cứu cách làm việc khoa học Luận văn thực việc thu thập xây dựng sở liệu dùng cho việc huấn luyện kiểm tra mô hình Xây dựng thành công mô hình nhận dạng tiếng nói dựa mô hình Markov ẩn mô hình mạng Neuron, cụ thể nhận dạng từ điều khiển rời rạc: Tắt, Bật, Chạy, Dừng, Tiền, Lùi, Trái, Phải, Trên, Dưới Và tiến hành chạy thử nghiệm dựa phương pháp phân tích đặc trưng tín hiệu LPC MFCC Dựa sở liệu thu thập đưa mô hình nhận dạng thích hợp Đã viết xong chương trình nhận dạng để nạp lên vi xử lý DSP C6713 Vấn đề nhận dạng tiếng nói nói riêng xử lý tiếng nói nói chung vấn đề khó Nó đòi hỏi tầm kiến thức người tham gia nghiên cứu phải rộng đồng thời phải nắm vững xử lý tín hiệu Các kỹ thuật lập trình nhúng DSP mảng không dễ Chính thế, luận văn có phần dàn trải chưa giải trọn vẹn vấn đề Tuy nhiên, học viên hứng thú với lĩnh vực mà nghiên cứu Chính vậy, hy vọng tiếp tục hoàn thiện vấn đề chưa thấu đáo Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 83 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 5.2 Phương hướng 5.2.1 Cải tiến thuật toán • Tiến hành xây dựng thử nghiệm thuật toán với toàn CSDL từ vựng xây dựng • Khắc phục sai số chuyển đổi thuật toán từ Matlab sang C để cài đặt cho DSP Tối ưu code để việc thực nhanh • Xây dựng số lọc cho DSP • Hoàn thiện toán nhận dạng DSP • Sử dụng thuật toán so sánh thời gian động DTW khâu tiền xử lý tín hiệu nhằm nâng cao độ xác Có thể mô tả ý tưởng thuật toán sau: Cũng xét với toán nhận dạng 10 từ điều khiển chương xây dựng Tuy nhiên, đây, không xây dựng mạng Neuron cho 10 từ đầu tương ứng với từ mà ta xây dựng 10 mạng neuron riêng biệt cho từ Như vậy, khối lượng tính toán phần mô hình mạng không thay đổi mạng neuron có đầu Quá trình học từ cho ta mô hình mạng neuron (Ni) độ dài thời gian chuẩn từ (Ti) Từ ta có mô hình nhận dạng cho từ sau: Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 84 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Mô hình nhận dạng cho từ Tín hiệu vào (T) Sai số làm tròn (%) DTW1 (T1) MFCC Mô hình mạng Neuron N1 Làm tròn (0, 1) Tính sai số thời gian (T-T1)/T1 (%) Hình 5.1: Mô hình nhận dạng kết hợp DTW mạng Neuron cho từ Trong mô hình tín hiệu tiếng nói đưa vào có độ dài T, kết đầu thu gồm thông số: - Kết nhận dạng (true/false) - Sai số làm tròn kết nhận dạng - Sai số thời gian so với từ giả thiết Trong Kết nhận dạng quan trọng xét trước tiên Nếu kết False tiếng nói đưa vào mô hình từ mô hình nên không xét đến hai tham số Nếu kết True phải sử dụng tham số để tiếp tục so sánh Tiếng nói cần nhận dạng đưa qua 10 mô hình ứng với 10 từ Mô hình cho kết tốt kết luận từ nhận dạng cho tín hiệu tiếng nói đưa vào 5.2.2 Thiết kế hệ nhúng tự chủ Kết nghiên cứu luận văn dừng lại việc test thuật toán KIT phát triển DSP sẵn có hãng Texas Instrument Chính vậy, để đưa sản phẩm hữu dụng thực có giá thành cạnh tranh nhiều việc phải làm Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 85 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hướng phát triển đề tài phải thiết kế hệ nhúng độc lập có cài đặt thuật toán nhận dạng tiếng nói phương thức điều khiển giám sát Trong trình thực tập làm luận văn, học viên cố gắng nghiên cứu làm việc nghiêm túc để hoàn thành yêu cầu đề tài, từ thu kiến thức kinh nghiệm bổ ích Tuy nhiên, trình làm việc, thân luận văn không tránh khỏi thiếu sót, bảo, góp ý thầy, cô giáo giúp đỡ ý kiến vô quí báu để luận văn hoàn thiện tiếp tục phát triển Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 86 - Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt TÀI LIỆU THAM KHẢO [1] Klaus Finkenzeller, RFID Handbook: Fundamentals and Applications in Contactless Smart Cards and Identification, Second Edition New York: Wiley, 2003 [2] Tan Phu Vuong, Identification et Tracabilité par Radio Fréquence, Maitre de conférences de l’INPG http://web.media.mit.edu/~jrs/WISP-IEEE-TIM.pdf http://buyrfid.righttag.com/ http://www.hightechaid.com/standards/RFID_Standards_SC31.htm http://picvietnam.com/ http://dientuvietnam.net/ http://vnpro.org/forum/ Khuất Quang Vinh Đo lường Các Hệ thống điều khiển ... lường Các Hệ thống điều khiển - 26 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 2.1.2 Các đối tượng điều khiển nhà thông minh Hệ thống chiếu sáng Đây hệ thống thông dụng. .. lường Các Hệ thống điều khiển - 29 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 2.2.2 Nghiên cứu, đề xuất “cú pháp” điều khiển cho thiết bị: a Cú pháp điều khiển. .. người sử dụng xa, truy nhập vào hệ thống nhờ sử Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 28 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt dụng thiết bị đa

Định dạng
Số trang	87
Dung lượng	2,06 MB

Nghiên cứu hệ thống nhúng giám sát, điều khiển các thiết bị dân dụng bằng tiếng nói tiếng việt

Cài đặt thuật toán nhận dạng trên DSP 6713 7 9-