Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 90 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
90
Dung lượng
1,74 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH : ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN NGHIÊN CỨU HỆ THỐNG NHÚNG GIÁM SÁT, ĐIỀU KHIỂN CÁC THIẾT BỊ DÂN DỤNG BẰNG TIẾNG NÓI TIẾNG VIỆT KHUẤT QUANG VINH Hà Nội 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGHIÊN CỨU HỆ THỐNG NHÚNG GIÁM SÁT, ĐIỀU KHIỂN CÁC THIẾT BỊ DÂN DỤNG BẰNG TIẾNG NÓI TIẾNG VIỆT NGÀNH : ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN KHUẤT QUANG VINH Người hướng dẫn khoa học : PGS TS PHẠM THỊ NGỌC YẾN Hà Nội 2009 LỜI CẢM ƠN Sau thời gian thực tập nghiên cứu Trung tâm MICA – Trường Đại học Bách Khoa Hà Nội, tơi hồn thành luận văn “Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt” theo yêu cầu giao luận văn cao học Tôi xin gửi lời cảm ơn chân thành tới Trung tâm MICA nơi tạo điều kiện cho thực tập nghiên cứu làm luận văn Qua xin chân thành cảm ơn TS Eric Castelli, TS Nguyễn Thị Lan Hương, TS Nguyễn Quốc Cường, TS Nguyễn Việt Tùng nhiều cán nghiên cứu khác giúp đỡ hồn thành tốt luận văn Đặc biệt tơi xin gửi tới PGS-TS Phạm Thị Ngọc Yến lòng biết ơn sâu sắc, người trực tiếp hướng dẫn tạo điều kiện giúp đỡ tơi hồn thành luận văn Xin bảy tỏ lịng biết ơn tới thày Bộ môn Kỹ thuật Đo Tin học công nghiệp tạo điều kiện giúp đỡ suốt trình học tập chương trình đào tạo thạc sỹ vừa qua Tơi xin bày tỏ lịng biết ơn sâu sắc tới gia đình bạn bè khóa học ln ủng hộ, khích lệ tơi để tơi yên tâm học tập, nghiên cứu trưởng thành ngày hôm Một lần xin chân thành cảm ơn! Hà Nội, ngày 02 tháng 11 năm 2009 -2Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt CÁC THUẬT NGỮ SỬ DỤNG TRONG LUẬN VĂN STT Thuật ngữ Ý nghĩa HMM Hidden Markov Moden LPC Linear Predictive Coding MFCC Mel Frequency Coefficient Cepstral ANN Artificial Neuron Network MLP Multilayer Perceptron DSP Digital Signal Processor CCS Code Composer Studio TI Texas Instrument CSDL Cơ sở liệu 10 DTW Khuất Quang Vinh Dynamic Time Wrapping Đo lường Các Hệ thống điều khiển -3Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt MỤC LỤC LỜI MỞ ĐẦU - CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ HỆ THỐNG TƯƠNG TÁC NGƯỜI – MÁY BẰNG TIẾNG NÓI - 11 1.1 1.2 Nhận dạng tiếng nói: - 11 Các phương pháp tiếp cận nhận dạng tiếng nói - 14 - 1.2.1 Phương pháp âm học – ngữ âm học: - 14 1.2.2 Phương pháp nhận dạng mẫu - 16 1.2.3 1.3 1.4 1.5 Phương pháp ứng dụng trí tuệ nhân tạo - 18 Tình hình nghiên cứu ứng dụng nhận dạng tiếng nói tiếng Việt- 20 Hệ thống tương tác người – máy tiếng nói - 21 Mục tiêu nhiệm vụ luận văn - 23 - 1.5.1 Mục tiêu - 23 1.5.2 Nhiệm vụ - 23 CHƯƠNG 2: 2.1 XÂY DỰNG CƠ SỞ DỮ LIỆU - 25 - Nhà thông minh: - 25 - 2.1.1 Quan niệm nhà thông minh - 25 2.1.2 Các đối tượng điều khiển nhà thông minh - 26 2.2 Điều khiển thiết bị nhà tiếng nói: - 27 2.2.1 Các phương thức điều khiển thiết bị gia dụng nhà: - 27 2.2.2 Nghiên cứu, đề xuất “cú pháp” điều khiển cho thiết bị: - 29 2.2.3 Đề xuất tập lệnh lệnh định danh cho số thiết bị gia dụng: - 29 2.2.4 Tổng kết tập lệnh: - 33 2.3 Xây dựng sở liệu: - 34 2.3.1 Bảng từ cần thu âm - 34 2.3.2 Các bước thu âm - 34 CHƯƠNG 3: XÂY DỰNG THUẬT TOÁN NHẬN DẠNG TỪ ĐIỀU KHIỂN TRÊN PC - 35 3.1 Tiền xử lý tín hiệu: - 35 - 3.1.1 Hàm lượng ngắn hạn - 35 3.1.2 Phát điểm đầu điểm cuối tiếng nói - 35 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -4Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 3.1.3 Bộ lọc hiệu chỉnh - 36 3.2 Trích chọn đặc trưng tín hiệu tiếng nói: - 37 3.2.1 Phân khung tín hiệu - 37 3.2.2 Mơ hình LPC (Linear Predictive Coding model) - 39 3.2.3 Phương pháp MFCC (Mel-Frequency Ceptrum Coefficients) - 46 3.3 Mơ hình nhận dạng: - 49 3.3.1 Mơ hình Markov ẩn - 49 3.3.2 Mơ hình mạng neuron - 56 3.4 Thử nghiệm thuật toán Matlab - 61 3.4.1 Phạm vi thử nghiệm (giới hạn) - 61 3.4.2 Kết - 62 3.4.2.1 Mơ hình Markov ẩn (HMM) - 62 3.4.2.2 Mơ hình mạng Neuron - 68 3.4.3 Lựa chọn thuật toán để cài đặt lên hệ nhúng - 70 CHƯƠNG 4: TRIỂN KHAI THUẬT TOÁN NHẬN DẠNG TIẾNG VIỆT TRÊN DSP - 71 4.1 Giới thiệu DSP C6713 - 71 - 4.1.1 Một số đặc điểm kĩ thuật DSP C6713 - 71 4.1.2 Bộ DSK 6713 - 73 4.1.3 Bộ Codec AIC23 - 74 4.1.4 Code Compose Studio (CCS) - 75 4.2 Viết thuật toán nhận dạng từ điều khiển cho DSP - 77 4.2.1 Lưu đồ thuật tốn nhận dạng tiếng nói tự động cho DSP - 77 4.2.2 Xây dựng module chương trình - 78 4.3 Cài đặt thuật toán nhận dạng DSP 6713 - 78 4.3.1 Thu tín hiệu âm DSK 6713 - 78 4.3.2 Cài đặt thuật tốn trích đặc trưng MFCC mạng Neuron lên chip DSP - 79 CHƯƠNG 5: 5.1 5.2 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN - 81 - Nhận xét kết chung luận văn - 81 Phương hướng - 82 - 5.2.1 Cải tiến thuật toán - 82 5.2.2 Thiết kế hệ nhúng tự chủ - 83 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -5Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt TÀI LIỆU THAM KHẢO - 85 - Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -6Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt DANH MỤC HÌNH VẼ Hình 1.1: Các phần tử hệ thống nhận dạng tiếng nói điển hình 13 Hình 1.2: Sơ đồ khối phương pháp âm học ngữ âm học - 15 Hình 1.3: Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu - 17 Hình 1.4: Mơ hình phương pháp bottom-up - 20 Hình 1.5: Sơ đồ hoạt động hệ thống giao tiếp người máy tiếng nói 22 Hình 1.6: Rô bốt trợ giúp ALBERT triển lãm Hannover, Rơ bốt điều khiển tiếng nói [Rogalla 2002] - 23 Hình 2.1: Điều khiển TV từ xa - 29 Hình 2.2: Điều khiển từ xa cho Điều hịa - 30 Hình 2.3: Nồi cơm điện có hẹn nấu - 31 Hình 2.4: Điều khiển từ xa Đầu đọc đĩa DVD - 32 Hình 3.1: Trích đặc trưng tiếng nói - 38 Hình 3.2: Tin hiệu gốc tín hiệu khơi phục hệ số LPC - 43 Hình 3.3: Các bước thực thuật toán LPC - 43 Hình 3.4: Tấn số Mel - 47 Hình 3.5: Qui trình trích đặc trưng MFCC - 47 Hình 3.6: Các lọc tam giác để tính lượng dải tần số - 48 Hình 3.7: Mơ hình bóng màu - 50 Hình 3.8: Hàm forward - 52 Hình 3.9: Hàm backward - 52 Hình 3.10: Biến Forward-backward - 54 Hình 3.11: Mơ hình phi tuyến mạng Neuron - 57 Hình 3.12: a) Hàm ngưỡng b) Hàm tuyến tính c)Hàm sigmoid - 58 Hình 3.13: Cấu trúc mạng Neuron mức - 58 Hình 3.14: Mạng Neuron đa lớp - 59 Hình 3.15: Mạng hồi qui Hopfield - 59 Hình 3.16: Quá trình học mạng đa mức - 60 Hình 3.17: Quá trình họcHMM - 62 Hình 3.18: Quá trình kiểm tra HMM - 63 Hình 3.19: Hàm tính codebook - 64 Hình 3.20: Hàm huấn luyện HMM - 64 Hình 3.21: Hàm kiểm tra - 64 Hình 3.22: Kết theo kích thước codebook - 65 Hình 3.23: Kết theo số trạng thái HMM - 65 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -7Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 3.24: Kết theo số bậc LPC - 66 3.25: Kết theo số trạng thái HMM - 66 3.26: Test lần để nâng cao kết - 67 3.27: Quá trình tìm tham số tối ưu cho mạng Neuron - 68 3.28: Hàm chuẩn bị liệu - 69 3.29: Hàm huấn luyện mạng Neuron - 69 3.30: Hàm Kiểm tra - 69 3.31: Mạng Neuron với đặc trưng LPC - 69 3.32: Mạng Neuron với đặc trưng MFCC - 70 4.1: Cấu trúc nhớ DSP - 72 4.2: Bảng mạch DSK 6713 - 73 4.3: Cấu trúc kit DSK 6713 - 74 4.4: Mơ hình CodecAIC23 - 74 4.5: Kết nối CCS với DSK 6713 - 76 4.6: Lưu đồ thuật toán nhận dạng tiếng nói rời rạc cho DSP - 77 4.7: Sai lệch tính hệ số MFCC chương trình C - 80 5.1: Mơ hình nhận dạng kết hợp DTW mạng Neuron cho từ - 83 - Khuất Quang Vinh Đo lường Các Hệ thống điều khiển -8Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt LỜI MỞ ĐẦU Nhận dạng tiếng nói tự động từ lâu mơ ước người Trong năm gần đây, mà khoa học cơng nghệ tiến cho phép ước mơ trở thành thực Trong sống có nhiều ứng dụng cần đến nhận dạng tự động tiếng nói nhapaj liệu máy tính lời, hỗ trợ người tàn tật, quay số điện thoại lời nói … Hiện giới có só hệ thống nhận dạng tiếng nói cỡ lớn, có độ xác tương đối cao Các hệ thống chủ yếu phát triển công nghệ đại với máy tính lớn, vi mạch xử lý tiếng nói chun dụng sử dụng sở liệu tiếng nói hồn chỉnh (chủ yếu tiếng Anh) Cịn tiếng Việt, có đặc thù riêng, nên việc chọn lựa cách tiếp cận toán nhận dạng cho phù hợp với tiếng Việt vấn đề quan trọng tương đối khó khăn Trong năm gần đây, Việt Nam nói chung Đại học Bách Khoa HN nói riêng, có nhiều nghiên cứu nhận dạng tiếng nói tiếng Việt Tuy nhiên, so với giới kết cịn tương đối hạn chế Cho đến nay, hệ thống nhận dạng tiếng nói thành công nhật chủ yế dựa khuynh hướng nhận dạng mẫu Các kỹ thuật nhận dạng mẫu đơn giản lượng tử hóa vector, hiệu chỉnh thời gian động … áp dụng thành công vào ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế Tuy nhiên, mục tiêu nhận dạng tiếng nói tự động máy phải tiến tới hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, khơng phụ thuộc người nói Vì vậy, hệ thống nhận dạng tiếng nói ngày thường xây dựng sở áp dụng kỹ thuật nhận Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 74 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình 4.3: Cấu trúc kit DSK 6713 Đi kèm với kit phát triển cịn có phần mềm Code Composer Studio hỗ trợ cho việc viết gỡ rối chương trình hay thuật tốn tính tốn 4.1.3 Bộ Codec AIC23 Mơ hình AIC23 Hình 4.4: Mơ hình CodecAIC23 DSK 6713 dùng codec AIC23 hãng Texas Instrumnet cho tín hiệu vào âm Bộ codec lấy mẫu tín hiệu tương tự từ đường mic in hay đường line in chuyển chúng thành dạng số thơng qua ADC sau xử lí Sau DSP kết thúc việc xử lí, liệu chuyển qua DAC để Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 75 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt thành dạng tín hiệu tương tự đưa đầu codec line out hay head phone Giao tiếp với codec thông qua kênh nối tiếp, dung để điều khiển codec thông qua việc cấu hình cho ghi điều khiển bên lại dùng cho việc truyền nhận liệu dạng số AIC23 hỗ trợ nhiều cách câu hình mà thay đổi định dạng liệu kênh điều khiển kênh liệu Các thông số điều khiển chứa ghi điều khiển Các giá trị truyền thông qua kênh McBSP0 16 bit Đây đường truyền có chiều từ DSP đến codec Các ghi có độ rộng bit Một từ 16 bit truyền đến codec 16 bit gồm bit để định địa ghi, bit lại chứa liệu truyền đến ghi 4.1.4 Code Compose Studio (CCS) CCS cung cấp Intergrated Development Environment (IDE) CCS có tool cho việc soạn code, trình dịch C, hợp ngữ, linker Nó có chức đồ hoạ hỗ trợ gỡ rối thời gian thực Đây công cụ phần mềm dễ sử dụng để xây dựng debug chương trình Trình dịch C dịch chương trình mã nguồn C (file c)thành mã nguồn hợp ngữ (file asm) Chương trình dịch hợp ngữ dịch file asm ngôn ngữ máy (file obj) Bộ linker kết hợp object file với thư viện object để tạo thành file chạy (.out) File chạy nạp xuống chạy trực tiếp vi xử lý C6713 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 76 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình 4.5: Kết nối CCS với DSK 6713 Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 77 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 4.2 Viết thuật tốn nhận dạng từ điều khiển cho DSP 4.2.1 Lưu đồ thuật tốn nhận dạng tiếng nói tự động cho DSP Bắt đầu Thu âm Phát điểm đầu (B) Lưu mẫu tín hiệu Phát điểm cuối (E) Kiểm tra độ dài đoạn âm Thuộc khoảng độ dài từ Tiền xử lý (lọc, hiêu chỉnh) Phân khung cửa sổ hóa Tính tốn đặc trưng MFCC Mơ hình nhận dạng (mạng Neuron) Xử lý kết Input khác Giao tiếp PC Kết thúc Hình 4.6: Lưu đồ thuật tốn nhận dạng tiếng nói rời rạc cho DSP Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 78 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 4.2.2 Xây dựng module chương trình Từ lưu đồ thuật tốn chia chương trình thành module nhỏ sau: - Module thu âm - Module tính lượng ngắn hạn - Module tiền xử lý: o Module lọc hiệu chỉnh o Module phát điểm đầu – cuối - Module phân khung cửa sổ hóa - Module tính đặc trưng MFCC cho frame: o Module tính biến đổi FFT o Module tính lượng theo dải tần số Mel o Module tính biến đổi DCT - Module tập hợp biến đổi đặc trưng tồn tín hiệu - Module nhận dạng o Tính tốn mạng neuron dựa thơng số mạng có - Module xử lý kết nhận dạng - Module giao tiếp với PC 4.3 Cài đặt thuật tốn nhận dạng DSP 6713 4.3.1 Thu tín hiệu âm DSK 6713 Hai hàm input_sample output_sample Có phương pháp lập trình thu âm: • Thu âm sử dụng ngắt (Tín hiệu vào từ line in) • Thu âm dùng vịng qt (Tín hiệu vào từ MIC) Thu âm sử dụng ngắt: Sau khởi tạo cho phép ngắt, chương trình đợi vịng lặp vơ hạn đến kiện ngắt xuất Ngắt thực chu kì lấy mẫu (Ví dụ với tần số lấy mẫu 8kHz chu kì Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 79 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 0.125ms), thời điểm đó, giá trị tín hiệu vào đọc đưa đến ADC mã hoá gửi đến DAC Hồn tồn đặt thêm hệ số khuyếch đại cho việc thu phát tín hiệu Thu âm sử dụng vịng qt: ADC lấy tín hiệu vào từ đường MIC IN Sử dụng kĩ thuật vòng quét thủ tục liên tục để kiểm tra xem liệu sẵn sàng Đây kĩ thuật đơn giản kĩ thuật ngắt hiệu liệu cần kiểm tra liên tục để xác định xem sẵn sàng để nhận hay để truyền Các hàm input_sample, output_sample, comm_intr hay comm_poll định nghĩa sẵn file C6713dskinit.c Điều giúp cho chương trình nguồn giảm kích thước nhiều 4.3.2 Cài đặt thuật tốn trích đặc trưng MFCC mạng Neuron lên chip DSP Tồn chương trình xử lý chuyển từ code Matlab thành dạng code C nằm file mfcc_neuron.c Tín hiệu sau thu sử lý để trích đặc trưng MFCC, cho vectơ hệ số đặc trưng Ceptrals gồm 130 phần tử Mạng Neuron sau huấn luyện chương trình Matlab lưu lại dạng ma trận W, L, B1, B2 file text tương ứng : W.txt, L.txt, B1.txt, B1.txt chương trình C đọc vào Chương trình tính toán vector đặc trưng với mạng Neuron đưa kết cuối từ nhận Trong thực tế, chương trình tính hệ số MFCC C gặp phải sai số tính tốn dẫn đến sai lệch kết hệ số MFCC Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 80 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hình 4.7: Sai lệch tính hệ số MFCC chương trình C Do vậy, giải pháp thực sử dụng chương trình tính MFCC C để tính hệ số lưu lại dạng file txt Chương trình huấn luyện mạng Neuron Matlab sử dụng hệ số để huấn luyện mạng Neuron Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 81 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt CHƯƠNG 5: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 5.1 Nhận xét kết chung luận văn Trong trình làm luận văn, học viên thu nhiều kiến thức bổ ích bao gồm: Tìm hiểu đặt trưng âm tiếng nói; tìm hiểu lý thuyết thuật tốn phân tích đặc trưng âm toán nhận dạng; nghiên cứu dịng DSP kỹ thuật lập trình nhúng, làm quen với phương pháp nghiên cứu cách làm việc khoa học Luận văn thực việc thu thập xây dựng sở liệu dùng cho việc huấn luyện kiểm tra mơ hình Xây dựng thành cơng mơ hình nhận dạng tiếng nói dựa mơ hình Markov ẩn mơ hình mạng Neuron, cụ thể nhận dạng từ điều khiển rời rạc: Tắt, Bật, Chạy, Dừng, Tiền, Lùi, Trái, Phải, Trên, Dưới Và tiến hành chạy thử nghiệm dựa phương pháp phân tích đặc trưng tín hiệu LPC MFCC Dựa sở liệu thu thập đưa mơ hình nhận dạng thích hợp Đã viết xong chương trình nhận dạng để nạp lên vi xử lý DSP C6713 Vấn đề nhận dạng tiếng nói nói riêng xử lý tiếng nói nói chung vấn đề khó Nó địi hỏi tầm kiến thức người tham gia nghiên cứu phải rộng đồng thời phải nắm vững xử lý tín hiệu Các kỹ thuật lập trình nhúng DSP mảng khơng dễ Chính thế, luận văn có phần dàn trải chưa giải trọn vẹn vấn đề Tuy nhiên, học viên hứng thú với lĩnh vực mà nghiên cứu Chính vậy, tơi hy vọng tiếp tục hồn thiện vấn đề cịn chưa thấu đáo Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 82 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 5.2 Phương hướng 5.2.1 Cải tiến thuật tốn • Tiến hành xây dựng thử nghiệm thuật tốn với tồn CSDL từ vựng xây dựng • Khắc phục sai số chuyển đổi thuật toán từ Matlab sang C để cài đặt cho DSP Tối ưu code để việc thực nhanh • Xây dựng số lọc cho DSP • Hồn thiện tốn nhận dạng DSP • Sử dụng thuật toán so sánh thời gian động DTW khâu tiền xử lý tín hiệu nhằm nâng cao độ xác Có thể mơ tả ý tưởng thuật tốn sau: Cũng xét với toán nhận dạng 10 từ điều khiển chương xây dựng Tuy nhiên, đây, không xây dựng mạng Neuron cho 10 từ đầu tương ứng với từ mà ta xây dựng 10 mạng neuron riêng biệt cho từ Như vậy, khối lượng tính tốn phần mơ hình mạng khơng thay đổi mạng neuron có đầu Quá trình học từ cho ta mơ hình mạng neuron (Ni) độ dài thời gian chuẩn từ (Ti) Từ ta có mơ hình nhận dạng cho từ sau: Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 83 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Mơ hình nhận dạng cho từ Sai số làm trịn (%) Tín hiệu vào (T) DTW1 (T1) MFCC Mơ hình mạng Neuron N1 Làm trịn (0, 1) Tính sai số thời gian (T-T1)/T1 (%) Hình 5.1: Mơ hình nhận dạng kết hợp DTW mạng Neuron cho từ Trong mơ hình tín hiệu tiếng nói đưa vào có độ dài T, kết đầu thu gồm thông số: - Kết nhận dạng (true/false) - Sai số làm tròn kết nhận dạng - Sai số thời gian so với từ giả thiết Trong Kết nhận dạng quan trọng xét trước tiên Nếu kết False tiếng nói đưa vào mơ hình khơng phải từ mơ hình nên khơng xét đến hai tham số Nếu kết True phải sử dụng tham số để tiếp tục so sánh Tiếng nói cần nhận dạng đưa qua 10 mơ hình ứng với 10 từ Mơ hình cho kết tốt kết luận từ nhận dạng cho tín hiệu tiếng nói đưa vào 5.2.2 Thiết kế hệ nhúng tự chủ Kết nghiên cứu luận văn dừng lại việc test thuật toán KIT phát triển DSP sẵn có hãng Texas Instrument Chính vậy, để đưa sản phẩm hữu dụng thực có giá thành cạnh tranh cịn nhiều việc phải làm Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 84 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt Hướng phát triển đề tài phải thiết kế hệ nhúng độc lập có cài đặt thuật tốn nhận dạng tiếng nói phương thức điều khiển giám sát Trong q trình thực tập làm luận văn, học viên cố gắng nghiên cứu làm việc nghiêm túc để hoàn thành yêu cầu đề tài, từ thu kiến thức kinh nghiệm bổ ích Tuy nhiên, trình làm việc, thân luận văn khơng tránh khỏi thiếu sót, bảo, góp ý thầy, giáo giúp đỡ ý kiến vơ q báu để luận văn hồn thiện tiếp tục phát triển Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 85 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt TÀI LIỆU THAM KHẢO [1] Klaus Finkenzeller, RFID Handbook: Fundamentals and Applications in Contactless Smart Cards and Identification, Second Edition New York: Wiley, 2003 [2] Tan Phu Vuong, Identification et Tracabilité par Radio Fréquence, Maitre de conférences de l’INPG http://web.media.mit.edu/~jrs/WISP-IEEE-TIM.pdf http://buyrfid.righttag.com/ http://www.hightechaid.com/standards/RFID_Standards_SC31.htm http://picvietnam.com/ http://dientuvietnam.net/ http://vnpro.org/forum/ Khuất Quang Vinh Đo lường Các Hệ thống điều khiển TÓM TẮT LUẬN VĂN Trong sống có nhiều ứng dụng cần đến nhận dạng tự động tiếng nói nhập liệu máy tính lời, hỗ trợ người tàn tật, quay số điện thoại lời nói … Hiện giới có só hệ thống nhận dạng tiếng nói cỡ lớn, có độ xác tương đối cao Các hệ thống chủ yếu phát triển công nghệ đại với máy tính lớn, vi mạch xử lý tiếng nói chuyên dụng sử dụng sở liệu tiếng nói hồn chỉnh Đối với tiếng Việt, năm gần nhà khoa học đầu tư nghiên cứu phát triển.Để mở rộng ứng dụng nhận dạng tiếng nói tiếng Việt tự động, ứng dụng công nghệ khơng phát triển máy tính mà cần phải phát triển hệ nhúng Với mục đích đưa nghiên cứu nhận dạng tiếng nói tiếng Việt vào ứng dụng thực tế, mang lại sản phẩm thực hữu ích thân thiện cho người sử dụng Luận văn giải vấn đề nghiên cứu thiết kế vỉ mạch nhúng cấy ghép vào thiết bị gia dụng sẵn có, để thêm tính điều khiển giọng nói cho thiết bị Luận văn trình bày phạm vi chương hồn thành nội dung công việc sau: Chương 1: Tổng quan nhận dạng tiếng nói trình bày phương pháp tiếp cận nhận dạng tiếng nói tự động, tình hình ứng dụng phát triển nghiên cứu nhận dạng tiếng nói tiếng Việt thực tế Chương 2: Xây dựng sở liệu tìm hiểu nhà thông minh, với phạm vi nghiên cứu phương thức điều khiển thiết bị nhà, từ đề xuất tập lệnh sử dụng cho thiết bị nhà Sau đó, tiến hành xây dựng sở liệu tiếng nói làm liệu cho nghiên cứu tiếp sau Chương 3: Xây dựng kiểm thử thuật toán nhận dạng tiếng Việt rời rạc PC đánh giá phương pháp trích chọn đặc trưng LPC MFCC, hai mơ hình nhận dạng HMM Neuron Từ xây dựng thuật toán nhận dạng tương đối tốt cho việc triển khai lên hệ thống nhúng Chương 4: Xây dựng thuật toán nhận dạng DSP triển khai thuật tốn nhận dạng tiếng Việt lên dịng DSP dấu phảy động C6713 hãng Texas Instrument Luận văn hoàn thành nghiên cứu thuật toán nhận dạng tiếng nói tiếng Việt rời rạc, tiến hành thử nghiệm PC sử dụng phần mềm mô Matlab tiến hành chạy thử nghiệm vỉ mạch DSK6713 hãng Texas Instrument Từ khóa: Nhận dạng tiếng nói tự động, hệ thống nhúng, xử lý tín hiệu số, mơ hình Markov ẩn, mạng neuron, mfcc, lpc RESUME In life there are many applications that need to automatically identify the voice as data entry computer verbal and support the disabled, dial the phone verbally Currently the world has some system speech recognition system large, have relatively high accuracy These systems are mainly developed on the modern technology with the mainframe, the processor chip voice and use specialized databases voice quite complete For Vietnamese, in recent years scientists have been studying and development For the purpose expand the application of Vietnamese speech recognition, the application of this technology is not only be developed on the computer that needs to be developed on embedded systems With the aim to identify research on Vietnamese speech recognition on the application in practice, bringing these products really useful and user friendly This thesis to study the problem to design a chip can be embedded in the implant appliances available, to add features voice control for the device These are represented in chapters: Chapter 1: Speech recognition overview Chapter 2: Building Vietnamese speech database Chapter 3: Construction, simulation and testing algorithm Chapter 4: Building embedded system on DSP The dissertation has completed the research, design, and evaluation of an embedded system that use speech recognition algorithm Key word: Speech recognition, embedded system, digital signal processing, neuron network, hidden markov model, mfcc, lpc ... lường Các Hệ thống điều khiển - 26 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 2.1.2 Các đối tượng điều khiển nhà thông minh Hệ thống chiếu sáng Đây hệ thống thông dụng. .. lường Các Hệ thống điều khiển - 29 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt 2.2.2 Nghiên cứu, đề xuất “cú pháp” điều khiển cho thiết bị: a Cú pháp điều khiển. .. người sử dụng xa, truy nhập vào hệ thống nhờ sử Khuất Quang Vinh Đo lường Các Hệ thống điều khiển - 28 Hệ thống nhúng giám sát điều khiển thiết bị dân dụng tiếng nói tiếng Việt dụng thiết bị đa