Điều khiển cánh tay robot gắp sản phẩm bằng giọng nói tiếng việt: luận văn thạc sĩ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	79
Dung lượng	2,03 MB

Nội dung

Luận văn tập trung vào nghiên cứu đặc trưng tiếng nói, rút trích đặc trưng tiếng nói bằng MFCC (Melscale Frequency Cepstral Coefficient), mô hình HMM (Hidden Markov Model), mô hình âm học áp dụng cho tiếng Việt, sử dụng công cụ HTK Julius (Hidden Markov Model toolkit) của Đại học Cambridge để xây dựng một chương trình thử nghiệm cho việc nhận dạng tiếng nói tiếng Việt. Để thử nghiệm tính ứng dụng, luận văn đã huấn luyện và nhận dạng các câu lệnh trong việc điều khiển cánh tay robot 5 bậc. Các tín hiệu giọng nói điều khiển được nhận dạng. Giải mã tín hiệu xuất ra cổng USB kết hợp với thiết kế lại mạch vi xử lý của cơ cấu tay Robot có sẵn.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN THỊ TUYẾT ANH ĐIỀU KHIỂN CÁNH TAY ROBOT GẮP SẢN PHẨM BẰNG GIỌNG NÓI TIẾNG VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN THỊ TUYẾT ANH ĐIỀU KHIỂN CÁNH TAY ROBOT GẮP SẢN PHẨM BẰNG GIỌNG NÓI TIẾNG VIỆT Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60 48 0201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC PGS TS VŨ ĐỨC LUNG Đồng Nai, năm 2016 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến quý thầy cô khoa Công nghệ thông tin Trƣờng Đại học Lạc Hồng tạo mơi trƣờng thật hồn hảo cho học tập nghiên cứu khoa học Cám ơn PGS.TS Vũ Đức Lung truyền đạt, góp ý, hỗ trợ tạo điều kiện thuận lợi cho suốt thời gian làm luận văn Tôi xin cảm ơn gia đình, quan, đồng nghiệp động viên tạo điều kiện tốt để theo đuổi việc học tập nghiên cứu Tơi gởi lòng tri ân đến tất bạn bè, ngƣời động viên, thăm hỏi nhƣ giúp đỡ thiết thực cho tơi hồn tất luận văn Mặc dù cố gắng đề hoàn thành luận văn, song khơng khỏi sai sót Tơi mong nhận đƣợc ý kiến, nhận xét, góp ý q thầy bạn để tơi hồn thành luận văn tốt Đồng Nai, ngày tháng 11 năm 2016 Ngƣời làm luận văn NGUYỄN THỊ TUYẾT ANH LỜI CAM ĐOAN Tôi cam đoan: Quyển luận văn tốt nghiệp ngoại trừ kết tham khảo từ cơng trình nhƣ ghi rõ luận văn, cơng việc trình bày luận văn cơng trình nghiên cứu thực cá nhân Đƣợc thực sở nghiên cứu lý thuyết, kiến thức học với nghiên cứu khảo sát tình hình thực tiễn dƣới hƣớng dẫn khoa học PGS TS Vũ Đức Lung Một lần nữa, khẳng định trung thực lời cam kết Đồng Nai, ngày tháng 11 năm 2016 Ngƣời cam đoan NGUYỄN THỊ TUYẾT ANH TÓM TẮT LUẬN VĂN Luận văn tập trung vào nghiên cứu đặc trƣng tiếng nói, rút trích đặc trƣng tiếng nói MFCC (Mel-scale Frequency Cepstral Coefficient), mơ hình HMM (Hidden Markov Model), mơ hình âm học áp dụng cho tiếng Việt, sử dụng công cụ HTK & Julius (Hidden Markov Model toolkit) Đại học Cambridge để xây dựng chƣơng trình thử nghiệm cho việc nhận dạng tiếng nói tiếng Việt Để thử nghiệm tính ứng dụng, luận văn huấn luyện nhận dạng câu lệnh việc điều khiển cánh tay robot bậc Các tín hiệu giọng nói điều khiển đƣợc nhận dạng Giải mã tín hiệu xuất cổng USB kết hợp với thiết kế lại mạch vi xử lý cấu tay Robot có sẵn LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC BẢNG LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN 1.1 Giới thiệu 1.2 Mục tiêu đề tài 1.3 Giới hạn đề tài 1.4 Cấu trúc luận văn CHƢƠNG : TỔNG QUAN VỀ ÂM NGỮ TIẾNG VIỆT TRONG NHẬN DẠNG TIẾNG NÓI 2.1 Sơ lƣợc âm tiết tiếng Việt 2.1.1 Giới thiệu âm tiết - âm vị: 2.1.2 Giới thiệu hệ thống mẫu tự tiếng Việt 2.1.3 Một số đặc điểm ngữ âm tiếng Việt 2.2 Sơ lƣợc lý thuyết phƣơng pháp nhận dạng tiếng nói: 2.2.1 Phƣơng pháp ngữ âm - âm vị học (acoustic-phonetic approach) 2.2.2 Phƣơng pháp nhận dạng mẫu (pattern recognition approach) 2.2.3 Phƣơng pháp trí tuệ nhân tạo (artifactial intelligence approach) 2.3 Những thuận lợi khó khăn nhận dạng tiếng nói tiếng Việt 10 2.3.1 Thuận lợi 10 2.3.2 Khó khăn 10 CHƢƠNG 3: TRÍCH TRỌN ĐẶC TRƢNG MFCC – MƠ HÌNH MARKOV ẨN 11 3.1 Trích chọn đặc trƣng tín hiệu tiếng nói 11 3.2 Các bƣớc rút trích đặc trƣng 11 3.3 Trích chọn đặc trƣng MFCC 12 3.3.1 Tiền nhấn (Pre-emphasis) 13 3.3.2 Chia khung cửa sổ hóa (Windowing) 13 3.3.3 Biến đổi Fourier nhanh (Fast Fourier Transform - FFT) 13 3.3.4 Lọc qua lọc Mel filter-bank and log 14 3.3.5 Logarit giá trị lƣợng 15 3.3.6 Biến đổi Cosine rời rạc 15 3.4 Giới thiệu mơ hình Markov ẩn 15 3.4.1 Mơ hình Markov ẩn 15 3.4.2 Các tốn mơ hình Markov ẩn 17 CHƢƠNG 4: ỨNG DỤNG HTK VÀ JULIUS XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 22 4.1 HTK 22 4.1.1 Giới thiệu HTK 22 4.1.2 Cấu trúc tập tin HTK 24 4.1.3 Chi tiết HTK 25 4.1.4 Cài đặt HTK 30 4.1.5 Huấn luyện HTK 31 4.1.6 Chuẩn bị liệu 31 4.1.7 Các bƣớc chuẩn bị cho trình training 38 4.1.8 Giai đoạn huấn luyện 44 4.1.9 Đánh giá nhận dạng HTK 52 4.1.10 Đánh giá kết quả: 52 4.2 JULIUS 53 4.2.1 Mơ tả hoạt động chƣơng trình 53 4.2.2 Sử dụng Julius (tạo 02 file sample): 54 CHƢƠNG 5: CHƢƠNG TRÌNH ĐIỂU KHIỂN 58 CÁNH TAY ROBOT 58 5.1 Giới thiệu 58 5.2 Thu âm giọng nói 58 5.3 Giao diện chƣơng trình Demo 59 5.4 Kết thử nghiệm 62 KẾT QUẢ ĐẠT ĐƢỢC: 64 NHỮNG ĐIỂM HẠN CHẾ: 64 HƢỚNG NGHIÊN CỨU VÀ PHÁT TRIỂN 64 DANH MỤC CÁC CHỮ CÁI VIẾT TẮT MFCC (Mel-scale Frequency Cepstral Coefficient) HMM (Hidden Markov Model), HTK & Julius (Hidden Markov Model toolkit) LPC Linear Predictive Coding DWT Dynamic Time Wraping ANN Artificial neural network DANH MỤC BẢNG Bảng 5.1: Danh mục 14 câu lệnh điều khiển chương trình demo 58 Bảng 5.2: Danh sách sô câu thu âm tương ứng với người 59 Bảng 5.3 Kết nhận dạng 62 DANH MỤC HÌNH VẼ Hình 2.1: Cụm từ “âm tiết tiếng Việt” thể sóng âm Mỗi âm tiết có biên độ lớn âm giảm dần đầu cuối âm Hình 2.2: Cụm từ “bốn lăm” đứng kề nhau: có khoảng chồng lấp âm vị “n” cuối âm tiết “bốn” âm vị “l” đầu âm tiết “lăm” Hình 2.3: Hai cách tách âm vị cho sóng âm chữ “hai” Hình 2.4: Minh họa phổ tín hiệu âm tiết „„ba‟‟, có miền nhiễu (silence), miền phụ âm /b/ nguyên âm /a/ (miền đậm có mật độ lượng lớn hơn) Hình 2.5: Thanh điệu Hình 2.6: Các hệ thống nhận dạng tiếng nói Hình 2.7: Minh họa sơ đồ giai đoạn huấn luyện phương pháp đối so sánh Hình 2.8: Minh họa sơ đồ giai đoạn nhận dạng phương pháp đối so sánh Hình 3.1: Sơ đồ rút trích vector đặc trưng tổng quát 11 Hình 3.2: Sơ đồ rút trích đặc trưng chi tiết 11 Hình 3.3: Minh họa sơ đồ khối q trình trích chọn đặc trưng MFCC 12 Hình 3.4: Một đoạn tần âm trước sau Pre-Emphasis 13 Hình 3.5: Minh họa lọc mel-scale tam giác (triangle mel-scale filters) 14 Hình 3.6: Mơ hình Markov ẩn trạng thái 16 Hình 3.7: Hệ thống bình - cầu 16 Hình 3.8: Ước lượng Baum - Welch 21 Hình 4.1: Mơ hình nhận dạng tiếng nói sử dụng HTK 22 Hình 4.2: Các module chức HTK 23 Hình 4.3: Các cơng cụ chức HTK 24 Hình 4.4: Xử lý mã hóa tiếng nói 25 Hình 4.5: Huấn luyện theo mơ hình âm vị dùng HTK 26 Hình 4.6: Quy trình hoạt động Hinit 27 Hình 4.7: Quy trình xử lý tập tin Hinit 27 53 + SENT kết nhận dạng theo câu; + WORD kết nhận dạng theo từ + H: từ (câu) nhận dạng + S: số từ (câu) nhận dạng sai + N: số từ (câu) cần nhận dạng + D: số từ bị xóa + I: số từ chèn vào %corr=(N-D-S/N ) * 100% => nhận dạng đúng; Tỷ lệ câu đƣợc tính theo cách sau: câu đƣợc nhận tất từ câu đúng, có từ sai câu xem nhƣ câu sai Tỷ lệ câu số câu chia cho tổng số câu thử nghiệm, trƣờng hợp 1400 câu Tỷ lệ từ tỉ lệ số từ mà hệ thống nhận dạng so với tổng số từ cần nhận dạng Nhƣ vậy, sau trình thử nghiệm kết nhƣ trên, tơi có số nhận xét tổng quan công cụ HTK nhƣ sau: - HTK cho kết nhận dạng từ cao (trên 85%) Tuy vậy, HTK lại mắc nhiều lỗi Insertion làm giảm độ xác hệ thống nhận dạng xuống đáng kể Trong bao gồm độ xác nhận dạng câu - Việc triển khai huấn luyện HTK bao gồm nhiều cơng đoạn phức tạp nên gặp khơng khó khăn 4.2 JULIUS 4.2.1 Mơ tả hoạt động chƣơng trình Chƣơng trình nhận dạng giọng nói điều khiển cánh tay Robot đƣợc viết ngôn ngữ C# kết hợp thƣ viện Julius.dll mơ hình âm học đƣợc huấn luyện từ cơng cụ HTK nhƣ trình bày trên, bao gồm module là: module nhận dạng module điều khiển 54 Hình 4.13 :Sơ đồ hoạt động điều khiển Robot Theo mô tả trên, đầu tiên, tín hiệu tiếng nói chuyển qua micro đƣợc đƣa vào máy tinh (bộ ngoại vi), tín hiệu đƣợc tham số hóa thành dãy đặc trƣng chuyển vào cho Module nhận dạng sử dụng hàm thƣ viện Julius cung cấp để thực cơng đoạn nhận dạng, sử dụng mơ hình âm học đƣợc huấn luyện HTK trên, kết hợp với mơ hình ngơn ngữ Sau nhận dạng kết chuyển sang dạng text (ký tự) cuối chuyển nội dung nhận dạng đƣợc sang Module điều khiển xuất cổng usb điều khiển robot 4.2.2 Sử dụng Julius (tạo 02 file sample):  File sample.grammar: Định nghĩa quy tắc từ (các câu có nghĩa dùng cho nhận dạng) Để tạo file grammar, sử dụng dạng chuẩn BNF (Backus Normal Form) nhƣ sau:  Qui tắc: S : NS_B LOOKUP NS_E LOOKUP: CONNECT NAME • “S”, “NS_B”, “NS_E”: im lặng đầu cuối câu nói • “NS_B”, “NS_E” , “CONNECT”, “NAME: thiết bị đầu cuối, đại diện cho từ Categories có file “.voca” • LOOKUP: khơng thuộc đầu cuối, khơng có file voca, tùy định nghĩa • Mỗi từ loại (“CONNECT”, “NAME) đƣợc thay Categories tập tin voca  Tạo file sample.grammar “C:\HTK\win32.bin\bin” nhƣ sau: 55 S : NS_B LENH NS_E LENH: battat den LENH: cang dongmo LENH: khop huong LENH: gaptha LENH: xoay traiphai  File sample.voca : file từ điển, định nghĩa từ có file sample.grammar Định nghĩa từ voca nhƣ sau:  Quy tắc %[Word Category] [Word Definition] [pronunciation ]  Tạo file sample.voca trong“C:\HTK\win32.bin\bin” nhƣ sau: % NS_B sil % NS_E sil % battat baajt b aaj t tawst t aws t % cang cafng c af ng % khop coor c oor khuyru kh u yr u vai v a i % den ddefn d ef n % dongmo ddosng dd os ng mowr m owr 56 % gaptha gawsp g aws p thar th ar % huong leen l ee n xuoosng x u oos ng % xoay xoay x o a y % traiphai trasi tr as i phari ph ar i + Biên dịch lại ngữ pháp: Cần phải đƣợc biên dịch lại thành file grammar file voca thành file dict dfa để Julian sử dụng đƣợc Để thực biên dịch file trên, cần cài Cygwin – môi trƣờng giống Linux dùng cho hệ điều hành Window Nó bao gồm ngôn ngữ Bash Shell Perl, cần thiết cho việc huấn luyện theo HTK cài Julius Cygwin Sau có file sample.grammar file sample.voca, copy vào thƣ mục bin đƣợc tạo thƣ mục cài đặt Julius ổ đĩa Thực lệnh cài đặt biên dịch file ngữ pháp:  Cài đặt Julius + Giải nén file “julius-4.3.1-win32bin” vào “C:\HTK\win32.bin\bin” + Tạo biến môi trƣờng Julius sytem đến thƣ mục bin: C:\HTK\win32.bin\bin\julius-4.3.1-win32bin\julius-4.3.1-win32bin\bin + Thực lệnh cmd nhập lệnh: julius-4.3.1 (Nếu chạy đƣợc xem nhƣ cài đặt thành công)  Biên dịch file ngữ pháp Julian: Thực lệnh tạo file sample.dfa, sample.dict sample.term  Chuyển thƣ mục bin hành: cd C:\HTK\win32.bin\bin  Biên dịch file: mkdfa.pl sample 57 perl mkdfa.pl sample * Lưu ý: Nếu thực lệnh bị báo lỗi mở file mkdfa.pl sửa sau: (khi sửa xong, chạy lại lệnh biên dịch trên): Sửa dòng 141 148: if ($ tmpprefix = ~ / cygdrive /) { trở thành: if ($ tmpprefix = ~ / cygdrive | Cygwin /) { 58 CHƢƠNG 5: CHƢƠNG TRÌNH ĐIỂU KHIỂN CÁNH TAY ROBOT 5.1 Giới thiệu Luận văn xây dựng chƣơng trình sử dụng giọng nói để thực số lệnh điều khiển cánh tay robot Gồm bƣớc sau: 5.2 Thu âm giọng nói + Danh sách câu thu âm: Bảng 5.1: Danh mục 14 câu lệnh điều khiển chương trình demo Vai lên Càng đóng Vai xuống Xoay trái Khuỷu lên Xoay phải Khuỷu xuống Gắp Cổ lên Thả Cổ xuống Bật đèn Càng mở Tắt đèn + Thu âm câu lệnh huấn luyện:  Lần đầu:  Thu âm với ngƣời môi trƣờng bình thƣờng, câu thu âm 10 lần khoảng 30 phút Các câu lệnh đƣợc đọc vừa phải, rõ ràng, có khoảng ngắt nhẹ từ câu lệnh có từ  Thiết bị thu âm: máy tính xách tay, phần mềm thu âm Audacity  Kết nhận dạng HTK: + Số câu đúng: 18% + Số từ đúng: 45%  Lần thứ 2:  Số lƣợng ngƣời thu âm: 02 ngƣời Với môi trƣờng thu âm thiết bị nhƣ lần đầu Ta đƣợc kết nhận dạng xác đơi chút: Số câu 28%, số từ đúng: 60% 59  Thiết bị thu âm: máy tính xách tay, phần mềm thu âm Audacity  Kết nhận dạng HTK: + Số câu 21% + Số từ đúng: 52%  Lần thứ 3:  Số ngƣời thu âm ngƣời: ngƣời thứ (trẻ em), ngƣời thứ (ngƣời nữ lớn tuổi), ngƣời thứ (ngƣời nam trung niên), ngƣời thứ (ngƣời nữ trung niên)  Mơi trƣờng thu âm: phòng kín, có máy điều hòa nhẹ  Thiết bị thu âm: máy tính xách tay, microphone gắn với máy tính, heaphone để nghe lại câu lệnh thu, phần mềm thu âm Audacity  Số câu lệnh thu âm tƣơng ứng với ngƣời nhƣ bảng sau: Bảng 5.2: Danh sách sô câu thu âm tương ứng với người Ngƣời thu âm Số lần thu âm/mỗi câu lệnh Số câu lệnh Tổng số câu thu Ngƣời thứ 10 14 140 Ngƣời thứ 10 14 140 Ngƣời thứ 10 14 140 Ngƣời thứ 100 14 1400 130 56 1820 Tổng sô câu  Kết nhận dạng HTK: + Số câu khoảng 27% + Số từ khoảng 87% 5.3 Giao diện chƣơng trình Demo 60 Hình 5.1: Giao diện chương trình demo - Chƣơng trình demo đƣợc xây dựng hệ thống sau: • Máy laptop HP Probook • Bộ xử lý intel Core i5, 4GB RAM • Hệ điều hành Windows • Card âm rời • Micro dùng để thu nhận dạng • Phần mềm thu âm Audacity: Thu với tần số lấy mẫu 16.000Hz, kích thƣớc mẫu 16 bit • Chƣơng trình đƣợc viết để điều khiển robot giọng nói tiếng Việt (có thể dùng chuột điều khiển robot) lập trình C# • Module nhận dạng giọng nói điều khiển robot phải thực nhận dạng giọng nói mã hóa chuyển thành tín hiệu điều khiển khớp, trục xoay, đèn robot thông qua cổng usb máy tính vi mạch điều khiển robot Mỗi phận robot nhận tín hiệu tƣơng ứng với mã sau: G: Khuỷu lên B: Tắt đèn D: Thả/Càng mở H: Khuỷu xuống A: Mở đèn L: Xoay trái E: Cổ lên C: Gắp/càng đóng K: Xoay phải 61 F: Cổ xuống I: Vai lên J: Vai xuống Mô tả Robot Arm Cổ tay Khuỷu tay Vai Đèn Càng Trục xoay Hình 5.1: Mơ tả robot arm - Robot đƣợc mua Đức - Bo mạch điều khiển (vi mạch điều khiển) đƣợc thiết kết lại - Robot arm (cánh tay bậc) gồm có khớp nâng (vai, khuỷu, cổ, ), trục xoay đèn - Các chuyển động chi tiết: • Vai: lên, xuống • Khuỷu: lên, xuống • Cổ: lên, xuống • Càng: mở, đóng (hoặc gắp - thả) • Đèn: bật, tắt (1 đèn nhỏ để chiếu sáng sản phẩm gắp) • Xoay: trái, phải (một trục đặt khớp dƣới cùng) 62 5.4 Kết thử nghiệm Khi đọc 14 câu lệnh, câu đọc 10 lần, kết nhận dạng với liệu lần thử nghiệm: Lần 1: Số câu nhận dạng khoảng 32%, Lần 2: Số câu nhận dạng khoảng 56% Khi thực thử nghiệm lần có độ xác bị lỗng nhiễu nhiễu cao, âm đô câu lệnh đọc không đa dạng (to, nhỏ, chậm, nhanh) Rút kinh nghiệm lần trƣớc nên lần thu âm ngƣời với phòng thu kín hơn, có micro, máy điều hòa nhẹ nên độ nhiễu nên kết nhận dạng cao bảng 5.3: Bảng 5.3 Kết nhận dạng STT Lệnh thử nghiệm Số lần nhận dạng Tỉ lệ(%) Vai lên 90 Vai xuống 90 Khuỷu lên 80 Khuỷu xuống 70 Cổ lên 70 Cổ xuống 60 Càng mở 70 Càng đóng 60 Xoay trái 80 10 Xoay phải 80 11 Gắp 90 63 12 Thả 90 13 Bật đèn 80 14 Tắt đèn 80 Tổng 109 78 Đánh giá kết nhận dạng: Khi thực đọc lệnh điều khiền chƣơng trình demo cho kết nhận dạng chƣa cao (có 14 câu lệnh lệnh có độ xác 78% trở lên) Theo tơi có vài ngun nhân tác động đến kết nhận dạng nhƣ sau: - Thực thu âm chƣa nhiều - Môi trƣờng thu âm chƣa tốt, bị nhiễu nhiều - Thiết bị thu âm chƣa tốt - Giọng nói bị lạc giọng (khan tiếng) thu âm khơng bị lạc giọng - Tốc độ nói ảnh hƣởng đến chất lƣợng tiếng nói - Việc tách từ âm vị tiếng nói liên tục gặp nhiều khó khăn làm giảm hiệu suất nhận dạng từ có hiệu suất nhận dạng câu 64 KẾT LUẬN KẾT QUẢ ĐẠT ĐƢỢC: Qua trình tìm hiểu, nghiên cứu nhận dạng tiếng nói tiếng Việt ứng dụng điếu khiển Robot, luận văn đạt đƣợc mục tiêu sau: - Nghiên cứu tiếng nói, phƣơng pháp xử lý tiếng nói, rút trích đặc trƣng, đặc điểm tiếng nói tiếng Việt - Cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói HTK - Xây dựng đƣợc mơ hình huấn luyện nhận dạng HTK Julius - Nghiên cứu thực huấn luyện mơ hình âm học theo âm vị áp dụng cho tiếng Việt Nghiên cứu hệ thống nhận dạng tiếng nói HTK - Xây dựng liệu huấn luyện với 1820 câu nói điều khiển Robot - Thiết kế lại vi mạch điều khiển - Cài đặt diver cho vi mạch - Chuyển hóa tín hiệu tiếng nói thành mã nhận diện vi điều khiển để xuất lệnh điều khiển robot thông qua usb gắn với vi điều khiển robot - Từ nghiên cứu trên, viết chƣơng trình nhận dạng c# điều khiển robot NHỮNG ĐIỂM HẠN CHẾ: - Bộ từ vựng câu lệnh so với thực tế Chỉ thực số câu lệnh điều khiển robot ứng dụng gắp sản phẩm với từ vựng hạn chế - Mơ hình ngữ âm nhiều hạn chế ngƣời chƣa đƣợc huấn luyện giọng nói, mơ hình nhận dạng đƣợc nhƣng đạt độ xác chƣa cao - Việc chƣa xử lý triệt để tạp âm nhƣ chƣa tạo liệu thu âm mẫu nhiều môi trƣờng khác nên việc nhận dạng tiếng nói hạn chế - Chƣơng trình viết với mục đích thể khả ứng dụng mơ hình nhận dạng tiếng nói tiếng Việt tự động đƣợc xây dựng từ công cụ HTK Julius chƣa thực đạt hiệu cao, tính ứng dụng thực tế hạn chế HƢỚNG NGHIÊN CỨU VÀ PHÁT TRIỂN - Thu âm giọng nói rộng rãi hơn, đa dạng giọng nói hơn, nhiều dạng âm độ khác nhằm mục đích xây dựng hệ nhận dạng tiếng nói tốt hơn, xác 65 - Mở rộng từ vựng từ điển lớn - Cải tiến phƣơng pháp tách từ câu để có kết nhận dạng tốt - Tìm hiểu thêm mơ hình ngơn ngữ thuật tốn tìm kiếm hệ nhận dạng tiếng nói để tăng tốc độ nhận dạng - Vận dụng kiến thức nhận dạng giọng nói để thực đề tài nghiên cứu khoa học “Nghiên cứu nhận dạng tiếng nói tiếng Việt ứng dụng việc điều khiển gắp sản phẩm có kích thƣớc, trọng lƣợng nhiều mệnh lệnh hơn” để hỗ ngƣời khiếm khuyết điều khiển giọng nói mà khơng điều khiển tay TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vũ Đức Lung, Nguyễn Thái Ân, Đào Anh Nguyên Tổng hợp phƣơng pháp tách âm từ tiếng Việt đề xuất phƣơng pháp cải tiến Kỷ yếu Hội nghị Quốc gia lần thứ VII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR); Thái Nguyên, ngày 19-20/06/2014, trang 239-245, ISBN: 978-604-913-300-8 [2] Đào Anh Ngun, Nguyễn Thái Ân, Vũ Đức Lung Mơ hình nhận dạng giọng nói tiếng Việt điều khiển theo góc độ âm tiết Kỷ yếu Hội nghị Quốc gia lần thứ VII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR); Thái Nguyên, ngày 19-20/06/2014, trang 708-714, ISBN: 978-604-913-300-8 [3] Đặng Thái Dƣơng – Hà Giang Hải (2004), Nhận dạng tiếng nói tiếng Việt theo hƣớng tiếp cận nhận dạng âm vị tự động, luận văn cử nhân tin học [4] Huỳnh Thanh Giàu (2012), Nghiên cứu nhận dạng tiếng nói tiếng Việt ứng dụng thử nghiệm điều khiển máy tính, Luận văn thạc sĩ, Đại học Lạc Hồng [5] Mai Thị Loan (2014), “Nghiên cứu nhận dạng tiếng nói tiếng Việt ứng dụng thử nghiệm điều khiển máy tính”, Luận văn thạc sĩ, Đại học Lạc Hồng [6] Lê Thị Đào (2014), “Nghiên cứu nhận dạng giọng nói tiếng Việt dựa kỹ thuật chỉnh thời gian động (DTW) ứng dụng thử nghiệm mơ hình Robot điều khiển từ xa”, Luận văn thạc sĩ, Đại học Lạc Hồng [7] Lƣơng Chi Mai, "Phát triển kết tổng hợp, nhận dạng câu lệnh, chuỗi số TiếngViệt liên tục môi trƣờng điện thoại di động”, 2006 [8] Đặng Ngọc Đức, Lƣơng Chi Mai,"Tăng cƣờng độ xác hệ thống mạng neuron nhận dạng tiếng Việt,"2003 [9] Bạch Hƣng Khang, "Báo cáo tổng kết Khoa học Kỹ thuật đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ Tiếng Việt," 2004 Tiếng Anh [10] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland (2009), HTK Book, Cambridge University Engineering Department [11] Berlin Chen (2013), Introduction to HTK Toolkit, Department of Computer Science & Information Engineering National Taiwan Normal University [12] Yueng-Tien Lo (2009), Hidden Markov Toolkit (HTK) Installation, Department of Computer Science & Information Engineering National Taiwan Normal University [13] Vu Duc Lung, Phan Dinh Duy, Nguyen Vo an Phu, Nguyen Hoang Long, Truong Nguyen Vu (2013), Speech recognition in Human-Computer interactive control Journal of Automation and Control Engineering, Vol 1, No 3, pp 42-46 [14] Akinobu LEE (2010), The Julius bookEdition 1.0.3 - rev.4.1.5 Website [15] Giới thiệu cánh tay robot “Robotic Arm Edge” http://www.aonsquared.co.uk/robot_arm_tutorial_1 [16] Huấn luyên HTK nhận dạng tự động tiếng nói (ASR) https://cvstuff.files.wordpress.com/2009/07/htk_training_final.pdf [17] Hƣớng dẫn việc tạo mơ hình âm cho Julius sử dụng công cụ HTK http://www.voxforge.org/home/dev/acousticmodels/windows/create/htkjulius/t utorial [18] Tự động phân tích sóng cách sử dụng hộp cơng cụ nhận dạng giọng nói HTK https://sites.google.com/site/aeural/forced-alignment-on-childes/creatin [19] Các phƣơng thức kiện lập trình nhận dạng giọng nói thƣ viện LAPS Julius http://laps.ufpa.br/falabrasil/files/coruja-doc-en/node1.html ... HỒNG *** NGUYỄN THỊ TUYẾT ANH ĐIỀU KHIỂN CÁNH TAY ROBOT GẮP SẢN PHẨM BẰNG GIỌNG NÓI TIẾNG VIỆT Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60 48 0201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI... cứu nhận dạng nhiều nhƣ tiếng Anh, tiếng Pháp Do việc nghiên cứu nhận dạng tiếng Việt cần thiết Vì lí trên, chọn đề tài Điều khiển cánh tay Robot gắp sản phẩm giọng nói tiếng Việt”, nhằm nghiên... mục tiêu điều khiển robot giọng nói tiếng Việt, luận văn nghiên cứu ý tƣởng thông qua phƣơng pháp nhận dạng giọng nói tiếng Việt mơ hình Markov ẩn kết hợp cơng cụ hỗ trợ nhận dạng giọng nói HTK

Ngày đăng: 31/05/2018, 09:35

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[5] Mai Thị Loan (2014), “Nghiên cứu về nhận dạng tiếng nói tiếng Việt và ứng dụng thử nghiệm trong điều khiển máy tính”, Luận văn thạc sĩ, Đại học Lạc Hồng

Sách, tạp chí

Tiêu đề:	Nghiên cứu về nhận dạng tiếng nói tiếng Việt và ứng dụng thử nghiệm trong điều khiển máy tính
Tác giả:	Mai Thị Loan
Năm:	2014

[6] Lê Thị Đào (2014), “Nghiên cứu về nhận dạng giọng nói tiếng Việt dựa trên kỹ thuật căn chỉnh thời gian động (DTW) và ứng dụng thử nghiệm trong mô hình Robot điều khiển từ xa”, Luận văn thạc sĩ, Đại học Lạc Hồng

Sách, tạp chí

Tiêu đề:	Nghiên cứu về nhận dạng giọng nói tiếng Việt dựa trên kỹ thuật căn chỉnh thời gian động (DTW) và ứng dụng thử nghiệm trong mô hình Robot điều khiển từ xa
Tác giả:	Lê Thị Đào
Năm:	2014

[7] Lương Chi Mai, "Phát triển các kết quả tổng hợp, nhận dạng câu lệnh, chuỗi số TiếngViệt liên tục trên môi trường điện thoại di động”, 2006

Sách, tạp chí

Tiêu đề:	Phát triển các kết quả tổng hợp, nhận dạng câu lệnh, chuỗi số TiếngViệt liên tục trên môi trường điện thoại di động

[8] Đặng Ngọc Đức, Lương Chi Mai,"Tăng cường độ chính xác của hệ thống mạng neuron nhận dạng tiếng Việt,"2003

Sách, tạp chí

Tiêu đề:	Tăng cường độ chính xác của hệ thống mạng neuron nhận dạng tiếng Việt

[9] Bạch Hƣng Khang, "Báo cáo tổng kết Khoa học và Kỹ thuật đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ Tiếng Việt,"2004.Tiếng Anh

Sách, tạp chí

Tiêu đề:	Báo cáo tổng kết Khoa học và Kỹ thuật đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ Tiếng Việt

[15] Giới thiệu về cánh tay robot “Robotic Arm Edge” http://www.aonsquared.co.uk/robot_arm_tutorial_1

Sách, tạp chí

Tiêu đề:	Robotic Arm Edge”

[16] Huấn luyên HTK nhận dạng tự động tiếng nói (ASR) https://cvstuff.files.wordpress.com/2009/07/htk_training_final.pdf

Link

[17] Hướng dẫn việc tạo ra mô hình âm thanh cho Julius sử dụng bộ công cụ HTK http://www.voxforge.org/home/dev/acousticmodels/windows/create/htkjulius/tutorial

Link

[18] Tự động phân tích sóng bằng cách sử dụng hộp công cụ nhận dạng giọng nói HTK https://sites.google.com/site/aeural/forced-alignment-on-childes/creatin[19] Các phương thức và các sự kiện lập trình nhận dạng giọng nói trong thư việnLAPS của Julius http://laps.ufpa.br/falabrasil/files/coruja-doc-en/node1.html

Link

[1] Vũ Đức Lung, Nguyễn Thái Ân, Đào Anh Nguyên. Tổng hợp các phương pháp tách âm thanh của một từ tiếng Việt và đề xuất phương pháp cải tiến. Kỷ yếu Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR); Thái Nguyên, ngày 19-20/06/2014, trang 239-245, ISBN: 978-604-913-300-8

Khác

[2] Đào Anh Nguyên, Nguyễn Thái Ân, Vũ Đức Lung. Mô hình nhận dạng giọng nói tiếng Việt trong điều khiển theo góc độ âm tiết. Kỷ yếu Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR)

Khác

[4] Huỳnh Thanh Giàu (2012), Nghiên cứu về nhận dạng tiếng nói tiếng Việt và ứng dụng thử nghiệm trong điều khiển máy tính, Luận văn thạc sĩ, Đại học Lạc Hồng

Khác

[10] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan

Khác

[12] Yueng-Tien Lo (2009), Hidden Markov Toolkit (HTK) Installation, Department of Computer Science & Information Engineering National Taiwan Normal University

Khác

[13] Vu Duc Lung, Phan Dinh Duy, Nguyen Vo an Phu, Nguyen Hoang Long, Truong Nguyen Vu (2013), Speech recognition in Human-Computer interactive control. Journal of Automation and Control Engineering, Vol. 1, No. 3, pp. 42-46

Khác