(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

71 2 0
(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn: “Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh” sản phẩm thực hướng dẫn PGS TS Nguyễn Trường Thịnh Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp lý Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Tp Hồ Chí Minh, ngày 10 tháng 09 năm 2017 (Ký tên ghi rõ họ tên) Nguyễn Trung Hiếu iii LỜI CẢM ƠN Lời tri ân tơi xin bày tỏ lịng biết ơn sâu sắc chân thành tới thầy PGS.TS Nguyễn Trường Thịnh, người trực tiếp hướng dẫn, bảo tơi tận tình suốt q trình nghiên cứu hoàn thiện luận văn Hơn nữa, thầy người bên cạnh động viên, giúp đỡ tơi vượt qua khó khắn khơng suốt q trình học tập trường Tơi xin gửi lời cảm ơn đến gia đình bạn hữu giúp đỡ, động viên cách hay cách khác thời gian vừa qua Xin kính chúc thầy PGS.TS Nguyễn Trường Thịnh, thân nhân bạn hữu đạt nhiều niềm vui bình an sống Học viên Nguyễn Trung Hiếu iv ABSTRACT One of the important problems our society is facing is that deaf and dumb people find difficulties in communicating with normal people who don’t understand sign language Even though sign language is the best way for deaf and dumb people to communicate with each other Sign language is also used a little by normal people because it is an expressive and natural way for communicating However, people can’t understand all information which were transferred by deaf and dumb people Similarly, deaf and dumb people can’t understand all the things said by normal people Therefore, we need a system which can translate from sign language to speech and vice versa Hence, that makes the communication between normal person and deaf, as well as dumb people easier The whole idea is to build a service robot that enables communications between speech-hearing impaired individual and a normal person In this thesis, we will present two tasks First, we will present how to translate sign language to speech We focus in the image processing algorithm to achieve hand gestures using depth sensor and then convert to speech Second, we focus in speech recognition algorithm The recognized speech is converted to text, and displayed on screen v MỤC LỤC LÝ LỊCH KHOA HỌC .ii LỜI CAM ĐOAN iii LỜI CẢM ƠN iv ABSTRACT v MỤC LỤC vi DANH SÁCH CÁC CHỮ VIẾT TẮT viii DANH SÁCH CÁC HÌNH ix DANH SÁCH CÁC BẢNG xi Chương 1: TỔNG QUAN 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài 1.3 Tổng quan hoạt động robot hỗ trợ người khiếm thính 10 1.4 Nội dung nghiên cứu luận văn 11 Chương 2: TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU 13 2.1 Khiếm thính 13 2.2 Nguồn gốc lịch sử phát triển ngôn ngữ ký hiệu 15 2.3 Đặc điểm ngôn ngữ ký hiệu 19 2.4 Ngôn ngữ sống 20 2.5 Chuẩn hóa phổ biến ngôn ngữ ký hiệu 20 2.6 Một số điểm khác biệt cú pháp NNKH Việt Nam so với ngôn ngữ thông thường - tiếng Việt 21 Chương 3: NHẬN DẠNG NGÔN NGỮ KÝ HIỆU DỰA TRÊN XỬ LÝ ẢNH 23 3.1 Nguyên lý hoạt động camera cảm biến chiều sâu 23 3.2 Nhận dạng bàn tay dựa thông tin chiều sâu 27 3.3 Giải thuật nhận dạng 29 3.4 Nhận dạng định nghĩa cử bàn tay 36 Chương 4: NHẬN DẠNG TIẾNG NÓI 41 4.1 Hệ thống tiếng nói người 41 4.2 Cơ sơ lý thuyết xử lý nhận dạng tiếng nói 43 vi 4.2.1 Các thành phần hệ thống nhận dạng tiếng nói 43 4.2.2 Các phương pháp tiếp cận nhận dạng tiếng nói 44 4.2.3 Phát tiếng nói 49 4.2.4 Phương pháp trích chọn tham số đặc trưng tín hiệu tiếng nói 51 4.3 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 57 4.3.1 API gì? 57 4.3.2 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 58 4.3.3 API Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech ………………………………………………………………………… 59 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 60 5.1 Thực nghiệm 60 5.2 Đánh giá 61 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 vii DANH SÁCH CÁC CHỮ VIẾT TẮT NNKH Ngôn ngữ ký hiệu WHO World Heath Organization LĐ-TB-XH Lao động –thương binh – xã hội DTW Dynamic Time Wraping LPC Linear Predictive Coding HMM Hidden Markov Modle ANN Artificial Neural Network DFT Discrete Fouerier Transforms SE Short Energy ZCR Zero Crossing VAD Voice Activity Detector MFCC Mel-scale Frequency Cepstral Coefficient DCT Biến đổi Cosine rời rạc FFT Fast Fouerier Transforms API Application Programming Interface Paas Platform as a Service ML Machine Learning LPC Linear Predictive Coding viii DANH SÁCH CÁC HÌNH Hình 1.1: Truyền âm qua xương sọ cho bệnh nhân bị khiếm thính…………7 Hình 1.2: Phục hồi thính giác tái sinh tế bào lơng thính giác………… Hình 1.3: Găng tay Enable Talk……………………………………………………… Hình 1.4: Sơ đồ hoạt động robot hỗ trợ người khiếm thính………………….10 Hình 3.1: Hoạt động của camera chiều sâu……………………………………24 Hình 3.2: Mơ hình tính tốn ngun lý tam giác…………………… 25 Hình 3.3: Dữ liệu chiều sâu tính khoảng cách từ cảm biến đến đối tượng…………………………………………………………………………………… 26 Hình 3.4: Mơ hình động học bàn tay……………………………………………27 Hình 3.5: Sơ đồ giải thuật truy bắt bàn tay…………………………………… ….31 Hình 3.6: Giới hạn vùng tìm kiếm bàn tay………………………………………….34 Hình 3.7: Đa giác bao quanh bàn tay không gian Euclide……………… 35 Hình 3.8:Đoạn thẳng tỷ lệ vàng………………………………………………35 Hình 3.9 Các tỷ lệ vàng bàn tay người……………………………………….36 Hình 3.10: Các khớp ngón tay sau nhận dạng……………………………… 38 Hình 3.11: So sánh độ xác phương pháp Euclid DTW…………38 Hình 3.12: Ma trận lưới điểm………………………………………………….39 Hình 3.13: Hình dạng đường ma trận……………………………………….… 40 Hình 4.1: Bộ máy phát âm người………………………………………… 42 Hình 4.2: Tín hiệu tương tự tín hiệu số tương ứng………………………… .43 Hình 4.3: Các phần tử hệ thống nhận dạng tiếng nói…… … 45 Hình 4.4: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học……… 46 ix Hình 4.5: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp mẫu… …… 47 Hình 4.6: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ lên 48 Hình 4.7: Sơ đồ tính tốn hệ số MFCC………………………………………… 51 Hinh 4.8: Các băng lọc tam giác theo thang tần số Mel………………………… 53 Hình 4.9: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói…………… 55 Hình 4.10: Sơ đồ bước xác định hệ số PLP…………………………………… 56 Hình 4.11: Sơ đồ nhận dạng tiếng nói dung Google Speech API…….…… … 59 Hình 5.1: Biểu đồ tỷ lệ nhận dạng xác từ……………………… 61 x DANH SÁCH CÁC BẢNG Bảng 1.1: Phân loại biểu khiếm thính………………………………….…5 Bảng 2.1: Bảng chữ ngôn ngữ ký hiệu quốc tế…………………………….…14 Bảng 2.2: Bảng chữ ngôn ngữ ký hiệu Việt Nam…………………………………15 Bảng 2.3 : So sánh cấu trúc câu tiếng Việt câu NNKH……………………… …21 Bảng 3.1 : So sánh ưu nhược điểm hai loại thơng tin thu từ camera ảnh bình thường thông tin thu từ cảm biến chiều sâu………………………… 29 Bảng 5.1: Tỷ lệ nhận dạng xác từ…………………………………… 61 xi Chương 1: TỔNG QUAN 1.1 Giới thiệu đề tài Một giác quan giúp người giao tiếp với người khác, giúp tiếp thu nguồn tri thức nhân loại để sẻ chia điều sống thính giác Nếu người thiếu thính giác, thính giác hoạt động khơng tốt thiệt thịi lớn người Trong đó, phận người có khuyết tật thính giác lại chiếm phận không nhỏ cộng đồng nhân loại Vấn đề tình trạng người có khuyết tật thính giác lại thêm phức tạp lẽ khiếm thính có nhiều cấp độ biểu khác Bảng 1.1 đưới trình bày tổng quát phân loại biểu khiếm thính: Phân loại Biểu Khiếm thính tiếp nhận Tổn thương tai ngồi tai Khiếm thính dẫn truyền Tổn thương tai Khiếm thính hỗn hợp Tổn thương tai ngồi, tai tai Khiếm thính tai trung ương Dây thần kinh số 8, tổn thương não Nghe nhẹ Khơng nghe tiếng nói nhỏ Khó nghe tiếng nói nơi ồn Nghe trung bình Nghe tiếng nói nhỏ, tiếng nói bình thường Rất khó nghe tiếng nói nơi ồn Nghe nặng Khơng nghe tiếng nói lớn Các nói chuyện thực khó khăn với nhiều nỗ lực Nghe sâu Không nghe hét vào tai, không sử dụng thiết bị trợ thính khơng thể nghe Điếc Hồn tồn khơng nghe cho dù có dung thiết bị trợ thính Bảng 1.1: Phân loại biểu khiếm thính Hiện nay, theo thống kê Tổ Chức Y Tế Thế Giới (WHO), giới có khoảng 278 triệu người câm điếc dạng, chiếm 4,5% dân số giới Hầu hết Tín hiệu tiếng nói s(n) đưa qua lọc số bậc thấp để phổ đồng hơn, giảm ảnh hưởng gây cho xử lý tín hiệu sau Thường lọc cố định bậc một, có dạng: H(z) = 1- az 1− 0.9≤ a≤ 1.0 (4.4) Quan hệ tín hiệu với tín hiệu vào tn theo phương trình ̃ ( ) = ( ) = ( − 1) (4.5) Giá trị a thường chọn 0.97 Khối 2: Phân khung (Frame Blocking) Trong khối tín hiệu hiệu chỉnh s(n) phân thành khung, khung có N mẫu; hai khung kề lệch M mẫu Khung chứa N mẫu, khung thứ hai bắt đầu chậm khung thứ M mẫu chồng lên khung thứ N-M mẫu Tương tự, khung thứ ba chậm khung thứ 2M mẫu (chậm khung thứ hai M mẫu) chờm lên khung thứ N-2M mẫu Quá trình tiếp tục tất mẫu tiếng nói cần phân tích thuộc nhiều khung Khối 3: Lấy cửa sổ (Windowing) Bước lấy cửa sổ cho khung riêng rẽ nhằm giảm gián đoạn tín hiệu tiếng nói đầu cuối khung Nếu w(n), ≤ n ≤ N-1, sau lấy cửa sổ được: ( )= ( ) ( ); 0≤ ≤ −1 (4.6) Thông thường, sổ Hamming sử dụng Cửa sổ có dạng: ( ) = 0.54 − 0.46cos( ); 0≤ ≤ −1 (4.7) Khối 4: Biến đổi Fourier rời rạc (FFT) Tác dụng FFT chuyển đổi khung với N mẫu từ miền thời gian sang miền tần số FFT thuật toán tính DFT nhanh DFT xác định: ( )=∑ ( ) Khối 5: Biến đổi sang thang đo Mel miền tần số 52 (4.8) Như nói trên, tai người không cảm nhận thay đổi tần số tiếng nói tuyến tính mà theo thang Mel Người ta chọn số 1kHz, 40 dB ngưỡng nghe 1000 Mel Do đó, cơng thức gần biểu diễn quan hệ tần số thang Mel thang tuyến tính sau: ( ) = 2595 ∗ lg(1 + 700 ) tần số m1 mi Năng lượngtrên dãi tần số Tần số mel Hinh 4.8: Các băng lọc tam giác theo thang tần số Mel Một phương pháp để chuyển đổi sang thang Mel sử dụng băng lọc, lọc có đáp ứng tần số dạng tam giác Số băng lọc sử dụng thường 20 băng Thông thường, người ta chọn tần số từ dến Fs/2 (Fs tần số lấy mẫu tiếng nói) Sau tính FFT ta thu phổ tín hiệu (fn) Thực chất dãy lượng ( ) = ⌈ ( )⌉ Cho W(n) qua dãy K băng lọc dạng tam giác, ta dãy Tính tổng dãy ( ) băng lọc, ta thu dãy hệ số mk = (k=1,2,…,K) Khối 6: Biến đổi Cosine rời rạc (DCT) Trong bước ta chuyển log giá trị mk miền thời gian cách biến đổi Cosine rời rạc (DCT) Kết phép biến đổi ta thu hệ số MFCC 53 = ln ( − 0.5) ; = 1,2 … ; (4.9) Thông thường, có số giá trị ic sử dụng Trong ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC thêm hệ số lượng khung sau chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như tổng cộng có Q=13 hệ số) Khối 7: Cepstral có trọng số Vì độ nhạy hệ số cepstral bậc thấp làm cho phổ toàn bị đổ dốc, độ nhạy cepstral bậc cao gây nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểu hóa độ nhạy Công thức biểu diễn hệ số cepstral có trọng số: ̂ = 1+ ;1 ≤ ≤ (4.10) Khối 8: Lấy đạo hàm hệ số MFCC theo thời gian Để nâng cao chất lượng nhận dạng, người ta đưa thêm giá trị đạo hàm theo thời gian giá trị hệ số MFCC vào vector hệ số tiếng nói Các giá trị tính theo: Δ ̂ = ∑ ( ̂ 2∑ − ̂ ) ; 1≤ ≤ ; (4.11) Trong đó: θ độ dài cửa sổ tính delta (thường chọn 3) Kết thúc bước với khung ta thu vector có 2Q thành phần biểu diễn tham số đặc trưng tiếng nói Phương pháp mã dự đốn tuyến tính LPC Mơ hình LPC sử dụng để trích lọc tham số đặc trưng tín hiệu tiếng nói Kết q trình phân tích tín hiệu thu chuỗi gồm khung tiếng nói Các khung biến đổi nhằm sử dụng cho việc phân tích âm học 54 Nội dung phân tích dự báo tuyến tính là: mẫu tiếng nói xấp xỉ tổ hợp tuyến tính mẫu trước Thơng qua việc tối thiểu hóa tổng bình phương sai số mẫu với mẫu dự đốn xác định tập hệ số dự báo Các hệ số s(n) dự báo trọng số sử dụng tổ hợp tuyến tính Với dãy tín hiệu tiếng nói,giá trị dự báo xác định bởi: ̃( ) = ( − ) (4.12) Trong đó: αk: hệ số đặc trưng cho hệ thống ( ) Làm rõ tín hiệu ∆ ̅ ( ) Lấy đạo hàm ̃( ) Phân đoạn khung Đặt trọng ( ) ̅ ( ) ( ) Lấy cửa sổ Phân tích tự tương ( ) ( ) Phân tích LPC Chuyển đổi tham số LPC ( ) Hình 4.9: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói Hàm sai số dự báo tính theo cơng thức: ( ) = ( ) − ̃( ) = ( ) − ( − ) (4.13) Để cực tiểu hóa lỗi cần tìm tập giá trị {αk} phù hợp Do tín hiệu tiếng nói thay đổi theo thời gian nên hệ số dự báo phải ước lượng từ đoạn tín hiệu ngắn Vấn đề đặt tìm tập hệ số dự báo để tối thiểu hóa sai số trung bình đoạn ngắn Hàm lỗi dự báo thời gian ngắn xác định bởi: =∑ ( ) =∑ ( )−∑ 55 ( − ) (4.14) Trong đó: sn(m) : đoạn tín hiệu tiếng nói lân cận mẫu thứ n; Tìm tập giá trị α k để tối thiểu hóa E cách / = với I =1,2,…,p từ nhận phương trình: ( − ) ( )= ( − ) ( − ) (4.15) Đặt: ∅ (, )= ( − ) ( − ) (4.16) Phương trình viết: ∅ ( , 0) = ∅ (, ) = 1,2, … , ; (4.17) Phương pháp PLP Phương pháp kết hợp hai phương pháp trình bày Tiếng nói FFT Lọc tần số Bark Luật cường độ nghe Hệ số PLP Tính giá trị Nhấn mạnh tín hiệu Thuật tốn Durbin Biến đổi Fourier ngược Hình 4.10: Sơ đồ bước xác định hệ số PLP 56 Khối 1: Biến đổi Fourier nhanh (FFT) Tương tự phương pháp MFCC, tín hiệu tiếng nói chia thành khung chuyển sang miền tần số thuật toán FFT Khối 2: Lọc theo thang tần số Bark Tín hiệu tiếng nói lọc qua lọc phân bố theo thang tần số phi tuyến, trường hợp thang tần số Bark: / ( )=6 1200 + 1200 +1 (4.18) Khối 3: Nhấn mạnh tín hiệu dùng hàm cân đường xong cân độ ồn (equal-loudnes) độ ồn (Equal-Loudnes).Bước tương tự nhấn mạnh (preemphasis) phương pháp MFCC.Hàm mô phỏng: ( )= ( ( + 56.8 ∗ 10 ) + 6.3 ∗ 10 )( + 9.58 ∗ 10 ) (4.19) Khối 4: Dùng luật cường độ nghe (Power Law of Hearing) Bước xử lý giống bước lấy giá trị logarit phương pháp MFCC Hàm lập phương dùng có dạng: ∅( ) = ( ) (4.20) Khối 5: Biến đổi Fourier ngược (Inverse DFT) Các hệ số tự tương quan biến đổi Fourier ngược giá trị đầu vào cho LPC Khối 6: Thuật toán Durbin Thuật toán Durbin sử dụng để tính hệ số dự báo tuyến tính phương pháp LPC Khối 7: Tính giá trị delta Phương pháp tính tương tự phương pháp hệ số MFCC 4.3 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 4.3.1 API gì? API chữ viết tắc Application Programming Interface, tạm dịch tiếng Việt giao diện lập trình ứng dụng, phương thức kết nối với thư viện ứng dụng khác, giao diện mà hệ thống máy tính hay ứng dụng cung cấp 57 cho phép yêu cầu dịch vụ tạo từ chương trình máy tính khác, cho phép liệu trao đổi qua lại chúng Nói cách khác, API giống công cụ để xây dựng nên phần mềm, hay rộng phương thức giao tiếp thành phần khác phần mềm Chẳng hạn, chương trình máy tính dùng hàm API hệ điều hành để xin cấp phát nhớ truy xuất tập tin Nhiều loại hệ thống ứng dụng thực API, hệ thống đồ họa, sở liệu, mạng, dịch vụ web, số trị chơi máy tính Một trình ứng dụng sử dụng API để yêu cầu thi hành dịch vụ cấp thấp hệ điều hành máy tính thực Hệ giao tiếp lập trình ứng dụng giúp ích nhiều cho người sử dụng cho phép tiết kiệm nhiều thời gian tìm hiểu chương trình mới, khích lệ người dùng nhiều ứng dụng 4.3.2 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API Cloud Speech API thành phần dịch vụ tảng Paas (Platform as a Service) cung cấp Cloud Machine Learning Google Nền tảng Cloud Machine Learning Google bao gồm phần: cho phép nhà phát triển xây dựng mơ hình ML (Machine Learning) từ liệu riêng họ, cung cấp nhà phát triển mơ hình huấn luyện từ trước (pre-trained model) Mơ hình pre-trained bao gồm API có Google Translate API Cloud Vision API Google Cloud Speech API Cloud Speech API Google sử dụng cho ứng dụng tìm kiếm giọng nói kích hoạt giọng nói Đồng thời, Google cung cấp cho nhà phát triển tảng sử dụng Cloud Speech API cách ứng dụng họ.Với Google Cloud Speech API, nhà phát triển sử dụng khả nhận dạng giọng nói Google (hỗ trợ 110 ngôn ngữ biển thể) cho ứng dụng họ phát triển, hoạt động với ứng dụng thời gian thực batch mode Cloud Speech API sử dụng thuật toán mạng thần kinh học tiên tiến cho âm người dùng để nhận diện giọng nói nên có độ xác cao mơi trường có âm bị nhiễu 58 4.3.3 Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech API Quá trình nhận dạng tiếng nói thực theo sơ đồ hình 4.11 Tiếng nói thu nhận nhờ microphone Trong phần thực nghiệm đề tài, microphone dùng microphone tích hợp Kinect phiên Microsoft Tín hiệu tiếng nói gửi lên máy chủ Google Tại đây, tín hiệu nói mã hố nhờ vào dịch vụ lưu trữ lưu Google Cloud Storage, áp dụng chuẩn mã hoá AES_128 bit Việc mã hoá thực cách tự động trước lưu trữ vào ổ đĩa máy chủ ảo đám may hãng Sau tín hiệu lưu trữ máy chủ áo, tín hiệu xử lý để nhận dạng chuyển đổi sang dạng chữ nhờ vào hệ thống Cloud Speech API Kết sau nhận dạng gởi trả lại cho người dung hiển thị màng hình dươi dạng văn bảng Tiếng nói Microphone Google Cloud Storage Gửi yêu cầu Google Computer Engine Cloud Speech API Nhận kết Hiển thị kết hình Hình 4.11: Sơ đồ nhận dạng tiếng nói dung Google Speech API 59 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ Để đánh giá hiệu phương pháp đề xuất việc nhận dạng ngôn ngữ ký hiệu theo hệ thống ngôn ngữ ký hiệu thành phố Hồ Chí Minh chuyển dịch sang ngơn ngữ nói, đề tài đươc tiến hành thực nghiệm nhận dạng mẫu đối thoại nhỏ gồm câu: Xin chào Bạn khoẻ không? Tôi khoẻ Bạn đâu đó? Tơi đến trường Chương trình nhận dạng ngôn ngữ ký hiệu chuyển dịch sang ngôn ngữ nói viết Visual Studio C# 2013 kết hợp với thư viện SDK Loại camera cảm biến chiều sâu sử dụng Kinect phiên Microsoft Tồn chương trình thực máy tính xách tay với cấu hình: CPU Intel i5 4210U, RAM 4G, sử dụng cổng giao tiếp chuẩn USB 3.0 5.1 Thực nghiệm Việc thực nghiệm tiến hành nhận dạng từ với số lần thực 50 lần điều kiện ánh sáng bình thường Bạn Tôi Xin chào Đi đến Trường học Khoẻ Đi đâu 60 5.2 Đánh giá Bảng 5.1 thể từ nhận dạng tỷ lệ xác q trình nhận dạng với số lần thực 50 lần từ Từ nhận dạng Bạn Tỷ lệ xác 80% Tôi Xin chào Đi đến Đi đâu Trường học 75% 87% 90% 83% 85% Khoẻ 87% Bảng 5.1: Tỷ lệ nhận dạng xác từ Hình 5.1: Biểu đồ tỷ lệ nhận dạng xác từ Dựa vào biều đồ, nhận thấy chương trình với giải thuật nhận dạng cho kết tương đối ổn định Sự sai lệch tỷ lệ xác cao tỷ lệ xác thấp 15% Việc nhận dạng NNKH cho kết tương đối ổn định điều kiện nhận dạng với ánh sáng đủ Mặc khác, với thiết bị Kinect phiên 2, việc nhận dạng đươc thực điều kiện ảnh sáng thiếu nhờ vào camera hồng ngoại Tuy nhiên, trình nhận dạng xảy sai số nguyên nhân: trùng lắp cử chỉ; việc nhận dang khớp bàn tay bị nhiễu vùng nhận dạng toạ độ với vùng tìm kiếm 61 KẾT LUẬN Kết luận văn xây dựng thành cơng giải thuật nhận dạng vị trí cử bàn tay, đồng thời xây dựng chương trình nhận dạng giọng nói chuyển dịch sang dạng văn Các cơng việc thực luận văn: nghiên cứu đặc điểm cấu trúc ngữ pháp ngôn ngữ ký hiệu dùng làm sở cho việc nhận dạng; xây dựng giải thuật nhận dạng, truy bắt vị trí cử bàn tay; nhận dạng ngôn ngữ ký hiệu thể qua hai bàn tay, truy xuất đến liệu sở để chuyển dịch sang ngơn ngữ nói; nghiên cứu hệ thống chế phát âm người; nghiên cứu lý thuyết nhận dạng xử lý tiếng nói; xây dựng chương trình nhận dạng giọng nói dựa công cục Cloud Speech API Bước đầu tiến hành thực nghiệm với số từ ngôn ngữ ký hiệu chuyển dịch sang ngơn ngữ nói, đồng thời nhận dạng tiếng nói chuyển dịch sang văn Do thời gian thực luận văn hạn hẹp, nên chương trình nhận dạng ngơn ngữ ký hiệu chưa hồn chỉnh Bên cạnh việc nhận dạng cịn tồn nhiều vấn đề cần giải tiếp theo: bị trùng cử chỉ; chưa xây được thư viện liệu sở; việc sử dụng công cụ Cloud Speech API để nhận dạng tiếng nói địi buộc hệ thống phải có kết nối internet Trong thời gian tới hướng nghiên cứu đề tài thực thực hiện: tối ưu hoá giải thuật nhận dạng ngôn ngữ ký hiệu; xây dựng thư viện liệu sở ngôn ngữ ký hiệu; tiến hành nghiên cứu xây dựng giải thuật nhận dạng chuyển hoá ngơn ngữ nói sang ngơn ngữ ký hiệu video 62 TÀI LIỆU THAM KHẢO [1] Lệ Thị Hằng Đại cương khiếm thính Đại học sư phạm Đà Nẵng năm 2008, tr 3-6, 43 – 48 [2] Dự án Giáo dục Đại học cho người điếc Việt Nam, Ngôn ngữ kí hiệu thành phố Hồ Chí Minh, Nxb Văn hóa thơng tin, 2008, tr 5-8 [3] Yasir Niaz Khan, Syed Atif Mehdi Hand Glove To Translate Sign Language IJSTE - International Journal of Science Technology & Engineering Volume 2, Issue 9, March 2016, tr 359-362 [4] Dự án Giáo dục Đại học cho người điếc Việt Nam, Ngôn ngữ kí hiệu thành phố Hồ Chí Minh, Nxb Văn hóa thơng tin, 2008 [5] Cao Thị Mỹ Xn Q trình hình thành phát triển ngơn ngữ ký hiệu Tạp chí khoa học ĐHSP TPHCM, số 43 năm 2013, tr [6] A Lekova, D Ryan Fingers And Gesture Recognition With Kinect V2 Sensor International Conference AUTOMATICS AND INFORMATICS’2016 4-5 October 2016, Sofia, Bulgaria P 107-109 [7] Yi Li Hand Gesture Recognition Using Kinect Electronic Teses and Dissertations P 823 [8] Andrew Weinfield Gesture Recognition Using Microsoft’s Kinect v2 [9] Yoann Dieudonn´e, Shlomi Dolev, Franck Petit, Michael Segal Deaf, Dumb, and Chatting Robots, Enabling Distributed Computation and Fault-Tolerance Among Stigmergic Robot University of Lyon, France, 2009 [10] Rudra PK Poudel Real-time hand gesture recognition for small devices University of Sussex, UK, 2009 63 [11] H Duan and Y Luo, “A Gestures Trajectory Recognition Method Based on DTW”, Advances in Intelligent Systems Research, ISSN 1951-6851, Proc 2nd Int Conf on Comp Science&Elec.Eng 2013 [12] Mostafa Karbasi1, Zeeshan Bhatti1, Parham Nooralishahi, Asadullah Shah, Seyed Mohammad Reza Mazloomnezhad Real-Time Hands Detection in Depth Image by Using Distance with Kinect Camera International Journal of Internet of Things 2015 P.1-6 [13] Quách Tuấn Ngọc, “Xử lý tín hiệu số”, Nxb Giáo dục, 1995 [14] D.-K Mac, V Aubergé, A Rilliard, and E Castelli, “Cross-cultural perception of Vietnamese Audio-Visual prosodic attitudes,” Speech Prosody 2010, 2010 [15] Claudio Becchetti and Lucio Prina Ricotti, “Speech Theory & C++ Implementation”, Fondazione Ugo Bordoni, Rome, Italy John Wiley and Sons, LTD [16] Google Cloud Speech API Documentation Internet: https://cloud.google.com/speech/docs/, 15/06/2017 [17] Cloud Speech API is now generally available, Internet: https://cloudplatform.googleblog.com/2017/04/Cloud-Speech-API-is-now generally-available.html, 15/06/2017 [18] Discover the Strengths and Weaknesses of Google Cloud Speech API in this Special Report by Cloud Academy’s Roberto Turrin, Internet: https://cloudacademy.com/blog/first-steps-with-google-cloud-speech-api/, 15/06/2017 64 65 S K L 0 ... tài: "Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng cơng nghệ xử lý ảnh. " Vơi mục đích nghiên cứu công cụ khác nhằm hỗ trợ, tạo trực quan gần gũi việc giao tiếp người khiếm thính người bình... tưởng người dùng Từ phân tích, nhận định trên, với xu hướng áp dụng robot vào việc hỗ trợ sinh hoạt sống ngày người robot giải trí, robot phục vụ, robot chuyên môn… ngày phổ biến, người nghiên cứu. .. người bình thường khơng biết sử dụng hạn chế Gần có số cơng trình nghiên cứu nhằm hỗ trợ người khả thính giác Các cơng trình kể như: Nghiên cứu truyền âm qua xương sọ cho bệnh nhân bị khiếm thính

Ngày đăng: 08/12/2022, 20:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan