Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

80 5 0
Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN TRUNG HIẾU NGHIÊN CỨU ROBOT HỖ TRỢ NGƯỜI KHIẾM THÍNH ỨNG DỤNG CƠNG NGHỆ XỬ LÝ ẢNH NGÀNH: KỸ THUẬT CƠ ĐIỆN TỬ SKC007490 Tp Hồ Chí Minh, tháng 10/2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN TRUNG HIẾU NGHIÊN CỨU ROBOT HỖ TRỢ NGƯỜI KHIẾM THÍNH ỨNG DỤNG CƠNG NGHỆ XỬ LÝ ẢNH NGÀNH: KỸ THUẬT CƠ ĐIỆN TỬ - 60520114 HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN TRƯỜNG THỊNH Tp Hồ Chí Minh, tháng 10 năm 2017 LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC: Họ & tên: Nguyễn Trung Hiếu Giới tính: Nam Ngày, tháng, năm sinh: 18/07/1987 Nơi sinh: Bình Phước Quê quán: Nam Định Dân tộc: Kinh Chỗ riêng địa liên lạc: 4/33A Tân Thới Nhì, Hóc Mơn, Tp HCM Điện thoại nhà riêng: 0915970616 E-mail: jostrunghieusdb@gmail.com II QUÁ TRÌNH ĐÀO TẠO: Đại học: Hệ đào tạo: Chính quy Thời gian đào tạo từ 09/2005 đến 12/ 2010 Nơi học (trường, thành phố): Đại học Sư Phạm Kỹ Thuật Tp HCM Ngành học: Công Nghệ Tự Động Tên đồ án, luận án môn thi tốt nghiệp: Nghiên cứu robot giao thông Ngày & nơi bảo vệ đồ án: 27/12/2010 ĐH Sư Phạm Kỹ Thuật Tp HCM Người hướng dẫn: TS Nguyễn Trường Thịnh Thạc sĩ: Hệ đào tạo: Chính quy Thời gian đào tạo từ 05/2016 đến 10/ 2017 Nơi học (trường, thành phố): Đại học Sư Phạm Kỹ Thuật Tp HCM Ngành học: Kỹ Thuật Cơ Điện Tử Tên luận văn: Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng cơng nghệ xử lý ảnh Ngày & nơi bảo vệ luận văn: 27/10/2017 ĐH Sư Phạm Kỹ Thuật Tp HCM Người hướng dẫn: PGS.TS Nguyễn Trường Thịnh III Q TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Công việc đảm nhiệm 2010 - 2015 Học viện Đà Lạt Học viên 2015 - 2016 Tự Tự 2016 - 2017 ĐH Sư Phạm Kỹ Thuật TPHCM Học viên ii LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn: “Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng cơng nghệ xử lý ảnh” sản phẩm thực hướng dẫn PGS TS Nguyễn Trường Thịnh Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp lý Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Tp Hồ Chí Minh, ngày 10 tháng 09 năm 2017 (Ký tên ghi rõ họ tên) Nguyễn Trung Hiếu iii Tín hiệu tiếng nói s(n) đưa qua lọc số bậc thấp để phổ đồng hơn, giảm ảnh hưởng gây cho xử lý tín hiệu sau Thường lọc cố định bậc một, có dạng: H(z) = 1- az 1− 0.9≤ a≤ 1.0 (4.4) Quan hệ tín hiệu với tín hiệu vào tuân theo phương trình ̃ ( ) = ( ) = ( − 1) (4.5) Giá trị a thường chọn 0.97 Khối 2: Phân khung (Frame Blocking) Trong khối tín hiệu hiệu chỉnh s(n) phân thành khung, khung có N mẫu; hai khung kề lệch M mẫu Khung chứa N mẫu, khung thứ hai bắt đầu chậm khung thứ M mẫu chồng lên khung thứ N-M mẫu Tương tự, khung thứ ba chậm khung thứ 2M mẫu (chậm khung thứ hai M mẫu) chờm lên khung thứ N-2M mẫu Quá trình tiếp tục tất mẫu tiếng nói cần phân tích thuộc nhiều khung Khối 3: Lấy cửa sổ (Windowing) Bước lấy cửa sổ cho khung riêng rẽ nhằm giảm gián đoạn tín hiệu tiếng nói đầu cuối khung Nếu w(n), ≤ n ≤ N-1, sau lấy cửa sổ được: ( )= ( ) ( ); 0≤ ≤ −1 (4.6) Thông thường, sổ Hamming sử dụng Cửa sổ có dạng: ( ) = 0.54 − 0.46cos( ); 0≤ ≤ −1 (4.7) Khối 4: Biến đổi Fourier rời rạc (FFT) Tác dụng FFT chuyển đổi khung với N mẫu từ miền thời gian sang miền tần số FFT thuật tốn tính DFT nhanh DFT xác định: ( )=∑ ( ) Khối 5: Biến đổi sang thang đo Mel miền tần số 52 (4.8) Như nói trên, tai người khơng cảm nhận thay đổi tần số tiếng nói tuyến tính mà theo thang Mel Người ta chọn số 1kHz, 40 dB ngưỡng nghe 1000 Mel Do đó, cơng thức gần biểu diễn quan hệ tần số thang Mel thang tuyến tính sau: ( ) = 2595 ∗ lg(1 + 700 ) tần số m1 mi Năng lượngtrên dãi tần số Tần số mel Hinh 4.8: Các băng lọc tam giác theo thang tần số Mel Một phương pháp để chuyển đổi sang thang Mel sử dụng băng lọc, lọc có đáp ứng tần số dạng tam giác Số băng lọc sử dụng thường 20 băng Thông thường, người ta chọn tần số từ dến Fs/2 (Fs tần số lấy mẫu tiếng nói) Sau tính FFT ta thu phổ tín hiệu (fn) Thực chất dãy lượng ( ) = ⌈ ( )⌉ Cho W(n) qua dãy K băng lọc dạng tam giác, ta dãy Tính tổng dãy ( ) băng lọc, ta thu dãy hệ số mk = (k=1,2,…,K) Khối 6: Biến đổi Cosine rời rạc (DCT) Trong bước ta chuyển log giá trị mk miền thời gian cách biến đổi Cosine rời rạc (DCT) Kết phép biến đổi ta thu hệ số MFCC 53 = ln ( − 0.5) ; = 1,2 … ; (4.9) Thơng thường, có số giá trị ic sử dụng Trong ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC thêm hệ số lượng khung sau chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như tổng cộng có Q=13 hệ số) Khối 7: Cepstral có trọng số Vì độ nhạy hệ số cepstral bậc thấp làm cho phổ toàn bị đổ dốc, độ nhạy cepstral bậc cao gây nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểu hóa độ nhạy Cơng thức biểu diễn hệ số cepstral có trọng số: ̂ = 1+ ;1 ≤ ≤ (4.10) Khối 8: Lấy đạo hàm hệ số MFCC theo thời gian Để nâng cao chất lượng nhận dạng, người ta đưa thêm giá trị đạo hàm theo thời gian giá trị hệ số MFCC vào vector hệ số tiếng nói Các giá trị tính theo: Δ ̂ = ∑ ( ̂ 2∑ − ̂ ) ; 1≤ ≤ ; (4.11) Trong đó: θ độ dài cửa sổ tính delta (thường chọn 3) Kết thúc bước với khung ta thu vector có 2Q thành phần biểu diễn tham số đặc trưng tiếng nói Phương pháp mã dự đốn tuyến tính LPC Mơ hình LPC sử dụng để trích lọc tham số đặc trưng tín hiệu tiếng nói Kết q trình phân tích tín hiệu thu chuỗi gồm khung tiếng nói Các khung biến đổi nhằm sử dụng cho việc phân tích âm học 54 Nội dung phân tích dự báo tuyến tính là: mẫu tiếng nói xấp xỉ tổ hợp tuyến tính mẫu trước Thơng qua việc tối thiểu hóa tổng bình phương sai số mẫu với mẫu dự đốn xác định tập hệ số dự báo Các hệ số s(n) dự báo trọng số sử dụng tổ hợp tuyến tính Với dãy tín hiệu tiếng nói,giá trị dự báo xác định bởi: ̃( ) = ( − ) (4.12) Trong đó: αk: hệ số đặc trưng cho hệ thống ( ) Làm rõ tín hiệu ∆ ̅ ( ) Lấy đạo hàm ̃( ) Phân đoạn khung Đặt trọng ( ) ̅ ( ) ( ) Lấy cửa sổ Phân tích tự tương ( ) ( ) Phân tích LPC Chuyển đổi tham số LPC ( ) Hình 4.9: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói Hàm sai số dự báo tính theo cơng thức: ( ) = ( ) − ̃( ) = ( ) − ( − ) (4.13) Để cực tiểu hóa lỗi cần tìm tập giá trị {αk} phù hợp Do tín hiệu tiếng nói thay đổi theo thời gian nên hệ số dự báo phải ước lượng từ đoạn tín hiệu ngắn Vấn đề đặt tìm tập hệ số dự báo để tối thiểu hóa sai số trung bình đoạn ngắn Hàm lỗi dự báo thời gian ngắn xác định bởi: =∑ ( ) =∑ ( )−∑ 55 ( − ) (4.14) Trong đó: sn(m) : đoạn tín hiệu tiếng nói lân cận mẫu thứ n; Tìm tập giá trị α k để tối thiểu hóa E cách / = với I =1,2,…,p từ nhận phương trình: ( − ) ( )= ( − ) ( − ) (4.15) Đặt: ∅ (, )= ( − ) ( − ) (4.16) Phương trình viết: ∅ ( , 0) = ∅ (, ) = 1,2, … , ; (4.17) Phương pháp PLP Phương pháp kết hợp hai phương pháp trình bày Tiếng nói FFT Lọc tần số Bark Luật cường độ nghe Hệ số PLP Tính giá trị Nhấn mạnh tín hiệu Thuật tốn Durbin Biến đổi Fourier ngược Hình 4.10: Sơ đồ bước xác định hệ số PLP 56 Khối 1: Biến đổi Fourier nhanh (FFT) Tương tự phương pháp MFCC, tín hiệu tiếng nói chia thành khung chuyển sang miền tần số thuật toán FFT Khối 2: Lọc theo thang tần số Bark Tín hiệu tiếng nói lọc qua lọc phân bố theo thang tần số phi tuyến, trường hợp thang tần số Bark: / ( )=6 1200 + 1200 +1 (4.18) Khối 3: Nhấn mạnh tín hiệu dùng hàm cân đường xong cân độ ồn (equal-loudnes) độ ồn (Equal-Loudnes).Bước tương tự nhấn mạnh (preemphasis) phương pháp MFCC.Hàm mô phỏng: ( )= ( ( + 56.8 ∗ 10 ) + 6.3 ∗ 10 )( + 9.58 ∗ 10 ) (4.19) Khối 4: Dùng luật cường độ nghe (Power Law of Hearing) Bước xử lý giống bước lấy giá trị logarit phương pháp MFCC Hàm lập phương dùng có dạng: ∅( ) = ( ) (4.20) Khối 5: Biến đổi Fourier ngược (Inverse DFT) Các hệ số tự tương quan biến đổi Fourier ngược giá trị đầu vào cho LPC Khối 6: Thuật toán Durbin Thuật tốn Durbin sử dụng để tính hệ số dự báo tuyến tính phương pháp LPC Khối 7: Tính giá trị delta Phương pháp tính tương tự phương pháp hệ số MFCC 4.3 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 4.3.1 API gì? API chữ viết tắc Application Programming Interface, tạm dịch tiếng Việt giao diện lập trình ứng dụng, phương thức kết nối với thư viện ứng dụng khác, giao diện mà hệ thống máy tính hay ứng dụng cung cấp 57 cho phép yêu cầu dịch vụ tạo từ chương trình máy tính khác, cho phép liệu trao đổi qua lại chúng Nói cách khác, API giống công cụ để xây dựng nên phần mềm, hay rộng phương thức giao tiếp thành phần khác phần mềm Chẳng hạn, chương trình máy tính dùng hàm API hệ điều hành để xin cấp phát nhớ truy xuất tập tin Nhiều loại hệ thống ứng dụng thực API, hệ thống đồ họa, sở liệu, mạng, dịch vụ web, số trò chơi máy tính Một trình ứng dụng sử dụng API để yêu cầu thi hành dịch vụ cấp thấp hệ điều hành máy tính thực Hệ giao tiếp lập trình ứng dụng giúp ích nhiều cho người sử dụng cho phép tiết kiệm nhiều thời gian tìm hiểu chương trình mới, khích lệ người dùng nhiều ứng dụng 4.3.2 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API Cloud Speech API thành phần dịch vụ tảng Paas (Platform as a Service) cung cấp Cloud Machine Learning Google Nền tảng Cloud Machine Learning Google bao gồm phần: cho phép nhà phát triển xây dựng mơ hình ML (Machine Learning) từ liệu riêng họ, cung cấp nhà phát triển mơ hình huấn luyện từ trước (pre-trained model) Mơ hình pre-trained bao gồm API có Google Translate API Cloud Vision API Google Cloud Speech API Cloud Speech API Google sử dụng cho ứng dụng tìm kiếm giọng nói kích hoạt giọng nói Đồng thời, Google cung cấp cho nhà phát triển tảng sử dụng Cloud Speech API cách ứng dụng họ.Với Google Cloud Speech API, nhà phát triển sử dụng khả nhận dạng giọng nói Google (hỗ trợ 110 ngơn ngữ biển thể) cho ứng dụng họ phát triển, hoạt động với ứng dụng thời gian thực batch mode Cloud Speech API sử dụng thuật toán mạng thần kinh học tiên tiến cho âm người dùng để nhận diện giọng nói nên có độ xác cao mơi trường có âm bị nhiễu 58 4.3.3 Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech API Q trình nhận dạng tiếng nói thực theo sơ đồ hình 4.11 Tiếng nói thu nhận nhờ microphone Trong phần thực nghiệm đề tài, microphone dùng microphone tích hợp Kinect phiên Microsoft Tín hiệu tiếng nói gửi lên máy chủ Google Tại đây, tín hiệu nói mã hố nhờ vào dịch vụ lưu trữ lưu Google Cloud Storage, áp dụng chuẩn mã hoá AES_128 bit Việc mã hoá thực cách tự động trước lưu trữ vào ổ đĩa máy chủ ảo đám may hãng Sau tín hiệu lưu trữ máy chủ áo, tín hiệu xử lý để nhận dạng chuyển đổi sang dạng chữ nhờ vào hệ thống Cloud Speech API Kết sau nhận dạng gởi trả lại cho người dung hiển thị màng hình dươi dạng văn bảng Tiếng nói Microphone Google Cloud Storage Gửi yêu cầu Google Computer Engine Cloud Speech API Nhận kết Hiển thị kết hình Hình 4.11: Sơ đồ nhận dạng tiếng nói dung Google Speech API 59 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ Để đánh giá hiệu phương pháp đề xuất việc nhận dạng ngôn ngữ ký hiệu theo hệ thống ngôn ngữ ký hiệu thành phố Hồ Chí Minh chuyển dịch sang ngơn ngữ nói, đề tài đươc tiến hành thực nghiệm nhận dạng mẫu đối thoại nhỏ gồm câu: Xin chào Bạn khoẻ không? Tơi khoẻ Bạn đâu đó? Tơi đến trường Chương trình nhận dạng ngơn ngữ ký hiệu chuyển dịch sang ngơn ngữ nói viết Visual Studio C# 2013 kết hợp với thư viện SDK Loại camera cảm biến chiều sâu sử dụng Kinect phiên Microsoft Tồn chương trình thực máy tính xách tay với cấu hình: CPU Intel i5 4210U, RAM 4G, sử dụng cổng giao tiếp chuẩn USB 3.0 5.1 Thực nghiệm Việc thực nghiệm tiến hành nhận dạng từ với số lần thực 50 lần điều kiện ánh sáng bình thường Bạn Tơi Xin chào Đi đến Trường học Khoẻ Đi đâu 60 5.2 Đánh giá Bảng 5.1 thể từ nhận dạng tỷ lệ xác trình nhận dạng với số lần thực 50 lần từ Từ nhận dạng Bạn Tỷ lệ xác 80% Tơi Xin chào Đi đến Đi đâu Trường học 75% 87% 90% 83% 85% Khoẻ 87% Bảng 5.1: Tỷ lệ nhận dạng xác từ Hình 5.1: Biểu đồ tỷ lệ nhận dạng xác từ Dựa vào biều đồ, nhận thấy chương trình với giải thuật nhận dạng cho kết tương đối ổn định Sự sai lệch tỷ lệ xác cao tỷ lệ xác thấp 15% Việc nhận dạng NNKH cho kết tương đối ổn định điều kiện nhận dạng với ánh sáng đủ Mặc khác, với thiết bị Kinect phiên 2, việc nhận dạng đươc thực điều kiện ảnh sáng thiếu nhờ vào camera hồng ngoại Tuy nhiên, trình nhận dạng xảy sai số nguyên nhân: trùng lắp cử chỉ; việc nhận dang khớp bàn tay bị nhiễu vùng nhận dạng toạ độ với vùng tìm kiếm 61 KẾT LUẬN Kết luận văn xây dựng thành cơng giải thuật nhận dạng vị trí cử bàn tay, đồng thời xây dựng chương trình nhận dạng giọng nói chuyển dịch sang dạng văn Các cơng việc thực luận văn: nghiên cứu đặc điểm cấu trúc ngữ pháp ngôn ngữ ký hiệu dùng làm sở cho việc nhận dạng; xây dựng giải thuật nhận dạng, truy bắt vị trí cử bàn tay; nhận dạng ngôn ngữ ký hiệu thể qua hai bàn tay, truy xuất đến liệu sở để chuyển dịch sang ngơn ngữ nói; nghiên cứu hệ thống chế phát âm người; nghiên cứu lý thuyết nhận dạng xử lý tiếng nói; xây dựng chương trình nhận dạng giọng nói dựa cơng cục Cloud Speech API Bước đầu tiến hành thực nghiệm với số từ ngôn ngữ ký hiệu chuyển dịch sang ngôn ngữ nói, đồng thời nhận dạng tiếng nói chuyển dịch sang văn Do thời gian thực luận văn hạn hẹp, nên chương trình nhận dạng ngơn ngữ ký hiệu chưa hồn chỉnh Bên cạnh việc nhận dạng tồn nhiều vấn đề cần giải tiếp theo: bị trùng cử chỉ; chưa xây được thư viện liệu sở; việc sử dụng cơng cụ Cloud Speech API để nhận dạng tiếng nói địi buộc hệ thống phải có kết nối internet Trong thời gian tới hướng nghiên cứu đề tài thực thực hiện: tối ưu hoá giải thuật nhận dạng ngôn ngữ ký hiệu; xây dựng thư viện liệu sở ngôn ngữ ký hiệu; tiến hành nghiên cứu xây dựng giải thuật nhận dạng chuyển hố ngơn ngữ nói sang ngơn ngữ ký hiệu video 62 TÀI LIỆU THAM KHẢO [1] Lệ Thị Hằng Đại cương khiếm thính Đại học sư phạm Đà Nẵng năm 2008, tr 3-6, 43 – 48 [2] Dự án Giáo dục Đại học cho người điếc Việt Nam, Ngơn ngữ kí hiệu thành phố Hồ Chí Minh, Nxb Văn hóa thơng tin, 2008, tr 5-8 [3] Yasir Niaz Khan, Syed Atif Mehdi Hand Glove To Translate Sign Language IJSTE - International Journal of Science Technology & Engineering Volume 2, Issue 9, March 2016, tr 359-362 [4] Dự án Giáo dục Đại học cho người điếc Việt Nam, Ngơn ngữ kí hiệu thành phố Hồ Chí Minh, Nxb Văn hóa thơng tin, 2008 [5] Cao Thị Mỹ Xn Q trình hình thành phát triển ngơn ngữ ký hiệu Tạp chí khoa học ĐHSP TPHCM, số 43 năm 2013, tr [6] A Lekova, D Ryan Fingers And Gesture Recognition With Kinect V2 Sensor International Conference AUTOMATICS AND INFORMATICS’2016 4-5 October 2016, Sofia, Bulgaria P 107-109 [7] Yi Li Hand Gesture Recognition Using Kinect Electronic Teses and Dissertations P 823 [8] Andrew Weinfield Gesture Recognition Using Microsoft’s Kinect v2 [9] Yoann Dieudonn´e, Shlomi Dolev, Franck Petit, Michael Segal Deaf, Dumb, and Chatting Robots, Enabling Distributed Computation and Fault-Tolerance Among Stigmergic Robot University of Lyon, France, 2009 [10] Rudra PK Poudel Real-time hand gesture recognition for small devices University of Sussex, UK, 2009 63 [11] H Duan and Y Luo, “A Gestures Trajectory Recognition Method Based on DTW”, Advances in Intelligent Systems Research, ISSN 1951-6851, Proc 2nd Int Conf on Comp Science&Elec.Eng 2013 [12] Mostafa Karbasi1, Zeeshan Bhatti1, Parham Nooralishahi, Asadullah Shah, Seyed Mohammad Reza Mazloomnezhad Real-Time Hands Detection in Depth Image by Using Distance with Kinect Camera International Journal of Internet of Things 2015 P.1-6 [13] Quách Tuấn Ngọc, “Xử lý tín hiệu số”, Nxb Giáo dục, 1995 [14] D.-K Mac, V Aubergé, A Rilliard, and E Castelli, “Cross-cultural perception of Vietnamese Audio-Visual prosodic attitudes,” Speech Prosody 2010, 2010 [15] Claudio Becchetti and Lucio Prina Ricotti, “Speech Theory & C++ Implementation”, Fondazione Ugo Bordoni, Rome, Italy John Wiley and Sons, LTD [16] Google Cloud Speech API Documentation Internet: https://cloud.google.com/speech/docs/, 15/06/2017 [17] Cloud Speech API is now generally available, Internet: https://cloudplatform.googleblog.com/2017/04/Cloud-Speech-API-is-now generally-available.html, 15/06/2017 [18] Discover the Strengths and Weaknesses of Google Cloud Speech API in this Special Report by Cloud Academy’s Roberto Turrin, Internet: https://cloudacademy.com/blog/first-steps-with-google-cloud-speech-api/, 15/06/2017 64 65 S K L 0 ... tài: "Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng cơng nghệ xử lý ảnh. " Vơi mục đích nghiên cứu cơng cụ khác nhằm hỗ trợ, tạo trực quan gần gũi việc giao tiếp người khiếm thính người bình... văn: ? ?Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh? ?? sản phẩm thực hướng dẫn PGS TS Nguyễn Trường Thịnh Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp lý Tơi... Thuật Cơ Điện Tử Tên luận văn: Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng cơng nghệ xử lý ảnh Ngày & nơi bảo vệ luận văn: 27/10/2017 ĐH Sư Phạm Kỹ Thuật Tp HCM Người hướng dẫn: PGS.TS Nguyễn

Ngày đăng: 20/09/2022, 10:31

Hình ảnh liên quan

Bảng 1.1: Phân loại và biểu hiện của khiếm thính - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Bảng 1.1.

Phân loại và biểu hiện của khiếm thính Xem tại trang 19 của tài liệu.
Hình 1.1: Truyền âm thanh qua xương sọ cho bệnh nhân bị khiếm thính - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 1.1.

Truyền âm thanh qua xương sọ cho bệnh nhân bị khiếm thính Xem tại trang 21 của tài liệu.
Hình 1.2: Phục hồi thính giác bằng các tái sinh tế bào lơng thính giác. - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 1.2.

Phục hồi thính giác bằng các tái sinh tế bào lơng thính giác Xem tại trang 22 của tài liệu.
Hình 1.3: Găng tay Enable Talk. - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 1.3.

Găng tay Enable Talk Xem tại trang 22 của tài liệu.
Hình 1.4: Sơ đồ hoạt động của robot hỗ trợ người khiếm thính: Chiều (1) ngôn ngữ ký hiệu  ngôn ngữ âm thanh;  - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 1.4.

Sơ đồ hoạt động của robot hỗ trợ người khiếm thính: Chiều (1) ngôn ngữ ký hiệu  ngôn ngữ âm thanh; Xem tại trang 24 của tài liệu.
Bảng 2.1: Bảng chữ cái của ngôn ngữ ký hiệu quốc tế. - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Bảng 2.1.

Bảng chữ cái của ngôn ngữ ký hiệu quốc tế Xem tại trang 28 của tài liệu.
Bảng 2.2: Bảng chữ cái ngôn ngữ ký hiệuViệt Nam - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Bảng 2.2.

Bảng chữ cái ngôn ngữ ký hiệuViệt Nam Xem tại trang 29 của tài liệu.
Bảng 2. 3: So sánh cấu trúc câu tiếng Việt và câu NNKH - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Bảng 2..

3: So sánh cấu trúc câu tiếng Việt và câu NNKH Xem tại trang 35 của tài liệu.
Hình 3.1: Hoạt động của của camera chiều sâu - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 3.1.

Hoạt động của của camera chiều sâu Xem tại trang 38 của tài liệu.
Trong hình 3.1, mối quan hệ hình học giữa cảm biến ảnh, bộ phát ánh sáng cấu trúc và tại một điểm trên bề mặt đối tượng được được thể hiện bởi nguyên lý tam  giác:   - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

rong.

hình 3.1, mối quan hệ hình học giữa cảm biến ảnh, bộ phát ánh sáng cấu trúc và tại một điểm trên bề mặt đối tượng được được thể hiện bởi nguyên lý tam giác: Xem tại trang 39 của tài liệu.
Hình 3.3: Dữ liệu chiều sâu được tính bằng khoảng cách từ cảm biến đến đối tượng. - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 3.3.

Dữ liệu chiều sâu được tính bằng khoảng cách từ cảm biến đến đối tượng Xem tại trang 40 của tài liệu.
Hình 3.4: Mơ hình động học của bàn tay. - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 3.4.

Mơ hình động học của bàn tay Xem tại trang 41 của tài liệu.
Hình 3.7: Đa giác bao quanh bàn tay trong khơng gian Euclide. - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 3.7.

Đa giác bao quanh bàn tay trong khơng gian Euclide Xem tại trang 48 của tài liệu.
Hình 3.6: Giới hạn vùng tìm kiếm bàn tay - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 3.6.

Giới hạn vùng tìm kiếm bàn tay Xem tại trang 48 của tài liệu.
3.4 Nhận dạng và định nghĩa cử chỉ bàn tay - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

3.4.

Nhận dạng và định nghĩa cử chỉ bàn tay Xem tại trang 50 của tài liệu.
Hình 3.11: So sánh độ chính xác giữ phương pháp Euclid và phương pháp DTW. (1)Tính bằng phương pháp Euclid; (2)Tính bằng phương pháp  - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 3.11.

So sánh độ chính xác giữ phương pháp Euclid và phương pháp DTW. (1)Tính bằng phương pháp Euclid; (2)Tính bằng phương pháp Xem tại trang 52 của tài liệu.
Hình 3.12: Ma trận lưới các điểm - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 3.12.

Ma trận lưới các điểm Xem tại trang 52 của tài liệu.
Hình 4.2: Tín hiệu tương tự và tín hiệu số tương ứng - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.2.

Tín hiệu tương tự và tín hiệu số tương ứng Xem tại trang 56 của tài liệu.
Hình 4.1: Bộ máy phát âm của con người - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.1.

Bộ máy phát âm của con người Xem tại trang 56 của tài liệu.
Hình 4.3: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.3.

Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói Xem tại trang 57 của tài liệu.
Hình 4.4: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.4.

Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học Xem tại trang 59 của tài liệu.
Hình 4.5: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp mẫu - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.5.

Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp mẫu Xem tại trang 60 của tài liệu.
Hình 4.6: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.6.

Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên Xem tại trang 62 của tài liệu.
Hình 4.7: Sơ đồ tính tốn các hệ số MFCC - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.7.

Sơ đồ tính tốn các hệ số MFCC Xem tại trang 65 của tài liệu.
Hình 4.9: Sơ đồ bộ xử lý LPC dùng trích chọn đặc trưng tiếng nói - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.9.

Sơ đồ bộ xử lý LPC dùng trích chọn đặc trưng tiếng nói Xem tại trang 69 của tài liệu.
Hình 4.10: Sơ đồ các bước xác định hệ số PLP - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hình 4.10.

Sơ đồ các bước xác định hệ số PLP Xem tại trang 70 của tài liệu.
Q trình nhận dạng tiếng nói được thực hiện theo sơ đồ hình 4.11. Tiếng nói được thu nhận nhờ một microphone - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

tr.

ình nhận dạng tiếng nói được thực hiện theo sơ đồ hình 4.11. Tiếng nói được thu nhận nhờ một microphone Xem tại trang 73 của tài liệu.
Bảng 5.1: Tỷ lệ nhận dạng chính xác của các từ - Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Bảng 5.1.

Tỷ lệ nhận dạng chính xác của các từ Xem tại trang 75 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan