Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

MỤC LỤC LÝ LỊCH KHOA HỌC .ii LỜI CAM ĐOAN iii LỜI CẢM ƠN iv ABSTRACT v MỤC LỤC vi DANH SÁCH CÁC CHỮ VIẾT TẮT viii DANH SÁCH CÁC HÌNH ix DANH SÁCH CÁC BẢNG xi Chương 1: TỔNG QUAN 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài 1.3 Tổng quan hoạt động robot hỗ trợ người khiếm thính 10 1.4 Nội dung nghiên cứu luận văn 11 Chương 2: TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU 13 2.1 Khiếm thính 13 2.2 Nguồn gốc lịch sử phát triển ngôn ngữ ký hiệu 15 2.3 Đặc điểm ngôn ngữ ký hiệu 19 2.4 Ngôn ngữ sống 20 2.5 Chuẩn hóa phổ biến ngôn ngữ ký hiệu 20 2.6 Một số điểm khác biệt cú pháp NNKH Việt Nam so với ngôn ngữ thông thường - tiếng Việt 21 Chương 3: NHẬN DẠNG NGÔN NGỮ KÝ HIỆU DỰA TRÊN XỬ LÝ ẢNH 23 3.1 Nguyên lý hoạt động camera cảm biến chiều sâu 23 3.2 Nhận dạng bàn tay dựa thông tin chiều sâu 27 3.3 Giải thuật nhận dạng 29 3.4 Nhận dạng định nghĩa cử bàn tay 36 Chương 4: NHẬN DẠNG TIẾNG NÓI 41 4.1 Hệ thống tiếng nói người 41 4.2 Cơ sơ lý thuyết xử lý nhận dạng tiếng nói 43 vi 4.2.1 Các thành phần hệ thống nhận dạng tiếng nói 43 4.2.2 Các phương pháp tiếp cận nhận dạng tiếng nói 44 4.2.3 Phát tiếng nói 49 4.2.4 Phương pháp trích chọn tham số đặc trưng tín hiệu tiếng nói 51 4.3 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 57 4.3.1 API gì? 57 4.3.2 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 58 4.3.3 API Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech ………………………………………………………………………… 59 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 60 5.1 Thực nghiệm 60 5.2 Đánh giá 61 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 vii DANH SÁCH CÁC CHỮ VIẾT TẮT NNKH Ngôn ngữ ký hiệu WHO World Heath Organization LĐ-TB-XH Lao động –thương binh – xã hội DTW Dynamic Time Wraping LPC Linear Predictive Coding HMM Hidden Markov Modle ANN Artificial Neural Network DFT Discrete Fouerier Transforms SE Short Energy ZCR Zero Crossing VAD Voice Activity Detector MFCC Mel-scale Frequency Cepstral Coefficient DCT Biến đổi Cosine rời rạc FFT Fast Fouerier Transforms API Application Programming Interface Paas Platform as a Service ML Machine Learning LPC Linear Predictive Coding viii DANH SÁCH CÁC HÌNH Hình 1.1: Truyền âm qua xương sọ cho bệnh nhân bị khiếm thính…………7 Hình 1.2: Phục hồi thính giác tái sinh tế bào lơng thính giác………… Hình 1.3: Găng tay Enable Talk……………………………………………………… Hình 1.4: Sơ đồ hoạt động robot hỗ trợ người khiếm thính………………….10 Hình 3.1: Hoạt động của camera chiều sâu……………………………………24 Hình 3.2: Mơ hình tính tốn ngun lý tam giác…………………… 25 Hình 3.3: Dữ liệu chiều sâu tính khoảng cách từ cảm biến đến đối tượng…………………………………………………………………………………… 26 Hình 3.4: Mơ hình động học bàn tay……………………………………………27 Hình 3.5: Sơ đồ giải thuật truy bắt bàn tay…………………………………… ….31 Hình 3.6: Giới hạn vùng tìm kiếm bàn tay………………………………………….34 Hình 3.7: Đa giác bao quanh bàn tay không gian Euclide……………… 35 Hình 3.8:Đoạn thẳng tỷ lệ vàng………………………………………………35 Hình 3.9 Các tỷ lệ vàng bàn tay người……………………………………….36 Hình 3.10: Các khớp ngón tay sau nhận dạng……………………………… 38 Hình 3.11: So sánh độ xác phương pháp Euclid DTW…………38 Hình 3.12: Ma trận lưới điểm………………………………………………….39 Hình 3.13: Hình dạng đường ma trận……………………………………….… 40 Hình 4.1: Bộ máy phát âm người………………………………………… 42 Hình 4.2: Tín hiệu tương tự tín hiệu số tương ứng………………………… .43 Hình 4.3: Các phần tử hệ thống nhận dạng tiếng nói…… … 45 Hình 4.4: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học……… 46 ix Hình 4.5: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp mẫu… …… 47 Hình 4.6: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ lên 48 Hình 4.7: Sơ đồ tính tốn hệ số MFCC………………………………………… 51 Hinh 4.8: Các băng lọc tam giác theo thang tần số Mel………………………… 53 Hình 4.9: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói…………… 55 Hình 4.10: Sơ đồ bước xác định hệ số PLP…………………………………… 56 Hình 4.11: Sơ đồ nhận dạng tiếng nói dung Google Speech API…….…… … 59 Hình 5.1: Biểu đồ tỷ lệ nhận dạng xác từ……………………… 61 x DANH SÁCH CÁC BẢNG Bảng 1.1: Phân loại biểu khiếm thính………………………………….…5 Bảng 2.1: Bảng chữ ngôn ngữ ký hiệu quốc tế…………………………….…14 Bảng 2.2: Bảng chữ ngôn ngữ ký hiệu Việt Nam…………………………………15 Bảng 2.3 : So sánh cấu trúc câu tiếng Việt câu NNKH……………………… …21 Bảng 3.1 : So sánh ưu nhược điểm hai loại thơng tin thu từ camera ảnh bình thường thông tin thu từ cảm biến chiều sâu………………………… 29 Bảng 5.1: Tỷ lệ nhận dạng xác từ…………………………………… 61 xi Chương 1: TỔNG QUAN 1.1 Giới thiệu đề tài Một giác quan giúp người giao tiếp với người khác, giúp tiếp thu nguồn tri thức nhân loại để sẻ chia điều sống thính giác Nếu người thiếu thính giác, thính giác hoạt động khơng tốt thiệt thịi lớn người Trong đó, phận người có khuyết tật thính giác lại chiếm phận không nhỏ cộng đồng nhân loại Vấn đề tình trạng người có khuyết tật thính giác lại thêm phức tạp lẽ khiếm thính có nhiều cấp độ biểu khác Bảng 1.1 đưới trình bày tổng quát phân loại biểu khiếm thính: Phân loại Biểu Khiếm thính tiếp nhận Tổn thương tai ngồi tai Khiếm thính dẫn truyền Tổn thương tai Khiếm thính hỗn hợp Tổn thương tai ngồi, tai tai Khiếm thính tai trung ương Dây thần kinh số 8, tổn thương não Nghe nhẹ Khơng nghe tiếng nói nhỏ Khó nghe tiếng nói nơi ồn Nghe trung bình Nghe tiếng nói nhỏ, tiếng nói bình thường Rất khó nghe tiếng nói nơi ồn Nghe nặng Khơng nghe tiếng nói lớn Các nói chuyện thực khó khăn với nhiều nỗ lực Nghe sâu Không nghe hét vào tai, không sử dụng thiết bị trợ thính khơng thể nghe Điếc Hồn tồn khơng nghe cho dù có dung thiết bị trợ thính Bảng 1.1: Phân loại biểu khiếm thính Hiện nay, theo thống kê Tổ Chức Y Tế Thế Giới (WHO), giới có khoảng 278 triệu người câm điếc dạng, chiếm 4,5% dân số giới Hầu hết số họ có mức sống trung bình trung bình rào cản ngôn ngữ [1] Ở Việt Nam, theo thống kê LĐ-TB-XH, Việt Nam có khoảng triệu người câm điếc dạng, chiếm khoảng 13,5% dân số Trong có khoảng 400 ngàn người độ tuổi học [1] Riêng thành phố Hồ Chí Minh, theo thống kê LĐ –TB – XH vào năm 2006, số người khiếm thính khoảng 3.550 người, số lượng người thơng dịch khơng q 20 người, người thơng dịch hội nghị quốc tế không người [2] Những năm gần đây, việc hoà nhập người khiếm thính dạng cải thiện nhờ trợ giúp y học, thiết bị công nghệ Sự phát triển dần đến thống ngôn ngữ ký hiệu tạo thêm nhiều thuận lợi cho người khiếm thính giao tiếp ngày Tuy nhiên, hỗ trợ chưa thể giải rốt vấn đề người khiếm thính, mà giải phần mà thơi Bởi vì, tình trạng khiếm tính có nhiều cấp độ khác nên phương pháp áp dụng phải khác thương cụ thể cho trường hợp định Chẳng hạn, người bị tổn thương tai chữa trị phương pháp y học để giúp hồi phục thính giác Hoặc người có thính giác kém, nghe nghe khơng tốt hỗ trợ việc nghe nhờ thiết bị trợ thính Như thế, tuỳ trường hợp cụ thể mà có phương pháp phù hợp định riêng Cịn người có thính giác hẳn mà thường gọi điếc cơng cụ giúp họ giao tiếp ngơn ngữ ký hiệu Chính điều gây trở ngại nhiều giao tiếp ngày người điếc người bình thường Bởi lẽ, ngơn ngữ ký hiệu đa phần người bình thường khơng biết sử dụng hạn chế Gần có số cơng trình nghiên cứu nhằm hỗ trợ người khả thính giác Các cơng trình kể như: Nghiên cứu truyền âm qua xương sọ cho bệnh nhân bị khiếm thính Các nhà nghiên cứu đến từ đại học công nghệ Chalmers, Thuỵ Điển phát triển thành công thiết bị cấy ghép giúp truyền âm vào tai cách gởi rung động trực tiếp qua xương sọ thay tai Qua đó, bệnh nhân bị điếc vấn đề liên quan đến tai có hội lấy lại thính giác Thiết bị cấy ghép Bone Conduction Implant (BCI) có kích thước cm chiều dài gắn khu vực phía sau tai, da, bề mặt xương sọ Thiết bị kết nối với xử lý âm bên ngồi có nhiệm vụ thu nhận tiếng động xung quanh Bộ phận đặt da, cạnh thiết bị cấy ghép giữ cố định nhờ nam châm tích hợp thiết bị Âm từ xử lý truyền qua da thiết bị cấy ghép tiếp nhận nhờ cuộn cảm ứng Thiết bị sau sử dụng loa khuếch đại mini để chuyển tiếp rung động âm vào xương sọ từ âm vào tai Hình 1.1: Truyền âm qua xương sọ cho bệnh nhân bị khiếm thính Cơng trình nghiên cứu phục hồi thính lực cách tái sinh tế bào lơng thính giác chuyên gia từ bệnh viện mắt tai Massachusetts trường y khoa Harvard Các nhà nghiên cứu kích thích tế bào lơng thính giác thành tế bào mới, dẫn đến phục hồi phần thính lực chuột bị tai tổn thương tai chấn thương tiếng ồn Tế bào lơng thính giác nằm ốc tai chịu trách nhiệm chuyển kích thích thính giác thành tín hiệu điện, tế bào bị tổn thương tiếng ồn mức, nhiễm trùng, độc tố hay số kháng sinh thuốc ung thư, chúng tái sinh cách tự nhiên Các bào lông bị thay tế bào lông sau điều trị thuốc phân tích vị trí chúng giúp cải thiện tính giác vùng tế bào lơng thay Hình 1.2: Phục hồi thính giác tái sinh tế bào lơng thính giác Một nhóm nghiên cứu đến từ Ukraina nghiên cứu găng tay biết chuyển đổi ngôn ngữ ký hiệu thành lời nói hồn chỉnh Enable Talk Enable Talk có hình dáng giống đơi găng tay thơng thường, gắn thêm nhiều cảm biến, quay hồi chuyển (Gyroscope), cảm biến gia tốc (Accelerometer) số viên pin lượng mặt trời Hệ thống có tính dịch ngôn ngữ ký hiệu thành dạng văn bản, sau thành lời nói sử dụng cơng nghệ Text-to-Speech [3] Hình 1.3: Găng tay Enable Talk cường độ tín hiệu mơ tả bởi: sgn[x(n+1)] ≠ sgn[x(n)] Trong đó: sgn(x) hàm dấu Năng lượng đại lượng dùng để xác định vùng chứa âm hữu thanh, vô Nhưng hàm lượng thường nhạy cảm với nhiễu Do vậy, người ta thường sử dụng hàm giả lượng tính tốn Hàm giả lượng xác định bởi: ( )= | ( ) ( − 1)| (4.3) Trong đó: ( ) : hàm giả lượng, N: kích thước khung cửa sổ Tỷ lệ vượt điểm không ZCR Nhận thấy khung có lượng cao tỷ lệ vượt điểm không thấp ngược lại Như vậy, tỷ lệ vượt điểm không đại lượng đặc trưng cho tần số tín hiệu tiếng nói Ở đây, cần xác định tham số ngưỡng cho hàm giả lượng với hai ngưỡng và ngưỡng tỷ lệ vượt điểm không Kí hiệu: E up : ngưỡng lượng (cao); Edown : ngưỡng lượng (thấp); ZCR _ T : ngưỡng tỷ lệ vượt điểm không c Phát tiếng nói dựa lượng phổ ngắn hạn Ý tưởng phương pháp sử dụng điều khiển dị biên tiếng nói VAD (Voice Activity Detector) dựa việc xác định lượng phổ ngắn hạn fE khung tín hiệu tiếng nói VAD dùng để xác định khung chứa tín hiệu tiếng nói hay nhiễu Hàm đầu VAD khung thứ m v [m] Với khung chứa tiếng nói (có thể nhiễu) v[m]=1, ngược lại khung chứa nhiễu v [m]=0 50 4.2.4 Phương pháp trích chọn tham số đặc trưng tín hiệu tiếng nói Trích chọn tham số đặc trưng bước có ý nghĩa định tới kết chương trình nhận dạng tiếng nói Có nhiều phương pháp trích chọn tham số đặc trưng nhìn chung phương pháp dựa hai chế: mô lại trình cảm nhận âm tai người mơ lại trình tạo âm quan phát âm a Phân tích cepstral theo thang đo Mel Phương pháp tính hệ số MFCC (Mel-scale Frequency Cepstral Coefficient) phương pháp trích chọn tham số tiếng nói sử dụng rộng rãi tính hiệu thơng qua phân tích cepstral theo thang đo Mel Phương pháp xây dựng dựa cảm nhận tai người dải tần số khác Với tần số thấp (dưới kHz), độ cảm nhận tai người tuyến tính Đối với tần số cao, độ biến thiên tuân theo hàm logarit Các băng lọc tuyến tính tần số thấp biến thiên theo hàm logarit tần số cao sử dụng để trích chọn đặc trưng âm học quan trọng tiếng nói Mơ hình tính tốn hệ số MFCC ( ) mô tả hình 4.7 s(n) ( ) N… M Bộ lọc/ Hiệu chỉnh ~ ( ) Phân khung ( ) Lấy cửa sổ ~ ( ) FFT ( ) phổ ^ ( ) ∆ Đạo hàm theo thời gian ~ ( ) Gắn trọng số DTC Các băng lọc tam ( ) Hình 4.7: Sơ đồ tính tốn hệ số MFCC Ý nghĩa phương pháp xác định tham số khối sơ đồ mô tả sau: Khối 1: Bộ lọc hiệu chỉnh (Preemphasis) 51 Tín hiệu tiếng nói s(n) đưa qua lọc số bậc thấp để phổ đồng hơn, giảm ảnh hưởng gây cho xử lý tín hiệu sau Thường lọc cố định bậc một, có dạng: H(z) = 1- az 1− 0.9≤ a≤ 1.0 (4.4) Quan hệ tín hiệu với tín hiệu vào tuân theo phương trình ̃ ( ) = ( ) = ( − 1) (4.5) Giá trị a thường chọn 0.97 Khối 2: Phân khung (Frame Blocking) Trong khối tín hiệu hiệu chỉnh s(n) phân thành khung, khung có N mẫu; hai khung kề lệch M mẫu Khung chứa N mẫu, khung thứ hai bắt đầu chậm khung thứ M mẫu chồng lên khung thứ N-M mẫu Tương tự, khung thứ ba chậm khung thứ 2M mẫu (chậm khung thứ hai M mẫu) chờm lên khung thứ N-2M mẫu Quá trình tiếp tục tất mẫu tiếng nói cần phân tích thuộc nhiều khung Khối 3: Lấy cửa sổ (Windowing) Bước lấy cửa sổ cho khung riêng rẽ nhằm giảm gián đoạn tín hiệu tiếng nói đầu cuối khung Nếu w(n), ≤ n ≤ N-1, sau lấy cửa sổ được: ( )= ( ) ( ); 0≤ ≤ −1 (4.6) Thông thường, sổ Hamming sử dụng Cửa sổ có dạng: ( ) = 0.54 − 0.46cos( ); 0≤ ≤ −1 (4.7) Khối 4: Biến đổi Fourier rời rạc (FFT) Tác dụng FFT chuyển đổi khung với N mẫu từ miền thời gian sang miền tần số FFT thuật tốn tính DFT nhanh DFT xác định: ( )=∑ ( ) Khối 5: Biến đổi sang thang đo Mel miền tần số 52 (4.8) Như nói trên, tai người khơng cảm nhận thay đổi tần số tiếng nói tuyến tính mà theo thang Mel Người ta chọn số 1kHz, 40 dB ngưỡng nghe 1000 Mel Do đó, cơng thức gần biểu diễn quan hệ tần số thang Mel thang tuyến tính sau: ( ) = 2595 ∗ lg(1 + 700 ) tần số m1 mi Năng lượngtrên dãi tần số Tần số mel Hinh 4.8: Các băng lọc tam giác theo thang tần số Mel Một phương pháp để chuyển đổi sang thang Mel sử dụng băng lọc, lọc có đáp ứng tần số dạng tam giác Số băng lọc sử dụng thường 20 băng Thông thường, người ta chọn tần số từ dến Fs/2 (Fs tần số lấy mẫu tiếng nói) Sau tính FFT ta thu phổ tín hiệu (fn) Thực chất dãy lượng ( ) = ⌈ ( )⌉ Cho W(n) qua dãy K băng lọc dạng tam giác, ta dãy Tính tổng dãy ( ) băng lọc, ta thu dãy hệ số mk = (k=1,2,…,K) Khối 6: Biến đổi Cosine rời rạc (DCT) Trong bước ta chuyển log giá trị mk miền thời gian cách biến đổi Cosine rời rạc (DCT) Kết phép biến đổi ta thu hệ số MFCC 53 = ln ( − 0.5) ; = 1,2 … ; (4.9) Thơng thường, có số giá trị ic sử dụng Trong ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC thêm hệ số lượng khung sau chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như tổng cộng có Q=13 hệ số) Khối 7: Cepstral có trọng số Vì độ nhạy hệ số cepstral bậc thấp làm cho phổ toàn bị đổ dốc, độ nhạy cepstral bậc cao gây nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểu hóa độ nhạy Cơng thức biểu diễn hệ số cepstral có trọng số: ̂ = 1+ ;1 ≤ ≤ (4.10) Khối 8: Lấy đạo hàm hệ số MFCC theo thời gian Để nâng cao chất lượng nhận dạng, người ta đưa thêm giá trị đạo hàm theo thời gian giá trị hệ số MFCC vào vector hệ số tiếng nói Các giá trị tính theo: Δ ̂ = ∑ ( ̂ 2∑ − ̂ ) ; 1≤ ≤ ; (4.11) Trong đó: θ độ dài cửa sổ tính delta (thường chọn 3) Kết thúc bước với khung ta thu vector có 2Q thành phần biểu diễn tham số đặc trưng tiếng nói Phương pháp mã dự đốn tuyến tính LPC Mơ hình LPC sử dụng để trích lọc tham số đặc trưng tín hiệu tiếng nói Kết q trình phân tích tín hiệu thu chuỗi gồm khung tiếng nói Các khung biến đổi nhằm sử dụng cho việc phân tích âm học 54 Nội dung phân tích dự báo tuyến tính là: mẫu tiếng nói xấp xỉ tổ hợp tuyến tính mẫu trước Thơng qua việc tối thiểu hóa tổng bình phương sai số mẫu với mẫu dự đốn xác định tập hệ số dự báo Các hệ số s(n) dự báo trọng số sử dụng tổ hợp tuyến tính Với dãy tín hiệu tiếng nói,giá trị dự báo xác định bởi: ̃( ) = ( − ) (4.12) Trong đó: αk: hệ số đặc trưng cho hệ thống ( ) Làm rõ tín hiệu ∆ ̅ ( ) Lấy đạo hàm ̃( ) Phân đoạn khung Đặt trọng ( ) ̅ ( ) ( ) Lấy cửa sổ Phân tích tự tương ( ) ( ) Phân tích LPC Chuyển đổi tham số LPC ( ) Hình 4.9: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói Hàm sai số dự báo tính theo cơng thức: ( ) = ( ) − ̃( ) = ( ) − ( − ) (4.13) Để cực tiểu hóa lỗi cần tìm tập giá trị {αk} phù hợp Do tín hiệu tiếng nói thay đổi theo thời gian nên hệ số dự báo phải ước lượng từ đoạn tín hiệu ngắn Vấn đề đặt tìm tập hệ số dự báo để tối thiểu hóa sai số trung bình đoạn ngắn Hàm lỗi dự báo thời gian ngắn xác định bởi: =∑ ( ) =∑ ( )−∑ 55 ( − ) (4.14) Trong đó: sn(m) : đoạn tín hiệu tiếng nói lân cận mẫu thứ n; Tìm tập giá trị α k để tối thiểu hóa E cách / = với I =1,2,…,p từ nhận phương trình: ( − ) ( )= ( − ) ( − ) (4.15) Đặt: ∅ (, )= ( − ) ( − ) (4.16) Phương trình viết: ∅ ( , 0) = ∅ (, ) = 1,2, … , ; (4.17) Phương pháp PLP Phương pháp kết hợp hai phương pháp trình bày Tiếng nói FFT Lọc tần số Bark Luật cường độ nghe Hệ số PLP Tính giá trị Nhấn mạnh tín hiệu Thuật tốn Durbin Biến đổi Fourier ngược Hình 4.10: Sơ đồ bước xác định hệ số PLP 56 Khối 1: Biến đổi Fourier nhanh (FFT) Tương tự phương pháp MFCC, tín hiệu tiếng nói chia thành khung chuyển sang miền tần số thuật toán FFT Khối 2: Lọc theo thang tần số Bark Tín hiệu tiếng nói lọc qua lọc phân bố theo thang tần số phi tuyến, trường hợp thang tần số Bark: / ( )=6 1200 + 1200 +1 (4.18) Khối 3: Nhấn mạnh tín hiệu dùng hàm cân đường xong cân độ ồn (equal-loudnes) độ ồn (Equal-Loudnes).Bước tương tự nhấn mạnh (preemphasis) phương pháp MFCC.Hàm mô phỏng: ( )= ( ( + 56.8 ∗ 10 ) + 6.3 ∗ 10 )( + 9.58 ∗ 10 ) (4.19) Khối 4: Dùng luật cường độ nghe (Power Law of Hearing) Bước xử lý giống bước lấy giá trị logarit phương pháp MFCC Hàm lập phương dùng có dạng: ∅( ) = ( ) (4.20) Khối 5: Biến đổi Fourier ngược (Inverse DFT) Các hệ số tự tương quan biến đổi Fourier ngược giá trị đầu vào cho LPC Khối 6: Thuật toán Durbin Thuật tốn Durbin sử dụng để tính hệ số dự báo tuyến tính phương pháp LPC Khối 7: Tính giá trị delta Phương pháp tính tương tự phương pháp hệ số MFCC 4.3 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 4.3.1 API gì? API chữ viết tắc Application Programming Interface, tạm dịch tiếng Việt giao diện lập trình ứng dụng, phương thức kết nối với thư viện ứng dụng khác, giao diện mà hệ thống máy tính hay ứng dụng cung cấp 57 cho phép yêu cầu dịch vụ tạo từ chương trình máy tính khác, cho phép liệu trao đổi qua lại chúng Nói cách khác, API giống công cụ để xây dựng nên phần mềm, hay rộng phương thức giao tiếp thành phần khác phần mềm Chẳng hạn, chương trình máy tính dùng hàm API hệ điều hành để xin cấp phát nhớ truy xuất tập tin Nhiều loại hệ thống ứng dụng thực API, hệ thống đồ họa, sở liệu, mạng, dịch vụ web, số trò chơi máy tính Một trình ứng dụng sử dụng API để yêu cầu thi hành dịch vụ cấp thấp hệ điều hành máy tính thực Hệ giao tiếp lập trình ứng dụng giúp ích nhiều cho người sử dụng cho phép tiết kiệm nhiều thời gian tìm hiểu chương trình mới, khích lệ người dùng nhiều ứng dụng 4.3.2 Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API Cloud Speech API thành phần dịch vụ tảng Paas (Platform as a Service) cung cấp Cloud Machine Learning Google Nền tảng Cloud Machine Learning Google bao gồm phần: cho phép nhà phát triển xây dựng mơ hình ML (Machine Learning) từ liệu riêng họ, cung cấp nhà phát triển mơ hình huấn luyện từ trước (pre-trained model) Mơ hình pre-trained bao gồm API có Google Translate API Cloud Vision API Google Cloud Speech API Cloud Speech API Google sử dụng cho ứng dụng tìm kiếm giọng nói kích hoạt giọng nói Đồng thời, Google cung cấp cho nhà phát triển tảng sử dụng Cloud Speech API cách ứng dụng họ.Với Google Cloud Speech API, nhà phát triển sử dụng khả nhận dạng giọng nói Google (hỗ trợ 110 ngơn ngữ biển thể) cho ứng dụng họ phát triển, hoạt động với ứng dụng thời gian thực batch mode Cloud Speech API sử dụng thuật toán mạng thần kinh học tiên tiến cho âm người dùng để nhận diện giọng nói nên có độ xác cao mơi trường có âm bị nhiễu 58 4.3.3 Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech API Q trình nhận dạng tiếng nói thực theo sơ đồ hình 4.11 Tiếng nói thu nhận nhờ microphone Trong phần thực nghiệm đề tài, microphone dùng microphone tích hợp Kinect phiên Microsoft Tín hiệu tiếng nói gửi lên máy chủ Google Tại đây, tín hiệu nói mã hố nhờ vào dịch vụ lưu trữ lưu Google Cloud Storage, áp dụng chuẩn mã hoá AES_128 bit Việc mã hoá thực cách tự động trước lưu trữ vào ổ đĩa máy chủ ảo đám may hãng Sau tín hiệu lưu trữ máy chủ áo, tín hiệu xử lý để nhận dạng chuyển đổi sang dạng chữ nhờ vào hệ thống Cloud Speech API Kết sau nhận dạng gởi trả lại cho người dung hiển thị màng hình dươi dạng văn bảng Tiếng nói Microphone Google Cloud Storage Gửi yêu cầu Google Computer Engine Cloud Speech API Nhận kết Hiển thị kết hình Hình 4.11: Sơ đồ nhận dạng tiếng nói dung Google Speech API 59 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ Để đánh giá hiệu phương pháp đề xuất việc nhận dạng ngôn ngữ ký hiệu theo hệ thống ngôn ngữ ký hiệu thành phố Hồ Chí Minh chuyển dịch sang ngơn ngữ nói, đề tài đươc tiến hành thực nghiệm nhận dạng mẫu đối thoại nhỏ gồm câu: Xin chào Bạn khoẻ không? Tơi khoẻ Bạn đâu đó? Tơi đến trường Chương trình nhận dạng ngơn ngữ ký hiệu chuyển dịch sang ngơn ngữ nói viết Visual Studio C# 2013 kết hợp với thư viện SDK Loại camera cảm biến chiều sâu sử dụng Kinect phiên Microsoft Tồn chương trình thực máy tính xách tay với cấu hình: CPU Intel i5 4210U, RAM 4G, sử dụng cổng giao tiếp chuẩn USB 3.0 5.1 Thực nghiệm Việc thực nghiệm tiến hành nhận dạng từ với số lần thực 50 lần điều kiện ánh sáng bình thường Bạn Tơi Xin chào Đi đến Trường học Khoẻ Đi đâu 60 5.2 Đánh giá Bảng 5.1 thể từ nhận dạng tỷ lệ xác trình nhận dạng với số lần thực 50 lần từ Từ nhận dạng Bạn Tỷ lệ xác 80% Tơi Xin chào Đi đến Đi đâu Trường học 75% 87% 90% 83% 85% Khoẻ 87% Bảng 5.1: Tỷ lệ nhận dạng xác từ Hình 5.1: Biểu đồ tỷ lệ nhận dạng xác từ Dựa vào biều đồ, nhận thấy chương trình với giải thuật nhận dạng cho kết tương đối ổn định Sự sai lệch tỷ lệ xác cao tỷ lệ xác thấp 15% Việc nhận dạng NNKH cho kết tương đối ổn định điều kiện nhận dạng với ánh sáng đủ Mặc khác, với thiết bị Kinect phiên 2, việc nhận dạng đươc thực điều kiện ảnh sáng thiếu nhờ vào camera hồng ngoại Tuy nhiên, trình nhận dạng xảy sai số nguyên nhân: trùng lắp cử chỉ; việc nhận dang khớp bàn tay bị nhiễu vùng nhận dạng toạ độ với vùng tìm kiếm 61 KẾT LUẬN Kết luận văn xây dựng thành cơng giải thuật nhận dạng vị trí cử bàn tay, đồng thời xây dựng chương trình nhận dạng giọng nói chuyển dịch sang dạng văn Các cơng việc thực luận văn: nghiên cứu đặc điểm cấu trúc ngữ pháp ngôn ngữ ký hiệu dùng làm sở cho việc nhận dạng; xây dựng giải thuật nhận dạng, truy bắt vị trí cử bàn tay; nhận dạng ngôn ngữ ký hiệu thể qua hai bàn tay, truy xuất đến liệu sở để chuyển dịch sang ngơn ngữ nói; nghiên cứu hệ thống chế phát âm người; nghiên cứu lý thuyết nhận dạng xử lý tiếng nói; xây dựng chương trình nhận dạng giọng nói dựa cơng cục Cloud Speech API Bước đầu tiến hành thực nghiệm với số từ ngôn ngữ ký hiệu chuyển dịch sang ngôn ngữ nói, đồng thời nhận dạng tiếng nói chuyển dịch sang văn Do thời gian thực luận văn hạn hẹp, nên chương trình nhận dạng ngơn ngữ ký hiệu chưa hồn chỉnh Bên cạnh việc nhận dạng tồn nhiều vấn đề cần giải tiếp theo: bị trùng cử chỉ; chưa xây được thư viện liệu sở; việc sử dụng cơng cụ Cloud Speech API để nhận dạng tiếng nói địi buộc hệ thống phải có kết nối internet Trong thời gian tới hướng nghiên cứu đề tài thực thực hiện: tối ưu hoá giải thuật nhận dạng ngôn ngữ ký hiệu; xây dựng thư viện liệu sở ngôn ngữ ký hiệu; tiến hành nghiên cứu xây dựng giải thuật nhận dạng chuyển hố ngơn ngữ nói sang ngơn ngữ ký hiệu video 62 TÀI LIỆU THAM KHẢO [1] Lệ Thị Hằng Đại cương khiếm thính Đại học sư phạm Đà Nẵng năm 2008, tr 3-6, 43 – 48 [2] Dự án Giáo dục Đại học cho người điếc Việt Nam, Ngơn ngữ kí hiệu thành phố Hồ Chí Minh, Nxb Văn hóa thơng tin, 2008, tr 5-8 [3] Yasir Niaz Khan, Syed Atif Mehdi Hand Glove To Translate Sign Language IJSTE - International Journal of Science Technology & Engineering Volume 2, Issue 9, March 2016, tr 359-362 [4] Dự án Giáo dục Đại học cho người điếc Việt Nam, Ngơn ngữ kí hiệu thành phố Hồ Chí Minh, Nxb Văn hóa thơng tin, 2008 [5] Cao Thị Mỹ Xn Q trình hình thành phát triển ngơn ngữ ký hiệu Tạp chí khoa học ĐHSP TPHCM, số 43 năm 2013, tr [6] A Lekova, D Ryan Fingers And Gesture Recognition With Kinect V2 Sensor International Conference AUTOMATICS AND INFORMATICS’2016 4-5 October 2016, Sofia, Bulgaria P 107-109 [7] Yi Li Hand Gesture Recognition Using Kinect Electronic Teses and Dissertations P 823 [8] Andrew Weinfield Gesture Recognition Using Microsoft’s Kinect v2 [9] Yoann Dieudonn´e, Shlomi Dolev, Franck Petit, Michael Segal Deaf, Dumb, and Chatting Robots, Enabling Distributed Computation and Fault-Tolerance Among Stigmergic Robot University of Lyon, France, 2009 [10] Rudra PK Poudel Real-time hand gesture recognition for small devices University of Sussex, UK, 2009 63 [11] H Duan and Y Luo, “A Gestures Trajectory Recognition Method Based on DTW”, Advances in Intelligent Systems Research, ISSN 1951-6851, Proc 2nd Int Conf on Comp Science&Elec.Eng 2013 [12] Mostafa Karbasi1, Zeeshan Bhatti1, Parham Nooralishahi, Asadullah Shah, Seyed Mohammad Reza Mazloomnezhad Real-Time Hands Detection in Depth Image by Using Distance with Kinect Camera International Journal of Internet of Things 2015 P.1-6 [13] Quách Tuấn Ngọc, “Xử lý tín hiệu số”, Nxb Giáo dục, 1995 [14] D.-K Mac, V Aubergé, A Rilliard, and E Castelli, “Cross-cultural perception of Vietnamese Audio-Visual prosodic attitudes,” Speech Prosody 2010, 2010 [15] Claudio Becchetti and Lucio Prina Ricotti, “Speech Theory & C++ Implementation”, Fondazione Ugo Bordoni, Rome, Italy John Wiley and Sons, LTD [16] Google Cloud Speech API Documentation Internet: https://cloud.google.com/speech/docs/, 15/06/2017 [17] Cloud Speech API is now generally available, Internet: https://cloudplatform.googleblog.com/2017/04/Cloud-Speech-API-is-now generally-available.html, 15/06/2017 [18] Discover the Strengths and Weaknesses of Google Cloud Speech API in this Special Report by Cloud Academy’s Roberto Turrin, Internet: https://cloudacademy.com/blog/first-steps-with-google-cloud-speech-api/, 15/06/2017 64 ... tài: "Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng cơng nghệ xử lý ảnh. " Vơi mục đích nghiên cứu cơng cụ khác nhằm hỗ trợ, tạo trực quan gần gũi việc giao tiếp người khiếm thính người bình... tay Những nghiên cứu thật mở hội cho người khiếm thính Tuy vậy, đề tài tiến trình nghiên cứu có giới hạn riêng Nghiên cứu thiết bị truyền qua xương sọ bệnh nhân khiếm thính áp dụng cho người có... động robot hỗ trợ người khiếm thính Để thực vài trị chuyển dịch từ ngơn ngữ ký hiệu sang ngơn ngữ nói ngược lại, robot hỗ trợ người khiếm thính có hai nhiệm vụ là: nhận diện ngơn ngữ ký hiệu từ người

Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Hệ thống tiếng nói của con người

Sơ đồ tính tốn các hệ số MFCC