Sơ đồ các bước xác định hệ số PLP

FFT Lọc tần số Bark Nhấn mạnh tín hiệu Luật cường độ nghe Biến đổi Fourier ngược Thuật tốn Durbin Tính các giá trị Hệ số PLP Tiếng nói (4.15) (4.16) (4.17)

Khối 1: Biến đổi Fourier nhanh (FFT). Tương tự như phương pháp MFCC, tín hiệu tiếng nói được chia thành các khung và được chuyển sang miền tần số bằng thuật toán FFT.

Khối 2: Lọc theo thang tần số Bark. Tín hiệu tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong trường hợp này là thang tần số Bark:

( ) = 6

1200+ 1200 + 1 /

Khối 3: Nhấn mạnh tín hiệu dùng hàm cân bằng đường xong cân bằng độ ồn (equal-loudnes) bằng độ ồn (Equal-Loudnes).Bước này tương tự nhấn mạnh (preemphasis) của phương pháp MFCC.Hàm này mô phỏng:

( ) = ( + 56.8 ∗ 10 )

( + 6.3 ∗ 10 )( + 9.58 ∗ 10 )

Khối 4: Dùng luật cường độ nghe (Power Law of Hearing). Bước xử lý này giống như bước lấy giá trị logarit trong phương pháp MFCC. Hàm căn lập phương được dùng có dạng:

∅( ) = ( ) .

Khối 5: Biến đổi Fourier ngược (Inverse DFT). Các hệ số tự tương quan được biến đổi Fourier ngược là giá trị đầu vào cho LPC.

Khối 6: Thuật tốn Durbin. Thuật tốn Durbin được sử dụng để tính các hệ số dự báo tuyến tính như phương pháp LPC.

Khối 7: Tính các giá trị delta. Phương pháp tính tương tự như phương pháp hệ số MFCC.

4.3. Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API 4.3.1. API là gì? 4.3.1. API là gì?

API là chữ viết tắc của Application Programming Interface, tạm dịch trong tiếng Việt là giao diện lập trình ứng dụng, là phương thức kết nối với các thư viện và ứng dụng khác, là một giao diện mà một hệ thống máy tính hay ứng dụng cung cấp

(4.18)

(4.19)

cho phép các yêu cầu dịch vụ có thể được tạo ra từ các chương trình máy tính khác, hoặc cho phép dữ liệu có thể được trao đổi qua lại giữa chúng. Nói cách khác, API giống như một bộ công cụ để xây dựng nên phần mềm, hay rộng hơn là những phương thức giao tiếp giữa các thành phần khác nhau của phần mềm. Chẳng hạn, một chương trình máy tính có thể dùng các hàm API của hệ điều hành để xin cấp phát bộ nhớ và truy xuất tập tin. Nhiều loại hệ thống và ứng dụng hiện thực API, như các hệ thống đồ họa, cơ sở dữ liệu, mạng, dịch vụ web, và ngay cả một số trị chơi máy tính. Một trình ứng dụng có thể sử dụng API để yêu cầu và thi hành các dịch vụ cấp thấp do hệ điều hành của máy tính thực hiện. Hệ giao tiếp lập trình ứng dụng giúp ích rất nhiều cho người sử dụng vì nó cho phép tiết kiệm được nhiều thời gian tìm hiểu các chương trình mới, do đó khích lệ mọi người dùng nhiều ứng dụng hơn.

4.3.2. Nhận dạng tiếng nói sử dụng công cụ Google cloud speech API

Cloud Speech API là một thành phần của dịch vụ nền tảng Paas (Platform as a Service) được cung cấp bởi Cloud Machine Learning của Google. Nền tảng Cloud Machine Learning của Google về cơ bản bao gồm 2 phần: một là cho phép các nhà phát triển xây dựng mơ hình ML (Machine Learning) từ dữ liệu riêng của họ, và 2 là cung cấp các nhà phát triển một mơ hình được huấn luyện từ trước (pre-trained model). Mơ hình pre-trained bao gồm các API hiện có như Google Translate API và Cloud Vision API và Google Cloud Speech API.

Cloud Speech API được Google sử dụng cho các ứng dụng tìm kiếm bằng giọng nói và kích hoạt bằng giọng nói. Đồng thời, Google cũng cung cấp cho các nhà phát triển nền tảng có thể sử dụng Cloud Speech API trong cách ứng dụng của họ.Với Google Cloud Speech API, các nhà phát triển có thể sử dụng khả năng nhận dạng giọng nói của Google (hỗ trợ hơn 110 ngôn ngữ và biển thể) cho bất kỳ ứng dụng nào họ đang phát triển, hoạt động với bất kỳ ứng dụng nào trong thời gian thực hoặc batch mode. Cloud Speech API sử dụng các thuật toán mạng thần kinh học tiên tiến nhất cho âm thanh của người dùng để nhận diện giọng nói nên có độ chính xác rất cao ngay cả trong mơi trường có âm thanh bị nhiễu.

4.3.3. Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech API. API.

Q trình nhận dạng tiếng nói được thực hiện theo sơ đồ hình 4.11. Tiếng nói được thu nhận nhờ một microphone. Trong phần thực nghiệm của đề tài, microphone được dùng là microphone tích hợp trên Kinect phiên bản 2 của Microsoft. Tín hiệu tiếng nói này được gửi lên máy chủ Google. Tại đây, tín hiệu nói được mã hố nhờ vào dịch vụ lưu trữ và sao lưu Google Cloud Storage, áp dụng chuẩn mã hoá AES_128 bit. Việc mã hoá này được thực hiện cách tự động trước khi lưu trữ vào ổ đĩa trên máy chủ ảo trên nền đám may của hãng. Sau khi tín hiệu được lưu trữ trên máy chủ áo, tín hiệu này được xử lý để nhận dạng và chuyển đổi sang dạng chữ nhờ vào hệ thống Cloud Speech API. Kết quả sau khi nhận dạng sẽ được gởi trả lại cho người dung và hiển thị trên màng hình dươi dạng văn bảng.

Hoạt động của của camera chiều sâu

Các khớp ngón tay sau khi nhận dạng