Đánh giá tốc độ đáp ứng của hệ thống

Một phần của tài liệu Thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ ứng dụng cho người khiếm thính (Trang 44 - 45)

6. Nội dung nghiên cứu

3.2. Đánh giá tốc độ đáp ứng của hệ thống

Với mục tiêu thiết kế ban đầu của hệ thống là phải mang tính di động, tiết kiệm chi phí và năng lượng, hệ thống chuyển đổi giọng nói sang ngơn ngữ cử chỉ được triển khai trên hệ thống nhúng Raspberry Pi. Để tiết kiệm thời gian xử lý cũng như tài nguyên của hệ thống, khối xử lý được sử dụng đơn giản thơng qua việc tính khoảng cách Levenshtein của chuỗi chuyển đổi được và chuỗi định nghĩa trước để đưa ra quyết định. Trong các hệ thống tương tự, khối xử lý được thực hiện bằng xử lý ngôn ngữ tự nhiên hoặc kỹ thuật mạng học sâu. Tuy nhiên, kỹ thuật mạng học sâu và kỹ thuật xử lý ngôn ngữ tự nhiên dựa trên các mạng nơ-ron nhân tạo nhiều lớp có số lượng tham số rất lớn và số lượng các phép tính nhiều dẫn đến các hệ thống này chỉ phát huy hiệu quả khi thực thi trên các phần cứng cấu hình mạnh. Trong thiết kế này nhóm nghiên cứu sử dụng hệ thống nhúng cấu hình thấp cho các ứng dụng di động, tiết kiệm năng lượng và giá thành thấp. Đối với số lượng cơ sở dữ liệu ít, nhóm so sánh phương pháp đưa ra quyết định dựa trên tính khoảng cách Levenshtein với phương pháp sử dụng mạng nơ-ron học sâu. Trong so sánh này nhóm thiết kế một mạng nơ-ron tích chập (Convolutional neural network) để nhận ngõ vào văn bản chuyển đổi được từ giọng nói và đưa ra các ngõ ra quyết định. Mạng tích chập thực hiện tích chập 1 chiều (1-D convolution). Thời gian đáp ứng được đo khi sử dụng 2 phương pháp. Trong phép đo này, nhóm thực hiện nói các câu có độ dài khác nhau và lặp

35

lại để tính giá trị trung bình. Mỗi lần thứ nhóm thực hiện nói 10 câu và thực hiện phép thử 5 lần. Kết quả so sánh được liệt kê trong bảng 3.1

Bảng 3. 1. So sánh thời gian xử lý của phương phép tính khoảng cách Levenshtein và phương pháp dùng mạng nơ-ron học sâu

Số lần thử Thời gian đáp ứng Levenshtein Distance (giây) Deep learning (mạng CNN) (giây) 1 0.00110 0.50360 2 0.00199 0.50503 3 0.00320 0.51035 4 0.00499 0.51424 5 0.00542 0.522202

Từ kết quả đo được trong bảng 3.1 cho thấy, phương pháp dùng mạng nơ-ron học sâu tốn nhiều thời gian hơn so với phương pháp tính khoảng cách Levenshtein. Phương pháp dùng mạng nơ-ron học sâu chỉ phát huy hiệu quả khi tập dữ liệu lớn và biến đổi nhiều, đồng thời thực thi trên các máy tính có cấu hình mạnh. Trong thiết kế này số lượng dữ liệu không nhiều, đồng thời phần cứng có cấu hình thấp và tiết kiệm năng lượng nên phương pháp sử dụng tính khoảng cách Levenshtein phát huy được tính hiệu quả.

Một phần của tài liệu Thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ ứng dụng cho người khiếm thính (Trang 44 - 45)

Tải bản đầy đủ (PDF)

(66 trang)