78 80 82 84 86 88 90 92 94 96 98 Nhận Dạng Giọng Nói Nhận Dạng Hình Ảnh
Biểu đồ thể hiện độ chính xác của nhận dạng bằng giọng nói và hình ảnh
58
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận
Kết quả chính của luận văn là xây dựng thành cơng phương thức giao tiếp người dùng trên mạch nhúng. Các cơng việc chính được thực hiện trong luận văn: nghiên cứu về các phương thức giao tiếp giửa người và robot, nghiên cứu xây dựng thuật tốn nhận dạng giọng nói, xử lý hình ảnh và điểm mới là cài đặt chương trình xử lý trên mạch máy tính nhúng. Bước đầu nghiên cứu hồn thành được giao diện giao tiếp và thực hiện được một số yếu cầu hỗ trợ người dùng như tìm đường bằng giọng nói, hình ảnh, báo giờ, địa điểm.
Do đây là mãng nghiên cứu lớn nhưng chỉ được thực hiện trong thời gian ngắn để ra một hệ thống hồn chỉnh, nên chương trình hoạt động chưa tốt hồn tồn. Nhận dạng hình ảnh mới ở mức đơn giản. Hướng phát triển trong thời gian tới hồn thiện chương trình và mở rộng chức năng cho robot, tạo nền tảng để phát triển mới trong các lĩnh vực dịch vụ, robot y sinh, quân sự,…
59
TÀI LIỆU THAM KHẢO
[1] Campbell, “Speaker Recognition: A Tutorial”, Proceedings of the IEEE, vol. 85,
no. 9, 1997.
[2] Campbell, J. P., Reynolds, D. A., and Dunn, R. B., “Fusing High- and Low-Level
Features for Speaker Recognition”, In Proc. Eurospeech in Geneva, Switzerland,
ISCA, 2003, pp. 2665-2668.
[3] Chen, K., Dahong, X., and Huisheng, C.(1996): “Speaker Identification Using
Time-Delay HMEs”, China International Journal of Neural Systems, vol. 7, no.
1, 1996.
[4] David Chappell & Associates, Introducing the Azure Services Platform. An easy look at Windows Azure Services Platform, 2008.
[5] Fisusi, A., “Development of a Text-Independent Speaker Identification System”, An MSc Thesis submitted to the Department of Electronic and Electrical
Engineering, Obafemi Awolowo University, Ile-Ife, Nigeria, 2007, 101p.
[6] Forsberg M. Why is Speech Recognition Difficult, Department of Computing
Science, Chalmers University of Technology, 24 February 2003.
[7] Gish, H., and Schmit, “Text-Independent Speaker Identification”,IEEE, Signal
Processing Magazine,1994.
[8] Janaki Prasad Koirala, Identity Verification with Speech Recognition. Helsinki Metropolia University of Applied Sciences, 2013.
[9] John D. Cook. (2009, August) The Endeavour, http://www.johndcook.com/ blog/2009/08/24/algorithms-convert-color-grayscale/
[10] Judith Hurwitz, Robin Bloor, Marcia Kaufman, Cloud Computing for Dummies, Wiley Publishing, Inc.
60
[12] Pan, Y. and Waibel, A., “The Effects of the Room Acoustics on MFCC Speech
Parameter,” International Conference on 51 African Journal of Information and Communication Technology, Vol. 3, No. 2, June 2007 Spoken Language
Processing 2000 (ICSLP 2000).
[13] Peskin, B., Navratil, J., Abramson, Jones, D., Klusacek, D., Reynolds, D.A.and Xiang, B. “Using Prosodic and Conversational Features for High Performance
Speaker Recognition: Report from JHU WS'02”, In Proc. International
Conference on Acoustics,Speech, and Signal Processing in Hong Kong, China, IEEE, 2003.
[14] Phan Vân Hồn, “Giáo trình vi xử lý nâng cao”, Đại Học Sư Phạm Kỹ Thuật Tp.HCM, 2015.
[15] Reynolds, D. A., “An Overview of Automatic Speaker Recognition
Technology”, Proceedings of the IEEE International Conference on
Acoustics,Speech, and Signal Processing, vol. 4, 2002.
[16] Zilca, R.D., Navratil, J. and Ramaswamy,N. “Syncpitch: A pseudo pitch
synchronous algorithm for speaker recognitio”, Proceedings of EUROSPEECH,
2003.
61
NGHIÊN CỨU PHƯƠNG THỨC GIAO TIẾP GIỮA NGƯỜI VÀ MÁY DỰA TRÊN CÔNG NGHỆ
ĐIỆN TOÁN ĐÁM MÂY, SỬ DỤNG TRONG ROBOT DỊCH VỤ STUDY ON THE METHOD OF HUMAN-ROBOT
INTERACTIONBASED ON CLOUD COMPUTING AND APPLIED ON SERVICE ROBOT
(1)LƯU MẠNH SƠN Học viên cao học trường ĐH SPKT TPHCM
TÓM TẮT
Ngày nay sự phát triển của công nghệ, các thiết bị ngày càng thông minh hơn, giúp người dùng dễ dàng giao tiếp và điều khiển các thiết bị xung quanh. Số lượng các thiết bị nhận dạng giọng nói, hình ảnh ngày càng tăng, điển hình như tivi thơng minh, máy tính cá nhân, đặc biệt là tất cả các điện thoại di động đều có hỗ trợ nhận diện và điều khiển bằng giọng nói. Ngồi các ứng dụng trong các thiết bị gia dụng, giáo dục thì cịn được ứng dụng trong các thủ thuật phẫu thuật, vì vậy độ chính xác và tốc độ trở nên rất quan trọng.
Trong luận văn này nhằm mục đích giới thiệu về phương thức giao tiếp giữa người và máy sử dụng điện toán đám mây của Google. Cụ thể là dùng Google Speech API để nhận dạng âm thanh, Google Vision API để nhận dạng hình ảnh. Một vấn đề mới mà luận văn nghiên cứu là xây dựng giao diện, phương thức giao tiếp người dùng và trên mạch máy tính nhúng.
Từ khố: Xử lý ảnh, Nhận dạng tiếng nói, Google Vision API.
ABSTRACT
Nowadays based on the development of technology, the devices are becoming smarter and smarter which help users to communicate and control other devices around easily. The increasing number of voice-visual devices, such as smart TVs, PCs and especially mobile phones are provided voice recognition and voice control. Besides the applications on domestic appliance and enducation, there are also some appications on surgery. Therefore, the accuracy and speed become very important.
This essay aims to introduce Google's method of communication between humans and machines. In particular, Google Speech API is used for voice recognition as well as Google Vision API is used for image recognition. A new issue of this research is included the building of interfaces and methods of user communication on embedded computer.
Key words: Image processing, Voice processor, Google Vision API
1. Giới thiệu
Robot dịch vụ nhằm giúp đỡ con người thực hiện các công việc hằng ngày trong cuộc sống, nhưng để tăng hiệu quả cơng việc thì nghiên cứu giao tiếp giữa người và máy vô cùng quan trọng, giúp chúng ta dễ dàng sử dụng, nhanh chóng và chính xác.
Điện tốn đám mây cịn gọi là điện tốn máy chủ ảo là mơ hình điện tốn sử dụng các cơng nghệ máy tính và phát triển dựa vào mạng Internet. Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ mạng Internet và như là một liên tưởng về độ phức tạp của các cơ sở hạ tầng chứa trong đó. Ở mơ hình điện tốn này mọi khả năng liên quan đến cơng nghệ thông tin đều được cung cấp dưới dạng các "dịch vụ"; cho phép người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp nào đó "trong đám mây" mà khơng cần phải có các kiến thức, kinh
62
nghiệm về cơng nghệ đó, cũng như không cần quan tâm đến các cơ sở hạ tầng phục vụ cơng nghệ đó.
Robot sử dụng dữ liệu trên cơng nghệ điện tốn đám mây, được cập nhật mới bằng thuật tốn của Google thì dữ liệu được bảo mật, truy cập trên khắp thế giới, hiệu quả cao và được cập nhật liên tục.
2. Giao tiếp giữa người và máy
Hiện nay nhu cầu thị trường của robot rất lớn như robot vận chuyển, robot giám sát, robot giúp việc, hơn thế nữa ý tưởng về robot cá nhân, trợ lý robot đã được quan tâm từ rất lâu. Robot được sản xuất khắp nơi trên thế giới và được mở bán rộng rãi. Tuy nhiên để cho phép robot hoạt động với nhiệm vụ mới thì địi hỏi phải phát triển kỹ thuật mà người dùng cần phải được huấn luyện, để robot hoạt động tiện lợi và an toàn.
Hai đặc tính quan trọng trong giao tiếp giữa người và máy mà ta cần quan tâm là: thứ nhất người dùng muốn cấu hình và nếu cần thiết thì phải dạy cho robot. Hai là người dùng muốn giám sát và theo dõi đáp ứng của robot. Trong cả hai trường hợp đó, người dùng khơng vận hành robot, thay vì họ muốn nó hồn thành các u cầu, chin vì điều quan trọng là robot sẽ làm gì và khơng nên làm gì. Giao tiếp người và máy sẽ liên quan đến hai khía cạnh sau:
Một là, người dùng phải được cung cấp phương thức cho phép họ có thể dạy được robot, nghĩa là phải truyền tải được yêu cầu của người dùng đến chương trình hoạt động của robot. Hai là, phải có phản hồi đến người dùng những thơng tin cần tiết để họ có thể hiểu các ảnh hưởng đến robot khi được yêu cầu mới.
3. Nhận Dạng Giọng nói
Việc thu nhận tiếng nói thời gian thực và khuếch đại thường được thực hiện thông qua một bộ ADC (Analog-Digital Converter). Các thông số quan trọng bao gồm số bit cho một mẫu (thông dụng là từ 8 đến 16 bit), tần số lấy mẫu (thông dụng từ 8Khz-16Khz). Những thông số này liên quan nhiều tới hiệu năng, độ phức tạp thiết kế cũng như kết quả nhận dạng của hệ thống nhúng.
Trích chọn đặc trưng
Mục tiêu của bộ trích đặc trưng là tham số hố tín hiệu tiếng nói thành chuỗi vector đặc trưng, chứa thơng tin liên quan đến âm thanh của câu nói. Đối với bất kì hệ thống nhận dạng tiếng nói nào, các đặc trưng ngữ âm cũng phải có các tính chất sau:
- Có khả năng phân biệt tốt các tiếng nói có phát âm giống nhau.
- Cho phép xây dựng các mơ hình thống kê mà khơng địi hỏi q nhiều dữ liệu huấn luyện. - Có tính bất biến đối với các giọng nói khác nhau, cũng như mơi trường thu âm.
Tín hiệu
Tiếng nói Chia Frame Frames FFT
Power Spectrum
Áp dụng Mel Filter Banks
Lấy Log DCT
Vectors đặc trưng MFCC
63
Một đặc trưng lý tưởng (có cả 3 tính chất nêu trên) thường khơng tồn tại trong thực tế. Trong lĩnh vực nhận dạng tiếng nói, các đặc trưng thường được sử dụng là MFCC (Mel- Frequency Cepstral Coefficients) và LSP (Line Spectral Pairs)[8].
Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách: chia tín hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame). Mỗi frame sẽ cho đặc trưng là một vector và đặc trưng của tồn bộ tín hiệu sẽ là một dãy vector. MFCC là phương pháp trích đặc trưng dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz (theo thang tần số mel, khơng phải theo Hz). Vì lẽ đó rất nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC làm đặc trưng. Việc tính đặc trưng MFCC có sơ đồ như sau:
Hình 2: Chi tiết bước trích chọn MFCC.
Hiện nay ngoài các đặc trưng MFCC và các đặc trưng truyền thống khác (như LPC, PLP v.v), người ta còn sử dụng nhiều đặc trưng khác như Wavelet, chiều Fractal, Tiger, các đặc trưng siêu đoạn tính như F0, formant để cải tiến độ chính xác nhận dạng. Các đặc trưng bổ sung này được đưa vào để nâng cao chất lượng nhận dạng với việc khai thác các đặc điểm sau:
- Bền vững với tiếng nói nhiễu .
- Hạn chế nhược điểm của các biến đổi dựa trên FFT. - Đặc thù ngữ âm và ngơn ngữ.
Chuẩn hóa đặc trưng MFCC dựa vào tần số cơ bản F0, từ đó giảm phụ thuộc của hệ thống nhận dạng vào người nói, do đó chất lượng nhận dạng tiếng nói được tăng lên.
Hình 3: MFCC chuẩn
Hình 4: MFCC đã biến đổi
Lý do của sự phổ biến của đặc trưng MFCC chuẩn là nó đơn giản, truyền thống, độc lập ngôn ngữ, và xuất hiện sớm trong các kết quả cơng bố về nhận dạng tiếng nói.
Trong quá trình nhận dạng, hầu hết các trình tự được tính tốn / tìm kiếm từ một mơ hình sẵn có. Từ ngữ có nhiều khả năng nhất với xác suất lớn nhất được tạo ra được xem như là kết quả của lời nói ở dạng sóng.
64
Hình 5: Thủ tục cơ bản về nhận dạng giọng nói theo thống kê Huấn luyện HMM :
Đầu vào gồm T frame các đặc trưng MFCC.
Bước 1: Xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:
S = ({ }) = argmax ∑ log ( | ) (1)
Bước 2: Hiệu chỉnh tham số mơ hình HMM:
∗ = 1 argmax ∑ log ( | , , ) (2)
Bước 3: Đặt = *, lặp lại tới khi mơ hình hội tụ. Nhận dạng với HMM:
Đầu vào gồm T frame các đặc trưng MFCC.
Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mơ hình HMM đã cho:
( , = ({ }) ) = ∑ log ( | , ) (3)
4. Xử lý ảnh số
Xử lý ảnh số thường được biết đến với tên viết tắt là DIP (Digital Image Proccessing). DIP sử dụng các thuật tốn máy tính để phân tích ảnh kỹ thuật số. Dưới đây là sơ đồ cơ bản của quá trình xử lý ảnh:
Hình 6: Sơ đồ xử lý ảnh số [16]. 5. Nguyên lý hoạt động của hệ thống
Hệ thống phục vụ trong khu vực biết trước với nhiệm vụ cung cấp thông tin cho khách, khi khách đến và yêu cầu hỗ trợ. Hệ thống gồm có một màn hình hiển thị, camera và micro để nhận thông tin cần hỗ trợ của khách. Người dùng có thể nói trực tiếp hoặc ghi ra trên giấy địa chỉ muốn đến. Sau khi xử lý thông tin thi hệ thống sẽ bắt đầu đáp ứng yêu cầu của người dùng như thông tin thời tiết, thời gian, địa điểm...
Sơ đồ tổng quát hệ thống.Với phương thức đã chọn hệ thống nhúng và phương thức xử lý trực tuyến nên hệ thống được tổng quát như sau.
65
Hình 7: Sơ đồ khối tổng quát hệ thống Lưu đồ giải thuật
Quá trình giao tiếp và hỗ trợ người dùng được mô tả theo lưu đồ sau.
Hình 8: Lưu đồ giải thuật xử lý của hệ thống
Trong quá trình thực hiện đề tài đã xây dựng được chương trình bằng ngơn ngữ Python trên hệ điều hành Raspbian, có chức năng giao tiếp với người dùng bằng giọng nói, hình ảnh để cung cấp thông tin hỗ trợ thông qua dịch vụ điện toán đám mây của Google.
Mục tiêu hướng đến của đề tài là ứng dụng trên robot dịch vụ nên yêu cầu giao diện phải linh hoạt, sinh động, có nhiều cơng cụ để xây dựng và đề tài chọn ngôn ngữ NodeJS để xây dựng web server các giao diện sẽ được hiển thị trên nền web. Với ưu điểm đáp ứng nhanh và dễ dàng hiển thị trên nhiều nền tảng khác nhau, nên thuận lợi cho việc phát triển sau này.
66 Quá trình giao tiếp người dùng được mô tả như sau:
Bước 1 Bước 2 Bước 3:
Bước 4 Bước 5 Bước 6
Bảng 1: Trình tự hoạt động của giao diện người dùng. 6. Nhận xét
Sau khi hoàn thành thực nghiệm, phần này sẽ đưa ra nhận xét về kết quả của đề tài như sau:
Đề tài đã ứng dụng thành công phương thức giao tiếp người và máy sử dụng cơng nghệ điện tốn đám mây Google, nhận xét thấy quá trình truyền nhận dữ liệu diễn ra nhanh chóng và chính xác trên 90%, do sử dụng tài khoản dùng thử nên số lần giao tiếp bị hạn chế.
Đề tài đã nhúng thành cơng chương trình giao tiếp người dùng trên mạch nhúng Rasberry PI3, chứng minh được khả năng sử dụng máy tính nhúng của đề tài là khả thi và có thể mở rộng ứng dụng thêm các chức năng khác.
Đề tài đã nghiên cứu được qui trình cài đặt các chương trình, cách thử khai báo để sử dụng dịch vụ điện toán đám mây của Google, tạo tiền đề để phát triển các ứng dụng sau này. Quá trình thực nghiệm đề tài, kết quả cho thấy độ chính xác của các phương thức giao tiếp là rất cao, khả năng lọc nhiễu tốt, cụ thể qua 50 lần thử nghiệm nhận dạng bằng hình ảnh và giọng nói ta có kết quả như sau:
Nội dung nhận dạng Chợ Bến Thành Chợ Thủ Đức Chợ An Đơng Hà nội Vũng tàu Giọng nói 95% 95% 97% 98% 98% Hình ảnh 87% 85% 85% 92% 90% Bảng 2: Bảng nhận xét độ chính xác dịch vụ
67
Hình 9: Biểu đồ thể hiện độ chính xác của nhận dạng giọng nói và hình ảnh 7. Kết luận
Kết quả chính của luận văn là xây dựng thành công phương thức giao tiếp người dùng trên mạch nhúng. Các cơng việc chính được thực hiện trong luận văn: nghiên cứu về các phương thức giao tiếp giửa người và robot, nghiên cứu xây dựng thuật toán nhận dạng giọng nói, xử lý hình ảnh và điểm mới là cài đặt chương trình xử lý trên mạch máy tính nhúng. Bước đầu nghiên cứu hồn thành được giao diện giao tiếp và thực hiện được một số yếu cầu hỗ trợ người dùng như tìm đường bằng giọng nói, hình ảnh, báo giờ, địa điểm.
Do đây là mãng nghiên cứu lớn nhưng chỉ được thực hiện trong thời gian ngắn để ra một hệ thống hoàn chỉnh, nên chương trình hoạt động chưa tốt hồn tồn. Nhận dạng hình ảnh