Lưu đồ giải thuật

Một phần của tài liệu Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ (Trang 68)

Quá trình giao tiếp và hỗ trợ người dùng được mô tả theo lưu đồ sau.

49 3.6 Hệ điều hành nhân Linux

Tổng quan về Linux

Nhìn bề ngồi, Linux là một hệ điều hành. Linux gồm có một nhân kernel (mà cốt lõi là quản lý các tài nguyên phần cứng và phần mềm) và một bộ sưu tập các ứng dụng của người dùng (các thư viện, các trình quản lý cửa sổ và các ứng dụng).

Hình 3-6: Cấu trúc tổng quát của một hệ thống Linux. [4]

Sơ đồ trên chỉ ra các thành phần quan trọng. Tầng cuối cùng chính là một tập hợp mã kiến trúc giúp Linux có thể hỗ trợ đa nền tảng phần cứng (ARM, PowerPC,…).

50

Linux có tính di động cao. Hệ thống con của trình điều khiển hỗ trợ động các mô-đun được nạp mà không ảnh hưởng đến hiệu năng, tạo nên tính mơ-đun của hệ thống.

Các ưu điểm nổi bật của Linux

Linh hoạt, uyển chuyển: Linux là một hệ điều hành mã nguồn mở nên có thể tùy ý sửa chữa theo ý thích. Việc việt hóa Windows được xem là khơng thể nếu như khơng có sự đồng ý và hỗ trợ của Microsoft. Tuy nhiên với Linux thì ta có thể làm được điều này một cách đơn giản hơn. Mặt khác do Linux được một cộng đồng rất lớn những người làm phần mềm cùng phát triển trên các mơi trường, hồn cảnh khác nhau nên tìm một phiên bản phù hợp với yêu cầu sẽ không phải là một vấn đề q khó khăn. Tính linh hoạt của Linux cịn được thể hiện ở chỗ nó tương thích được với rất nhiều mơi trường.

Độ an tồn cao: trong Linux có một cơ cấu phân quyền hết sức rõ ràng. Chỉ có "root" ( người dùng tối cao) mới có quyền cài đặt và thay đổi hệ thống. Ngồi ra Linux cũng có cơ chế để một người dùng bình thường có thể chuyển tạm thời chuyển sang quyền "root" để thực hiện một số thao tác. Điều này giúp cho hệ thống có thể chạy ổn định và tránh phải những sai sót dẫn đến đổ vỡ hệ thống.

Ngồi ra chính tính chất "mở" cũng tạo nên sự an tồn của Linux. Nếu như một lỗ hổng nào đó trên Linux được phát hiện thì nó sẽ được cả cộng đồng mã nguồn mở cùng sửa và thường thì chỉ sau 24h sẽ có thể cho ra bản sửa lỗi.

Chạy thống nhất trên các hệ thống phần cứng: Dù cho có rất nhiều phiên bản

Linux được các nhà phân phối khác nhau ban hành nhưng nhìn chung đều chạy khá ổn định trên mọi thiết bị phần cứng, từ Intel 486 đến những máy Pentium mới nhất, từ những máy có dung lượng RAM chỉ 4MB đến những máy có cấu hình cực mạnh.

Hệ thống nhúng

Hệ thống nhúng là một thuật ngữ để chỉ một hệ thống có khả năng tự trị được nhúng vào trong một môi trường hay một hệ thống mẹ. Đó là các hệ thống tích hợp

51

cả phần cứng và phần mềm phục vụ các bài toán chuyên dụng trong nhiều lĩnh vực cơng nghiệp, tự động hố điều khiển, quan trắc và truyền tin. Đặc điểm của các hệ thống nhúng là hoạt động ổn định và có tính năng tự động hố cao.

Hệ thống nhúng thường được thiết kế để thực hiện một chức năng chuyên biệt nào đó. Khác với các máy tính đa chức năng, chẳng hạn như máy tính cá nhân, một hệ thống nhúng chỉ thực hiện một hoặc một vài chức năng nhất định, thường đi kèm với những yêu cầu cụ thể và bao gồm một số thiết bị máy móc và phần cứng chun dụng mà ta khơng tìm thấy trong một máy tính đa năng nói chung. Vì hệ thống chỉ được xây dựng cho một số nhiệm vụ nhất định nên các nhà thiết kế có thể tối ưu hóa nó nhằm giảm thiểu kích thước và chi phí sản xuất. Các hệ thống nhúng thường được sản xuất hàng loạt với số lượng lớn.

Hệ thống nhúng rất đa dạng, phong phú về chủng loại. Đó có thể là những thiết bị cầm tay nhỏ gọn như đồng hồ kĩ thuật số và máy nghe nhạc MP3; hoặc những sản phẩm lớn như đèn giao thơng, bộ kiểm sốt trong nhà máy hoặc hệ thống kiểm soát các máy năng lượng hạt nhân. Xét về độ phức tạp, hệ thống nhúng có thể rất đơn giản với một vi điều khiển hoặc rất phức tạp với nhiều đơn vị, các thiết bị ngoại vi và mạng lưới được nằm gọn trong một lớp vỏ máy lớn.

52

THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Quá trình thử nghiệm giao tiếp với điện tốn đám mây

Trong q trình thực hiện đề tài đã xây dựng được chương trình bằng ngơn ngữ Python trên hệ điều hành Raspbian, có chức năng giao tiếp với người dùng bằng giọng nói, hình ảnh để cung cấp thông tin hỗ trợ thông qua dịch vụ điện tốn đám mây của Google.

Hình 4-1: Giao diện phần mềm lập trình Python trên hệ điều hành Linux

- Nghiên cứu cài đặt và kết nối được phần cứng và chạy thử thành công.

-

53 - Nhận dạng được chữ viết

Hình 4-3: Thử nhận dạng chữ viết bằng Google vision

- Sau khi nhận dạng được địa chỉ, phần mềm sẽ hiển thị đường từ ĐH SPKT TP.HCM đến địa điểm yêu cầu trên bản đồ của Google.

Hình 4-4: Hiển thị đường đi trên bản đồ của Google

4.2 Giao diện người dùng

Mục tiêu hướng đến của đề tài là ứng dụng trên robot dịch vụ nên yêu cầu giao diện phải linh hoạt, sinh động, có nhiều cơng cụ để xây dựng và đề tài chọn ngôn ngữ NodeJS để xây dựng web server các giao diện sẽ được hiển thị trên nền web. Với

54

ưu điểm đáp ứng nhanh và dễ dàng hiển thị trên nhiều nền tảng khác nhau, nên thuận lợi cho việc phát triển sau này.

Quá trình giao tiếp người dùng được mơ tả như sau:

Giao diện chờ

Camera nhận dạng mặt người để phát hiện có người.

55 Sau khi nhận biết có

người đến màn hình chuyển sang giao diện hướng dẫn sử dụng.

Người dùng ra lệnh cho bằng giọng nói theo hướng dẫn trên màn hình

Từ bảng hướng dẫn người dùng có thể hỏi đường đi, và nhập địa chỉ bằng giọng nói hoặc hình ảnh

56 Khi đang ở chế độ tìm

đường thì robot nhận dạng tên của địa điểm.

Robot sẽ hiện thị bản đồ chỉ từ địa điểm hiện tại đến địa điểm cần đến

Bảng 4-1: Trình tự hoạt động của giao diện người dùng.

4.3 Nhận xét

Sau khi hoàn thành thực nghiệm, phần này sẽ đưa ra nhận xét về kết quả của đề tài như sau:

Đề tài đã ứng dụng thành công phương thức giao tiếp người và máy sử dụng cơng nghệ điện tốn đám mây Google, nhận xét thấy quá trình truyền nhận dữ liệu diễn ra nhanh chóng và chính xác trên 90%, do sử dụng tài khoản dùng thử nên số lần giao tiếp bị hạn chế.

57

Đề tài đã nhúng thành cơng chương trình giao tiếp người dùng trên mạch nhúng Rasberry PI3, chứng minh được khả năng sử dụng máy tính nhúng của đề tài là khả thi và có thể mở rộng ứng dụng thêm các chức năng khác.

Đề tài đã nghiên cứu được qui trình cài đặt các chương trình, cách thử khai báo để sử dụng dịch vụ điện toán đám mây của Google, tạo tiền đề để phát triển các ứng dụng sau này.

Quá trình thực nghiệm đề tài, kết quả cho thấy độ chính xác của các phương thức giao tiếp là rất cao, khả năng lọc nhiễu tốt, cụ thể qua 50 lần thử nghiệm nhận dạng bằng hình ảnh và giọng nói ta có kết quả như sau:

Nội dung Chợ Bến Thành Chợ Thủ Đức Chợ An Đông Hà nội Vũng tàu Nhận dạng giọng nói 95% 95% 97% 98% 98% Nhận dạng hình ảnh 87% 85% 85% 92% 90% Bảng 4-2: Bảng nhận xét độ chính xác dịch vụ

Hình 4-5: Biểu đồ thể hiện độ chính xác của nhận dạng giọng nói và hình ảnh 78 78 80 82 84 86 88 90 92 94 96 98 Nhận Dạng Giọng Nói Nhận Dạng Hình Ảnh

Biểu đồ thể hiện độ chính xác của nhận dạng bằng giọng nói và hình ảnh

58

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận

Kết quả chính của luận văn là xây dựng thành cơng phương thức giao tiếp người dùng trên mạch nhúng. Các cơng việc chính được thực hiện trong luận văn: nghiên cứu về các phương thức giao tiếp giửa người và robot, nghiên cứu xây dựng thuật toán nhận dạng giọng nói, xử lý hình ảnh và điểm mới là cài đặt chương trình xử lý trên mạch máy tính nhúng. Bước đầu nghiên cứu hoàn thành được giao diện giao tiếp và thực hiện được một số yếu cầu hỗ trợ người dùng như tìm đường bằng giọng nói, hình ảnh, báo giờ, địa điểm.

Do đây là mãng nghiên cứu lớn nhưng chỉ được thực hiện trong thời gian ngắn để ra một hệ thống hoàn chỉnh, nên chương trình hoạt động chưa tốt hồn tồn. Nhận dạng hình ảnh mới ở mức đơn giản. Hướng phát triển trong thời gian tới hồn thiện chương trình và mở rộng chức năng cho robot, tạo nền tảng để phát triển mới trong các lĩnh vực dịch vụ, robot y sinh, quân sự,…

59

TÀI LIỆU THAM KHẢO

[1] Campbell, “Speaker Recognition: A Tutorial”, Proceedings of the IEEE, vol. 85,

no. 9, 1997.

[2] Campbell, J. P., Reynolds, D. A., and Dunn, R. B., “Fusing High- and Low-Level

Features for Speaker Recognition”, In Proc. Eurospeech in Geneva, Switzerland,

ISCA, 2003, pp. 2665-2668.

[3] Chen, K., Dahong, X., and Huisheng, C.(1996): “Speaker Identification Using

Time-Delay HMEs”, China International Journal of Neural Systems, vol. 7, no.

1, 1996.

[4] David Chappell & Associates, Introducing the Azure Services Platform. An easy look at Windows Azure Services Platform, 2008.

[5] Fisusi, A., “Development of a Text-Independent Speaker Identification System”, An MSc Thesis submitted to the Department of Electronic and Electrical

Engineering, Obafemi Awolowo University, Ile-Ife, Nigeria, 2007, 101p.

[6] Forsberg M. Why is Speech Recognition Difficult, Department of Computing

Science, Chalmers University of Technology, 24 February 2003.

[7] Gish, H., and Schmit, “Text-Independent Speaker Identification”,IEEE, Signal

Processing Magazine,1994.

[8] Janaki Prasad Koirala, Identity Verification with Speech Recognition. Helsinki Metropolia University of Applied Sciences, 2013.

[9] John D. Cook. (2009, August) The Endeavour, http://www.johndcook.com/ blog/2009/08/24/algorithms-convert-color-grayscale/

[10] Judith Hurwitz, Robin Bloor, Marcia Kaufman, Cloud Computing for Dummies, Wiley Publishing, Inc.

60

[12] Pan, Y. and Waibel, A., “The Effects of the Room Acoustics on MFCC Speech

Parameter,” International Conference on 51 African Journal of Information and Communication Technology, Vol. 3, No. 2, June 2007 Spoken Language

Processing 2000 (ICSLP 2000).

[13] Peskin, B., Navratil, J., Abramson, Jones, D., Klusacek, D., Reynolds, D.A.and Xiang, B. “Using Prosodic and Conversational Features for High Performance

Speaker Recognition: Report from JHU WS'02”, In Proc. International

Conference on Acoustics,Speech, and Signal Processing in Hong Kong, China, IEEE, 2003.

[14] Phan Vân Hồn, “Giáo trình vi xử lý nâng cao”, Đại Học Sư Phạm Kỹ Thuật Tp.HCM, 2015.

[15] Reynolds, D. A., “An Overview of Automatic Speaker Recognition

Technology”, Proceedings of the IEEE International Conference on

Acoustics,Speech, and Signal Processing, vol. 4, 2002.

[16] Zilca, R.D., Navratil, J. and Ramaswamy,N. “Syncpitch: A pseudo pitch

synchronous algorithm for speaker recognitio”, Proceedings of EUROSPEECH,

2003.

61

NGHIÊN CỨU PHƯƠNG THỨC GIAO TIẾP GIỮA NGƯỜI VÀ MÁY DỰA TRÊN CƠNG NGHỆ

ĐIỆN TỐN ĐÁM MÂY, SỬ DỤNG TRONG ROBOT DỊCH VỤ STUDY ON THE METHOD OF HUMAN-ROBOT

INTERACTIONBASED ON CLOUD COMPUTING AND APPLIED ON SERVICE ROBOT

(1)LƯU MẠNH SƠN Học viên cao học trường ĐH SPKT TPHCM TÓM TẮT

Ngày nay sự phát triển của công nghệ, các thiết bị ngày càng thông minh hơn, giúp người dùng dễ dàng giao tiếp và điều khiển các thiết bị xung quanh. Số lượng các thiết bị nhận dạng giọng nói, hình ảnh ngày càng tăng, điển hình như tivi thơng minh, máy tính cá nhân, đặc biệt là tất cả các điện thoại di động đều có hỗ trợ nhận diện và điều khiển bằng giọng nói. Ngồi các ứng dụng trong các thiết bị gia dụng, giáo dục thì cịn được ứng dụng trong các thủ thuật phẫu thuật, vì vậy độ chính xác và tốc độ trở nên rất quan trọng.

Trong luận văn này nhằm mục đích giới thiệu về phương thức giao tiếp giữa người và máy sử dụng điện toán đám mây của Google. Cụ thể là dùng Google Speech API để nhận dạng âm thanh, Google Vision API để nhận dạng hình ảnh. Một vấn đề mới mà luận văn nghiên cứu là xây dựng giao diện, phương thức giao tiếp người dùng và trên mạch máy tính nhúng.

Từ khố: Xử lý ảnh, Nhận dạng tiếng nói, Google Vision API.

ABSTRACT

Nowadays based on the development of technology, the devices are becoming smarter and smarter which help users to communicate and control other devices around easily. The increasing number of voice-visual devices, such as smart TVs, PCs and especially mobile phones are provided voice recognition and voice control. Besides the applications on domestic appliance and enducation, there are also some appications on surgery. Therefore, the accuracy and speed become very important.

This essay aims to introduce Google's method of communication between humans and machines. In particular, Google Speech API is used for voice recognition as well as Google Vision API is used for image recognition. A new issue of this research is included the building of interfaces and methods of user communication on embedded computer.

Key words: Image processing, Voice processor, Google Vision API

1. Giới thiệu

Robot dịch vụ nhằm giúp đỡ con người thực hiện các công việc hằng ngày trong cuộc sống, nhưng để tăng hiệu quả cơng việc thì nghiên cứu giao tiếp giữa người và máy vô cùng quan trọng, giúp chúng ta dễ dàng sử dụng, nhanh chóng và chính xác.

Điện tốn đám mây cịn gọi là điện tốn máy chủ ảo là mơ hình điện tốn sử dụng các cơng nghệ máy tính và phát triển dựa vào mạng Internet. Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ mạng Internet và như là một liên tưởng về độ phức tạp của các cơ sở hạ tầng chứa trong đó. Ở mơ hình điện tốn này mọi khả năng liên quan đến công nghệ thông tin đều được cung cấp dưới dạng các "dịch vụ"; cho phép người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp nào đó "trong đám mây" mà khơng cần phải có các kiến thức, kinh

62

nghiệm về cơng nghệ đó, cũng như khơng cần quan tâm đến các cơ sở hạ tầng phục vụ cơng nghệ đó.

Robot sử dụng dữ liệu trên cơng nghệ điện tốn đám mây, được cập nhật mới bằng thuật tốn của Google thì dữ liệu được bảo mật, truy cập trên khắp thế giới, hiệu quả cao và được cập nhật liên tục.

2. Giao tiếp giữa người và máy

Hiện nay nhu cầu thị trường của robot rất lớn như robot vận chuyển, robot giám sát, robot giúp việc, hơn thế nữa ý tưởng về robot cá nhân, trợ lý robot đã được quan tâm từ rất lâu. Robot được sản xuất khắp nơi trên thế giới và được mở bán rộng rãi. Tuy nhiên để cho phép robot hoạt động với nhiệm vụ mới thì địi hỏi phải phát triển kỹ thuật mà người dùng cần phải được huấn luyện, để robot hoạt động tiện lợi và an tồn.

Hai đặc tính quan trọng trong giao tiếp giữa người và máy mà ta cần quan tâm là: thứ nhất người dùng muốn cấu hình và nếu cần thiết thì phải dạy cho robot. Hai là người dùng muốn giám sát và theo dõi đáp ứng của robot. Trong cả hai trường hợp đó, người dùng khơng vận hành robot, thay vì họ muốn nó hồn thành các u cầu, chin vì điều quan trọng là robot sẽ làm gì và khơng nên làm gì. Giao tiếp người và máy sẽ liên quan đến hai khía cạnh sau:

Một là, người dùng phải được cung cấp phương thức cho phép họ có thể dạy được robot, nghĩa là phải truyền tải được yêu cầu của người dùng đến chương trình hoạt động của robot. Hai là, phải có phản hồi đến người dùng những thơng tin cần tiết để họ có thể hiểu các ảnh hưởng đến robot khi được yêu cầu mới.

3. Nhận Dạng Giọng nói

Việc thu nhận tiếng nói thời gian thực và khuếch đại thường được thực hiện thông qua một bộ ADC (Analog-Digital Converter). Các thông số quan trọng bao gồm số bit cho một mẫu (thông dụng là từ 8 đến 16 bit), tần số lấy mẫu (thông dụng từ 8Khz-16Khz). Những thông số này liên quan nhiều tới hiệu năng, độ phức tạp thiết kế cũng như kết quả nhận dạng

Một phần của tài liệu Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ (Trang 68)

Tải bản đầy đủ (PDF)

(89 trang)