Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ

TĨM TẮT Ngày phát triển cơng nghệ, thiết bị ngày thông minh hơn, giúp người dùng dễ dàng giao tiếp điều khiển thiết bị xung quanh Số lượng thiết bị nhận dạng giọng nói, hình ảnh ngày tăng, điển tivi thơng minh, máy tính cá nhân, đặc biệt tất điện thoại di động có hỗ trợ nhận diện điều khiển giọng nói Ngồi ứng dụng thiết bị gia dụng, giáo dục cịn ứng dụng thủ thuật phẫu thuật, độ xác tốc độ trở nên quan trọng Trong luận văn nhằm mục đích giới thiệu phương thức giao tiếp người máy sử dụng điện toán đám mây Google Cụ thể dùng Google Speech API để nhận dạng âm thanh, Google Vision API để nhận dạng hình ảnh Một vấn đề mà luận văn nghiên cứu xây dựng giao diện, phương thức giao tiếp người dùng mạch máy tính nhúng iv MỤC LỤC LÝ LỊCH KHOA HỌC I LỜI CAM ĐOAN II LỜI CẢM ƠN III TÓM TẮT IV MỤC LỤC V DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU VII DANH SÁCH CÁC HÌNH VIII 2.1 Giao tiếp người máy 2.2 Dữ liệu lớn – Big Data .6 2.2.1 Khái niệm liệu lớn 2.2.2 Nguồn hình thành phương pháp khai thác, quản lý liệu lớn 2.2.3 Đặc trưng liệu lớn 2.2.4 Sự khác biệt liệu lớn với liệu truyền thống 2.3 Tổng quan điện toán đám mây 10 2.4 Nhận dạng giọng nói 11 2.4.1 Giới thiệu .11 2.4.2 Hệ thống phát âm người 12 2.4.3 Biểu diễn tiếng nói - đặc trưng tiếng nói 14 2.4.4 Trích chọn đặc trưng 14 2.4.5 Phương pháp nhận dạng tiếng nói 16 2.4.6 Các mơ hình nhận dạng 18 v 2.4.7 Mơ hình Hidden Markov Model 18 2.4.8 Nhận dạng tiếng nói với mơ hình Markov ẩn 22 2.4.9 Sự phân bố Gaussion 23 2.5 Cơng cụ nhận dạng giọng nói google - Google Speech API .23 2.6 Xử lý ảnh số 26 2.6.1 Giới thiệu ảnh số 26 2.6.2 Một số kiểu ảnh số thường gặp 27 2.6.3 Giới thiệu xử lý ảnh số 28 2.6.4 Xử lý ảnh .29 2.6.5 Các ứng dụng công nghệ xử lý ảnh số 37 2.6.6 Camera calibration 37 2.6.7 Nhận diện hình ảnh Google 37 44 3.1 Nguyên lý hoạt động hệ thống 44 3.2 Phương thức hoạt động xử lý trung tâm 44 3.3 Bộ xử lý nhúng 46 3.4 Sơ đồ tổng quát hệ thống .47 3.5 Lưu đồ giải thuật 48 3.6 Hệ điều hành nhân Linux 49 52 4.1 Quá trình thử nghiệm giao tiếp với điện toán đám mây 52 4.2 Giao diện người dùng .53 4.3 Nhận xét 56 .58 5.1 Kết luận 58 vi DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU Chữ viết tắt Giải thích Client Máy trạm Server Máy chủ URL Uniform Resource Locator API Application programming interface HSV Hue – Saturation – Value RGB Red – Green – Blue App Application ID identification GPS Global Positioning System TTS Text To Speech NLP Natural Language Processing TCP Transmission Control Protocol vii DANH SÁCH CÁC HÌNH Hình 2-6: Hình cắt ngang ống âm 13 Hình 2-1: Các bước rút trích đặc trưng MFCC từ tín hiệu âm 15 Hình 2-2: Chi tiết bước trích chọn MFCC 15 Hình 2-3: MFCC chuẩn 16 Hình 2-4: MFCC biến đổi 16 Hình 2-5: Mơ hình mạng lai ghép HMM/ANN .17 Hình 2-7 Minh họa thủ tục nhận dạng giọng nói theo thống kê .18 Hình 2-8: Minh họa chuỗi Markov đại diện cho xác suất chuyển đổi thời tiết 19 Hình 2-9: Một mơ hình Markov ẩn sau sáu trạng thái .22 Hình 2-10: Phân bố Gaussian với giá trị điểm liên quan .23 Hình 2-11: Biểu diễn cấu trúc ảnh số chiều .26 Hình 2-12: Mơ tả ảnh nhị phân 27 Hình 2-13: Thang màu mức xám ảnh bit 27 Hình 2-14: Biểu diễn ảnh xám [15] 27 Hình 2-15: Sơ đồ xử lý ảnh số [16] .28 Hình 2-16: Biểu đồ Gauss 31 Hình 2-17: Mặt nạ cuộn gaussian chiều 32 Hình 2-18: Chuyển từ ảnh màu sang ảnh xám [14] 33 Hình 2-19: Chuyển từ ảnh xám bit sang ảnh nhị phân .33 Hình 2-20: Giản đồ histogram ảnh xám 34 Hình 2-21: Tăng độ sáng giản đồ histogram 34 Hình 2-22: Giảm độ sáng giản đồ histogram 35 Hình 2-23: Tăng độ tương phản giản đồ histogram .35 Hình 2-24: Giảm độ tương phản giản đồ histogram 35 Hình 2-25: Tách biên phương pháp Sobel Canny 36 Hình 2-26: Mơ hình Pinhole 38 Hình 2-27: Hình biểu diễn mặt phẳng khác mặt phẳng ảnh 38 Hình 2-28: Phép quay vectơ .40 Hình 2-29: Tương quan ảnh lý tưởng thực tế .41 viii Hình 3-1: Minh họa người dùng giao tiếp với robot 44 Hình 3-2: Robot phục vụ quán ăn 45 Hình 3-3: Minh họa cho trạm robot phục vụ khách 46 Hình 3-4: Sơ đồ khối tổng quát hệ thống 47 Hình 3-5: Lưu đồ giải thuật xử lý hệ thống .48 Hình 3-6: Cấu trúc tổng quát hệ thống Linux [4] 49 Hình 3-7: Giao diện hệ điều hành Ubuntu Desktop 10.04 nhân Linux 49 Hình 3-8: Một số thiết bị sử dụng hệ thống nhúng [4] 51 Hình 4-1: Giao diện phần mềm lập trình Python hệ điều hành Linux 52 Hình 4-2: Phần cứng dùng để chạy thử nghiệm .52 Hình 4-3: Thử nhận dạng chữ viết Google vision 53 Hình 4-4: Hiển thị đường đồ Google .53 Hình 4-5: Biểu đồ thể độ xác nhận dạng giọng nói hình ảnh .57 ix DANH SÁCH CÁC BẢNG Bảng 4-1: Trình tự hoạt động giao diện người dùng 56 Bảng 4-2: Bảng nhận xét độ xác dịch vụ 57 x TỔNG QUAN Giới thiệu Robot dịch vụ nhằm giúp đỡ người thực công việc ngày sống, để tăng hiệu cơng việc nghiên cứu giao tiếp người máy vô quan trọng, giúp dễ dàng sử dụng, nhanh chóng xác Điện tốn đám mây cịn gọi điện tốn máy chủ ảo mơ hình điện tốn sử dụng cơng nghệ máy tính phát triển dựa vào mạng Internet Thuật ngữ "đám mây" lối nói ẩn dụ mạng Internet liên tưởng độ phức tạp sở hạ tầng chứa Ở mơ hình điện tốn khả liên quan đến cơng nghệ thông tin cung cấp dạng "dịch vụ", cho phép người sử dụng truy cập dịch vụ cơng nghệ từ nhà cung cấp "trong đám mây" mà khơng cần phải có kiến thức, kinh nghiệm cơng nghệ đó; khơng cần quan tâm đến sở hạ tầng phục vụ cơng nghệ Dựa tảng cơng nghệ điện tốn đám mây, thơng tin thu thập, xử lý, lưu trữ có trật tự khoa học Từ máy tính hay robot nhận dạng hình ảnh thực tế giọng nói người cách xác Tương lai robot khơng cỗ máy vô tri vô giác mà cịn có cảm xúc khả phản ứng lại người khơng cịn xa vời Robot sử dụng liệu cơng nghệ điện tốn đám mây, cập nhật thuật tốn Google liệu bảo mật, truy cập khắp giới, hiệu cao cập nhật liên tục Tình hình nghiên cứu ngồi nước Nghiên cứu ngồi nước Đã có nhiều nghiên cứu việc triển khai giới thiệu thành công ứng dụng giọng nói Chúng ta nhắc đến Ask.com dịch vụ cho phép người dùng hỏi nhận câu trả lời, tích hợp cơng nghệ nhận dạng giọng nói Nuance phát triển vào ứng dụng iOS Android Sự liên kết cho phép người dùng hỏi, trả lời đăng tải lời bình luận Amazon cập nhật app Kindle iOS để hỗ trợ tính Voice Over iOS VoiceOver tự động đọc nội dung hình để giúp cho việc xem sách người bị khiếm thị dễ dàng thuận tiện Hãng cho biết có khoảng 1,8 triệu đầu sách e-book tương thích với tính Bản thân Amazon mua lại công ty IVONA Software vốn cung cấp giải pháp chuyển đổi từ chữ sang giọng nói cho sách mua từ Amazon Các phần mềm Siri, Google Voice hay Cortana: ứng dụng phát triển tập đồn cơng nghệ lớn với tiềm lực mạnh mẽ phát triển chuyên gia Bộ ba phần mềm giúp người dùng thiết bị di động tương tác với thiết bị cách thông minh hơn: từ việc đặt câu hỏi, nhận câu trả lời điều chỉnh thông số máy khởi chạy ứng dụng (app) Một việc đơn giản kể đến đặt lịch hẹn báo thức Trước phải cần đến chục thao tác chạm đặt xong kiện, với Siri, Google Voice hay Cortana người dùng cần lệnh Mọi thao tác từ việc ghi nội dung thiết lập giấc thực cách tự động Hiện ngày phổ biến cơng nghệ nhận dạng giọng nói ứng dụng chat/nhắn tin Facebook Messenger có tính chia sẻ giọng nói từ lâu, nhiều dịch vụ trị chuyện trực tuyến Zalo, Viber WhatsApp nước ngồi nhanh chóng đón đầu xu hướng để tích hợp tính trị chuyện trực tiếp cách nói vào sản phẩm Đây suy nghĩ hầu hết người thường xuyên sử dụng máy tính phải đối mặt với bàn phím kích cỡ nhỏ thiết bị di động Nghiên cứu nước Hiện tình hình nghiên cứu lĩnh vực nhận dạng giọng nói hình ảnh dựa tảng điện tốn đám mây cịn nhiều hạn chế, đa phần cá nhân phát triển thư viện mã nguồn mở Vì khả phát triển khó khăn, nguồn liệu hạn chế Chính lý ứng dụng đa phần nhận dạng giọng nói hình ảnh riêng biệt, chủ yếu chương trình điện thoại Mục tiêu đề tài Với mục tiêu nghiên cứu phương thức giao tiếp người máy sử dụng công nghệ điện toán đám mây, cụ thể dùng để giao tiếp với robot đường, robot giúp người dùng dễ dàng tìm địa điểm muốn tìm Người dùng u cầu lời nói hình ảnh Nhằm nâng cao hiệu việc giao tiếp cần có thiết bị nhận thông tin người dùng cách đơn giản, nhanh chóng xác Trong nghiên cứu dùng micro, camera, mạch xử lý nhúng để thu nhận âm thanh, hình ảnh từ người dùng Sau xử lý dựa liệu điện toán đám mây robot nhận thơng tin trả dạng văn bản, từ hiển thị thơng tin hỗ trợ người dùng tìm đường, ví trí tại, nhận dạng hình ảnh… Nội dung nghiên cứu Nội dung 1: Nghiên cứu ngơn ngữ lập trình phần cứng mạch nhúng Nội dung 2: Nghiên cứu phương thức giao tiếp với điện toán đám mây Google Nội dung 3: Nghiên cứu giải thuật nhận xử lý âm hình ảnh Nội dung 4: Nghiêu cứu giải thuật nhận, xử lý phản hồi thông tin robot Nội dung 5: Thiết kế chế tạo mơ hình thực nghiệm Nội dung 6: Đánh giá kết thực ưu điểm đáp ứng nhanh dễ dàng hiển thị nhiều tảng khác nhau, nên thuận lợi cho việc phát triển sau Q trình giao tiếp người dùng mơ tả sau: Giao diện chờ Camera nhận dạng mặt người để phát có người 54 Sau nhận biết có người đến hình chuyển sang giao diện hướng dẫn sử dụng Người dùng lệnh cho giọng nói theo hướng dẫn hình Từ bảng hướng dẫn người dùng hỏi đường đi, nhập địa giọng nói hình ảnh 55 Khi chế độ tìm đường robot nhận dạng tên địa điểm Robot thị đồ từ địa điểm đến địa điểm cần đến Bảng 4-1: Trình tự hoạt động giao diện người dùng 4.3 Nhận xét Sau hoàn thành thực nghiệm, phần đưa nhận xét kết đề tài sau: Đề tài ứng dụng thành công phương thức giao tiếp người máy sử dụng cơng nghệ điện tốn đám mây Google, nhận xét thấy trình truyền nhận liệu diễn nhanh chóng xác 90%, sử dụng tài khoản dùng thử nên số lần giao tiếp bị hạn chế 56 Đề tài nhúng thành cơng chương trình giao tiếp người dùng mạch nhúng Rasberry PI3, chứng minh khả sử dụng máy tính nhúng đề tài khả thi mở rộng ứng dụng thêm chức khác Đề tài nghiên cứu qui trình cài đặt chương trình, cách thử khai báo để sử dụng dịch vụ điện toán đám mây Google, tạo tiền đề để phát triển ứng dụng sau Quá trình thực nghiệm đề tài, kết cho thấy độ xác phương thức giao tiếp cao, khả lọc nhiễu tốt, cụ thể qua 50 lần thử nghiệm nhận dạng hình ảnh giọng nói ta có kết sau: Chợ Bến Thành Chợ Thủ Nhận dạng giọng nói Nhận dạng hình ảnh Nội dung Hà nội Vũng tàu Đức Chợ An Đông 95% 95% 97% 98% 98% 87% 85% 85% 92% 90% Bảng 4-2: Bảng nhận xét độ xác dịch vụ Biểu đồ thể độ xác nhận dạng giọng nói hình ảnh 98 96 94 92 90 88 86 84 82 80 78 Nhận Dạng Giọng Nói Chợ Bến Thành Chợ Thủ Đức Nhận Dạng Hình Ảnh Chợ An Đơng Hà Nội Vũng Tàu Hình 4-5: Biểu đồ thể độ xác nhận dạng giọng nói hình ảnh 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Kết luận văn xây dựng thành công phương thức giao tiếp người dùng mạch nhúng Các cơng việc thực luận văn: nghiên cứu phương thức giao tiếp giửa người robot, nghiên cứu xây dựng thuật toán nhận dạng giọng nói, xử lý hình ảnh điểm cài đặt chương trình xử lý mạch máy tính nhúng Bước đầu nghiên cứu hồn thành giao diện giao tiếp thực số yếu cầu hỗ trợ người dùng tìm đường giọng nói, hình ảnh, báo giờ, địa điểm Do mãng nghiên cứu lớn thực thời gian ngắn để hệ thống hoàn chỉnh, nên chương trình hoạt động chưa tốt hồn tồn Nhận dạng hình ảnh mức đơn giản Hướng phát triển thời gian tới hồn thiện chương trình mở rộng chức cho robot, tạo tảng để phát triển lĩnh vực dịch vụ, robot y sinh, quân sự,… 58 TÀI LIỆU THAM KHẢO [1] Campbell, “Speaker Recognition: A Tutorial”, Proceedings of the IEEE, vol 85, no 9, 1997 [2] Campbell, J P., Reynolds, D A., and Dunn, R B., “Fusing High- and Low-Level Features for Speaker Recognition”, In Proc Eurospeech in Geneva, Switzerland, ISCA, 2003, pp 2665-2668 [3] Chen, K., Dahong, X., and Huisheng, C.(1996): “Speaker Identification Using Time-Delay HMEs”, China International Journal of Neural Systems, vol 7, no 1, 1996 [4] David Chappell & Associates, Introducing the Azure Services Platform An easy look at Windows Azure Services Platform, 2008 [5] Fisusi, A., “Development of a Text-Independent Speaker Identification System”, An MSc Thesis submitted to the Department of Electronic and Electrical Engineering, Obafemi Awolowo University, Ile-Ife, Nigeria, 2007, 101p [6] Forsberg M Why is Speech Recognition Difficult, Department of Computing Science, Chalmers University of Technology, 24 February 2003 [7] Gish, H., and Schmit, “Text-Independent Speaker Identification”,IEEE, Signal Processing Magazine,1994 [8] Janaki Prasad Koirala, Identity Verification with Speech Recognition Helsinki Metropolia University of Applied Sciences, 2013 [9] John D Cook (2009, August) The Endeavour, http://www.johndcook.com/ blog/2009/08/24/algorithms-convert-color-grayscale/ [10] Judith Hurwitz, Robin Bloor, Marcia Kaufman, Cloud Computing for Dummies, Wiley Publishing, Inc [11] PGS.TS.Nguyễn Quan Hoan, Xử lý ảnh Hà Nội, Việt Nam, 2006 59 [12] Pan, Y and Waibel, A., “The Effects of the Room Acoustics on MFCC Speech Parameter,” International Conference on 51 African Journal of Information and Communication Technology, Vol 3, No 2, June 2007 Spoken Language Processing 2000 (ICSLP 2000) [13] Peskin, B., Navratil, J., Abramson, Jones, D., Klusacek, D., Reynolds, D.A.and Xiang, B “Using Prosodic and Conversational Features for High Performance Speaker Recognition: Report from JHU WS'02”, In Proc International Conference on Acoustics,Speech, and Signal Processing in Hong Kong, China, IEEE, 2003 [14] Phan Vân Hồn, “Giáo trình vi xử lý nâng cao”, Đại Học Sư Phạm Kỹ Thuật Tp.HCM, 2015 [15] Reynolds, D A., “An Overview of Automatic Speaker Recognition Technology”, Proceedings of the IEEE International Conference on Acoustics,Speech, and Signal Processing, vol 4, 2002 [16] Zilca, R.D., Navratil, J and Ramaswamy,N “Syncpitch: A pseudo pitch synchronous algorithm for speaker recognitio”, Proceedings of EUROSPEECH, 2003 60 NGHIÊN CỨU PHƯƠNG THỨC GIAO TIẾP GIỮA NGƯỜI VÀ MÁY DỰA TRÊN CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY, SỬ DỤNG TRONG ROBOT DỊCH VỤ STUDY ON THE METHOD OF HUMAN-ROBOT INTERACTIONBASED ON CLOUD COMPUTING AND APPLIED ON SERVICE ROBOT (1)LƯU MẠNH SƠN Học viên cao học trường ĐH SPKT TPHCM TÓM TẮT Ngày phát triển công nghệ, thiết bị ngày thông minh hơn, giúp người dùng dễ dàng giao tiếp điều khiển thiết bị xung quanh Số lượng thiết bị nhận dạng giọng nói, hình ảnh ngày tăng, điển tivi thơng minh, máy tính cá nhân, đặc biệt tất điện thoại di động có hỗ trợ nhận diện điều khiển giọng nói Ngồi ứng dụng thiết bị gia dụng, giáo dục cịn ứng dụng thủ thuật phẫu thuật, độ xác tốc độ trở nên quan trọng Trong luận văn nhằm mục đích giới thiệu phương thức giao tiếp người máy sử dụng điện toán đám mây Google Cụ thể dùng Google Speech API để nhận dạng âm thanh, Google Vision API để nhận dạng hình ảnh Một vấn đề mà luận văn nghiên cứu xây dựng giao diện, phương thức giao tiếp người dùng mạch máy tính nhúng Từ khố: Xử lý ảnh, Nhận dạng tiếng nói, Google Vision API ABSTRACT Nowadays based on the development of technology, the devices are becoming smarter and smarter which help users to communicate and control other devices around easily The increasing number of voice-visual devices, such as smart TVs, PCs and especially mobile phones are provided voice recognition and voice control Besides the applications on domestic appliance and enducation, there are also some appications on surgery Therefore, the accuracy and speed become very important This essay aims to introduce Google's method of communication between humans and machines In particular, Google Speech API is used for voice recognition as well as Google Vision API is used for image recognition A new issue of this research is included the building of interfaces and methods of user communication on embedded computer Key words: Image processing, Voice processor, Google Vision API Giới thiệu Robot dịch vụ nhằm giúp đỡ người thực công việc ngày sống, để tăng hiệu cơng việc nghiên cứu giao tiếp người máy vô quan trọng, giúp dễ dàng sử dụng, nhanh chóng xác Điện tốn đám mây cịn gọi điện tốn máy chủ ảo mơ hình điện tốn sử dụng cơng nghệ máy tính phát triển dựa vào mạng Internet Thuật ngữ "đám mây" lối nói ẩn dụ mạng Internet liên tưởng độ phức tạp sở hạ tầng chứa Ở mơ hình điện tốn khả liên quan đến cơng nghệ thông tin cung cấp dạng "dịch vụ"; cho phép người sử dụng truy cập dịch vụ cơng nghệ từ nhà cung cấp "trong đám mây" mà khơng cần phải có kiến thức, kinh 61 nghiệm cơng nghệ đó, không cần quan tâm đến sở hạ tầng phục vụ cơng nghệ Robot sử dụng liệu cơng nghệ điện tốn đám mây, cập nhật thuật tốn Google liệu bảo mật, truy cập khắp giới, hiệu cao cập nhật liên tục Giao tiếp người máy Hiện nhu cầu thị trường robot lớn robot vận chuyển, robot giám sát, robot giúp việc, ý tưởng robot cá nhân, trợ lý robot quan tâm từ lâu Robot sản xuất khắp nơi giới mở bán rộng rãi Tuy nhiên phép robot hoạt động với nhiệm vụ địi hỏi phải phát triển kỹ thuật mà người dùng cần phải huấn luyện, để robot hoạt động tiện lợi an tồn Hai đặc tính quan trọng giao tiếp người máy mà ta cần quan tâm là: thứ người dùng muốn cấu hình cần thiết phải dạy cho robot Hai người dùng muốn giám sát theo dõi đáp ứng robot Trong hai trường hợp đó, người dùng khơng vận hành robot, thay họ muốn hồn thành u cầu, chin điều quan trọng robot làm khơng nên làm Giao tiếp người máy liên quan đến hai khía cạnh sau: Một là, người dùng phải cung cấp phương thức cho phép họ dạy robot, nghĩa phải truyền tải yêu cầu người dùng đến chương trình hoạt động robot Hai là, phải có phản hồi đến người dùng thơng tin cần tiết để họ hiểu ảnh hưởng đến robot yêu cầu Nhận Dạng Giọng nói Việc thu nhận tiếng nói thời gian thực khuếch đại thường thực thông qua ADC (Analog-Digital Converter) Các thông số quan trọng bao gồm số bit cho mẫu (thông dụng từ đến 16 bit), tần số lấy mẫu (thông dụng từ 8Khz-16Khz) Những thông số liên quan nhiều tới hiệu năng, độ phức tạp thiết kế kết nhận dạng hệ thống nhúng Trích chọn đặc trưng Mục tiêu trích đặc trưng tham số hố tín hiệu tiếng nói thành chuỗi vector đặc trưng, chứa thông tin liên quan đến âm câu nói Đối với hệ thống nhận dạng tiếng nói nào, đặc trưng ngữ âm phải có tính chất sau: - Có khả phân biệt tốt tiếng nói có phát âm giống - Cho phép xây dựng mơ hình thống kê mà khơng địi hỏi q nhiều liệu huấn luyện - Có tính bất biến giọng nói khác nhau, mơi trường thu âm Tín hiệu Tiếng nói Chia Frame Frames FFT Power Spectrum Áp dụng Mel Filter Banks Vectors đặc trưng MFCC DCT Lấy Log Hình 1: Các bước rút trích đặc trưng MFCC từ tín hiệu âm [8] 62 Một đặc trưng lý tưởng (có tính chất nêu trên) thường không tồn thực tế Trong lĩnh vực nhận dạng tiếng nói, đặc trưng thường sử dụng MFCC (MelFrequency Cepstral Coefficients) LSP (Line Spectral Pairs)[8] Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu cách: chia tín hiệu thành đoạn độ dài 5-15 ms, đoạn gọi khung (frame) Mỗi frame cho đặc trưng vector đặc trưng tồn tín hiệu dãy vector MFCC phương pháp trích đặc trưng dựa đặc điểm cảm thụ tần số âm tai người: tuyến tính tần số nhỏ 1kHz phi tuyến tần số 1kHz (theo thang tần số mel, theo Hz) Vì lẽ nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC làm đặc trưng Việc tính đặc trưng MFCC có sơ đồ sau: Hình 2: Chi tiết bước trích chọn MFCC Hiện ngồi đặc trưng MFCC đặc trưng truyền thống khác (như LPC, PLP v.v), người ta sử dụng nhiều đặc trưng khác Wavelet, chiều Fractal, Tiger, đặc trưng siêu đoạn tính F0, formant để cải tiến độ xác nhận dạng Các đặc trưng bổ sung đưa vào để nâng cao chất lượng nhận dạng với việc khai thác đặc điểm sau: - Bền vững với tiếng nói nhiễu - Hạn chế nhược điểm biến đổi dựa FFT - Đặc thù ngữ âm ngơn ngữ Chuẩn hóa đặc trưng MFCC dựa vào tần số F0, từ giảm phụ thuộc hệ thống nhận dạng vào người nói, chất lượng nhận dạng tiếng nói tăng lên Hình 3: MFCC chuẩn Hình 4: MFCC biến đổi Lý phổ biến đặc trưng MFCC chuẩn đơn giản, truyền thống, độc lập ngôn ngữ, xuất sớm kết cơng bố nhận dạng tiếng nói Trong q trình nhận dạng, hầu hết trình tự tính tốn / tìm kiếm từ mơ hình sẵn có Từ ngữ có nhiều khả với xác suất lớn tạo xem kết lời nói dạng sóng 63 Hình 5: Thủ tục nhận dạng giọng nói theo thống kê Huấn luyện HMM : Đầu vào gồm T frame đặc trưng MFCC Bước 1: Xác định dãy trạng thái tối ưu thuật toán Viterbi: S = ({ }) = argmax ∑ log ( | ) (1) Bước 2: Hiệu chỉnh tham số mơ hình HMM: ∗ = 1 argmax ∑ log ( | , , ) (2) Bước 3: Đặt = *, lặp lại tới mô hình hội tụ Nhận dạng với HMM: Đầu vào gồm T frame đặc trưng MFCC Giải mã theo Viterbi để xác định tập nhãn, dãy trạng thái tối ưu ứng với tham số mơ hình HMM cho: ∑ log ( | , ) ( , = ({ }) ) = (3) Xử lý ảnh số Xử lý ảnh số thường biết đến với tên viết tắt DIP (Digital Image Proccessing) DIP sử dụng thuật tốn máy tính để phân tích ảnh kỹ thuật số Dưới sơ đồ trình xử lý ảnh: Hình 6: Sơ đồ xử lý ảnh số [16] Nguyên lý hoạt động hệ thống Hệ thống phục vụ khu vực biết trước với nhiệm vụ cung cấp thông tin cho khách, khách đến yêu cầu hỗ trợ Hệ thống gồm có hình hiển thị, camera micro để nhận thông tin cần hỗ trợ khách Người dùng nói trực tiếp ghi giấy địa muốn đến Sau xử lý thông tin thi hệ thống bắt đầu đáp ứng yêu cầu người dùng thông tin thời tiết, thời gian, địa điểm Sơ đồ tổng quát hệ thống.Với phương thức chọn hệ thống nhúng phương thức xử lý trực tuyến nên hệ thống tổng quát sau 64 Hình 7: Sơ đồ khối tổng quát hệ thống Lưu đồ giải thuật Quá trình giao tiếp hỗ trợ người dùng mô tả theo lưu đồ sau Hình 8: Lưu đồ giải thuật xử lý hệ thống Trong trình thực đề tài xây dựng chương trình ngơn ngữ Python hệ điều hành Raspbian, có chức giao tiếp với người dùng giọng nói, hình ảnh để cung cấp thông tin hỗ trợ thông qua dịch vụ điện toán đám mây Google Mục tiêu hướng đến đề tài ứng dụng robot dịch vụ nên yêu cầu giao diện phải linh hoạt, sinh động, có nhiều công cụ để xây dựng đề tài chọn ngôn ngữ NodeJS để xây dựng web server giao diện hiển thị web Với ưu điểm đáp ứng nhanh dễ dàng hiển thị nhiều tảng khác nhau, nên thuận lợi cho việc phát triển sau 65 Quá trình giao tiếp người dùng mô tả sau: Bước Bước Bước 3: Bước Bước Bước Bảng 1: Trình tự hoạt động giao diện người dùng Nhận xét Sau hoàn thành thực nghiệm, phần đưa nhận xét kết đề tài sau: Đề tài ứng dụng thành công phương thức giao tiếp người máy sử dụng công nghệ điện toán đám mây Google, nhận xét thấy trình truyền nhận liệu diễn nhanh chóng xác 90%, sử dụng tài khoản dùng thử nên số lần giao tiếp bị hạn chế Đề tài nhúng thành cơng chương trình giao tiếp người dùng mạch nhúng Rasberry PI3, chứng minh khả sử dụng máy tính nhúng đề tài khả thi mở rộng ứng dụng thêm chức khác Đề tài nghiên cứu qui trình cài đặt chương trình, cách thử khai báo để sử dụng dịch vụ điện toán đám mây Google, tạo tiền đề để phát triển ứng dụng sau Quá trình thực nghiệm đề tài, kết cho thấy độ xác phương thức giao tiếp cao, khả lọc nhiễu tốt, cụ thể qua 50 lần thử nghiệm nhận dạng hình ảnh giọng nói ta có kết sau: Nội dung Chợ Bến Chợ Thủ Chợ An Hà nội Vũng tàu nhận dạng Thành Đức Đơng Giọng nói 95% 95% 97% 98% 98% Hình ảnh 87% 85% 85% 92% 90% Bảng 2: Bảng nhận xét độ xác dịch vụ 66 Biểu đồ thể độ xác nhận dạng giọng nói hình ảnh 100 95 90 85 80 75 Nhận Dạng Giọng Nói Chợ Bến Thành Chợ Thủ Đức Nhận Dạng Hình Ảnh Chợ An Đơng Hà Nội Vũng Tàu Hình 9: Biểu đồ thể độ xác nhận dạng giọng nói hình ảnh Kết luận Kết luận văn xây dựng thành công phương thức giao tiếp người dùng mạch nhúng Các cơng việc thực luận văn: nghiên cứu phương thức giao tiếp giửa người robot, nghiên cứu xây dựng thuật tốn nhận dạng giọng nói, xử lý hình ảnh điểm cài đặt chương trình xử lý mạch máy tính nhúng Bước đầu nghiên cứu hoàn thành giao diện giao tiếp thực số yếu cầu hỗ trợ người dùng tìm đường giọng nói, hình ảnh, báo giờ, địa điểm Do mãng nghiên cứu lớn thực thời gian ngắn để hệ thống hồn chỉnh, nên chương trình hoạt động chưa tốt hồn tồn Nhận dạng hình ảnh mức đơn giản Hướng phát triển thời gian tới hồn thiện chương trình mở rộng chức cho robot, tạo tảng để phát triển lĩnh vực dịch vụ, robot y sinh, quân sự,… 67 TÀI LIỆU THAM KHẢO [1] Campbell, “Speaker Recognition: A Tutorial”, Proceedings of the IEEE, vol 85, no 9, 1997 [2] Campbell, J P., Reynolds, D A., and Dunn, R B., “Fusing High- and Low-Level Features for Speaker Recognition”, In Proc Eurospeech in Geneva, Switzerland, ISCA, 2003, pp 2665-2668 [3] Chen, K., Dahong, X., and Huisheng, C.(1996): “Speaker Identification Using TimeDelay HMEs”, China International Journal of Neural Systems, vol 7, no 1, 1996 [4] David Chappell & Associates, Introducing the Azure Services Platform An easy look at Windows Azure Services Platform, 2008 [5] Fisusi, A., “Development of a Text-Independent Speaker Identification System”, An MSc Thesis submitted to the Department of Electronic and Electrical Engineering, Obafemi Awolowo University, Ile-Ife, Nigeria, 2007, 101p [6] Forsberg M Why is Speech Recognition Difficult, Department of Computing Science, Chalmers University of Technology, 24 February 2003 [7] Gish, H., and Schmit, “Text-Independent Speaker Identification”,IEEE, Signal Processing Magazine,1994 [8] Janaki Prasad Koirala, Identity Verification with Speech Recognition Helsinki Metropolia University of Applied Sciences, 2013 [9] John D Cook (2009, August) The Endeavour, http://www.johndcook.com/ blog/2009/08/24/algorithms-convert-color-grayscale/ [10] Judith Hurwitz, Robin Bloor, Marcia Kaufman, Cloud Computing for Dummies, Wiley Publishing, Inc [11] PGS.TS.Nguyễn Quan Hoan, Xử lý ảnh Hà Nội, Việt Nam, 2006 [12] Pan, Y and Waibel, A., “The Effects of the Room Acoustics on MFCC Speech Parameter,” International Conference on 51 African Journal of Information and Communication Technology, Vol 3, No 2, June 2007 Spoken Language Processing 2000 (ICSLP 2000) [13] Peskin, B., Navratil, J., Abramson, Jones, D., Klusacek, D., Reynolds, D.A.and Xiang, B “Using Prosodic and Conversational Features for High Performance Speaker Recognition: Report from JHU WS'02”, In Proc International Conference on Acoustics,Speech, and Signal Processing in Hong Kong, China, IEEE, 2003 [14] Phan Vân Hồn, “Giáo trình vi xử lý nâng cao”, Đại Học Sư Phạm Kỹ Thuật Tp.HCM, 2015 [15] Reynolds, D A., “An Overview of Automatic Speaker Recognition Technology”, Proceedings of the IEEE International Conference on Acoustics,Speech, and Signal Processing, vol 4, 2002 [16] Zilca, R.D., Navratil, J and Ramaswamy,N “Syncpitch: A pseudo pitch synchronous algorithm for speaker recognitio”, Proceedings of EUROSPEECH, 2003 Thông tin liên hệ tác giả: Họ tên: Lưu Mạnh Sơn Điện thoại: 0984492226 Email: luumanhson@gmail.com 68 ... chương trình điện thoại Mục tiêu đề tài Với mục tiêu nghiên cứu phương thức giao tiếp người máy sử dụng cơng nghệ điện tốn đám mây, cụ thể dùng để giao tiếp với robot đường, robot giúp người dùng... nghiên cứu giao tiếp người máy vô quan trọng, giúp dễ dàng sử dụng, nhanh chóng xác Điện tốn đám mây cịn gọi điện tốn máy chủ ảo mơ hình điện tốn sử dụng cơng nghệ máy tính phát triển dựa vào mạng... Tổng quan điện toán đám mây  Khái niệm Điện toán đám mây phát triển dựa vào mạng Internet sử dụng cơng nghệ máy tính Đây kiểu điện tốn tài ngun tính toán lưu trữ cung cấp dịch vụ mạng Người dùng

Tiêu đề	Nghiên Cứu Phương Thức Giao Tiếp Giữa Người Và Máy Dựa Trên Công Nghệ Điện Toán Đám Mây, Sử Dụng Trong Robot Dịch Vụ
Thể loại	luận văn

Định dạng
Số trang	75
Dung lượng	2,56 MB