1. Trang chủ
  2. » Tất cả

Ứng dụng phương pháp phân tích thành phần chính và mạng neuron nhân tạo để nhận dạng ngôn ngữ ký hiệu

6 1 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 606,44 KB

Nội dung

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG SỐ 10(71) 2013 122 ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ MẠNG NEURON NHÂN TẠO ĐỂ NHẬN DẠNG NGÔN NGỮ KÝ HIỆU APPLICATION OF PRINCIPAL COMPONE[.]

TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 10(71).2013 ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ MẠNG NEURON NHÂN TẠO ĐỂ NHẬN DẠNG NGÔN NGỮ KÝ HIỆU APPLICATION OF PRINCIPAL COMPONENT ANALYSIS METHOD AND ARTIFICIAL NEURAL NETWORK FOR IDENTIFYING SIGN LANGUAGE Huỳnh Hữu Hưng, Tống Thị Hồng Ngọc, Nguyễn Trọng Nguyên Trường Đại học Bách khoa, Đại học Đà Nẵng hhhung@dut.udn.vn, hongngoc219.90@gmail.com, ntnguyen.dn@gmail.com TĨM TẮT Ngơn ngữ ký hiệu ngơn ngữ sử dụng cộng đồng người khiếm thính để thay cho ngơn ngữ nói truyền thống Ngồi ra, ngơn ngữ ký hiệu cịn sử dụng việc tương tác người máy Trong báo này, đề xuất giải pháp nhận dạng ngơn ngữ ký hiệu sựa phương pháp phân tích thành phần mạng neuron nhân tạo Đầu tiên bàn tay phát hiện, sau số bước tiền xử lý thực để nâng cao chất lượng ảnh, tiếp đến chúng tơi tính tốn khơng gian để biểu diễn ảnh cho số chiều nhỏ không gian ban đầu mà đặc trưng ảnh giữ lại tối đa, cuối mạng neuron nhân tạo dùng để huấn luyện nhận dạng ảnh cách ánh xạ ảnh đầu vào vào khơng gian tìm Giải pháp có chi phí tính tốn thấp thực thi việc nhận dạng theo thời gian thực Kết thử nghiệm cho thấy độ ổn định xác cao Từ khóa: ngơn ngữ ký hiệu; cử chỉ; màu da; phân tích thành phần chính; trị riêng; vector riêng ABSTRACT Sign language is used in the deaf community to replace the traditional spoken language In addition, sign language is also used in the interaction between people and machines In this paper, we propose a solution to recognize sign language using the principal component analysis method and artificial neural network At first, the hand is detected, then some preprocessing steps are taken to improve the image quality, then we determine a new space to represent the hand image with fewer dimensions than the original space and characteristics of the image are kept, and the artificial neural network is used for training and testing with the mapped input image This solution has low computational cost, and can execute in real-time The proposed approach has been tested with high accuracy and stability Key words: sign language; gesture; skin color; PCA; eigenvalue; eigenvector Đặt vấn đề Ngôn ngữ ký hiệu phương pháp giao tiếp sử dụng người khiếm thính Ngơn ngữ sử dụng cử thực cách cử động bàn tay kết hợp với nét mặt hay điệu thể Lĩnh vực nghiên cứu nhận dạng ngôn ngữ cử đẩy mạnh để giúp người khiếm thính dễ dàng hòa nhập cộng đồng Hầu hết nhà nghiên cứu sử dụng thiết bị chuyên dụng găng tay, cảm biến nhận dạng dựa kĩ thuật xử lý ảnh thơng qua camera máy tính Các giải pháp xử lý ảnh thường dựa hai phương pháp chính: tập luật máy học Trong báo đề xuất 122 hướng tiếp cận lĩnh vực máy học khái quát cử tay dạng tĩnh phương pháp phân tích thành phần kết hợp với mạng neuron nhân tạo Các nghiên cứu liên quan Một số đề tài đề xuất phương pháp nhận dạng cử cách sử dụng máy ảnh kỹ thuật xử lý ảnh Mục tiêu chung nghiên cứu để giúp người khuyết tật giao tiếp với nhau, thay ngôn ngữ truyền thống ngôn ngữ cử Một ứng dụng khác ngôn ngữ cử tương tác người – máy, cử dùng liệu đầu vào, thông tin truyền đến máy tính thơng qua webcam Fujisawa [1] phát triển thiết bị truyền HID để thay cho chuột máy tính dành TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 10(71).2013 cho người tàn tật Bretzner [2] phát triển hệ thống mà người dùng điều khiển TV, đầu DVD dựa cử tay thông qua camera Marshall [3] thiết kế hệ thống để hỗ trợ người dùng tương tác với hệ thống đa phương tiện dựa cử Malima [4] đề xuất thuật toán tự động xác định số cử tay dùng cho mục đích điều khiển robot Để nhận dạng cử tay, việc lựa chọn đặc trưng quan trọng cử tay đa dạng hình dạng, biến đổi, chuyển động kết cấu Hầu hết tính sử dụng nghiên cứu trước trích xuất từ ba phương pháp sau Phương pháp tiếp cận dựa mơ hình: phương pháp cố gắng suy tư lòng bàn tay góc khớp, tạo mơ hình 3D bàn tay, lý tưởng cho tương tác môi trường thực tế ảo Ueda [5] áp dụng phương pháp để tương tác với đối tượng không gian ảo, khu vực bàn tay xác định dựa hệ thống nhiều camera hoạt động Utsumi [6] dựa vào hình dạng chuyển động bàn tay để điều khiển đối tượng giới ảo Bettio [7] trình bày cách phát triển môi trường tương tác cho phép người tương tác với mơ hình 3D phức tạp mà không cần phải tự vận hành thiết bị đầu vào Trong phương pháp tiếp cận dựa mơ hình, nhiễu vấn đề có ảnh hưởng lớn đến kết thực hiện, đồng thời đòi hỏi nhiều thời gian để thiết kế hệ thống Một phương pháp khác thực dựa chuỗi ảnh 2D thu góc nhìn khác thời điểm, cử mơ hình hóa chuỗi góc nhìn Một kết hợp tuyến tính hình ảnh sử dụng để khoảng tái tạo lại cử thực tế Cách tiếp cận sử dụng nhiều nghiên cứu nhận dạng cử tay, chẳng hạn [8] Dù vậy, tỉ lệ lỗi phương pháp lên đến 7%, đồng thời việc thu thập ảnh huấn luyện vấn đề Đặc trưng cấp thấp: Một số nhà nghiên cứu trình bày phương pháp nhận dạng dựa đặc trưng đơn giản, cho thơng tin chi tiết hình dạng tay không cần thiết Họ nhận thấy tất bàn tay người có màu sắc nằm miền giá trị khác chủ yếu độ sáng Để nhận dạng, bàn tay xác định dựa màu sắc đặc trưng trích xuất dựa vào tọa độ tâm bàn tay, độ lệch tâm, hay góc trục khung ellipse bao bàn tay [4] Phương pháp đề xuất 3.1 Dữ liệu vào liệu thử nghiệm Dữ liệu hình ảnh chuỗi hình ảnh (video), thực camera hướng phía bàn tay thực cử Một số hệ thống sử dụng hai nhiều camera để có thêm thơng tin bàn tay, ưu điểm hệ thống nhận cử tay bị che khuất bù lại, chi phí tính tốn cao, khó áp dụng vào hệ thống nhận dạng theo thời gian thực Các giai đoạn trình nhận dạng phức tạp ảnh thu có đơn giản độ tương phản cao so với bàn tay Vì vậy, ảnh thường thu mơi trường đồng nhất, hạn chế bóng xuất ảnh thu Dữ liệu dùng để thực đề tài thu thập từ nhiều nguồn liệu mở 3.1.1 Ảnh Ảnh thu thập từ số liệu mở [14][15] trực tiếp từ webcam Hình Một số ảnh từ tập liệu [14] 3.1.2 Video Video ghi lại từ webcam cố định, với đơn giản ánh sáng ổn định Một người thực số cử trước webcam Để việc xác định bàn tay đơn giản, cánh tay che lại người thực không lộ khuôn mặt webcam Các video thử nghiệm định dạng AVI (Audio Video Interleave) 3.2 Tiền xử lý Dưới bước cần thiết để trích lọc đối tượng, nâng cao chất lượng ảnh chuẩn hóa nhằm nâng cao hiệu nhận dạng 123 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 10(71).2013 3.2.1 Phát tay Để xác định cử tay, bước phát tay ảnh đầu vào Trong giải pháp đề xuất, sử dụng phương pháp lọc màu da Theo Fleck Forsyth [16], màu da người tạo thành hai cực màu sắc: màu đỏ (máu) màu vàng (melanin), với độ bão hòa trung bình Fleck nhận thấy màu da cấu trúc biên độ thấp Màu sắc đặc trưng da sử dụng để phát tay người Hình Kết lọc màu da 3.2.2 Chọn đối tượng lớn Bước giúp giữ lại đối tượng hình ảnh Đối với hệ thống xác định cử tay, đối tượng lớn xuất ảnh bàn tay Vì vậy, sau bước này, đối tượng không liên quan loại bỏ sử dụng để loại bỏ nhiễu Khử nhiễu bước tiền xử lý điển hình để cải thiện kết xử lý ảnh sau (ví dụ, phát cạnh đối tượng ảnh) Lọc trung vị sử dụng rộng rãi vì, theo số điều kiện định, giữ lại cạnh loại bỏ nhiễu 3.2.4 Loại bỏ cánh tay Trong số trường hợp, kết lọc màu da chứa cánh tay Vì cánh tay khơng sử dụng trình nhận dạng nên chúng cần loại bỏ khỏi ảnh Bước không giúp nâng cao độ xác mà cịn giảm chi phí tính tốn xử lý – yếu tố quan trọng ứng dụng thời gian thực Đầu tiên, tay tách riêng khung chữ nhật bao quanh Sau vị trí cổ tay xác định, bàn tay cánh tay tách vị trí Giải thuật xác định vị trí cổ tay chúng tơi đề xuất trình bày đây: Gọi mi bề rộng đối tượng dòng i  B1: tính mi dịng cuối  B2: tính mi-1 dịng bên  B3: m khơng tăng quay lại bước B2, ngược lại cổ tay dịng dịng Hình Giữ lại đối tượng lớn 3.2.3 Sử dụng lọc trung vị cho ảnh xám Hình Xác định cổ tay tách bàn tay 3.2.5 Chuẩn hóa độ sáng ảnh Bước cải thiện độ tương phản, giúp cân độ sáng ảnh Điều giúp độ xác khơng bị ảnh hưởng ảnh thu điều kiện ánh sáng khác Hình Lọc trung vị ảnh xám Trong xử lý ảnh số, khử nhiễu bước cần thiết để mang lại kết tốt mong muốn Lọc trung vị kỹ thuật lọc phi tuyến, thường 124 Hình Chuẩn hóa độ sáng ảnh 3.2.6 Biến đổi kích thước ảnh Bước chuẩn hóa kích thước bàn tay ảnh, chuẩn bị cho q trình huấn luyện TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 10(71).2013 nhận dạng, đồng thời tăng độ xác Nếu sử dụng phương pháp biến đổi kích thước thơng thường, bàn tay bị thu nhỏ kéo dãn tỷ lệ (ngang/dọc) khác so với ban đầu, đặc trưng bàn tay kết nhận dạng bị ảnh hưởng Vì đề xuất bước bổ sung trước thực chuẩn hóa kích thước ảnh Đầu tiên bàn tay cắt riêng khỏi ảnh khung bao chữ nhật Giả sử có hình ảnh tay với kích thước w*h, h chiều cao w chiều rộng hình ảnh α định nghĩa độ chênh lệch w h Chúng đề xuất phương pháp để điều chỉnh kích thước bàn tay sau:  Nếu h > w α = h – w o Chèn α/2 cột vào bên trái ảnh o Chèn α/2 cột vào bên phải ảnh  Nếu h < w α = w – h o Chèn α/2 dòng vào bên ảnh o Chèn α/2 dòng vào bên ảnh Sử dụng phương pháp hiệu chỉnh kích thước thơng dụng để đưa ảnh thu kích thước 50x50 Một ví dụ hiệu chỉnh kích thước ảnh với h < w trình bày hình đây:  M M  i 1 i (2) Bước 3: tính độ sai khác vector ảnh mẫu với vector ảnh trung bình Φi = Γi – Ψ (3) Bước 4: tính ma trận hiệp phương sai C theo công thức sau: C M M   i 1 i T i  AAT M (4) Trong A = [Φ1, Φ2, Φ3… ΦM] Bước 5: xác định M vector trực giao ui mơ tả tốt phân bố tập liệu Tuy nhiên kích thước ma trận C lớn (2500x2500) Vì để tìm ui, xác định vector riêng vi ma trận L=ATA có kích thước MxM Bước 6: tính vector riêng ma trận C dựa vector riêng ma trận L ui = Avi (5) Bước 7: ảnh mẫu Γ ánh xạ sang không gian biểu diễn dạng vector Ω   uiT (  ) (6) Trong ΩT = [ω1, ω2, ω3… ωM] Các vector thu vector đặc trưng sử dụng cho việc huấn luyện Để nhận dạng cử chỉ, ảnh ánh xạ lên không gian công thức (6) vector thu đầu vào mạng neuron 3.3.2 Huấn luyện mạng nhận dạng Chúng tơi sử dụng mạng neuron nhân tạo ưu điểm sau: khả tổng qt hóa, tính tốn phi tuyến, bị ảnh hưởng nhiễu mạng có khả xử lý song song Hình Hiệu chỉnh kích thước ảnh với h < w 3.3 Nhận dạng cử 3.3.1 Trích xuất đặc trưng Để trích xuất đặc trưng cho ảnh tập mẫu, chúng tơi sử dụng phương pháp phân tích thành phần [17] sau: Bước 1: ta có tập S với M ảnh mẫu, ảnh chuyển sang dạng vector kích thước N = 2500 phần tử (50x50) S = {Γ1, Γ2, Γ3… ΓM} Bước 2: tính tốn ảnh trung bình (1) Chúng tơi thiết kế mạng Perceptron có ba lớp: lớp vào có số neuron tương ứng với kích thước vector đặc trưng (số lượng ảnh huấn luyện), số neuron lớp ẩn xác định phương pháp thử-sai, lớp có 23 neuron tương ứng với 23 cử cần nhận dạng Hàm chuyển sử dụng hàm tansig: tansig (n)  1  e2 n (7) 125 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 10(71).2013 Kết thử nghiệm Kết luận Chúng sử dụng webcam Logitech 9000, khoảng cánh từ webcam đến bàn tay nằm khoảng 0.8 đến 1.2m Hệ thống xây dựng ngôn ngữ C# sử dụng thư viện OpenCVSharp Chúng chọn 23 ký tự bảng chữ để nhận dạng, với 40 ảnh mẫu huấn luyện cho ký tự Các ảnh bao gồm ảnh mẫu đề cập ảnh thu thập thực tế Trong báo này, hướng tiếp cận đề xuất để nhận dạng ngôn ngữ ký hiệu Hệ thống nhận dạng bao gồm bước sau: phân đoạn ảnh, tiền xử lý, trích xuất đặc trưng, huấn luyện nhận dạng Trong bước phân đoạn, thông tin màu sắc sử dụng để xác định điểm ảnh có màu tương tự màu da Quá trình tiền xử lý nâng cao chất lượng ảnh để phục vụ cho việc nhận dạng Các đặc trưng bàn tay trích xuất phương pháp phân tích thành phần chính, mạng neuron nhân tạo sử dụng để nhận dạng Chúng đề xuất phương pháp đơn giản để loại bỏ cánh tay, giúp nâng cao hiệu nhận dạng Bên cạnh đó, kích thước ảnh bàn tay chuẩn hóa đồng thời giữ nguyên tỉ lệ, qua giữ đặc trưng quan trọng cử chỉ, giải pháp thường thấy điều chỉnh kích thước trực tiếp làm ảnh bị co giãn không tỉ lệ ngang-dọc đối tượng ban đầu Ngồi hệ thống thực thi theo thời gian thực Các cử thử nghiệm cách thực trực tiếp trước webcam Mỗi cử nhận dạng 100 lần, tương ứng với tập 2300 cử nhận dạng Tỉ lệ nhận dạng xác trung bình đạt 93.6% với 920 ảnh mẫu huấn luyện Kết cụ thể ký tự trình bày hình Nhiều ký tự nhận dạng chuẩn xác A, B, E tỉ lệ xác cao (trên 90%) C, D, Đ, G, I, K, L, O, P, Q, S, T, U, V, X, Y Dù vậy, số cử thường bị nhận dạng nhầm H, M, N R Nguyên nhân độ tương đồng cao đặc trưng cử (ví dụ M N) Một số lý khác độ nghiêng bàn tay lớn lịng bàn tay khơng hướng thẳng vào webcam Giải pháp số phương pháp khác áp dụng liệu huấn luyện thử nghiệm so sánh độ xác bảng đây: Bảng So sánh độ xác phương pháp Hình Kết nhận dạng với 23 ký tự Chúng [9] 93.6% 84% [10] [11] [12] [13] 92.78% 90.45% 92.2% 90.45% Trong nghiên cứu tới, giải pháp cải tiến để nhận dạng cử tay động, hiệu góc nghiêng bàn tay lớn lịng bàn tay khơng hướng thẳng camera TÀI LIỆU THAM KHẢO [1] Fujisawa, S et al, “Fundamental research on human interface devices for physically handicapped persons”, 23rd Int Conf IECON, New Orleans, 1997 [2] Soren Lenman, Lars Bretzner, Bjorn Thuresson, “Computer Vision Based Hand Gesture Interfaces for Human – Computer Interaction”, Department of Numerical Analysis and Computer Science, June 2002 [3] M Marshall, “Virtual Sculpture-Gesture Controlled System for Artistic Expression”, Proceedings of the AISB 2004 COST287 - ConGAS Symposium on Gesture, Interfaces for Multimedia Systems, Leeds, UK, 2004, pp 58-63 126 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 10(71).2013 [4] A Malima, E Ozgur, M Cetin, “A fast algorithm for vision-based hand gesture recognition for robot control”, IEEE Conference on Signal Processing and Communications 2006, 2006, pp.1-4 [5] Ueda E., “A Hand Pose Estimation for Vision-Based Human Interfaces”, IEEE Transactions on Industrial Electronics, Vol 50, No 4, 2003, pp 676–684 [6] Utsumi A., Ohya J., “Multiple Hand Gesture Tracking using Multiple Cameras”, Proc Int Conf on Computer Vision and Pattern Recognition, 1999, pp.473–478 [7] Bettio, F et al, “A Practical Vision-Based Approach to Unencumbered Direct Spatial Manipulation in Virtual Worlds”, Eurographics Italian Chapter Conf., 2007 [8] Gupta N et al, “Developing a gesture based inter-face”, IETE, Journal of Research: Special Issue on Visual Media Processing, 2002 [9] Mokhtar M Hasan, Pramoud K Mirsa, “Brightness Factor Matching For Gesture Recognition System Using Scaled Normalization”, International Journal of Computer Science & Information Technology (IJCSIT), Vol 3(2), 2011 [10] V S Kulkarni, S D Lokhande, “Appearance Based Recognition of American Sign Language Using Gesture Segmentation”, International Journal on Computer Science and Engineering (IJCSE), Vol 2(3), 2010, pp 560-565 [11] Shuying Zhao, Wenjun Tan, Shiguang Wen, Yuanyuan Liu, “An Improved Algorithm of Hand Gesture Recognition under Intricate Background”, Springer the First International Conference on Intelligent Robotics and Applications (ICIRA 2008), Part I., 2008, pp 786–794 [12] Byung-Woo Min, Ho-Sub Yoon, Jung Soh, Yun-Mo Yang, Toshiaki Ejima, “Hand Gesture Recognition Using Hidden Markov Models”, IEEE International Conference on computational cybernetics and simulation, Vol.5, 1997 [13] E Stergiopoulou, N Papamarkos, “Hand gesture recognition using a neural network shape fitting technique”, Elsevier Engineering Applications of Artificial Intelligence, Vol 22(8), 2009, pp 1141 – 1158 [14] Sébastien Marcel - Hand Posture and Gesture Datasets: http://www.idiap.ch/resource/gestures [15] T.M's Gesture Recognition: http://www-prima.inrialpes.fr/FGnet/data/12-MoeslundGesture [16] Fleck M., Forsyth D., Bregler C., “Finding Naked People”, European Conference on Computer Vision, 1996 [17] Lindsay I Smith – A tutorial on Principal Component Analysis, Feb 2002 (BBT nhận bài: 10/08/2013, phản biện xong: 10/09/2013) 127 ... tay trích xuất phương pháp phân tích thành phần chính, mạng neuron nhân tạo sử dụng để nhận dạng Chúng đề xuất phương pháp đơn giản để loại bỏ cánh tay, giúp nâng cao hiệu nhận dạng Bên cạnh đó,... đầu vào mạng neuron 3.3.2 Huấn luyện mạng nhận dạng Chúng sử dụng mạng neuron nhân tạo ưu điểm sau: khả tổng qt hóa, tính tốn phi tuyến, bị ảnh hưởng nhiễu mạng có khả xử lý song song Hình Hiệu. .. huấn luyện cho ký tự Các ảnh bao gồm ảnh mẫu đề cập ảnh thu thập thực tế Trong báo này, hướng tiếp cận đề xuất để nhận dạng ngôn ngữ ký hiệu Hệ thống nhận dạng bao gồm bước sau: phân đoạn ảnh,

Ngày đăng: 27/02/2023, 07:38

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w