Bài viết đề xuất phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ liệu được thu từ camera Kinect phiên bản 2. Việc xác định mức độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra bởi Nearest Neighbor (NN). Việc thực nghiệm trên 10 từ tiếng Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với ứng dụng thực tế. Mời các bạn cùng tham khảo!
Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử động dựa hệ tọa độ cầu Võ Đức Hoàng, Huỳnh Hữu Hưng, Nguyễn Hồng Sang Trung tâm DATIC, Trường Đại học Bách Khoa, Đại học Đà Nẵng Email: {hoangvd.it, hhhung}@dut.udn.vn, sangnguyenhong@hotmail.com Abstract—Ngôn ngữ ký hiệu phương tiện giao tiếp sử dụng phổ biến cộng đồng người khiếm thính Ngơn ngữ ký hiệu có đặc trưng riêng với quốc gia khác nhau, biểu diễn thông qua cử hình dạng bàn tay, khuỷu tay, hay khn mặt Trong báo này, đề xuất phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử động với liệu thu từ camera Kinect phiên Việc xác định mức độ tương đồng hai cử thực thuật toán Dynamic Time Warping (DTW) kết phân lớp đưa Nearest Neighbor (NN) Việc thực nghiệm 10 từ tiếng Việt mang lại hiệu nhận dạng trung bình lên đến 92%, đồng thời hệ thống xử lý theo thời gian thực nhằm phù hợp với ứng dụng thực tế Sự đời camera Kinect bước ngoặc lớn xử lý ngôn ngữ cử Hình Camera đa Kinect Năm 2010, Microsoft cho mắt phiên camera Kinect XBOX (hình 1) với nhiều tính thú vị như: camera hồng ngoại, camera chiều sâu, camera màu, nhận dạng giọng nói,… Đặc biệt, ta sử dụng cảm biến camera thông qua API hỗ trợ SDK dành cho Kinect XBOX Với ưu điểm vượt trội tiền xử lý liệu, nhiều báo khoa học sử dụng Kinect XBOX thiết bị thu nhận liệu xử lý ngôn ngữ ký hiệu Zahoor Zafrulla cộng [9] coi người cho đặt móng cho nhận dạng ngơn ngữ ký hiệu sử dụng Kinect Nhóm tác giả nhận thấy trò chơi giáo dục cho trẻ em khiếm thính CopyCat có tiềm cải thiện hiệu nhận dạng đáng kể cách sử dụng Kinect Hệ thống giúp người dùng thỏa mái mang găng tay màu, cảm biến gia tốc phải có dây nối trực tiếp với máy tính Đặc biệt sử dụng Kinect giá thành rẻ so với việc sử dụng máy ảnh có độ phân giải cao Tháng 6/2012 Capilla, D.M [10] công bố dự án bao gồm hệ thống tự động dịch ngơn ngữ ký hiệu kết nối với máy tính nhằm tạo giao tiếp thuận tiện người khiếm thính người bình thường khơng hiểu ngơn ngữ ký hiệu Hệ thống sử dụng Kinect XBOX 360TM Microsoft phát triển để theo dõi cử người khiếm thính (hình 2) Keywords- Vietnamese sign language, Kinect, Dynamic Time Warping, Nearest Neighbor, so khớp mẫu, khung xương I GIỚI THIỆU Ngày hệ thống thị giác máy tính áp dụng nhiều lĩnh vực như: giám sát, điều khiển công nghiệp, giao tiếp người máy, truyền thơng, điều khiển rơ bốt Có hai xu hướng nghiên cứu nhận dạng ngơn ngữ ký hiệu tùy thuộc vào loại cử tĩnh hay động Các nghiên cứu nhận dạng ngôn ngữ ký hiệu tiếng Việt (Vietnamese Sign Language - VSL) tĩnh [1]-[4] cho kết cao, ví dụ nghiên cứu nhận dạng VSL tĩnh H.H.Hưng cộng đưa vào năm 2012 [1], liệu thu nhận dạng ảnh 2D thông qua camera màu Sau trích xuất đặc trưng dựa hình dạng đường bao, mạng nơ-ron nhân tạo sử dụng để thực việc phân lớp Việc thử nghiệm thực ký hiệu tương ứng với bảng chữ tiếng Việt (nhiều ký tự so với quốc tế) với độ xác lên đến 98% Trong nghiên cứu xử lý ngôn ngữ cử trước đây, nhà khoa học sử dụng phương pháp thu nhận liệu khác để nhận dạng ngôn ngữ ký hiệu: Starner T cộng [6] sử dụng hai camera để thu ảnh hai hình ảnh hai chiều, nhiên trình tiền xử lý phức tạp phải đồng liệu hai camera Imagawa cộng [7] áp dụng kĩ thuật xử lý ảnh màu để phát theo vết bàn tay, Jung [8] sử dụng thiết bị thu nhận đo điện đồ (EMGElectromyography) để phân loại cử tay ngôn ngữ ký hiệu tiếng Hàn Quốc Bên cạnh đó, nhiều nghiên cứu sử dụng găng tay cảm biến, găng tay màu giới thiệu Tất phương pháp tồn ưu nhược điểm riêng: việc nhận dạng camera 2D đơn giản mặt thiết bị phức tạp khâu xử lý liệu chuẩn; phương pháp điện đồ, găng tay cảm biến màu mang lại bất tiện địi hỏi chi phí thiết bị đáng kể ứng dụng thực tế ISBN: 978-604-67-0635-9 Jean Meunier DIRO, Đại học Montreal, Canada Email: meunier@iro.umontreal.ca Hình Hệ thống hỗ trợ người khiếm thính 222 222 HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) Với phiên Kinect for Windows (Kinect v2), thông số kỹ thuật camera vượt trội so với Microsoft XBOX: camera màu nâng lên FullHD (1920 x 1080 @30 fps) so với (640 x 480 @30 fps), camera chiều sâu (512 x 424) so với (320 x 240), bắt 25 điểm khung xương so với 20 điểm, theo dõi lúc đối tượng người thao tác trước thiết bị Ngồi cịn có nhiều nghiên cứu nhận dạng ngôn ngữ ký hiệu sử dụng Kinect Các báo cáo Simon Lang [11] sử dụng Kinect để thu nhận liệu 3D, áp dụng mơ hình HMM để nhận dạng ký hiệu với kết đạt 97.7% Bài báo theo dõi chuyển động tay Li Yi [12] cho thấy Kinect thật phù hợp với nhận dạng ngơn ngữ ký hiệu cung cấp liệu hình ảnh 3D hiệu thay phải sử dụng nhiều camera định vị trích xuất hiệu phận thể người thu như: bàn tay, khủy tay, đầu, thân chân Một ưu điểm Kinect thiết bị độc lập với mơi trường ánh sáng, phát chuyển động thể người bóng tối Kinect giúp giải vấn đề thu nhận liệu đầu vào không cần găng tay cảm biến, dây nối từ người thực hay phải thông qua bước tiền xử lý ảnh như: loại bỏ ảnh lọc nhiễu, làm mịn đối tượng Giải pháp đề xuất sử dụng thông tin 3D Kinect cung cấp để trích xuất đặc trưng biểu diễn cử Ngôn ngữ ký hiệu tiếng Việt so với ngơn ngữ ký hiệu giới có đặc điểm chung: sử dụng chung ký hiệu bảng chữ latinh, sử dụng chung bảng chữ số, sử dụng hành động bàn tay kết hợp với hành động khn mặt, hình miệng, ngơn ngữ thể để bày tỏ ý kiến, miêu tả đối tượng hành động Ngồi ra, ngơn ngữ ký hiệu tiếng Việt (cử động) có đặc trưng khác biệt so với ngôn ngữ ký hiệu nước khác: sử dụng cách đánh dấu cho từ ngữ, sử dụng cách đánh tay biểu diễn phụ âm ghép, tùy thuộc vào văn hóa vùng miền Các ký hiệu tĩnh VSL chủ yếu biểu diễn hình ảnh bàn tay tương ứng với bảng chữ chữ số Số lượng ký hiệu thường thống toàn quốc Các ký hiệu động VSL thường bao gồm nhiều cử phức tạp chuyển động cánh tay, hình dạng bàn tay, hay hướng ngón tay, tùy thuộc vào quy ước cử Tuy nhiên, thông tin hành động bàn tay cánh tay thường trọng yếu tố khác Khác với cử tĩnh gói gọn bảng chữ chữ số, cử động biểu diễn từ ngữ với số lượng thể loại đa dạng phong phú Hiện nay, từ điển từ ngữ ký hiệu tiếng Việt có khoảng 4474 từ, từ lại có khác vùng miền Nghiên cứu tập trung vào ký hiệu quy ước từ điển ngôn ngữ ký hiệu Việt Nam [5] Cụ thể, cử xử lý theo thời gian thực, hành động thu lại camera Kinect v2 Các cử biểu diễn thông tin tọa độ khớp liên quan đến tay hệ tọa độ cầu thay hệ tọa độ Descartes Việc nhận dạng thực thuật toán Nearest Neighbor kết hợp với kĩ thuật đo độ tương đồng DTW Việc thử nghiệm thực 10 từ, từ bao gồm 30 mẫu, với 10 mẫu sử dụng làm liệu huấn luyện 20 mẫu kiểm tra II PHƯƠNG PHÁP ĐỀ XUẤT Hình Sơ đồ hoạt động hệ thống A Dữ liệu khung xương Kinect v2 nhận biết 25 vị trí khớp khung xương Sau khảo sát từ điển ngôn ngữ ký hiệu tiếng Việt, kết luận chuyển động đôi tay yếu tố quan trọng nhất, thành phần khác khn mặt hình miệng hay chuyển động mắt khơng sử dụng Do đó, chúng tơi sử dụng điểm liên quan đến tay gồm điểm bàn tay trái phải, điểm khuỷu tay trái phải (hình 4) Hình Dữ liệu khung xương 223 223 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Dữ liệu khung xương thu Kinect với tốc độ 30 khung hình giây Tuy vậy, hệ thống mà xây dựng chọn xử lý khung xương số Do đó, việc thu nhận liệu thực sau 0.2 giây Cụ thể, thu khung hình hệ thống tiến hành tính khung xương trung bình đưa vào mơ-đun nhận dạng Lưu ý khung hình thu nhận kiểm tra có chứa thành phần bàn tay, khuỷu tay tâm thể hay khơng Nếu có điểm khơng thu nhận, hệ thống tự động điền thơng tin liệu từ khung hình trước J n Jk k 1 n (1) B Trích xuất đặc trưng Cơng việc giai đoạn chuyển thơng tin khung xương hệ tọa độ Descartes sang hệ tọa độ cầu Camera Kinect v2 với cảm biến chiều sâu cho phép làm việc với liệu chiều sâu đối tượng Do đó, ta sử dụng liệu 3D để xử lý ngôn ngữ ký hiệu tiếng Việt Thông tin khung xương đề cập biểu diễn hệ tọa độ Cartesian với thông số (𝑥𝑥𝑥 𝑥𝑥𝑥 𝑥𝑥) Tuy nhiên, phương pháp bộc lộ nhược điểm sử dụng liệu trường hợp vị trí khoảng cách đối tượng với camera Kinect khơng thay đổi Do đó, ta cần phải đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối tượng: lấy tâm người làm gốc tọa độ, liệu bàn tay khuỷu tay quy theo hệ tọa độ (hình 5) Hình Hệ tọa độ cầu Spherical Để chuyển từ hệ tọa độ Cartesian sang hệ tọa độ cầu Spherical, ta sử dụng công thức sau: n r J i i i 1 n J i z Tz J i z Tz ri arccos J i y Ty J i x Tx i 1 Trong đó, n số điểm tập hợp J n i atan (2) (3) (4) Hình Chia vùng chuẩn hóa liệu góc kinh độ φ Dữ liệu ban đầu đưa vào liệu số thực hệ tọa độ Descartes, hệ tọa độ sau chuyển đổi hệ tọa độ cầu với tâm tâm thể đối tượng Các góc θ φ chia thành 12 góc nhỏ với góc 300 (hình 7) Bán kính r nhân với 10 lấy phần ngun (dữ liệu thơ tính đơn vị mét) Q trình giúp làm giảm sai số việc làm trịn giá trị Như sau q trình chuẩn hóa liệu, liệu đưa vào bao gồm giá trị nguyên Sau thực xong việc trích xuất đặc trưng, vector biểu diễn cử bao gồm 12 phần tử chứa liệu điểm khớp thời điểm: J rLE , LE , LE , rRE , RE , RE , rLH , LH , LH , rRH , RH , RH (5) Trong toán học, hệ tọa độ cầu Spherical hệ tọa độ cho khơng gian chiều mà vị trí điểm xác định số: khoảng cách theo hướng bán kính từ gốc tọa độ r, góc nâng từ điểm từ mặt phẳng cố định θ, góc kinh độ hình chiếu vng góc điểm lên mặt phẳng cố định φ (hình 6) Dữ liệu cần xét báo tập hợp vector bàn tay trái (LH), bàn tay phải (RH), khuỷu tay trái (LE), khuỷu tay phải (RE) Ta có tập hợp khung xương: J LE, RE, LH , RH Các thông tin tương ứng với hệ tọa độ cầu bao gồm Tập hợp khoảng cách r rLE , rRE , rLH , rRH i i 1 Hình Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối tượng [10] Tx J i y Ty x C Phân loại Trong trình này, liệu đầu vào so sánh với ký hiệu sẵn có để chọn cử gần giống Ở đây, việc so khớp thực khơng có trùng khớp mặt Tập hợp góc nâng LE , RE , LH , RH Tập hợp góc kinh độ LE , RE , LH , RH 224 224 Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) thời gian thực cử DTW sử dụng để so khớp hai liệu có sai khác thời gian Thuật toán DTW giới thiệu từ năm 1960 [13], thuật toán so khớp giống chuỗi mà không phụ thuộc vào thời gian tốc độ chuỗi Vào năm 1983, Joseph Kruskal cộng [14] giới thiệu kỹ thuật cho phép tìm đường chuẩn hố tối ưu dựa việc so sánh hai mẫu liệu vector hố đặc trưng (tức tính khoảng cách chúng) Kỹ thuật gọi time warping, so khớp hai vector có đặc trưng khác thời gian tốc độ Kỹ thuật so khớp đồng thời gian cách tính khoảng cách Euclidean hay Mahattan so sánh điểm thứ i thời điểm chuỗi mẫu với điểm i chuỗi đối chiếu có nhược điểm kết so khớp thường thấp với chuỗi khơng có nhiều tương đồng thời gian (hình 8) mảng vector Vấn đề đặt là: hai liệu bàn tay cánh tay, liệu đặc trưng cho từ vựng ngôn ngữ ký hiệu? Tại thời điểm, bàn tay di chuyển nhiều khuỷu tay Đánh giá hai liệu qua thực nghiệm đưa kết luận: liệu bàn tay quan trọng liệu khuỷu tay Do đó, lấy trọng số 80% cánh tay 20% khuỷu tay III KẾT QUẢ THỰC NGHIỆM Phương pháp đề xuất thử nghiệm với 10 từ từ điển Ngôn ngữ Ký hiệu Tiếng Việt [5] Mỗi từ lấy 30 mẫu gồm 20 mẫu kiểm tra 10 mẫu huấn luyện, thực người vị trí có khác so với thiết bị Kinect Quá trình phân loại thực thuật tốn DTW Nearest Neighbor Cấu hình hệ thống thử nghiệm: Windows Professional, CPU Intel Core i5 2.5GHz, RAM 4G, Kinect v2 for Windows Hệ thống hoạt động cho kết thời gian thực Bảng 1.Kết nhận dạng ngơn ngữ ký hiệu tiếng Việt Hình So khớp phương pháp khoảng cách Euclidean Thuật toán DTW đưa kỹ thuật so sánh chuỗi phi tuyến tính theo thời gian cho phép so khớp chuỗi chúng không đồng mặt thời gian tốc độ (hình 9) Từ Buổi sáng Bàn hội nghị Bánh chưng Cầu vượt Giao thơng Độ xác 90% 85% 95% 90% 95% Ấm áp Ăn mặc Thành phố Biểu Tình nguyện 90% 80% 95% 100% 100% IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo đề xuất giải pháp để nhận dạng ngôn ngữ ký hiệu tiếng Việt cử động dựa liệu khung xương thu nhận từ thiết bị Kinect Đặc trưng biểu diễn cử trích xuất dựa việc chuyển đổi vị trí khớp tay hệ tọa độ Descartes sang hệ tọa độ cầu đưa giá trị thu tập số nguyên Việc phân lớp thực kĩ thuật Nearest Neighbor, thuật tốn DTW dùng để đánh giá độ tương đồng hai mẫu liệu có sai khác thời gian Kết thu khả quan độ xác trung bình lên đến 92% Ngoài ra, việc thực nghiệm cho thấy giải pháp đề xuất xử lý thời gian thực với chi phí thấp Trong nghiên cứu tiếp theo, chúng tơi phân tích thêm thơng tin hình dạng bàn tay biểu khn mặt để nâng cao khả biểu diễn cử tăng hiệu nhận dạng Hình So khớp với DTW Trong hình trên, đường thẳng nối điểm chuỗi thời gian với điểm tương đồng chuỗi thời gian Các đường có giá trị giống trục y, tách để đường thẳng đứng chúng dễ dàng nhìn thấy Nếu chuỗi thời gian hình giống hệt tất đường thẳng đứng lúc khơng cần phải dùng kỹ thuật “time warping” Khoảng cách đường độ đo khác hai chuỗi thời gian sau chỉnh sửa so khớp với nhau, tính tổng khoảng cách cặp điểm nối với đường thẳng đứng hình Như vậy, hai chuỗi thời gian mà giống hệt ngoại trừ việc kéo dãn cục trục thời gian có khoảng cách DTW Trong q trình thu nhận cử chúng tơi sử dụng phương pháp phân lớp Nearest Neighbor sử dụng để đưa kết so khớp khoảng cách nhỏ liệu đầu vào cụm liệu huấn luyện Đây liệu đầu vào để áp dụng cho phương pháp phân loại DTW Dữ liệu đưa vào gồm phần liệu khuỷu tay liệu bàn tay V LỜI CẢM ƠN Nghiên cứu hỗ trợ Nguyễn Trọng Nguyên nhóm nghiên cứu xử lý ảnh, khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng 225 225 Thảo QuốcGia Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc vàCông CôngNghệ Nghệ Thông (ECIT 2015) VI [1] [2] [3] [4] [5] [6] [7] TÀI LIỆU THAM KHẢO Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên, Võ Đức Hồng, Hồ Viết Hà, Nhận dạng ngơn ngữ ký hiệu tiếng Việt sử dụng mạng Neuron nhân tạo Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng, 2012 12: p 75-80 Nguyen, T.-N., H.-H Huynh, and J Meunier, Static Hand Gesture Recognition Using Artificial Neural Network Journal of Image and Graphics, 2013 1(1) Nguyen, T.-N., et al Geometry-based static hand gesture recognition using support vector machine in Control Automation Robotics & Vision (ICARCV), 2014 13th International Conference on 2014 IEEE Trong-Nguyen Nguyen, H.-H.H., and Jean Meunier, Static Hand Gesture Recognition using Principal Component Analysis combined with Artificial Neural Network Journal of Automation and Control Engineering, 2015 Vol 3, No 1: p 4045 VSDIC Từ điển ngôn ngữ ký hiệu 2014 Starner, T., J Weaver, and A Pentland, Real-time american sign language recognition using desk and wearable computer based video Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1998 20(12): p 1371-1375 Imagawa, K., L Shan, and S Igi Color-based hands tracking system for sign language recognition in Automatic Face and [8] [9] [10] [11] [12] [13] [14] 226 226 Gesture Recognition, 1998 Proceedings Third IEEE International Conference on 1998 Kyung Kwon, J., et al EMG pattern classification using spectral estimation and neural network in SICE, 2007 Annual Conference 2007 Zafrulla, Z., et al., American sign language recognition with the kinect, in Proceedings of the 13th international conference on multimodal interfaces 2011, ACM: Alicante, Spain p 279-286 Capilla, D.M., Sign Language Translator using Microsoft Kinect XBOX 360 TM Department of Electrical Engineering and Computer Science, University of Tennessee, 2012 Lang, S., M Block, and R Rojas Sign language recognition using kinect in Artificial Intelligence and Soft Computing 2012 Springer Li, Y Hand gesture recognition using Kinect in Software Engineering and Service Science (ICSESS), 2012 IEEE 3rd International Conference on 2012 IEEE Bellman, R and R Kalaba, On adaptive control processes Automatic Control, IRE Transactions on, 1959 4(2): p 1-9 Kruskal, J.B and M Liberman, The symmetric time-warping problem: from continuous to discrete Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison, 1983: p 125-161 ... diễn cử Ngôn ngữ ký hiệu tiếng Việt so với ngôn ngữ ký hiệu giới có đặc điểm chung: sử dụng chung ký hiệu bảng chữ latinh, sử dụng chung bảng chữ số, sử dụng hành động bàn tay kết hợp với hành động. .. nhận dạng ngôn ngữ ký hiệu tiếng Việt cử động dựa liệu khung xương thu nhận từ thiết bị Kinect Đặc trưng biểu diễn cử trích xuất dựa việc chuyển đổi vị trí khớp tay hệ tọa độ Descartes sang hệ. .. ngơn ngữ thể để bày tỏ ý kiến, miêu tả đối tượng hành động Ngồi ra, ngơn ngữ ký hiệu tiếng Việt (cử động) có đặc trưng khác biệt so với ngôn ngữ ký hiệu nước khác: sử dụng cách đánh dấu cho từ ngữ,