Báo cáo tìm hiểu ngôn ngữ ký hiệu tiếng Việt và các nghiên cứu về nhận dạng; nghiên cứu cải tiến các giải pháp, thuật toán cho việc nhận dạng ngôn ngữ cử chỉ sử dụng Kinect; ứng dụng nhận dạng ngôn ngữ ký hiệu trong giao tiếp ở người khiếm thính.
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT NHẬN DẠNG NGÔN NGỮ CỬ CHỈ SỬ DỤNG KINECT Mã số: D2015-02-118 Chủ nhiệm đề tài: ThS VÕ ĐỨC HOÀNG Đà Nẵng, 3/2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT NHẬN DẠNG NGÔN NGỮ CỬ CHỈ SỬ DỤNG KINECT Mã số: D2015-02-118 Xác nhận quan chủ trì đề tài (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) ThS Võ Đức Hồng Đà Nẵng, 3/2016 MỞ ĐẦU Tính cấp thiết đề tài Ngôn ngữ ký hiệu ngôn ngữ cử tay với dấu hiệu truyền trực quan tay sử dụng hình dạng bàn tay, hướng di chuyển bàn tay, cánh tay thể, nét mặt miệng để truyền đạt ý nghĩa từ thay sử dụng âm Ngơn ngữ ký hiệu ngơn ngữ hồn tồn khác biệt độc lập với ngơn ngữ nói hay ngơn ngữ viết Ngôn ngữ sử dụng phổ biến cộng đồng người khiếm thính bao gồm: thơng dịch viên, bàn bè, gia đình người điếc cộng đồng người có khuyết tật nghe Tuy nhiên có nhiều trở ngại lớn để tạo giao tiếp người khiếm thính người bình thường người bình thường khơng thể hiểu ngơn ngữ cử Nhận dạng ngôn ngữ cử thực cần thiết để tạo hệ thống tương tác người bình thường người khiếm thính hay giao tiếp người máy Hiện hệ thống nhận dạng ngôn ngữ cử thường sử dụng hai phương pháp sau: Dựa liệu cảm biến: phương pháp thực cách sử dụng hàng loạt cảm biến tích hợp găng tay để phát chuyển động thao tác cử Dựa tầm nhìn máy tính: máy tính gắn máy máy với chức đầu vào liệu (ảnh, phim) Các tập tin lưu trữ xử lý phương phương pháp xử lý hình ảnh xuất thơng tin, ý nghĩa ký hiệu ngôn ngữ thiết bị bên Trong thập kỷ qua, nhiều cơng trình nghiên cứu hướng tới phát triển hệ thống nhận dạng với nhiều ngôn ngữ ký hiệu khác thách thức lớn cho nhiều lĩnh vực nghiên cứu như: phương pháp lấy cử tay, phân loại học máy, giao tiếp người máy, xử lý ngôn ngữ tự nhiên Hầu hết đa số hệ thống nhận dạng giải cử cách riêng biệt tỉ lệ nhận dạng thành công thấp, chịu sử ảnh hưởng môi trường thực Yêu cầu cấp thiết hệ thống nhận dạng ngôn ngữ ký hiệu liên tục, phải dịch chuỗi cử thành cụm từ câu văn có ý nghĩa Kỹ thuật nhận dạng Ngôn ngữ ký hiệu phạm vi hẹp câu, cụm từ tỉ lệ nhận dạng cịn thấp Thơng thường yếu tố định tỉ lệ nhận dạng tốt phụ thuộc vào trình thu nhận ảnh tiền xử lý để trích xuất đặc trưng Các nghiên cứu trước thường sử dụng máy ảnh có độ phân giải cao để thu nhận ảnh, nhiên đến cuối năm 2010 Microsoft phát hành thiết bị Kinect làm thay đổi phương thức thu nhận liệu đầu vào cho nghiên cứu nhận dạng Ngôn ngữ ký hiệu Thiết bị Kinect sử dụng webcame 3D, thiết bị thu phát hồng ngoại thiết bị thu âm Đối với công cụ tích hợp (SDK) Kinect xử lý cho người dùng trích lấy liệu vị trí chuyển động thể bao gồm: bàn tay, khủy tay, đầu, thân chân kể hình dạng bàn tay có chiều sâu 3D Yêu cầu đề tài trọng phát triển phương pháp nhận dạng ngôn ngữ cử có cải tiến số nghiên cứu giải pháp, thuật tốn giúp chuyển đổi ngơn ngữ ký hiệu thành văn nhằm tạo giao tiếp thuận tiện người khuyết tật người bình thường Việc nghiên cứu cải tiến phương pháp nhận dạng cử tay có ý nghĩa quan trọng, giúp người khiếm thính hịa nhập tốt với cộng đồng Mục tiêu nhiệm vụ đề tài Mục tiêu Tìm hiểu ngôn ngữ ký hiệu tiếng Việt nghiên cứu nhận dạng Nghiên cứu cải tiến giải pháp, thuật tốn cho việc nhận dạng ngơn ngữ cử sử dụng Kinect Ứng dụng nhận dạng ngôn ngữ ký hiệu giao tiếp người khiếm thính Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu Nghiên cứu nhận dạng ngôn ngữ cử Nghiên cứu thiết bị Kinect SDK thiết bị để phát triển Nghiên cứu xây dựng liệu cho nhận dạng ngôn ngữ cử tiếng Việt Phạm vi nghiên cứu Nghiên cứu ngôn ngữ ký hiệu tiếng Việt Nghiên cứu phương pháp thu nhận liệu xử lý ảnh Nghiên cứu nhận dạng ngơn ngữ ký hiệu dành cho người khiếm thính Việt Nam, sử dụng thiết bị Kinect để nâng cao kết nhận dạng Cách tiếp cận, phương pháp nghiên cứu Cách tiếp cận Nghiên cứu giải pháp cải tiến thuật tốn cho nhận dạng ngơn ngữ cử với Kinect Xây dựng công cụ nhận dạng ngôn ngữ cử Thử nghiệm, đánh giá hiệu nhận dạng công cụ so với nghiên cứu trước Phương pháp nghiên cứu Tìm hiểu lý thuyết xử lý nhận dạng ảnh Phát triển ứng dụng cải tiến thuật tốn nhận dạng Kinect Khảo sát mơ hình, thuật tốn nhận dạng cử Nội dung dung Nghiên cứu tổng quan nhận dạng ngôn ngữ cử Khảo sát phương pháp thu nhận liệu Khảo sát đánh giá phương phấp nhận dạng nghiên cứu Đề xuất nghiên cứu ngôn ngữ cử tiếng Việt Đánh giá hiệu Cấu trúc đề tài Nội dung luận văn trình bày bao gồm phần sau: Chương 1: Nêu tổng quan phương pháp nghiện cứu nhận dạng ngôn ngữ ký hiệu có Việt Nam giới Đồng thời nêu lên đặc điểm ngơn ngứ ký hiệu tiếng Việt để đề xuất phương pháp thu nhận liệu trích xuất đặc trưng cho trình phân loại nhận dạng Chương 2: Trình bày tổng quan cử tĩnh ngôn ngữ ký hiệu tiếng Việt, cụ thể Bảng chữ chữ số Thông qua nghiên cứu nhận dạng cử tĩnh ngôn ngữ ký hiệu, trình bày đề xuất thu nhận liệu, cải tiến phương pháp trích xuất đặc trưng nâng cao tỉ lệ nhận dạng Chương 3: Trình bày phương pháp nhận dạng cử liên tục ngôn ngữ ký hiệu Tuy kết nghiên cứu chưa đạt tỉ lệ thành công cao tiền đề để phát triển nghiên cứu Phần kết luận tổng hợp tất trình nghiên cứu đưa đề xuất cho nghiên cứu thời gian CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan Ngôn ngữ ký hiệu ngôn ngữ cử tay với dấu hiệu truyền trực quan tay sử dụng hình dạng bàn tay, hướng di chuyển bàn tay, cánh tay thể, nét mặt miệng để truyền đạt ý nghĩa từ thay sử dụng âm Ngơn ngữ ký hiệu ngơn ngữ hồn tồn khác biệt độc lập với ngơn ngữ nói hay ngơn ngữ viết Sự khác biệt hạn chế vốn từ vựng ngôn ngữ ký hiệu Ngôn ngữ ký hiệu có khác biệt lớn quốc gia Mỹ (ASL), Đức (GSL), Trung Quốc (CSL), Việt Nam (VSL) vùng miền quốc gia Việt Nam Hà Nội, Hải Phòng, Cần Thơ, Hồ Chí Minh từ vựng hay cách biểu diễn cử Ngôn ngữ sử dụng phổ biến cộng đồng người khiếm thính bao gồm: thơng dịch viên, bàn bè, gia đình người điếc cộng đồng người có khuyết tật nghe Tuy nhiên, ngôn ngữ không phổ biến cộng đồng giao tiếp có rào cản lớn người khiếm thính người bình thường Sự giao tiếp ngôn ngữ ký hiệu đa dạng không liên quan đến ký hiệu bàn tay mà cịn định nghĩa mơ hình cụ thể hay chuyển động bàn tay, nét mặt thể Ngơn ngữ ký hiệu chia làm hai phần tư tay cử tay Thể tư tay định nghĩa hình dạng cụ thể bàn tay vào thời điểm tức thì, cử tay định nghĩa hệ tư tay di chuyển miền thời gian Trong thập kỷ qua, nhiều cơng trình nghiên cứu hướng tới phát triển hệ thống nhận dạng với nhiều ngôn ngữ ký hiệu khác nhà nghiên cứu kết luận hệ thống thách thức lớn cho nhiều lĩnh vực nghiên cứu khác như: phương pháp lấy cử tay, phân loại học máy, giao tiếp người máy, xử lý ngôn ngữ tự nhiên Hầu hết đa số hệ thống nhận dạng giải cử cách riêng biệt Yêu cầu cấp thiết hệ thống nhận dạng ngôn ngữ ký hiệu liên tục, phải dịch chuỗi cử thành cụm từ câu văn có ý nghĩa Sự phức tạp nhận dạng ngôn ngữ ký hiệu phát sinh từ thực tế vốn từ vựng ngôn ngữ ký hiệu ít, cách biểu diễn từ đồng âm khác nghĩa, phân chia cách biểu diễn liên tục nhiều từ Nhận dạng ngôn ngữ ký hiệu liên tục trở thành lĩnh vực nghiên cứu quan trọng với trọng tâm nhận dạng cử tay nhận dạng cử tương tác với cảm xúc người Khi có thiết bị Kinect, điều khiển trò chơi dành cho XBOX nhằm tạo tương tác người chơi máy tính thu hút nhiều nhà nghiên cứu thiết bị nhận dạng chuyển động người thu nhận hình ảnh có chiều sâu (3D) 1.2 Các phương pháp thu nhận liệu Bước quan trọng việc xử lý nhận dạng ngôn ngữ ký hiệu thu thập liệu thô Dữ liệu thơ sau phân tích cách sử dụng thuật tốn khác để trích xuất đặc trưng đưa vào mơ hình thống kê để nhận dạng Trước nghiên cứu nhận dạng ngôn ngữ ký hiệu chia thành lĩnh vực dựa vào phương pháp thu nhận liệu: dựa vào liệu cảm biến đặt phận thể người, hai dựa thị giác máy tính Trong phương pháp thu nhận dựa cảm biến đặt thể cảm biến sinh học điện cơ, cảm biến điện tử găng tay điện tử, găng tay màu Cịn thị giác máy tính, máy ảnh sử dụng thiết bị đầu vào bao gồm ảnh đoạn phim Các đoạn phim lưu trữ trước xử lý, tách thành phân đoạn đặc biệt xử lý tương tự xử lý hình ảnh Nhìn chung, phân loại thành nhóm sau: găng tay cảm biến, găng tay màu thị giác máy tính (Hình 1) Hình 1: Các kỹ thuật thu nhận liệu đầu vào Phương pháp thu nhận liệu dựa găng tay cảm biến yêu cầu người dùng phải đeo thiết bị găng tay cồng kềnh Găng tay trang bị cảm biến để cảm nhận chuyển động bàn tay ngón tay truyền thơng tin vào máy tính Phương pháp dễ dàng cung cấp xác tọa độ vị trí lịng bàn tay, ngón tay hướng, hình dạng bàn tay Ưu điểm phương pháp độ xác cao tốc độ xử lý nhanh Tuy nhiên sử dụng phương pháp này, yêu cầu găng tay người dùng phải kết nối trực tiếp với máy tính nên cản trở tương tác người thực khoảng cách người máy, đặc biệt chi phí thiết bị cao Phương pháp thu nhận liệu dựa găng tay màu sắc khắc phục nhược điểm găng tay cảm biến kết hợp phương pháp thu nhận liệu dựa găng tay thị giác máy tính Găng tay thường màu trắng đánh dấu màu khác ngón tay lịng bàn tay Một máy ảnh màu nhận biết theo dõi chuyển động, hình dạng, vị trí 14 tạo độ sâu 30fps với độ phân giải 640*480 Hình 3: Bộ liệu hình ảnh chiều sâu cử tĩnh 2.2 Quy trình nhận dạng cử tĩnh Hình 4: Sơ đồ khối nhận dạng cử tĩnh 15 2.2.1 Phân đoạn bàn tay Trong nhiều cách tiếp cận, bàn tay phát cách sử dụng lọc màu da Các nghiên cứu thường tiếp cận nhiên kết bị ảnh hưởng điều kiện môi trường Để tránh hạn chế này, nghiên cứu đề xuất sử dụng thông tin ảnh chiều sâu Thiết bị Kinect sử dụng cảm biến chiều sâu với khoảng cách thu nhận từ 0.8m đến 4.0m tích hợp thuật tốn để thu nhận Khi thực thao tác thể ngôn ngữ ký hiệu, bàn tay phần thể gần thiết bị Kinect 2.2.2 Tiền xử lý Tách bàn tay: Sau chọn phạm vi thu nhận ảnh thích hợp, ảnh thu bị nhiễu nhẹ phụ thuộc vào môi trường cảm biến Sử dụng lọc hình thái khơng gian để loại bỏ nhiễu làm mịn ảnh, đồng thời sử dụng thuật toán xác định biên làm mịn đối tượng Cuối ta có hình ảnh bàn tay dựa khung Chuẩn hóa kích thước: Có nhiều phương pháp để thay đổi kích thước hình ảnh bàn tay trước giai đoạn trích xuất đặc trưng Một điểm bất lợi hình ảnh thu từ bàn tay kích thước thu với tỉ lệ chiều đứng chiều ngang khác (bàn tay thể đứng hay ngang) ảnh hưởng lớn đến bước xử lý Vì cần xử lý để đưa hình ảnh bàn tay kích thước chuẩn cần thiết 2.2.3 Trích xuất đặc trưng Chia lưới (ma trận) hình ảnh: Trong nghiên cứu tơi sử dụng lưới vuông để chia ảnh chiều sâu bàn tay thành d Sau tính tốn giá trị dựa giá trị trung bình điểm ảnh thuộc Kết thu ma trận vng có giá trị trung bình tương ứng ô 16 Thống kê thông tin: Để mô tả giá trị ô, tương ứng với khu vực hình ảnh Xét tập hợp n điểm ảnh với giá trị độ sâu xi tương ứng, hai thuộc tính mơ tả hình Sau tính tốn cho tất kết thu hai ma trận vuông cấp d Ma trận thứ nhất, M_atm bao gồm d2 giá trị trung bình, ma trận thứ hai M_atsd bao gồm d2 giá trị độ lệch tiêu chuẩn Xếp hạng ma trận: Mỗi ma trận vuông cấp chuyển đổi thành ma trận xếp hạng tương ứng có kích thước dựa vào giá trị phần tử để xếp hạng Các giá trị ma trận M_atm xếp theo thứ tự tăng dần sau đánh giá trị thứ hạng chuyển giá trị xếp hạng tương ứng vào ma trận M_atsd Tạo vector: Để tương thích với kỹ thuật phân loại, ma trận xếp hạng biểu diễn vector, đặt tên vector kết hợp Mỗi phần tử vector mô tả mối quan hệ hai ô lân cận, tương ứng với hai yếu tố liên tiếp ma trận xếp hạng Hình 5: Xếp hạng giá trị trung bình ma trận 4*4 2.2.4 Phân lớp nhận dạng Mơ hình học máy hỗ trợ vec-tơ (Support Vector Machine – SVM) 17 mơ hình mạnh mẽ dùng để sử dụng phân tích liệu nhận dạng mẫu, phân loại dựa vào giá trị đặc trưng Có mơ hình đề cập nghiên cứu, mơ hình SVM đa lớp xây dựng từ lớp riêng biệt Cụ thể mơ hình tạo dựa 23 ký tự đơn (một bàn tay) từ A đến Y Mơ hình hai xây dựng dùng để phân loại mẫu lớp bao gồm: dấu mũ, dấu mũ ngược, dấu móc, ký tự H, ký tự G ký tự R Ba mơ hình cịn lại tương ứng với tập ký tự {A, E, O}, {O, U} and {C, G, K, N, P, T} Phương pháp đề xuất kết hợp năm lớp SVM, mơ hình nhận dạng tay trái phụ thuộc vào nhận dạng kết tay phải 2.3 Kết thực nghiệm Trong thử nghiệm, phát triển hệ thống dựa ngôn ngữ lập trình C# Accord.NET Framework Tập liệu có tên Accent (trọng âm) bao gồm 03 động tác (613 ảnh) tương ứng với ba điểm nhấn bao gồm dấu mũ, dấu mũ ngược, dấu móc (hình 15.a) 23 động tác (4637 hình ảnh) tương ứng với 23 ký tự chữ tiếng Việt (hình 15.b) Tất liệu thu máy ảnh chiều sâu Kinect Các thử nghiệm kiểm tra với năm mơ hình mơ tả trên, mơ hình kiểm tra với kích cỡ khác việc chia ma trận xếp hạng Các kết thể Bảng Bảng 1: Độ xác thử nghiệm mơ hình với cách chia ma trận 18 Với mơ hình 1, SVM phân loại thu độ xác cao 94.22% tương ứng với ma trận xếp hạng x 4, mơ hình 25 độ xác cao thuộc giá trị x Từ kết ta nhận thấy việc phân chi ma trận hình ảnh cử tương thích để thu kết tốt Khơng có cách phân chia chung cho kết tốt Tương tự việc nhận dạng ký tự số từ đến liệu bao gồm 2011 mẫu bao gồm 10 cử tay Bảng 2: Độ xác thử nghiệm 10 cử số với cách chia ma trận Bên cạnh đó, mơ hình gồm 23 ký tự mơ hình có số lượng liệu lớn nhất, tơi tập trung phân tích, thực kỹ thuật phân loại khác để so sánh đánh giá hiệu Các kỹ thuật lựa chọn để phân loại học máy gồm: k-Nearest Neighbors (k-NN), decision tree (DT) Naive Bayes (NB) Việc so sánh thử nghiệm 23 ký tự tương ứng với kỹ thuật “Xếp hạng ma trận” với kích thước 3*3, 4*4, 5*5 kết thể hình 13, phương pháp SVM cho kết tốt 2.4 Kết luận Trong nghiên cứu cải tiến phần này, đề xuất phương pháp để nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa hình ảnh chiều sâu Một kỹ thuật khai thác tính dựa xếp hạng ô dựa lưới ô vuông chia đặt tên ROCM – Rank Order Correlation Matrix để mô tả tương quan ảnh chiều sâu Có hai đóng góp sử dụng Một xây dựng 19 trình nhận dạng cử tay bao gồm bốn giai đoạn: phân đoạn, tiền xử lý, trích xuất đặc trưng phân loại Hai xây dựng quy tắc để phân loại nhận dạng bảng chữ ngôn ngữ ký hiệu tiếng Việt Cụ thể, vị trí tay phát thu nhận cách áp dụng lọc khoảng cách hình ảnh chiều sâu thu từ thiết bị Kinect Các kích thước hình ảnh bàn tay sau chuẩn hóa hình ảnh hình vng Sau chia hình ảnh thành ma trận vng (2*2, 3*3, 4* hay 5*5) vec-tơ đặc trưng tạo cách ghép vec-tơ giá trị trung bình vec-tơ độ lệch tương ứng Cuối cùng, sử dụng mơ hình phân loại SVM đa lớp với chiến lược MAX-WIN để phân loại nhận dạng Cách tiếp cận cho kết với độ xác cao tích hợp để xử lý thời gian thực Hình 6: Độ xác kỹ thuật phân loại khác 20 CHƯƠNG NHẬN DẠNG CỬ CHỈ LIÊN TỤC 3.1 Tổng quan Ngoài biểu diễn ngôn ngữ ký hiệu với cử tĩnh để ghép thành từ, cụm từ có ý nghĩa Ngơn ngữ ký hiệu cịn biểu diễn thơng tin qua cử chỉ, điệu bộ, nét mặt thay cho lời nói Tất ngơn ngữ kí hiệu giới có phương tiện cách thức biểu sau: Vị trí bàn tay Hình dạng bàn tay Hướng lòng bàn tay Hướng chuyển động lòng bàn tay Biểu nét mặt Nghiên cứu phần hướng đến xử lý ngôn ngữ ký hiệu liên tục (động) thời gian thực, hay nói cách khác hướng đến nhận dạng từ vựng ngôn ngữ ký hiệu tiếng Việt Không giống ngơn ngữ ký hiệu dạng tĩnh có mức thành công định, xử lý nhận dạng từ vựng ngôn ngữ ký hiệu liên tục phức tạp Từ vựng ngôn ngữ ký hiệu Tiếng Việt bao gồm nhiều cử phức tạp như: hành động cánh tay, hình dạng bàn tay, ngón tay, hình miệng, cảm xúc khuôn mặt,… Khác với cách biểu diễn ngôn ngữ bảng chữ cái, từ ngữ từ điển ngôn ngữ ký hiệu tiếng Việt đa dạng phong phú Công cụ sử dụng thu nhận liệu đầu vào Camera Kinect v2 gồm: camera màu, camera hồng ngoại, dãy microphone gồm microphone Camera màu ghi lại 30 frame ảnh RGB với độ phân giải 1920 x 1080 giây Camera màu lưu ảnh dạng Raw Bayer, YUV ảnh xám 16 bit 21 Cảm biến chiều sâu ghi lại 30 frame ảnh với độ phân giải 512 x 424 giây, góc nhận diện giới hạn mở rộng 70̊ bề ngang 60̊ bề dọc Khoảng cách giới hạn camera chiều sâu mặc định từ 0.5 mét đến 4.5 mét sử dụng chế độ gần từ 0.4 mét đến mét Khoảng cách hoạt động tốt cảm biến từ 1.2 mét đến 3.5 mét Trong phạm vi nghiên cứu, tính theo dõi chuyển động khung xương Kinect SDK sử dụng SDK xử lý liệu thô đến từ camera chiều sâu camera màu để bắt chuyển động khung xương người Với Kinect v2, ta bắt khung xương người thời điểm theo dõi 25 điểm tương ứng với vị trí quan trọng phận thể Các vị trí tính tốn tương cảm biến thiết bị hệ tọa độ Đề-Các (x,y,z) 3.2 Quy trình nhận dạng cử liên tục Sơ đồ quy trình nhận dạng cử liên tục trình bày hình 7, bao gồm bước sau : Đọc liệu, Trích xuất đặc trưng, so khớp phân loại nhận dạng 3.2.1 Đọc liệu Mặc dù Kinect v2 nhận biết 25 vị trí khớp khung xương sau khảo sát từ điển ngôn ngữ ký hiệu tiếng Việt, kết luận chuyển động đôi tay yếu tố quan trọng nhất, thành phần khác khn mặt hình miệng hay chuyển động mắt khơng sử dụng Do đó, sử dụng điểm liên quan đến tay gồm điểm bàn tay trái phải, điểm khuỷu tay trái phải Dữ liệu khung xương thu Kinect với tốc độ 30 khung 22 hình giây Tuy vậy, hệ thống mà chúng tơi xây dựng chọn xử lý khung xương số Do đó, việc thu nhận liệu thực sau 0.2 giây Cụ thể, thu khung hình hệ thống tiến hành tính khung xương trung bình đưa vào mơ-đun nhận dạng Lưu ý khung hình thu nhận kiểm tra có chứa thành phần bàn tay, khuỷu tay tâm thể hay không Nếu có điểm khơng thu nhận, hệ thống tự động điền thơng tin liệu từ khung hình trước Hình 7: Sơ đồ hoạt động hệ thống nhận dạng cử liên tục 23 3.2.2 Trích xuất đặc trưng Cơng việc giai đoạn chuyển thông tin khung xương hệ tọa độ Đề-Các sang hệ tọa độ cầu Camera Kinect v2 với cảm biến chiều sâu cho phép làm việc với liệu chiều sâu đối tượng Do đó, ta sử dụng liệu 3D để xử lý ngôn ngữ ký hiệu tiếng Việt Thông tin khung xương đề cập biểu diễn hệ tọa độ Đề-Các với thông số Tuy nhiên, phương pháp bộc lộ nhược điểm sử dụng liệu trường hợp vị trí khoảng cách đối tượng với camera Kinect khơng thay đổi Do đó, ta cần phải đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối tượng: lấy tâm người làm gốc tọa độ, liệu bàn tay khuỷu tay quy theo hệ tọa độ Trong toán học, hệ tọa độ cầu Spherical hệ tọa độ cho không gian chiều mà vị trí điểm xác định số: khoảng cách theo hướng bán kính từ gốc tọa độ , góc nâng từ điểm từ mặt phẳng cố định , góc kinh độ hình chiếu vng góc điểm lên mặt phẳng cố định Hình 8: Chia vùng chuẩn hóa liệu góc kinh độ 24 Dữ liệu ban đầu đưa vào liệu số thực hệ tọa độ Đề-Các, chuyển chúng sang hệ tọa độ cầu với tâm tâm thể đối tượng Đối với góc ta chia thành 12 góc nhỏ với góc (hình 8) Với bán kính , ta nhân với 10 lấy phần ngun (vì liệu thơ tính đơn vị mét) Giải thích việc chuẩn hóa liệu nhằm đồng liệu Training Test để loại bỏ nhiễu không cần thiết Như sau q trình chuẩn hóa liệu, liệu đưa vào bao gồm số nguyên Sau chuẩn hóa liệu, việc phải mô tả liệu chuẩn hóa Chúng ta có vec-tơ gồm 12 phần tử chứa liệu điểm thời điểm Dữ liệu mảng vec-tơ thời điểm khác Các liệu huấn luyện lưu vào file gán nhãn với từ ngữ ngôn ngữ ký hiệu 3.2.3 Phân loại Dynamic Time Warping (DTW) thuật toán dùng để tính độ tương đồng hai chuỗi đặc trưng, khác chiều dài DTW áp dụng nhiều lĩnh vực ý tưởng nguyên thuỷ nhận dạng tiếng nói Mục đích DTW dùng để tìm kiếm ánh xạ hai vec-tơ đặc trưng (có chiều dài khác nhau) với khoảng cách ngắn Thuật toán láng giềng gần với hệ số k (k-Nearest Neighbors (kNN)) sử dụng phổ biến lĩnh vực khai phá liệu kNN 25 phương pháp để phân lớp đối tượng dựa vào khoảng cách gần đối tượng cần xếp lớp với tất đối tượng liệu huấn luyện Một đối tượng phân lớp dựa vào k láng giềng K số nguyên dương xác định trước thực thuật toán Người ta thường dùng khoảng cách Euclidean để tính khoảng cách đối tượng Cách thực áp dụng thuật toán kNN để tìm nhãn cử đề tài tìm k vec-tơ mô tả cử lớp cử gần với cử đưa vào nhận dạng dựa khoảng cách DTW Tính khoảng cách trung bình k vec-tơ coi khoảng cách mẫu cử đưa vào với lớp cử Với 10 lớp cử chỉ, ta tìm lớp có khoảng cách đến mẫu đưa vào nhỏ coi lớp cử cần nhận dạng Đề xuất nghiên cứu xây dựng cải tiến phương pháp phân loại kNN kết hợp với thuật toán DTW (kNN-DTW) xem hàm chi phí Khi thu nhận liệu kiểm tra, hệ thống phân loại xếp hạng liệu đầu vào với tập liệu có k gần Để kiểm tra chắn ta tiếp tục sử dụng DTW để so khớp đưa kết nhận dạng Dữ liệu đưa vào gồm phần liệu khuỷu tay liệu bàn tay mảng vec-tơ 3.3 Kết Phương pháp thử nghiệm với 10 từ từ điển Ngôn ngữ ký hiệu Tiếng Việt Mỗi từ lấy 30 mẫu bao gồm 20 mẫu training 10 mẫu test Dữ liệu phân loại thuật toán DTW phương pháp phân cụm Nearest Neighbor với trọng số 80% cánh tay, 20% khuỷu tay Cấu hình hệ thống: Windows Profesional, Intel Core i5 2.5GHz, RAM 4G, Kinect v2 for Windows Hệ thống hoạt động cho 26 kết thời gian thực: Bảng 3: Kết nhận dạng ngôn ngữ ký hiệu tiếng Việt TỪ KẾT QUẢ Buổi sáng 90% Bàn hội nghị 85% Bánh chưng 95% Cầu vượt 90% Giao thông 95% Ấm áp 90% Ăn mặc 80% Thành phố 95% Biểu 100% Tình nguyện 100% Hệ thống làm việc thời gian thực ổn định, kết xác đến 92% Với thư viện liệu nhỏ (khoảng 20 mẫu), thuật tốn DTW xử lý nhanh chóng đưa kết Nhược điểm thuật toán với liệu lớn hệ thống trở nên tải Hơn nữa, dấu hiệu hình dáng bàn tay, biểu cảm khn mặt, hình miệng bị lược bỏ thực tế quan trọng để nhận dạng ngôn ngữ ký hiệu tiếng Việt Tuy vậy, nghiên cứu nêu phương pháp giải ngôn ngữ ký hiệu tiếng Việt thời gian thực Để hệ thống hoạt động tốt cần phải bổ sung thêm tính nhận diện hình dáng bàn tay Ngồi việc xử lý thời gian thực với nguồn thư viện lớn phải xem xét 27 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong nghiên cứu này, cử tĩnh đề xuất phương pháp để nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa hình ảnh chiều sâu Một kỹ thuật khai thác tính dựa xếp hạng dựa lưới ô vuông chia đặt tên ROCM – Rank Order Correlation Matrix để mô tả tương quan ô ảnh chiều sâu Có hai đóng góp tơi sử dụng Một xây dựng trình nhận dạng cử tay bao gồm bốn giai đoạn: phân đoạn, tiền xử lý, trích xuất đặc trưng phân loại Hai xây dựng quy tắc để phân loại nhận dạng bảng chữ ngôn ngữ ký hiệu tiếng Việt Cụ thể, vị trí tay phát thu nhận cách áp dụng lọc khoảng cách hình ảnh chiều sâu thu từ thiết bị Kinect Các kích thước hình ảnh bàn tay sau chuẩn hóa hình ảnh hình vng Sau chia hình ảnh thành ma trận ô vuông (2*2, 3*3, 4*4 hay 5*5) vec-tơ đặc trưng tạo cách ghép vec-tơ giá trị trung bình vec-tơ độ lệch tương ứng Cuối cùng, sử dụng mơ hình phân loại SVM đa lớp với chiến lược MAX-WIN để phân loại nhận dạng Đối với cử liên tục, đề xuất phương pháp thu nhận liệu cho cử động ngôn ngữ ký hiệu tiếng Việt liệu khung xương thu nhận từ Kinect để nhận dạng Thay đổi hệ tọa độ phụ thuộc vị trí người thực so với thiết bị sang vị trí tương đối so với trọng tâm người để khắc phục ảnh hưởng vị trí Cuối cùng, sử dụng mơ hình kNN kết hợp với DTW phân loại nhận dạng Cách tiếp cận cho kết với độ xác cao tích hợp để xử lý thời gian thực Tuy nhiên nhược điểm thuật toán với liệu lớn 28 hệ thống trở nên tải Hơn nữa, dấu hiệu hình dáng bàn tay, biểu cảm khn mặt, hình miệng bị lược bỏ thực tế quan trọng để nhận dạng ngơn ngữ ký hiệu tiếng Việt Để hệ thống hoạt động tốt cần phải bổ sung thêm tính nhận diện hình dáng bàn tay, hình miệng Ngồi việc xử lý thời gian thực với nguồn liệu lớn phải xem xét Hướng nghiên cứu thời gian để ghi nhận ngôn ngữ ký hiệu: Xây dựng sở liệu hồn chỉnh cho nhận dạng ngơn ngữ ký hiệu tiếng Việt Nghiên cứu phân đoạn video để loại bỏ nhiễu tăng tỉ lệ thành công nhận dạng Tập trung vào nghiên cứu, cải tiến thuật toán để nâng cao kết nhận dạng với cử động với liệu lớn Hệ thống kết hợp nhận dạng khuôn mặt, bàn tay (phải/trái) phận khác thể lúc ...BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT NHẬN DẠNG NGÔN NGỮ CỬ CHỈ SỬ DỤNG KINECT Mã số:... tượng nghiên cứu Nghiên cứu nhận dạng ngôn ngữ cử Nghiên cứu thiết bị Kinect SDK thiết bị để phát triển Nghiên cứu xây dựng liệu cho nhận dạng ngôn ngữ cử tiếng Việt Phạm vi nghiên cứu Nghiên. .. nhận dạng Nghiên cứu cải tiến giải pháp, thuật tốn cho việc nhận dạng ngơn ngữ cử sử dụng Kinect Ứng dụng nhận dạng ngôn ngữ ký hiệu giao tiếp người khiếm thính Đối tượng phạm vi nghiên cứu