Nhận dạng ngôn ngữ ký hiệu tiếng Việt trong video bằng LSTM và I3D đa khối

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	6,8 MB

Nội dung

Bài viết đề xuất một phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt từ video dựa trên mô hình học sâu. Phương pháp đề xuất bao gồm hai phần chính là mô hình hai luồng mạng nơ ron tích chập (CNN) cho đặc trưng không gian và mạng bộ nhớ dài ngắn (Long-Short Term Memory - LSTM) cho đặc trưng thời gian.

NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Vũ Hoài Nam∗ , Hoàng Mậu Trung∗ , Phạm Văn Cường∗ ∗ Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Tóm tắt—Ngơn ngữ ký hiệu phương tiện thay giao tiếp ngày cộng đồng người câm điếc Ngôn ngữ ký hiệu biểu diễn cử phần thân người thể ngôn ngôn ngữ Với phát triển vượt bậc công nghệ cao lĩnh vực học sâu thị giác máy tính, hệ thống nhận dạng ngơn ngữ ký hiệu trở thành cầu nối hiệu cộng đồng người câm điếc giới bên Nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSLR) nhánh tốn nhận dạng ngơn ngữ ký hiệu nói chung sử dụng cộng đồng người câm điếc Việt Nam VSLR hướng đến thông dịch từ cử người thực ngôn ngữ ký hiệu sang thành văn Trong báo này, đề xuất phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt từ video dựa mơ hình học sâu Phương pháp đề xuất bao gồm hai phần mơ hình hai luồng mạng nơ ron tích chập (CNN) cho đặc trưng không gian mạng nhớ dài ngắn (Long-Short Term Memory - LSTM) cho đặc trưng thời gian Chúng tơi đánh giá mơ hình đề xuất với liệu thu thập bao gồm 29 ký tự bảng chữ tiếng Việt Thực nghiệm đạt với độ xác 95% chứng minh tính hiệu thực tế phương pháp đề xuất việc nhận dạng ngôn ngữ ký hiệu tiếng Việt Từ khóa—Học sâu, nhận dạng, ngơn ngữ ký hiệu I GIỚI THIỆU Ngôn ngữ ký hiệu ngôn ngữ phát triển nhu cầu cần thiết việc giao tiếp cộng đồng người khiếm thính Một quan điểm sai lầm ngôn ngữ ký hiệu đồng toàn giới Trên thực tế quốc gia khác có ngơn ngữ khác nhau, chí quốc gia Tác giả liên hệ: Vũ Hồi Nam, email: namvh@ptit.edu.vn Đến tịa soạn: 20/08/2020, chỉnh sửa: 23/10/2020, chấp nhận đăng: 26/10/2020 SOÁ 03 (CS.01) 2020 khu vực, vùng, miền lại có ngôn ngữ ký hiệu khác Chẳng hạn Việt Nam có nhóm ngơn ngữ ký hiệu chính, là: ngơn ngữ ký hiệu Hải Phịng, Hà Nội, Thành phố Hồ Chí Minh Tại Việt Nam cộng đồng người khiếm thính chiếm tổng số 4-5% dân số nước Bên cạnh đó, hầu hết họ khơng biết sử dụng ngôn ngữ ký hiệu sống hàng ngày, điều trở thành rào cản để họ giao tiếp với giới bên ngồi Do đó, việc tất yếu việc phát triển tập liệu ngôn ngữ kí hiệu tiêu chuẩn hồn thiện hệ thống hỗ trợ giao tiếp cho người khiếm thính Việt Nam Hệ thống nhận dạng ngôn ngữ ký hiệu tự động không cầu nối cộng đồng khiếm thính giới bên ngồi mà chúng cịn có vai trị quan trọng ứng dụng rô bốt hệ thống tương tác người máy tính Hơn việc hồn thành nhận dạng ngơn ngữ ký hiệu giúp trẻ em khiếm thính học nhận thức, xã hội, cảm xúc ngơn ngữ Hệ thống nhận dạng ngơn ngữ kí hiệu ghi nhận chuyển chộng phân tích chuyển động phần thể người Bởi vậy, có giải pháp cho vấn đề trên: tiếp cận theo hướng thị giác máy tính tiếp cận theo hướng sử dụng cảm biến chuyển động Phương pháp dựa thị giác máy tính sử dụng đầu vào video, phương pháp cịn lại sử dụng tín hiệu thu từ cảm biến Trong số hai hướng tiếp cận này, cách tiếp cận dựa thị giác máy tính chứng tỏ thuận tiện tự nhiên chúng khơng u cầu người khiếm thính phải đeo thiết bị có chứa cảm biến gây khó chịu giao tiếp Cách tiếp cận dựa thị giác lấy đầu vào loạt khung hình phân loại tập khung hình thành từ ký tự ngôn ngữ ký hiệu tương ứng, tương tự vấn đề nhận dạng hoạt động video Các mơ hình học sâu gần áp dụng để giải hiệu vấn đề nhận dạng hoạt động TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 115 NHẬN DẠNG NGƠN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI video [1], [2], [3] Đề xuất tận dụng lợi cấu trúc mạng học sâu kết hợp I3D [1] LSTM [4] cho nhận dạng ngôn ngữ ký hiệu tiếng Việt I3D module sử dụng để nắm bắt thông tin khơng gian chuyển động, cịn LSTM module lại nắm bắt đặc trưng chuyển động theo theo thời gian Để xuất chúng tơi chia tập khung hình đầu vào thành khối khung hình nhỏ đưa vào I3D module Việc chia dựa quan sát hành động mô tả ngôn ngữ ký hiệu video cấu thành nhiều hành động rời rạc bao gồm kí tự dấu Do đó, việc chia đầu vào thành khối khung hình nhỏ giúp cải thiện độ xác hệ thống II NGHIÊN CỨU LIÊN QUAN Nhận dạng ngôn ngữ ký hiệu chia làm hai loại chính: dựa liệu cảm biến (sensor-based) dựa thị giác máy tính (vision-based) A Phương pháp dựa liệu cảm biến Người khiếm thính phải đeo thiết bị có gắn cảm biến mơ tả từ ngôn ngữ ký hiệu suốt hội thoại họ Bằng cách sử dụng liệu cảm biến này, giúp đơn giản hóa cơng việc tiền xử lý liệu khả lọc nhiễu, yếu tố phức tạp mơi trường Bên cạnh chuyển động người khiếm thính khơng bị giới hạn ngữ cảnh cụ thể đứng trước máy thu hình Trong cách tiếp cận này, tín hiệu từ cảm biến truyền không dây đến thiết bị từ xa để xử lý nhận dạng [5], [6] Tuy nhiên, với phát triển khả tính tốn thiết bị nhúng, vài hệ thống nhận dạng ngơn ngữ kí hiệu đơn giản chạy trực tiếp thiết bị chẳng hạn găng tay điện tử vòng đeo tay thơng minh [7] Cải tiến làm cho cách tiếp cận dựa cảm biến phù hợp ứng dụng thực tế Trong số báo, có số cách tiếp cận đề xuất để tận dụng nhiều cảm biến để nhận dạng ngôn ngữ ký hiệu Nhóm tác giả [8] đề xuất phương pháp sử dụng kết hợp cảm biến gia tốc cảm biến điện Các tín hiệu đến từ cảm biến gia tốc điện xử lý trước đưa vào phân loại SVM Theo đề xuất họ, hệ thống nhận dạng ngơn ngữ kí hiệu đạt độ xác 96,16% liệu tự thu thập họ Mặc dù phương pháp tiếp cận dựa nhiều cảm biến đạt độ xác tốt SOÁ 03 (CS.01) 2020 hệ thống trở nên bất tiện cho người thực ngôn ngữ ký hiệu họ phải đeo nhiều thiết bị Hơn nữa, cách tiếp cận nắm bắt tồn thay đổi hình dạng chuyển động tương đối phận thể B Phương pháp dựa thị giác máy tính Với phương pháp tiếp cận máy thu hình sử dụng cơng cụ giúp ghi lại liệu đầu vào Lợi sử dụng máy thu hình khơng cần đeo thiết bị giúp giảm chi phí giá thành thệ thống Hơn giới hạn góc nhìn máy thu hình lớn giúp cho thu đồng thời nhiều người hội thoại Bên cạnh ngày điện thoại thơng minh trang bị máy thu hình với độ phân giải cao tiềm lớn cho liệu đầu vào hệ thống nhận dạng Vì tiếp cận dự thị giác máy tính cho hệ thống nhận dạng ngơn ngữ kí hiệu khiến cho việc giao tiếp ngày người khiếm thính tự nhiên thuật tiện sử dụng Do lợi ích đề cập trên, có nhiều nhà nghiên cứu tập trung vào đề xuất nhận dạng ngôn ngữ ký hiệu dựa thị giác nhiều ngôn ngữ khác ngôn ngữ ký hiệu Mỹ [9], [10], [11], ngôn ngữ ký hiệu Trung Quốc [12], ký hiệu Hàn Quốc ngôn ngữ [13] ngôn ngữ ký hiệu Việt Nam [14], [15] Trong [11], tác giả nghiên cứu hai kỹ thuật trích xuất tính Combined Orient Histogram and Statistical and Wavelet feature để nhận dạng ngơn ngữ kí hiệu Mỹ số từ 0-9 Các đặc trưng kết hợp lại đưa vào mạng nơ ron để huấn luyện Tác giả [12] triển thực nắm bắt thông tin chiều không gian thời gian mơ hình phân loại ngơn ngữ kí hiệu Trung Quốc Đầu tiên mơ hình trích đặc trưng ngơn ngữ kí hiệu thực hiện, đặc trưng đầu vào phân loại SVM để nhận dạng 30 loại bảng chữ Trung Quốc Kết họ cho thấy Linear kernel SVM phân loại phù hợp với nhận dạng ngôn ngữ kí hiệu Để nhận dạng ngơn ngữ kí hiệu Việt Nam, tác giả [14] sử dụng mô tả địa phương Trong mơ đun trích chọn đặc trưng, họ trích xuất đặc trưng khơng gian đặc trưng ngữ cảnh để mô tả từ ngữ ngôn ngữ ký hiệu Sau tập đặc trưng học phân loại SVM Đánh giá tập liệu họ cho kết đạt độ xác 86,61% Từ cách tiếp cận thị giác máy tính, nhận dạng ngơn ngữ ký hiệu xem nhánh nhận dạng hành TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 116 Vũ Hồi Nam, Hoàng Mậu Trung, Phạm Văn Cường động với hạn chế chuyển động số phận thể Có xu hướng cộng đồng nhận dạng ngơn ngữ ký hiệu nhà nghiên cứu cố gắng thay đặc trưng thủ công mơ hình học sâu để cải thiện độ xác độ tin cậy [15] sử dụng CNN-LSTM cho nhận dạng ngơn ngữ kí hiệu Việt Nam Kết họ cho thấy phương pháp học sâu có kết vượt trội so với phương pháp truyền thống Tác giả [13] phát triển hệ thống nhận dạng ngơn ngữ kí hiệu Hàn Quốc dựa mạng nơ-ron tích chập CNN từ đầu vào video Tập liệu họ bao gồm 10 từ chọn ngơn ngữ kí hiệu Hàn Quốc Phương pháp họ đạt độ xác 84,5% Tắc giả [16] xuất phướng pháp kết hợp hai kĩ thuật mạnh học sâu CNN trích đặc trưng khơng gian LSTM trích đặc trưng thời gian Kết hệ thống họ đánh giá tập liệu gồm 40 từ vựng thông dụng ngày Đánh giá họ mơ hình dựa CNN-LSTM thực thi thời gian thực cho ứng dụng thực tế Trong [17], việc nhúng CNN từ đầu đến cuối vào mơ hình Markov ẩn (HMM) giới thiệu CNN-HMM lai tận dụng khả phân biệt đối xử mạnh mẽ CNN khả mơ hình hóa trình tự HMM Phương pháp đề xuất họ nhận ngơn ngữ ký hiệu liên tục đạt tỷ lệ lỗi 30% 32,5% liệu Phoenix 2012 [18] liệu Phoenix 2014 [19] III PHƯƠNG PHÁP ĐỀ XUẤT Đề xuất chúng tơi mơ tả Hình bao gồm phần chính: mơ hình I3D để trích rút đặc trưng mặt khơng gian mơ hình LSTM để trích rút đặc trưng mặt thời gian Đầu vào khung hình lấy từ video, chúng tơi chia tập khung hình thành khối Sau với khối trở thành đầu vào mô đun I3D, số lượng mô đun I3D số lượng khối khung hình Trong báo tối ưu số lượng khối đầu vào dựa kết thực nghiệm sở liệu Độ dài khối video ảnh hưởng đến số lượng khối sau cắt nhỏ Trong thực tế, mơ hình đưa để nhận dạng hành động video nói chung cho độ hiệu khơng cao Tuy nhiên với tốn nhận dạng ngôn ngữ ký hiệu, hành động người thực ngôn ngữ ký hiệu tập hợp nhiều hành động nhỏ tay cảm xúc khuôn mặt, hành động nhỏ xuất SOÁ 03 (CS.01) 2020 video nhóm khác người thực từ khác Do vậy, lấy động lực từ phương pháp túi từ (Bag of word), nhóm nghiên cứu đề xuất chia video từ ngôn ngữ ký hiệu thành video nhỏ để áp dụng hiệu tốn nhận dạng ngơn ngữ ký hiệu Mỗi hành động Đầu mô đun I3D vector đặc trưng 1024 chiều, sau đưa qua lớp LSTM để phân loại thành nhóm ngơn ngữ kí hiệu A I3D I3D đề xuất để giải vấn đề cho nhận dạng hành động người (Human Activity Recognition - HAR) I3D sử dụng Inception V1 đào tạo trước để thực học tập chuyển đổi từ liệu ImageNet sang liệu video hoạt động người Các hạt nhân mạng Inception V1 [20] truyền thống mở rộng thành hình dạng chiều (3D) để phù hợp với liệu đầu vào chuỗi khung Thành cơng mơ hình I3D dựa quan sát khơng có liệu HAR có sẵn lớn ImageNet Trong tài liệu, mơ hình mạng nơ ron nhân chập chiều (3DCNN) sử dụng cho vấn đề phân loại video mơ hình nơng thiếu liệu Mơ hình chúng tơi sử dụng mơ hình I3D đào tạo trước để tinh chỉnh với tập liệu Mô hình I3D đào tạo trước phù hợp với vấn đề phân loại video HAR ngắn khơng nắm bắt thơng tin khơng gian cách hồn hảo mà cịn tìm hiểu đặc điểm tạm thời hoạt động cục Tuy nhiên, áp dụng mơ hình I3D trực tiếp vào liệu ngơn ngữ ký hiệu khơng hiệu video ngơn ngữ ký hiệu chứa số hành động phụ video thời lượng dài Do đó, thay áp dụng I3D trực tiếp để nhận dạng ngôn ngữ ký hiệu, chia khung đầu vào thành khối phụ để lấy đầu vào cho lớp I3D Sau đó, đầu lớp I3D chuyển cho lớp LSTM để khai phá đặc trưng toàn cục B LSTM LSTM biến thể tiếng mơ hình mạng thần kinh hồi quy ( Recurrent Neural Network - RNN) để giải vấn đề mơ hình liệu biến đổi theo thời gian Ý tưởng chính RNN sử dụng trực tiếp thơng tin Mơ hình RNN thực nhiệm vụ cho phần tử chuỗi, với đầu phụ thuộc vào tính tốn trước Ngồi ra, mơ hình RNN có TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 117 NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Hình Sơ đồ khối phương pháp đề xuất thể nắm bắt thứ tự liệu chuỗi thời gian để dự đốn xác đầu Tuy nhiên RNN gặp phải hai vấn đề vanishing gradient exploding gradient Vanishing gradient xảy ta đóng góp khơng đáng kể thơng tin cho gradient bước thời gian xảy trước Do mơ hình sâu khó đào tạo Exploding gradient xảy bùng nổ thông tin bước thời gian trước dẫn đến tích lũy gradient, dẫn đến cập nhật lớn cho trọng số mơ hình q trình huấn luyện LSTM đề xuất đưa để giải nhược điểm RNN Một tế bào LSTM mổ tả Hình bao gồm cổng đầu vào it cổng đầu ot , cổng quên ft Với thiết kế gồm cổng LSTM có khả giải vấn đề phụ thuộc dài hạn mà mơ hình RNN khơng thể học Trong viết, LSTM vượt trội RNN vấn đề liên quna đến liệu thay đổi theo chuỗi thời gian Đạo hàm công thức cụ thể LSTM minh họa Công thức (1) - (11) Trong phương pháp đề xuất chúng tôi, lớp LSTM xếp chồng lên sau mô-đun I3D để tìm hiểu mối quan hệ hành động phụ video ngôn ngữ ký hiệu Đầu tế bào LSTM trạng thái tế bào (ct ) trạng thái ẩn (ht ) Đầu vào tế bào LSTM trạng thái tế bào trước (ct−1 ), trạng thái ẩn trước (ht−1 ) đầu vào trạng thái thứ i (xt ) SOÁ 03 (CS.01) 2020 sigmoid(x) = tanh(x) = 1 + e−x e2x − e2x + (1) (2) ft = sigmoid(Uf ∗ xt + Wf ∗ ht−1 + bf ) (3) it = sigmoid(Ui ∗ xt + Wi ∗ ht−1 + bi ) (4) ot = sigmoid(Uo ∗ xt + Wo ∗ ht−1 + bo ) (5) ct = ft ∗ct−1 +it ∗tanh(Uc ∗xt +Wc ∗ht−1 +bc ) (6) ht = ot ∗ tanh(ct ) (7) Trong Uf , Ui , Uo , Uc tham số đầu vào ; Wf , Wi , Wo , Wc tham số hồi quy; bf , bi , bo , bc tham số độ lệch; TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 118 Vũ Hồi Nam, Hồng Mậu Trung, Phạm Văn Cường Hình Kiến trúc LSTM Hình Phân bố mẫu huấn luyện C Chiến lược chia khối Đặc điểm khác biệt phương pháp đề xuất phương pháp phân chia khối Phương pháp bắt nguồn từ việc quan sát ký tự ngôn ngữ ký hiệu biểu diễn kết hợp loạt hành động Do việc phân đoạn video thành đoạn nhỏ cho kết tốt hơn, mà, mơ hình có khả tìm hiểu mơ hình hóa mối quan hệ hành động phụ với Do đó, chúng tơi chia đầu vào video thành khối kích thước Sau đó, khối đầu vào I3D LSTM Hình Độ dài khối tham số quan trọng cần chọn cẩn thận Sự lựa chọn sai tham số làm giảm đáng kể độ xác phương pháp đề xuất Tuy nhiên, kích thước khối cố định để áp dụng vào trường hợp thức tế Trong phần kết thử nghiệm, triển khai hệ thống với độ dài khác để có độ dài tối ưu D VSLB-C: Bộ liệu ngôn ngữ ký hiệu tiếng Việt mức độ ký tự Hệ thống bảng chữ tiếng Việt giống với hệ thống bảng chữ tiếng Anh bảng chữ hệ thống ký hiệu Trung Quốc, Nhật Bản Hàn Quốc Tuy nhiên Tiếng Việt chí cịn phức tạp tiếng Anh đặc điểm âm sắc chúng bao gồm sáu âm khác ba dấu phụ Do đó, việc xây dựng liệu cần thiết để nghiên cứu việc nhận dạng ngôn ngữ ký hiệu tiếng Việt video Trong báo này, thu thập liệu bao gồm tất chữ tiếng Việt từ vựng ngôn ngữ ký hiệu tiếng Việt Trong quy trình SỐ 03 (CS.01) 2020 Hình Phân bố mẫu kiểm tra thu thập liệu này, người tham gia yêu cầu thực cử ngôn ngữ ký hiệu trước máy thu hình Bên cạnh đó, người tham gia tự mặc loại quần áo khác Hình Mỗi người tham gia yêu cầu thực đầy đủ 29 ký tự bảng chữ ngôn ngữ ký hiệu tiếng Việt Mỗi người thực ghi lại nhiều lần với góc khoảng cách khác từ người tham gia máy thu hình Kết liệu bao gồm tổng cộng 3248 video Chúng chia liệu thành phần huẩn luyện phần thử nghiệm Tổng số video cho phần chi tiết Hình Hình Tổng số video cho người tham gia phần huẩn luyện gần Trong tổng số video cho người tham gia phần thử nghiệm TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 119 NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Hình Ảnh mẫu từ tập liệu video khác đáng kể Chiến lược chia tách làm cho trình huẩn luyện hiệu đảm bảo tính khách quan hệ thống Các tham số huẩn luyện phương pháp đề xuất thể Bảng I Bảng II Tổng số tham số huấn luyện khoảng 17 triệu Để với trình huấn luyện hiệu quả, tỷ lệ học điều chỉnh số lượng epoch khác Trình tối ưu hóa chúng tơi sử dụng Stochastic Gradient Descent, hàm mát cross entropy Bảng I CÁC THAM SỐ CỦA MƠ HÌNH ĐỀ XUẤT Parameters Input shape Output I3D Output model Epoch Batch size Learning rate Learning rate Learning rate Optimizer Loss function Value blocks x frames x 224 x 224 x 1024 dimensions 29 classes 40 16 1e-2 1e-3 5*1e-4 SGD Cross entropy Notes RGB image Epoch = 20 Decay = 1e-6 Kết trình huấn luyện thể Hình Hình Giá trị mát độ xác q trình huấn luyện có xu hướng dao động mạnh epoch đầu tiên, sau ổn định SỐ 03 (CS.01) 2020 Bảng II SỐ LƯỢNG TRỌNG SỐ HUẤN LUYỆN ĐƯỢC CỦA MƠ HÌNH ĐỀ XUẤT Layer Time distributed LSTM LSTM Dropout Dense Total Output shape No of param (None, 5, 1024) 13,344,144 (None, 5, 512) 3,147,776 (None, 128) 328,192 (None, 128) (None, 29) 3,741 Params: 16,823,853 epoch sau Nếu độ mát độ xác khơng ổn định trình huấn luyện, điều cho thấy khơng có dấu hiệu hội tụ, mơ hình đề xuất khơng phù hợp với tập liệu Mơ hình đề xuất chúng tơi có xu hướng hội tụ đến giá trị tối ưu sau 20 epoch Kết cho thấy mơ hình hoạt động hiệu liệu kiểm tra xác nhận hợp lệ Q trình huấn luyện chúng tơi dừng lại sau 40 epoch IV KẾT QUẢ THỰC NGHIỆM A Đánh giá độ xác Đối với 29 ký tự, cách tiếp cận phải phân loại video đầu vào thành 29 nhãn khác Chúng đánh giá mơ hình cách sử dụng độ đo F1, xem xét phân loại xác lớp quan trọng Chiến lược chia tách theo khối mơ tả phần trước Từ kết TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 120 Vũ Hoài Nam, Hoàng Mậu Trung, Phạm Văn Cường thể phân loại xác, ngoại trừ vài ký tự giống biểu diễn ngôn ngữ ký hiệu u ô, m n, l đ Bảng III KẾT QUẢ SO SÁNH Method Standard I3D CNN1D+LSTM 3DCNN Our proposed method F1 score 89.2 87.6 86.2 92.3 B Thử nghiệm thực tế Hình Biến đổi độ xác q trình huấn luyện Trong thực nghiệm này, chúng tơi tích hợp mơ hình vào ứng dụng giới thực cá nhân muốn giao tiếp với người câm điếc Họ thực hoạt động ngôn ngữ ký hiệu trước máy thu hình Trong tiếng Việt, giống ngôn ngữ Latinh khác, từ kết hợp tập hợp ký tự Từ quan điểm này, xây dựng ứng dụng dựa web để người dùng nhập loạt ký tự ngơn ngữ ký hiệu Nếu người dùng muốn nói "tơi" họ nhập t, oo, i tiếng Việt theo thứ tự (tơi) Các thí nghiệm cho thấy hệ thống hoạt động miền thời gian thực Thời gian xử lý để xác định ký tự riêng lẻ khoảng 200 mili giây với cạc hình GTX 1070 TI V KẾT LUẬN Hình Biến đổi hàm mát trình huấn luyện Bảng III, thấy phương pháp đề xuất đạt số F1 cao so với phương pháp sở sử dụng mạng I3D tiêu chuẩn phương pháp tốt phương pháp khác CNN1D kết hợp LSTM 3DCNN Kết giải thích thực tế hoạt động từ video đầu vào bao gồm vài hoạt động phụ Do đó, mơ hình chúng tơi tìm chế phân chia theo khối hiệu cho thấy hiệu suất tốt Do đó, điểm F1 cho việc sử dụng mạng I3D 89,2% số cho phương pháp đề xuất đạt 92,3% Ma trận sai số chi tiết mơ hình phân loại đề xuất đưa Hình Như hiển thị ma trận sai số, hầu hết ký tự cụ SOÁ 03 (CS.01) 2020 Bằng cách so sánh độ xác mơ hình đề xuất với I3D tiêu chuẩn, mơ hình chúng tơi cho kết cao hơn, độ phức tạp tính tốn tương tự I3D tiêu chuẩn Để mơ hình triển khai thực tế, sưu tập sở liệu cần thêm số ký tự n Unicode để mã hóa sáu âm ba dấu phụ ngôn ngữ ký hiệu tiếng Việt Nếu ký tự đặt thành chuyển đổi câu cần thiết, ký tự "khoảng trắng" phải thêm vào sở liệu Vào thời điểm đó, nhóm nghiên cứu chúng tơi tham khảo ý kiến chuyên gia ngôn ngữ ký hiệu Việt Nam để liên kết hoạt động ngôn ngữ ký hiệu liên quan đến kí hiệu "khoảng trắng" Mơ hình đề xuất sử dụng để xây dựng từ điển cho cộng đồng người câm điếc người khác Một thử nghiệm thực nghiệm tiến hành để xác minh phương pháp đề xuất chúng tôi, dựa sở liệu VSLB-C Kết đánh giá chứng minh tính khả thi việc nhận biết ngôn ngữ ký hiệu tiếng Việt Cơng việc TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 121 NHẬN DẠNG NGƠN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Hình Ma trận sai số phương pháp đề xuất tương lai nên điều tra mô hình phân cấp sâu để học tập hiệu xây dựng sở liệu ngôn ngữ ký hiệu dựa tiếng Việt để giao tiếp thuận tiện người câm điếc người khác LỜI CẢM ƠN Nghiên cứu tài trợ chương trình học bổng nước Quỹ đổi tập đoàn VinGroup mã số: VINIF.2019.TS.41 TÀI LIỆU THAM KHẢO [1] Carreira, Joao, and Andrew Zisserman "Quo vadis, action recognition? a new model and the kinetics dataset." In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 6299-6308 2017 [2] Hong, Jongkwang, Bora Cho, Yong Won Hong, and Hyeran Byun "Contextual Action Cues from Camera Sensor for Multi-Stream Action Recognition." Sensors 19, no (2019): 1382 [3] Wang, Xianyuan, Zhenjiang Miao, Ruyi Zhang, and Shanshan Hao "I3D-LSTM: A New Model for Human Action Recognition." In IOP Conference Series: Materials Science and Engineering, vol 569, no 3, p 032035 IOP Publishing, 2019 [4] Gers, Felix A., Jăurgen Schmidhuber, and Fred Cummins "Learning to forget: Continual prediction with LSTM." (1999): 850-855 [5] Das, Abhinandan, Lavish Yadav, Mayank Singhal, Raman Sachan, Hemang Goyal, Keshav Taparia, Raghav Gulati, Ankit Singh, and Gaurav Trivedi "Smart glove for Sign Language communications." In 2016 International Conference on Accessibility to Digital World (ICADW), pp 2731 IEEE, 2016 SOÁ 03 (CS.01) 2020 [6] Praveen, Nikhita, Naveen Karanth, and M S Megha "Sign language interpreter using a smart glove." In 2014 International Conference on Advances in Electronics Computers and Communications, pp 1-5 IEEE, 2014 [7] Dai, Qian, Jiahui Hou, Panlong Yang, Xiangyang Li, Fei Wang, and Xumiao Zhang "The sound of silence: endto-end sign language recognition using smartwatch." In Proceedings of the 23rd Annual International Conference on Mobile Computing and Networking, pp 462-464 2017 [8] Wu, Jian, Lu Sun, and Roozbeh Jafari "A wearable system for recognizing American sign language in real-time using IMU and surface EMG sensors." IEEE journal of biomedical and health informatics 20, no (2016): 1281-1290 [9] Starner, Thad, Joshua Weaver, and Alex Pentland "Realtime american sign language recognition using desk and wearable computer based video." IEEE Transactions on pattern analysis and machine intelligence 20, no 12 (1998): 1371-1375 [10] Zafrulla, Zahoor, Helene Brashear, Thad Starner, Harley Hamilton, and Peter Presti "American sign language recognition with the kinect." In Proceedings of the 13th international conference on multimodal interfaces, pp 279-286 2011 [11] Thalange, Asha, and S K Dixit "COHST and wavelet features based Static ASL numbers recognition." Procedia Computer Science 92 (2016): 455-460 [12] Yang, Quan "Chinese sign language recognition based on video sequence appearance modeling." In 2010 5th IEEE Conference on Industrial Electronics and Applications, pp 1537-1542 IEEE, 2010 [13] Shin, Hyojoo, Woo Je Kim, and Kyoung-ae Jang "Korean sign language recognition based on image and convolution neural network." In Proceedings of the 2nd International Conference on Image and Graphics Processing, pp 52-55 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 122 Vũ Hồi Nam, Hồng Mậu Trung, Phạm Văn Cường [14] Vo, Anh H., Nhu TQ Nguyen, Ngan TB Nguyen, Van-Huy Pham, Ta Van Giap, and Bao T Nguyen "Video-Based Vietnamese Sign Language Recognition Using Local Descriptors." In Asian Conference on Intelligent Information and Database Systems, pp 680-693 Springer, Cham, 2019 [15] Vo, Anh H., Van-Huy Pham, and Bao T Nguyen "Deep Learning for Vietnamese Sign Language Recognition in Video Sequence."International Journal of Machine Learning and Computing 9, no (2019) [16] Yang, Su, and Qing Zhu "Continuous Chinese sign language recognition with CNN-LSTM." In Ninth International Conference on Digital Image Processing (ICDIP 2017), vol 10420, p 104200F International Society for Optics and Photonics, 2017 [17] Koller, Oscar, Sepehr Zargaran, Hermann Ney, and Richard Bowden "Deep sign: enabling robust statistical continuous sign language recognition via hybrid CNN-HMMs." International Journal of Computer Vision 126, no 12 (2018): 1311-1325 [18] Forster, Jens, Christoph Schmidt, Thomas Hoyoux, Oscar Koller, Uwe Zelle, Justus H Piater, and Hermann Ney "RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and Translation Corpus." In LREC, vol 9, pp 3785-3789 2012 [19] Cihan Camgoz, Necati, Simon Hadfield, Oscar Koller, Hermann Ney, and Richard Bowden "Neural sign language translation." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 7784-7793 2018 [20] Szegedy, Christian, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich "Going deeper with convolutions." In Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1-9 2015 VIETNAMESE SIGN LANGUAGE RECOGNITION IN VIDEO BY MULTI-BLOCK I3D AND LSTM Abstract: Sign language is an irreplaceable means in the daily communication of the deaf-mute community Sign language is represented by the gesture of the upper body part With the development of advanced technology, the Sign language recognition system has become an effective bridge between the deaf-mute community with the outside world Vietnamese sign language recognition (VSLR) is a branch of sign language recognition used by the community of Vietnamese deaf-mute people VSLR aims to correctly interpret the gestures in sign language into their corresponding text In this paper, we propose a method for identifying sign language from videos based on deep learning framework The proposed method includes two main parts which are two SOÁ 03 (CS.01) 2020 streams convolutional neural network (CNN) for the spatial features and long-short term memory (LSTM) network for the temporal features We evaluated the framework with our acquired dataset including 29 Vietnamese alphabets, tone marks, and a space symbol The experiments achieved satisfactory results of 95% F1 score which proves the feasibility and applicability of the proposed approach Keywords: Vietnamese sign language, video recognition, deep learning Vu Hoai Nam nhận kỹ sư Điện tử Viễn thông Đại học Bách Khoa Hà Nội năm 2013 thạc sỹ Khoa học Máy tính Đại học Quốc gia Chonnam, Hàn Quốc năm 2015 Hiện tại, Thạc sỹ Nam nghiên cứu sinh nghành Khoa học Máy tính Học viện Cơng nghệ Bưu Viễn thơng Từ năm 2016, thạc sỹ Nam giảng viên môn Khoa học máy tính, Học viện Cơng nghệ Bưu Viễn thông Hướng nghiên cưu thạc sỹ Nam bao gồm xử lý ảnh UAV, học máy, học sâu Hoang Mau Trung sinh viên đại học nghành Khoa học máy tính, Học viện Cơng nghệ Bưu Viễn thơng Hướng nghiên cứu Trung xử lý ảnh học sâu Pham Van Cuong Phó giáo sư nghành Khoa học máy tính Học viện Cơng nghệ Bưu Viễn thơng (PTIT) Trước tham gia giảng dạy Học viện, Phó giáo sư Cường nghiên cứu viên trung tâm nghiên cứu phát triển Philips Hà Lan Phó giáo sư Cường nhận cử nhân Khoa học máy tính Đại học Quốc gia Hà Nội năm 1998, nhận Thạc sỹ nghành Khoa học máy tính Đại học New Mexico, Mỹ năm 2005 Phó giáo sư Cường nhận Tiến sỹ Đại học Newcastle, Anh năm 2012 Hướng nghiên cứu Phó giáo sư Cường tính tốn khắp nơi, tính tốn thiết bị đeo dán, nhận dạng hoạt động người học sâu TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THOÂNG 123 ...NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI video [1], [2], [3] Đề xuất tận dụng lợi cấu trúc mạng học sâu kết hợp I3D [1] LSTM [4] cho nhận dạng ngôn ngữ ký hiệu. .. trung vào đề xuất nhận dạng ngôn ngữ ký hiệu dựa thị giác nhiều ngôn ngữ khác ngôn ngữ ký hiệu Mỹ [9], [10], [11], ngôn ngữ ký hiệu Trung Quốc [12], ký hiệu Hàn Quốc ngôn ngữ [13] ngôn ngữ ký hiệu. .. thi việc nhận biết ngơn ngữ ký hiệu tiếng Việt Cơng việc TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 121 NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Hình

Ngày đăng: 04/08/2021, 15:21