Nhận dạng ngôn ngữ ký hiệu tiếng việt của người khiếm thính bằng phương pháp học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM THÀNH PHỐ HỒ CHÍ MINH ——————————————————— Lâm Ngọc Phƣợng Hằng NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT CỦA NGƢỜI KHIẾM THÍNH BẰNG PHƢƠNG PHÁP HỌC SÂU LUẬN VĂN THẠC SĨ MÁY TÍNH Thành phố Hồ Chí Minh - 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM THÀNH PHỐ HỒ CHÍ MINH ——————————————————— Lâm Ngọc Phƣợng Hằng NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT CỦA NGƢỜI KHIẾM THÍNH BẰNG PHƢƠNG PHÁP HỌC SÂU Chuyên ngành: Khoa Học Máy Tính Mã số: 8480101 LUẬN VĂN THẠC SĨ MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGƠ QUỐC VIỆT Thành phố Hồ Chí Minh – 2022 LỜI CAM ĐOAN Tôi là: Lâm Ngọc Phƣợng Hằng Tôi xin cam đoan cơng trình nghiên cứu thực hiện, dƣới dẫn TS Ngô Quốc Việt Tôi cam đoan kết nghiên cứu đƣợc trình bày luận văn trung thực không chép từ luận văn khác Mọi trích dẫn có ghi nguồn gốc xuất xứ rõ ràng đầy đủ TP HCM, ngày 31 tháng năm 2022 HỌC VIÊN Lâm Ngọc Phƣợng Hằng LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới TS Ngô Quốc Việt, Trƣờng Đại học Sƣ Phạm Thành phố Hồ Chí Minh, thầy tận tình hƣớng dẫn giúp đỡ tơi hồn thành luận văn thạc sĩ Tơi xin gửi lời cảm ơn sâu sắc đến thầy cô giáo Trƣờng Đại học Sƣ Phạm Thành phố Hồ Chí Minh nhiệt tình giảng dạy, truyền đạt kiến thức cho suốt năm học để tơi hồn thành đƣợc luận văn TP HCM, ngày 31 tháng năm 2022 HỌC VIÊN Lâm Ngọc Phƣợng Hằng MỤC LỤC Trang Lời cam đoan Lời cảm ơn Mục lục Danh mục ký hiệu Danh mục chữ viết tắt Danh mục bảng Danh mục hình vẽ Danh mục biểu đồ MỞ ĐẦU CHƢƠNG TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 1.1 Tổng quan ngôn ngữ ký hiệu Việt Nam 1.2 Những nghiên cứu liên quan 1.2.1 Phƣơng pháp dựa liệu cảm biến 1.2.2 Phƣơng pháp dựa thị giác máy tính CHƢƠNG CƠ SỞ LÝ THUYẾT 12 2.1 MediaPipe Holistic 12 2.2 Mạng nơ-ron 16 2.3 RNN 22 2.4 LSTM 27 CHƢƠNG MƠ HÌNH NHẬN DẠNG NGÔN NGỮ KÝ HIỆU 32 3.1 Cơ sở liệu ngôn ngữ ký hiệu 32 3.2 Phƣơng pháp huấn luyện liệu đầu vào 35 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 37 4.1 Môi trƣờng thực nghiệm 37 4.2 Bộ liệu đầu vào 37 4.3 Kết thực nghiệm 39 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 46 TÀI LIỆU THAM KHẢO 47 DANH MỤC CÁC KÝ HIỆU a (l ) Giá trị nơ-ron tầng l sau áp dụng hàm kích hoạt bi(l ) Bias nơ-ron thứ i tầng l b, c Độ lệch (bias) ht Trạng thái ẩn bƣớc thời gian t li Số lƣợng nơ-ron tầng ẩn thứ i m Số lƣợng liệu huấn luyện wij(l ) Hệ số kết nối từ node thứ i layer l  đến node thứ j layer l xt Giá trị đầu vào bƣớc thời gian t y (i ) Đầu thực tế liệu thứ i tập huấn luyện yt Giá trị đầu bƣớc thời gian t yˆ t z (l ) U ,V ,W Vector xác suất chuẩn hóa qua hàm softmax bƣớc thời gian t Giá trị nút tầng l sau bƣớc tính tổng linear Các ma trận trọng số mạng RNN DANH MỤC CÁC CHỮ CÁI VIẾT TẮT Từ viết tắt Nghĩa chữ viết tắt Dịch nghĩa tiếng Việt ASL American Sign Language Ngôn ngữ ký hiệu Mỹ BPTT Backpropagation Through Tính tốn lan truyền ngƣợc Time CNN Convolutional Neural Mạng nơ-ron tích chập Networks NN Neural Network Mạng nơ-ron nhân tạo LSTM VSL Long Short-Term Memory Vietnamese Sign Language Ngôn ngữ ký hiệu Tiếng Việt RNN Recurrent Neural Network Mạng hồi quy ROI Regions Of Interest Vùng quan tâm SGD Stochastic Gradient Descent Thuật tốn tối ƣu hóa độ dốc ngẫu nhiên DANH MỤC CÁC BẢNG Bảng 2.1 Các activation function thông dụng 19 Bảng 4.1 Thống kê số lƣợng video từ VSL tập liệu 37 Bảng 4.2 Số lƣợng trọng số huấn luyện mơ hình đề xuất 39 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Bảng chữ ASL [2] bảng chữ VSL [3] Hình 1.2 Năm thành tố ký hiệu [4] Hình 2.1 BlazePose Detector [9] 13 Hình 2.2 33 điểm mốc mơ tả tƣ [9] 13 Hình 2.3 21 điểm mốc tay [10] 15 Hình 2.4 Ví dụ Face mesh [13] 16 Hình 2.5 Tổng quan trình trích xuất điểm mốc MediaPipe Holistic [14] 16 Hình 2.6 Kiến trúc mạng NN [15] 17 Hình 2.7 Quá trình xử lý mạng NN [15] 18 Hình 2.8 Hàm Sigmoid [15] 19 Hình 2.9 Hàm [15] 20 Hình 2.10 Hàm ReLU [15] 20 Hình 2.11 Các dạng toán RNN [15] 23 Hình 2.12 Kiến trúc mạng RNN [18] 24 Hình 2.13 Kiến trúc RNN điểm thời gian [18] 24 Hình 2.14 Mơ hình module LSTM [15] 28 Hình 2.15 Cell state LSTM [15] 29 Hình 2.16 Ba cổng LSTM [15] 29 Hình 3.1 Điểm mốc đƣợc trích xuất khung thứ 4617 video thứ từ ―ba‖ 34 Hình 3.2 Điểm mốc đƣợc trích xuất khung thứ 1305 video thứ từ ―cậu‖ 35 Hình 3.3 Điểm mốc video đầu vào sau thực MediaPipe Holistic 36 Hình 3.4 Sơ đồ mơ hình đề xuất 36 35 khung Vì thế, chúng tơi ghi nhận 33 điểm mốc bàn tay phải thành dãy số chứa thơng số [0.0, 0.0, 0.0] Hình 3.2 Điểm mốc đƣợc trích xuất khung thứ 1305 video thứ từ ―cậu‖ Sau thu thập tất điểm mốc khung video ghi tất điểm mốc tất khung thành file để lƣu giữ nhận dạng (xem Hình 3.3) 3.2 Phƣơng pháp huấn luyện liệu đầu vào Chúng tơi sử dụng mơ hình LSTM để nhận dạng ngơn ngữ ký hiệu (xem Hình 3.4) Thông qua kết đầu MediaPipe Holistic, đƣa liệu xử lý lớp LSTM để nhận dạng Phần liệu đƣợc xử lý chia thành tập liệu huấn luyện (60%), tập liệu kiểm thử (20%) tập liệu kiểm tra (20%) Sau huấn luyện, mơ hình cho kết chứa ngôn ngữ ký hiệu cần nhận biết 36 Hình 3.3 Điểm mốc video đầu vào sau thực MediaPipe Holistic Hình 3.4 Sơ đồ mơ hình đề xuất 37 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trƣờng thực nghiệm Về thông tin máy chạy thực nghiệm:  Hệ điều hành: Windows 10 - 64bit  Bộ vi xử lý: Intel(R) Core(TM) i7-9750H CPU @ 2.60GHz,~ 2.59 GHz  Bộ nhớ RAM: 16GB Về ngơn ngữ lập trình:  Sử dụng ngơn ngữ lập trình Python 3.8.5, với gói thƣ viện nhƣ OpenCV3, Tensorflow, MediaPipe, Sklearn 4.2 Bộ liệu đầu vào Chúng sử dụng sở liệu xây dựng đƣợc trình bày ―Cơ sở liệu ngon ngữ ký hiệu‖ Chúng chia liệu thành ba phần phần huấn luyện, phần kiểm chứng phần thử nghiệm Trong đó, phần huấn luyện 60%, phần kiểm chứng 20%, phần kiểm tra 20% Bảng 4.1 Thống kê số lƣợng video từ VSL tập liệu Tên VSL Số lƣợng file npy mô tả từ VSL Tổng Huấn luyện Kiểm chứng Kiểm tra Ba 200 128 32 40 Cậu 201 128 32 41 Cô 201 128 32 41 Nữ 202 128 33 41 Vợ chồng 201 128 32 41 Vợ 204 130 33 41 Tổng số video cho phần đƣợc mô tả thông qua Biểu đồ 4.1 Biểu đồ 4.2 Biểu đồ 4.3 38 Biểu đồ 4.1 Phân bố mẫu huấn luyện Biểu đồ 4.2 Phân bố mẫu kiểm chứng 39 Biểu đồ 4.3 Phân bố mẫu kiểm tra 4.3 Kết thực nghiệm Từ liệu đầu vào, chạy thực nghiệm với liệu với số epoch lần lƣợt 100, 200, 300, 400 vào mô hình LSTM với tham số huấn luyện đƣợc đề xuất thông qua Bảng 4.2 Với lần chạy thử nghiệm, chúng tơi đánh giá độ xác mơ hình cách sử dụng độ đo F1, đó, chúng tơi đánh giá lớp quan trọng nhƣ Bảng 4.2 Số lƣợng trọng số huấn luyện mơ hình đề xuất Layer (type) Output Shape Param lstm (LSTM) (None, 30, 256) 1965056 lstm_1 (LSTM) (None, 30, 128) 197120 lstm_2 (LSTM) (None, 30, 64) 49408 lstm_3 (LSTM) (None, 16) 5184 dense (Dense) (None, 6) 102 Total params: 2,216,870 Trainable params: 2,216,870 Non-trainable params: 40 Với mô hình huấn luyện 100 epoch, mơ hình mang lại độ độ xác tƣơng đối cao với F1 93.4% Tuy nhiên, quan sát Hình 4.1, Hình 4.2 Hình 4.3 thấy mơ hình đƣợc đào tạo thêm vài epoch để nâng cao đƣợc độ xác giảm độ tổn thất mơ hình Hình 4.1 Biến đổi độ xác q trình huấn luyện với 100 epoch Hình 4.2 Biến đổi hàm mát trình huấn luyện với 100 epoch 41 Hình 4.3 Ma trận sai lệch trình huấn luyện với 100 epoch Sau đó, chúng tơi tăng thêm số lƣợng epoch 200 epoch Chúng thấy mơ hình đạt đƣợc độ xác 94.7% Tuy độ xác F1 có tăng mơ hình huấn luyện với 100 epoch Nhƣng quan sát Hình 4.4, Hình 4.5 Hình 4.6 tƣơng tự nhƣ mơ hình huấn luyện 100 epoch mơ hình với 200 epoch đƣợc đào tạo thêm vài epoch Hình 4.4 Biến đổi độ xác q trình huấn luyện với 200 epoch 42 Hình 4.5 Biến đổi hàm mát trình huấn luyện với 200 epoch Hình 4.6 Ma trận sai lệch trình huấn luyện với 200 epoch Tiếp theo, chúng tơi tăng thêm số lƣợng epoch 300 epoch Tại q trình huấn luyện với 300 epoch, F1 mơ hình 97.1% Với epoch 300, 43 thấy mơ hình hoạt động tốt (Hình 4.7, Hình 4.8 Hình 4.9) Hình 4.7 Biến đổi độ xác q trình huấn luyện với 300 epoch Hình 4.8 Biến đổi hàm mát trình huấn luyện với 300 epoch 44 Hình 4.9 Ma trận sai lệch trình huấn luyện với 300 epoch Cuối cùng, huấn luyện với 400 epoch, chúng tơi thấy mơ hình tiến đến mơ hình l tƣởng với độ xác F1 97.54% thơng qua Hình 4.10, Hình 4.11 Hình 4.12 Hình 4.10 Biến đổi độ xác q trình huấn luyện với 400 epoch 45 Hình 4.11 Biến đổi hàm mát trình huấn luyện với 400 epoch Hình 4.12 Ma trận sai lệch trình huấn luyện với 400 epoch Sau q trình huấn luyện, chúng tơi nhận thấy kết mà mơ hình với số lƣợng epoch 400 mang lại kết tốt so với epoch lại 46 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong luận văn này, nghiên cứu sử dụng MediaPipe Holistic kết hợp mơ hình LSTM Tìm hiểu áp dụng cơng nghệ MediaPipe Holistic việc trích xuất đặc trƣng mà bị ảnh hƣởng đến mơi trƣờng xung quanh Các nghiên cứu sở liệu đƣợc trích xuất từ MediaPipe Holistic 97.54% độ đo F1 Từ kết đánh giá chứng minh tính khả thi việc nhận biết VSL thông qua việc sử dụng phƣơng pháp thị giác máy tính Q trình thực nghiệm thu đƣợc đƣợc sử dụng nhƣ sở để xây dựng từ điển cho cộng đồng ngƣời khiếm thính ngƣời quan tâm đến ngơn ngữ ký hiệu Tuy nhiên, mơ hình chƣa mang triển khai mơi tƣờng thực tế mơ hình thử nghiệm với liệu có từ ―ba‖, ―cậu‖, ―cô‖, ―nữ‖, ―vợ chồng‖, ―vợ‖ Các từ số từ đại diện cho chủ đề ―quan hệ gia đình‖, chủ đề ―quan hệ gia đình‖ cịn từ nhƣ ―mẹ‖, ―nam‖, ―chồng‖, … Bên cạnh chủ đề ―gia đình‖, ngơn ngữ ký hiệu cịn nhiều chủ đề, nhiều từ cần đƣợc thêm vào sở liệu Điển hình nhƣ từ mô tả chủ đề ―màu sắc‖ nhƣ từ ―hồng‖, ―vàng‖, ―cam‖, … từ mô tả chủ đề ―giáo dục‖ nhƣ ―Toán‖, ―Văn‖, … Chính thế, để mơ hình đƣợc triển khai thực tế, sở liệu cần thêm đa dạng phong phú mặt số lƣợng từ VSL Ngoài ra, việc nhận từ đƣợc đặt thành vấn đề nhận dạng câu sở liệu cần phải thêm ký hiệu khoảng trắng, dấu phẩy dấu chấm câu… Vào thời điểm đó, nhóm nghiên cứu tham khảo ý kiến chuyên gia ngôn ngữ ký hiệu Việt Nam để liên kết hoạt động ngơn ngữ ký hiệu liên quan đến kí hiệu đặc biệt Thêm vào đó, để nhận dạng ngơn ngữ ký hiệu dạng câu nhà phát triển sau cần phải quan tâm đến vấn đề thứ tự thực từ để chuyển câu hoàn chỉnh 47 TÀI LIỆU THAM KHẢO [1] "Qipedc," Ban Quản lý dự án, Bộ Giáo dục Đào tạo, [Online] Available: https://qipedc.moet.gov.vn/slang1 [Accessed 27 September 2021] [2] "American Sign Language," National Institute on Deafness and Other Communication Disorders, May 2019 [Online] Available: https://www.nidcd.nih.gov/health/american-sign-language [Accessed 02 December 2022] [3] P T Hai; H Chau Thinh; B Van Phuc; H H Kha, "Automatic feature extraction for Vietnamese sign language recognition using support vector machine," Proceedings - 2018 2nd International Conference on Recent Advances in Signal Processing, Telecommunications and Computing, SIGTELCOM 2018, pp 146-151, 2018 [4] Trƣờng Đại học Sƣ phạm Thành phố Hồ Chí Minh, Tài liệu bồi dƣỡng ngƣời điếc lớn hỗ trợ học sinh khiếm thính cấp tiểu học thơng qua ngơn ngữ kí hiệu, Thành phố Hồ Chí Minh, 2020 [5] Z Zafrulla, H Brashear, T Starner, H Hamilton, P Presti, "American sign language recognition with the kinect," in Proceedings of the 13th international conference on multimodal interfaces, 2011 [6] Kshitij Bantupalli, Ying Xie, "American Sign Language Recognition using Deep Learning and Computer Vision," in 2018 IEEE International Conference on Big Data (Big Data), 2019 [7] Anh H Vo, Nhu T Q Nguyen, Ngan T B Nguyen, Van-Huy Pham, Ta Van Giap, and Bao T.Nguyen, "Video-Based Vietnamese Sign Language Recognition Using Local Descriptors," vol 11432, Cham, 48 Springer International Publishing, 2019, pp 680-693 [8] Anh H Vo, Van-Huy Pham, and Bao T Nguyen, "Deep learning for Vietnamese Sign Language recognition in video sequence," International Journal of Machine Learning and Computing, vol 9, no 4, pp 440-445, 2019 [9] V Bazarevsky, I Grishchenko, K Raveendran, T Zhu, F Zhang, M Grundmann, "BlazePose: On-device Real-time Body Pose tracking," 17 June 2020 [Online] Available: http://arxiv.org/abs/2006.10204 [Accessed 01 December 2022] [10] "MediaPipe Hands," [Online] Available: https://google.github.io/mediapipe/solutions/hands.html [Accessed 30 March 2022] [11] V Bazarevsky, Y Kartynnik, A Vakunov, K Raveendran, and M Grundmann, "BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs," 14 July 2019 [Online] Available: http://arxiv.org/abs/1907.05047 [Accessed 30 March 2022] [12] I Grishchenko, A Ablavatski, Y Kartynnik, K Raveendran, and M Grundmann, "Attention Mesh: High-fidelity Face Mesh Prediction in Real-time," 19 June 2020 [Online] Available: http://arxiv.org/abs/2006.10962 [Accessed 30 March 2022] [13] Y Kartynnik, A Ablavatski, I Grishchenko, and M Grundmann, "Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs," 15 July 2019 [Online] [Accessed 02 December 2022] [14] "Google AI Blog: MediaPipe Holistic — Simultaneous Face, Hand and Pose Prediction, on Device.," 10 October 2020 [Online] Available: https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous- 49 face.html [Accessed 13 October 2021] [15] N T Tuấn, Deep Learning Cơ Bản, 2019 [16] L Bottou, "Large-scale machine learning with stochastic gradient descent," in Proceedings of COMPSTAT’2010, USA, 2010 [17] I Goodfellow, Y Bengio, A Courville, "6.5 Back-Propagation and Other Differentiation Algorithms," in Deep Learning, MIT Press, 2016, p 200–220 [18] S Amidi, "CS 230 - Mạng nơ-ron hồi quy cheatsheet," [Online] Available: https://stanford.edu/~shervine/l/vi/teaching/cs- 230/cheatsheet-recurrent-neural-networks [Accessed 02 December 2022] [19] P J WERBOS, "Backpropagation Through Time: What It Does and How to Do It," Proceedings of the IEEE, vol 78, pp 1550-1560, 1990 [20] S Hochreiter and J Schmidhuber, "Long Short-Term Memory," Neural Computation, vol 9, no 8, pp 1735 - 1780, 15 11 1997 [21] S Hochreiter and J Schmidhuber, "LSTM can solve hard long time lag problems," Advances in neural information processing systems 9, p 473–479, 1996 [22] "Learning to forget: Continual prediction with LSTM," Neural Computation, vol 12, no 10, pp 2451 - 2471, 10 2020 [23] F A Gers, N N Schraudolph, and J Schmidhuber, "Learning precise timing with LSTM recurrent networks," Journal of machine learning research 3, pp 115-143, 2002

Định dạng
Số trang	61
Dung lượng	2,68 MB