người khiếm thính bằng phương pháp học sâu” với mục tiêu xây dựng mô hình cókhả năng nhận diện và học các biểu hiện của ngôn ngữ kí hiệu thông qua chuyên động cơ thê, từ đó tạo ra một hệ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SU PHAM TP HO CHÍ MINH
© gp
TP HỖ CHÍ MINH
BAO CÁO TONG KET
DE TAI NGHIEN CUU KHOA HOC CUA SINH VIEN
XAY DUNG HE THONG NHAN DANG NGON NGU KÝ HIỆU TIENG VIET, HO TRỢ HIEU NGON NGỮ
<Mã số dé tài>
Thuộc nhóm ngành khoa học: Công nghệ thông tin
TP Hồ Chí Minh, 04/2024
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRUONG ĐẠI HỌC SƯ PHAM TP HO CHÍ MINH
TP HỒ CHÍ MINH
XAY DUNG HE THONG NHAN DANG
NGON NGU KÝ HIEU TIENG VIET, HO TRỢ HIEU NGON NGỮ CUA NGƯỜI KHIEM THINH BANG PHƯƠNG PHAP HỌC SAU.
<Mã số đề tài>
Thuộc nhóm ngành khoa học: Công nghệ thông tin
Nhóm SV thực hiện: Nam, Nữ: Nam, Nữ
H6 Sĩ Thiện
Tran Tú Quyên
Nguyễn Ngọc Hương Trả
Lớp, khoa: 47.01.CNTT B, 48.01.CNTT.A Số năm dao tạo: 4
Ngành học: Công nghệ thông tin
Người hướng dẫn: ThS Trần Quang Huy
TP Hồ Chí Minh, 04/2024
Trang 3MỤC LỤC
DANEHMUCBINH ANH quy gnaiindaaanaaroonaaiaoaaroaoaooaoarỷoaanooaoỏ 6
DANH MU BANG ĐT Qua aỹỷannaaiiaidiiuoitiitdttiiotdqoaaaa-aŸeee 7
BANG CÁC KÝ HIỆU VA CHỮ VIET TẮTT -.ss5ccsssccasssossee §LỐI CA MN quaggndangotdaidantiitdiid21G01130013116018030831003308018303638483133403516081/8304” 9
ChươngI MỜ ĐẦU: <cc.=cceeseeseeorreiiritoiiiooiiiiiioiiitiiiEoOEitiDiSGiS0A.SEEE 10
1.1 Lý do chọn đề tài -S22Sc 2222222112 1171122172111 xe cree 10
1.2 Mục tiêu va nhiệm vụ nghiên cứu cceeeeeeeeeeeseeeeneeene Mã:
l:2.1 IMũeiĐ6u0tighliệñ €ỮHI.:::::::-::::-:::::::s:::ieccsarieasissiroerisasisasraasssasssas II
1.22 Nhiệm vụnghiÊnCỨN: ::ccccccoccicciociioiiccieEE0S.0082010811202126ã1Ÿ5ã1ã52 II
I.3 Đối tượng và phạm vi nghiên cứu -2©-s+szeczxzcxzzcrxece 11
1.3.1 Đối tượng nghiên cứu - s22 2225111111112 2112 11212 1c ll
1L3:23 PhamVinphincỨNI;::::.::::::::::::::::i:2siniiiiioiiieiisaiiisiissiissiisa: II
l4 Phương phápngBiên cÚu : : c:.ccocccooeooioeiioeoeeoioeo 12
1.4.1 Phuong pháp nghiên cứu lý thuyết 2222522522 12
1.4.2 Phuong pháp nghiên cứu thực nghiệm - -.-~ 12
1.5 _ Ý nghĩa khoa học và thực tiễn -ssc s2 2222211011221 xe2 12
1.5.1 Ý nghĩa khoa học 2-22©2222EEcEEEESEEzCEEecEEecrkecrecrrec 12 1.5.2 Ý nghĩa thực tiễn ó 2c 2 201 HỰ SH ng n1 1112122 xe 12
1⁄6, NQidingvänBbãn., ::-: :.-:coczoieniniirirrinriribnieosniisi 12
Chương 2 TONG QUAN VÀ CƠ SỞ LÝ THUYỀÊT -.s5-5see 14
2.1 _ Tình hình nghiên cứu và phát triỀn ¿- + 2©25<ccxectxecrxee l4
20.1; Tìnhìinhnghiên€ÉU::::-s:-.:-:::s-:-s::s::-:- ¿sẽ cesnsoiassoeei 14
Trang 42.2.2 Các loại nhận diện ngôn ngữ ký hiệu chủ yếu - 19
ResNet -4- 5c cscsscee Lỗi! Thẻ đánh dấu không được xác định.
Fre:tamedlMGHBÏ¿:::2.isciicciicaiiiitiiid001116540131151531415851582153516 908336 22
MdiäPiB6:::::::::::-:::-:::c-ccccciciisiiE2E001112220122012231133159158238323588233553383388388855 22
2S, TôngduaniMediaBiBEcasasosnnoasaoananannaanadnaanannannanasnai 22 2.5.2 Nhận diện tư thế bang MediaPipe Pose -¿-5scs2 23
2.5.3 MediaPipe Hands cung ng 25
254 IMediaPipeiHGÌIHG:::.::::::::.::.::::-::::::::::s:2- ¿si nnissiroarirsiicstrsaoiee: 26
Convolutional Neural NetWwOrK - cà cncnnensireereerrrrrree 27
M[BirtGnEIIEDIEIHTI:2i¿i2isx:is2z2202220021/1210002120210210200101002210621202006261620u66) 28
2.7.1 Ngôn ngữ lập trình Python -Ă ĂSeeeeeiereerreerke 28
2.7.2 Thư viện Scikit-Learn (Sklearn) - ¿6c c2 1222 1< <zvs2 29
QPS: TPVTOREB-:::::::i:::2i:::t2225i2222222112272212123112210232122232539223132238525228256538525552333 1 BTA TKÊTlŠ¡::ioiiisiiiitiG111131113113311043016313851136113513353333335453863795338333830183133533835 32
2.7.5 Thur viện Pandas - + S5 S1 SS x22 2y 2 ng re 32
Độ do Gánh:0181đ0(HNfffHussanssnsaaosinaaipiiiiiroiitoiatiiittaiiiititstiotitiatinernai 34
2:0: 0: (ÍADOUEHCV 2 1212122112211120322112/242211132313)3322132213242322)333233331532132/132312202322 34
21003: lFIESCDTE siitsiiiaiiiaiïi2511251103i1151012201231183112838051912202ã31253112513551805/88229431352 34
Trang 5Chương 3 PHƯƠNG PHÁP XÂY DUNG HE THONG NHAN DANG
NGON NGỮ KÝ HIỆU TIENG VIỆT, HO TRỢ HIỂU NGÔN NGỮ CUA NGƯỜIKHIEM THÍNH BANG PHƯƠNG PHÁP HOC SÂU -.s«<c5+ 35
3.1 Bo dữ liệu ở mức độ từ K11 11101011104501222 012505 00111111 02110145153155 size: 2
ST h6 + 3§
3.2.1 Giới thiệu -222-22222222222221223272117212211 21121 cty 38
3.2.2 Trích xuất đặc trưng không gian cssccsscssssssssssessssecssneeseee 39
3.2.3 Trích xuất đặc trưng khung xương -22©cszcssccscceo 40
3.2.4 Mô hình dự đoán trên đặc trưng không gian 43
3.2.5 Mô hình dự đoán trên đặc trưng khung xương 44
3.3 _ Quá trình huấn luyện : 26: 2t 2 0 200221 210 2 n0 te, 45Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIA -©ce«cccsccssee 46
äI MôiưườngthựcngRiỆTioooocoonoiooooonoiiioannanongipoioanosgnannasnsai 46
42 Tham số huấn luyện trong quá trình thực nghiệm 46
4.3 Kết quả thực nghiệm -2222222221222122212221222 222-222 47
Chương 5 KET LUẬN VÀ HƯỚNG PHAT TRIÉN -. - 50
a CS 50
5, HướNEPHẩHHđH:s eoioioioioronaniioionoibonennneiaanai 50
TAIETEDTHAM KH Ôgaaaaanaoanaaraaraaaraioaraaaaanroioanỷai-Ỳa ớ-ợýớ-au 51
Trang 6DANH MỤC HÌNH ANH
Hình 2-1: Kiến trúc mạng Resnet non s n vú 20 Hình 2-2: Người đàn ông Vitruvian được căn chỉnh thông qua hai điểm đánh dấu ảo dự
đoán bởi BlazcPose Detector và hộp giới hạn khuôn mặt [ L7] - - + <-‹<<¿ 24
Hình 2-3: 33 điểm đánh dấu tư thế { 17] -cc-++252222+vvzttrrtterrverrrrrrrrrrve 24Hình 2-4: 21 điểm đánh dấu trên bàn tay [ I9] 622222226236 21222222210223023 252 26
Hình 2-5: Tông quan về MediaPipe Holistic [20] - 22 2222 22222z+2zz£czzcsz 27
Hình 2-6: Logo của |PVLHOR::::ccococococceiocGooiiiDoiiooiietiiegiist46116511041003100518086836 28
Hình 2-7: Logo của thư viện Scikit-L/earm Sàn 29
Hình 2-8: Logo của thư viện PyTorch -sccseieeieeesieeirrrrssrrrereeseereereedl Ï
Hình 2-9: Logo của thư viện K€raS s1 SH 11 2 HH HH Hit 32
Minh 2-10: Logöc6athvi@nlPaTdRSoisieeeeoeeenoieieooooooopoponoananane 32
Hình 3-1: Người kí hiệu biểu diễn ký hiệu “Cảm ơn” 5c 55c 2s 35 Hình 3-2: Tong quan hai hướng tiếp CAM cs.escccesccssecsssesescseecssecsssscsssseeccsnecesneeens 39
Hình 3-3: Nhận diện qua đặc trưng khung xương với mô hình Neural Network 45
Hình 3-4: Báo cáo phân loại của mô hình Neural Network của chúng tôi 47
Hình 3-5: Confusion matrix của model Neural Network của chúng tôi trên dataset của
CHỈ O01 5 12:2221212122024121123063123162213:33022135161363)39163165153163030351390803531501637 48
Trang 7DANH MỤC BANG BIEU
Băng 3-1: Thông tim DG: đữ Hộu ccccoccc c0 101200 664062146546444444414818846 36
Bảng 3-2: Thong kê số lượng nhãn có trong bộ dit liệu - 2-c.c5ccc -37
Bảng 3-3: Tham số huấn luyện cho CNN aosscssssesssesssossscssssssssossscsssesssesssesssvssstacssessscssees 47Bang 3-4: Tham số huấn luyện cho Neural Network 22-2222 22Z2czzcecserccscec 47
Trang 8: Long Short-term Memory
Recurrent neural network
Convolutional Neural Network
Residual Network
Hidden Markov Model
Detection Transformer
Feature Pyramid Network
Support Vector Machine
Word-Level American Sign Language
Argentinian Sign Language
INCLUDE Indian Lexicon Sign Language Dataset
Trang 9LOI CAM ON
Nghiên cứu được thực hiện tại Khoa Công nghệ thông tin — Trường Dai học Su
phạm Thành phố Hỗ Chí Minh, đưới sự hướng dẫn khoa học của ThS Trần Quang Huy.
Trước tiên, chúng em xin gửi lời cảm ơn tới nhà trường đã tạo điều kiện cho
chúng em có môi trường học tập và nghiên cứu tốt nhất Hỗ trợ chúng em trong quá
trình nghiên cứu.
Chúng em xin bày tỏ lòng biết ơn tới các Thay Cô thuộc Khoa Công nghệ thông
tin và cán bộ Phòng Khoa học Công nghệ, khoa Công nghệ Thông tin — Trường Đại học
Sư Phạm Thành pho Hỗ Chi Minh đã tao mọi điều kiện thuận lợi giúp đỡ chúng em
trong quá trình học tập và nghiên cứu.
Chúng em xin bảy to lòng biết ơn sâu sắc tới ThS Tran Quang Huy đã đưa chúng
em đến với lĩnh vực nghiên cứu này Thay đã tận tình giảng dạy, hướng dẫn chúng em tiếp cận va đạt được những kết quả nhất định trong nghiên cứu của mình Thay đã luôn tận tâm động viên, khuyến khích va chỉ dẫn giúp chúng em hoàn thành nghiên cứu này.
Sự hướng dẫn của ThS Tran Quang Huy, sự động viên, cô vũ của gia đình, bạn
bẻ là nguồn động lực quan trọng đẻ chúng em thực hiện dé tai nghiên cứu Do kiến thức
còn hạn chế, nên đề tài nghiên cứu của chúng em không tránh khỏi những thiếu sót, kính
mong sự thông cảm, chi báo của quý Thay Cô
Chúng em xin chân thành cảm ơn.
Thay mặt nhóm thực hiện.
Hỗ Sĩ Thiện
Trang 10Chuong 1 MO DAU
1.1 Lý do chọn dé tài.
Trong cuộc sông hằng ngày, giao tiếp là một yếu tổ không thé thiểu trong việc xây dựng và duy trì các mỗi quan hệ với mọi người xung quanh Tuy nhiên, đối với những người khiêm thỉnh, việc giao tiếp của họ với mọi người xung quanh không phải
lúc nào cũng để dàng Họ thường gặp khó khăn trong việc truyền đạt ý nghĩ và cảm xúc
của mình bằng ngôn ngữ nói Điều này đẫn đến việc họ phải tìm kiếm các phương thức khác dé truyền đạt ý nghĩ của minh, và ngôn ngữ kí hiệu trở thành một lựa chọn tự nhiên
và phô biến.
Ngôn ngữ kí hiệu, hay còn được gọi là thủ ngữ là một hình thức giao tiếp ma
người ký hiệu sử dụng các cử chỉ của đôi tay, biêu hiện của khuôn mặt, và các cử động
của cơ thé dé truyền đạt ý nghĩ Đối với người khiếm thính, ngôn ngữ ký hiệu 1a một
phương tiện giao tiếp không thẻ thiếu Tuy nhiên, thủ ngữ không phổ biến trong cộng
đồng giao tiếp bình thường, gây không ít khó khăn giữa những người khiếm thính vangười nghe bình thường Theo “Điều tra quốc gia người khuyết tật năm 2016` [1], người
khuyết tật nói chung và người khiếm thính nói riêng gặp nhiều khó khăn trong đời sống
xã hội: y tế, giáo dục, việc lam, tiếp cận thông tin v.v Những khó khan nay do sự khiếm
khuyết của họ làm trở ngại GO Việt Nam, dân số từ 2 tudi trở lên bị khiếm thính là gần
1 triệu người (năm 2016) [1] Từ số liệu có thẻ thay số lượng người khiếm thính ở Việt
Nam là khá lớn, cần một sự quan tâm với cộng đồng này Mặt khác, theo ước tính của
Tổ chức Y tế Thé giới (WHO), tới năm 2050, cứ 10 người sẽ có một người mat khả năng
nghe [2] Điều này cho thấy sự cần thiết của việc phát triển các phương pháp nhận dạng
ngôn ngữ ký hiệu, chuyên đổi các ký hiệu thành văn bản, giọng nói tạo ra sự giao tiếp thuận tiện giữa người khiém thính và mọi người xung quanh Nghiên cứu cai tiền các phương pháp nhận dạng thủ ngữ có ý nghĩa quan trọng, giúp người khiém thính hòa
nhập tốt với cộng dong
Xuất phát từ nguyên nhân trên, chúng tôi quyết định nghiên cứu dé tài *Xây
dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ hiểu ngôn ngữ của
10
Trang 11người khiếm thính bằng phương pháp học sâu” với mục tiêu xây dựng mô hình có
khả năng nhận diện và học các biểu hiện của ngôn ngữ kí hiệu thông qua chuyên động
cơ thê, từ đó tạo ra một hệ thong tự động có thé chuyên đổi ngôn ngữ kí hiệu thành văn
ban hoặc giọng nói Không chi đáp ứng nhu cau cụ thé của người khiém thính mà còn
tạo ra một môi trường giao tiếp công bang và tương tác hơn trong xã hội Dong thời, nó
cũng góp phần vào sự phát triển của công nghệ va hòa nhập của người khiếm thính trong
cộng đồng rộng lớn.
1.2 Mục tiêu và nhiệm vụ nghiên cứu
1.2.1 Mục tiêu nghiên cứu
Đề tài này hướng tới một hệ thống nhận dạng được ngôn ngữ kí hiệu tiếng Việt
và chuyển đôi thành văn bản, giọng nói; giúp giao tiếp với người khiém thính một cách
để dàng hơn.
1.2.2 Nhiệm vụ nghiên cứu
Đề đạt được mục tiêu trên, những nhiệm vụ sau đây cần phải được hoàn thành:
+ Xây dựng tập dữ liệu ngôn ngữ kí hiệu tiếng Việt.
+ Xây dựng hệ thông nhận diện ngôn ngữ ký hiệu tiếng Việt
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Đối tượng chính trong đề tải của chúng tôi là ngôn ngữ ký hiệu Việt Nam và bài
toán nhận điện ngôn ngữ ký hiệu.
1.3.2 Pham vi nghiên cứu
Đề tài này có một sỐ giới hạn sau:
+ Giới hạn ngôn ngữ: hệ thong nhận điện ngôn ngữ ký hiệu tiếng Việt, và chuyên
sang văn bản, giọng nói tiếng Việt.
+ Giới hạn nhận dạng: nhận dang được 50 ngôn ngữ kí hiệu được đảo tạo.
Trang 121.4 Phương pháp nghiên cứu
1.4.1 Phương pháp nghiên cứu lý thuyết
e Tim hiéu các phương pháp xây dựng mô hình nhận dạng ngôn ngữ ki hiệu.
© Tìm hiệu vẻ cau trúc và hiệu suất của từng hướng tiếp cận đối với hệ thong
nhận dạng.
e_ Tìm hiéu về các công trình nghiên cứu liên quan mật thiết đến đề tài.
1.4.2 Phương pháp nghiên cứu thực nghiệm
e Xây dựng bộ dir liệu tiếng Việt dé gan nhãn các cử chỉ tay và biêu diễn cơ
thẻ.
e Xây dựng mô hình nhận dạng ngôn ngữ kí hiệu và chuyên đôi sang van
bản hoặc giọng nói.
e Tinh chính mô hình va đánh giá hiệu suất đạt được.
1.5 Ý nghĩa khoa học và thực tiễn
1.5.1 Ý nghĩa khoa học
¢ Đóng góp vào quá trình nghiên cứu nhận dạng chuyên động cơ thẻ, ngôn
ngữ kí hiệu trong thị giác máy tính.
e Dóng góp bộ dữ liệu gắn nhãn tiếng Việt cho các nghiên cứu về ngôn ngừ
kí hiệu.
1.5.2 Ý nghĩa thực tiễn
e Xây dựng hệ thống giúp nhận dạng ngôn ngữ kí hiệu.
¢ Tăng cơ hội tiếp cận giao tiếp cho người khiếm thính.
1.6 Nội dung văn bản
Đề tài này gồm 5 chương:
Chương 1: Mở dau.
Chương 2: Tổng quan và cơ sở lý thuyết
Trang 13Chương 3: Phương pháp xây dựng hệ thống nhận dang ngôn ngữ ký hiệu tiếng
Việt, hỗ trợ hiểu ngôn ngữ của người khiếm thính bằng phương pháp học sâu.
Chương 4: Thực nghiệm và đánh giá.
Chương 5: Kết luận và hướng phát triển
13
Trang 14Chương 2 TỎNG QUAN VÀ CƠ SỞ
LÝ THUYET
2.1 Tình hình nghiên cứu và phát triển
2.1.1 Tình hình nghiên cứu
Xã hội ngày càng quan tâm đối với người khiếm thính, và đặc biệt có hệ thống
nhà nước Các nỗ lực trong mở các cơ sở giáo dục cho người khiém thính, các chính
sách giúp đỡ người khiếm thính và khuyến khích các nghiên cứu hỗ trợ người khiếm
thính ngày càng được mở rộng.
Giống như tiếng nói, ngôn ngữ ký hiệu (NNKH) cũng có sự khác nhau ở từng
quốc gia và từng khu vực trên đất nước Ở Việt Nam, có nhiều nhóm ngôn ngữ ký hiệu hình thành ở các khu vực như Thành phố Hồ Chí Minh, Hà Nội, Hải Phòng, v.v Đã có
nhiều dự án dé chuẩn hóa NNKH ở Việt Nam, nhằm mục đích đem đến sự thông nhất
NNKH trên cả nước.
Các nhà nghiên cứu trong và ngoài nước luôn liên tục xây dựng các bộ dữ liệu
phục vụ cho việc nhận dạng ngôn ngữ ký hiệu của các quốc gia và đồng thời tìm các
phương pháp dé cải tiền mô hình nhận dang Các mô hình cần đám bảo rằng độ chính xác nhất định trên các cử chỉ Hầu hết các phương hướng nghiên cứu nhận dạng NNKH đạt hiệu suất cao thường được chia làm hai loại là dựa trên thiết bị cảm biến hoặc dựa
trên thị giác máy tính Thiết bị cảm biến hoạt động dựa trên cảm biến quỹ đạo chuyên
động của hai bàn tay và được chế tác thành bút hoặc găng tay có cảm biến và khả năng
lọc nhiều từ môi trường, tuy nhiên phương pháp này gặp một số khó khăn dé phé biến
rộng rãi vì giá thành của các thiết bị cảm biến và sự bat tiện khi có thể đeo nhiều thiết
bị Dựa trên thị giác máy tính có thé đem đến sự thuận tiện và dé dang sử dụng các ứng
dụng nhận diện hơn khi mà các thiết bị ghi hình như điện thoại trở nên phô biến.
Thị giác máy tính là một lĩnh vực trong trí tuệ nhân tạo và khoa học máy tính tập
trung vào việc phát trién các thuật toán máy học giúp máy tinh có thé học và xử lí các
dữ liệu vẻ hình ảnh, trích xuất hình ảnh và nhận dang đối tượng, ngữ cảnh cụ thé Với
sự tiền bộ trong lĩnh vực học sâu, nhiều nghiên cứu đã tập trung vào việc nhận diện
l4
Trang 15NNKH, dẫn đến sự phát triển của các mô hình có khả năng nhận biết cử chỉ ban tay và
học được các đặc điểm của các ký hiệu Những mô hình được phát trién sử dụng mạngnơ-ron tích chập (Convolutional Neural Network - CNN), mạng nơ-ron tuần hoàn(Recurrent neural network - RNN), mạng bộ nhớ đài-ngắn (Long Short-Term Memory
- LSTM), Transformer đã đạt được những kết quả nhất định trong việc nhận dạng NNKH
[3] Trong khi CNN có khả năng trích thông tin từ ảnh tĩnh thì các mô hình như RNN,
LSTM, Tranformer thê hiện mạnh mẽ hon ở các thông tin dạng chuỗi Tùy theo cách tiếp cận mà có thể cho mô hình học những đặc trưng khác nhau và cá kết hợp các đặc
trưng khác nhau cho mô hình Người ta có thé dé cho mô hình nhận diện với các đầu
vào có thé là anh tĩnh hoặc video; ảnh/video RBG, depth; học các đặc trưng về khung
xương, thông tin về Sự chuyền động [4]
Phương hướng tiếp cận và các nghiên cứu quốc tế:
Một số công nghệ mới phô biến được các nhà nghiên cứu chuyên hướng tiếp cận
trong lĩnh vực thị giác máy tính là các mạng nơ ron học sâu, mạng nơ ron tích chập CNN
hoặc mang nơ ron hồi quy (LSTM, RNN, ) Anil Osman Tur và các cộng sự [5] (2021)
đã cung cap một khung hinh 3 tầng dựa trên LSTM, HMM và CNN cho hệ thông của
họ dé giải quyết vấn đề isolated sign classification Module đầu được dùng đề trích xuấtđặc trưng va mô hình CNN-based dùng đẻ giảm chiều dit liệu (reduce dimension), Sau
cùng đưa qua model HMM đê phân loại isolated sign, thu được độ chính xác 90.15%
trên bộ đữ liệu Montalbano sử dụng RGB, Skeletal data, Ankita Wadhawan và cộng sự
[6] dé xuất hệ thong nhận dạng ngôn ngữ ký hiệu gồm 4 giai đoạn chính: thu thập dữ
liệu, tiền xử lý ảnh, huấn luyện và thử nghiệm bộ phân loại CNN, Những hình ảnh ký hiệu tiền xử lý được đưa vào lớp phân loại dé gan chúng vào danh mục thích hợp Hệ thông đạt được độ chính xác đào tạo và xác thực lần lượt là 99,76% và 98,35% khi sử
dụng RMSProp và người ta nhận thấy rằng SGDoptimizer vượt trội hơn Adam,
RMSProp và các trình tôi ưu hóa khác về độ chính xác 2022 Sundar Ba và đồng sự đã
dé xuất vision-based system, cho ra mắt model nhận dạng NNKH cho alphabets sử dụngLSTM va Mediapipe [7] Hệ thống nay có thé được sử dụng dé dịch ngôn ngữ ký hiệu
thành văn bản và giao điện người-máy (HCI), sử dụng trong HCI dé tương tác với máy
tính dựa trên các cử chỉ thực hiện Hệ thông nhận dạng NNKH bằng cử chỉ tay sử dụng
15
Trang 16mô hình Long Short-term memory (LSTM) được nghiên cứu với 26 chit cái và đã đạt
độ chính xác 99%.
Gần đây, một loại mạng mới đã xuất hiện và gây tiếng vang lớn là Transformer
2022, Matyas Bohacek và Marek Hruz đã đề xuất mô hình SPOTER [8], nhận thay tiềm
năng của nó trong việc sử dụng hệ thống nhận điện ngôn ngữ ký hiệu ở mức độ từ trên
các thiết bị cầm tay, nhằm đến một phương pháp có chi phí thấp Mô hình này có phương
hướng chuẩn hóa (normalization) va tang cường (augmentations) vị trí cơ thê mạnh mẽ
so với các mô hình trước đó, cải thiện đáng ké độ chính xác trên 2 tập dir liệu LSA64,
WLASL Yu Liu và cộng sự đề xuất mô hình vision transformer-based [9] (2023), sửdụng phương pháp được gọi là Detection Transformer (DETR), hướng đến mục tiêu cải
thiện tôi ưu độ chính xác mô hình nhận dang NNKH Phương pháp DETR được dé cập
có khả nang nhận dạng NNKH từ digital videos với độ chính xác cao, sử dụng mô hình
học mới ResNet152 va Feature Pyramid Network (FPN) Kết quả nghiên cứu chỉ ra rang
DETR có tiềm năng lớn trong việc cải thiện độ chính xác mô hình, dat overall accuracy
lên đến 96.45%,
Một số nghiên cứu nhận diện ngôn ngữ ký hiệu tiếng Việt:
Việt Nam là một đất nước đông dân với sự gia tăng đáng kẻ trong việc đầu tư vàthúc đây nghiên cứu về ngôn ngữ người khiếm thính Các tô chức nghiên cứu, cùng với
các trường đại học đã công hién không ngừng sức lực va tài nguyên cho những dự án về ngôn ngữ và trợ giúp cho người khiếm thính.
Anh Vo vả cộng sự [10] đã tiến hành nhận dạng các tư thế từ bộ dữ liệu VSL trên
video Từ chuỗi video đầu vào các frame (khung hình) được trích xuất thủ công, loại bỏ
các vùng liên quan đến mặt và chỉ lay các vùng liên quan đến tay Thử nghiệm với 2
cách tiếp cận, các mô hình máy học truyền thống và mô hình Deep Learning (Học sâu).
Mô hình truyền thống và học sâu được sử dung để nhận điện NNKH lần lượt là Support
Vector Machine (SVM) và LSTM Train SVM và LSTM đạt được độ chính xác đạt
được lần lượt là 88.5% và 95,83%
Duc-Hoang Vo và các cộng sự [11] nghiên cứu phân loại các hành động được
thực hiện một cách liên tục Các hành động được quay bằng camera Kinect được sản
xuất bởi Microsoft dé trích xuất các đặc trưng về mảu sắc, độ sâu được tính toán dựa
l6
Trang 17trên tín hiệu hồng ngoại Bài toán sử dụng mô hình SVM kết hợp với mô hình Markov
ân (HMM) với độ chính xác lên đến 95% với bộ dữ liệu nhóm thu thập.
Khuất Duy Bách và cộng sự [12] đã đề xuất phương pháp triển khai sử dụng
mạng nơ-ron tái điển (RNN) với khung theo dõi tay Mediapipe để nhận dang cử chỉ ngôn ngữ kí hiệu Dữ liệu huấn luyện được sản sinh từ video đầu vào bang mô hình theo
đði nhiều tay va mô hình học sâu có thé nhận dạng cử chỉ bằng các điểm mốc trên tay
qua mỗi khung hình đào tạo RNN Tập dữ liệu chứa cử chỉ của các từ thông dụng nhất trong tiếng Việt Mô hình này cho kết qua chính xác tốt trong nhận dang từ.
2.1.2 Một số thách thức
Một trong những thách thức lớn nhất là sự đa dạng và phong phú của cử chỉ vả
biéu hiện kí hiệu Từ sự khác biệt về văn hoá, tiếng nói, xã hội dẫn đến ngôn ngữ kí hiệu
có nhiêu phiên bản khác nhau Mỗi ngôn ngữ kí hiệu có những đặc điểm riêng biệt và cần một quy trình nhận dạng và dịch riêng biệt Thêm vào đó, trong các điều kiện khác
nhau, ánh sáng, góc độ khác nhau hoặc nền nhiễu có thẻ dẫn đến sự nhận dang khác
nhau trong cùng một hệ thông nhận dạng đối với cùng một từ, cụm từ hoặc câu.
So với bài toán nhận điện hành động, có nhiều khó khăn khi nhận diện một ngôn
ngữ ký hiệu Xem xét một ký hiệu cần phải xem xét cử chỉ trên cơ thé, hình dang củacác ngón tay và bàn tay, ngoài ra còn có thể kết hợp với cảm xúc khuôn mặt, tốc độ
nhanh chậm, số lần lặp lại Do phân lớn các ký hiệu đều thực hiện từ hông trở lên, rất ít
các ký hiệu được thực hiện từ hông trở xuống {13] việc chọn lọc các thông tin vào mô hình là cần thiết dé tránh mô hình học quá khớp Và việc nhận diện cũng sẽ gặp không
ít khó khăn khi tùy người biéu dién mà có tốc độ, tay thuận khác nhau Ngoài ra, nhận
điện ngôn ngữ ký hiệu cũng gặp nhiều khó khăn khi bộ dữ liệu phù hợp dé dao tạo mô
hình cũng còn rất hạn chế vả đôi khi xa rời với thực tế [14]
2.1.3 Sơ lược về các tập đữ liệu
Đề phục vụ cho việc đảo tạo các mô hình nhận diện ngôn ngữ ký hiệu, nhiều bộ
dữ liệu đã được xây dựng Một số bộ dữ liệu được công khai có thé kể đến như: Bộ dữ
liệu WLASL, bộ dit liệu LSA64, bộ dit liệu INCLUDE, bộ dit liệu DUL-VSL v.v
17
Trang 18Tên bộ dữ liệu Số lớp Số video Ngôn ngữ ký hiệu
WLASL 2000 21,083 My
LSA64 64 3200 Argentina
INCLUDE 263 4287 Án Độ
DUL-VSL 27 2700 Việt Nam
Word-Level American Sign Language (WLASL) [15]
Bộ dit liệu gồm 2000 từ của ngôn ngữ ký hiệu được sử dung ở Hoa Kỳ, biểu diễn
bởi 100 người, độ dài trung bình của tất cả các video là 2,41 giây Nhóm tác giả cũng chia bộ dữ liệu thành 4 tập con để đánh giá khó khăn và khả năng mở rộng của các
phương pháp nhận dạng ngôn ngữ ký hiệu, lần lượt là: WLASL100, WLASL300,
WLASL1000, WLASL2000, với các con số đại điện cho lấy bao nhiêu hàng đầu tiên
trong bảng xếp hạng các ký tự có nhiều mẫu trong bộ dữ liệu
Argentinian Sign Language (LSA64) [16]
Bộ dit liệu về ngôn ngữ ký hiệu của Argentina, bao gồm 3200 video với 64 ký
hiệu được biêu dién bởi 10 người khác nhau ở 10 chủ dé Độ phân giải của video là 1920
x 1080, ở tốc độ 60 khung hình mỗi giây
Indian Lexicon Sign Language Dataset (INCLUDE) [17]
Bộ dit liệu gồm các ký hiệu được sử đụng ở Án Độ, gồm 4287 video, 263 ký hiệu
chia thành 15 danh mục từ khác nhau Mỗi video là ban ghi của | ký hiệu, được ký hiệu
bởi 7 học sinh khiểm thính từ một trường học đành cho người khiếm thính ở Án Độ,mỗi người thực hiện từ 2 đến 6 video cho mỗi ký hiệu Đối tượng được yêu cầu đứngđối điện với máy ảnh ở khoảng cách 2 mét Mỗi video sao cho mặt phẳng ký hiệu đượcghi lại hoàn toàn, từ độ cao ngang hông đến chiêu đài cánh tay phía trên vai Video đượcquay trong điều kiện ánh sáng tự nhiên, tươi sáng không có nỗ lực nao dé điều chỉnh
18
Trang 19trang phục hoặc phong cách ký hiệu của người ký hiệu Độ phân giải của video là 1920
x 1080, ở tốc độ 25 khung hình mỗi giây.
Bộ dữ liệu DUL-VSL [18]
Bộ dữ liệu VSL của nhóm Duc-Hoang Vo trường Đại học Đà Ning: bộ dữ liệu
ngôn ngữ kí hiệu tiếng Việt, bao gồm 27 từ khác nhau mô tả một số hoạt động và danh
từ thông đụng như mẹ, bố, mây, mặt trời, ăn, uống, v.v Bộ dữ liệu gồm 2700 video, với
100 video cho mỗi ký hiệu Độ phân giải của video là 512 x 372, ở tốc độ 10 khung hình mỗi giây Thời gian mỗi video từ 3 đến 9 giây.
2.2 Nhận diện ngôn ngữ ký hiệu
2.2.1 Giới thiệu
Nhận dạng NNKH là quá trình huấn luyện mô hình học từ các trích xuất đặc
trưng của cử chỉ bàn tay, biểu cảm khuôn mặt và chuyên động cơ thể, xử lí gắn nhãn
phân loại từng biểu hiện của NNKH Sau đó tỉnh chỉnh tham số dé mô hình nhận dang
đạt hiệu suất cao va độ chính xác tôi ưu trên tập dữ liệu kiềm tra.
2.2.2 Các loại nhận diện ngôn ngữ ký hiệu chủ yếu
Trong hau hết các mô hình, việc phân biệt giữa isolated và continuous là một yêu
tô quan trọng trong việc hiểu và giải mã ngôn ngữ ký hiệu Cách tiếp cận continuous tập
trung vào các nguyên tắc và phương pháp nhận dạng ngôn ngữ ký hiệu liên tục Mặt
khác, nhận dang isolated có chu kỳ ngắn hơn so với nhận dang continuous và tập trung vảo việc cải thiện đồng thời độ chính xác của từng từ vả tốc độ giải mã, xử lý các từ
hoặc cụm từ trong ngôn ngữ ký hiệu một cách độc lập.
2.3 Residual Network
Residual Network (ResNet) ra đời vào năm 2015 [19] và đã ghi dau an với nhiều
giải thưởng trong lĩnh vực nhận diện ảnh trên các tập dữ liệu lớn Hiện nay, có nhiều biến thé của kiến trúc ResNet với số lớp khác nhau như ResNet-1§ ResNet-34, ResNet-
19
Trang 2050, ResNet-101, ResNet-152 Tên của mỗi biến thé ResNet đều kèm theo số chỉ về số
lớp trong kiến trúc tương ứng.
Residual Network là một CNN được thiết kế dé hoạt động với nhiều lớp, tránhvan đề biến mat hoặc bùng nô độ đốc của CNN Nó sử dụng các kết nôi phím tắt dé bỏ
qua một hoặc nhiều lop, tạo thành Khối dư (Residual Block) ResNet bao gồm một số
Khối dư ResNet-50 là một biến thé của kiến trúc ResNet, với con số biểu thị số lớp
Khoi du hay khối cô chai (Bottleneck block) trong ResNet50 bao gồm 3 lớp
convolution liên tiếp nhau, 1 lớp tích chập 1x1 dé giảm số chiêu sâu của đặc trưng, lớp
tích chập 3x3 và lớp tích chập 1x1 dé tăng số chiều sâu lên đúng với đầu vào ban đầu.
Tên gọi “bottleneck” (cỗ chai) phản ánh việc làm giảm kích thước chiều sâu của đặctrưng trước khi tăng lên lại, tạo ra một kênh hẹp tạm thời Bằng cách sứ dụng các lớp
tích chập Ix1 dé thay đôi số chiều đã giúp giảm chi phí tính toán cho khối dư này.
Trang 21Hình 2-2: Khối dư trong ResNet50 [19].
2.4 Neural Network
Mạng lưới thần kinh là một chương trình hay mô hình học máy đưa ra quyết định
theo cách tương tự như bộ não con người, bằng cách sử dụng các “nơ ron” hoạt độngsong song và kết nỗi với nhau thông qua các trọng số Cách hoạt động của loạt nơ ron
tương tự như quy trình các no ron sinh học làm việc cùng nhau đề xác định hiện tượng,
cân nhắc các lựa chọn và đưa ra kết luận trong vỏ não
Mỗi mạng nơ-ron gồm các lớp nút hoặc nơ-ron nhân tạo, bao gồm lớp đầu vào, một hoặc nhiều lớp ân và một lớp đầu ra Mỗi nút kết nỗi với các nút khác và có trọng
số và ngưỡng riêng Nếu đầu ra của bất kỳ nút nào vượt qua ngưỡng được chỉ định, nút
đó sẽ được kích hoạt và gửi dữ liệu đến lớp tiếp theo của mạng Ngược lại không có đữliệu được truyền đến lớp tiếp theo của mạng
Mạng nơ ron dựa vào đữ liệu huấn luyện để học và cái thiện hiệu suất theo thời gian Thông thường sau khi được tinh chỉnh tham số cho phù hợp, chúng trở thành công
cụ mạnh mẽ trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo, giúp phân loại và phân
cum dir liệu một cách nhanh chóng Các nhiệm vụ học máy như nhận dạng giọng nói
hoặc hình ảnh có thê được thực hiện trong vài phút, so với hàng giờ của việc thực hiện
thủ công Ví dụ nồi tiếng về mạng nơ ron [a thuật toán tìm kiếm Google
Trang 22Pre-trained Model (mô hình được dao tạo trước) là mô hình được huận luyện
trước với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huan
luyện mô hình từ dau Mô hình sau đó có thé được huấn luyện thêm đề phù hợp với bộdit liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy
Mạng lưới than kinh sâu thường có số lượng lớn các tham số Do đó, tập đữ liệu
cân phải đủ lớn dé huấn luyện các tham số mô hình và ngăn ngừa tinh trang quá khớp
Déi với các tập dữ liệu nhỏ, các tham số có thé quá khớp với dữ liệu Huan luyện trước
có thê là một cơ chế chính quy hóa, giảm phương sai, tránh trang bị quá mức trên các
tập dữ liệu nhỏ.
2.6 MediaPipe
2.6.1 Tông quan MediaPipe
MediaPipe [20] là một framework (bộ khung) ma nguồn mở được phát triển bởi
Google, được phát triển nhằm hỗ trợ các nhà phát triển và nhà nghiên cứu trong việc tạo
ra các ứng dụng thị giác máy tính hiệu quá MediaPipe có kha năng nhận diện va theo
cot2
Trang 23ddi các điểm đặc trưng trên cơ thé người, như khuôn mặt và tay, thông qua việc sử dụng
mô hình học máy dé anh xa va theo đõi vị trí của chúng trong không gian 3D.
MediaPipe có khả năng xử lý đầu vào thời gian thực và hỗ trợ nhiều loại dữ liệuđầu vào khác nhau như video, âm thanh và hình ảnh Nó cũng cung cấp các thành phần
xử lý tiêu chuẩn như phân loại đối tượng, phát hiện vật thé và theo đõi đối tượng, đồng thời cho phép các nhà phát triển tự tạo và tích hợp các thành phần mới vào ứng dụng của họ MediaPipe hỗ trợ nhiều ngôn ngữ lập trình và có thê chạy trên nhiều hệ điều
hành khác nhau.
Ngoài ra, MediaPipe cung cấp các công cụ dé đánh giá hiệu suất và tỉnh chỉnhứng dụng, giúp các nhà phát triển tối ưu hóa hiệu suất và giảm thiêu thời gian phản hồi.Cac ứng dụng MediaPipe có thé được trién khai trên nhiều loại thiết bị khác nhau, từ diđộng đến máy tinh đẻ ban và thiết bị loT (Internet of Things) Với MediaPipe, việc xâydựng các ứng dụng xử lý đa phương tiện chất lượng cao trở nên để đảng và nhanh chóng,đồng thời cung cap một nên tang dé phát triển va cải tiền thuật toán và mô hình, giúpcải thiện hiệu suất và độ chính xác của ứng dụng
2.6.2 Nhận diện tư thế bằng MediaPipe Pose
MediaPipe Pose là một phần của MediaPipe, cho phép nhận điện khung xương
và theo dai vị trí và hướng của các khớp cơ thé, được sử dụng rộng rãi trong các ứng
dụng theo doi chuyên động trong thé thao, điều khién trò chơi bằng cử chỉ và phát hiện
người dùng trong các ứng dụng trò chuyện trực tuyến.
MediaPipe Pose kết hợp giữa hai mô hình BlazePose Detector [21] và BlazePose
GHUM 3D [22] BlazePose Detector xác định vị trí của người hoặc tư thé người, được
các nhà nghiên cứu lấy cảm hứng từ người đàn ông Vitruvian của Leonardo Mô hình
sử dụng két hợp giữa mô hình dỏ tìm khuôn mặt kết hợp với điểm giữa hông của người.bán kính hình tròn bao quanh cơ thê và góc nghiêng của điểm nỗi giữa vai và hông (Xem
minh họa ở Hình 2-2) Từ các thông tin mà mô hình đã thu thập được, mồ hình BlazePose
Detector tiếp tục tiễn hành xoay cơ thé người theo phương thang đứng Sau đó mô hình
BlazePose GHUM 3D trả về các điểm đánh đấu Mô hình keypoints trong MediaPipe
Trang 24Pose dự đoán vị trí của 33 điểm ảnh đánh dấu tư thé con người (xem ảnh minh họa —Hình 2-3)
Hình 2-4: Người đàn ông Vitruvian được căn chỉnh thông qua hai điểm đánh dấu
ao dự đoán bởi BlazePose Detector và hộp giới hạn khuôn mặt [21].
tá Mà 0 nose 17 left_pinky
ee eee 1 left_eye_inner 18 right_pinky
ese 2 left_eye 19 left_index
= me ae 3 left_eye_outer 20 right_index
AF T- mt Ỳ ‘ 4 righteyeinner 21 left thumb
“ch 4 7 \ | `Ng~ e-2 5 right_eye 22 right_thumb
Hình 2-5: 33 điểm đánh dấu tư thé [21].
Trong danh sách các điểm đánh dấu tư thế Mỗi điểm đánh dau bao gồm các
thông tin:
Trang 25* x và y: Tọa độ của điểm được chuẩn hóa về khoảng [0.0, 1.0] bằng chiều rộng
và chiều cao của hình ảnh tương ứng
* z: Dai diện cho độ sâu của điểm ảnh đánh dấu, với độ sâu tại điểm giữa hai
hông được coi là gốc và giá trị càng nhỏ thì điểm đánh dấu càng gần camera
hơn Giá trị tuyệt đối của z sử dụng khoảng giả trị tương tự như x.
® visibility; Một giá trị trong khoảng [0.0, 1.0] chỉ ra khả năng của điểm đánh
dau được nhìn thấy (hiện điện và không bị che khuất) trên hình ảnh.
Các ứng dụng MediaPipe Pose cho phép nhà phát triển tùy chỉnh các đặc trưng
và thuật toán xử lý khung xương đề phù hợp với nhu cầu của họ Nó cũng cung cấp chonhà phát triển các công cụ dé đánh giá và tinh chỉnh hiệu suất và độ chính xác của ứng
dụng của họ.
2.6.3 MediaPipe Hands
MediaPipe Hands là ứng dụng theo dõi ngón tay va ban tay có độ chính xác cao.
Việc phát hiện ban tay là một nhiệm vụ phức tap, phát hiện bản tay thì không chi dựa
vào thị giác mà còn phải dựa vào các đặc điểm ngữ cảnh bé sung như đặc điểm của cánh
tay hoặc cơ thể người Vì lý do đó, các nhà kỹ sư Google đã đưa ra một chiến lược, họ
đò lòng bàn tay thay vì đò bàn tay Điều này bởi vì việc phát hiện các giới hạn của lỏng
bản tay và nắm đấm đơn giản hơn so với phát hiện bàn tay và các ngón tay có khớp
Ngoài ra, vì lòng ban tay là vật nhỏ cho nên giải thuật non-maximum suppression vẫn
hoạt động tốt ngay cả đối với các trường hợp tương tác bang hai tay, chăng hạn như hoạt
động bắt tay nhau giữa hai người Sau khi phát hiện lòng bàn tay trên toàn bộ hình ảnh,
họ sẽ thực hiện mô hình đánh dau ban tay dé dự đoán tọa độ của 21 điểm đánh dau (Các
điểm cụ thể ở Hình 2-5) chính là vị trí của các đốt ngón tay trên không gian 3D bên
trong các vùng bản tay được phát hiện.
Trang 26ứng trong MediaPipe Pose, MediaPipe Face Mesh và MediaPipe Hands đề tạo ra tông
cộng 543 cột mốc (33 cột mốc tư thé, 468 cột mốc khuôn mặt và 21 cột mốc trên mỗi
bàn tay).
Đầu tiên, MediaPipe Holistic ước tính tư thế của con người (trên cùng của Hình
2-6) Sau đó, bằng cách sử dụng các mốc tư thế được suy luận, MediaPipe Holistic rút
ra ba vàng quan tâm (ROT) cắt xén cho hai bản tay và khuôn mặt, đồng thời sử dụng mô
hình cắt xén lại dé cải thiện ROI Tiếp đó cắt khung đầu vào có độ phân giải đầy đủ cho
các ROI nay va áp dụng các mô hình khuôn mặt và ban tay đành riêng cho nhiệm vụ để
ước tính các mốc tương ứng của chúng Cuối cùng, chúng tôi hợp nhất tat cả các mốc
với các móc của mô hình tư thé dé tạo ra hơn 540 mốc.