Đề tài nghiên cứu khoa học: Xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng việt, hỗ trợ hiểu ngôn ngữ của người khiếm thính bằng phương pháp học sâu

người khiếm thính bằng phương pháp học sâu” với mục tiêu xây dựng mô hình cókhả năng nhận diện và học các biểu hiện của ngôn ngữ kí hiệu thông qua chuyên động cơ thê, từ đó tạo ra một hệ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SU PHAM TP HO CHÍ MINH

TP HỖ CHÍ MINH

BAO CÁO TONG KET

DE TAI NGHIEN CUU KHOA HOC CUA SINH VIEN

XAY DUNG HE THONG NHAN DANG NGON NGU KÝ HIỆU TIENG VIET, HO TRỢ HIEU NGON NGỮ

<Mã số dé tài>

Thuộc nhóm ngành khoa học: Công nghệ thông tin

TP Hồ Chí Minh, 04/2024

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRUONG ĐẠI HỌC SƯ PHAM TP HO CHÍ MINH

TP HỒ CHÍ MINH

XAY DUNG HE THONG NHAN DANG

NGON NGU KÝ HIEU TIENG VIET, HO TRỢ HIEU NGON NGỮ CUA NGƯỜI KHIEM THINH BANG PHƯƠNG PHAP HỌC SAU.

<Mã số đề tài>

Thuộc nhóm ngành khoa học: Công nghệ thông tin

Nhóm SV thực hiện: Nam, Nữ: Nam, Nữ

H6 Sĩ Thiện

Tran Tú Quyên

Nguyễn Ngọc Hương Trả

Lớp, khoa: 47.01.CNTT B, 48.01.CNTT.A Số năm dao tạo: 4

Ngành học: Công nghệ thông tin

Người hướng dẫn: ThS Trần Quang Huy

TP Hồ Chí Minh, 04/2024

Trang 3

MỤC LỤC

DANEHMUCBINH ANH quy gnaiindaaanaaroonaaiaoaaroaoaooaoarỷoaanooaoỏ 6

DANH MU BANG ĐT Qua aỹỷannaaiiaidiiuoitiitdttiiotdqoaaaa-aŸeee 7

BANG CÁC KÝ HIỆU VA CHỮ VIET TẮTT -.ss5ccsssccasssossee §LỐI CA MN quaggndangotdaidantiitdiid21G01130013116018030831003308018303638483133403516081/8304” 9

ChươngI MỜ ĐẦU: <cc.=cceeseeseeorreiiritoiiiooiiiiiioiiitiiiEoOEitiDiSGiS0A.SEEE 10

1.1 Lý do chọn đề tài -S22Sc 2222222112 1171122172111 xe cree 10

1.2 Mục tiêu va nhiệm vụ nghiên cứu cceeeeeeeeeeeseeeeneeene Mã:

l:2.1 IMũeiĐ6u0tighliệñ €ỮHI.:::::::-::::-:::::::s:::ieccsarieasissiroerisasisasraasssasssas II

1.22 Nhiệm vụnghiÊnCỨN: ::ccccccoccicciociioiiccieEE0S.0082010811202126ã1Ÿ5ã1ã52 II

I.3 Đối tượng và phạm vi nghiên cứu -2©-s+szeczxzcxzzcrxece 11

1.3.1 Đối tượng nghiên cứu - s22 2225111111112 2112 11212 1c ll

1L3:23 PhamVinphincỨNI;::::.::::::::::::::::i:2siniiiiioiiieiisaiiisiissiissiisa: II

l4 Phương phápngBiên cÚu : : c:.ccocccooeooioeiioeoeeoioeo 12

1.4.1 Phuong pháp nghiên cứu lý thuyết 2222522522 12

1.4.2 Phuong pháp nghiên cứu thực nghiệm - -.-~ 12

1.5 _ Ý nghĩa khoa học và thực tiễn -ssc s2 2222211011221 xe2 12

1.5.1 Ý nghĩa khoa học 2-22©2222EEcEEEESEEzCEEecEEecrkecrecrrec 12 1.5.2 Ý nghĩa thực tiễn ó 2c 2 201 HỰ SH ng n1 1112122 xe 12

1⁄6, NQidingvänBbãn., ::-: :.-:coczoieniniirirrinriribnieosniisi 12

Chương 2 TONG QUAN VÀ CƠ SỞ LÝ THUYỀÊT -.s5-5see 14

2.1 _ Tình hình nghiên cứu và phát triỀn ¿- + 2©25<ccxectxecrxee l4

20.1; Tìnhìinhnghiên€ÉU::::-s:-.:-:::s-:-s::s::-:- ¿sẽ cesnsoiassoeei 14

Trang 4

2.2.2 Các loại nhận diện ngôn ngữ ký hiệu chủ yếu - 19

ResNet -4- 5c cscsscee Lỗi! Thẻ đánh dấu không được xác định.

Fre:tamedlMGHBÏ¿:::2.isciicciicaiiiitiiid001116540131151531415851582153516 908336 22

MdiäPiB6:::::::::::-:::-:::c-ccccciciisiiE2E001112220122012231133159158238323588233553383388388855 22

2S, TôngduaniMediaBiBEcasasosnnoasaoananannaanadnaanannannanasnai 22 2.5.2 Nhận diện tư thế bang MediaPipe Pose -¿-5scs2 23

2.5.3 MediaPipe Hands cung ng 25

254 IMediaPipeiHGÌIHG:::.::::::::.::.::::-::::::::::s:2- ¿si nnissiroarirsiicstrsaoiee: 26

Convolutional Neural NetWwOrK - cà cncnnensireereerrrrrree 27

M[BirtGnEIIEDIEIHTI:2i¿i2isx:is2z2202220021/1210002120210210200101002210621202006261620u66) 28

2.7.1 Ngôn ngữ lập trình Python -Ă ĂSeeeeeiereerreerke 28

2.7.2 Thư viện Scikit-Learn (Sklearn) - ¿6c c2 1222 1< <zvs2 29

QPS: TPVTOREB-:::::::i:::2i:::t2225i2222222112272212123112210232122232539223132238525228256538525552333 1 BTA TKÊTlŠ¡::ioiiisiiiitiG111131113113311043016313851136113513353333335453863795338333830183133533835 32

2.7.5 Thur viện Pandas - + S5 S1 SS x22 2y 2 ng re 32

Độ do Gánh:0181đ0(HNfffHussanssnsaaosinaaipiiiiiroiitoiatiiittaiiiititstiotitiatinernai 34

2:0: 0: (ÍADOUEHCV 2 1212122112211120322112/242211132313)3322132213242322)333233331532132/132312202322 34

21003: lFIESCDTE siitsiiiaiiiaiïi2511251103i1151012201231183112838051912202ã31253112513551805/88229431352 34

Trang 5

Chương 3 PHƯƠNG PHÁP XÂY DUNG HE THONG NHAN DANG

NGON NGỮ KÝ HIỆU TIENG VIỆT, HO TRỢ HIỂU NGÔN NGỮ CUA NGƯỜIKHIEM THÍNH BANG PHƯƠNG PHÁP HOC SÂU -.s«<c5+ 35

3.1 Bo dữ liệu ở mức độ từ K11 11101011104501222 012505 00111111 02110145153155 size: 2

ST h6 + 3§

3.2.1 Giới thiệu -222-22222222222221223272117212211 21121 cty 38

3.2.2 Trích xuất đặc trưng không gian cssccsscssssssssssessssecssneeseee 39

3.2.3 Trích xuất đặc trưng khung xương -22©cszcssccscceo 40

3.2.4 Mô hình dự đoán trên đặc trưng không gian 43

3.2.5 Mô hình dự đoán trên đặc trưng khung xương 44

3.3 _ Quá trình huấn luyện : 26: 2t 2 0 200221 210 2 n0 te, 45Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIA -©ce«cccsccssee 46

äI MôiưườngthựcngRiỆTioooocoonoiooooonoiiioannanongipoioanosgnannasnsai 46

42 Tham số huấn luyện trong quá trình thực nghiệm 46

4.3 Kết quả thực nghiệm -2222222221222122212221222 222-222 47

Chương 5 KET LUẬN VÀ HƯỚNG PHAT TRIÉN -. - 50

a CS 50

5, HướNEPHẩHHđH:s eoioioioioronaniioionoibonennneiaanai 50

TAIETEDTHAM KH Ôgaaaaanaoanaaraaraaaraioaraaaaanroioanỷai-Ỳa ớ-ợýớ-au 51

Trang 6

DANH MỤC HÌNH ANH

Hình 2-1: Kiến trúc mạng Resnet non s n vú 20 Hình 2-2: Người đàn ông Vitruvian được căn chỉnh thông qua hai điểm đánh dấu ảo dự

đoán bởi BlazcPose Detector và hộp giới hạn khuôn mặt [ L7] - - + <-‹<<¿ 24

Hình 2-3: 33 điểm đánh dấu tư thế { 17] -cc-++252222+vvzttrrtterrverrrrrrrrrrve 24Hình 2-4: 21 điểm đánh dấu trên bàn tay [ I9] 622222226236 21222222210223023 252 26

Hình 2-5: Tông quan về MediaPipe Holistic [20] - 22 2222 22222z+2zz£czzcsz 27

Hình 2-6: Logo của |PVLHOR::::ccococococceiocGooiiiDoiiooiietiiegiist46116511041003100518086836 28

Hình 2-7: Logo của thư viện Scikit-L/earm Sàn 29

Hình 2-8: Logo của thư viện PyTorch -sccseieeieeesieeirrrrssrrrereeseereereedl Ï

Hình 2-9: Logo của thư viện K€raS s1 SH 11 2 HH HH Hit 32

Minh 2-10: Logöc6athvi@nlPaTdRSoisieeeeoeeenoieieooooooopoponoananane 32

Hình 3-1: Người kí hiệu biểu diễn ký hiệu “Cảm ơn” 5c 55c 2s 35 Hình 3-2: Tong quan hai hướng tiếp CAM cs.escccesccssecsssesescseecssecsssscsssseeccsnecesneeens 39

Hình 3-3: Nhận diện qua đặc trưng khung xương với mô hình Neural Network 45

Hình 3-4: Báo cáo phân loại của mô hình Neural Network của chúng tôi 47

Hình 3-5: Confusion matrix của model Neural Network của chúng tôi trên dataset của

CHỈ O01 5 12:2221212122024121123063123162213:33022135161363)39163165153163030351390803531501637 48

Trang 7

DANH MỤC BANG BIEU

Băng 3-1: Thông tim DG: đữ Hộu ccccoccc c0 101200 664062146546444444414818846 36

Bảng 3-2: Thong kê số lượng nhãn có trong bộ dit liệu - 2-c.c5ccc -37

Bảng 3-3: Tham số huấn luyện cho CNN aosscssssesssesssossscssssssssossscsssesssesssesssvssstacssessscssees 47Bang 3-4: Tham số huấn luyện cho Neural Network 22-2222 22Z2czzcecserccscec 47

Trang 8

: Long Short-term Memory

Recurrent neural network

Convolutional Neural Network

Residual Network

Hidden Markov Model

Detection Transformer

Feature Pyramid Network

Support Vector Machine

Word-Level American Sign Language

Argentinian Sign Language

INCLUDE Indian Lexicon Sign Language Dataset

Trang 9

LOI CAM ON

Nghiên cứu được thực hiện tại Khoa Công nghệ thông tin — Trường Dai học Su

phạm Thành phố Hỗ Chí Minh, đưới sự hướng dẫn khoa học của ThS Trần Quang Huy.

Trước tiên, chúng em xin gửi lời cảm ơn tới nhà trường đã tạo điều kiện cho

chúng em có môi trường học tập và nghiên cứu tốt nhất Hỗ trợ chúng em trong quá

trình nghiên cứu.

Chúng em xin bày tỏ lòng biết ơn tới các Thay Cô thuộc Khoa Công nghệ thông

tin và cán bộ Phòng Khoa học Công nghệ, khoa Công nghệ Thông tin — Trường Đại học

Sư Phạm Thành pho Hỗ Chi Minh đã tao mọi điều kiện thuận lợi giúp đỡ chúng em

trong quá trình học tập và nghiên cứu.

Chúng em xin bảy to lòng biết ơn sâu sắc tới ThS Tran Quang Huy đã đưa chúng

em đến với lĩnh vực nghiên cứu này Thay đã tận tình giảng dạy, hướng dẫn chúng em tiếp cận va đạt được những kết quả nhất định trong nghiên cứu của mình Thay đã luôn tận tâm động viên, khuyến khích va chỉ dẫn giúp chúng em hoàn thành nghiên cứu này.

Sự hướng dẫn của ThS Tran Quang Huy, sự động viên, cô vũ của gia đình, bạn

bẻ là nguồn động lực quan trọng đẻ chúng em thực hiện dé tai nghiên cứu Do kiến thức

còn hạn chế, nên đề tài nghiên cứu của chúng em không tránh khỏi những thiếu sót, kính

mong sự thông cảm, chi báo của quý Thay Cô

Chúng em xin chân thành cảm ơn.

Thay mặt nhóm thực hiện.

Hỗ Sĩ Thiện

Trang 10

Chuong 1 MO DAU

1.1 Lý do chọn dé tài.

Trong cuộc sông hằng ngày, giao tiếp là một yếu tổ không thé thiểu trong việc xây dựng và duy trì các mỗi quan hệ với mọi người xung quanh Tuy nhiên, đối với những người khiêm thỉnh, việc giao tiếp của họ với mọi người xung quanh không phải

lúc nào cũng để dàng Họ thường gặp khó khăn trong việc truyền đạt ý nghĩ và cảm xúc

của mình bằng ngôn ngữ nói Điều này đẫn đến việc họ phải tìm kiếm các phương thức khác dé truyền đạt ý nghĩ của minh, và ngôn ngữ kí hiệu trở thành một lựa chọn tự nhiên

và phô biến.

Ngôn ngữ kí hiệu, hay còn được gọi là thủ ngữ là một hình thức giao tiếp ma

người ký hiệu sử dụng các cử chỉ của đôi tay, biêu hiện của khuôn mặt, và các cử động

của cơ thé dé truyền đạt ý nghĩ Đối với người khiếm thính, ngôn ngữ ký hiệu 1a một

phương tiện giao tiếp không thẻ thiếu Tuy nhiên, thủ ngữ không phổ biến trong cộng

đồng giao tiếp bình thường, gây không ít khó khăn giữa những người khiếm thính vangười nghe bình thường Theo “Điều tra quốc gia người khuyết tật năm 2016` [1], người

khuyết tật nói chung và người khiếm thính nói riêng gặp nhiều khó khăn trong đời sống

xã hội: y tế, giáo dục, việc lam, tiếp cận thông tin v.v Những khó khan nay do sự khiếm

khuyết của họ làm trở ngại GO Việt Nam, dân số từ 2 tudi trở lên bị khiếm thính là gần

1 triệu người (năm 2016) [1] Từ số liệu có thẻ thay số lượng người khiếm thính ở Việt

Nam là khá lớn, cần một sự quan tâm với cộng đồng này Mặt khác, theo ước tính của

Tổ chức Y tế Thé giới (WHO), tới năm 2050, cứ 10 người sẽ có một người mat khả năng

nghe [2] Điều này cho thấy sự cần thiết của việc phát triển các phương pháp nhận dạng

ngôn ngữ ký hiệu, chuyên đổi các ký hiệu thành văn bản, giọng nói tạo ra sự giao tiếp thuận tiện giữa người khiém thính và mọi người xung quanh Nghiên cứu cai tiền các phương pháp nhận dạng thủ ngữ có ý nghĩa quan trọng, giúp người khiém thính hòa

nhập tốt với cộng dong

Xuất phát từ nguyên nhân trên, chúng tôi quyết định nghiên cứu dé tài *Xây

dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ hiểu ngôn ngữ của

10

Trang 11

người khiếm thính bằng phương pháp học sâu” với mục tiêu xây dựng mô hình có

khả năng nhận diện và học các biểu hiện của ngôn ngữ kí hiệu thông qua chuyên động

cơ thê, từ đó tạo ra một hệ thong tự động có thé chuyên đổi ngôn ngữ kí hiệu thành văn

ban hoặc giọng nói Không chi đáp ứng nhu cau cụ thé của người khiém thính mà còn

tạo ra một môi trường giao tiếp công bang và tương tác hơn trong xã hội Dong thời, nó

cũng góp phần vào sự phát triển của công nghệ va hòa nhập của người khiếm thính trong

cộng đồng rộng lớn.

1.2 Mục tiêu và nhiệm vụ nghiên cứu

1.2.1 Mục tiêu nghiên cứu

Đề tài này hướng tới một hệ thống nhận dạng được ngôn ngữ kí hiệu tiếng Việt

và chuyển đôi thành văn bản, giọng nói; giúp giao tiếp với người khiém thính một cách

để dàng hơn.

1.2.2 Nhiệm vụ nghiên cứu

Đề đạt được mục tiêu trên, những nhiệm vụ sau đây cần phải được hoàn thành:

+ Xây dựng tập dữ liệu ngôn ngữ kí hiệu tiếng Việt.

+ Xây dựng hệ thông nhận diện ngôn ngữ ký hiệu tiếng Việt

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu

Đối tượng chính trong đề tải của chúng tôi là ngôn ngữ ký hiệu Việt Nam và bài

toán nhận điện ngôn ngữ ký hiệu.

1.3.2 Pham vi nghiên cứu

Đề tài này có một sỐ giới hạn sau:

+ Giới hạn ngôn ngữ: hệ thong nhận điện ngôn ngữ ký hiệu tiếng Việt, và chuyên

sang văn bản, giọng nói tiếng Việt.

+ Giới hạn nhận dạng: nhận dang được 50 ngôn ngữ kí hiệu được đảo tạo.

Trang 12

1.4 Phương pháp nghiên cứu

1.4.1 Phương pháp nghiên cứu lý thuyết

e Tim hiéu các phương pháp xây dựng mô hình nhận dạng ngôn ngữ ki hiệu.

nhận dạng.

e_ Tìm hiéu về các công trình nghiên cứu liên quan mật thiết đến đề tài.

1.4.2 Phương pháp nghiên cứu thực nghiệm

e Xây dựng bộ dir liệu tiếng Việt dé gan nhãn các cử chỉ tay và biêu diễn cơ

thẻ.

e Xây dựng mô hình nhận dạng ngôn ngữ kí hiệu và chuyên đôi sang van

bản hoặc giọng nói.

e Tinh chính mô hình va đánh giá hiệu suất đạt được.

1.5 Ý nghĩa khoa học và thực tiễn

1.5.1 Ý nghĩa khoa học

¢ Đóng góp vào quá trình nghiên cứu nhận dạng chuyên động cơ thẻ, ngôn

ngữ kí hiệu trong thị giác máy tính.

e Dóng góp bộ dữ liệu gắn nhãn tiếng Việt cho các nghiên cứu về ngôn ngừ

kí hiệu.

1.5.2 Ý nghĩa thực tiễn

e Xây dựng hệ thống giúp nhận dạng ngôn ngữ kí hiệu.

¢ Tăng cơ hội tiếp cận giao tiếp cho người khiếm thính.

1.6 Nội dung văn bản

Đề tài này gồm 5 chương:

Chương 1: Mở dau.

Chương 2: Tổng quan và cơ sở lý thuyết

Trang 13

Chương 3: Phương pháp xây dựng hệ thống nhận dang ngôn ngữ ký hiệu tiếng

Việt, hỗ trợ hiểu ngôn ngữ của người khiếm thính bằng phương pháp học sâu.

Chương 4: Thực nghiệm và đánh giá.

Chương 5: Kết luận và hướng phát triển

13

Trang 14

Chương 2 TỎNG QUAN VÀ CƠ SỞ

LÝ THUYET

2.1 Tình hình nghiên cứu và phát triển

2.1.1 Tình hình nghiên cứu

Xã hội ngày càng quan tâm đối với người khiếm thính, và đặc biệt có hệ thống

nhà nước Các nỗ lực trong mở các cơ sở giáo dục cho người khiém thính, các chính

sách giúp đỡ người khiếm thính và khuyến khích các nghiên cứu hỗ trợ người khiếm

thính ngày càng được mở rộng.

Giống như tiếng nói, ngôn ngữ ký hiệu (NNKH) cũng có sự khác nhau ở từng

quốc gia và từng khu vực trên đất nước Ở Việt Nam, có nhiều nhóm ngôn ngữ ký hiệu hình thành ở các khu vực như Thành phố Hồ Chí Minh, Hà Nội, Hải Phòng, v.v Đã có

nhiều dự án dé chuẩn hóa NNKH ở Việt Nam, nhằm mục đích đem đến sự thông nhất

NNKH trên cả nước.

Các nhà nghiên cứu trong và ngoài nước luôn liên tục xây dựng các bộ dữ liệu

phục vụ cho việc nhận dạng ngôn ngữ ký hiệu của các quốc gia và đồng thời tìm các

phương pháp dé cải tiền mô hình nhận dang Các mô hình cần đám bảo rằng độ chính xác nhất định trên các cử chỉ Hầu hết các phương hướng nghiên cứu nhận dạng NNKH đạt hiệu suất cao thường được chia làm hai loại là dựa trên thiết bị cảm biến hoặc dựa

trên thị giác máy tính Thiết bị cảm biến hoạt động dựa trên cảm biến quỹ đạo chuyên

động của hai bàn tay và được chế tác thành bút hoặc găng tay có cảm biến và khả năng

lọc nhiều từ môi trường, tuy nhiên phương pháp này gặp một số khó khăn dé phé biến

rộng rãi vì giá thành của các thiết bị cảm biến và sự bat tiện khi có thể đeo nhiều thiết

bị Dựa trên thị giác máy tính có thé đem đến sự thuận tiện và dé dang sử dụng các ứng

dụng nhận diện hơn khi mà các thiết bị ghi hình như điện thoại trở nên phô biến.

Thị giác máy tính là một lĩnh vực trong trí tuệ nhân tạo và khoa học máy tính tập

trung vào việc phát trién các thuật toán máy học giúp máy tinh có thé học và xử lí các

dữ liệu vẻ hình ảnh, trích xuất hình ảnh và nhận dang đối tượng, ngữ cảnh cụ thé Với

sự tiền bộ trong lĩnh vực học sâu, nhiều nghiên cứu đã tập trung vào việc nhận diện

l4

Trang 15

NNKH, dẫn đến sự phát triển của các mô hình có khả năng nhận biết cử chỉ ban tay và

học được các đặc điểm của các ký hiệu Những mô hình được phát trién sử dụng mạngnơ-ron tích chập (Convolutional Neural Network - CNN), mạng nơ-ron tuần hoàn(Recurrent neural network - RNN), mạng bộ nhớ đài-ngắn (Long Short-Term Memory

- LSTM), Transformer đã đạt được những kết quả nhất định trong việc nhận dạng NNKH

[3] Trong khi CNN có khả năng trích thông tin từ ảnh tĩnh thì các mô hình như RNN,

LSTM, Tranformer thê hiện mạnh mẽ hon ở các thông tin dạng chuỗi Tùy theo cách tiếp cận mà có thể cho mô hình học những đặc trưng khác nhau và cá kết hợp các đặc

trưng khác nhau cho mô hình Người ta có thé dé cho mô hình nhận diện với các đầu

vào có thé là anh tĩnh hoặc video; ảnh/video RBG, depth; học các đặc trưng về khung

xương, thông tin về Sự chuyền động [4]

Phương hướng tiếp cận và các nghiên cứu quốc tế:

Một số công nghệ mới phô biến được các nhà nghiên cứu chuyên hướng tiếp cận

trong lĩnh vực thị giác máy tính là các mạng nơ ron học sâu, mạng nơ ron tích chập CNN

hoặc mang nơ ron hồi quy (LSTM, RNN, ) Anil Osman Tur và các cộng sự [5] (2021)

đã cung cap một khung hinh 3 tầng dựa trên LSTM, HMM và CNN cho hệ thông của

họ dé giải quyết vấn đề isolated sign classification Module đầu được dùng đề trích xuấtđặc trưng va mô hình CNN-based dùng đẻ giảm chiều dit liệu (reduce dimension), Sau

cùng đưa qua model HMM đê phân loại isolated sign, thu được độ chính xác 90.15%

trên bộ đữ liệu Montalbano sử dụng RGB, Skeletal data, Ankita Wadhawan và cộng sự

[6] dé xuất hệ thong nhận dạng ngôn ngữ ký hiệu gồm 4 giai đoạn chính: thu thập dữ

liệu, tiền xử lý ảnh, huấn luyện và thử nghiệm bộ phân loại CNN, Những hình ảnh ký hiệu tiền xử lý được đưa vào lớp phân loại dé gan chúng vào danh mục thích hợp Hệ thông đạt được độ chính xác đào tạo và xác thực lần lượt là 99,76% và 98,35% khi sử

dụng RMSProp và người ta nhận thấy rằng SGDoptimizer vượt trội hơn Adam,

RMSProp và các trình tôi ưu hóa khác về độ chính xác 2022 Sundar Ba và đồng sự đã

dé xuất vision-based system, cho ra mắt model nhận dạng NNKH cho alphabets sử dụngLSTM va Mediapipe [7] Hệ thống nay có thé được sử dụng dé dịch ngôn ngữ ký hiệu

thành văn bản và giao điện người-máy (HCI), sử dụng trong HCI dé tương tác với máy

tính dựa trên các cử chỉ thực hiện Hệ thông nhận dạng NNKH bằng cử chỉ tay sử dụng

15

Trang 16

mô hình Long Short-term memory (LSTM) được nghiên cứu với 26 chit cái và đã đạt

độ chính xác 99%.

Gần đây, một loại mạng mới đã xuất hiện và gây tiếng vang lớn là Transformer

2022, Matyas Bohacek và Marek Hruz đã đề xuất mô hình SPOTER [8], nhận thay tiềm

năng của nó trong việc sử dụng hệ thống nhận điện ngôn ngữ ký hiệu ở mức độ từ trên

các thiết bị cầm tay, nhằm đến một phương pháp có chi phí thấp Mô hình này có phương

hướng chuẩn hóa (normalization) va tang cường (augmentations) vị trí cơ thê mạnh mẽ

so với các mô hình trước đó, cải thiện đáng ké độ chính xác trên 2 tập dir liệu LSA64,

WLASL Yu Liu và cộng sự đề xuất mô hình vision transformer-based [9] (2023), sửdụng phương pháp được gọi là Detection Transformer (DETR), hướng đến mục tiêu cải

thiện tôi ưu độ chính xác mô hình nhận dang NNKH Phương pháp DETR được dé cập

có khả nang nhận dạng NNKH từ digital videos với độ chính xác cao, sử dụng mô hình

học mới ResNet152 va Feature Pyramid Network (FPN) Kết quả nghiên cứu chỉ ra rang

DETR có tiềm năng lớn trong việc cải thiện độ chính xác mô hình, dat overall accuracy

lên đến 96.45%,

Một số nghiên cứu nhận diện ngôn ngữ ký hiệu tiếng Việt:

Việt Nam là một đất nước đông dân với sự gia tăng đáng kẻ trong việc đầu tư vàthúc đây nghiên cứu về ngôn ngữ người khiếm thính Các tô chức nghiên cứu, cùng với

các trường đại học đã công hién không ngừng sức lực va tài nguyên cho những dự án về ngôn ngữ và trợ giúp cho người khiếm thính.

Anh Vo vả cộng sự [10] đã tiến hành nhận dạng các tư thế từ bộ dữ liệu VSL trên

video Từ chuỗi video đầu vào các frame (khung hình) được trích xuất thủ công, loại bỏ

các vùng liên quan đến mặt và chỉ lay các vùng liên quan đến tay Thử nghiệm với 2

cách tiếp cận, các mô hình máy học truyền thống và mô hình Deep Learning (Học sâu).

Mô hình truyền thống và học sâu được sử dung để nhận điện NNKH lần lượt là Support

Vector Machine (SVM) và LSTM Train SVM và LSTM đạt được độ chính xác đạt

được lần lượt là 88.5% và 95,83%

Duc-Hoang Vo và các cộng sự [11] nghiên cứu phân loại các hành động được

thực hiện một cách liên tục Các hành động được quay bằng camera Kinect được sản

xuất bởi Microsoft dé trích xuất các đặc trưng về mảu sắc, độ sâu được tính toán dựa

l6

Trang 17

trên tín hiệu hồng ngoại Bài toán sử dụng mô hình SVM kết hợp với mô hình Markov

ân (HMM) với độ chính xác lên đến 95% với bộ dữ liệu nhóm thu thập.

Khuất Duy Bách và cộng sự [12] đã đề xuất phương pháp triển khai sử dụng

mạng nơ-ron tái điển (RNN) với khung theo dõi tay Mediapipe để nhận dang cử chỉ ngôn ngữ kí hiệu Dữ liệu huấn luyện được sản sinh từ video đầu vào bang mô hình theo

đði nhiều tay va mô hình học sâu có thé nhận dạng cử chỉ bằng các điểm mốc trên tay

qua mỗi khung hình đào tạo RNN Tập dữ liệu chứa cử chỉ của các từ thông dụng nhất trong tiếng Việt Mô hình này cho kết qua chính xác tốt trong nhận dang từ.

2.1.2 Một số thách thức

Một trong những thách thức lớn nhất là sự đa dạng và phong phú của cử chỉ vả

biéu hiện kí hiệu Từ sự khác biệt về văn hoá, tiếng nói, xã hội dẫn đến ngôn ngữ kí hiệu

có nhiêu phiên bản khác nhau Mỗi ngôn ngữ kí hiệu có những đặc điểm riêng biệt và cần một quy trình nhận dạng và dịch riêng biệt Thêm vào đó, trong các điều kiện khác

nhau, ánh sáng, góc độ khác nhau hoặc nền nhiễu có thẻ dẫn đến sự nhận dang khác

nhau trong cùng một hệ thông nhận dạng đối với cùng một từ, cụm từ hoặc câu.

So với bài toán nhận điện hành động, có nhiều khó khăn khi nhận diện một ngôn

ngữ ký hiệu Xem xét một ký hiệu cần phải xem xét cử chỉ trên cơ thé, hình dang củacác ngón tay và bàn tay, ngoài ra còn có thể kết hợp với cảm xúc khuôn mặt, tốc độ

nhanh chậm, số lần lặp lại Do phân lớn các ký hiệu đều thực hiện từ hông trở lên, rất ít

các ký hiệu được thực hiện từ hông trở xuống {13] việc chọn lọc các thông tin vào mô hình là cần thiết dé tránh mô hình học quá khớp Và việc nhận diện cũng sẽ gặp không

ít khó khăn khi tùy người biéu dién mà có tốc độ, tay thuận khác nhau Ngoài ra, nhận

điện ngôn ngữ ký hiệu cũng gặp nhiều khó khăn khi bộ dữ liệu phù hợp dé dao tạo mô

hình cũng còn rất hạn chế vả đôi khi xa rời với thực tế [14]

2.1.3 Sơ lược về các tập đữ liệu

Đề phục vụ cho việc đảo tạo các mô hình nhận diện ngôn ngữ ký hiệu, nhiều bộ

dữ liệu đã được xây dựng Một số bộ dữ liệu được công khai có thé kể đến như: Bộ dữ

liệu WLASL, bộ dit liệu LSA64, bộ dit liệu INCLUDE, bộ dit liệu DUL-VSL v.v

17

Trang 18

Tên bộ dữ liệu Số lớp Số video Ngôn ngữ ký hiệu

WLASL 2000 21,083 My

LSA64 64 3200 Argentina

INCLUDE 263 4287 Án Độ

DUL-VSL 27 2700 Việt Nam

Word-Level American Sign Language (WLASL) [15]

Bộ dit liệu gồm 2000 từ của ngôn ngữ ký hiệu được sử dung ở Hoa Kỳ, biểu diễn

bởi 100 người, độ dài trung bình của tất cả các video là 2,41 giây Nhóm tác giả cũng chia bộ dữ liệu thành 4 tập con để đánh giá khó khăn và khả năng mở rộng của các

phương pháp nhận dạng ngôn ngữ ký hiệu, lần lượt là: WLASL100, WLASL300,

WLASL1000, WLASL2000, với các con số đại điện cho lấy bao nhiêu hàng đầu tiên

trong bảng xếp hạng các ký tự có nhiều mẫu trong bộ dữ liệu

Argentinian Sign Language (LSA64) [16]

Bộ dit liệu về ngôn ngữ ký hiệu của Argentina, bao gồm 3200 video với 64 ký

hiệu được biêu dién bởi 10 người khác nhau ở 10 chủ dé Độ phân giải của video là 1920

x 1080, ở tốc độ 60 khung hình mỗi giây

Indian Lexicon Sign Language Dataset (INCLUDE) [17]

Bộ dit liệu gồm các ký hiệu được sử đụng ở Án Độ, gồm 4287 video, 263 ký hiệu

chia thành 15 danh mục từ khác nhau Mỗi video là ban ghi của | ký hiệu, được ký hiệu

bởi 7 học sinh khiểm thính từ một trường học đành cho người khiếm thính ở Án Độ,mỗi người thực hiện từ 2 đến 6 video cho mỗi ký hiệu Đối tượng được yêu cầu đứngđối điện với máy ảnh ở khoảng cách 2 mét Mỗi video sao cho mặt phẳng ký hiệu đượcghi lại hoàn toàn, từ độ cao ngang hông đến chiêu đài cánh tay phía trên vai Video đượcquay trong điều kiện ánh sáng tự nhiên, tươi sáng không có nỗ lực nao dé điều chỉnh

18

Trang 19

trang phục hoặc phong cách ký hiệu của người ký hiệu Độ phân giải của video là 1920

x 1080, ở tốc độ 25 khung hình mỗi giây.

Bộ dữ liệu DUL-VSL [18]

Bộ dữ liệu VSL của nhóm Duc-Hoang Vo trường Đại học Đà Ning: bộ dữ liệu

ngôn ngữ kí hiệu tiếng Việt, bao gồm 27 từ khác nhau mô tả một số hoạt động và danh

từ thông đụng như mẹ, bố, mây, mặt trời, ăn, uống, v.v Bộ dữ liệu gồm 2700 video, với

100 video cho mỗi ký hiệu Độ phân giải của video là 512 x 372, ở tốc độ 10 khung hình mỗi giây Thời gian mỗi video từ 3 đến 9 giây.

2.2 Nhận diện ngôn ngữ ký hiệu

2.2.1 Giới thiệu

Nhận dạng NNKH là quá trình huấn luyện mô hình học từ các trích xuất đặc

trưng của cử chỉ bàn tay, biểu cảm khuôn mặt và chuyên động cơ thể, xử lí gắn nhãn

phân loại từng biểu hiện của NNKH Sau đó tỉnh chỉnh tham số dé mô hình nhận dang

đạt hiệu suất cao va độ chính xác tôi ưu trên tập dữ liệu kiềm tra.

2.2.2 Các loại nhận diện ngôn ngữ ký hiệu chủ yếu

Trong hau hết các mô hình, việc phân biệt giữa isolated và continuous là một yêu

tô quan trọng trong việc hiểu và giải mã ngôn ngữ ký hiệu Cách tiếp cận continuous tập

trung vào các nguyên tắc và phương pháp nhận dạng ngôn ngữ ký hiệu liên tục Mặt

khác, nhận dang isolated có chu kỳ ngắn hơn so với nhận dang continuous và tập trung vảo việc cải thiện đồng thời độ chính xác của từng từ vả tốc độ giải mã, xử lý các từ

hoặc cụm từ trong ngôn ngữ ký hiệu một cách độc lập.

2.3 Residual Network

Residual Network (ResNet) ra đời vào năm 2015 [19] và đã ghi dau an với nhiều

giải thưởng trong lĩnh vực nhận diện ảnh trên các tập dữ liệu lớn Hiện nay, có nhiều biến thé của kiến trúc ResNet với số lớp khác nhau như ResNet-1§ ResNet-34, ResNet-

19

Trang 20

50, ResNet-101, ResNet-152 Tên của mỗi biến thé ResNet đều kèm theo số chỉ về số

lớp trong kiến trúc tương ứng.

Residual Network là một CNN được thiết kế dé hoạt động với nhiều lớp, tránhvan đề biến mat hoặc bùng nô độ đốc của CNN Nó sử dụng các kết nôi phím tắt dé bỏ

qua một hoặc nhiều lop, tạo thành Khối dư (Residual Block) ResNet bao gồm một số

Khối dư ResNet-50 là một biến thé của kiến trúc ResNet, với con số biểu thị số lớp

Khoi du hay khối cô chai (Bottleneck block) trong ResNet50 bao gồm 3 lớp

convolution liên tiếp nhau, 1 lớp tích chập 1x1 dé giảm số chiêu sâu của đặc trưng, lớp

tích chập 3x3 và lớp tích chập 1x1 dé tăng số chiều sâu lên đúng với đầu vào ban đầu.

Tên gọi “bottleneck” (cỗ chai) phản ánh việc làm giảm kích thước chiều sâu của đặctrưng trước khi tăng lên lại, tạo ra một kênh hẹp tạm thời Bằng cách sứ dụng các lớp

tích chập Ix1 dé thay đôi số chiều đã giúp giảm chi phí tính toán cho khối dư này.

Trang 21

Hình 2-2: Khối dư trong ResNet50 [19].

2.4 Neural Network

Mạng lưới thần kinh là một chương trình hay mô hình học máy đưa ra quyết định

theo cách tương tự như bộ não con người, bằng cách sử dụng các “nơ ron” hoạt độngsong song và kết nỗi với nhau thông qua các trọng số Cách hoạt động của loạt nơ ron

tương tự như quy trình các no ron sinh học làm việc cùng nhau đề xác định hiện tượng,

cân nhắc các lựa chọn và đưa ra kết luận trong vỏ não

Mỗi mạng nơ-ron gồm các lớp nút hoặc nơ-ron nhân tạo, bao gồm lớp đầu vào, một hoặc nhiều lớp ân và một lớp đầu ra Mỗi nút kết nỗi với các nút khác và có trọng

số và ngưỡng riêng Nếu đầu ra của bất kỳ nút nào vượt qua ngưỡng được chỉ định, nút

đó sẽ được kích hoạt và gửi dữ liệu đến lớp tiếp theo của mạng Ngược lại không có đữliệu được truyền đến lớp tiếp theo của mạng

Mạng nơ ron dựa vào đữ liệu huấn luyện để học và cái thiện hiệu suất theo thời gian Thông thường sau khi được tinh chỉnh tham số cho phù hợp, chúng trở thành công

cụ mạnh mẽ trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo, giúp phân loại và phân

cum dir liệu một cách nhanh chóng Các nhiệm vụ học máy như nhận dạng giọng nói

hoặc hình ảnh có thê được thực hiện trong vài phút, so với hàng giờ của việc thực hiện

thủ công Ví dụ nồi tiếng về mạng nơ ron [a thuật toán tìm kiếm Google

Trang 22

Pre-trained Model (mô hình được dao tạo trước) là mô hình được huận luyện

trước với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huan

luyện mô hình từ dau Mô hình sau đó có thé được huấn luyện thêm đề phù hợp với bộdit liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy

Mạng lưới than kinh sâu thường có số lượng lớn các tham số Do đó, tập đữ liệu

cân phải đủ lớn dé huấn luyện các tham số mô hình và ngăn ngừa tinh trang quá khớp

Déi với các tập dữ liệu nhỏ, các tham số có thé quá khớp với dữ liệu Huan luyện trước

có thê là một cơ chế chính quy hóa, giảm phương sai, tránh trang bị quá mức trên các

tập dữ liệu nhỏ.

2.6 MediaPipe

2.6.1 Tông quan MediaPipe

MediaPipe [20] là một framework (bộ khung) ma nguồn mở được phát triển bởi

Google, được phát triển nhằm hỗ trợ các nhà phát triển và nhà nghiên cứu trong việc tạo

ra các ứng dụng thị giác máy tính hiệu quá MediaPipe có kha năng nhận diện va theo

cot2

Trang 23

ddi các điểm đặc trưng trên cơ thé người, như khuôn mặt và tay, thông qua việc sử dụng

mô hình học máy dé anh xa va theo đõi vị trí của chúng trong không gian 3D.

MediaPipe có khả năng xử lý đầu vào thời gian thực và hỗ trợ nhiều loại dữ liệuđầu vào khác nhau như video, âm thanh và hình ảnh Nó cũng cung cấp các thành phần

xử lý tiêu chuẩn như phân loại đối tượng, phát hiện vật thé và theo đõi đối tượng, đồng thời cho phép các nhà phát triển tự tạo và tích hợp các thành phần mới vào ứng dụng của họ MediaPipe hỗ trợ nhiều ngôn ngữ lập trình và có thê chạy trên nhiều hệ điều

hành khác nhau.

Ngoài ra, MediaPipe cung cấp các công cụ dé đánh giá hiệu suất và tỉnh chỉnhứng dụng, giúp các nhà phát triển tối ưu hóa hiệu suất và giảm thiêu thời gian phản hồi.Cac ứng dụng MediaPipe có thé được trién khai trên nhiều loại thiết bị khác nhau, từ diđộng đến máy tinh đẻ ban và thiết bị loT (Internet of Things) Với MediaPipe, việc xâydựng các ứng dụng xử lý đa phương tiện chất lượng cao trở nên để đảng và nhanh chóng,đồng thời cung cap một nên tang dé phát triển va cải tiền thuật toán và mô hình, giúpcải thiện hiệu suất và độ chính xác của ứng dụng

2.6.2 Nhận diện tư thế bằng MediaPipe Pose

MediaPipe Pose là một phần của MediaPipe, cho phép nhận điện khung xương

và theo dai vị trí và hướng của các khớp cơ thé, được sử dụng rộng rãi trong các ứng

dụng theo doi chuyên động trong thé thao, điều khién trò chơi bằng cử chỉ và phát hiện

người dùng trong các ứng dụng trò chuyện trực tuyến.

MediaPipe Pose kết hợp giữa hai mô hình BlazePose Detector [21] và BlazePose

GHUM 3D [22] BlazePose Detector xác định vị trí của người hoặc tư thé người, được

các nhà nghiên cứu lấy cảm hứng từ người đàn ông Vitruvian của Leonardo Mô hình

sử dụng két hợp giữa mô hình dỏ tìm khuôn mặt kết hợp với điểm giữa hông của người.bán kính hình tròn bao quanh cơ thê và góc nghiêng của điểm nỗi giữa vai và hông (Xem

minh họa ở Hình 2-2) Từ các thông tin mà mô hình đã thu thập được, mồ hình BlazePose

Detector tiếp tục tiễn hành xoay cơ thé người theo phương thang đứng Sau đó mô hình

BlazePose GHUM 3D trả về các điểm đánh đấu Mô hình keypoints trong MediaPipe

Trang 24

Pose dự đoán vị trí của 33 điểm ảnh đánh dấu tư thé con người (xem ảnh minh họa —Hình 2-3)

Hình 2-4: Người đàn ông Vitruvian được căn chỉnh thông qua hai điểm đánh dấu

ao dự đoán bởi BlazePose Detector và hộp giới hạn khuôn mặt [21].

tá Mà 0 nose 17 left_pinky

ee eee 1 left_eye_inner 18 right_pinky

ese 2 left_eye 19 left_index

= me ae 3 left_eye_outer 20 right_index

AF T- mt Ỳ ‘ 4 righteyeinner 21 left thumb

“ch 4 7 \ | `Ng~ e-2 5 right_eye 22 right_thumb

Hình 2-5: 33 điểm đánh dấu tư thé [21].

Trong danh sách các điểm đánh dấu tư thế Mỗi điểm đánh dau bao gồm các

thông tin:

Trang 25

* x và y: Tọa độ của điểm được chuẩn hóa về khoảng [0.0, 1.0] bằng chiều rộng

và chiều cao của hình ảnh tương ứng

* z: Dai diện cho độ sâu của điểm ảnh đánh dấu, với độ sâu tại điểm giữa hai

hông được coi là gốc và giá trị càng nhỏ thì điểm đánh dấu càng gần camera

hơn Giá trị tuyệt đối của z sử dụng khoảng giả trị tương tự như x.

® visibility; Một giá trị trong khoảng [0.0, 1.0] chỉ ra khả năng của điểm đánh

dau được nhìn thấy (hiện điện và không bị che khuất) trên hình ảnh.

Các ứng dụng MediaPipe Pose cho phép nhà phát triển tùy chỉnh các đặc trưng

và thuật toán xử lý khung xương đề phù hợp với nhu cầu của họ Nó cũng cung cấp chonhà phát triển các công cụ dé đánh giá và tinh chỉnh hiệu suất và độ chính xác của ứng

dụng của họ.

2.6.3 MediaPipe Hands

MediaPipe Hands là ứng dụng theo dõi ngón tay va ban tay có độ chính xác cao.

Việc phát hiện ban tay là một nhiệm vụ phức tap, phát hiện bản tay thì không chi dựa

vào thị giác mà còn phải dựa vào các đặc điểm ngữ cảnh bé sung như đặc điểm của cánh

tay hoặc cơ thể người Vì lý do đó, các nhà kỹ sư Google đã đưa ra một chiến lược, họ

đò lòng bàn tay thay vì đò bàn tay Điều này bởi vì việc phát hiện các giới hạn của lỏng

bản tay và nắm đấm đơn giản hơn so với phát hiện bàn tay và các ngón tay có khớp

Ngoài ra, vì lòng ban tay là vật nhỏ cho nên giải thuật non-maximum suppression vẫn

hoạt động tốt ngay cả đối với các trường hợp tương tác bang hai tay, chăng hạn như hoạt

động bắt tay nhau giữa hai người Sau khi phát hiện lòng bàn tay trên toàn bộ hình ảnh,

họ sẽ thực hiện mô hình đánh dau ban tay dé dự đoán tọa độ của 21 điểm đánh dau (Các

điểm cụ thể ở Hình 2-5) chính là vị trí của các đốt ngón tay trên không gian 3D bên

trong các vùng bản tay được phát hiện.

Trang 26

ứng trong MediaPipe Pose, MediaPipe Face Mesh và MediaPipe Hands đề tạo ra tông

cộng 543 cột mốc (33 cột mốc tư thé, 468 cột mốc khuôn mặt và 21 cột mốc trên mỗi

bàn tay).

Đầu tiên, MediaPipe Holistic ước tính tư thế của con người (trên cùng của Hình

2-6) Sau đó, bằng cách sử dụng các mốc tư thế được suy luận, MediaPipe Holistic rút

ra ba vàng quan tâm (ROT) cắt xén cho hai bản tay và khuôn mặt, đồng thời sử dụng mô

hình cắt xén lại dé cải thiện ROI Tiếp đó cắt khung đầu vào có độ phân giải đầy đủ cho

các ROI nay va áp dụng các mô hình khuôn mặt và ban tay đành riêng cho nhiệm vụ để

ước tính các mốc tương ứng của chúng Cuối cùng, chúng tôi hợp nhất tat cả các mốc

với các móc của mô hình tư thé dé tạo ra hơn 540 mốc.

Tiêu đề	Xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng việt, hỗ trợ hiểu ngôn ngữ của người khiếm thính bằng phương pháp học sâu
Tác giả	H6 Sĩ Thiện, Trần Tỳ Quyền, Nguyễn Ngọc Hương
Người hướng dẫn	ThS Trần Quang Huy
Trường học	Trường Đại Học Sư Phạm TP Hồ Chí Minh
Chuyên ngành	Công nghệ thông tin
Thể loại	Báo cáo tổng kết
Năm xuất bản	2024
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	52
Dung lượng	42,37 MB