1.2 MỤC TIÊU ĐỀ TÀI Đề tài này đặt ra một loạt các mục tiêu quan trọng để phát triển và triển khai hệ thống nhận diện thủ ngữ dựa trên thuật toán YOLO nhằm hỗ trợ giao tiếp cho người kh
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH
GVHD: PGS TS TRƯƠNG NGỌC SƠN SVTH: NGUYỄN XUÂN HẢI
PHẠM HỮU NGHĨA
TP Hồ Chí Minh, tháng 6/2024
SỬ DỤNG THUẬT TOÁN YOLO NHẬN DIỆN THỦ NGỮ
HỖ TRỢ GIAO TIẾP CHO NGƯỜI KHIẾM THÍNH- KHIẾM THỊ
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH
HỆ ĐÀO TẠO CHẤT LƯỢNG CAO
SỬ DỤNG THUẬT TOÁN YOLO NHẬN DIỆN THỦ NGỮ HỖ TRỢ GIAO TIẾP CHO NGƯỜI
KHIẾM THÍNH - KHIẾM THỊ
MSSV: 20119221 PHẠM HỮU NGHĨA MSSV: 20119256
TP HỒ CHÍ MINH – 06/2024
Trang 3TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH
HỆ ĐÀO TẠO CHẤT LƯỢNG CAO
SỬ DỤNG THUẬT TOÁN YOLO NHẬN DIỆN THỦ NGỮ HỖ TRỢ GIAO TIẾP CHO NGƯỜI
KHIẾM THÍNH - KHIẾM THỊ
MSSV: 20119221 PHẠM HỮU NGHĨA MSSV: 20119256 GVHD: PGS.TS TRƯƠNG NGỌC SƠN
TP HỒ CHÍ MINH – 06/2024
Trang 4i
Trang 5ii
TRƯỜNG ĐẠI HỌC SƯ PHẠM
KỸ THUẬT TP.HCM
KHOA ĐIỆN – ĐIỆN TỬ
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
2 Họ tên sinh viên 1: Phạm Hữu Nghĩa MSSV: 20119256
Họ tên sinh viên 2: Nguyễn Xuân Hải MSSV: 20119221
3 Ngành: Công nghệ Kỹ thuật Máy tính
4 GVHD: PGS TS Trương Ngọc Sơn
5 Tổng hợp các yêu cầu chỉnh sửa báo cáo ĐATN của hội đồng:
- Sửa lỗi trình bày, lỗi chính tả
- Chỉnh lại sơ đồ 3.2
- Sửa lưu đồ 3.6 cần có điểm kết thúc
- Phần 5.1 nên nêu mục tiêu nào ở phần 1.2 đã thực hiện
- Danh sách tham khảo theo chuẩn IEEE
- Kết quả sơ sài, cần đánh giá thêm để đánh giá hiệu năng của hệ thống
6 Giải trình chỉnh sửa báo cáo ĐATN
TT Nội dung góp ý của HĐ Kết quả chỉnh sửa bổ sung
1 Sửa lỗi trình bày, lỗi chính tả đã chỉnh sửa lỗi chính tả trang 38
2 Chỉnh lại sơ đồ 3.2 Đã chỉnh sửa sơ đồ trang 31
3 Sửa lưu đồ 3.6 cần có điểm kết thúc Đã chỉnh sửa sơ đồ ở trang 42
4 Phần 5.1 nên nêu mục tiêu nào ở
phần 1.2 đã thực hiện
Đã bổ sung các mục tiêu đã thực hiện ở phần 5.1 trang 61
5 Danh sách tham khảo theo chuẩn
IEEE
Đã sửa cách trình bày tài liệu tham khảo ở trang 63
6 Kết quả sơ sài, cần đánh giá thêm để
đánh giá hiệu năng của hệ thống
Đã thêm phần đánh giá kết quả hệ thống tại trang 57 và 58
Trang 7Nhóm cũng xin chân thành cảm ơn các thầy cô giáo trong Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM nói chung, đặc biệt là các thầy cô trong Bộ môn Kỹ Thuật Máy Tính, đã trang bị cho nhóm em những kiến thức cơ bản cũng như chuyên sâu, giúp nhóm em có được nền tảng lý thuyết vững chắc và tạo mọi điều kiện thuận lợi để nhóm em thực hiện đề tài
Ngoài ra, nhóm xin cảm ơn các bạn sinh viên trong lớp 20119CL2 đã giúp
đỡ, cung cấp tài liệu liên quan và động viên nhóm trong suốt quá trình thực hiện
đề tài
TP Hồ Chí Minh, Tháng 6 năm 2024 Nhóm sinh viên thực hiện
Phạm Hữu Nghĩa - Nguyễn Xuân Hải
Trang 8v
LỜI CAM ĐOAN
Nhóm sinh viên Nguyễn Xuân Hải và Phạm Hữu Nghĩa thực hiện đề tài Sử Dụng Thuật Toán Yolo Nhận Diện Thủ Ngữ Hỗ Trợ Giao Tiếp Cho Người Khiếm Thính - Khiếm Thịdưới dự hướng dẫn của thầy Trương Ngọc Sơn xin cam đoan các nội dung như sau:
1 Sản phẩm của Đồ án tốt nghiệp là do nhóm sinh viên Nguyễn Xuân Hải và Phạm Hữu Nghĩathực hiện, không mượn, thuê, mua từ người khác
2 Quyển báo cáo Đồ án tốt nghiệp là do nhóm sinh viên Nguyễn Xuân Hải
và Phạm Hữu Nghĩa tự viết, tỷ lệ trùng lắp là 37%, các nội dung tham khảo đã được trích dẫn đầy đủ
3 Kết quả thực hiện trong quyển báo cáo bao gồm hình ảnh, độ chính xác của mô hình là hoàn toàn đúng với mô hình, phần cứng nhóm đã thực hiện
Nhóm sinh viên cam đoan các nội dung trên là hoàn toàn chính xác và chịu trách nhiệm hoàn toàn với những cam đoan trên
Sinh viên thực hiện đồ án tốt nghiệp
(ký và ghi rõ họ tên)
Trang 9vi
TÓM TẮT
Đề tài nghiên cứu sử dụng thuật toán YOLO (You Only Look Once) để phát hiện và nhận dạng thủ ngữ trong bối cảnh hỗ trợ giao tiếp cho người khiếm thính -khiếm thị Việc sử dụng thủ ngữ là phương thức giao tiếp quan trọng đối với những người này, tuy nhiên việc nhận biết các ký hiệu này đòi hỏi sự tập luyện và kinh nghiệm
Đề tài sẽ xây dựng một hệ thống dựa trên thuật toán YOLO để tự động phát hiện và nhận dạng các thủ ngữ một cách chính xác và kịp thời Hệ thống sẽ được huấn luyện trên một tập dữ liệu ảnh chứa các thủ ngữ phổ biến, từ đó có thể
áp dụng vào các tình huống thực tế
Kết quả của đề tài sẽ giúp cải thiện khả năng giao tiếp và hòa nhập xã hội của người khiếm thính – khiếm thị, đồng thời mang lại sự tiện lợi và độc lập cho nhóm đối tượng này trong cuộc sống hàng ngày Đây là một ứng dụng có ý nghĩa
xã hội quan trọng của công nghệ trí tuệ nhân tạo
Trang 10vii
ABSTRACT
Using the YOLO (You Only Look Once) algorithm to detect and recognize hand gestures in the context of communication assistance for the deaf, blind and dumb
The use of hand gestures is an important communication method for these people, but recognizing these gestures requires practice and experience
The topic will build a system based on the YOLO algorithm to automatically detect and accurately and timely recognize hand gestures The system will be trained on a dataset of images containing common hand gestures, which can then be applied to real-world situations
The results of the research will help improve the communication and social integration of the deaf, blind and dumb, while also providing convenience and independence for this target group in daily life This is an important social application of artificial intelligence technology
Trang 11viii
DANH MỤC HÌNH
Hình 2.1 Một số thủ ngữ 9
Hình 2.2 Hình ảnh minh hoạ cho một anchor box 11
Hình 2.3 Nhận diện đa tỷ lệ Feature map 12
Hình 2.4 Feature map chia nhỏ dần 13
Hình 2.5 Công thức IoU 15
Hình 2.6 Kiến trúc mạng YOLOv8 18
Hình 2.7 Biểu đồ dạng Box Plot trên thể hiện sự so sánh giá trị mAP của YOLOv8 cao hơn so với các phiên bản tiền nhiệm là YOLOv5 và YOLOv8 20
Hình 2.8 Từ hình trên, ta thấy YOLOv8(đường trên cùng) cũng vượt trội hơn về mặt nhận diện nhiều loại dữ liệu hơn so với YOLOv7 (đường ở giữa) và YOLOv5 (đường dưới cùng) 20
Hình 3.1 Mô hình hệ thống nhận diện ngôn ngữ cơ thể và từ giọng nói sang hình ảnh theo hai chiều giao tiếp 29
Hình 3.2 Sơ đồ khối hệ thống sử dụng thuật toán YOLO nhận diện thủ ngữ hỗ trợ giao tiếp cho người khuyết tật 31
Hình 3.3 Hình ảnh máy tính nhúng Jetson Nano thực hiện xử lý chính 33
Hình 3.4 Hình ảnh khối hiển thị và âm thanh được tích hợp trên màn hình với màn hình có kích thước 7 inch đủ để thực hiện việc quan sát và tiết kiệm diện tích 35
Hình 3.5 Camera thực hiện việc lấy ảnh đầu vào cho hệ thống 37
Trang 12ix
Hình 3.6 Khối khởi tạo thực hiện việc hệ thống chọn vi xử lý 42Hình 3.7 Nhánh lưu đồ thực hiện chuyển đổi từ người bình thường sang người khuyết tật 45Hình 3.8 Luồng lưu đồ thực hiện chuyển đổi từ người khuyết tật sang người bình thường 48Hình 4.1 Hình ảnh tổng quan của hệ thống 50Hình 4.2 Giao diện tổng quan của hệ thống biểu hiện sự đơn giản hoá và chỉ hiển thị những phần quan trọng 51Hình 4.3 Thực hiện kết quả của hệ thống nhận diện thủ ngữ sử dụng YOLOv8 53Hình 4.4 Kết quả sau khi huấn luyện model 55
Trang 13CSP Cross Stage Partial connections
CUDA Compute Unified Device Architecture FPN Feature Pyramid Network
GPIO General-Purpose Input/Output
GPU Graphics Processing Unit
GUI Graphical User Interface
HDMI High-Definition Multimedia Interface
IoU Intersection Over Union
LPDDR4 Low Power Double Data Rate 4
MIPI Mobile Industry Processor Interface
Trang 15xii
MỤC LỤC
LỜI CẢM ƠN ii
LỜI CAM ĐOAN v
TÓM TẮT vi
ABSTRACT vii
DANH MỤC HÌNH viii
CÁC TỪ VIẾT TẮT x
MỤC LỤC xii
Chương 1 GIỚI THIỆU 1
1.1 MỞ ĐẦU 1
1.2 MỤC TIÊU ĐỀ TÀI 1
1.3 GIỚI HẠN ĐỀ TÀI 2
1.3.1 Về mặt kỹ thuật 2
1.3.2 Về mặt ứng dụng 3
1.4 PHƯƠNG PHÁP NGHIÊN CỨU 3
1.5 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 4
1.5.1 Đối tượng nghiên cứu 4
1.5.2 Phạm vi nghiên cứu 4
1.6 BỐ CỤC QUYỂN BÁO CÁO 5
Chương 2 CƠ SỞ LÝ THUYẾT 6
2.1 GIỚI THIỆU VỀ THỦ NGỮ 6
2.1.1 Khái niệm thủ ngữ trong giao tiếp 6
2.1.2 Đặc tính của thủ ngữ 7
2.1.3 Vai trò của thủ ngữ đối với người khuyết tật 7
2.1.4 Sử dụng thủ ngữ trong giao tiếp của người khuyết tật 9
2.2.1 Giới thiệu mạng YOLO 10
Trang 16xiii
2.2.2 Kiến trúc mô hình 16
Chương 3 THIẾT KẾ HỆ THỐNG NHẬN DIỆN THỦ NGỮ HỖ TRỢ GIAO TIẾP NGƯỜI KHUYẾT TẬT 23
3.1 ĐẶC TẢ KỸ THUẬT VÀ THIẾT KẾ HỆ THỐNG 23
3.1.1 Yêu cầu chức năng 23
3.1.2 Yêu cầu phi chức năng 24
3.1.3 Giao diện 24
3.1.4 Ràng buộc 25
3.1.5 Lưa chọn thuật toán 26
3.1.6 Thiết kế kiến trúc hệ thống 27
3.2 MÔ HÌNH HỆ THỐNG 29
3.3 THIẾT KẾ PHẦN CỨNG 30
3.3.1 Chức năng của phần cứng 30
3.3.2 Sơ đồ khối phần cứng 31
3.3.3 Thiết kế từng khối 32
3.4 THIẾT KẾ PHẦN MỀM 39
3.4.1 Chức năng hoạt động của phần mềm 39
3.4.2 Thiết kế ứng dụng người dùng 40
3.4.3 Lưu đồ hoạt động 41
Chương 4 KẾT QUẢ VÀ THẢO LUẬN 50
4.1 KẾT QUẢ MÔ HÌNH THI CÔNG 50
4.2 HOẠT ĐỘNG CỦA HỆ THỐNG 52
4.3.1 Nhận xét 57
4.3.2 Đánh giá 59
Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 60
5.1 KẾT LUẬN 60
5.2 HƯỚNG PHÁT TRIỂN 61
Trang 17xiv
TÀI LIỆU THAM KHẢO 62
Trang 18Đề tài này tập trung vào việc sử dụng thuật toán YOLO (You Only Look Once) để nhận diện thủ ngữ, nhằm hỗ trợ giao tiếp cho những người khiếm thính- khiếm thị YOLO là một trong những thuật toán nhận diện vật thể hiệu quả nhất hiện nay, cho phép nhận diện vật thể trong thời gian thực
Đề tài sử dụng camera để nhận diện các cử chỉ và thủ ngữ của người sử dụng, sau đó chuyển đổi chúng thành văn bản hoặc âm thanh, hình ảnh để truyền đạt thông điệp Điều này giúp người khiếm thính – khiếm thị giao tiếp một cách
dễ dàng và hiệu quả hơn trong các tình huống hàng ngày
Bên cạnh việc là một công nghệ tiên tiến, đề tài cũng mang trong mình một sứ mệnh xã hội, mở ra cơ hội cho những người có khuyết tật tham gia vào xã hội một cách đầy đủ hơn Đồng thời, nó cũng tạo ra cơ hội để tăng cường sự hiểu biết và tương tác giữa các cộng đồng, thúc đẩy sự đa dạng và sự kết nối con người
1.2 MỤC TIÊU ĐỀ TÀI
Đề tài này đặt ra một loạt các mục tiêu quan trọng để phát triển và triển khai hệ thống nhận diện thủ ngữ dựa trên thuật toán YOLO nhằm hỗ trợ giao tiếp cho người khiếm thính- khiếm thị Mục tiêu đầu tiên của đề tài là phát triển một
Trang 19sẽ nâng cao khả năng tương tác và giao tiếp trong các tình huống hàng ngày, từ giao tiếp cơ bản đến việc đặt câu hỏi và yêu cầu sự giúp đỡ
Một phần không kém phần quan trọng là việc tạo ra một môi trường thử nghiệm và thu thập phản hồi từ cộng đồng người khiếm thính - khiếm thị Phản hồi này sẽ giúp cải thiện và tinh chỉnh hệ thống nhận diện để đáp ứng tốt hơn các nhu cầu thực tế của người dùng Đồng thời, đề tài cũng tập trung vào việc bảo đảm tính minh bạch và an toàn dữ liệu, đảm bảo rằng thông tin và dữ liệu của người dùng được bảo vệ và không bị lạm dụng
Cuối cùng, đề tài hướng đến mục tiêu thúc đẩy sự đa dạng và kết nối con người trong xã hội, bằng cách tạo ra cơ hội mới cho người khiếm thính - khiếm thị tham gia vào các hoạt động xã hội và giao tiếp một cách tích cực
1.3 GIỚI HẠN ĐỀ TÀI
1.3.1 Về mặt kỹ thuật
Độ chính xác của hệ thống nhận diện thủ ngữ: Hiệu suất của hệ thống
nhận diện thủ ngữ phụ thuộc vào nhiều yếu tố như chất lượng hình ảnh, tốc độ cử chỉ, độ phức tạp của thủ ngữ, v.v Do đó, độ chính xác của hệ thống có thể không đạt được 100% trong mọi trường hợp
Khả năng nhận diện các thủ ngữ phức tạp: Một số thủ ngữ có thể rất
phức tạp và khó nhận diện bằng thuật toán YOLO Hệ thống có thể gặp khó khăn trong việc nhận diện chính xác các thủ ngữ này
Trang 203
Khả năng nhận diện thủ ngữ trong môi trường nhiễu: Hệ thống có thể
gặp khó khăn trong việc nhận diện thủ ngữ trong môi trường nhiễu như tiếng ồn, ánh sáng yếu, v.v
1.3.2 Về mặt ứng dụng
Yêu cầu người dùng có kiến thức về ngôn ngữ thủ ngữ: Để sử dụng hệ
thống hiệu quả, người dùng cần có kiến thức cơ bản về ngôn ngữ ký hiệu
Chưa thể thay thế hoàn toàn giao tiếp bằng lời nói: Hệ thống nhận diện
thủ ngữ chưa thể thay thế hoàn toàn giao tiếp bằng lời nói Trong một số trường hợp, người dùng vẫn cần sử dụng các phương thức giao tiếp khác như viết hoặc
sử dụng bảng chữ cái
1.4 PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp nghiên cứu của đề tài này bao gồm một loạt các bước quan trọng Đầu tiên, nhóm thực hiện đề tài tiến hành tìm hiểu và tổng quan về các nghiên cứu trước đó liên quan đến nhận diện thủ ngữ và các công nghệ hỗ trợ giao tiếp cho người khiếm thính - khiếm thị Sau đó, nhóm thực hiện đề tài thu thập một bộ dữ liệu đa dạng về các thủ ngữ để sử dụng trong quá trình huấn luyện và kiểm tra mô hình
Tiếp theo, nhóm thực hiện đề tài xây dựng một mô hình nhận diện thủ ngữ dựa trên thuật toán YOLO Quá trình này bao gồm việc xử lý dữ liệu, xây dựng kiến trúc mạng nơ-ron, và điều chỉnh các siêu tham số để tối ưu hóa hiệu suất của
mô hình Sau khi mô hình được xây dựng, nhóm thực hiện đề tài tiến hành huấn luyện và đánh giá trên tập dữ liệu đã thu thập để đảm bảo tính chính xác và đáng tin cậy
Sau khi mô hình đã được xây dựng và đánh giá, nhóm thực hiện đề tài tích hợp nó vào một ứng dụng hoặc giao diện người dùng thân thiện Quá trình này
Trang 211.5 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.5.1 Đối tượng nghiên cứu
Người khiếm thính- khiếm thị : Nhóm đối tượng này khó khăn trong
giao tiếp do không thể nghe hoặc nhìn thấy Thuật toán nhận diện thủ ngữ có thể giúp họ giao tiếp hiệu quả hơn so với người khác
Thủ ngữ: Hệ thống ngôn ngữ phi ngôn ngữ được sử dụng bởi người
khiếm thính - khiếm thị để giao tiếp Thuật toán YOLO có thể được sử dụng để nhận diện các thủ ngữ này một cách chính xác và hiệu quả
Thuật toán YOLO ( You Only Look Once): Là một thuật toán học máy
được sử dụng để phát hiện vật thể trong hình ảnh và video Thuật toán YOLO có thể được sử dụng để nhận diện các thủ ngữ trong thời gian thực
1.5.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu bao gồm việc phát triển và tối ưu hóa thuật toán YOLO để nhận diện thủ ngữ một cách chính xác và hiệu quả, cùng việc xây dựng tập dữ liệu đa dạng và phong phú Sau đó, mô hình YOLO được tích hợp vào các ứng dụng và thiết bị giao tiếp để cung cấp hỗ trợ cho người khiếm thính - khiếm thị Thông qua việc thử nghiệm và đánh giá trải nghiệm người dùng, nghiên cứu này nhằm mục đích cung cấp các giải pháp giao tiếp phù hợp và đáp ứng nhu cầu
Trang 225
cụ thể của từng người dùng cá nhân Cuối cùng, việc áp dụng công nghệ vào thực tiễn nhằm tạo ra các giải pháp giao tiếp thực tế và đáp ứng nhu cầu cụ thể của cộng đồng người khiếm thính - khiếm thị là một bước tiến quan trọng trong việc tạo ra một môi trường giao tiếp đa dạng và công bằng cho tất cả mọi người
1.6 BỐ CỤC QUYỂN BÁO CÁO
Nội dung chính của đề tài được trình bày với 5 chương:
- Chương 1 GIỚI THIỆU : Giới thiệu chung về đề tài, mục tiêu nghiên cứu, giới hạn đề tài, phương pháp nghiên cứu, đối tượng và phạm vi nghiên cứu
- Chương 2 CƠ SỞ LÝ THUYẾT : giới thiệu về ngôn ngữ thủ ngữ và mô hình YOLO
- Chương 3 THIẾT KẾ HỆ THỐNG NHẬN DIỆN THỦ NGỮ SỬ DỤNG THUẬT TOÁN YOLOv8: đưa ra mô hình chung của toàn hệ thống, các khối của hệ thống, thiết kế từng khối và các thiết bị được sử dụng trong các khối
- Chương 4 KÉT QUẢ: trình bày kết quả thi công của mô hình hệ thống
- Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: rút ra các kết luận và hướng phát triển của mô hình
Trang 236
Chương 2 CƠ SỞ LÝ THUYẾT
2.1 GIỚI THIỆU VỀ THỦ NGỮ
2.1.1 Khái niệm thủ ngữ trong giao tiếp
Thủ ngữ đóng vai trò vô cùng quan trọng trong giao tiếp và hòa nhập xã hội của người khiếm thính và những người có nhu cầu giao tiếp đặc biệt Các dấu hiệu ký hiệu không chỉ là phương tiện truyền đạt ngôn ngữ, mà còn là cửa ngõ để
họ tiếp cận với thế giới, tham gia vào các hoạt động hàng ngày và phát triển các mối quan hệ xã hội
Các ký hiệu từ vựng quy ước chứa đựng nội dung mệnh đề nhiều nhất trong bất kỳ ngôn ngữ ký hiệu nào Chúng gần giống nhất với các từ vựng trong ngôn ngữ nói và chủ yếu được phát âm bằng tay Mặc dù hầu hết các dấu hiệu đều có một số loại liên kết mang tính biểu tượng giữa hình thức của một dấu hiệu
và hình thức của vật ám chỉ nó, khi người ký hiệu sử dụng các mục từ vựng, họ thường không có “ý định minh họa” cụ thể (Cuxac & Sallandre 2007) mà chỉ đơn giản sử dụng chúng đưa ra thông tin mà một người muốn nói [1]
Hơn nữa, thủ ngữ giúp bảo tồn và phát triển văn hóa, truyền thống của cộng đồng người khiếm thính – khiếm thị Thông qua các dấu hiệu ký hiệu, họ có thể chia sẻ câu chuyện, kinh nghiệm và di sản văn hóa của mình, qua đó củng cố
và duy trì bản sắc cộng đồng Vì thế ta có thể nói rằng ngôn ngữ và bối cảnh sử dụng văn hóa xã hội của chúng có mối liên hệ chặt chẽ với nhau Ảnh hưởng liên tục được phát huy giữa họ, bên cạnh những ảnh hưởng bên ngoài, chẳng hạn như việc sử dụng ngôn ngữ đòi hỏi phải đóng một vai trò nào đó trong (các) nền văn hóa liên quan của nó theo một cách nào đó Tương tự như vậy, để hiểu một ngôn ngữ, cần phải có sự hiểu biết về bối cảnh và vị trí văn hóa của nó trên thế giới [2]
Trang 247
Vì vậy, có thể nói rằng thủ ngữ là một phần không thể thiếu trong việc đảm bảo quyền bình đẳng, hòa nhập xã hội và phát triển toàn diện của người khiếm thính Đây là một công cụ giao tiếp quan trọng cần được công nhận và hỗ trợ trong xã hội
2.1.2 Đặc tính của thủ ngữ
Một trong những đặc tính nổi bật của ngôn ngữ là khả năng tượng trưng, tức là sử dụng từ ngữ để biểu đạt những ý nghĩa vượt xa bản thân chúng Để hiểu đúng đặc tính này, chúng ta cần nghiên cứu và phân biệt giữa các khái niệm về dấu hiệu và biểu tượng
Dấu hiệu là bất cứ thứ gì được dùng để biểu trưng hoặc nhắc đến một điều
gì đó Mỗi dấu hiệu ngôn ngữ có hai mặt: mặt biểu hiện (hình thức tín hiệu) và mặt được biểu hiện (nội dung tín hiệu)
Mặt hình thức của dấu hiệu là những âm thanh cụ thể được con người thiết lập trong quá trình giao tiếp, tức là những đặc trưng âm thanh của từng ngôn ngữ Mặt nội dung là những thông tin, thông điệp về thế giới xung quanh hoặc những cách phân chia tư duy, thực tại
Mối liên hệ giữa cái biểu hiện và cái được biểu hiện là rất đặc trưng của ngôn ngữ, thể hiện ở chỗ mỗi biểu hiện luôn có một nội dung tương ứng Khi mối liên hệ 1-1 này bị đứt gãy, các quá trình giao tiếp sẽ bị ảnh hưởng hoặc không thể thực hiện được
2.1.3 Vai trò của thủ ngữ đối với người khuyết tật
Gần 1/4 chặng đường của thế kỷ 21, tình trạng BSL đã vẽ nên một bức tranh gây tò mò (được trình bày chi tiết và thảo luận thêm trong các tác phẩm như Lawson và cộng sự, 2019) Đầu tiên, một câu hỏi xung quanh số lượng người dùng BSL được đặt ra, đây là một con số cực kỳ khó xác định Nhìn lại khoảng một thập kỷ, Điều tra dân số Vương quốc Anh năm 2011 (Văn phòng
Trang 258
Thống kê Quốc gia, 2013) ước tính có 15.000 người dùng BSL ở Vương quốc Anh Tuy nhiên, gần đây hơn, Hiệp hội Người Điếc Anh (2019) đã ước tính có 151.000 người dùng BSL ở Anh, trong số trong đó 87.000 người được xác định
là bị điếc Con số sau này phù hợp với ước tính của Hiệp hội Người Điếc Hoàng gia (2020) là 87.000, nhưng con số này đề cập đến tổng số người dùng BSL ở Vương quốc Anh bất kể danh tính người điếc hay thính lực của họ Từ góc độ học thuật cũng vậy, các số liệu dường như không phù hợp Ví dụ, Napier và Leeson (2016) tuyên bố rằng “250.000 người sử dụng BSL hàng ngày ở Anh, 70.000 người trong số họ bị điếc” Sự khác biệt này có thể được quy cho nhiều yếu tố, chẳng hạn như phương pháp khảo sát không đầy đủ, các giá trị văn hóa xã hội được nhận thức khi xác định là người sử dụng BSL và tác động của việc đưa ngôn ngữ ký hiệu vào luật pháp quốc gia và quốc tế có thể gây ra đối với những nhận thức đó [2]
Thủ ngữ, chẳng hạn như Ngôn ngữ Ký hiệu Anh (BSL) hoặc ngôn ngữ ký hiệu Mỹ (ASL), đóng một vai trò cực kỳ quan trọng trong cuộc sống của cộng đồng người khiếm thính và những người giao tiếp bằng ký hiệu Mặc dù việc xác định chính xác số lượng người sử dụng ngôn ngữ ký hiệu có nhiều khác biệt và thách thức, các con số ước tính đều cho thấy có hàng trăm nghìn người sử dụng ngôn ngữ ký hiệu này ở Vương quốc Anh
Sự nhận thức và công nhận thủ ngữ như một phương tiện giao tiếp chính thức và chính đáng đã có những tác động quan trọng, như được phản ánh trong luật pháp quốc gia và quốc tế Tuy nhiên, vẫn còn nhiều khó khăn và thách thức cần phải giải quyết để đảm bảo quyền và cơ hội bình đẳng cho cộng đồng người khiếm thính trong việc tiếp cận và sử dụng ngôn ngữ ký hiệu
Nhìn chung, ngôn ngữ ký hiệu như BSL hoặc ASL đóng vai trò quan trọng trong việc duy trì, bảo tồn và phát triển văn hóa, cộng đồng của những người khiếm thính Việc tiếp tục thúc đẩy sự công nhận và hỗ trợ cho ngôn ngữ
Trang 269
ký hiệu là điều thiết yếu để đảm bảo quyền bình đẳng và hòa nhập xã hội của cộng đồng này
2.1.4 Sử dụng thủ ngữ trong giao tiếp của người khuyết tật
Người khiếm thính – khiếm thị cũng muốn được đóng góp cống hiến cho
xã hội, ngôn ngữ ký hiệu chính là một phương tiện hiệu quả cho họ
Trang 2710
không khuyết tật về cuộc sống của người khuyết tật là những hệ tư tưởng được công chúng chấp nhận là “lẽ thường tình” Những người không khuyết tật có xu hướng tưởng tượng cuộc sống của một người khuyết tật gặp nhiều vấn đề hơn nhiều so với thực tế mà nhiều người khuyết tật cảm thấy Các học giả Nghiên cứu
về Người khuyết tật cho rằng những trở ngại mà người khuyết tật gặp phải bắt nguồn từ cách xã hội đối xử với họ như những người khiếm khuyết, chứ không phải từ sự khác biệt về cơ thể của họ (Longmore 2003) Mô hình "thương hại" bệnh lý của khuyết tật tập trung vào việc áp đặt sự bình thường với cái giá phải trả là chất lượng cuộc sống của người khuyết tật [3]
Vì thế, ngôn ngữ ký hiệu Mỹ (ASL) đã trở thành một ngôn ngữ phổ biến không chỉ trong cộng đồng người khiếm thính mà còn được nhiều người bình thường học tập và sử dụng Điều này thể hiện sự tiến bộ về ý thức và sự chấp nhận của xã hội đối với những người khuyết tật Thay vì chỉ nhìn họ như những người khiếm khuyết, nhiều người đã có cái nhìn sâu sắc hơn và coi họ như những thành viên bình đẳng trong xã hội Mô hình "thương hại" bệnh lý về khuyết tật đang dần được thay thế bằng các quan điểm và chính sách tôn trọng quyền bình đẳng của người khuyết tật Điều này là một bước quan trọng trong việc xây dựng một xã hội hòa nhập, bình đẳng và cởi mở hơn
2.2.1 Giới thiệu mạng YOLO
YOLO (You Only Look Once) là thuật toán phát hiện đối tượng tiên tiến
có thể tạo ra kết quả theo thời gian thực Redmon và cộng sự đã giới thiệu YOLO
và mang đến một chiều hướng mới cho lĩnh vực thị giác máy tính Nhiều phiên bản cải tiến của YOLO đã được phát triển kể từ đó Tên của nó xuất phát từ cách YOLO hoạt động Hầu hết các hệ thống phát hiện đối tượng đều sử dụng mô hình phân loại để nhận dạng đối tượng và sau đó đánh giá thông tin chi tiết đó về các
vị trí khác nhau của hình ảnh Nhiều hệ thống, chẳng hạn như mô hình bộ phận biến dạng (DPM), sử dụng kỹ thuật cửa sổ trượt để định vị đối tượng trong ảnh
Hệ thống DPM trượt bộ phân loại dọc theo toàn bộ hình ảnh tại các vị trí cách
Trang 28đề hồi quy nhằm phát hiện các đối tượng Do đó, YOLO không cần một quy trình
xử lý phức tạp nên tốc độ xử lý cực kỳ nhanh [5]
Anchors là một hoặc nhiều hình chữ nhật được đặt tại mỗi điểm chập của
feature map Trong Hình 2.2, có năm anchors hình chữ nhật (được hiển thị bằng đường viền màu đỏ) được đặt tại một điểm (được hiển thị bằng màu xanh lam) [5]
Hình 2.2 Hình ảnh minh hoạ cho một anchor box
Khi thuật toán YOLO xử lý một hình ảnh, nó sẽ áp dụng các anchor box lên hình ảnh Sau đó, thuật toán sẽ dự đoán xác suất mỗi anchor box chứa một đối tượng và loại đối tượng đó là gì Nếu xác suất dự đoán đủ cao, thuật toán sẽ coi đó là một đối tượng và hiển thị nó trong hình ảnh
Trang 2912
Nhận diện đa tỷ lệ Feature Map : Các lớp chập gắn vào cuối mạng cơ sở
được thiết kế sao cho các lớp này giảm kích thước dần dần Điều này cho phép
nó dự đoán các đối tượng ở nhiều tỷ lệ Ta có thể hình dung chúng như Hình 2.3 bên dưới:
Hình 2.3 Nhận diện đa tỷ lệ Feature map
Như hình dưới, mỗi lớp nhận diện, lớp cuối cùng của lớp cơ sở dự đoán
độ lệch của bốn toạ độ của bounding boxes và object class categories Các bounding boxes và vật thể được dự đoán qua anchor boxes
Mô phỏng việc Feature map chia nhỏ dần qua các output, điều này giúp
mô hình nhận diện được các object có kích thước lớn, các output có feature map chia nhỏ hơn giúp nhận diện các object nhỏ hơn trong khi anchor box vẫn giữ nguyên
Trang 3013
Hình 2.4 Feature map chia nhỏ dần
Feature map được tạo ra từ các lớp tích chập của mạng nơ-ron, trong đó mỗi lớp sẽ tạo ra một feature map khác nhau Các feature map có kích thước khác nhau tùy thuộc vào cấu trúc của mạng nơ-ron và các tham số của quá trình huấn luyện Feature map cuối cùng trong mạng YOLO thường chứa thông tin chi tiết về các đối tượng trong hình ảnh cùng với vị trí và độ tin cậy của chúng Được
sử dụng để dự đoán các bounding box và các lớp của đối tượng trong hình ảnh
Tiêu chí đánh giá dữ liệu và Non-Maximum Suppression (NMS):
NMS là một kỹ thuật quan trọng quan trọng được sử dụng trong YOLO để cải thiện độ chính xác và hiệu quả của việc phát hiện đối tượng
Avarage Precision (AP), hay còn được thường gọi là Mean Average Precision (mAP), là những thông số thường được dùng để đánh giá hiệu xuẩt của
mô hình Nó đo độ chính xác trung bình trên tất cả các cụm, cung cấp số liệu để
có thể so sánh với các models [6]
Cách AP/mAp hoạt động:
AP/mAP hoạt động dựa trên chỉ số precision-recall, xử lý nhiều loại đối tượng và dự đoán dựa trên IoU
Trang 3114
Precision và Recall: Độ chính xác (Precision) đo mức độ chính xác của
các dự đoán dương tính của mô hình, trong khi độ nhớ lại (Recall) đo tỷ lệ các trường hợp dương tính thực tế mà mô hình xác định đúng Thường có sự đánh đổi giữa độ chính xác và độ nhớ lại; ví dụ, việc tăng số đối tượng được phát hiện (độ nhớ lại cao hơn) có thể dẫn đến nhiều dương tính giả (độ chính xác thấp hơn) [6]
Xử lý nhiều dạng vật thể: Mô hình nhận dạng vật thể cần xác định và
định vị nhiều loại đối tượng khác nhau trong một bức ảnh Chỉ số AP (Độ chính xác trung bình) giải quyết vấn đề này bằng cách tính toán riêng biệt độ chính xác trung bình (AP) của từng loại, sau đó lấy giá trị trung bình của các AP này trên tất cả các loại (đó là lý do tại sao nó còn được gọi là độ chính xác trung bình của trung bình) Cách tiếp cận này đảm bảo hiệu suất của mô hình được đánh giá cho từng loại riêng lẻ, cung cấp một đánh giá toàn diện hơn về hiệu suất tổng thể của
mô hình [6]
IoU:Nhận dạng đối tượng có mục đích định vị chính xác các đối tượng
trong ảnh bằng cách đặt các bounding boxes AP kết hợp với IoU để đánh giá mức độ chính xác của bounding boxes, IoU là tỉ lệ giữa phần diện tích bị chồng lắp giữa object và bounding box so với phần giới hạn thực tế [6]
Trang 3215
Hình 2.5 a) Công thức IoU ở hình trên biểu thị tỷ lệ giữa vùng chồng lắp (vùng giao giữa vùng nhận diện và vùng vật thể thực tế) và vùng tổng thể (tổng giữa vùng nhận diện và vùng vật thể thực tế); b) Tỉ lệ vùng chồng lắp và vùng tổng thể càng cao nhiểu hiện IoU càng lớn
Hình ảnh a: Hộp giới hạn dự đoán (xanh lá) chỉ che một phần nhỏ hộp
giới hạn thực tế (đỏ) IoU thấp, gần bằng 0, thể hiện dự đoán sai vị trí và kích thước đối tượng
Hình ảnh b: Hộp giới hạn dự đoán (xanh lá) bao phủ phần lớn hộp giới
hạn thực tế (đỏ) IoU cao, gần bằng 1, thể hiện dự đoán vị trí và kích thước đối tượng tương đối chính xác
IoU là một chỉ số quan trọng để đánh giá độ chính xác của mô hình phát hiện đối tượng Nó cung cấp một cách đơn giản và trực quan để đo lường mức độ trùng lặp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế IoU được sử dụng rộng rãi trong các ứng dụng phát hiện đối tượng, bao gồm đánh giá hiệu suất mô hình, lựa chọn hộp giới hạn tốt nhất và hệ thống theo dõi đối tượng
Trang 3316
2.2.2 Kiến trúc mô hình
Khi mới bắt đầu, YOLOv1 có thể xử lí hình ảnh ở tốc độ 4 khung hình/giây, trong khi một biến thể YOLO nhanh, có thể đạt tốc độ lên tới 155 khung hình/giây Nó cũng đạt được mAP cao so với các thuật toán phát hiện đối tượng vào thời điểm đó [7]
Đề xuất chính của YOLO là coi việc phát hiện đối tượng là một vấn đề hồi quy một lần YOLOv1 bao gồm một neural network duy nhất, dự đoán các bounding boxes và xác suất lớp liên quan trong một đánh giá duy nhất Mô hình
cơ bản của YOLO hoạt động bằng cách trước tiên chia hình ảnh đầu vào thành lưới SxS trong đó mỗi ô (i,j) bounding boxes B, điểm tin cậy cho mỗi box và xác suất của lớp C Đầu ra cuối cùng sẽ là một tensor có hình dạng SxSx(Bx5+C) [7]
b) YOLOv5
YOLOv5 là mô hình phát hiện đối tượng được Ultralytic phát triển , người sáng tạo ra YOLOv1 và YOLOv3 ban đầu , giới thiệu vào năm 2020 YOLOv5 đặt được hiệu suất SOTA trên tập dữ liệu chuẩn COCO Đồng thời huấn luyện và triển khai nhanh chóng và hiệu quả YOLOv5 đũa thực hiện một số thay đổi về mặt kiến trúc, đáng chú ý nhất là phương pháp tiêu chuẩn hóa mô hình 3 thành phần, Backbone, neck, head [7]
Backbone của YOLOv5 là Darknet53, một kiến trúc mạng tập trung vào việc trích xuất các tính năng được đặc trưng bởi các cửa sổ lọc nhỏ( small filter windows) và các kết nối còn lại( residual connections) Kết nối một phần qua từng giai đoạn cho phép kiến trúc đạt được luồng Gradient phong phú hơn đồng thời giảm tính toán như mô tả do Wang và cộng sự đề xuất [7]
Phần neck của YOLOV5 kết nối backbone với head, mục đích là tổng hợp
và tinh chỉnh các đặc điểm được trích xuất bởi backbone, tập trung vào việc nâng cao thông tin không gian và ngữ nghĩa trên các quy mô khác nhau Module nhóm
Trang 3417
kim tự tháp không gian loại bỏ rằng buộc kích thước cố định của mạng, giúp loại
bỏ nhu cầu làm cong, tăng cường hoặc cắt xén hình ảnh Tiếp đến là module mạng tổng hợp đường dẫn CSP, kết hợp các tính năng đã học trong Backbone và rút ngắn đường thông tin giữa các lớp thấp hơn và cao hơn [7]
Phần head của YOLOv5 bao gồm 3 nhánh, mỗi nhánh dự đoán một thang
đo tính năng khác nhau Trong ấn phẩm ban đầu của mô hình, người sáng tạo đã
sử dụng kích thước ô lưới 13x13, 26x26 và 52x52, mỗi ô cell dự đoán B=3 hộp giới hạn Mỗi điểm đầu tạo ra các hộp giới hạn, xác suất của lớp và điểm tin cậy Cuối cùng sử dung Non-maximum Suppression (NMS)( mạng sử dụng Ngăn chặn không tối đa) để học các hộp chồng chéo [7]
YOLOv5 kết hợp các hộp anchor box, các hộp đóng khung có kích thước
cố định để dự đoán vị trí và kích thước của vật thể trong hình ảnh Thay vì dự đoán giới hạn tùy ý các hộp cho từng phiên bản đối tượng, mô hình dự đoán tọa
độ của các hộp anchor box với tỷ lệ khung hình được xác định trước và chia tỉ lệ
và điều chỉnh chúng để phù hợp với thể hiện của đối tượng [7]
b) YOLOv8
YOLOv8 là phiên bản mới nhất của mô hình phát hiện đối tượng YOLO Phiên bản mới này có kiến trúc tương tự như phiên bản trước đó, nhưng nó có thêm nhiều cải tiến so với các phiên bản trước của YOLO chẳng hạn như phiên bản mới kiến trúc mạng neural Network, sử dụng cả mạng Feature Pyramid Network (FPN) và Path Aggregation Network (PAN) và công cụ ghi nhãn mới giúp đơn giản hóa quá trình chú thích Công cụ ghi nhãn này chứa một số tính năng hữu ích như tự động ghi nhãn , các phím tắt ghi nhãn và các phím nóng có thể tùy chỉnh Sự kết hợp các tính năng này giúp việc chú thích hình ảnh phục vụ cho việc huấn luyện mô hình trở nên dễ dàng hơn FPN hoạt động bằng cách giảm dần độ phân giải không gian của hình ảnh đầu vào và đồng thời tăng số lượng các kênh chức năng Điều này dẫn đến việc tạo ra các bản đồ đặc trưng có
Trang 3518
khả năng phát hiện các vật thể ở khoảng cách khác nhau, quy mô và độ phân giải Mặt khác kiến trúc PAN, tổng hợp các tính năng từ các cấp độ khác nhau của mạng thông qua việc bỏ qua kết nối Bằng cách làm như vậy, mạng có thể nắm bắt các đặc điểm tốt hơn ở nhiều tỉ lệ và độ phân giải, điều này rất quan trọng để phát hiện chính xác các đối tượng kích cỡ và hình dạng khác nhau [7]
Hình 2.6 Kiến trúc mạng YOLOv8
Trang 3619
Cấu trúc mạng nơ-ron YOLOv8 (Hình 2.6), một mô hình phát hiện đối tượng hiệu quả được phát triển bởi Ultralytics YOLOv8 là phiên bản nâng cấp của YOLOv5, với nhiều cải tiến về hiệu suất và tốc độ
Cấu trúc tổng thể của YOLOv8 bao gồm hai phần chính: Backbone và Head
Backbone: Phần này dùng để trích xuất các đặc trưng từ hình ảnh đầu
vào Trong YOLOv8, Backbone sử dụng kiến trúc CSPNet (Cross Stage Partial connections) với các cải tiến như Cấu trúc Bottleneck để giảm số lượng tham số
và tăng hiệu quả tính toán, cùng với SPPF (Spatial Pyramid Pooling Feature) để tăng cường khả năng trích xuất đặc trưng đa kích thước
Head: Phần này có trách nhiệm dự đoán vị trí và lớp đối tượng trong hình
ảnh Head bao gồm YOLOv8Head để dự đoán hộp giới hạn và lớp đối tượng, cùng với quá trình Detect để xử lý kết quả dự đoán và tạo ra hộp giới hạn cuối cùng cho các đối tượng được phát hiện
c) So sánh giữa hai mô hình tương đồng YOLOv5 và YOLOv8
Lí do mà YOLOv8 bị so sánh với YOLOv5 và không phải bất kì phiên bản YOLO nào khác mà là YOLOv5, hiệu suất và số liệu gần với YOLOv8 hơn Tuy nhiên YOLOv8 vượt trội hơn YOLOv5 hơn khi chúng ta nói về mAP (hình 2.7), điều này cho thấy YOLOv8 có outlier hơn khi được đo dựa trên RF100 là 100 mẫu tập dữ liệu từ Robotflow là một kho lưu trữ dữ liệu của
100000 bộ dữ liệu ta cũng thấy được rằng YOLOv8 vượt trội hơn YOLOv5 cho từng loại RF100 Từ hình chúng ta có thể thấy rằng YOLOv8 tạo ra kết quả tương tự hoặc tốt hơn YOLOv5 (hình 2.7) [7]
Trang 3821
Tập dữ liệu này bao gồm 100 hình ảnh về các đối tượng khác nhau, và các
mô hình được đánh giá dựa trên khả năng xác định và định vị chính xác các đối tượng này Biểu đồ hiển thị độ chính xác trung bình (mAP) của mỗi mô hình, đây
là thước đo hiệu suất tổng thể của mô hình mAP càng cao, mô hình càng hoạt động tốt
Như bạn có thể thấy, mô hình YOLOv8 vượt trội so với các mô hình khác trên tập dữ liệu Roboflow 100 Điều này có nghĩa là YOLOv8 có thể xác định và định vị chính xác các đối tượng trong hình ảnh với độ chính xác cao hơn so với các mô hình khác
Một điểm khác biệt nữa của hai mô hình là quá trình huấn luyện dữ liệu YOLOv8 đã được huấn luyện trên phạm vi rộng hơn và đa dạng hơn tập dữ liệu
so với YOLOv5 YOLOv8 đã được huấn luyện trên một sự kết hợp giữa tập dữ liệu COCO và một số tập dữ liệu khác, trong khi YOLOv5 được huấn luyện chủ yếu trên bộ dữ liệu COCO Vì lí do đó, YOLOv8 có hiệu suất tốt hơn trên phạm
vi rộng hơn trên các loạt hình ảnh
YOLOv8 bao gồm công cụ ghi nhãn mới có tên Roboflow Annotate được
sử dụng để chú thích hình ảnh với đói tượng nhiệm vụ phát hiện hình ảnh để huấn luyện mô hình dễ dàng hơn và bao gồm một số tính năng như ghi nhãn tự động, ghi nhãn phím tắt và phím nóng có thể tùy chỉnh, Ngược lại YOLOv5 sử dụng một công cụ ghi nhãn khác có tên là LabelImg LabelImg là một công cụ chú thích hình ảnh đồ họa mã nguồn mở cho phép người dùng của nó vẽ các hộp giới hạn xung quanh đối tượng quan tâm trong một hình ảnh, sau đó xuất các chú thích trong YOLO dạng để huấn luyện mô hình
YOLOv8 bao gồm các kỹ thuật xử lí hậu kì tiên tiến hơn YOLOv5, đây là một tập hợp các thuật toán được áp dung cho các hộp giới hạn được dự đoán và tính khách quan điểm số được tạo ra bởi mạng lưới thần kinh.Những Kỹ thuật
Trang 3922
này giúp tinh chỉnh các kết quả phát hiện, loại bỏ các phát hiện dư thừa và cải thiện độ chính xác tổng thể của các dự đoán YOLOv8 sử dụng Soft-NMS, một biến thể của kỹ thuật NMS được sử dụng trong YOLOv5 Soft-NMS áp dụng phần mềm ngưỡng cho các hộp giới hạn chồng chéo thay vì loại bỏ chúng hoàn toàn Trong khi đó NMS loại bỏ các hộp giới hạn chồng chéo và chỉ giữ lại những hộp có điểm khách quan cao nhất
Trong kiến trúc YOLO thường có một số đầu ra, đứng đầu chịu trách nhiệm dự đoán các khía cạnh khác nhau của đối tượng được phát hiện, chẳng hạn như tọa độ hộp giới hạn, xác suất của lớp và điểm số khách quan Những đầu ra này thường được kết nối với một vài lớp cuối cùng của mạng Neural và được huấn luyện để đưa ra một tập hợp các giá trí có thể dự dụng để phân loại các đối tượng trong một hình ảnh Các số lượng và loại đầu ra được sử dụng khác nhau tùy theo về thuật toán phát hiện đối tượng cụ thể và các yêu cầu của nhiệm vụ hiện tại YOLOv5 có 3 đầu ra trong khi YOLOv8 có 1 đầu ra YOLOv8 không
có các anchors cell, vừa và lớn thay vì sử dụng cơ chế phát hiện không có neo dự đoán trực tiếp tâm của một đối tượng thay vì phần bù từ hộp anchor đã biết, điều này làm giảm số lượng hộp dự đoán và giúp tăng tốc quá trình xử lí hậu kì
Công bằng mà nói thì YOLOv8 chậm hơn một chút so với YOLOv5 liên quan tới tốc độ phát hiện đối tượng Tuy nhiên YOLOv8 vẫn có thể xử lí hình ảnh theo thời gian thực trên các GPU hiện đại
Cả YOLOv5 và YOLOv8 đều sử dụng khả năng tăng cường khảm trên tập huấn luyện Tăng cường khảm là một kỹ thuật tăng cường dữ liệu lấy bốn hình ảnh ngẫu nhiên từ tập huấn luyện và kết hợp chúng thành một hình ảnh khảm duy nhất Hình ảnh này, trong đó mỗi góc phần tư chứa một phần cắt ngẫu nhiên từ một trong bốn hình ảnh đầu vào, sau đó được sử dụng làm đầu vào cho mô hình
Trang 4023
HỖ TRỢ GIAO TIẾP NGƯỜI KHUYẾT TẬT 3.1 ĐẶC TẢ KỸ THUẬT VÀ THIẾT KẾ HỆ THỐNG
3.1.1 Yêu cầu chức năng
Nhận diện thủ ngữ trong thời gian thực với độ chính xác cao là một bước tiến vượt bậc trong việc cải thiện giao tiếp cho người khiếm thính- khiếm thị Việc chuyển đổi các thủ ngữ sang văn bản không chỉ giúp người sử dụng thủ ngữ giao tiếp dễ dàng hơn với những người không biết ngôn ngữ này, mà còn mở ra nhiều cơ hội hơn trong học tập, công việc và cuộc sống hàng ngày Tiếp đó, chuyển đổi văn bản sang giọng nói tạo ra một cầu nối giữa người khiếm thính và những người khuyết tật, làm cho cuộc trò chuyện trở nên tự nhiên và dễ dàng hơn
Phân tích biểu cảm khuôn mặt của người đối diện giúp cải thiện chất lượng giao tiếp, bởi biểu cảm khuôn mặt đóng vai trò quan trọng trong việc truyền tải cảm xúc và ý nghĩa Công nghệ này không chỉ nhận diện nội dung của cuộc trò chuyện mà còn hiểu được cảm xúc và thái độ của người giao tiếp, từ đó tạo ra một trải nghiệm giao tiếp phong phú và chân thực hơn
Hiển thị thông tin (văn bản) cho người dùng là bước cuối cùng trong quy trình này, giúp người khiếm thính dễ dàng theo dõi và hiểu được thông tin đang được truyền đạt Với sự phát triển của các công nghệ này, chúng ta đang tiến gần hơn đến một xã hội bình đẳng và bao trùm, nơi mọi người, bất kể khả năng nghe nhìn, đều có cơ hội giao tiếp và hòa nhập một cách dễ dàng và tự nhiên
Sự kết hợp của các công nghệ tiên tiến này không chỉ mang lại lợi ích to lớn cho người khiếm thính – khiếm thị mà còn thúc đẩy sự hiểu biết và kết nối giữa mọi người trong xã hội Điều này không chỉ cải thiện chất lượng cuộc sống