1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Sử dụng thuật toán yolo nhận diện thủ ngữ hỗ trợ giao tiếp cho người khiếm thính khiếm thị Đồ Án tốt nghiệp ngành công nghệ kỹ thuật máy tính

80 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử Dụng Thuật Toán Yolo Nhận Diện Thủ Ngữ Hỗ Trợ Giao Tiếp Cho Người Khiếm Thính - Khiếm Thị
Tác giả Nguyễn Xuân Hải, Phạm Hữu Nghĩa
Người hướng dẫn PGS. TS. Trương Ngọc Sơn
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Kỹ Thuật Máy Tính
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 80
Dung lượng 3,66 MB

Nội dung

1.2 MỤC TIÊU ĐỀ TÀI Đề tài này đặt ra một loạt các mục tiêu quan trọng để phát triển và triển khai hệ thống nhận diện thủ ngữ dựa trên thuật toán YOLO nhằm hỗ trợ giao tiếp cho người kh

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

GVHD: PGS TS TRƯƠNG NGỌC SƠN SVTH: NGUYỄN XUÂN HẢI

PHẠM HỮU NGHĨA

TP Hồ Chí Minh, tháng 6/2024

SỬ DỤNG THUẬT TOÁN YOLO NHẬN DIỆN THỦ NGỮ

HỖ TRỢ GIAO TIẾP CHO NGƯỜI KHIẾM THÍNH- KHIẾM THỊ

Trang 2

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH

KHOA ĐIỆN – ĐIỆN TỬ

ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

HỆ ĐÀO TẠO CHẤT LƯỢNG CAO

SỬ DỤNG THUẬT TOÁN YOLO NHẬN DIỆN THỦ NGỮ HỖ TRỢ GIAO TIẾP CHO NGƯỜI

KHIẾM THÍNH - KHIẾM THỊ

MSSV: 20119221 PHẠM HỮU NGHĨA MSSV: 20119256

TP HỒ CHÍ MINH – 06/2024

Trang 3

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH

KHOA ĐIỆN – ĐIỆN TỬ

ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

HỆ ĐÀO TẠO CHẤT LƯỢNG CAO

SỬ DỤNG THUẬT TOÁN YOLO NHẬN DIỆN THỦ NGỮ HỖ TRỢ GIAO TIẾP CHO NGƯỜI

KHIẾM THÍNH - KHIẾM THỊ

MSSV: 20119221 PHẠM HỮU NGHĨA MSSV: 20119256 GVHD: PGS.TS TRƯƠNG NGỌC SƠN

TP HỒ CHÍ MINH – 06/2024

Trang 4

i

Trang 5

ii

TRƯỜNG ĐẠI HỌC SƯ PHẠM

KỸ THUẬT TP.HCM

KHOA ĐIỆN – ĐIỆN TỬ

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

2 Họ tên sinh viên 1: Phạm Hữu Nghĩa MSSV: 20119256

Họ tên sinh viên 2: Nguyễn Xuân Hải MSSV: 20119221

3 Ngành: Công nghệ Kỹ thuật Máy tính

4 GVHD: PGS TS Trương Ngọc Sơn

5 Tổng hợp các yêu cầu chỉnh sửa báo cáo ĐATN của hội đồng:

- Sửa lỗi trình bày, lỗi chính tả

- Chỉnh lại sơ đồ 3.2

- Sửa lưu đồ 3.6 cần có điểm kết thúc

- Phần 5.1 nên nêu mục tiêu nào ở phần 1.2 đã thực hiện

- Danh sách tham khảo theo chuẩn IEEE

- Kết quả sơ sài, cần đánh giá thêm để đánh giá hiệu năng của hệ thống

6 Giải trình chỉnh sửa báo cáo ĐATN

TT Nội dung góp ý của HĐ Kết quả chỉnh sửa bổ sung

1 Sửa lỗi trình bày, lỗi chính tả đã chỉnh sửa lỗi chính tả trang 38

2 Chỉnh lại sơ đồ 3.2 Đã chỉnh sửa sơ đồ trang 31

3 Sửa lưu đồ 3.6 cần có điểm kết thúc Đã chỉnh sửa sơ đồ ở trang 42

4 Phần 5.1 nên nêu mục tiêu nào ở

phần 1.2 đã thực hiện

Đã bổ sung các mục tiêu đã thực hiện ở phần 5.1 trang 61

5 Danh sách tham khảo theo chuẩn

IEEE

Đã sửa cách trình bày tài liệu tham khảo ở trang 63

6 Kết quả sơ sài, cần đánh giá thêm để

đánh giá hiệu năng của hệ thống

Đã thêm phần đánh giá kết quả hệ thống tại trang 57 và 58

Trang 7

Nhóm cũng xin chân thành cảm ơn các thầy cô giáo trong Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM nói chung, đặc biệt là các thầy cô trong Bộ môn Kỹ Thuật Máy Tính, đã trang bị cho nhóm em những kiến thức cơ bản cũng như chuyên sâu, giúp nhóm em có được nền tảng lý thuyết vững chắc và tạo mọi điều kiện thuận lợi để nhóm em thực hiện đề tài

Ngoài ra, nhóm xin cảm ơn các bạn sinh viên trong lớp 20119CL2 đã giúp

đỡ, cung cấp tài liệu liên quan và động viên nhóm trong suốt quá trình thực hiện

đề tài

TP Hồ Chí Minh, Tháng 6 năm 2024 Nhóm sinh viên thực hiện

Phạm Hữu Nghĩa - Nguyễn Xuân Hải

Trang 8

v

LỜI CAM ĐOAN

Nhóm sinh viên Nguyễn Xuân Hải và Phạm Hữu Nghĩa thực hiện đề tài Sử Dụng Thuật Toán Yolo Nhận Diện Thủ Ngữ Hỗ Trợ Giao Tiếp Cho Người Khiếm Thính - Khiếm Thịdưới dự hướng dẫn của thầy Trương Ngọc Sơn xin cam đoan các nội dung như sau:

1 Sản phẩm của Đồ án tốt nghiệp là do nhóm sinh viên Nguyễn Xuân Hải và Phạm Hữu Nghĩathực hiện, không mượn, thuê, mua từ người khác

2 Quyển báo cáo Đồ án tốt nghiệp là do nhóm sinh viên Nguyễn Xuân Hải

và Phạm Hữu Nghĩa tự viết, tỷ lệ trùng lắp là 37%, các nội dung tham khảo đã được trích dẫn đầy đủ

3 Kết quả thực hiện trong quyển báo cáo bao gồm hình ảnh, độ chính xác của mô hình là hoàn toàn đúng với mô hình, phần cứng nhóm đã thực hiện

Nhóm sinh viên cam đoan các nội dung trên là hoàn toàn chính xác và chịu trách nhiệm hoàn toàn với những cam đoan trên

Sinh viên thực hiện đồ án tốt nghiệp

(ký và ghi rõ họ tên)

Trang 9

vi

TÓM TẮT

Đề tài nghiên cứu sử dụng thuật toán YOLO (You Only Look Once) để phát hiện và nhận dạng thủ ngữ trong bối cảnh hỗ trợ giao tiếp cho người khiếm thính -khiếm thị Việc sử dụng thủ ngữ là phương thức giao tiếp quan trọng đối với những người này, tuy nhiên việc nhận biết các ký hiệu này đòi hỏi sự tập luyện và kinh nghiệm

Đề tài sẽ xây dựng một hệ thống dựa trên thuật toán YOLO để tự động phát hiện và nhận dạng các thủ ngữ một cách chính xác và kịp thời Hệ thống sẽ được huấn luyện trên một tập dữ liệu ảnh chứa các thủ ngữ phổ biến, từ đó có thể

áp dụng vào các tình huống thực tế

Kết quả của đề tài sẽ giúp cải thiện khả năng giao tiếp và hòa nhập xã hội của người khiếm thính – khiếm thị, đồng thời mang lại sự tiện lợi và độc lập cho nhóm đối tượng này trong cuộc sống hàng ngày Đây là một ứng dụng có ý nghĩa

xã hội quan trọng của công nghệ trí tuệ nhân tạo

Trang 10

vii

ABSTRACT

Using the YOLO (You Only Look Once) algorithm to detect and recognize hand gestures in the context of communication assistance for the deaf, blind and dumb

The use of hand gestures is an important communication method for these people, but recognizing these gestures requires practice and experience

The topic will build a system based on the YOLO algorithm to automatically detect and accurately and timely recognize hand gestures The system will be trained on a dataset of images containing common hand gestures, which can then be applied to real-world situations

The results of the research will help improve the communication and social integration of the deaf, blind and dumb, while also providing convenience and independence for this target group in daily life This is an important social application of artificial intelligence technology

Trang 11

viii

DANH MỤC HÌNH

Hình 2.1 Một số thủ ngữ 9

Hình 2.2 Hình ảnh minh hoạ cho một anchor box 11

Hình 2.3 Nhận diện đa tỷ lệ Feature map 12

Hình 2.4 Feature map chia nhỏ dần 13

Hình 2.5 Công thức IoU 15

Hình 2.6 Kiến trúc mạng YOLOv8 18

Hình 2.7 Biểu đồ dạng Box Plot trên thể hiện sự so sánh giá trị mAP của YOLOv8 cao hơn so với các phiên bản tiền nhiệm là YOLOv5 và YOLOv8 20

Hình 2.8 Từ hình trên, ta thấy YOLOv8(đường trên cùng) cũng vượt trội hơn về mặt nhận diện nhiều loại dữ liệu hơn so với YOLOv7 (đường ở giữa) và YOLOv5 (đường dưới cùng) 20

Hình 3.1 Mô hình hệ thống nhận diện ngôn ngữ cơ thể và từ giọng nói sang hình ảnh theo hai chiều giao tiếp 29

Hình 3.2 Sơ đồ khối hệ thống sử dụng thuật toán YOLO nhận diện thủ ngữ hỗ trợ giao tiếp cho người khuyết tật 31

Hình 3.3 Hình ảnh máy tính nhúng Jetson Nano thực hiện xử lý chính 33

Hình 3.4 Hình ảnh khối hiển thị và âm thanh được tích hợp trên màn hình với màn hình có kích thước 7 inch đủ để thực hiện việc quan sát và tiết kiệm diện tích 35

Hình 3.5 Camera thực hiện việc lấy ảnh đầu vào cho hệ thống 37

Trang 12

ix

Hình 3.6 Khối khởi tạo thực hiện việc hệ thống chọn vi xử lý 42Hình 3.7 Nhánh lưu đồ thực hiện chuyển đổi từ người bình thường sang người khuyết tật 45Hình 3.8 Luồng lưu đồ thực hiện chuyển đổi từ người khuyết tật sang người bình thường 48Hình 4.1 Hình ảnh tổng quan của hệ thống 50Hình 4.2 Giao diện tổng quan của hệ thống biểu hiện sự đơn giản hoá và chỉ hiển thị những phần quan trọng 51Hình 4.3 Thực hiện kết quả của hệ thống nhận diện thủ ngữ sử dụng YOLOv8 53Hình 4.4 Kết quả sau khi huấn luyện model 55

Trang 13

CSP Cross Stage Partial connections

CUDA Compute Unified Device Architecture FPN Feature Pyramid Network

GPIO General-Purpose Input/Output

GPU Graphics Processing Unit

GUI Graphical User Interface

HDMI High-Definition Multimedia Interface

IoU Intersection Over Union

LPDDR4 Low Power Double Data Rate 4

MIPI Mobile Industry Processor Interface

Trang 15

xii

MỤC LỤC

LỜI CẢM ƠN ii

LỜI CAM ĐOAN v

TÓM TẮT vi

ABSTRACT vii

DANH MỤC HÌNH viii

CÁC TỪ VIẾT TẮT x

MỤC LỤC xii

Chương 1 GIỚI THIỆU 1

1.1 MỞ ĐẦU 1

1.2 MỤC TIÊU ĐỀ TÀI 1

1.3 GIỚI HẠN ĐỀ TÀI 2

1.3.1 Về mặt kỹ thuật 2

1.3.2 Về mặt ứng dụng 3

1.4 PHƯƠNG PHÁP NGHIÊN CỨU 3

1.5 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 4

1.5.1 Đối tượng nghiên cứu 4

1.5.2 Phạm vi nghiên cứu 4

1.6 BỐ CỤC QUYỂN BÁO CÁO 5

Chương 2 CƠ SỞ LÝ THUYẾT 6

2.1 GIỚI THIỆU VỀ THỦ NGỮ 6

2.1.1 Khái niệm thủ ngữ trong giao tiếp 6

2.1.2 Đặc tính của thủ ngữ 7

2.1.3 Vai trò của thủ ngữ đối với người khuyết tật 7

2.1.4 Sử dụng thủ ngữ trong giao tiếp của người khuyết tật 9

2.2.1 Giới thiệu mạng YOLO 10

Trang 16

xiii

2.2.2 Kiến trúc mô hình 16

Chương 3 THIẾT KẾ HỆ THỐNG NHẬN DIỆN THỦ NGỮ HỖ TRỢ GIAO TIẾP NGƯỜI KHUYẾT TẬT 23

3.1 ĐẶC TẢ KỸ THUẬT VÀ THIẾT KẾ HỆ THỐNG 23

3.1.1 Yêu cầu chức năng 23

3.1.2 Yêu cầu phi chức năng 24

3.1.3 Giao diện 24

3.1.4 Ràng buộc 25

3.1.5 Lưa chọn thuật toán 26

3.1.6 Thiết kế kiến trúc hệ thống 27

3.2 MÔ HÌNH HỆ THỐNG 29

3.3 THIẾT KẾ PHẦN CỨNG 30

3.3.1 Chức năng của phần cứng 30

3.3.2 Sơ đồ khối phần cứng 31

3.3.3 Thiết kế từng khối 32

3.4 THIẾT KẾ PHẦN MỀM 39

3.4.1 Chức năng hoạt động của phần mềm 39

3.4.2 Thiết kế ứng dụng người dùng 40

3.4.3 Lưu đồ hoạt động 41

Chương 4 KẾT QUẢ VÀ THẢO LUẬN 50

4.1 KẾT QUẢ MÔ HÌNH THI CÔNG 50

4.2 HOẠT ĐỘNG CỦA HỆ THỐNG 52

4.3.1 Nhận xét 57

4.3.2 Đánh giá 59

Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 60

5.1 KẾT LUẬN 60

5.2 HƯỚNG PHÁT TRIỂN 61

Trang 17

xiv

TÀI LIỆU THAM KHẢO 62

Trang 18

Đề tài này tập trung vào việc sử dụng thuật toán YOLO (You Only Look Once) để nhận diện thủ ngữ, nhằm hỗ trợ giao tiếp cho những người khiếm thính- khiếm thị YOLO là một trong những thuật toán nhận diện vật thể hiệu quả nhất hiện nay, cho phép nhận diện vật thể trong thời gian thực

Đề tài sử dụng camera để nhận diện các cử chỉ và thủ ngữ của người sử dụng, sau đó chuyển đổi chúng thành văn bản hoặc âm thanh, hình ảnh để truyền đạt thông điệp Điều này giúp người khiếm thính – khiếm thị giao tiếp một cách

dễ dàng và hiệu quả hơn trong các tình huống hàng ngày

Bên cạnh việc là một công nghệ tiên tiến, đề tài cũng mang trong mình một sứ mệnh xã hội, mở ra cơ hội cho những người có khuyết tật tham gia vào xã hội một cách đầy đủ hơn Đồng thời, nó cũng tạo ra cơ hội để tăng cường sự hiểu biết và tương tác giữa các cộng đồng, thúc đẩy sự đa dạng và sự kết nối con người

1.2 MỤC TIÊU ĐỀ TÀI

Đề tài này đặt ra một loạt các mục tiêu quan trọng để phát triển và triển khai hệ thống nhận diện thủ ngữ dựa trên thuật toán YOLO nhằm hỗ trợ giao tiếp cho người khiếm thính- khiếm thị Mục tiêu đầu tiên của đề tài là phát triển một

Trang 19

sẽ nâng cao khả năng tương tác và giao tiếp trong các tình huống hàng ngày, từ giao tiếp cơ bản đến việc đặt câu hỏi và yêu cầu sự giúp đỡ

Một phần không kém phần quan trọng là việc tạo ra một môi trường thử nghiệm và thu thập phản hồi từ cộng đồng người khiếm thính - khiếm thị Phản hồi này sẽ giúp cải thiện và tinh chỉnh hệ thống nhận diện để đáp ứng tốt hơn các nhu cầu thực tế của người dùng Đồng thời, đề tài cũng tập trung vào việc bảo đảm tính minh bạch và an toàn dữ liệu, đảm bảo rằng thông tin và dữ liệu của người dùng được bảo vệ và không bị lạm dụng

Cuối cùng, đề tài hướng đến mục tiêu thúc đẩy sự đa dạng và kết nối con người trong xã hội, bằng cách tạo ra cơ hội mới cho người khiếm thính - khiếm thị tham gia vào các hoạt động xã hội và giao tiếp một cách tích cực

1.3 GIỚI HẠN ĐỀ TÀI

1.3.1 Về mặt kỹ thuật

Độ chính xác của hệ thống nhận diện thủ ngữ: Hiệu suất của hệ thống

nhận diện thủ ngữ phụ thuộc vào nhiều yếu tố như chất lượng hình ảnh, tốc độ cử chỉ, độ phức tạp của thủ ngữ, v.v Do đó, độ chính xác của hệ thống có thể không đạt được 100% trong mọi trường hợp

Khả năng nhận diện các thủ ngữ phức tạp: Một số thủ ngữ có thể rất

phức tạp và khó nhận diện bằng thuật toán YOLO Hệ thống có thể gặp khó khăn trong việc nhận diện chính xác các thủ ngữ này

Trang 20

3

Khả năng nhận diện thủ ngữ trong môi trường nhiễu: Hệ thống có thể

gặp khó khăn trong việc nhận diện thủ ngữ trong môi trường nhiễu như tiếng ồn, ánh sáng yếu, v.v

1.3.2 Về mặt ứng dụng

Yêu cầu người dùng có kiến thức về ngôn ngữ thủ ngữ: Để sử dụng hệ

thống hiệu quả, người dùng cần có kiến thức cơ bản về ngôn ngữ ký hiệu

Chưa thể thay thế hoàn toàn giao tiếp bằng lời nói: Hệ thống nhận diện

thủ ngữ chưa thể thay thế hoàn toàn giao tiếp bằng lời nói Trong một số trường hợp, người dùng vẫn cần sử dụng các phương thức giao tiếp khác như viết hoặc

sử dụng bảng chữ cái

1.4 PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp nghiên cứu của đề tài này bao gồm một loạt các bước quan trọng Đầu tiên, nhóm thực hiện đề tài tiến hành tìm hiểu và tổng quan về các nghiên cứu trước đó liên quan đến nhận diện thủ ngữ và các công nghệ hỗ trợ giao tiếp cho người khiếm thính - khiếm thị Sau đó, nhóm thực hiện đề tài thu thập một bộ dữ liệu đa dạng về các thủ ngữ để sử dụng trong quá trình huấn luyện và kiểm tra mô hình

Tiếp theo, nhóm thực hiện đề tài xây dựng một mô hình nhận diện thủ ngữ dựa trên thuật toán YOLO Quá trình này bao gồm việc xử lý dữ liệu, xây dựng kiến trúc mạng nơ-ron, và điều chỉnh các siêu tham số để tối ưu hóa hiệu suất của

mô hình Sau khi mô hình được xây dựng, nhóm thực hiện đề tài tiến hành huấn luyện và đánh giá trên tập dữ liệu đã thu thập để đảm bảo tính chính xác và đáng tin cậy

Sau khi mô hình đã được xây dựng và đánh giá, nhóm thực hiện đề tài tích hợp nó vào một ứng dụng hoặc giao diện người dùng thân thiện Quá trình này

Trang 21

1.5 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

1.5.1 Đối tượng nghiên cứu

Người khiếm thính- khiếm thị : Nhóm đối tượng này khó khăn trong

giao tiếp do không thể nghe hoặc nhìn thấy Thuật toán nhận diện thủ ngữ có thể giúp họ giao tiếp hiệu quả hơn so với người khác

Thủ ngữ: Hệ thống ngôn ngữ phi ngôn ngữ được sử dụng bởi người

khiếm thính - khiếm thị để giao tiếp Thuật toán YOLO có thể được sử dụng để nhận diện các thủ ngữ này một cách chính xác và hiệu quả

Thuật toán YOLO ( You Only Look Once): Là một thuật toán học máy

được sử dụng để phát hiện vật thể trong hình ảnh và video Thuật toán YOLO có thể được sử dụng để nhận diện các thủ ngữ trong thời gian thực

1.5.2 Phạm vi nghiên cứu

Phạm vi nghiên cứu bao gồm việc phát triển và tối ưu hóa thuật toán YOLO để nhận diện thủ ngữ một cách chính xác và hiệu quả, cùng việc xây dựng tập dữ liệu đa dạng và phong phú Sau đó, mô hình YOLO được tích hợp vào các ứng dụng và thiết bị giao tiếp để cung cấp hỗ trợ cho người khiếm thính - khiếm thị Thông qua việc thử nghiệm và đánh giá trải nghiệm người dùng, nghiên cứu này nhằm mục đích cung cấp các giải pháp giao tiếp phù hợp và đáp ứng nhu cầu

Trang 22

5

cụ thể của từng người dùng cá nhân Cuối cùng, việc áp dụng công nghệ vào thực tiễn nhằm tạo ra các giải pháp giao tiếp thực tế và đáp ứng nhu cầu cụ thể của cộng đồng người khiếm thính - khiếm thị là một bước tiến quan trọng trong việc tạo ra một môi trường giao tiếp đa dạng và công bằng cho tất cả mọi người

1.6 BỐ CỤC QUYỂN BÁO CÁO

Nội dung chính của đề tài được trình bày với 5 chương:

- Chương 1 GIỚI THIỆU : Giới thiệu chung về đề tài, mục tiêu nghiên cứu, giới hạn đề tài, phương pháp nghiên cứu, đối tượng và phạm vi nghiên cứu

- Chương 2 CƠ SỞ LÝ THUYẾT : giới thiệu về ngôn ngữ thủ ngữ và mô hình YOLO

- Chương 3 THIẾT KẾ HỆ THỐNG NHẬN DIỆN THỦ NGỮ SỬ DỤNG THUẬT TOÁN YOLOv8: đưa ra mô hình chung của toàn hệ thống, các khối của hệ thống, thiết kế từng khối và các thiết bị được sử dụng trong các khối

- Chương 4 KÉT QUẢ: trình bày kết quả thi công của mô hình hệ thống

- Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: rút ra các kết luận và hướng phát triển của mô hình

Trang 23

6

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 GIỚI THIỆU VỀ THỦ NGỮ

2.1.1 Khái niệm thủ ngữ trong giao tiếp

Thủ ngữ đóng vai trò vô cùng quan trọng trong giao tiếp và hòa nhập xã hội của người khiếm thính và những người có nhu cầu giao tiếp đặc biệt Các dấu hiệu ký hiệu không chỉ là phương tiện truyền đạt ngôn ngữ, mà còn là cửa ngõ để

họ tiếp cận với thế giới, tham gia vào các hoạt động hàng ngày và phát triển các mối quan hệ xã hội

Các ký hiệu từ vựng quy ước chứa đựng nội dung mệnh đề nhiều nhất trong bất kỳ ngôn ngữ ký hiệu nào Chúng gần giống nhất với các từ vựng trong ngôn ngữ nói và chủ yếu được phát âm bằng tay Mặc dù hầu hết các dấu hiệu đều có một số loại liên kết mang tính biểu tượng giữa hình thức của một dấu hiệu

và hình thức của vật ám chỉ nó, khi người ký hiệu sử dụng các mục từ vựng, họ thường không có “ý định minh họa” cụ thể (Cuxac & Sallandre 2007) mà chỉ đơn giản sử dụng chúng đưa ra thông tin mà một người muốn nói [1]

Hơn nữa, thủ ngữ giúp bảo tồn và phát triển văn hóa, truyền thống của cộng đồng người khiếm thính – khiếm thị Thông qua các dấu hiệu ký hiệu, họ có thể chia sẻ câu chuyện, kinh nghiệm và di sản văn hóa của mình, qua đó củng cố

và duy trì bản sắc cộng đồng Vì thế ta có thể nói rằng ngôn ngữ và bối cảnh sử dụng văn hóa xã hội của chúng có mối liên hệ chặt chẽ với nhau Ảnh hưởng liên tục được phát huy giữa họ, bên cạnh những ảnh hưởng bên ngoài, chẳng hạn như việc sử dụng ngôn ngữ đòi hỏi phải đóng một vai trò nào đó trong (các) nền văn hóa liên quan của nó theo một cách nào đó Tương tự như vậy, để hiểu một ngôn ngữ, cần phải có sự hiểu biết về bối cảnh và vị trí văn hóa của nó trên thế giới [2]

Trang 24

7

Vì vậy, có thể nói rằng thủ ngữ là một phần không thể thiếu trong việc đảm bảo quyền bình đẳng, hòa nhập xã hội và phát triển toàn diện của người khiếm thính Đây là một công cụ giao tiếp quan trọng cần được công nhận và hỗ trợ trong xã hội

2.1.2 Đặc tính của thủ ngữ

Một trong những đặc tính nổi bật của ngôn ngữ là khả năng tượng trưng, tức là sử dụng từ ngữ để biểu đạt những ý nghĩa vượt xa bản thân chúng Để hiểu đúng đặc tính này, chúng ta cần nghiên cứu và phân biệt giữa các khái niệm về dấu hiệu và biểu tượng

Dấu hiệu là bất cứ thứ gì được dùng để biểu trưng hoặc nhắc đến một điều

gì đó Mỗi dấu hiệu ngôn ngữ có hai mặt: mặt biểu hiện (hình thức tín hiệu) và mặt được biểu hiện (nội dung tín hiệu)

Mặt hình thức của dấu hiệu là những âm thanh cụ thể được con người thiết lập trong quá trình giao tiếp, tức là những đặc trưng âm thanh của từng ngôn ngữ Mặt nội dung là những thông tin, thông điệp về thế giới xung quanh hoặc những cách phân chia tư duy, thực tại

Mối liên hệ giữa cái biểu hiện và cái được biểu hiện là rất đặc trưng của ngôn ngữ, thể hiện ở chỗ mỗi biểu hiện luôn có một nội dung tương ứng Khi mối liên hệ 1-1 này bị đứt gãy, các quá trình giao tiếp sẽ bị ảnh hưởng hoặc không thể thực hiện được

2.1.3 Vai trò của thủ ngữ đối với người khuyết tật

Gần 1/4 chặng đường của thế kỷ 21, tình trạng BSL đã vẽ nên một bức tranh gây tò mò (được trình bày chi tiết và thảo luận thêm trong các tác phẩm như Lawson và cộng sự, 2019) Đầu tiên, một câu hỏi xung quanh số lượng người dùng BSL được đặt ra, đây là một con số cực kỳ khó xác định Nhìn lại khoảng một thập kỷ, Điều tra dân số Vương quốc Anh năm 2011 (Văn phòng

Trang 25

8

Thống kê Quốc gia, 2013) ước tính có 15.000 người dùng BSL ở Vương quốc Anh Tuy nhiên, gần đây hơn, Hiệp hội Người Điếc Anh (2019) đã ước tính có 151.000 người dùng BSL ở Anh, trong số trong đó 87.000 người được xác định

là bị điếc Con số sau này phù hợp với ước tính của Hiệp hội Người Điếc Hoàng gia (2020) là 87.000, nhưng con số này đề cập đến tổng số người dùng BSL ở Vương quốc Anh bất kể danh tính người điếc hay thính lực của họ Từ góc độ học thuật cũng vậy, các số liệu dường như không phù hợp Ví dụ, Napier và Leeson (2016) tuyên bố rằng “250.000 người sử dụng BSL hàng ngày ở Anh, 70.000 người trong số họ bị điếc” Sự khác biệt này có thể được quy cho nhiều yếu tố, chẳng hạn như phương pháp khảo sát không đầy đủ, các giá trị văn hóa xã hội được nhận thức khi xác định là người sử dụng BSL và tác động của việc đưa ngôn ngữ ký hiệu vào luật pháp quốc gia và quốc tế có thể gây ra đối với những nhận thức đó [2]

Thủ ngữ, chẳng hạn như Ngôn ngữ Ký hiệu Anh (BSL) hoặc ngôn ngữ ký hiệu Mỹ (ASL), đóng một vai trò cực kỳ quan trọng trong cuộc sống của cộng đồng người khiếm thính và những người giao tiếp bằng ký hiệu Mặc dù việc xác định chính xác số lượng người sử dụng ngôn ngữ ký hiệu có nhiều khác biệt và thách thức, các con số ước tính đều cho thấy có hàng trăm nghìn người sử dụng ngôn ngữ ký hiệu này ở Vương quốc Anh

Sự nhận thức và công nhận thủ ngữ như một phương tiện giao tiếp chính thức và chính đáng đã có những tác động quan trọng, như được phản ánh trong luật pháp quốc gia và quốc tế Tuy nhiên, vẫn còn nhiều khó khăn và thách thức cần phải giải quyết để đảm bảo quyền và cơ hội bình đẳng cho cộng đồng người khiếm thính trong việc tiếp cận và sử dụng ngôn ngữ ký hiệu

Nhìn chung, ngôn ngữ ký hiệu như BSL hoặc ASL đóng vai trò quan trọng trong việc duy trì, bảo tồn và phát triển văn hóa, cộng đồng của những người khiếm thính Việc tiếp tục thúc đẩy sự công nhận và hỗ trợ cho ngôn ngữ

Trang 26

9

ký hiệu là điều thiết yếu để đảm bảo quyền bình đẳng và hòa nhập xã hội của cộng đồng này

2.1.4 Sử dụng thủ ngữ trong giao tiếp của người khuyết tật

Người khiếm thính – khiếm thị cũng muốn được đóng góp cống hiến cho

xã hội, ngôn ngữ ký hiệu chính là một phương tiện hiệu quả cho họ

Trang 27

10

không khuyết tật về cuộc sống của người khuyết tật là những hệ tư tưởng được công chúng chấp nhận là “lẽ thường tình” Những người không khuyết tật có xu hướng tưởng tượng cuộc sống của một người khuyết tật gặp nhiều vấn đề hơn nhiều so với thực tế mà nhiều người khuyết tật cảm thấy Các học giả Nghiên cứu

về Người khuyết tật cho rằng những trở ngại mà người khuyết tật gặp phải bắt nguồn từ cách xã hội đối xử với họ như những người khiếm khuyết, chứ không phải từ sự khác biệt về cơ thể của họ (Longmore 2003) Mô hình "thương hại" bệnh lý của khuyết tật tập trung vào việc áp đặt sự bình thường với cái giá phải trả là chất lượng cuộc sống của người khuyết tật [3]

Vì thế, ngôn ngữ ký hiệu Mỹ (ASL) đã trở thành một ngôn ngữ phổ biến không chỉ trong cộng đồng người khiếm thính mà còn được nhiều người bình thường học tập và sử dụng Điều này thể hiện sự tiến bộ về ý thức và sự chấp nhận của xã hội đối với những người khuyết tật Thay vì chỉ nhìn họ như những người khiếm khuyết, nhiều người đã có cái nhìn sâu sắc hơn và coi họ như những thành viên bình đẳng trong xã hội Mô hình "thương hại" bệnh lý về khuyết tật đang dần được thay thế bằng các quan điểm và chính sách tôn trọng quyền bình đẳng của người khuyết tật Điều này là một bước quan trọng trong việc xây dựng một xã hội hòa nhập, bình đẳng và cởi mở hơn

2.2.1 Giới thiệu mạng YOLO

YOLO (You Only Look Once) là thuật toán phát hiện đối tượng tiên tiến

có thể tạo ra kết quả theo thời gian thực Redmon và cộng sự đã giới thiệu YOLO

và mang đến một chiều hướng mới cho lĩnh vực thị giác máy tính Nhiều phiên bản cải tiến của YOLO đã được phát triển kể từ đó Tên của nó xuất phát từ cách YOLO hoạt động Hầu hết các hệ thống phát hiện đối tượng đều sử dụng mô hình phân loại để nhận dạng đối tượng và sau đó đánh giá thông tin chi tiết đó về các

vị trí khác nhau của hình ảnh Nhiều hệ thống, chẳng hạn như mô hình bộ phận biến dạng (DPM), sử dụng kỹ thuật cửa sổ trượt để định vị đối tượng trong ảnh

Hệ thống DPM trượt bộ phân loại dọc theo toàn bộ hình ảnh tại các vị trí cách

Trang 28

đề hồi quy nhằm phát hiện các đối tượng Do đó, YOLO không cần một quy trình

xử lý phức tạp nên tốc độ xử lý cực kỳ nhanh [5]

Anchors là một hoặc nhiều hình chữ nhật được đặt tại mỗi điểm chập của

feature map Trong Hình 2.2, có năm anchors hình chữ nhật (được hiển thị bằng đường viền màu đỏ) được đặt tại một điểm (được hiển thị bằng màu xanh lam) [5]

Hình 2.2 Hình ảnh minh hoạ cho một anchor box

Khi thuật toán YOLO xử lý một hình ảnh, nó sẽ áp dụng các anchor box lên hình ảnh Sau đó, thuật toán sẽ dự đoán xác suất mỗi anchor box chứa một đối tượng và loại đối tượng đó là gì Nếu xác suất dự đoán đủ cao, thuật toán sẽ coi đó là một đối tượng và hiển thị nó trong hình ảnh

Trang 29

12

Nhận diện đa tỷ lệ Feature Map : Các lớp chập gắn vào cuối mạng cơ sở

được thiết kế sao cho các lớp này giảm kích thước dần dần Điều này cho phép

nó dự đoán các đối tượng ở nhiều tỷ lệ Ta có thể hình dung chúng như Hình 2.3 bên dưới:

Hình 2.3 Nhận diện đa tỷ lệ Feature map

Như hình dưới, mỗi lớp nhận diện, lớp cuối cùng của lớp cơ sở dự đoán

độ lệch của bốn toạ độ của bounding boxes và object class categories Các bounding boxes và vật thể được dự đoán qua anchor boxes

Mô phỏng việc Feature map chia nhỏ dần qua các output, điều này giúp

mô hình nhận diện được các object có kích thước lớn, các output có feature map chia nhỏ hơn giúp nhận diện các object nhỏ hơn trong khi anchor box vẫn giữ nguyên

Trang 30

13

Hình 2.4 Feature map chia nhỏ dần

Feature map được tạo ra từ các lớp tích chập của mạng nơ-ron, trong đó mỗi lớp sẽ tạo ra một feature map khác nhau Các feature map có kích thước khác nhau tùy thuộc vào cấu trúc của mạng nơ-ron và các tham số của quá trình huấn luyện Feature map cuối cùng trong mạng YOLO thường chứa thông tin chi tiết về các đối tượng trong hình ảnh cùng với vị trí và độ tin cậy của chúng Được

sử dụng để dự đoán các bounding box và các lớp của đối tượng trong hình ảnh

Tiêu chí đánh giá dữ liệu và Non-Maximum Suppression (NMS):

NMS là một kỹ thuật quan trọng quan trọng được sử dụng trong YOLO để cải thiện độ chính xác và hiệu quả của việc phát hiện đối tượng

Avarage Precision (AP), hay còn được thường gọi là Mean Average Precision (mAP), là những thông số thường được dùng để đánh giá hiệu xuẩt của

mô hình Nó đo độ chính xác trung bình trên tất cả các cụm, cung cấp số liệu để

có thể so sánh với các models [6]

Cách AP/mAp hoạt động:

AP/mAP hoạt động dựa trên chỉ số precision-recall, xử lý nhiều loại đối tượng và dự đoán dựa trên IoU

Trang 31

14

Precision và Recall: Độ chính xác (Precision) đo mức độ chính xác của

các dự đoán dương tính của mô hình, trong khi độ nhớ lại (Recall) đo tỷ lệ các trường hợp dương tính thực tế mà mô hình xác định đúng Thường có sự đánh đổi giữa độ chính xác và độ nhớ lại; ví dụ, việc tăng số đối tượng được phát hiện (độ nhớ lại cao hơn) có thể dẫn đến nhiều dương tính giả (độ chính xác thấp hơn) [6]

Xử lý nhiều dạng vật thể: Mô hình nhận dạng vật thể cần xác định và

định vị nhiều loại đối tượng khác nhau trong một bức ảnh Chỉ số AP (Độ chính xác trung bình) giải quyết vấn đề này bằng cách tính toán riêng biệt độ chính xác trung bình (AP) của từng loại, sau đó lấy giá trị trung bình của các AP này trên tất cả các loại (đó là lý do tại sao nó còn được gọi là độ chính xác trung bình của trung bình) Cách tiếp cận này đảm bảo hiệu suất của mô hình được đánh giá cho từng loại riêng lẻ, cung cấp một đánh giá toàn diện hơn về hiệu suất tổng thể của

mô hình [6]

IoU:Nhận dạng đối tượng có mục đích định vị chính xác các đối tượng

trong ảnh bằng cách đặt các bounding boxes AP kết hợp với IoU để đánh giá mức độ chính xác của bounding boxes, IoU là tỉ lệ giữa phần diện tích bị chồng lắp giữa object và bounding box so với phần giới hạn thực tế [6]

Trang 32

15

Hình 2.5 a) Công thức IoU ở hình trên biểu thị tỷ lệ giữa vùng chồng lắp (vùng giao giữa vùng nhận diện và vùng vật thể thực tế) và vùng tổng thể (tổng giữa vùng nhận diện và vùng vật thể thực tế); b) Tỉ lệ vùng chồng lắp và vùng tổng thể càng cao nhiểu hiện IoU càng lớn

Hình ảnh a: Hộp giới hạn dự đoán (xanh lá) chỉ che một phần nhỏ hộp

giới hạn thực tế (đỏ) IoU thấp, gần bằng 0, thể hiện dự đoán sai vị trí và kích thước đối tượng

Hình ảnh b: Hộp giới hạn dự đoán (xanh lá) bao phủ phần lớn hộp giới

hạn thực tế (đỏ) IoU cao, gần bằng 1, thể hiện dự đoán vị trí và kích thước đối tượng tương đối chính xác

IoU là một chỉ số quan trọng để đánh giá độ chính xác của mô hình phát hiện đối tượng Nó cung cấp một cách đơn giản và trực quan để đo lường mức độ trùng lặp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế IoU được sử dụng rộng rãi trong các ứng dụng phát hiện đối tượng, bao gồm đánh giá hiệu suất mô hình, lựa chọn hộp giới hạn tốt nhất và hệ thống theo dõi đối tượng

Trang 33

16

2.2.2 Kiến trúc mô hình

Khi mới bắt đầu, YOLOv1 có thể xử lí hình ảnh ở tốc độ 4 khung hình/giây, trong khi một biến thể YOLO nhanh, có thể đạt tốc độ lên tới 155 khung hình/giây Nó cũng đạt được mAP cao so với các thuật toán phát hiện đối tượng vào thời điểm đó [7]

Đề xuất chính của YOLO là coi việc phát hiện đối tượng là một vấn đề hồi quy một lần YOLOv1 bao gồm một neural network duy nhất, dự đoán các bounding boxes và xác suất lớp liên quan trong một đánh giá duy nhất Mô hình

cơ bản của YOLO hoạt động bằng cách trước tiên chia hình ảnh đầu vào thành lưới SxS trong đó mỗi ô (i,j) bounding boxes B, điểm tin cậy cho mỗi box và xác suất của lớp C Đầu ra cuối cùng sẽ là một tensor có hình dạng SxSx(Bx5+C) [7]

b) YOLOv5

YOLOv5 là mô hình phát hiện đối tượng được Ultralytic phát triển , người sáng tạo ra YOLOv1 và YOLOv3 ban đầu , giới thiệu vào năm 2020 YOLOv5 đặt được hiệu suất SOTA trên tập dữ liệu chuẩn COCO Đồng thời huấn luyện và triển khai nhanh chóng và hiệu quả YOLOv5 đũa thực hiện một số thay đổi về mặt kiến trúc, đáng chú ý nhất là phương pháp tiêu chuẩn hóa mô hình 3 thành phần, Backbone, neck, head [7]

Backbone của YOLOv5 là Darknet53, một kiến trúc mạng tập trung vào việc trích xuất các tính năng được đặc trưng bởi các cửa sổ lọc nhỏ( small filter windows) và các kết nối còn lại( residual connections) Kết nối một phần qua từng giai đoạn cho phép kiến trúc đạt được luồng Gradient phong phú hơn đồng thời giảm tính toán như mô tả do Wang và cộng sự đề xuất [7]

Phần neck của YOLOV5 kết nối backbone với head, mục đích là tổng hợp

và tinh chỉnh các đặc điểm được trích xuất bởi backbone, tập trung vào việc nâng cao thông tin không gian và ngữ nghĩa trên các quy mô khác nhau Module nhóm

Trang 34

17

kim tự tháp không gian loại bỏ rằng buộc kích thước cố định của mạng, giúp loại

bỏ nhu cầu làm cong, tăng cường hoặc cắt xén hình ảnh Tiếp đến là module mạng tổng hợp đường dẫn CSP, kết hợp các tính năng đã học trong Backbone và rút ngắn đường thông tin giữa các lớp thấp hơn và cao hơn [7]

Phần head của YOLOv5 bao gồm 3 nhánh, mỗi nhánh dự đoán một thang

đo tính năng khác nhau Trong ấn phẩm ban đầu của mô hình, người sáng tạo đã

sử dụng kích thước ô lưới 13x13, 26x26 và 52x52, mỗi ô cell dự đoán B=3 hộp giới hạn Mỗi điểm đầu tạo ra các hộp giới hạn, xác suất của lớp và điểm tin cậy Cuối cùng sử dung Non-maximum Suppression (NMS)( mạng sử dụng Ngăn chặn không tối đa) để học các hộp chồng chéo [7]

YOLOv5 kết hợp các hộp anchor box, các hộp đóng khung có kích thước

cố định để dự đoán vị trí và kích thước của vật thể trong hình ảnh Thay vì dự đoán giới hạn tùy ý các hộp cho từng phiên bản đối tượng, mô hình dự đoán tọa

độ của các hộp anchor box với tỷ lệ khung hình được xác định trước và chia tỉ lệ

và điều chỉnh chúng để phù hợp với thể hiện của đối tượng [7]

b) YOLOv8

YOLOv8 là phiên bản mới nhất của mô hình phát hiện đối tượng YOLO Phiên bản mới này có kiến trúc tương tự như phiên bản trước đó, nhưng nó có thêm nhiều cải tiến so với các phiên bản trước của YOLO chẳng hạn như phiên bản mới kiến trúc mạng neural Network, sử dụng cả mạng Feature Pyramid Network (FPN) và Path Aggregation Network (PAN) và công cụ ghi nhãn mới giúp đơn giản hóa quá trình chú thích Công cụ ghi nhãn này chứa một số tính năng hữu ích như tự động ghi nhãn , các phím tắt ghi nhãn và các phím nóng có thể tùy chỉnh Sự kết hợp các tính năng này giúp việc chú thích hình ảnh phục vụ cho việc huấn luyện mô hình trở nên dễ dàng hơn FPN hoạt động bằng cách giảm dần độ phân giải không gian của hình ảnh đầu vào và đồng thời tăng số lượng các kênh chức năng Điều này dẫn đến việc tạo ra các bản đồ đặc trưng có

Trang 35

18

khả năng phát hiện các vật thể ở khoảng cách khác nhau, quy mô và độ phân giải Mặt khác kiến trúc PAN, tổng hợp các tính năng từ các cấp độ khác nhau của mạng thông qua việc bỏ qua kết nối Bằng cách làm như vậy, mạng có thể nắm bắt các đặc điểm tốt hơn ở nhiều tỉ lệ và độ phân giải, điều này rất quan trọng để phát hiện chính xác các đối tượng kích cỡ và hình dạng khác nhau [7]

Hình 2.6 Kiến trúc mạng YOLOv8

Trang 36

19

Cấu trúc mạng nơ-ron YOLOv8 (Hình 2.6), một mô hình phát hiện đối tượng hiệu quả được phát triển bởi Ultralytics YOLOv8 là phiên bản nâng cấp của YOLOv5, với nhiều cải tiến về hiệu suất và tốc độ

Cấu trúc tổng thể của YOLOv8 bao gồm hai phần chính: Backbone và Head

Backbone: Phần này dùng để trích xuất các đặc trưng từ hình ảnh đầu

vào Trong YOLOv8, Backbone sử dụng kiến trúc CSPNet (Cross Stage Partial connections) với các cải tiến như Cấu trúc Bottleneck để giảm số lượng tham số

và tăng hiệu quả tính toán, cùng với SPPF (Spatial Pyramid Pooling Feature) để tăng cường khả năng trích xuất đặc trưng đa kích thước

Head: Phần này có trách nhiệm dự đoán vị trí và lớp đối tượng trong hình

ảnh Head bao gồm YOLOv8Head để dự đoán hộp giới hạn và lớp đối tượng, cùng với quá trình Detect để xử lý kết quả dự đoán và tạo ra hộp giới hạn cuối cùng cho các đối tượng được phát hiện

c) So sánh giữa hai mô hình tương đồng YOLOv5 và YOLOv8

Lí do mà YOLOv8 bị so sánh với YOLOv5 và không phải bất kì phiên bản YOLO nào khác mà là YOLOv5, hiệu suất và số liệu gần với YOLOv8 hơn Tuy nhiên YOLOv8 vượt trội hơn YOLOv5 hơn khi chúng ta nói về mAP (hình 2.7), điều này cho thấy YOLOv8 có outlier hơn khi được đo dựa trên RF100 là 100 mẫu tập dữ liệu từ Robotflow là một kho lưu trữ dữ liệu của

100000 bộ dữ liệu ta cũng thấy được rằng YOLOv8 vượt trội hơn YOLOv5 cho từng loại RF100 Từ hình chúng ta có thể thấy rằng YOLOv8 tạo ra kết quả tương tự hoặc tốt hơn YOLOv5 (hình 2.7) [7]

Trang 38

21

Tập dữ liệu này bao gồm 100 hình ảnh về các đối tượng khác nhau, và các

mô hình được đánh giá dựa trên khả năng xác định và định vị chính xác các đối tượng này Biểu đồ hiển thị độ chính xác trung bình (mAP) của mỗi mô hình, đây

là thước đo hiệu suất tổng thể của mô hình mAP càng cao, mô hình càng hoạt động tốt

Như bạn có thể thấy, mô hình YOLOv8 vượt trội so với các mô hình khác trên tập dữ liệu Roboflow 100 Điều này có nghĩa là YOLOv8 có thể xác định và định vị chính xác các đối tượng trong hình ảnh với độ chính xác cao hơn so với các mô hình khác

Một điểm khác biệt nữa của hai mô hình là quá trình huấn luyện dữ liệu YOLOv8 đã được huấn luyện trên phạm vi rộng hơn và đa dạng hơn tập dữ liệu

so với YOLOv5 YOLOv8 đã được huấn luyện trên một sự kết hợp giữa tập dữ liệu COCO và một số tập dữ liệu khác, trong khi YOLOv5 được huấn luyện chủ yếu trên bộ dữ liệu COCO Vì lí do đó, YOLOv8 có hiệu suất tốt hơn trên phạm

vi rộng hơn trên các loạt hình ảnh

YOLOv8 bao gồm công cụ ghi nhãn mới có tên Roboflow Annotate được

sử dụng để chú thích hình ảnh với đói tượng nhiệm vụ phát hiện hình ảnh để huấn luyện mô hình dễ dàng hơn và bao gồm một số tính năng như ghi nhãn tự động, ghi nhãn phím tắt và phím nóng có thể tùy chỉnh, Ngược lại YOLOv5 sử dụng một công cụ ghi nhãn khác có tên là LabelImg LabelImg là một công cụ chú thích hình ảnh đồ họa mã nguồn mở cho phép người dùng của nó vẽ các hộp giới hạn xung quanh đối tượng quan tâm trong một hình ảnh, sau đó xuất các chú thích trong YOLO dạng để huấn luyện mô hình

YOLOv8 bao gồm các kỹ thuật xử lí hậu kì tiên tiến hơn YOLOv5, đây là một tập hợp các thuật toán được áp dung cho các hộp giới hạn được dự đoán và tính khách quan điểm số được tạo ra bởi mạng lưới thần kinh.Những Kỹ thuật

Trang 39

22

này giúp tinh chỉnh các kết quả phát hiện, loại bỏ các phát hiện dư thừa và cải thiện độ chính xác tổng thể của các dự đoán YOLOv8 sử dụng Soft-NMS, một biến thể của kỹ thuật NMS được sử dụng trong YOLOv5 Soft-NMS áp dụng phần mềm ngưỡng cho các hộp giới hạn chồng chéo thay vì loại bỏ chúng hoàn toàn Trong khi đó NMS loại bỏ các hộp giới hạn chồng chéo và chỉ giữ lại những hộp có điểm khách quan cao nhất

Trong kiến trúc YOLO thường có một số đầu ra, đứng đầu chịu trách nhiệm dự đoán các khía cạnh khác nhau của đối tượng được phát hiện, chẳng hạn như tọa độ hộp giới hạn, xác suất của lớp và điểm số khách quan Những đầu ra này thường được kết nối với một vài lớp cuối cùng của mạng Neural và được huấn luyện để đưa ra một tập hợp các giá trí có thể dự dụng để phân loại các đối tượng trong một hình ảnh Các số lượng và loại đầu ra được sử dụng khác nhau tùy theo về thuật toán phát hiện đối tượng cụ thể và các yêu cầu của nhiệm vụ hiện tại YOLOv5 có 3 đầu ra trong khi YOLOv8 có 1 đầu ra YOLOv8 không

có các anchors cell, vừa và lớn thay vì sử dụng cơ chế phát hiện không có neo dự đoán trực tiếp tâm của một đối tượng thay vì phần bù từ hộp anchor đã biết, điều này làm giảm số lượng hộp dự đoán và giúp tăng tốc quá trình xử lí hậu kì

Công bằng mà nói thì YOLOv8 chậm hơn một chút so với YOLOv5 liên quan tới tốc độ phát hiện đối tượng Tuy nhiên YOLOv8 vẫn có thể xử lí hình ảnh theo thời gian thực trên các GPU hiện đại

Cả YOLOv5 và YOLOv8 đều sử dụng khả năng tăng cường khảm trên tập huấn luyện Tăng cường khảm là một kỹ thuật tăng cường dữ liệu lấy bốn hình ảnh ngẫu nhiên từ tập huấn luyện và kết hợp chúng thành một hình ảnh khảm duy nhất Hình ảnh này, trong đó mỗi góc phần tư chứa một phần cắt ngẫu nhiên từ một trong bốn hình ảnh đầu vào, sau đó được sử dụng làm đầu vào cho mô hình

Trang 40

23

HỖ TRỢ GIAO TIẾP NGƯỜI KHUYẾT TẬT 3.1 ĐẶC TẢ KỸ THUẬT VÀ THIẾT KẾ HỆ THỐNG

3.1.1 Yêu cầu chức năng

Nhận diện thủ ngữ trong thời gian thực với độ chính xác cao là một bước tiến vượt bậc trong việc cải thiện giao tiếp cho người khiếm thính- khiếm thị Việc chuyển đổi các thủ ngữ sang văn bản không chỉ giúp người sử dụng thủ ngữ giao tiếp dễ dàng hơn với những người không biết ngôn ngữ này, mà còn mở ra nhiều cơ hội hơn trong học tập, công việc và cuộc sống hàng ngày Tiếp đó, chuyển đổi văn bản sang giọng nói tạo ra một cầu nối giữa người khiếm thính và những người khuyết tật, làm cho cuộc trò chuyện trở nên tự nhiên và dễ dàng hơn

Phân tích biểu cảm khuôn mặt của người đối diện giúp cải thiện chất lượng giao tiếp, bởi biểu cảm khuôn mặt đóng vai trò quan trọng trong việc truyền tải cảm xúc và ý nghĩa Công nghệ này không chỉ nhận diện nội dung của cuộc trò chuyện mà còn hiểu được cảm xúc và thái độ của người giao tiếp, từ đó tạo ra một trải nghiệm giao tiếp phong phú và chân thực hơn

Hiển thị thông tin (văn bản) cho người dùng là bước cuối cùng trong quy trình này, giúp người khiếm thính dễ dàng theo dõi và hiểu được thông tin đang được truyền đạt Với sự phát triển của các công nghệ này, chúng ta đang tiến gần hơn đến một xã hội bình đẳng và bao trùm, nơi mọi người, bất kể khả năng nghe nhìn, đều có cơ hội giao tiếp và hòa nhập một cách dễ dàng và tự nhiên

Sự kết hợp của các công nghệ tiên tiến này không chỉ mang lại lợi ích to lớn cho người khiếm thính – khiếm thị mà còn thúc đẩy sự hiểu biết và kết nối giữa mọi người trong xã hội Điều này không chỉ cải thiện chất lượng cuộc sống

Ngày đăng: 19/12/2024, 14:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w