Sử dụng thuật toán yolo nhận diện thủ ngữ hỗ trợ giao tiếp cho người khiếm thính khiếm thị Đồ Án tốt nghiệp ngành công nghệ kỹ thuật máy tính

1.2 MỤC TIÊU ĐỀ TÀI Đề tài này đặt ra một loạt các mục tiêu quan trọng để phát triển và triển khai hệ thống nhận diện thủ ngữ dựa trên thuật toán YOLO nhằm hỗ trợ giao tiếp cho người kh

GIỚI THIỆU

MỞ ĐẦU

Người khiếm thính - khiếm thị đang đối mặt với nhiều khó khăn trong giao tiếp, ảnh hưởng đến cuộc sống và khả năng hòa nhập cộng đồng Các phương pháp giao tiếp hiện tại như ngôn ngữ ký hiệu, chữ nổi Braille và thiết bị hỗ trợ đều gặp thách thức về thời gian học tập và tính khả dụng Đề tài này nghiên cứu việc áp dụng thuật toán YOLO (You Only Look Once) để nhận diện thủ ngữ, nhằm hỗ trợ giao tiếp cho người khiếm thính - khiếm thị YOLO là một trong những thuật toán nhận diện vật thể hiệu quả, cho phép nhận diện trong thời gian thực Dự án sử dụng camera để nhận diện cử chỉ và thủ ngữ, chuyển đổi thành văn bản hoặc âm thanh, giúp người khiếm thính - khiếm thị giao tiếp dễ dàng và hiệu quả hơn trong cuộc sống hàng ngày.

Công nghệ tiên tiến không chỉ mang lại lợi ích kỹ thuật mà còn có sứ mệnh xã hội quan trọng, giúp người khuyết tật tham gia tích cực vào cộng đồng Điều này tạo điều kiện cho việc tăng cường hiểu biết và tương tác giữa các nhóm, từ đó thúc đẩy sự đa dạng và kết nối giữa con người.

MỤC TIÊU ĐỀ TÀI

Đề tài này hướng tới việc phát triển và triển khai hệ thống nhận diện thủ ngữ sử dụng thuật toán YOLO, nhằm hỗ trợ giao tiếp cho người khiếm thính và khiếm thị Mục tiêu chính là tạo ra một giải pháp công nghệ giúp cải thiện khả năng giao tiếp cho nhóm đối tượng này.

2 hệ thống nhận diện chính xác và thời gian thực, giúp nhận diện các thủ ngữ một cách chính xác

Đề tài này tập trung vào việc tích hợp công nghệ nhận diện vào ứng dụng hoặc giao diện người dùng thân thiện, giúp người khiếm thính và khiếm thị dễ dàng truyền đạt ý định và thông điệp thông qua thủ ngữ Sự cải tiến này sẽ nâng cao khả năng tương tác và giao tiếp trong các tình huống hàng ngày, từ giao tiếp cơ bản đến việc đặt câu hỏi và yêu cầu sự giúp đỡ.

Việc tạo ra môi trường thử nghiệm và thu thập phản hồi từ cộng đồng người khiếm thính - khiếm thị là rất quan trọng để cải thiện hệ thống nhận diện, đáp ứng tốt hơn nhu cầu thực tế của người dùng Đồng thời, đề tài cũng chú trọng đến tính minh bạch và an toàn dữ liệu, bảo vệ thông tin và dữ liệu của người dùng khỏi lạm dụng.

Đề tài này nhằm thúc đẩy sự đa dạng và kết nối con người trong xã hội, tạo ra cơ hội cho người khiếm thính và khiếm thị tham gia tích cực vào các hoạt động xã hội và giao tiếp.

GIỚI HẠN ĐỀ TÀI

1.3.1 Về mặt kỹ thuật Độ chính xác của hệ thống nhận diện thủ ngữ: Hiệu suất của hệ thống nhận diện thủ ngữ phụ thuộc vào nhiều yếu tố như chất lượng hình ảnh, tốc độ cử chỉ, độ phức tạp của thủ ngữ, v.v Do đó, độ chính xác của hệ thống có thể không đạt được 100% trong mọi trường hợp

Khả năng nhận diện các thủ ngữ phức tạp là một thách thức đối với thuật toán YOLO Một số thủ ngữ có độ phức tạp cao, khiến cho hệ thống gặp khó khăn trong việc nhận diện chính xác.

Khả năng nhận diện thủ ngữ trong môi trường nhiễu là một thách thức lớn, đặc biệt khi hệ thống phải đối mặt với các yếu tố như tiếng ồn và ánh sáng yếu Những điều kiện này có thể làm giảm độ chính xác của việc nhận diện, ảnh hưởng đến hiệu quả của hệ thống.

Để sử dụng hệ thống hiệu quả, người dùng cần trang bị kiến thức cơ bản về ngôn ngữ thủ ngữ.

Hệ thống nhận diện thủ ngữ hiện chưa đủ khả năng thay thế hoàn toàn giao tiếp bằng lời nói Trong nhiều tình huống, người dùng vẫn cần đến các phương thức giao tiếp khác như viết hoặc sử dụng bảng chữ cái để truyền đạt thông tin một cách hiệu quả.

PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp nghiên cứu của đề tài bao gồm các bước quan trọng như tìm hiểu và tổng quan về các nghiên cứu trước liên quan đến nhận diện thủ ngữ và công nghệ hỗ trợ giao tiếp cho người khiếm thính - khiếm thị Nhóm nghiên cứu cũng thu thập một bộ dữ liệu đa dạng về thủ ngữ để phục vụ cho quá trình huấn luyện và kiểm tra mô hình.

Nhóm nghiên cứu đã phát triển một mô hình nhận diện thủ ngữ sử dụng thuật toán YOLO, bao gồm các bước xử lý dữ liệu, xây dựng kiến trúc mạng nơ-ron và điều chỉnh siêu tham số để tối ưu hóa hiệu suất Sau khi hoàn thành mô hình, nhóm đã tiến hành huấn luyện và đánh giá trên tập dữ liệu thu thập được nhằm đảm bảo tính chính xác và độ tin cậy của mô hình.

Sau khi hoàn tất việc xây dựng và đánh giá mô hình, nhóm thực hiện đề tài tiến hành tích hợp mô hình vào một ứng dụng hoặc giao diện người dùng thân thiện Quá trình này đảm bảo rằng người dùng có thể dễ dàng tương tác và sử dụng mô hình một cách hiệu quả.

4 nhằm cung cấp cho người dùng khả năng giao tiếp thông qua thủ ngữ một cách dễ dàng và hiệu quả

Cuối cùng, nhóm nghiên cứu đã tiến hành thử nghiệm thực tế với người dùng và thu thập phản hồi để đánh giá hiệu suất và trải nghiệm sử dụng của hệ thống Những phản hồi này sẽ hỗ trợ nhóm cải thiện và tinh chỉnh mô hình cũng như giao diện người dùng, nhằm đáp ứng tốt hơn nhu cầu của người dùng khiếm thính - khiếm thị.

ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

Người khiếm thính và khiếm thị gặp khó khăn trong giao tiếp do hạn chế về khả năng nghe và nhìn Sử dụng thuật toán nhận diện thủ ngữ có thể giúp nhóm đối tượng này giao tiếp hiệu quả hơn, cải thiện khả năng tương tác so với những người khác.

Thủ ngữ là hệ thống ngôn ngữ phi ngôn ngữ giúp người khiếm thính - khiếm thị giao tiếp Việc sử dụng thuật toán YOLO cho phép nhận diện các thủ ngữ này một cách chính xác và hiệu quả.

Thuật toán YOLO (You Only Look Once) là một công nghệ học máy nổi bật, chuyên dùng để phát hiện và nhận diện vật thể trong hình ảnh và video Với khả năng hoạt động trong thời gian thực, YOLO cho phép nhận diện các thủ ngữ một cách nhanh chóng và hiệu quả.

Nghiên cứu này tập trung vào việc phát triển và tối ưu hóa thuật toán YOLO để nhận diện thủ ngữ một cách chính xác và hiệu quả, đồng thời xây dựng tập dữ liệu đa dạng Mô hình YOLO sẽ được tích hợp vào các ứng dụng và thiết bị giao tiếp nhằm hỗ trợ người khiếm thính - khiếm thị Qua việc thử nghiệm và đánh giá trải nghiệm người dùng, nghiên cứu hướng đến việc cung cấp các giải pháp giao tiếp phù hợp, đáp ứng nhu cầu của đối tượng này.

Việc áp dụng công nghệ vào thực tiễn để phát triển các giải pháp giao tiếp cho cộng đồng người khiếm thính - khiếm thị là một bước tiến quan trọng Điều này không chỉ đáp ứng nhu cầu cụ thể của từng người dùng cá nhân mà còn góp phần tạo ra một môi trường giao tiếp đa dạng và công bằng cho tất cả mọi người.

BỐ CỤC QUYỂN BÁO CÁO

Nội dung chính của đề tài được trình bày với 5 chương:

- Chương 1 GIỚI THIỆU : Giới thiệu chung về đề tài, mục tiêu nghiên cứu, giới hạn đề tài, phương pháp nghiên cứu, đối tượng và phạm vi nghiên cứu

- Chương 2 CƠ SỞ LÝ THUYẾT : giới thiệu về ngôn ngữ thủ ngữ và mô hình YOLO

Chương 3 trình bày thiết kế hệ thống nhận diện thủ ngữ sử dụng thuật toán YOLOv8, bao gồm mô hình tổng thể của hệ thống và các khối chức năng Bài viết sẽ phân tích chi tiết từng khối trong hệ thống, cùng với thiết bị được áp dụng trong từng khối để đảm bảo hiệu quả nhận diện.

- Chương 4 KÉT QUẢ: trình bày kết quả thi công của mô hình hệ thống

- Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: rút ra các kết luận và hướng phát triển của mô hình

CƠ SỞ LÝ THUYẾT

GIỚI THIỆU VỀ THỦ NGỮ

2.1.1 Khái niệm thủ ngữ trong giao tiếp

Thủ ngữ là công cụ thiết yếu trong giao tiếp và hòa nhập xã hội của người khiếm thính cũng như những người có nhu cầu giao tiếp đặc biệt Các dấu hiệu ký hiệu không chỉ giúp truyền đạt ngôn ngữ mà còn mở ra cánh cửa cho họ tiếp cận thế giới, tham gia vào các hoạt động hàng ngày và xây dựng mối quan hệ xã hội.

Các ký hiệu từ vựng quy ước là những yếu tố quan trọng trong ngôn ngữ ký hiệu, tương tự như từ vựng trong ngôn ngữ nói, và chủ yếu được biểu đạt qua cử chỉ tay Mặc dù có sự liên kết mang tính biểu tượng giữa hình thức của một dấu hiệu và vật mà nó ám chỉ, người sử dụng thường không có ý định minh họa cụ thể mà chỉ đơn giản là truyền đạt thông tin cần thiết.

Thủ ngữ không chỉ giúp bảo tồn văn hóa và truyền thống của cộng đồng người khiếm thính – khiếm thị, mà còn cho phép họ chia sẻ câu chuyện, kinh nghiệm và di sản văn hóa, từ đó củng cố bản sắc cộng đồng Ngôn ngữ và bối cảnh văn hóa xã hội có mối liên hệ chặt chẽ, với sự ảnh hưởng lẫn nhau giữa các yếu tố bên trong và bên ngoài Để hiểu một ngôn ngữ, cần có kiến thức về bối cảnh và vị trí văn hóa của nó trên thế giới.

Thủ ngữ đóng vai trò quan trọng trong việc đảm bảo quyền bình đẳng và hòa nhập xã hội cho người khiếm thính Đây là một công cụ giao tiếp thiết yếu cần được công nhận và hỗ trợ để thúc đẩy sự phát triển toàn diện của họ trong cộng đồng.

2.1.2 Đặc tính của thủ ngữ

Ngôn ngữ nổi bật với khả năng tượng trưng, cho phép từ ngữ truyền đạt ý nghĩa vượt ra ngoài chính chúng Để hiểu đúng đặc tính này, cần phân biệt rõ ràng giữa các khái niệm dấu hiệu và biểu tượng.

Dấu hiệu là biểu tượng hoặc biểu thị cho một điều gì đó, bao gồm hai khía cạnh: mặt biểu hiện, tức là hình thức của tín hiệu, và mặt được biểu hiện, nghĩa là nội dung của tín hiệu.

Dấu hiệu ngôn ngữ bao gồm hai mặt chính: mặt hình thức và mặt nội dung Mặt hình thức đề cập đến các âm thanh cụ thể được con người thiết lập trong giao tiếp, phản ánh đặc trưng âm thanh của từng ngôn ngữ Trong khi đó, mặt nội dung liên quan đến thông tin và thông điệp về thế giới xung quanh, cũng như cách phân chia tư duy và thực tại.

Mối liên hệ giữa biểu hiện và nội dung trong ngôn ngữ là rất đặc trưng, với mỗi biểu hiện luôn tương ứng với một nội dung cụ thể Khi mối liên hệ này bị đứt gãy, quá trình giao tiếp sẽ bị ảnh hưởng hoặc thậm chí không thể diễn ra.

2.1.3 Vai trò của thủ ngữ đối với người khuyết tật

Gần 1/4 chặng đường của thế kỷ 21, tình trạng BSL đã tạo ra một bức tranh thú vị (được phân tích trong các nghiên cứu như Lawson và cộng sự, 2019) Một câu hỏi quan trọng được đặt ra là số lượng người sử dụng BSL, đây là một con số khó xác định Nhìn về quá khứ, Điều tra dân số Vương quốc Anh năm 2011 đã cung cấp một cái nhìn ban đầu về vấn đề này.

Theo thống kê, năm 2013, có khoảng 15.000 người sử dụng BSL ở Vương quốc Anh, nhưng Hiệp hội Người Điếc Anh (2019) ước tính con số này lên tới 151.000, trong đó 87.000 người bị điếc Con số này cũng được Hiệp hội Người Điếc Hoàng gia (2020) xác nhận, nhưng đề cập đến tổng số người dùng BSL mà không phân biệt tình trạng thính lực Hơn nữa, Napier và Leeson (2016) cho rằng có tới 250.000 người sử dụng BSL hàng ngày, trong đó 70.000 người bị điếc Sự khác biệt trong các số liệu này có thể do nhiều yếu tố, bao gồm phương pháp khảo sát không đầy đủ và các giá trị văn hóa xã hội liên quan đến việc xác định người sử dụng BSL, cũng như tác động của việc công nhận ngôn ngữ ký hiệu trong luật pháp quốc gia và quốc tế.

Thủ ngữ, như Ngôn ngữ Ký hiệu Anh (BSL) và Ngôn ngữ Ký hiệu Mỹ (ASL), đóng vai trò quan trọng trong cuộc sống của cộng đồng người khiếm thính và những người giao tiếp bằng ký hiệu Mặc dù việc xác định số lượng người sử dụng ngôn ngữ ký hiệu gặp nhiều khó khăn, ước tính cho thấy có hàng trăm nghìn người sử dụng ngôn ngữ ký hiệu tại Vương quốc Anh.

Sự công nhận thủ ngữ như một phương tiện giao tiếp chính thức đã ảnh hưởng tích cực đến luật pháp quốc gia và quốc tế Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết để đảm bảo quyền và cơ hội bình đẳng cho cộng đồng người khiếm thính trong việc tiếp cận và sử dụng ngôn ngữ ký hiệu.

Ngôn ngữ ký hiệu như BSL và ASL đóng vai trò quan trọng trong việc bảo tồn và phát triển văn hóa của cộng đồng người khiếm thính Việc thúc đẩy sự công nhận và hỗ trợ cho ngôn ngữ này là cần thiết để duy trì bản sắc văn hóa độc đáo của họ.

9 ký hiệu là điều thiết yếu để đảm bảo quyền bình đẳng và hòa nhập xã hội của cộng đồng này

2.1.4 Sử dụng thủ ngữ trong giao tiếp của người khuyết tật

Người khiếm thính – khiếm thị cũng muốn được đóng góp cống hiến cho xã hội, ngôn ngữ ký hiệu chính là một phương tiện hiệu quả cho họ

Hình 2.1 Một số thủ ngữ

Ngôn ngữ ký hiệu Mỹ (ASL) đã trở thành một phương tiện giao tiếp phổ biến không chỉ cho người khuyết tật mà còn cho nhiều người bình thường trên toàn thế giới Ngày nay, ASL không chỉ được sử dụng bởi những người khiếm thính mà còn thu hút sự quan tâm của cộng đồng nhằm tạo dựng cầu nối giao tiếp với người khuyết tật Sự phát triển của ASL gắn liền với những vấn đề chính trị liên quan đến khuyết tật và điếc, phản ánh những ý tưởng và niềm tin của cộng đồng này.

Cuộc sống của người khuyết tật thường bị hiểu lầm do những hệ tư tưởng sai lệch mà xã hội chấp nhận Nhiều người không khuyết tật có xu hướng phóng đại những khó khăn mà người khuyết tật phải đối mặt, trong khi thực tế, nhiều người khuyết tật cảm thấy cuộc sống của họ không nhất thiết phải khó khăn hơn Các nghiên cứu cho thấy, những trở ngại mà người khuyết tật gặp phải chủ yếu xuất phát từ cách mà xã hội nhìn nhận và đối xử với họ, chứ không phải từ những khác biệt về cơ thể Mô hình "thương hại" trong cách nhìn nhận về khuyết tật thường dẫn đến việc áp đặt tiêu chuẩn bình thường, gây ảnh hưởng tiêu cực đến chất lượng cuộc sống của người khuyết tật.

THIẾT KẾ HỆ THỐNG NHẬN DIỆN THỦ NGỮ HỖ TRỢ GIAO TIẾP NGƯỜI KHUYẾT TẬT

ĐẶC TẢ KỸ THUẬT VÀ THIẾT KẾ HỆ THỐNG

Nhận diện thủ ngữ trong thời gian thực với độ chính xác cao là một bước tiến quan trọng trong việc cải thiện giao tiếp cho người khiếm thính- khiếm thị Việc chuyển đổi thủ ngữ sang văn bản giúp người sử dụng giao tiếp dễ dàng hơn với những người không biết ngôn ngữ này, đồng thời mở ra nhiều cơ hội trong học tập, công việc và cuộc sống hàng ngày Hơn nữa, chuyển đổi văn bản sang giọng nói tạo cầu nối giữa người khiếm thính và những người khuyết tật, giúp cuộc trò chuyện trở nên tự nhiên và dễ dàng hơn.

Phân tích biểu cảm khuôn mặt của người đối diện là yếu tố then chốt để nâng cao chất lượng giao tiếp, vì nó giúp truyền tải cảm xúc và ý nghĩa một cách hiệu quả Công nghệ này không chỉ nhận diện nội dung cuộc trò chuyện mà còn nắm bắt được cảm xúc và thái độ của người tham gia, từ đó tạo ra trải nghiệm giao tiếp phong phú và chân thực hơn.

Hiển thị thông tin văn bản cho người dùng là bước cuối cùng trong quy trình, giúp người khiếm thính dễ dàng theo dõi và hiểu thông tin Sự phát triển công nghệ này đưa chúng ta gần hơn đến một xã hội bình đẳng và bao trùm, nơi mọi người, bất kể khả năng nghe nhìn, đều có cơ hội giao tiếp và hòa nhập một cách tự nhiên.

Sự kết hợp của các công nghệ tiên tiến mang lại nhiều lợi ích cho người khiếm thính và khiếm thị, đồng thời thúc đẩy sự hiểu biết và kết nối trong xã hội, qua đó nâng cao chất lượng cuộc sống của họ.

24 cho người khiếm thính – khiếm thị mà còn giúp cộng đồng hiểu và tôn trọng sự đa dạng về khả năng của con người

3.1.2 Yêu cầu phi chức năng

Hiệu suất của hệ thống nhận diện thủ ngữ thời gian thực là yếu tố quan trọng để đảm bảo trải nghiệm người dùng mượt mà và chính xác Hệ thống xử lý video với tốc độ tối thiểu 30 khung hình/giây, giúp nhận diện cử chỉ liên tục và không bị gián đoạn, đáp ứng nhu cầu giao tiếp thực tế Đặc biệt, độ chính xác của hệ thống với tỷ lệ nhận diện cử chỉ đạt tối thiểu 80% không chỉ tạo sự tin tưởng cho người dùng mà còn giảm thiểu hiểu lầm trong giao tiếp, góp phần vào sự thành công của các cuộc trò chuyện.

Khả năng bảo trì của hệ thống là yếu tố quan trọng, giúp dễ dàng sửa lỗi và nâng cấp khi cần Hệ thống dễ bảo trì cho phép các nhà phát triển nhanh chóng khắc phục vấn đề và cập nhật tính năng mới, nâng cao trải nghiệm người dùng và duy trì hiệu suất hoạt động Ngoài ra, điều này cũng giúp hệ thống thích nghi với các thay đổi công nghệ và yêu cầu mới từ người dùng.

Hệ thống nhận diện thủ ngữ tiên tiến sử dụng camera để thu thập video đầu vào, cho phép nhận diện và xử lý cử chỉ trong thời gian thực Camera cung cấp hình ảnh chất lượng cao, đảm bảo khả năng nhận diện chính xác và nhanh chóng.

Công nghệ theo dõi chính xác các cử chỉ và biểu cảm khuôn mặt của người dùng là nền tảng quan trọng cho việc chuyển đổi hiệu quả thủ ngữ thành văn bản và giọng nói Đồng thời, việc phân tích biểu cảm khuôn mặt giúp hiểu rõ hơn về cảm xúc và ý nghĩa của người sử dụng.

Giao diện người dùng là yếu tố quan trọng trong việc hiển thị thông tin thu thập và xử lý, bao gồm video đầu vào, kết quả nhận diện cử chỉ, văn bản tương ứng và biểu cảm khuôn mặt Một giao diện trực quan và dễ sử dụng giúp người dùng dễ dàng theo dõi và tương tác với hệ thống, từ đó nâng cao trải nghiệm và hiệu quả giao tiếp Thiết kế giao diện cần đơn giản và dễ hiểu, đảm bảo người dùng có thể nhanh chóng làm quen và sử dụng hiệu quả.

Hệ thống tích hợp khả năng phát giọng nói qua loa hoặc tai nghe, tạo sự kết nối liền mạch giữa văn bản và âm thanh Tính năng này không chỉ giúp giao tiếp dễ dàng hơn với những người không biết thủ ngữ mà còn mang lại tiện lợi trong nhiều tình huống giao tiếp khác nhau Âm thanh phát ra cần rõ ràng và tự nhiên, đảm bảo thông điệp được truyền tải chính xác và hiệu quả.

Hệ thống nhận diện cử chỉ ngôn ngữ ký hiệu tiên tiến có thể triển khai trên máy tính nhúng như Raspberry Pi hoặc Jetson Nano, mang lại linh hoạt và tính di động cao Việc sử dụng thiết bị nhỏ gọn này cho phép hệ thống hoạt động hiệu quả trong nhiều môi trường khác nhau, từ gia đình đến nơi công cộng, mà không cần phần cứng phức tạp và đắt đỏ.

Mô hình YOLOv8 đóng vai trò quan trọng trong hệ thống nhận diện cử chỉ, nhờ vào khả năng nhận diện đối tượng nhanh chóng và chính xác YOLOv8 là một trong những mô hình tiên tiến nhất trong lĩnh vực thị giác máy tính, góp phần nâng cao hiệu quả của việc phân tích và xử lý hình ảnh.

Việc áp dụng YOLOv8 trong nhận diện thủ ngữ không chỉ mang lại tốc độ xử lý nhanh chóng mà còn đảm bảo độ chính xác cao khi nhận diện các cử chỉ phức tạp, giúp hệ thống phản hồi tức thì với hành động của người dùng, tạo trải nghiệm giao tiếp tự nhiên Hệ thống sử dụng dịch vụ Google Text-to-Speech (TTS) để chuyển đổi văn bản thành giọng nói, cung cấp âm thanh tự nhiên và dễ nghe Sự tích hợp Google TTS đảm bảo rằng thông tin từ thủ ngữ được chuyển đổi thành văn bản có thể phát ra âm thanh rõ ràng, hỗ trợ người dùng trong việc truyền đạt thông điệp một cách hiệu quả và nhanh chóng.

Hệ thống nhận diện thủ ngữ và phân tích biểu cảm khuôn mặt trong thời gian thực được thiết kế với các thành phần chính như sau

Nhận diện thủ ngữ có thể được thực hiện hiệu quả bằng cách sử dụng các thuật toán YOLOv8, YOLOv7 hoặc YOLOv5 Những mô hình YOLO nổi bật với khả năng xử lý nhanh và độ chính xác cao, rất phù hợp cho việc nhận diện đối tượng trong thời gian thực Việc áp dụng YOLO vào nhận diện thủ ngữ cho phép hệ thống phát hiện và phân loại các cử chỉ một cách nhanh chóng và chính xác, đảm bảo phản hồi tức thì cho người dùng.

Chuyển đổi thủ ngữ thành văn bản là quá trình nhận diện và chuyển đổi các ký hiệu thủ ngữ thành văn bản tương ứng thông qua mô hình YOLO Để đảm bảo độ chính xác và ý nghĩa của văn bản đầu ra, cần có một bộ giải mã (decoder) được huấn luyện kỹ lưỡng trên tập dữ liệu ngôn ngữ ký hiệu.

MÔ HÌNH HỆ THỐNG

Hệ thống này đóng vai trò cầu nối hiệu quả, giúp người khiếm thính và khiếm thị giao tiếp dễ dàng với người bình thường Nhờ vào thuật toán YOLO thông minh, hệ thống nhận diện chính xác các ký hiệu tay và chuyển đổi chúng thành ngôn ngữ nói hoặc viết, giúp người bình thường hiểu thông điệp từ người khiếm thính - khiếm thị Đồng thời, hệ thống cũng hỗ trợ người bình thường giao tiếp với người khiếm thính - khiếm thị bằng cách chuyển đổi hình ảnh và văn bản thành ngôn ngữ ký hiệu, thể hiện qua video động sinh động và dễ tiếp nhận.

Hệ thống nhận diện ngôn ngữ cơ thể và giọng nói mang lại nhiều ưu điểm nổi bật, đặc biệt là khả năng hỗ trợ giao tiếp hiệu quả cho người khiếm thính - khiếm thị, giúp họ tự tin hòa nhập cộng đồng Với thiết kế dễ sử dụng, hệ thống không yêu cầu kiến thức chuyên môn về ngôn ngữ ký hiệu, phù hợp với mọi đối tượng người dùng Khả năng hoạt động trong thời gian thực giúp người dùng giao tiếp nhanh chóng, tiện lợi và tiết kiệm thời gian Hơn nữa, hệ thống có thể được áp dụng rộng rãi trong các lĩnh vực như giáo dục, y tế và giải trí, từ đó mang lại lợi ích thiết thực và nâng cao chất lượng cuộc sống cho người khiếm thính - khiếm thị.

Hệ thống hiện tại vẫn còn một số hạn chế cần cải thiện, trong đó độ chính xác của nó phụ thuộc vào chất lượng dữ liệu và mô hình huấn luyện.

Để nâng cao hiệu quả nhận diện, việc tối ưu hóa và cập nhật liên tục là rất cần thiết Các vấn đề như nhận diện thủ ngữ phức tạp và hoạt động trong môi trường ánh sáng yếu cần được giải quyết thông qua cải tiến thuật toán và dữ liệu Hệ thống cũng cần được hoàn thiện để có khả năng nhận diện và dịch thuật đa dạng các thủ ngữ trên toàn cầu, nhằm đáp ứng nhu cầu giao tiếp của người khiếm thính và khiếm thị ở mọi quốc gia.

THIẾT KẾ PHẦN CỨNG

3.3.1 Chức năng của phần cứng

Trong hệ thống nhận diện thủ ngữ hỗ trợ người khiếm thính và khiếm thị, phần cứng đóng vai trò quan trọng Các thành phần chính của hệ thống bao gồm camera, micro, bộ xử lý và các thiết bị đầu ra.

Camera ghi lại hình ảnh và video cử chỉ tay từ người dùng, sau đó dữ liệu này được truyền đến bộ xử lý Tại đây, các bước tiền xử lý như cân bằng sáng, lọc nhiễu và định dạng dữ liệu được thực hiện để chuẩn bị cho quá trình nhận diện.

Bộ xử lý tiếp theo là trái tim của hệ thống, vận hành mô hình nhận diện thủ ngữ trong thời gian thực Với các thuật toán và mô hình học máy tiên tiến, bộ xử lý này có khả năng nhận diện thủ ngữ một cách chính xác và nhanh chóng Sau khi nhận diện, dữ liệu sẽ được chuyển đến bộ xử lý ngôn ngữ ký hiệu để chuyển đổi thành ngôn ngữ nói hoặc viết.

Kết quả nhận diện, bao gồm giọng nói và văn bản, được gửi đến các thiết bị đầu ra như loa hoặc màn hình, giúp người khiếm thính và khiếm thị tiếp nhận thông tin một cách dễ dàng và thuận tiện.

Bộ xử lý có nhiệm vụ quan trọng trong việc tiếp nhận và xử lý dữ liệu đầu vào từ người dùng, bao gồm văn bản và hình ảnh, sau đó chuyển đổi chúng thành video.

31 động mô phỏng cử chỉ tay giúp người khiếm thính - khiếm thị hiểu rõ hơn về thông điệp và tương tác tự nhiên hơn.

Hệ thống này kết hợp nhiều thành phần phần cứng, cho phép nhận diện và chuyển đổi thủ ngữ thành ngôn ngữ, tạo ra môi trường giao tiếp thuận tiện cho người khiếm thính - khiếm thị Nhờ đó, họ có thể hòa nhập vào cộng đồng một cách tự tin và hiệu quả.

3.3.2 Sơ đồ khối phần cứng

Hệ thống được xây dựng từ 4 khối chính như hình 3.2:

Hình 3.2 Sơ đồ khối hệ thống sử dụng thuật toán YOLO nhận diện thủ ngữ hỗ trợ giao tiếp cho người khuyết tật

Khối Xử Lý Trung Tâm có nhiệm vụ quan trọng trong việc xử lý dữ liệu thu thập từ khối Thu Thập Dữ Liệu Sau khi xử lý, thông tin sẽ được hiển thị trên Khối Hiển Thị và Âm Thanh, đồng thời truyền tín hiệu trở lại Khối Thu Thập Dữ Liệu để đảm bảo sự liên kết và hoạt động hiệu quả của toàn hệ thống.

Khối Hiển Thị Âm Thanh bao gồm màn hình LCD 7 inch và loa, nơi hiển thị các kết quả sau quá trình xử lý từ Khối Xử Lý Trung Tâm.

Khối Thu Thập Dữ Liệu bao gồm hai nguồn chính là Camera và Micro để thu thập dữ liệu Dữ liệu sau khi được thu thập sẽ được truyền đến Khối Xử Lý Trung Tâm thông qua kết nối USB để tiến hành xử lý.

Khối Nút Nhấn là phần quan trọng cho phép người dùng tương tác để bắt đầu hoặc dừng quá trình ghi âm và nhận diện Các nút như Record và Submit giúp người dùng dễ dàng điều khiển hệ thống, mang lại trải nghiệm sử dụng thuận tiện và hiệu quả.

Khối Nguồn : đảm nhiệm vai trò cấp nguồn đến các khối còn lại của hệ thống

3.3.3 Thiết kế từng khối a) Khối xử lý trung tâm

Hệ thống sử dụng máy tính nhúng Jetson Nano làm bộ xử lý trung tâm để thực thi mô hình nhận diện thủ ngữ, giúp giao tiếp với người khiếm thính - khiếm thị qua Video Realtime Nếu cần tiết kiệm chi phí, có thể sử dụng Raspberry Pi Zero, nhưng điều này có thể hạn chế khả năng xử lý các tác vụ phức tạp và yêu cầu nghiên cứu thêm để tối ưu hóa hiệu suất hoạt động.

Hình 3.3 Hình ảnh máy tính nhúng Jetson Nano thực hiện xử lý chính

Bộ phát triển Jetson Nano B01 được trang bị 2 camera MIPI CSI-2 DPHY lanes, nâng cao khả năng nhận diện và xử lý hình ảnh Với GPU cải tiến gồm 128 nhân CUDA và CPU ARM Cortex-A57 quad-core @ 1.43 GHz, thiết bị này mang lại hiệu suất tính toán mạnh mẽ.

Jetson Nano sở hữu bộ nhớ 4 GB LPDDR4 64-bit với tốc độ 25.6 GB/s, cùng với khả năng lưu trữ qua microSD (không bao gồm) Thiết bị này hỗ trợ mã hóa video lên đến 4K @ 30fps và giải mã video với độ phân giải tối đa 4K @ 60fps.

Hệ thống cũng có các tính năng kết nối như Gigabit Ethernet và M.2 Key

E, cùng với các cổng USB bao gồm 4 cổng USB 3.0 và cổng USB 2.0 Micro-B

Hỗ trợ các giao tiếp khác như GPIO, I2C, I2S, SPI, UART giúp tương thích với nhiều thiết bị khác nhau

Với kích thước chỉ 69 mm x 45 mm và cổng kết nối 260-pin, Jetson Nano mang đến giải pháp linh hoạt và mạnh mẽ cho nhiều ứng dụng khác nhau.

THIẾT KẾ PHẦN MỀM

3.4.1 Chức năng hoạt động của phần mềm

Phần mềm sử dụng thuật toán YOLO để nhận diện thủ ngữ, hỗ trợ giao tiếp cho người khiếm thính - khiếm thị có các chức năng chính sau đây:

Chức năng đầu tiên của phần mềm là nhận diện thủ ngữ theo thời gian thực Nó sử dụng camera để ghi lại hình ảnh hoặc video của các thủ ngữ, sau đó áp dụng thuật toán YOLO để phân tích và nhận diện các ký hiệu ngay lập tức.

Phần mềm có khả năng chuyển đổi thủ ngữ thành văn bản, giúp nhận diện và hiển thị các thủ ngữ tương ứng trên màn hình hoặc lưu vào file để người dùng dễ dàng đọc.

Phần mềm hỗ trợ người khiếm thị bằng cách chuyển đổi thủ ngữ thành âm thanh thông qua công nghệ chuyển văn bản thành giọng nói (Text-to-Speech), giúp đọc to nội dung đã được nhận diện.

Phần mềm có giao diện thân thiện và dễ sử dụng, giúp người dùng thao tác một cách đơn giản và hiệu quả Nó còn cung cấp các chức năng bổ sung như điều chỉnh độ nhạy và thay đổi ngôn ngữ ký hiệu, mang lại trải nghiệm tốt hơn cho người dùng.

Phần mềm hỗ trợ tùy biến và học máy, cho phép người dùng thêm mới hoặc điều chỉnh các thủ ngữ theo nhu cầu giao tiếp cá nhân Các mô hình học máy sẽ nâng cao độ chính xác và khả năng nhận diện qua thời gian.

3.4.2 Thiết kế ứng dụng người dùng

Phần mềm này có giao diện người dùng thân thiện, giúp người dùng khiếm thính và khiếm thị tương tác dễ dàng với môi trường xung quanh Nó hiển thị thông tin từ camera, kí tự tay và giọng nói, với các phần được phân chia rõ ràng, mỗi phần thể hiện một tính năng quan trọng của phần mềm.

Phần camera view là yếu tố chính trong giao diện, giúp người dùng dễ dàng quan sát môi trường xung quanh một cách trực tiếp Hình ảnh từ camera được hiển thị rõ nét và mịn màng, cho phép người dùng xem chi tiết hoặc tập trung vào một khu vực cụ thể.

Khu vực hiển thị thủ ngữ được tối ưu hóa để nhận diện và trình bày các ký hiệu từ ngôn ngữ ký hiệu một cách sinh động và rõ ràng Điều này mang lại cho người dùng khiếm thính và khiếm thị một công cụ hữu ích, giúp họ giao tiếp và tương tác hiệu quả trong cuộc sống hàng ngày.

Khu vực hiển thị kết quả từ giọng nói cho phép người dùng chuyển đổi giọng nói thành văn bản hoặc lệnh trên giao diện một cách tức thì và dễ hiểu, hỗ trợ giao tiếp và thực hiện tác vụ Để nâng cao sự tiện lợi, các nút và phím tắt được bố trí ở vị trí dễ tiếp cận và dễ nhìn Các chức năng quan trọng như bắt đầu và dừng camera, nhận dạng ký tự và giọng nói đều có thể thực hiện qua các thao tác đơn giản.

Giao diện đã được tối ưu hóa để hỗ trợ người dùng khiếm thị, với các yếu tố tương tác dễ đọc và dễ tiếp cận Kích thước chữ được tăng cường và màu sắc được điều chỉnh để tạo ra độ tương phản cao, giúp người dùng dễ dàng đọc và tương tác một cách thoải mái.

Hệ thống hỗ trợ giao tiếp cho người khiếm thính và khiếm thị được minh họa qua lưu đồ dưới đây, sử dụng thuật toán YOLO để nhận diện thủ ngữ và biểu cảm khuôn mặt Hệ thống được phân chia thành hai luồng, mỗi luồng đảm nhận một chức năng riêng biệt Khối khởi tạo là bước đầu tiên trong quy trình hoạt động của hệ thống.

Lưu đồ mô tả quy trình khởi tạo hệ thống hỗ trợ giao tiếp cho người khiếm thính, sử dụng thuật toán YOLO để nhận diện thủ ngữ và biểu cảm khuôn mặt, nhằm nâng cao khả năng giao tiếp của người dùng Nó tập trung vào giai đoạn khởi động và thiết lập các thành phần chính của hệ thống, bao gồm kiểm tra thiết bị và khởi tạo các thành phần giao diện cùng camera.

Hình 3.6 Khối khởi tạo thực hiện việc hệ thống chọn vi xử lý

Khối này bắt đầu bằng việc kiểm tra hỗ trợ CUDA (Compute Unified Device Architecture) trên thiết bị; nếu không có, hệ thống sẽ sử dụng CPU, ngược lại sẽ tối ưu hóa hiệu suất bằng GPU Việc kiểm tra này rất quan trọng để đảm bảo phần mềm hoạt động hiệu quả trên nhiều loại phần cứng Sau đó, hệ thống khởi tạo thư viện PyQt để tạo giao diện người dùng, giúp xây dựng ứng dụng đồ họa phong phú và trực quan Cửa sổ chính của ứng dụng sẽ được tạo ra với các thành phần giao diện như menu, thanh công cụ và nút điều khiển, đảm bảo trải nghiệm người dùng tốt nhất Cuối cùng, hệ thống kết nối và khởi tạo camera để thu thập hình ảnh, kiểm tra kết nối và thiết lập các thông số cần thiết nhằm đảm bảo chất lượng hình ảnh, chuẩn bị cho các bước tiếp theo như nhận diện thủ ngữ.

44 b) Khối giao tiếp giữa người bình thường với người khuyết tật

Quy trình ghi âm và xử lý âm thanh trong hệ thống hỗ trợ giao tiếp cho người khiếm thính - khiếm thị được mô tả trong lưu đồ dưới đây Quy trình này chuyển đổi âm thanh thành văn bản và hiển thị hình ảnh tương ứng với các từ trong văn bản, giúp người dùng giao tiếp dễ dàng và hiểu thông tin thông qua hình ảnh và văn bản.

Hình 3.7 Nhánh lưu đồ thực hiện chuyển đổi từ người bình thường sang người khuyết tật

Người dùng bắt đầu ghi âm bằng cách nhấn nút Record trên giao diện, giúp hệ thống thu thập dữ liệu âm thanh từ môi trường xung quanh Quá trình ghi âm diễn ra liên tục cho đến khi có tín hiệu dừng hoặc đạt thời gian tối đa (timeout) Nếu người dùng nhấn nút Stop Record, hệ thống sẽ dừng ghi âm và lưu trữ đoạn ghi âm để xử lý tiếp theo Sau khi ghi âm, hệ thống sử dụng công nghệ nhận diện giọng nói (speech-to-text) để chuyển đổi âm thanh thành văn bản, giúp phân tích thông tin dễ dàng hơn Văn bản được phân tích thành các từ và cụm từ, tạo điều kiện cho việc tìm kiếm hình ảnh tương ứng Hệ thống sẽ tra cứu cơ sở dữ liệu hình ảnh để xác định hình ảnh phù hợp, giúp người dùng hiểu và tương tác với thông tin hiệu quả Cuối cùng, các hình ảnh được hiển thị trên giao diện người dùng một cách trực quan, đảm bảo rằng mọi người, bao gồm cả người khuyết tật, đều có thể dễ dàng nắm bắt thông tin.

47 c) Khối giao tiếp giữa người khuyết tật với người bình thường

Tiêu đề	Sử Dụng Thuật Toán Yolo Nhận Diện Thủ Ngữ Hỗ Trợ Giao Tiếp Cho Người Khiếm Thính - Khiếm Thị
Tác giả	Nguyễn Xuân Hải, Phạm Hữu Nghĩa
Người hướng dẫn	PGS. TS. Trương Ngọc Sơn
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Kỹ Thuật Máy Tính
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	80
Dung lượng	3,66 MB