Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,48 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VĂN LANG KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN ĐỀ TÀI: XÂY DỰNG MÔ HÌNH NHẬN DIỆN CHỮ QUA NGÔ N NGỮ TAY Ngành: Công nghệ thông tin Môn học phần: Thị Giác Máy Tính Giảng viên hướng dẫn : T.S Phùng Thế Bảo T.S Đỗ Hữu Quân Do nhóm 27 thực hiện, bao gồm : Nguyễn Văn Tiến – 2174802010901 Nguyễn Lê Thiên Phúc – 2174802010888 Phan Minh Phúc - 2174802010777 Nguyễn Thái Tuấn - 2174802010283 LỜI CẢM ƠN Chúng em xin gửi lời cảm ơn chân thành đến thầy Phùng Thế Bảo thầy Đỗ Hữu Quân - người đảm nhiệm dạy môn Thị Giác Máy Tính học kì khoa Cơng nghệ thơng tin trường Đại học Văn Lang, tận tình hướng dẫn dẫn nhóm chúng em q trình thực báo cáo tiểu luận xây dựng đồ án Dù thời gian có hạn, nhờ giúp đỡ thầy, chúng em hoàn thành báo cáo đạt kết mong muốn trình nghiên cứu Chúng em chân thành xin lỗi có số sai sót khuyết điểm có đồ án chúng em Chúng em trân trọng biết ơn kiên nhẫn, hỗ trợ động viên thầy Những lời khuyên hướng dẫn thầy giúp chúng em tiến phát triển kỹ nghiên cứu giải vấn đề Chúng em cảm thấy may mắn tự hào làm việc học tập dẫn thầy tận tình giàu kinh nghiệm Một lần nữa, chúng em xin chân thành cảm ơn mong thầy khỏe mạnh, hạnh phúc thành công nghiệp giảng dạy Ngày 29/10/2023 Nhóm sinh viên MỤC LỤC LỜI CẢM ƠN MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu tổng quan nghiên cứu : 1.2 Các nghiên cứu liên quan và kết quả đã đạt được : CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan thuật toán Object Detection : .6 2.1.1 Khái niệm thuật toán Object Detection : 2.1.2 Nguyên lý hoạt động : 2.2 Mơ hình kết hợp : .11 2.3 Đánh giá mơ hình : 16 CHƯƠNG 3: TRIỂN KHAI MƠ HÌNH 18 3.1 Cơng cụ để xây dựng mơ hình : 18 3.2 Thực Hiện : 19 3.2.1 Train : 19 3.2.2 Khởi tạo code nhận diện : 20 3.2.3 Chạy thử : .23 3.2.4 Kết đạt : .24 CHƯƠNG 4: KẾT LUẬN 27 TÀI LIỆU THAM KHẢO 30 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu tổng quan nghiên cứu : Việc chọn đề tài "Xây dựng hệ thống nhận diện ngôn ngữ ký hiệu tay" có số lý quan trọng : Giao tiếp cho người khuyết tật: Ngôn ngữ ký hiệu tay hình thức giao tiếp quan trọng cho người khuyết tật ngôn ngữ, người điếc câm Xây dựng hệ thống nhận diện ngôn ngữ ký hiệu tay cung cấp cho họ phương pháp giao tiếp hiệu tăng cường khả tương tác xã hội họ Tiện ích lĩnh vực giáo dục: Hệ thống nhận diện ngôn ngữ ký hiệu tay áp dụng lĩnh vực giáo dục, giúp giáo viên học sinh có khả ngơn ngữ hạn chế tương tác truyền đạt thông tin cách dễ dàng hiệu Điều tạo mơi trường học tập đa dạng bình đẳng cho tất học sinh Sự phát triển trí tuệ nhân tạo: Xây dựng hệ thống nhận diện ngôn ngữ ký hiệu tay đòi hỏi kết hợp kỹ thuật máy học, xử lý hình ảnh trí tuệ nhân tạo Nghiên cứu phát triển lĩnh vực đóng góp vào tiến trí tuệ nhân tạo mở nhiều hội cho ứng dụng tương tự khác Sự cần thiết tiềm thị trường: Có nhu cầu ngày tăng hệ thống nhận diện ngôn ngữ ký hiệu tay để phục vụ cộng đồng người khuyết tật giáo dục Việc xây dựng hệ thống nhận diện xác hiệu có tiềm thị trường lớn mang lại lợi ích đáng kể từ mặt kinh tế xã hội Với lý trên, đề tài "Xây dựng hệ thống nhận diện ngôn ngữ ký hiệu tay" có cần thiết tiềm để đóng góp vào việc cải thiện sống tương tác xã hội người có khuyết tật ngơn ngữ mở hội phát triển lĩnh vực trí tuệ nhân tạo 1.2 Các nghiên cứu liên quan và kết quả đã đạt được : Có nhiều nghiên cứu liên quan đến việc nhận diện ngôn ngữ ký hiệu tay đạt số kết đáng ý : Nghiên cứu học sâu mạng nơ-ron: Các mơ hình học sâu mạng nơ-ron sử dụng việc nhận diện ngôn ngữ ký hiệu tay đạt nhiều kết đáng ý Ví dụ, nghiên cứu áp dụng mạng nơ-ron tích chập (CNN) mạng nơ-ron hồi quy (RNN) để nhận diện ký hiệu tay đạt độ xác cao Sử dụng phương pháp xử lý hình ảnh: Các phương pháp xử lý hình ảnh, trích xuất đặc trưng, phân đoạn hình ảnh phân loại, áp dụng để nhận diện dịch ký hiệu tay Các kết cho thấy việc sử dụng phương pháp cải thiện đáng kể độ xác hệ thống Kỹ thuật học tăng cường: Kỹ thuật học tăng cường (reinforcement learning) sử dụng để cải thiện khả nhận diện dịch ngôn ngữ ký hiệu tay Bằng cách tạo môi trường tương tác hệ thống người dùng, học tăng cường cải thiện hiệu suất tương tác hệ thống Áp dụng trí tuệ nhân tạo thời gian thực: Một số nghiên cứu tập trung vào việc phát triển hệ thống nhận diện ngôn ngữ ký hiệu tay thời gian thực Điều địi hỏi việc xử lý nhanh chóng hiệu liệu đầu vào để đảm bảo phản hồi thời gian thực tương tác trực tiếp với người dùng Tuy nhiên, cần lưu ý việc nhận diện dịch ngôn ngữ ký hiệu tay lĩnh vực nghiên cứu phát triển nhiều thách thức cần vượt qua Các kết đạt cho thấy tiềm hy vọng việc ứng dụng trí tuệ nhân tạo để cải thiện giao tiếp tương tác người khuyết tật ngôn ngữ CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan thuật toán Object Detection : Thuật toán Object Detection phương pháp lĩnh vực Computer Vision (Thị giác máy tính) để phát xác định vị trí đối tượng hình ảnh video Trong trường hợp nhận diện chữ qua ngơn ngữ tay, Object Detection áp dụng để xác định vị trí chữ cái, chữ số từ ngữ hình ảnh video chứa ngơn ngữ tay Các thuật tốn dựa học máy, sử dụng kỹ thuật thị giác máy tính để trích xuất đặc trưng hình ảnh, biểu đồ màu, cạnh, góc, v.v Các đặc trưng sau đưa vào mơ hình hồi quy để dự đốn vị trí nhãn đối tượng Các thuật toán dựa học sâu, sử dụng mạng nơ-ron tích chập để học cách phát đối tượng từ đầu đến cuối, không cần phải xác định trích xuất đặc trưng riêng biệt Các mạng nơ-ron tích chập có khả học đặc trưng phức tạp trừu tượng hình ảnh, từ cải thiện độ xác tốc độ toán Điểm mạnh thuật toán Object Detection khả xử lý đối tượng hình ảnh video cách song song hiệu Điều làm cho trở thành công cụ mạnh mẽ việc nhận diện chữ qua ngơn ngữ tay ứng dụng nhiều lĩnh vực nhận diện biển số xe, phát giao dịch gian lận, nhận diện chữ viết tay nhiều ứng dụng khác 2.1.1 Khái niệm thuật toán Object Detection : Thuật toán Object Detection nhận diện chữ qua ngôn ngữ tay l quy trình tính tốn để xác định vị trí nhận dạng chữ cái, chữ số từ ngữ hình ảnh video chứa ngơn ngữ tay N hiệm vụ thuật tốn tìm đối tượng hình ảnh xác định vùng chứa chữ để phân loại đọc chúng Thu thập chuẩn bị tập liệu gồm hình ảnh video chứa ngôn ngữ tay gắn nhãn cho chữ cái, chữ số từ ngữ cần n hận diện Việc gắn nhãn bao gồm xác định vị trí đường bao quan h chữ hình ảnh Xây dựng mơ hình Object Detection: Xây dựng mơ hình Object Detection sử dụng kiến trúc mạng neural Faster R-CNN, YOLO SSD (Single Shot MultiBox Detector) Mơ hình huấn luyện để nhận diện xác định vị trí chữ cái, chữ số từ ngữ hình ảnh Sử dụng tập liệu gắn nhãn, huấn luyện mơ hình Object Detection để điều chỉnh trọng số mạng neural Q trình huấn luyện nhằm tối ưu hóa mơ hình để có khả nhận diện xác định vị trí xác chữ hình ảnh video.Kiểm tra đánh giá: Kiểm tra hiệu suất mô hình tập liệu kiểm tra độc lập để đánh giá độ xác độ phủ thuật tốn Các độ đo độ xác, độ phủ (recall) F1-score sử dụng để đánh giá hiệu suất mơ hình.Áp dụng nhận diện chữ qua ngơn ngữ tay: Áp dụng mơ hình huấn luyện vào việc nhận diện chữ qua ngôn ngữ tay Đưa vào hình ảnh video chứa ngơn ngữ tay, mơ hình phát xác định vị trí chữ cái, chữ số từ ngữ hình ảnh video Thuật tốn Object Detection nhận diện chữ qua ngơn ngữ tay áp dụng nhiều ứng dụng như: trích xuất thơng tin từ hình ảnh chữ viết tay, hỗ trợ cơng việc phiên dịch ngôn ngữ tay, xử lý phân loại liệu từ tài liệu viết tay, nhiều ứng dụng khác liên quan đến xử lý ngôn ngữ tay 2.1.2 Nguyên lý hoạt động : Object Detection công nghệ lĩnh vực thị giác máy tính, nhằm mục đích xác định nhận dạng đối tượng hình ảnh video Khi áp dụng vào nhận diện chữ qua ngôn ngữ tay, Object Detection sử dụng để xác định vị trí nhận biết từ cụm từ ngôn ngữ tay Nguyên lý hoạt động Object Detection nhận diện chữ qua ngôn ngữ tay thường bao gồm bước sau: Chuẩn bị liệu: Đầu tiên, tập liệu huấn luyện tạo Tập liệu bao gồm hình ảnh video chứa chữ viết tay, đối tượng chữ gắn nhãn (label) với vị trí loại chữ tương ứng Xác định vị trí đối tượng: Một mơ hình Object Detection huấn luyện áp dụng vào hình ảnh video cần nhận diện chữ Mơ hình qt qua phần tử hình ảnh xác định vị trí đối tượng chữ có Phân loại chữ: Sau xác định vị trí đối tượng chữ, mơ hình tiến hành phân loại chữ theo đối tượng Điều thực Xác định Vị trí Từ ngữ: - Các thuật tốn Object Detection giúp xác định vị trí độ xác từ ngữ viết tay hình ảnh video Nhận diện Biểu Tượng hay Ký hiệu Đặc biệt: - Đối với văn chứa biểu tượng hay ký hiệu đặc biệt, Object Detection áp dụng để phát xác định vị trí chúng 2.3 Đánh giá mơ hình : Mơ hình nhận diện chữ qua ngơn ngữ tay tốn thú vị có nhiều ứng dụng thực tế, giúp người khiếm thính giao tiếp với máy tính, hỗ trợ dạy học ngơn ngữ tay, hay tạo trị chơi giải trí Tuy nhiên, tốn gặp nhiều thách thức, đa dạng ký hiệu ngôn ngữ tay, khác biệt cách viết tay cá nhân, hay phức tạp đặc trưng hình ảnh Đánh giá mơ hình nhận diện chữ qua ngôn ngữ tay phụ thuộc vào nhiều yếu tố, bao gồm độ xác, tốc độ xử lý, khả nhận dạng đa ngôn ngữ, khả hoạt động điều kiện ánh sáng khác Hiệu suất: Mơ hình cần sử dụng tài ngun tính tốn nhớ để đảm bảo hiệu suất tốt thiết bị có tài nguyên hạn chế điện thoại di động máy tính nhúng Để giải toán này, nhiều nghiên cứu sử dụng kỹ thuật học sâu, đặc biệt mạng nơ-ron tích chập (CNN), để học cách phát nhận diện ký hiệu ngôn ngữ tay từ hình ảnh video Các mạng nơ-ron tích chập có khả học 16 đặc trưng phức tạp trừu tượng hình ảnh, từ cải thiện độ xác tốc độ tốn CHƯƠNG 3: TRIỂN KHAI MƠ HÌNH 3.1 Cơng cụ để xây dựng mơ hình : Opencv-Python Keras Tensorflow Malplotlib Pandas Pillow 17 Sklearn 18 3.2 Thực Hiện : 3.2.1 Train : -Ta chuẩn bị sẵn ảnh đầu vào ảnh bàn tay thực ký tự nói lưu thư mục Data Các ảnh gán nhã n đầy đủ tên file -Ta thực chuyển ảnh size 224 x224 đưa qua mạng VGG16 thêm vài layer Dense (Fully Connect) cuối cù ng lớp softmax để dự đoán kết đầu -Ta thực train mạng với khoảng 2000 ảnh trai n gần 300 ảnh test 19 3.2.2 Khởi tạo code nhận diện : 20 21 22 3.2.3 Chạy thử : -Ta thực mở Webcam khoanh vùng phát bàn tay t rong vùng Gọi detection region -Người dùng bỏ tay khỏi vùng detection region nhấn phím B đ ể máy thu nhận vùng Nếu muốn thu nhận lại nền, người dù ng bấm phím R -Người dùng đưa tay vào vùng detection (sau capture n ền) tạo thành hình ký tự -Model hiển thị ký tự hình -Người dùng bấm Q để thoát 23 3.2.4 Kết đạt : 24 25 26 CHƯƠNG 4: KẾT LUẬN Ưu nhược điểm mơ hình : Mơ hình kết hợp mơ hình học sâu phổ biến hiệu toán nhận diện kí hiệu chữ tay Mơ hình có số ưu điểm nhược điểm sau : Ưu điểm : Mơ hình có khả học đặc trưng phức tạp trừu tượng hình ảnh, từ cải thiện độ xác tốc độ tốn Có cấu trúc linh hoạt, thêm, bớt điều chỉnh lớp tích chập, kết nối đầy đủ, tổng hợp, kích hoạt, v.v để phù hợp với toán cụ thể Cho phép điề u chỉnh lớp tham số để tối ưu hóa cho yêu 27 cầu cụ thể tốn Việc giúp thích ứng tốt với nhiều loại liệu ngữ cảnh khác Có tính bất biến khơng gian, tức nhận diện kí hiệu chữ tay dù chúng có bị dịch chuyển, xoay, co giãn hay biến dạng hình ảnh Mơ hình hiệu q uả việc nhận diện kí hiệu chữ tay hình ảnh có biến động khơng gian, dịch chu yển, xoay, co giãn, hay biến dạng Điều giúp d uy trì tính ổn định điều kiện khác Có tính kết hợp, tức kết hợp đặc trưng cục để tạo đặc trưng toàn cục, từ giúp nhận diện kí hiệu chữ tay cách hiệu Giú p hiểu mối quan hệ phần khác kí hiệu chữ tay Điều cung cấp thơng tin tồn diện cho trình nhận diện Nhược điểm : Cần nhiều liệu để huấn luyện, không dễ bị khớp (overfitting) thiếu khớp (underfitting) Thiếu liệu dẫn đến tượng mơ hình khơn g hiệu Cần nhiều tham số để huấn luyện, không dễ bị mát thơng tin (information loss) tăng độ phức tạp tính toán Đặc biệt sử dụng GPU Điều 28 tạo thách thức việc triển khai mơ h ình thiết bị có tài nguyên hạn chế Cần nhiều tài nguyên phần cứng để huấn luyện, đặc biệt GPU, không nhiều thời gian cơng sức Điều tăng chi phí làm tăng độ phức tạp q trình phát triển mơ hình Khó giải thích chế hoạt động bên trong, điều làm giảm khả đánh giá độ tin cậy minh bạch mơ hình, đặc biệt áp dụng cá c ứng dụng quan trọng có yêu cầu cao giải thích Hết 29 TÀI LIỆU THAM KHẢO BÀI 01 - THUẬT TOÁN OBJECT DETECTION - Lập trình - Khoa Cơng nghệ thơng tin - Đại học Duy Tân (duytan.edu.vn) Lập trình hướng đối tượng Python nguyên lý - Blog | Got It Vietnam (got-it.ai) [Object Detection Part 1] Cùng tìm hiểu thuật ngữ "khó nhằn" AI (viblo.asia) https://www.miai.vn/2019/09/30/xay-dung-he-thong-nhan-dien-thu-ngu-ngon-nguky-hieu-tay-de-giao-tiep-voi-nguoi-khuyet-tat/ https://www.kaggle.com/code/nguyentien17/write-your-own-logistic-regression/edit https://www.kaggle.com/code/nguyentien17/sign-language-model-training-fornumbers/edit https://www.kaggle.com/datasets/muhammadkhalid/sign-language-for-numbers/data 30