(Đồ án hcmute) nghiên cứu, phát triển hệ thống hỗ trợ người khiếm thính ứng dụng trí tuệ nhân tạo

106 0 0
(Đồ án hcmute) nghiên cứu, phát triển hệ thống hỗ trợ người khiếm thính ứng dụng trí tuệ nhân tạo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CNKT CƠ ĐIỆN TỬ NGHIÊN CỨU, PHÁT TRIỂN HỆ THỐNG HỖ TRỢ NGƯỜI KHIẾM THÍNH ỨNG DỤNG TRÍ TUỆ NHÂN TẠO GVHD: TS NGUYỄN NGỌC PHƯƠNG SVTH: BÙI VĨNH HỒNG PHÚC TỐNG NHẬT HÀO HỒ NGỌC NGHĨA S K L0 3 Tp Hồ Chí Minh, 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH KHOA CƠ KHÍ CHẾ TẠO MÁY BỘ MÔN CƠ ĐIỆN TỬ ĐỒ ÁN TỐT NGHIỆP NGHIÊN CỨU, PHÁT TRIỂN HỆ THỐNG HỖ TRỢ NGƯỜI KHIẾM THÍNH ỨNG DỤNG TRÍ TUỆ NHÂN TẠO GVHD : SVTH : MSSV : SVTH : MSSV : SVTH : MSSV : Khóa : Ngành : PGS TS Nguyễn Ngọc Phương Bùi Vĩnh Hồng Đức 18146287 Tống Nhật Hào 18146289 Hồ Ngọc Nghĩa 18146346 2018 – 2022 CNKT CƠ ĐIỆN TỬ Tp Hồ Chí Minh, tháng 02 năm 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH KHOA CƠ KHÍ CHẾ TẠO MÁY BỘ MÔN CƠ ĐIỆN TỬ ĐỒ ÁN TỐT NGHIỆP NGHIÊN CỨU, PHÁT TRIỂN HỆ THỐNG HỖ TRỢ NGƯỜI KHIẾM THÍNH ỨNG DỤNG TRÍ TUỆ NHÂN TẠO GVHD : SVTH : MSSV : SVTH : MSSV : SVTH : MSSV : Khóa : Ngành : PGS TS Nguyễn Ngọc Phương Bùi Vĩnh Hồng Đức 18146287 Tống Nhật Hào 18146289 Hồ Ngọc Nghĩa 18146346 2018 – 2022 CNKT CƠ ĐIỆN TỬ Tp Hồ Chí Minh, tháng 02 năm 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CƠ KHÍ CHẾ TẠO MÁY Độc lập - Tự – Hạnh phúc PHIẾU NHẬN XÉT ĐỒ ÁN TỐT NGHIỆP (Dành cho giảng viên hướng dẫn) Họ tên sinh viên………………………………… MSSV:…………… Hội đồng:………… Họ tên sinh viên………………………………… MSSV:…………… Hội đồng:………… Họ tên sinh viên………………………………… MSSV:…………… Hội đồng:………… Họ tên sinh viên………………………………… MSSV:…………… Hội đồng:………… Mã đề tài: Tên đề tài: Ngành đào tạo: Họ tên GV hướng dẫn: Ý KIẾN NHẬN XÉT Nhận xét tinh thần, thái độ làm việc sinh viên Nhận xét kết thực ĐATN 2.1.Kết cấu, cách thức trình bày ĐATN: 2.2 Nội dung đồ án: (Cơ sở lý luận, tính thực tiễn khả ứng dụng đồ án, hướng nghiên cứu tiếp tục phát triển) i 2.3.Kết đạt được: 2.4 Những tồn (nếu có): Đánh giá: Mục đánh giá TT Điểm tối đa Hình thức kết cấu ĐATN 30 Đúng format với đầy đủ hình thức nội dung mục 10 Mục tiêu, nhiệm vụ, tổng quan đề tài 10 Tính cấp thiết đề tài 10 Nội dung ĐATN 50 Khả ứng dụng kiến thức toán học, khoa học kỹ thuật, khoa học xã hội… Khả thực hiện/phân tích/tổng hợp/đánh giá 10 Khả thiết kế chế tạo hệ thống, thành phần, quy trình đáp ứng yêu cầu đưa với ràng buộc thực tế 15 Khả cải tiến phát triển 15 Khả sử dụng công cụ kỹ thuật, phần mềm chuyên ngành… Đánh giá khả ứng dụng đề tài 10 Sản phẩm cụ thể ĐATN 10 Tổng điểm Điểm đạt 100 Kết luận:  Được phép bảo vệ  Không phép bảo vệ ii TP.HCM, ngày tháng năm 20… Giảng viên hướng dẫn ((Ký, ghi rõ họ tên) iii TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CƠ KHÍ CHẾ TẠO MÁY Độc lập - Tự – Hạnh phúc PHIẾU NHẬN XÉT ĐỒ ÁN TỐT NGHIỆP (Dành cho giảng viên phản biện) Họ tên sinh viên………………………………… MSSV:…………… Hội đồng:………… Họ tên sinh viên………………………………… MSSV:…………… Hội đồng:………… Họ tên sinh viên………………………………… MSSV:…………… Hội đồng:………… Mã đề tài: Tên đề tài: Ngành đào tạo: Họ tên GV phản biện: Ý KIẾN NHẬN XÉT Kết cấu, cách thức trình bày ĐATN: Nội dung đồ án: (Cơ sở lý luận, tính thực tiễn khả ứng dụng đồ án, hướng nghiên cứu tiếp tục phát triển) 3.Kết đạt được: iv Những tồn (nếu có): Câu hỏi: Đánh giá: Mục đánh giá TT Điểm tối đa Hình thức kết cấu ĐATN 30 Đúng format với đầy đủ hình thức nội dung mục 10 Mục tiêu, nhiệm vụ, tổng quan đề tài 10 Tính cấp thiết đề tài 10 Nội dung ĐATN 50 Khả ứng dụng kiến thức toán học, khoa học kỹ thuật, khoa học xã hội… Khả thực hiện/phân tích/tổng hợp/đánh giá 10 Khả thiết kế chế tạo hệ thống, thành phần, quy trình đáp ứng yêu cầu đưa với ràng buộc thực tế 15 Khả cải tiến phát triển 15 Khả sử dụng công cụ kỹ thuật, phần mềm chuyên ngành… Đánh giá khả ứng dụng đề tài 10 Sản phẩm cụ thể ĐATN 10 Tổng điểm Điểm đạt 100 v Kết luận:  Được phép bảo vệ  Không phép bảo vệ TP.HCM, ngày tháng năm 20… Giảng viên hướng dẫn ((Ký, ghi rõ họ tên) vi LỜI CẢM ƠN Lời nhóm em xin gửi lời cảm ơn chân thành đến trường Đại học Sư phạm Kĩ thuật Thành phố Hồ Chí Minh Khoa Cơ khí Chế tạo máy tạo điều kiện hội để chúng em thực đề tài tốt nghiệp Đề tài nhóm nội dung kiến thức lý thuyết thực tiễn mà chúng em giới thiệu, giảng dạy từ thầy (cô), anh (chị) quãng thời gian theo học trường đồng thời kết hợp với tìm tịi, nghiên cứu, xây dựng tổng hợp kiến thức mà chúng em tích góp q trình học tập Nhóm em nhận nhiều quan tâm, giúp đỡ từ quý thầy cô, anh chị bạn giúp chúng em áp dụng điều học vào q trình phát triển hồn thiện đề tài Và chúng em xin gửi lời cảm ơn chân thành đến với: Giảng viên hướng dẫn PGS.TS Nguyễn Ngọc Phương, người thầy đầy nhiệt huyết, có trao đổi góp ý, tận tâm dẫn, giúp đỡ chúng em giải đáp thắc mắc định hướng cho nhóm để chúng em hoàn thành tốt đề tài nghiên cứu Chúng em xin trân trọng cảm ơn Ban giám hiệu đội ngũ giảng viên Khoa khí Chế tạo máy ân cần giảng dạy, truyền lửa nhiệt huyết, giải đáp thắc mắc trình thực hiện, cung cấp kinh nghiệm thực tế lâu năm q thầy để mang lại thơng tin hữu ích cho đề tài nhóm Cuối cùng, chúng em xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để chúng em nỗ lực hồn thành tốt nghiên cứu Nhóm sinh viên thực vii Hình 5.25: Khởi tạo mơ hình với Tensorflow Layer Output shape Số lượng tham số lstm_5 (LSTM) (None, 30, 64) 37376 lstm_6 (LSTM) (None, 30, 128) 98816 lstm_7 (LSTM) (None, 30, 128) 131584 lstm_8 (LSTM) (None, 30, 64) 49408 lstm_9 (LSTM) (None, 64) 30324 dense_2 (Dense) (None, 64) 4160 dense_3 (Dense) (None, 32) 2080 dense_4 (Dense) (None,12) 3096 Total Params: 356,844 Bảng 5.3: Bảng số lượng trọng số huấn luyện mơ hình LSTM 71 5.5.3 Đào tạo mơ hình nhận diện thủ ngữ “MediaPipe + LSTM” Với tập liệu/từ điển chia nhỏ từ trước, ta tiến hành đào tạo mơ hình LSTM với số lớp đầu tương ứng Số lượng Epoch đào tạo tăng theo số lượng từ tập liệu Tồn mơ hình sử dụng hàm tối ưu adam optimizer, hàm mát categorical_crossentropy trình học liệu khởi tạo với câu lệnh model.compile(), ta không sử dụng kỹ thuật drop - out lượng liệu cấu trúc mơ hình khơng q phức tạp Tiến hành đào tạo mơ hình sử dụng model.fit(), với việc khai báo epoch – số lần học liệu đầu vào X_train, y_train Hình 5.26: Đào tạo mơ hình với model.compile model.fit Kết thúc q trình đào tạo, mơ hình lưu lại định dạng file “.h5” định dạng phổ biến phục vụ việc lưu trữ mơ hình trí tuệ nhân tạo với câu lệnh model.save() Để sử dụng mơ hình đào tạo, ta cần gọi tên mơ hình với câu lệnh model.load_weights() hình 5.26 Hình 5.27: Định dạng file h5 72 Tập liệu Epoch Loss Accuracy Precision Recall F1 score SLT_3 120 92.2% 0.85 0.94 0.89 SLT_6 150 73% 0.64 0.74 0.69 SLT_9 180 45.1% 0.41 0.35 0.37 SLT_12 200 30.5% 0.21 0.35 0.26 Bảng 5.4: Bảng thống kê đánh giá đào tạo mơ hình LSTM nhận diện thủ ngữ Nhóm sử tiến hành đánh giá mơ hình cách sử dụng độ đo F1-score, xem xét việc phân loại xác lớp quan Kết thống kê bảng 5.4, thấy với phương pháp đề xuất, mơ hình đạt số F1-score cao với tập liệu SLT_3 với 0.89 thấp SLT_12 với 0.26 Kết giải thích thực tế số lượng từ tập liệu khác nhau, chênh lệch lớn với số lượng 60 clip/từ đạt hiệu với từ điển nhỏ, muốn đào tạo từ điển số lượng thủ ngữ lớn, liệu cần phát triển, mở rộng Song song với vấn đề liệu, kiến trúc mạng LSTM mơ hình cịn đơn gian so với từ điển lớn, cần tăng độ phức tạp mơ hình thay mơ hình học máy lĩnh vực xử lý ngông ngữ tự nhiên khác đại Transfomer biến thể gồm BERT, Hugging Face Hình 5.28: Biểu đồ biến đổi hàm mát trình huấn luyện SLT_9 73 CHƯƠNG 6: THIẾT KẾ GIAO DIỆN VÀ THỰC NGHIỆM 6.1 Thư viện Tkinter thiết kế giao diện Tkinter thư viện GUI tiêu chuẩn cho python Tkinter Python cung cấp cách nhanh chóng dễ dàng để tạo ứng dụng GUI Tkinter cung cấp giao diện đối tượng cho công cụ tkinter GUI Hình 6.1: Thư viện Tkinter Python Các bước để tạo ứng dụng Tkinter: • Bước 1: Import Tkinter Module • Bước 2: Tạo cửa sổ ứng dụng GUI • Bước 3: Thêm nhiều widget nói vào ứng dụng GUI • Bước 4: Gọi vịng lặp kiện để hành động diễn máy tính người dùng Có nhiều widget khác button, canvas, checkbutton, entry, chúng sử dụng để xây dụng ứng dụng GUI Python 6.2 Thiết kế giao diện tương tác hai chiều hỗ trợ giao tiếp với người khiếm thính 6.2.1 Lập trình thiết kế giao diện Sau đào tạo mơ hình, nhóm tiến hành tạo giao diện giao tiếp hai chiều nhằm phục vụ mục đích ứng dụng sản phẩm vào thực tế 74 Hình 6.2: Lưu đồ giải thuật giao diện Đầu tiên, ta cần khởi tạo cửa sổ giao diện với kích thước 1280 × 850 với tiêu đề “Đồ án tốt nghiệp HCMUTE” Tiếp nhóm khởi tạo khung head_frame nhằm hiển thị thơng tin tên đề tài với khích thước 200 × 200 bo trịn góc với bán kính 10 75 Hình 6.3: Khởi tạo cửa sổ giao diện tiêu đề Tương tự nhóm khởi tạo khung Display hiển thị hình ảnh từ camera, nút nhấn nhận diện thủ ngữ, khung hiển thị kết nhận diện Output, nhập câu trả lời Replay, khung SideBar gồm tính chuyển màu giao diện, tắt ứng dụng, xóa câu trả lời từ nhận diện giao diện 76 Hình 6.4: Khởi tạo khung tính 6.2.2 Các thành phần giao diện tương tác hai chiều: Sau hoàn thành khởi tạo khung nút chức năng, tổng thể giao diện giao tiếp hai chiều gồm tính ngoại sau: 77 Hình 6.5: Giao diện thành phần • Giao diện người dùng có tính nhận diện kí tự theo cấp độ từ hiển thị hình Nút “Detect” để bắt đầu thu thập liệu từ camera, người biểu đạt thủ ngữ có 30 frames ảnh (số lượng frames clip dài SLT_3) để thực từ muốn biểu đạt, frames ảnh trích xuất 27 điểm Landmarks từ MediaPipe, thơng tin từ tất 30 frames đưa vào mơ hình LSTM training từ trước để tiến hành nhận diện • Kết từ, từ hiển thị mục “Output:” Các từ hiển thị thêm vào chuỗi từ nhận diện trước đó, có dù nhận diện theo cấp độ từ ghép thành câu 78 • Tính phản hồi cách nhập câu trả lời từ hình bàn phím mục “Reply” ô “Type the answer here”, sau nhập câu trả lời câu hỏi, nhấn nút “Answer” để hiển thị câu trả lời bên • Phần mềm có hai chế độ Sáng/Tối tùy chọn mục “Apperance Mode” • Nút RESET/CLEAR xóa hiển thị mục “Output” “Reply” • Nút “SHUT DOWN” để tắt phần mềm Hình 6.6: Giao diện có chế độ Sáng/Tối 79 6.3 Thực nghiệm Với giao diện phần cứng hệ thống hồn thiện, kết nối thêm chuột bàn phím rời để thực thao tác trả lời/đặt câu hỏi người khiếm thính, nhóm thực hành thực nghiệm với mơ hình SLT_3 có độ xác tốc độ tính tốn cao Trước tiên, dịch từ tiếng anh gốc thành từ tiếng Việt tương ứng: “hello” → “Xin chào”, “deaf” → “Tơi khiếm thính”, “fine” → “Tơi khỏe” Giả lập tình giao tiếp lễ tân/bác sĩ bệnh nhân, họ đến bệnh viện thăm khám, kết đạt mơ hình hoạt động tốt, nhận diện xác thủ ngữ thực nhiên mức sử dụng MediaPipe để trích xuất thông tin đạt 15 FPS, thời gian phản hồi trả kết từ mơ hình chậm sức mạnh tính tốn máy tính Raspberry Pi cịn hạn chế Hình 6.7: Thực nghiệm 80 CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 7.1 Đánh giá kết đạt Các công việc thực đề tài sau: • Tồn source code viết lúc thực đồ án lưu trữ tham khảo đường liên kết sau: “https://github.com/ducbvh/2023-HCMUTE 221DT44.git” • Tính tốn lựa chọn thiết kế phần điện gồm máy tính nhúng Raspberry Pi 4, camera,… • Sử dụng phần mềm thiết kế 3D Inventor để thiết kế hệ thống hồn chỉnh • Phân tích toán nhận diện thủ ngữ dựa phương pháp thị giác máy, kết hợp xử lý ngôn ngữ tự nhiên • Thu thập liệu, trích xuất thơng tin cho liệu thủ ngữ gồm 12 từ với 720 clip với thư viện MediaPipe • Xây dựng, đề xuất mơ hình máy học LSTM để nhận diện thủ ngữ • Đào tạo mơ hình, thử nghiệm, tối ưu tham số nhằm đạt mơ hình có tốt • Thiết kế giao diện, xây dựng giải thuật giao tiếp hai chiều người khiếm thính người bình thường theo thời gian thực Những hạn chế đề tài: • Mức FPS trích xuất thơng tin cịn thấp, thời gian hệ thống phản hồi kết chưa nhanh • Vẫn cần sử dụng bàn phím rời để nhập câu trả lời/câu hỏi • Hệ thống nhận diện tốt với mơ hình có từ điển nhỏ, khả nhận diện chưa nhiều, phong phú 81 7.2 Hướng phát triển đề tài Để hệ thống hoạt động linh hoạt ổn định nhóm có số hướng phát triển sau: • Thu thập thêm liệu nhằm gia tăng kích cỡ, độ phong phú liệu • Thay hình hệ thống hình cảm ứng để loại bỏ nhược điểm sử dụng chuột đính kèm • Bổ sung thêm tính nhận diện giọng nói nhằm lược bỏ bàn phím nhập câu trả lời, bổ sung tính phát câu/từ mà hệ thống nhận diện từ hành động người khiếm thính • Bổ sung tính thủ ngữ hóa câu trả lời câu hỏi từ phía người bình thường nhằm hỗ trợ người khiếm thính trường hợp họ khơng biết chữ • Thay máy tính nhúng Raspberry Pi dịng máy tính nhúng khác có sức mạnh tính tốn mạnh máy tính nhúng Jetson Nano thường sử dụng dự án TTNT, DL/ML thiết kế API giao tiếp Raspberry máy chủ nhằm giảm tải u cầu tính tốn, phân loại hệ thống, lúc hệ thống có nhiệm vụ trích xuất thơng tin từ camera sau gửi cho máy chủ để tiến hành nhận diện thủ ngữ, trả lại kết hiển thị hệ thống 82 TÀI LIỆU THAM KHẢO Website [0] [1] https://github.com/ducbvh/2023-HCMUTE -221DT44.git” Lịch sử ngành trí tuệ nhân tạo – Wikipedia tiếng Việt [2] Các hàm kích hoạt (activation function) neural network (aicurious.io) [3] http://cs231n.github.io/neural-networks-1/ [4] https://en.wikipedia.org/wiki/Rectifier_(neural_networks) [5] https://en.wikipedia.org/wiki/Sigmoid_function [6] https://en.wikipedia.org/wiki/Hyperbolic_functions [7] Loss function P1 - hàm mát cho toán regression | Quy's blog (ndquy.github.io) [8] Các hệ màu xử lý ảnh (kipalog.com) [9] https://web.cs.wpi.edu/~emmanuel/courses/cs545/S14/slides/lecture01.pdf [10] R C Gonzalez, R E Woods, “Digital Image Processing,” 4th edition, Pearson, 2018 [11] Khoa học liệu (phamdinhkhanh.github.io) [12] https://MediaPipe.dev/ [13] https://www.raspberrypi.org [14] https://developer.apple.com/swift/ [15] https://pimylifeup.com/raspberry-pi-rfid-rc522/ [16] https://www.thegioididong.com/camera-giam-sat/webcam-1080p-rapoo-c260 [17] https://3d-smartsolutions.com/cam-nang/cong-nghe-3d/tong-quat-ve-cong-nghein-3d/ [18] https://vietmachine.com.vn/vat-lieu-nhua-in-3d-nhung-dieu-can-biet.html [19] STMicroelectronics, datasheet STM32F411VET, https://www.st.com/resource/en/datasheet/stm32f411re.pdf 83 Bài báo nghiên cứu tham khảo [1] Prem Selvaraj, Gokul NC, Pratyush Kumar, Mitesh Khapra - “OpenHands: Making Sign Language Recognition Accessible with Pose-based Pretrained Models across Languages” - Available: “https://arxiv.org/abs/2110.05877” - 10/2021 [2] Vũ Hoài Nam, Hoàng Mậu Trung ,Phạm Văn Cường - “NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI” – Tạp chí khoa học cơng nghệ thơng tin truyền thơng – 26/10/2020 [3] Vo, Anh H., Nhu TQ Nguyen, Ngan TB Nguyen, Van-Huy Pham, Ta Van Giap, and Bao T Nguyen "Video-Based Vietnamese Sign Language Recognition Using Local De-scriptors." In Asian Conference on Intelligent Information and Database Systems, pp 680-693 Springer, Cham, 2019 [4] Vo, Anh H., Van-Huy Pham, and Bao T Nguyen "Deep Learning for Vietnamese Sign Language Recognition in Video Sequence."International Journal [5] Zafrulla, Zahoor, Helene Brashear, Thad Starner, Harley Hamilton, and Peter Presti "American sign language recognition with the kinect." In Proceedings of the 13th international conference on multimodal interfaces, pp 279-286.2011 [6] Thalange, Asha, and S K Dixit "COHST and wavelet features based Static ASL numbers recognition." Procedia Computer Science 92 (2016): 455-460 [7] Yang, Quan "Chinese sign language recognition based on video sequence appearance modeling." In 2010 5th IEEE Conference on Industrial Electronics and Applications, pp.1537-1542 IEEE, 2010 84

Ngày đăng: 06/10/2023, 18:04

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan