1. Trang chủ
  2. » Tất cả

Xây dựng hệ thống nhận diện thủ ngữ ngôn ngữ kí hiệu tay

14 85 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 1,13 MB
File đính kèm Code.rar (19 MB)

Nội dung

Chương 1 MỤC TIÊU CỦA PROJECT Sự ra đời và phát triển của máy tính đã giúp ích rất nhiều cho công việc và cuộc sống của con người. Với máy tính, con người có thể làm việc và giải trí theo nhu cầu sử dụng của cá nhân... Tuy nhiên, việc giao tiếp giữa con người và máy tính phụ thuộc chủ yếu vào bàn phím và chuột, hầu như con người luôn phải ngồi thao tác trực tiếp với máy tính. Dần dần, các nhà sản xuất thấy được sự bất tiện và đã tạo ra bàn phím và chuột không dây với mong muốn mang lại sự tự do hơn cho người dùng. Tuy nhiên,với bàn phím không dây thì con người vẫn phải tương tác với máy tính bằng các phím cơ học. Con người chỉ thật sự được thoải mái khi việc tương tác với máy tính được thực hiện thông qua ngôn ngữ cử chỉ và giọng nói. Đó chính là vấn đề đặt ra cho bài toán phát hiện bàn tay. Trong cuộc sống hàng ngày, phát hiện bàn tay có thể giúp cho việc giao tiếp giữa người với máy tính, vì máy tính sẽ chuyển ngôn ngữ cử chỉ thành chữ viết. Trong công nghiệp và sản xuất, chỉ cần trang bị cho các robot

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH KHOA ĐIỆN – ĐIỆN TỬ BỘ MÔN KỸ THUẬT MÁY TÍNH – VIỄN THƠNG BÁO CÁO XÂY DỰNG HỆ THỐNG NHẬN DIỆN THỦ NGỮ - NGƠN NGỮ KÍ HIỆU TAY NGÀNH CƠNG NGHỆ KỸ THUẬT MÁY TÍNH i LỜI CẢM ƠN Để hoàn thành đề tài nghiên cứu này, lời xin chân thành cảm ơn thầy cô giáo Trường Đại học Sư Phạm Kỹ Thuật TP.HCM nói chung thầy Khoa Điện - Điện tử nói riêng, người dạy dỗ, trang bị cho kiến thức tảng chuyên ngành bổ ích, giúp tơi có sở lý thuyết vững vàng tạo điều kiện giúp đỡ q trình học tập Đặc biệt, tơi xin chân thành cảm ơn thầy Trần Vũ Hồng tận tình giúp đỡ, trực tiếp bảo, đưa định hướng nghiên cứu hướng giải số vấn đề cho suốt thời gian nghiên cứu đề tài Trong thời gian làm việc với thầy, không ngừng tiếp thu thêm nhiều kiến thức, thái độ nghiên cứu khoa học nghiêm túc, hiệu quả, điều cần thiết trình học tập công tác sau Đồng thời gửi lời cảm ơn tới bạn bè, anh chị Khoa Điện - Điện tử góp ý, chia sẻ kinh nghiệm, hỗ trợ trình nghiên cứu thực đề tài tốt nghiệp Tôi xin chân thành cảm ơn! ii MỤC LỤC LỜI CẢM ƠN i MỤC LỤC i DANH MỤC HÌNH .iii Chương MỤC TIÊU CỦA PROJECT .1 Chương CÁC THỬ THÁCH CỦA PROJECT 2.1 Mơ hình để train nặng (VGG16) 2.2 Nhiễu background 2.3 Ánh sáng .2 2.4 Kích thước bàn tay .2 Chương NỘI DUNG THỰC HIỆN 3.1 Lưu đồ nhận diện bàn tay (detection) 3.2 Chọn model để thực nhận diện ký tự từ ảnh .3 3.2.1 Transfer learning Chương KẾT QUẢ .7 4.1 Tập liệu sử dụng 4.2 Phương pháp huấn luyện mơ hình 4.3 Đánh giá mơ hình sau train mơ hình cuối Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 10 5.1 Tiêu chí: 10 5.2 Thử thách 10 5.3 Hạn chế .10 5.4 Hướng phát triển .10 iii DANH MỤC HÌNH Hình 3.1 Bộ liệu Hình 3.2 Phân loại transfer learning .4 Hình 3.2 Bảng xếp hạng top mạng CNN .5 Hình 3.4 Cấu trúc lớp CNN sử dụng Hình 4.1 Bộ liệu Hình 4.2.Đường cong học tập huấn luyện mơ hình theo kiểu chia liệu train:val:test = 64:16:20 Hình 4.3 K-Fold Cross Validation với K=5 Hình 4.4 Đường cong học tập huấn luyện mơ hình theo kiểu chia train:test = 80:20, áp dụng K-Fold Cross Validation để đánh giá chéo Hình 4.5 Bảng Confusion Matrix cho mơ hình cuối iv Chương MỤC TIÊU CỦA PROJECT Sự đời phát triển máy tính giúp ích nhiều cho cơng việc sống người Với máy tính, người làm việc giải trí theo nhu cầu sử dụng cá nhân Tuy nhiên, việc giao tiếp người máy tính phụ thuộc chủ yếu vào bàn phím chuột, người ln phải ngồi thao tác trực tiếp với máy tính Dần dần, nhà sản xuất thấy bất tiện tạo bàn phím chuột khơng dây với mong muốn mang lại tự cho người dùng Tuy nhiên,với bàn phím khơng dây người phải tương tác với máy tính phím học Con người thật thoải mái việc tương tác với máy tính thực thông qua ngôn ngữ cử giọng nói Đó vấn đề đặt cho toán phát bàn tay Trong sống hàng ngày, phát bàn tay giúp cho việc giao tiếp người với máy tính, máy tính chuyển ngôn ngữ cử thành chữ viết Trong công nghiệp sản xuất, cần trang bị cho robot hệ thống camera, việc điều khiển robot trở nên đơn giản hết Trong lĩnh vực đồ họa chiều, ta dùng số động tác u cầu máy tính xoay mơ hình theo ý muốn Trong cơng việc văn phịng, phát bàn tay giúp ta yêu cầu máy tính thực thi chương trình, mở hát, gửi thư với vài cử hiệu từ xa Trong lĩnh vực giải trí, trò chơi thực tế ảo (Virtual Reallity, người chơi điều khiển hành động nhân vật hành động Với yêu cầu thực tế ứng dụng đem lại lĩnh vực phát bàn tay, mục tiêu đề tài là tìm hiểu phương pháp phát bàn tay, từ xây dựng mơ hình phù hợp cho tốn phát bàn tay, áp dụng vào điều khiển chương trình máy tính Chương CÁC THỬ THÁCH CỦA PROJECT 2.1 Mơ hình để train nặng (VGG16) Project nhận dạng cử tay thực việc sử dụng mạng CNN, model tiếng VGG16 Do để tăng cường độ xác cho project mạng CNN phải đủ phức tạp đủ feature Điều dẫn đến yêu cầu phần cứng cao, phần cứng thông thường thực thực có tượng giật lag, độ trễ lớn, delay nhiều 2.2 Nhiễu background Hầu hết toán liên quan đến nhận dạng xử lý ảnh đề phải gặp vấn đề việc nhiễm background đề này không ngoại lệ Để chiết xuất lấy phần cánh tay loại bỏ phần backgroud phức tạp background khơng có định, tùy vào người mà cammera nhìn thấy background thay đổi Nếu background có màu đen hồn tồn , hay màu tương phản với màu da đồng màu khung hình việc xử lý dễ dàng Nhưng đời không mơ, hầu hết trường hợp ứng dụng thực tế chẳng có nơi Môi trường hoạt động project nơi đơng người,trong nhà … Vì xử lý nhiễu background vấn đề bắt buộc phải quan tâm muốn đề tài ứng dụng 2.3 Ánh sáng Giống background ánh sáng yếu tố quan trọng ảnh hưởng lớn để kết đánh giá model Việc thiếu hay thừa ánh sáng dẫn đến độ tương phản bàn tay background không rõ ràng, việc dẫn đến nhận dạng sai ký tự 2.4 Kích thước bàn tay Trong nhận dạng, việc xác định tư ngón tay tương ứng với cử phụ thuộc phần lớn vào dataset Nếu dataset đủ lớn với liệu tư tay với nhiều kích thước to nhỏ khác giúp vấn đề giải Nhưng dataset thường khơng có có khiến cho lượng dataset tăng lên đáng kể khiến cho việc train tốn nhiều thời gian Chương NỘI DUNG THỰC HIỆN 3.1 Lưu đồ nhận diện bàn tay (detection) Hình 3.1 Bộ liệu Các bước thực  Chọn background cố định khung chữ nhật  để giúp giải vấn đề background nhiễu  Sau chọn khung chữ nhật đưa tay vào, ảnh làm mịn, đưa ảnh xám  Sau đó, từ ảnh xám chuyển sang ảnh trắng đen cho chạy mơ hình để phân loại  Trong q trình nhận diện, nhóm gặp vấn đề ánh sáng đưa cách giải tăng giảm độ sáng độ tương phản phím bấm để điều chỉnh cho thích hợp 3.2 Chọn model để thực nhận diện ký tự từ ảnh  Nhóm định dùng “Transfer learning” mạng CNN để thực train model  Transfer learning kỹ thuật giúp kế thừa Pretrained Model có sẵn, sau học lên để có model tốt dựa có sẵn Nhóm lựa chọn kỹ thuật lượng liệu mà chúng tơi có theo báo cáo kỳ nhỏ nên sử dụng kỹ thuật để khắc phục 3.2.1 Transfer learning Có loại transfer learning:  Feature extractor: Sau lấy đặc điểm ảnh việc sử dụng ConvNet pre-trained model, ta dùng linear classifier (linear SVM, softmax classifier, ) để phân loại ảnh Hiểu đơn giản đặc điểm ảnh (tai, mũi, tóc,…) input toán linear regression hay logistic regression  Fine tuning: Sau lấy đặc điểm ảnh việc sử dụng ConvNet pre-trained model, ta coi input CNN cách thêm ConvNet Fully Connected layer Lý ConvNet VGGFace model lấy thuộc tính mặt người nói chung người Việt Nam có đặc tính khác nên cần thêm số ConvNet để học thêm thuộc tính người Việt Nam Hình 3.2 Phân loại transfer learning  Dựa theo đặc trưng đề tài, nhóm định chọn fine tuning Vì lý ta cần mơ hình học thêm đặc tính tập liệu  Cần chọn Pretrained Model nào? Dưới bảng xếp hạng model CNN thuộc top Hình 3.3 Bảng xếp hạng top mạng CNN  Nhóm định chọn VGG16 lý nhóm cho thư viện keras hỗ trợ VGG16 tốt đáp ứng nhu cầu thực Hình 3.4 Cấu trúc lớp CNN sử dụng Hình mô tả cấu trúc CNN sử dụng:  VGG16 để tiền xử lý, trích xuất đặc trưng  Các lớp CNN phía sau tập trung trích xuất đặc trưng bàn tay  Lớp dropout giúp tránh overfitting Chương KẾT QUẢ 4.1 Tập liệu sử dụng Việc thu thập dataset cho toàn ký tự bảng chữ khó khăn việc train hết liệu máy tính chúng tơi khơng thể Để tối ưu thời gian train để lựa chọn thông số, sử dụng 2750 ảnh cho kiểu ký tự tay, với kiểu ký tự 550 ảnh Hình 4.5 Bộ liệu 4.2 Phương pháp huấn luyện mơ hình Ban đầu, dataset chia làm tập train, test Với tập train 80% ,tương ứng 2200 ảnh 20% test 110 ảnh Tập train tiếp tục chia thành tập train vali với tỷ lệ 8:2 Cơng việc huấn luyện hình dung sau: Huấn luyện tập train val, sau lấy giá trị loss vẽ đường learning curve (đường cong học tập) mơ hình để xác định xem nên dừng việc train epoch Kết sau huấn luyện thể hình sau: Hình 4.6.Đường cong học tập huấn luyện mơ hình theo kiểu chia liệu train:val:test = 64:16:20 Nhận xét: nhìn vào đường loss line (hình phía bên trái), ta nhận thấy cịn khoảng cách lớn hai đường loss line khoảng cách có xu hướng tăng dần Lúc mơ hình rơi vào trường hợp “tập train hết toàn tập liệu” (Unpresentative train dataset) Khắc phục: xác định lại cách chia liệu Ta chia tập liệu thành hai tập: tập train (chiếm 80%) tập test (chiếm 20%) Sau áp dụng K-Fold Cross Validation (nhóm chọn K = 5) để đánh giá chéo Hình 4.7 K-Fold Cross Validation với K=5 Kết huấn luyện sau chia lại tập liệu: Hình 4.8 Đường cong học tập huấn luyện mơ hình theo kiểu chia train:test = 80:20, áp dụng K-Fold Cross Validation để đánh giá chéo Nhận xét: với cách chia liệu này, đồ thị đường cong học tập tốt ta nhận thấy đồ thị ổn định epoch 30 trở đi, ta chọn epoch 30 làm điểm dừng train mơ hình cuối tồn 80% tập liệu 4.3 Đánh giá mơ hình sau train mơ hình cuối Sau có mơ hình cuối cùng, nhóm áp dụng Confusion Matrix lên tập test tính độ xác dựa theo confusion matrix Kết sau lập bảng confusion matrix: Hình 4.9 Bảng Confusion Matrix cho mơ hình cuối Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Tiêu chí:     Độ xác cao - Thỏa mãn Mơ hình khơng q nặng - Khơng thỏa mãn Không bị nhiễu background - Thỏa mãn Dễ tiếp cận, tìm hiểu - Thỏa mãn 5.2 Thử thách  Nhiễu  Điều kiện ánh sáng  Kích thước tay thay đổi 5.3 Hạn chế  Vị trí tay nhận dạng vị trí cố định  Khi thêm liệu mới, cần phải train lại từ đầu  Background cảnh tĩnh 5.4 Hướng phát triển  Nhận diện bàn tay theo chuyển động  Thay đổi mạng VGG16 10 ... sáng .2 2.4 Kích thước bàn tay .2 Chương NỘI DUNG THỰC HIỆN 3.1 Lưu đồ nhận diện bàn tay (detection) 3.2 Chọn model để thực nhận diện ký tự từ ảnh ... sáng  Kích thước tay thay đổi 5.3 Hạn chế  Vị trí tay nhận dạng vị trí cố định  Khi thêm liệu mới, cần phải train lại từ đầu  Background cảnh tĩnh 5.4 Hướng phát triển  Nhận diện bàn tay theo... ánh sáng dẫn đến độ tương phản bàn tay background không rõ ràng, việc dẫn đến nhận dạng sai ký tự 2.4 Kích thước bàn tay Trong nhận dạng, việc xác định tư ngón tay tương ứng với cử phụ thuộc phần

Ngày đăng: 31/01/2023, 10:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w