Tìm hiểu các thuật toán học sâu cho bài toán xác thực khuôn mặt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHĨA LUẬN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU CÁC THUẬT TỐN HỌC SÂU CHO BÀI TỐN XÁC THỰC KHN MẶT GVHD: TS TRẦN NHẬT QUANG SVTH: LÊ NGUYỄN GIA BẢO TRẦN TRUNG KIÊN SKL009431 Tp.Hồ Chí Minh, tháng 6/2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TPHCM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM LÊ NGUYỄN GIA BẢO – 18110251 TRẦN TRUNG KIÊN – 18110309 Đề Tài: TÌM HIỂU CÁC THUẬT TỐN HỌC SÂU CHO BÀI TỐN XÁC THỰC KHN MẶT KHỐ LUẬN TỐT NGHIỆP KỸ SƯ CNTT GIÁO VIÊN HƯỚNG DẪN TS TRẦN NHẬT QUANG KHÓA 2018 - 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TPHCM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM LÊ NGUYỄN GIA BẢO – 18110251 TRẦN TRUNG KIÊN – 18110309 Đề Tài: TÌM HIỂU CÁC THUẬT TỐN HỌC SÂU CHO BÀI TỐN XÁC THỰC KHN MẶT KHOÁ LUẬN TỐT NGHIỆP KỸ SƯ CNTT GIÁO VIÊN HƯỚNG DẪN TS TRẦN NHẬT QUANG KHÓA 2018 - 2022 ĐH SƯ PHẠM KỸ THUẬT TP.HCM XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CNTT Độc Lập – Tự Do – Hạnh Phúc PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên 1: Lê Nguyễn Gia Bảo MSSV 1: 18110251 Họ tên Sinh viên 2: Trần Trung Kiên MSSV 2: 18110309 Ngành: Công Nghệ Thông Tin Tên đề tài: Tìm Hiểu Các Thuật Tốn Học Sâu Cho Bài Tốn Xác Thực Khn Mặt Họ tên Giáo viên hướng dẫn: TS Trần Nhật Quang NHẬN XÉT Về nội dung đề tài & khối lượng thực hiện: Ưu điểm: Nhược điểm: Đề tài có bảo vệ hay khơng? Đánh giá loại: Điểm: TPHCM, ngày tháng năm 2022 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) ĐH SƯ PHẠM KỸ THUẬT TP.HCM XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CNTT Độc Lập – Tự Do – Hạnh Phúc PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Lê Nguyễn Gia Bảo MSSV 1: 18110251 Họ tên Sinh viên 2: Trần Trung Kiên MSSV 2: 18110309 Ngành: Cơng Nghệ Thơng Tin Tên đề tài: Tìm Hiểu Các Thuật Toán Học Sâu Cho Bài Toán Xác Thực Khuôn Mặt Họ tên Giáo viên hướng dẫn: TS Trần Nhật Quang NHẬN XÉT Về nội dung đề tài & khối lượng thực hiện: Ưu điểm: Nhược điểm: Đề tài có bảo vệ hay không? Đánh giá loại: Điểm: TPHCM, ngày tháng năm 2022 Giáo viên phản biện (Ký & ghi rõ họ tên) LỜI CẢM ƠN Lời nhóm chúng em xin phép gửi lời cảm ơn chân thành sâu sắc đến với Khoa Công Nghệ Thông Tin – Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh tạo điều kiện cho nhóm chúng em học tập, phát triển tảng kiến thức sâu sắc thực đề tài Bên cạnh nhóm chúng em xin gửi đến thầy Trần Nhật Quang lời cảm ơn sâu sắc Trải qua trình dài học tập thực đề tài thời gian qua Thầy tận tâm bảo nhiệt tình nhóm chúng em suốt q trình từ lúc bắt đầu kết thúc đề tài Nhờ có tảng kiến thức chuyên ngành vững cộng thêm với kinh nghiệm yêu cầu thực tế ngồi xã hội thơng qua việc học trường thực tập công ty Tập thể thầy cô Khoa Công Nghệ Thông Tin đặc biệt thầy Trần Nhật Quang tặng cho chúng em khối lượng kiến thức kinh nghiệm khổng lồ chuyên ngành công việc tương lai Đặc biệt điều giúp thúc chúng em hoàn thành đề tài Đây hành trang vô lớn chúng em trước bước sống Tuy nhiên lượng kiến thức vô tận với khả hạn hẹp chúng em cố gắng để hoàn thành cách tốt Chính việc xảy thiếu sót điều khó tránh khỏi Chúng em hi vọng nhận góp ý tận tình q thầy qua chúng em rút học kinh nghiệm hoàn thiện cải thiện nâng cấp lại sản phẩm cách tốt Nhóm chúng em xin chân thành cảm ơn Nhóm thực Lê Nguyễn Gia Bảo – 18110251 Trần Trung Kiên – 18110309 Trường ĐH Sư Phạm Kỹ Thuật TP.HCM Khoa: CNTT ĐỀ CƯƠNG KHOÁ LUẬN TỐT NGHIỆP Họ Tên SV thực 1: Lê Nguyễn Gia Bảo Mã Số SV: 18110251 Họ Tên SV thực 2: Trần Trung Kiên Mã Số SV: 18110309 Thời gian làm luận văn: từ: 08/03/2022 Đến: 28/06/2022 (17 tuần) Chuyên ngành: Công Nghệ Phần Mềm Tên luận văn: Tìm Hiểu Các Thuật Tốn Học Sâu Cho Bài Tốn Xác Thực Khn Mặt GV hướng dẫn: TS Trần Nhật Quang Nhiệm Vụ Của Luận Văn: Lý thuyết: - Tìm hiểu thuật tốn xác định vị trí khn mặt (face detection), thuật tốn trích xuất đặc trưng khn mặt (face embedding) - Tìm hiểu thuật tốn, phương pháp xác thực khn mặt (face verification) - Tìm hiểu nghiên cứu, mơ hình xác thực khn mặt điều kiện khn mặt có đeo trang Thực hành - Thực hiện, so sánh đánh giá phương pháp xác thực khuôn mặt tập liệu xác thực khn mặt có sẵn - Thu thập liệu khuôn mặt từ Bãi Gửi Xe Giáo Viên, trường Đại Học Sư Phạm Kỹ Thuật TPHCM - Áp dụng thuật tốn xác thực khn mặt tập liệu khn mặt có sẵn tập liệu thực tế trường Đại Học Sư Phạm Kỹ Thuật TPHCM - Triển khai ứng dụng gửi xe có tích hợp xác thực khuôn mặt Đề cương viết luận văn: (theo kiểu mục lục phần, chương mục …) PHẦN MỞ ĐẦU .7 TÍNH CẤP THIẾT CỦA ĐỀ TÀI MỤC ĐÍCH NGHIÊN CỨU CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU PHÂN TÍCH NHỮNG CƠNG TRÌNH CĨ LIÊN QUAN KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 10 PHẦN NỘI DUNG 11 CHƯƠNG CƠ SỞ LÝ THUYẾT .11 CHƯƠNG DỮ LIỆU XÁC THỰC KHUÔN MẶT 26 CHƯƠNG CÁC PHƯƠNG PHÁP XÁC THỰC KHUÔN MẶT .28 CHƯƠNG 4: TRIỂN KHAI MƠ HÌNH XÁC THỰC KHN MẶT 66 PHẦN KẾT LUẬN .96 KẾT QUẢ ĐẠT ĐƯỢC 96 ƯU ĐIỂM 96 NHƯỢC ĐIỂM 96 HƯỚNG PHÁT TRIỂN 97 DANH MỤC TÀI LIỆU THAM KHẢO 98 PHỤ LỤC 101 KẾ HOẠCH THỰC HIỆN STT Thời Gian Cơng Việc Ghi Chú Tìm hiểu mơ hình xác định vị trí khn mặt 07/02 – 06/03 huấn luyện mơ hình nhận diện trang Xây dựng API cho nhiệm vụ xác định vị trí khn mặt nhận diện trang Tìm hiểu mơ hình trích xuất đặc trưng khn 07/03 – 10/04 mặt phương pháp xác thực khuôn mặt Thực nghiệm mơ hình trích xuất đặc trưng phương pháp xác thực khn mặt Tìm hiểu phương pháp xác thực khn mặt Tìm hiểu cách tiếp cận với liệu khuôn mặt 11/04 – 08/05 đeo trang Tìm hiểu xây dựng mơ hình API nhận diện biển số xe Tối ưu mơ hình API thiết bị phần cứng 09/05 – 05/06 Tích hợp mơ hình vào ứng dụng quản lý bãi gửi xe Hồn thiện chương trình quản lý bãi gửi xe 06/06 – 07/07 Thực thu thập liệu Thử nghiệm mơ hình giá trị tham số Xử lý liệu đưa kết thực nghiệm TP Hồ Chí Minh, ngày tháng … năm 2022 Người viết đề cương Ý kiến giáo viên hướng dẫn MỤC LỤC DANH MỤC BẢNG BIỂU .1 DANH MỤC HÌNH ẢNH .2 DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT PHẦN MỞ ĐẦU .7 TÍNH CẤP THIẾT CỦA ĐỀ TÀI MỤC ĐÍCH NGHIÊN CỨU CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Đối Tượng Nghiên Cứu .8 3.2 Phạm Vi Nghiên Cứu PHÂN TÍCH NHỮNG CƠNG TRÌNH CĨ LIÊN QUAN KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 10 PHẦN NỘI DUNG 11 CHƯƠNG CƠ SỞ LÝ THUYẾT .11 1.1 Mạng Neuron Nhân Tạo [6] .11 1.2 Mạng Neuron Tích Chập [11] 17 1.3 Hàm Mất Mát .23 CHƯƠNG DỮ LIỆU XÁC THỰC KHUÔN MẶT 26 2.1 Tập Dữ Liệu Labeled Faces in the Wild [19] 26 2.2 Tập Dữ Liệu Khuôn Mặt Thực Tế .27 CHƯƠNG CÁC PHƯƠNG PHÁP XÁC THỰC KHUÔN MẶT .28 3.1 Tổng Quan Các Bài Tốn Thị Giác Máy Tính Xử Lý Hình Ảnh Khn Mặt 28 3.2 Các Mơ Hình Xác Định Vị Trí Khn Mặt .30 3.3 Các Mơ Hình Trích Xuất Đặc Trưng Khuôn Mặt .41 3.4 Các Phương Pháp Xác Thực Khuôn Mặt 61 CHƯƠNG 4: TRIỂN KHAI MƠ HÌNH XÁC THỰC KHN MẶT 66 PHỤ LỤC HÌNH ẢNH THỰC TẾ MỘT SỐ BÃI GỬI XE MÁY Ở VIỆT NAM Hình Hình Ảnh Bãi Gửi Xe Giảng Viên Trường Đại Học Sư Phạm Kỹ Thuật - Hình Hình Ảnh Bãi Gửi Xe Giảng Viên Trường Đại Học Sư Phạm Kỹ Thuật - 103 Hình Hình Ảnh Bãi Gửi Xe Giảng Viên Trường Đại Học Sư Phạm Kỹ Thuật – Hình Hình Ảnh Bãi Gửi Xe Giảng Viên Trường Đại Học Sư Phạm Kỹ Thuật – 104 Hình Hình Ảnh Bãi Gửi Xe Cơng Ty Phần Mềm FPT – Hình Hình Ảnh Bãi Gửi Xe Cơng Ty Phần Mềm FPT – 105 PHỤ LỤC CÁC TẬP DỮ LIỆU KHUÔN MẶT PHỔ BIẾN Tập Dữ Liệu WIDER FACE [16] WIDER FACE tập liệu khuôn mặt dành cho nhiệm vụ xác định vị trí khn mặt (Face Detection) Tập liệu WIDER FACE công bố lần đầu năm 2016 hội nghị IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Phòng Nghiên Cứu Đa Phương Tiện, Khoa Kỹ Thuật Thông Tin, trường Đại Học Hồng Kông, Trung Quốc (Multimedia Laboratory, Department of Information Engineering, The Chinese University of Hong Kong) Tập liệu WIDER FACE bao gồm 32203 hình ảnh với 393703 nhãn khn mặt Hình ảnh tập liệu WIDER FACE có chất lượng tốt đa dạng tỉ lệ, hình dáng, góc nhìn, ảnh hưởng ánh sáng, biểu cảm khn mặt, … Hình Mơ Tả Tập Dữ Liệu WIDER FACE Tập Dữ Liệu YouTube Faces (YTF) [21] YouTube Faces tập liệu khuôn mặt dành cho nhiệm vụ xác thực khuôn mặt (Face Verification) nhận diện khuôn mặt (Face Recognition) Tập liệu YouTube Faces công bố lần đầu năm 2011 hội nghị IEEE Conference on Computer Vision and Pattern Recognition (CVPR), nhóm nghiên cứu trường Đại Học Tel-Aviv, Israel Tập liệu YouTube Faces bao gồm 3425 video từ YouTube với 1595 thực thể Mỗi thực thể có trung bình 2.15 video Mỗi video trung bình có 181.3 khung hình Vì yêu cầu xác bảo mật riêng tư, tập liệu YouTube Faces không công bố công khai u cầu thơng tin để có quyền truy cập phục vụ cho mục đích nghiên cứu 106 Tập Dữ Liệu Large-scale CelebFaces Attributes (CelebA) [17] Large-scale CelebFaces Attributes (CelebA) tập liệu khuôn mặt dành cho nhiệm vụ xác định vị trí khn mặt (Face Detection), xác thực khuôn mặt (Face Verification) nhận diện khuôn mặt (Face Recognition) Tập liệu CelebA công bố lần đầu năm 2016 hội nghị IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Phòng Nghiên Cứu Đa Phương Tiện, Khoa Kỹ Thuật Thông Tin, trường Đại Học Hồng Kông, Trung Quốc (Multimedia Laboratory, Department of Information Engineering, The Chinese University of Hong Kong) Tập liệu CelebA bao gồm 202599 hình ảnh thuộc 10177 nhân vật tiếng Mỗi hình ảnh bao gồm liệu vị trí khn mặt, điểm đặc trưng khn mặt 40 đặc điểm khn mặt Hình Mô Tả Tập Dữ Liệu CelebA 107 PHỤ LỤC MƠ HÌNH WARPED PLANAR OBJECT DETECTION NETWORK CHO TÁC VỤ XÁC ĐỊNH VỊ TRÍ BIỂN SỐ XE [33] Mơ hình Warped Planar Object Detection Network (WPOD – NET) [33] cơng bố lần đầu năm 2018 nhóm tác giả thuộc Khoa Thông Tin, trường Đại Học Rio Grande Sul, Brazil Mơ hình WPOD – NET giới thiệu phương pháp xác định vị trí biển số xe chỉnh biển số xe phương trực diện phẳng Mô hình WPOD – NET thực tốt nhiệm vụ xác định vị trí chỉnh hầu hết trường hợp, với liệu đầu vào đa dạng bối cảnh, góc nhìn, tỉ lệ kích thước Hình Hình Ảnh Mơ Tả Tính Đa Dạng Của Biển Số Xe [33] Mơ hình WPOD – NET xác định vị trí vùng biển số tiềm thực phương pháp tính tốn hồi quy hệ số phép biến đổi Affine để chỉnh biển số phương trực diện hình dạng chữ nhật Mơ hình WPOD – NET sử dụng ưu diểm mơ hình xác định vị trí vật thể trước YOLO, SSD mơ hình chỉnh vật thể Spatial Transformer Networks (STN) Hình 10 Kiến Trúc Mơ Hình WPOD – NET [33] 108 Mơ hình WPOD – NET sử dụng 21 tầng neuron tích chập, bao gồm 14 khối kết nối tắt Residual tầng gộp cực đại Các tầng neuron tích chập sử dụng ma trận hạt nhân kích thước đồng kích thước × 3, tầng gộp cực đại sử dụng ma trận hạt nhân kích thước × 2, bước nhảy Khối DETECTION mơ hình WPOD – NET thực tính tốn song song cho hai nhiệm vụ, bao gồm nhiệm vụ xác định tỉ lệ xuất biển số cho điểm liệu, với hàm kích hoạt Softmax nhiệm vụ tính tốn hệ số hồi quy phép biến đổi Affine cho phương pháp chỉnh biển số Với liệu đầu vào kích thước 𝑊 × 𝐻, giá trị đầu mơ hình WPOD – NET có kích thước 𝑀 × 𝑁 × 8, với 𝑀 = 𝑊/𝑁 , 𝑁 = 𝐻/𝑁 , 𝑁 = đại diện cho tỉ lệ giảm kích thước tầng gộp cực đại ảnh hưởng Với điểm (𝑚, 𝑛) liệu đầu ra, liệu đầu thể bao gồm giá trị 𝑣 𝑣 thể cho xác suất có khơng có biển số, giá trị 𝑣 , 𝑣 , 𝑣 , 𝑣 , 𝑣 , 𝑣 sử dụng cho phép biến đổi Affine Hàm số mát cho xác suất xuất biển số sử dụng tương tự ý tưởng hàm số mát cho tác vụ xác định tỉ lệ xuất vật thể mơ hình SSD: (𝑚, 𝑛) = log 𝑙𝑜𝑠𝑠(𝑦, 𝑣 ) + log 𝑙𝑜𝑠𝑠(1 − 𝑦, 𝑣 ) 𝐿 Với 𝑦 giá trị thể có vật thể giá trị thể cho vật thể vị trí (𝑚, 𝑛) Hình 10 Luồng Hoạt Động Phương Pháp Căn Chỉnh Mơ Hình WPOD – NET [33] Dữ liệu đầu vào bao gồm bốn giá trị toạ độ bốn điểm phẩn biển số Với 𝑝 = [𝑥 , 𝑦 ] , 𝑖 = 1, … , toạ độ bốn góc liệu đầu vào, bốn điểm nhãn giá trị đầu sau chỉnh, với 𝑞 = [−0.5, −0.5] , 𝑞 = [0.5, −0.5] , 𝑞 = [0.5,0.5] , 𝑞 = [−0.5,0.5] Phép biến đổi Affine với điểm (𝑚, 𝑛) xác định: 𝑇 (𝑞 ) = max (𝑣 , 0) 𝑣 𝑣 𝑣 𝑞+ 𝑣 max (𝑣 , 0) 109 Hai hàm số lấy cực đại với giá trị áp dụng hai giá trị 𝑣 𝑣 nhằm đảm bảo giá trị đường chéo dương, nhằm tránh trường hợp xoay biến dạng không mong muốn Để giá trị toạ độ liệu đầu vào thang đo với giá trị đầu phép biến đổi Affine, điểm 𝑝 áp dụng phép chuẩn hoá với giá trị chuẩn hoá 𝛼 = 7.75 𝐴 (𝑝 ) = 1 𝑛 𝑝− 𝑚 𝛼 𝑁 Giả sử lại điểm (𝑚, 𝑛) điểm vùng liệu có vật thể, giá trị mát cho tác vụ chỉnh kết đầu xác định hiệu giá trị đầu mô hình giá trị chuẩn: 𝐿 (𝑚, 𝑛) = ‖𝑇 (𝑞 ) − 𝐴 (𝑝 )‖ Hàm mát xác định tổng hàm mát xác suất xuất vật thể hàm mát chỉnh: 𝐿𝑜𝑠𝑠 = 𝑦𝐿 (𝑚, 𝑛) + 𝐿 (𝑚, 𝑛) Dữ liệu huấn luyện cho mơ hình WPOD – NET bao gồm 196 hình ảnh, với 105 hình ảnh từ tập liệu Cars Dataset, 40 hình ảnh từ tập liệu SSIG 51 hình ảnh từ tập dữu liệu AOLP Các liệu hầu hết biển số nước châu Âu, Mỹ, Brazil Đài Loan Với hình ảnh, nhãn liệu bao gồm bốn điểm tương ứng với bốn góc phần biển số xe Các phương pháp xử lý hình ảnh áp dụng để tăng cường tính đa dạng liệu Hình 11 Mơ Tả Dữ Liệu Huấn Luyện Mơ Hình WPOD – NET 110 Kết kiểm thử mơ hình thực toàn luồng hoạt động mơ hình nhận diện biển số xe (bao gồm đọc ký tự biển số xe), nên kết độ xác mơ hình WPOD – NET khơng công bố cụ thể 111 PHỤ LỤC PHƯƠNG PHÁP DIFFERENTIABLE BINARIZATION CHO TÁC VỤ XÁC ĐỊNH VỊ TRÍ KÝ TỰ Phương pháp Differentiable Binarization (DB) công bố lần đầu năm 2019 nhóm tác giả thuộc Đại học Khoa Học Và Công Nghệ Huazhong Đại học Shanghia Jiao Tong Phương pháp DB giới thiệu phương pháp hậu xử lý việc xác định vị trí ký tự (Text Detection) việc áp dụng biến thiên hàm số Sigmoid tối ưu kết phân đoạn hình ảnh xác định ngưỡng hình ảnh nhị phân Phương pháp DB đạt độ xác cao thời gian thực thi tối ưu năm tập liệu kiểm thử, bao gồm nhiều kích thước, tỉ lệ, hướng độ cong liệu Hình 12 Mô Tả Luồng Hoạt Động Phương Pháp Differentiable Binarization Với mơ hình trước đó, phương pháp xác định vị trí ký tự thực bao gồm bước: phân đoạn hình ảnh, phân loại nhị phân hình ảnh xác định kết quả, mô tả đường mũi tên màu xanh (Hình 12) Với phương pháp này, bước phân loại nhị phân hình ảnh, kết xác định giá trị ngưỡng cho trước Khi đó, liệu đầu từ phương pháp phân đoạn hình ảnh chuyển đổi thành kết nhị phân, từ xác định phần vùng chữ Với ma trận kết dự đoán tỉ lệ 𝑃 ∈ ℝ × từ mơ hình phân đoạn trước đó, với 𝐻 𝑊 kích thước ma trận đầu ra, điểm (𝑖, 𝑗) điểm ma trận đầu ra, giá trị 𝑡 giá trị ngưỡng cố định Hàm số phân loại nhị phân xác định bởi: 𝐵, = 1, 0, 𝑃, ≥ 𝑡 𝑃, < 𝑡 Công thức phân loại nhị phân không biến thiên theo tập liệu, khơng thể tối ưu cho tập liệu trình huấn luyện Với phương pháp DB, giá trị ngưỡng không sử dụng giá trị cố định cho trước Giá trị ngưỡng sử dụng phần phần huấn luyện mơ hình 112 Tại điểm liệu, phương pháp DB dự đốn giá trị xấp xỉ, giá trị ngưỡng nhị phân thích nghi điểm Hình 13 Kiến Trúc Mơ Hình Và Phương Pháp Xử Lý Đầu Ra Phương Pháp DB Dữ liệu đầu vào đưa qua mô hình mạng tích chập với kiến trúc kim tự tháp Kết đầu mơ hình mạng tích chập 𝐹 sử dụng để dự đoán ma trận xác suất có vật thể 𝑃 ma trận ngưỡng thích nghi 𝑇 Ma trận nhị phân xấp xỉ 𝐵 lấy ý tưởng từ hàm số Sigmoid, xác định bởi: 𝐵, = 1+𝑒 , , Với 𝑘 giá trị tỉ lệ khuếch đại phương pháp DB Theo thực nghiệm nhóm tác giả, giá trị 𝑘 xác định với 𝑘 = 50 Hai ma trận 𝑃 𝑇 tối ưu trình huấn luyện, tạo tính biến thiên theo liệu kết đầu Hình 14 Biểu Đồ So Sánh Giữa Mơ Hình DB Và Mơ Hình Phân Loại Nhị Phân Tiêu Chuẩn Với đồ thị màu xanh biểu diễn biến thiên giá trị ngưỡng phương pháp DB đồ thị màu cam biểu diễn giá trị ngưỡng mơ hình phân loại nhị phân 113 tiêu chuẩn (Standard Binarization – SB) Đồ thị phương pháp DB có xu hướng tương tự với hàm số phân loại nhị phân tiêu chuẩn Sự biến thiên xảy ít, nhiên phần giá trị tối ưu trình huấn luyện, ngưỡng thay đổi tuỳ thuộc vào liệu huấn luyện 114 PHỤ LỤC MƠ HÌNH CONVOLUTIONAL RECURRENT NEURAL NETWORK CHO TÁC VỤ NHẬN DIỆN KÝ TỰ [34] Mơ hình Convolutional Recurrent Neural Network (CRNN) [34] cơng bố năm 2015 nhóm tác giả thuộc Đại học Khoa Học Và Công Nghệ Huazhong Mơ hình CRNN giới thiệu phương pháp huấn luyện mơ hình neuron sâu cho nhiệm vụ nhận diện ký tự (Text Recognition) Mơ hình CRNN kết hợp tính chất trích xuất đặc trưng mơ hình Mạng Neuron Tích Chập (Convolutional Neuron Network) tính chất liệu mơ hình Mạng Neuron Hồi Quy (Recurrent Neuron Network) thành mơ hình cho tác vụ nhận diện ký tự Kết kiểm thử ba tập liệu IIIT 5K, Street View Text ICDAR chứng minh độ xác so với mơ hình trước Hình 15 Kiến Trúc Mơ Hình CRNN [34] 115 Kiến trúc mơ hình CRNN bao gồm ba thành phần: tầng neuron tích chập (convolutional layers), tầng neuron hồi quy (recurrent layers) tầng giải mã (transcription layer) mơ tả hình 15 Các tầng neuron tích chập có nhiệm vụ trích xuất đặc trưng liệu đầu vào Kết tầng tích chập bao gồm nhiều vector đặc trưng, tương ứng với vùng liệu liệu đầu vào, sử dụng làm liệu đầu vào tầng neuron hồi quy Các tầng neuron hồi quy với nhiệm vụ dự đoán thành phần trở thành ký tự Tầng giải mã có nhiệm vụ chỉnh sửa giá trị dự đoán tầng hồi quy thành giá trị kết dự đoán cuối Với tập liệu 𝑋 = {𝐼 , 𝑙 } , với 𝐼 liệu hình ảnh đầu vào 𝑙 nhãn liệu hình ảnh đó, 𝑦 kết dự đốn mơ hình, mơ hình CRNN xác định hàm mát hàm hàm số Log Likelihood: log 𝑝(𝑙 , 𝑦 ) 𝐿=− , ∈ 116 S K L 0

Định dạng
Số trang	128
Dung lượng	12,45 MB