Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

77 23 1
Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC XÂY DỰNG MƠ HÌNH NHẬN DẠNG KHUNG VÀ VÙNG VĂN BẢN TRONG TÀI LIỆU CÓ BỐ CỤC CỐ ĐỊNH Ngành: Khoa học máy tính HỘI ĐỒNG KHOA HỌC MÁY TÍNH GVHD TS Trần Tuấn Anh ThS Trần Văn Nhàn Lê Hữu Trọng GVPB TS Nguyẽn Tiến Thịnh Sinh viên thực hiện: Lê Huỳnh Long Vũ 1710390 HỒ CHÍ MINH, 7/2021 ĐẠI HỌC QUỐC GIA TP.HCM -TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA:KH & KT Máy tính _ BỘ MÔN: KHMT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN ÁN TỐT NGHIỆP Chú ý: Sinh viên phải dán tờ vào trang thuyết trình HỌ VÀ TÊN: LÊ HUỲNH LONG VŨ _MSSV: 1710390 HỌ VÀ TÊN: _MSSV: HỌ VÀ TÊN: _MSSV: NGÀNH: Khoa Học Máy Tính _LỚP: _ Đầu đề luận án: XÂY DỰNG MƠ HÌNH NHẬN DẠNG KHUNG VÀ VÙNG VĂN BẢN TRONG TÀI LIỆU CÓ BỐ CỤC CỐ ĐỊNH Nhiệm vụ (yêu cầu nội dung số liệu ban đầu): - Nghiên cứu phương pháp nhận dạng phân vùng dạng tài liệu cố định - Thu thập liệu thực tế bao gồm gán nhãn - Xây dựng mơ hình nhận dạng phân vùng, trọng vào trường giá trị thử nghiệm hậu xử lý - Thực đánh giá tập liệu đưa phân tích Ngày giao nhiệm vụ luận án: 01/10/2020 Ngày hoàn thành nhiệm vụ: 31/07/2021 Họ tên giảng viên hướng dẫn: Phần hướng dẫn: 1) Trần Tuấn Anh – Tổng quan đề tài, tổ chức, liệu 2) Trần Văn Nhàn – Giải thuật tổng qt, mơ hình hóa tốn 3) Lê Hữu Trọng – Mơ hình cụ thể, gán nhãn liệu Nội dung yêu cầu LVTN thông qua Bộ môn Ngày tháng năm CHỦ NHIỆM BỘ MÔN (Ký ghi rõ họ tên) GIẢNG VIÊN HƯỚNG DẪN CHÍNH (Ký ghi rõ họ tên) Trần Tuấn Anh PHẦN DÀNH CHO KHOA, BỘ MÔN: Người duyệt (chấm sơ bộ): _ Đơn vị: _ Ngày bảo vệ: Điểm tổng kết: _ Nơi lưu trữ luận án: _ TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -Ngày 11 tháng 08 năm 2021 PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) Họ tên SV: LÊ HUỲNH LONG VŨ MSSV: 1710390 Ngành (chuyên ngành): Đề tài: XÂY DỰNG MÔ HÌNH NHẬN DẠNG KHUNG VÀ CÙNG VĂN BẢN TRONG TÀI LIỆU CÓ BỐ CỤC CỐ ĐỊNH Họ tên người hướng dẫn/phản biện: Nguyễn Tiến Thịnh Tổng quát thuyết minh: Số trang: Số chương: Số bảng số liệu Số hình vẽ: Số tài liệu tham khảo: Phần mềm tính tốn: Hiện vật (sản phẩm) Tổng qt vẽ: - Số vẽ: Bản A1: Bản A2: Khổ khác: - Số vẽ vẽ tay Số vẽ máy tính: Những ưu điểm LVTN: - Luận văn có bố cục rõ ràng, dễ đọc - Phương pháp tiếp cận khoa học phù hợp với luận văn đại học - Sinh viên có đánh giá biện luận chi tiết mơ hình xử lý tốn liên quan từ dẫn đến lựa chọn mơ hình phù hợp - Mơ hình đề xuất có kết tốt so với mơ hình xử lý tốn liên quan Mask-CNN Những thiếu sót LVTN: - Một số mục chương chưa đầy đủ ý Nội dung chưa mạch lạc - Các cơng thức tốn chưa chuẩn mực, tên hàm, dấu ngoặc, dấu phẩy chấm sau công thức cần xem xét kỹ lưỡng - Phần phụ lục ngắn nên cân nhắc lược bỏ - Tài liệu tham khảo nên cập nhật chỉnh sửa cho phù hợp - Một số hình ảnh cần có trích dẫn nguồn tham khảo - Ngơn từ diễn đạt chưa có tính khoa học Đề nghị: Được bảo vệ  Bổ sung thêm để bảo vệ  Không bảo vệ  câu hỏi SV phải trả lời trước Hội đồng: a Giải thích rõ lý chọn mơ hình U-net để giải toán b Số lượng ảnh đầu vào cịn q nhiễu để đánh giá tính hiệu mơ hình đề xuất so với mơ hình khác Nếu tập huấn luyện đa dạng kết đầu mơ hình U-net bị ảnh hưởng nào? c Giải thích thêm hình 6.2 trang 50 10 Đánh giá chung (bằng chữ: giỏi, khá, TB): giỏi Điểm : 8,4/10 Ký tên (ghi rõ họ tên) Nguyễn Tiến Thịnh TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -Ngày 10 tháng 08 năm 2021 PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) Họ tên SV: LÊ HUỲNH LONG VŨ MSSV: 1710390 Ngành (chuyên ngành): Khoa học Máy Tính Đề tài: XÂY DỰNG MƠ HÌNH NHẬN DẠNG KHUNG VÀ CÙNG VĂN BẢN TRONG TÀI LIỆU CÓ BỐ CỤC CỐ ĐỊNH Họ tên người hướng dẫn: Trần Tuấn Anh, Trần Văn Nhàn, Lê Hữu Trọng Tổng quát thuyết minh: Số trang: Số chương: Số bảng số liệu Số hình vẽ: Số tài liệu tham khảo: Phần mềm tính tốn: Hiện vật (sản phẩm) Tổng quát vẽ: - Số vẽ: Bản A1: Bản A2: Khổ khác: - Số vẽ vẽ tay Số vẽ máy tính: Những ưu điểm LVTN: - Luận văn trình bày phương pháp nhận dạng phân vùng dạng ảnh tài liệu có form cố định chữ viết tay - Tác giả thu thập liệu có nhiều người viết khác với tảng bố cục form bưu - Tác giả tiến hành gán nhãn nhiều mức khác để thự nghiệm mơ hình - Tác giả thực nhiều phương pháp khác nhau, thí nghiệm đưa nhiều phương pháp so sánh (6 mơ hình) Kết ln văn xem xét làm tảng để tìm hiểu phát triển cho mơ hình tổng qt - Đề tài đáp ứng yêu cầu LVTN đại học Những thiếu sót LVTN: - Có thể tiến hành thu thập liệu mức cao hơn, rộng hơn, sử dụng kết có để hỗ trợ gán nhãn Mơ hình cịn nhiều khả phát triển, thử nghiệm tập trung phát triển tốt - Nên phát triển thêm khả nhận dạng khung để hỗ trợ vùng nhận dạng - Phát triển kỹ thuật hậu xử lý tốt Đề nghị: Được bảo vệ  Bổ sung thêm để bảo vệ  Không bảo vệ  câu hỏi SV phải trả lời trước Hội đồng: a Đề xuất phương pháp phát triển khung, b Làm rõ vai trò gán nhãn liệu kiểu đầy đủ rút gọn 10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Điểm : 8.5/10 Ký tên (ghi rõ họ tên) Trần Tuấn Anh Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn Ts Trần Tuấn Anh Nội dung nghiên cứu kết trung thực chưa công bố trước Các số liệu, tài nguyên sử dụng cho q trình phân tích, nhận xét thu thập từ nhiều nguồn khác ghi rõ phần tài liệu tham khảo Ngoài ra, tơi có sử dụng số nhận xét, đánh giá số liệu nghiên cứu tác giả, quan, tổ chức khác Tất có trích dẫn thích nguồn gốc Nếu phát có gian lận nào, tơi xin hoàn toàn chịu trách nhiệm Trường Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh không liên quan đến vi phạm tác quyền, quyền tơi gây (nếu có) q trình thực Lời ngỏ Hành trình đến hồi kết Bốn năm đại học không ngắn khơng dài, nhờ có giúp đỡ người xung quanh mà tơi hồn thành chặng đường Đặc biệt nhất, xin gửi lời cảm ơn chân thành đến Ts Trần Tuấn Anh, người hướng dẫn, bảo cho từ đứa chưa biết xử lí ảnh hoàn thành luận văn Cảm ơn thầy cô, người anh, người chị môi trường Đại học Bách Khoa nói chung khoa Khoa học & Kỹ thuật Máy tính nói riêng, truyền đạt kiến thức quý giá, xây dựng nên tảng vững chãi trước vào môi trường làm việc Cuối cùng, tơi cảm ơn gia đình, bạn bè, tất người yêu quý giúp đỡ tơi suốt chặng đường bốn năm qua, cảm ơn người nhiều! Tóm tắt nội dung Hiện việc chuyển phát tài liệu hàng hóa phổ biến mặt sống từ buôn bán, hay gửi tài liệu, gửi hàng hóa, Các mẫu văn tùy cơng ty vận chuyển có cách thiết kế, nội dung hiển thị khác phù hợp cho mục đích lưu trữ quản lý Hiện việc trích xuất thơng tin từ văn phần lớn mức thủ công, từ người nhập liệu đưa vào sở lưu trữ Điều tiêu tốn nhiều tài nguyên người để thực hiện, việc trích xuất thủ cơng nhàm chán lặp lặp lại dễ làm cho người trích xuất gây lỗi Một hệ thống nhận diện tự động giải pháp tuyệt vời để giải vấn đề thay cho người Trong luận văn này, mục tiêu nghiên cứu xây dựng hệ thống nhận dạng khung, vùng có nội dung văn bao gồm chữ đánh máy chữ viết tay Do hạn chế liệu sẵn có, tài liệu thường mang thông tin cá nhân cao, giúp đỡ thầy Ts Trần Tuấn Anh tơi tập chung vào tờ đơn chuyển phát Viettel Post Dữ liệu có định dạng hình chụp đơn chuyển phát gồm tồn thơng tin đơn Từ hệ thống phát trích xuất vùng có nội dung văn để đưa qua mơ hình xử lý quang học OCR trích xuất nội dung văn Tuy nhiên, luận văn tập trung vào việc nhận diện vùng có thơng tin Về phương pháp tiếp cận, từ ảnh liệu qua mô-đun Phát văn dùng cách tiệp cận phân đoạn vùng văn với mơ hình U-Net, từ kết mơ hình, tơi sử dụng số phương pháp hậu xử lý, chủ yếu dựa kinh nghiệm (heuristic) để lọc bớt nhiễu tách vùng văn Để giúp việc xử lý hiệu hơn, đề xuất thử nghiệm vài biến thể để so sánh, đánh giá chọn biến thể có độ xác Về tập liệu, chưa tìm tập liệu có sẵn phù hợp với đề tại, nên tự gán nhãn cho tập biên lai Viettel Post thầy hướng dẫn cung cấp Tập liệu gồm có 251 ảnh chụp Để đánh giá kết thí nghiệm, mơ-đun Phát vùng văn sử dụng độ đo IoU Dựa kết đánh giá, chọn phương pháp có độ xác tốt để xây dựng hệ thống trích xuất thơng tin hồn chỉnh, đánh giá độ xác tồn hệ thống dựa vào độ đo tỉ lệ sai sô điểm ảnh Với kết đạt luận văn này, mong muốn đóng góp phần vào phát triển lĩnh vực Trích xuất thơng tin nói riêng Thị giác máy tính nói chung Việt Nam Cũng đem vào ứng dụng thực tế, giúp tăng hiệu suất cho doanh nghiệp Mục lục Giới thiệu 1.1 Đặt vấn đề lý chọn đề tài 1.2 Phạm vi mục tiêu nghiên cứu 1.3 Bố cục luận văn Cơ sở lý thuyết 2.1 Mạng nơ-ron nhân tạo 2.1.1 Nơ-ron sinh học 2.1.2 Nơ-ron nhân tạo 2.1.3 Mạng nơ-ron nhân tạo 2.1.4 Hàm kích hoạt (Activation function) 2.2 Mạng nơ-ron tích chập 2.2.1 Phép tính tích chập 2.2.2 Phép tích chập chuyển vị 2.2.3 Phép Pooling (hợp nhất) 2.2.4 Batch Normalization 2.2.5 Vấn đề mạng nơ-ron kết nối đầy đủ 2.2.6 Mơ hình mạng nơ-ron tích chập 2.3 Nhận diện vật thể với họ mơ hình R-CNN 2.3.1 Giới thiệu 2.3.2 Mơ hình R-CNN 2.3.3 Mơ hình Fast R-CNN 2.3.4 Mơ hình Faster R-CNN 2.3.5 Mơ hình Mask R-CNN 2.3.6 Tổng kết mơ hình thuộc R-CNN family 2.4 Nhận diện vật thể với YOLO 2.4.1 Kiến trúc mạng 2.4.2 Hàm lỗi 2.5 Phân đoạn ngữ nghĩa với UNET 2.5.1 Kiến trúc mạng 2.5.2 Biến thể Unet 2.5.2.1 VGG16 iv 1 4 9 11 11 12 13 13 16 16 16 18 21 23 25 26 27 27 29 29 30 30 2.6 Ngôn 2.6.1 2.6.2 2.6.3 2.5.2.2 ResNet ngữ, thư viện tảng Python Nền tảng Tensorflow Thư viện keras Các cơng trình nghiên cứu liên quan 3.1 Phát vùng văn ảnh Connectionist Text Proposal Network (CTPN) 3.1.1 Tổng quan mơ hình 3.1.2 Ưu điểm nhược điểm 3.2 EAST (Efficient Accurate Scene Text Detector) 3.2.1 Kiến trúc mạng 3.2.2 Hàm lỗi 31 33 33 33 33 34 Tập liệu 34 34 38 38 39 41 43 Phương pháp đề xuất 46 5.1 Phân tích tốn 46 5.2 Mơ hình U-net 49 Hiện thực hệ thống 50 6.1 Tiền xử lý làm giàu liệu 50 6.2 Huấn luyện 50 6.3 Hậu xử lý 51 Thí nghiệm đánh giá kết 54 7.1 Phương pháp đánh giá 54 7.2 Kết thí nghiệm 56 Tổng kết 8.1 Kết đạt 8.2 Những hạn chế định hướng phát triển 8.2.1 Hạn chế 8.2.2 Hướng phát triển A Kệ hoạch thực luận văn tương lai 61 61 62 62 62 63 Danh sách bảng 3.1 Thiết kế hình đầu [19] 40 4.1 Các loại nhãn dùng việc gán nhãn liệu 43 7.1 7.2 Thơng số thí nghiệm đề xuất 56 Kết đánh giá thí nghiệm 58 vi 51 Hiện thực hệ thống 6.3 Hậu xử lý (a) Ma trận màu ảnh đầu vào (b) Kết sau U-Net xử lý Hình 6.1: So sánh ảnh gán nhãn ảnh kết U-Net Kết mơ hình thu ma trận màu hình 6.1b Có thể thấy so với hình 6.1a vùng màu bị sai lệch có tượng bị "nhiễu" (noise) Để xử lý phần nhiễu, sử dụng phép duyệt loang (BFS-Breadth First Search) để lấy hết vùng gán nhãn, với vùng lấy ta tính diện tích cách lấy (xmax − xmin ) × (ymax − ymin ), loại bỏ vùng có diện tích nhỏ ngưỡng mà tơi thử nghiệm diện tích tối thiểu mà có ý nghĩa Sau xử lý nhiễu trích xuất vùng nhãn có giá trị, vùng có nhãn V - nhãn mang ý nghĩa vùng có chữ viết tay (a) Vùng gãn nhãn V (b) Sau U-Net xử lý (c) Sau xử lý nhiễu trích xuất Hình 6.2: Các bước xử lý U-Net Với cách đánh nhãn dịng văn chữ viết tay có nhãn V giúp việc học xác hơn, nhiên kết bị gộp vào chung vào thành nét chữ thường khơng dịng bị lấn lên dịng khác Kết mơ hình đến chấp nhận được, số mơ hình nhận dạng ký tự áp dụng để trích xuất văn Tuy nhiên mức độ đoạn văn tính xác mơ hình OCR cịn thấp, nên tơi muốn thử nghiệm phương pháp tách dịng văn mơ hình giúp 51 52 Hiện thực hệ thống mô hình nhận dạng ký tự hoạt động tốt Để tách kết thu thành dòng văn tơi áp dụng thuật tốn scale space technique for word segmentation đề xuất bời R Manmatha N Srimal[2] Hình 6.3: (a) Hình chuyển sang hệ màu xám xoay dọc, (b) Mật độ điểm màu xám, (c) Làm mượt mật độ điểm màu xám, (d) Phân tách dịng Ý tưởng thuật tốn tính mật độ điểm ảnh dịng điểm ảnh(pixel), sau dựa vào biểu đồ mật độ, xác định vùng giao dòng (nơi mật độ điểm ảnh thấp so với dòng trên, dòng - cực đại địa phương) Để loại bỏ nhiễu, ảnh đưa ảnh xám, sau xoay hình cho hướng chữ thành dọc giúp phần tính tốn dễ hơn, để tính mật độ điểm ảnh Gọi hàm f (x, y) giá trị điểm ảnh (x, y) ảnh xám Ta định nghĩa giá trị mật độ dòng y: W P (y) = f (x, y) (6.1) x=0 Với W chiều rộng ảnh Hình 6.3 cho ta thấy ảnh chuyển sang hệ màu xám xoay dọc (a) biểu đồ mật độ sau tính tốn hàm P (b) Những điểm cực đại địa phương biểu đồ mật độ thể khoảng tắng dòng điểm cực tiểu địa phương thể dòng chữ viết tay (có mực đen) Do phân đoạn đường thẳng liên quan đến việc phát vị trí cực đại cục Tuy nhiên, bảng mật độ điểm thường có nhiễu gần vùng cực tiểu/cực đại địa phương Vi hàm P(y) cần làm mượt (smoothed) với lọc Gaussian[2] để giảm sai số nhiễu gây Biểu đồ sau làm mượt thể (c) Điểm cực đại địa phương thu từ đạo hàm hàm P tính với y cho: ′ P (y) = P (y) ∗ Gy = (6.2) Kết cho tương đối xác, nhiên trường hợp phần chân chữ chữ "g", "y", "p", phần dấu từ hay phần mũ "â", "ă", thường bị cắt 52 53 Hiện thực hệ thống Hình 6.5 kết hình 6.4 sau qua thuật tốn Line Segmentation Có thể thấy việc tách dòng phù hợp cho kiểu viết chữ in, nét chữ bị giao với dịng khác Hình 6.4: Một nhãn Giá trị học (a) (b) (c) (d) Hình 6.5: Các dịng tách Line Segmentation 53 Chương Thí nghiệm đánh giá kết Trong chương tơi trình bày thí nghiệm, cách thức đánh giá kết thí nghiệm tiến hành đánh giá tập liệu gán nhãn 7.1 Phương pháp đánh giá Với toán nhận diện vùng văn bản, dùng độ đo giá trị phần giao phần hợp (IoU-Intersection over Union) độ đo phổ biến cho tốn nhận diện vật thể nói chung Được xác định sau: Hình 7.1: Cách tính tốn độ đo IoU1 Để đánh giá tính ổn định trung bình nhiều liệu, tơi lấy giá trị trung bình IoU, frequency weighted IoU để so sánh, đánh giá: meanIU (IoU ) = × ncl ti + nii j nji − nii i (7.1) https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-de tection/ 54 55 Thí nghiệm đánh giá kết × ncl ( f requencyW eightedIU = × nii j nji − nii ) k tk )(ti + i ti (7.2) Trong đó: • nij tổng số điểm ảnh nhãn(class) i dự đoán thuộc nhãn j • ncl tổng số nhãn tập liệu • ti = j nij tổng số điểm ảnh nhãn i Có thể viết lại công thức sau: clW iseScore = TP TP + FP + FN + C nP ixelsN ormi = meanIU = f requencyW eightedIU = nii i nii × clW iseScore ncl (clW iseScore × nP ixelsN orm) (7.3) (7.4) (7.5) (7.6) Với: • TP (true positive): Số lượng điểm ảnh dự đốn • FP (false positive): Sơ lượng điểm ảnh sai bị dự đốn sai • FN (false negative): Số lượng điểm ảnh bị đự đốn sai • C: Giá trị nhỏ chẳng hạn 0.000000000001 để tránh việc chia cho 0, không làm sai kết tính tốn Tuy nhiên với tồn nhận diện vùng sai số điểm ảnh lại không ảnh hưởng nhiều đến vùng văn 55 56 Thí nghiệm đánh giá kết 7.2 Kết thí nghiệm Tơi thực thí nghiệm với mơ hình U-Net số biến thể mô tả Bảng 7.1 bao gồm: • U-Net: Vanilla U-Net • VGG U-Net: Mơ hình vanilla U-Net kết hợp với mơ hình VGG huấn luyện sẵn q trình mã hóa • Res50-U-Net: Mơ hình vanilla U-Net kết hợp chế skip-connection q trình mã hóa STT Thí nghiệm Kiến trúc BatchNorm Hàm lỗi Kiểu gán nhãn Thí nghiệm U-Net Có CrossEntropy Đầy đủ Thí nghiệm VGG U-Net Có CrossEntropy Đầy đủ Thí nghiệm Res50 U-Net Có CrossEntropy Đầy đủ Thí nghiệm U-Net Có CrossEntropy Rút gọn Thí nghiệm VGG U-Net Có CrossEntropy Rút gọn Thí nghiệm Res50 U-Net Có CrossEntropy Rút gọn Bảng 7.1: Thơng số thí nghiệm đề xuất So sánh hai hình 7.2 hình 7.3: • Với cách gán nhãn đầy đủ, vùng có giá trị gán nhãn • Ngược lại, gán nhãn rút gọn tập trung vào vùng có giá trị cần quan tâm • Đối với nhãn mang Giá trị (V-) với cách rút gọn, nhãn giá trị mang chung nhãn V, với cách gán nhãn đầy đủ gán nhãn riêng với nhãn Khóa(K-, H-, ) • Nhìn vào ảnh màu ta thấy màu sắc tương đồng vùng có nhãn Giá trị hình 7.3b 56 57 Thí nghiệm đánh giá kết (b) Ảnh đầu vào U-Net gán nhãn đầy đủ (a) Ảnh gán nhãn đầy đủ Hình 7.2: Ảnh liệu kiểu gán nhãn đầy đủ (b) Ảnh đầu vào U-Net gán nhãn rút gọn (a) Ảnh gán nhãn rút gọn Hình 7.3: Ảnh liệu kiểu gán nhãn rút gọn 57 58 Thí nghiệm đánh giá kết Với mục tiêu so sánh tìm mơ hình phù hợp với tập liệu tốn, nên tơi thực thí nghiệm tập huấn luyện không làm giàu, để mẫu tập huấn luyện giống thực trình huấn luyện Ngồi ra, thơng số mơ hình giữ giống nhằm đảm bảo tính khách quan Sau nhiều lần huấn luyện thử nghiệm, kết cuối đưa qua hàm đánh giá nêu thể bảng 7.2 STT Thí nghiệm mean IU frequency weighted IU Thí nghiệm 0.560 0.759 Thí nghiệm 0.581 0.782 Thí nghiệm 0.581 0.788 Thí nghiệm 0.629 0.797 Thí nghiệm 0.642 0.805 Thí nghiệm 0.648 0.826 Bảng 7.2: Kết đánh giá thí nghiệm Dựa vào bảng 7.2 ta kết luận rằng, với tập liệu nhỏ việc giảm số lượng nhãn giúp mơ hình hoạt động hiểu nhiều, việc đưa nhãn Giá trị thành giúp việc học giảm sai số nhiều Ngoài ba biến thể U-Net Res50-U-Net cho kết nhỉnh mơ hình cịn lại Tuy nhiên với tốn nhận diện vùng văn kết chưa thực đánh giá xác mơ hình được, nhiều điểm ảnh khơng mang tính chất xác từ đánh nhãn, với cách đánh nhãn hình vng bao vùng có chữ viết Hình 7.4b cho ta thấy kết dự đốn mơ hình Res50-U-Net - nhãn rút gọn tập kiểm tra so với hinh 7.4a Mặc dù với kết đánh giá không cao, nhờ tính chất vùng văn cộng thêm bước hậu xử lý loại bỏ vùng nhiễu kết đem lại tương đối tốt 58 59 Thí nghiệm đánh giá kết (a) Ảnh với nhãn đánh (b) Ảnh sau qua Res50-U-Net bước hậu xử lý Hình 7.4: So sánh kết mơ hình Res50-U-Net Nhìn thêm qua số kết mơ hình từ hình 7.5 Có thể thấy nhìn chung mơ hình hoạt động ổn định với tập kiểm tra dù số vùng nhận dạng sai 59 60 Thí nghiệm đánh giá kết số vùng bị phát thừa, điều ảnh hưởng đến hiệu trình khác Trích xuất thơng tin Nhận diện ký hiệu quang học (OCR) (a) (b) (c) (d) Hình 7.5: Một số ảnh kết mơ hình Tuy việc gán nhãn theo cách rút gọn giúp mơ hình học tốt hơn, so với nhãn đưa vào Thế có vấn đề gặp phải, nhãn Giá trị bị đè lên (overlap) có tượng gộp chung thành miền giá trị, học bị với hình 7.5 60 Chương Tổng kết 8.1 Kết đạt Kết thúc giai đoạn Luận văn tốt nghiệp, học hỏi, trang bị nhiều kiến thức lĩnh vực Thị giác máy tính nói riêng, lĩnh vực Học máy, học sâu nói chung Khi bước chân vào giai đoạn Đề cương kết thúc Luận văn, tơi nắm ngành Trí tuệ nhân tạo, hiểu cách thức hoạt động mơ hình Từ đó, tơi thực mơ-đun nhận dạng khung vùng văn tài liệu có bố cục cố định có kết tốt Mơ hình mà tơi xây dựng đáp ứng đầy đủ u cầu tốn đặt ra: • Phát vùng khung, vùng văn • Tách vùng văn thành dịng văn để phục vụ cho mơ hình OCR Tơi tìm hiệu đánh giá điểm mạnh yếu riêng cách tiếp cận toán, mơ hình mạng nơ-ron khác Tuy chưa hiểu sâu phân biệt rõ ràng biến thể U-Net để có bước cải tiến riêng cho tốn, tơi tìm cách để đánh nhãn, hậu xử lý để đưa kết tốt Ngồi tơi xây dựng liệu tờ đơn Viettel Post(VTP) gồm 251 ảnh với nhãn đầy đủ tùy chỉnh theo nhu cầu tốn, góp phần đóng góp cho cộng đồng người đam mê lĩnh vực Thị giác máy tính (Computer Vision) Việt Nam giới có hội nghiên cứu, phát triển hệ thống 61 62 Tổng kết 8.2 Những hạn chế định hướng phát triển tương lai 8.2.1 Hạn chế • Tập liệu tơi gán nhãn cịn nhỏ, nhiều thời gian để gán nhãn lượng nhãn lớn ảnh, ngồi có tơi thực có vài lần thay đổi cách gán nhãn nên không tránh khỏi sai sót q trình gán nhãn như: gán sai nhãn, gán nhầm nhãn, vùng khoanh nhãn chưa tối ưu • Cách tiếp cận mơ hình cịn đơn sơ, chưa sử dụng hết khả tài nguyên, nhãn Khóa chưa sử dụng để hỗ trợ việc nhận diện nhãn Giá trị • Phần hậu xử lý mang tính thử nghiệm, chưa có phương pháp đánh giá xác, tốc độ xử lý chưa nhanh • Chưa thể xây dựng hệ thống hay ứng dụng hoàn thiện end-to-end, mơ-đun rời rạc • Mơ hình sau huấn luyện hoạt động tốt tập liệu VTP, chưa có tính phổ qt 8.2.2 Hướng phát triển Dựa hạn chế trình bày, để hồn thiện cải thiện mơ hình, tơi dự kiến phát triển tiếp với ý sau: • Làm giàu thêm tập liệu có, xử lý liệu bị sai nhãn đánh nhãn chưa tốt, sau tiến hành huấn luyện lại mơ đánh giá lại hệ thống • Xây dựng hệ thống, ứng dụng hồn thiện từ mơ-đun có • Nghiên cứu, phát triển tiếp mơ-đun OCR, trích xuất thơng tin để hồn thiện hệ thống trích xuất thơng tin từ văn chữ viết tay • Phân tích tốn kỹ để tìm hướng tiếp cận hiệu 62 Phụ lục A Kệ hoạch thực luận văn Từ ngày đầu giai đoạn đề cương đến nay, xây dựng kế hoạch cụ thể cho giai đoạn để đảm bảo cho luận văn hoàn thành cách tốt Mặc dù ảnh hưởng việc học, việc làm tình hình dịch bệnh căng thẳng Covid-19 có làm chậm tiến độ đề Song kế hoạch thực đảm bảo hoàn thành, kế hoạch thực luận văn tơi trình bày hình A.1 Hình A.1: Kế hoạch thực luận văn 63 Tài liệu tham khảo [1] Convolution - Tích chập giải thích code thực tế website https://techmast er.vn/posts/35474/convolution-tich-chap-giai-thich-bang-code-thuc-te Accessed: 2020-12-10 [2] Scale Space Technique for Word Segmentation in Handwritten Documents website http://ciir.cs.umass.edu/pubfiles/mm-27.pdf Accessed: 2021-5-11 [3] Support vector machines - cs229 lecture notes http://cs229.stanford.edu/not es2019fall/cs229-notes3.pdf Accessed: 2021-04-12 [4] Tranposed Convolution - Cách hoạt động tích chập chuyển vị website https: //towardsdatascience.com/transposed-convolution-demystified-84ca81b4 baba Accessed: 2021-02-17 [5] Yangquing Jia Pierre Sermanet Scott Reed Scott Reed Dragmir Anguelov Dumitru Erhan Vincent Vanhoucke Andrew Rabinovich Chirstian Szegedy, Wei Liu Going deeper with convolutions arXiv preprint arXiv:1409.4842v1, 2014 [6] Ross Girshick EShaoqing Ren, Kaiming He and Jian Sun Faster r-cnn: Towards real-time object detection with region proposal networks arXiv preprint arXiv:1506.01497, 2016 [7] Jonathan Long Evan Shelhamer and Trevor Darrell Fully convolutional networks for semantic segmentation arXiv preprint arXiv:1605.06211, 2015 [8] Ross Girshick Fast r-cnn arXiv preprint arXiv:1504.08083, 2015 [9] Sergey Ioffe and Christian Szegedy Batch normalization: Accelerating deep network training by reducing internal covariate shift arXiv preprint arXiv:1502.03167, 2015 [10] Piotr Dollar Ross Girshick Kaiming He, Georgia Gkioxari Mask r-cnn arXiv preprint arXiv:1703.06870, 2018 [11] Shaoqing Ren Jian Sun Kaiming He, Xiangyu Zhang Deep residual learning for image recognition arXiv preprint arXiv:1512.0239, 2015 64 TÀI LIỆU THAM KHẢO 65 [12] Philipp Fischer Olaf Ronneberger and Thomas Brox U-net: Convolutional networks for biomedical image segmentation arXiv preprint arXiv:1505.04597v1, 2015 [13] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi You only look once: Unified, real-time object detection In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016 [14] Trevor Darrell Jitendra Malik Ross Girshick, Jeff Donahue Rich feature hierarchies for accurate object detection and semantic segmentation arXiv preprint arXiv:1311.2524v5, 2014 [15] Frederic Kaplan† Sofia Ares Oliveira†, Benoit Seguin† dhsegment: A generic deeplearning approach for document segmentation arXiv preprint arXiv:1804.10371, 2019 [16] Yichuan Tang Deep learning using linear support vector machines arXiv preprint arXiv:1306.0239, 2013 [17] Francesco Visin Vincent Dumoulin A guide to convolution arithmetic for deep learning arXiv preprint arXiv:1603.07285, 2018 [18] Lilian Weng Object detection lilianweng.github.io/lil-log, 2017 for dummies part 3: R-cnn family [19] He Wen Yuzhi Wang Shuchang Zhou Weiran He Jiajun Liang Xinyu Zhou, Cong Yao East: An efficient and accurate scene text detector arXiv preprint arXiv:1704.03155, 2017 [20] Tong He Pan He Yu Qiao Zhi Tian, Weilin Huang Detecting text in natural image with connectionist text proposal network arXiv preprint arXiv:1609.03605, 2016 65 ... KHUNG VÀ VÙNG VĂN BẢN TRONG TÀI LIỆU CÓ BỐ CỤC CỐ ĐỊNH Nhiệm vụ (yêu cầu nội dung số liệu ban đầu): - Nghiên cứu phương pháp nhận dạng phân vùng dạng tài liệu cố định - Thu thập liệu thực tế bao... Đề tài: XÂY DỰNG MƠ HÌNH NHẬN DẠNG KHUNG VÀ CÙNG VĂN BẢN TRONG TÀI LIỆU CÓ BỐ CỤC CỐ ĐỊNH Họ tên người hướng dẫn/phản biện: Nguyễn Tiến Thịnh Tổng quát thuyết minh: Số trang: Số chương: Số bảng... (chuyên ngành): Khoa học Máy Tính Đề tài: XÂY DỰNG MƠ HÌNH NHẬN DẠNG KHUNG VÀ CÙNG VĂN BẢN TRONG TÀI LIỆU CÓ BỐ CỤC CỐ ĐỊNH Họ tên người hướng dẫn: Trần Tuấn Anh, Trần Văn Nhàn, Lê Hữu Trọng Tổng quát

Ngày đăng: 03/06/2022, 16:10

Hình ảnh liên quan

Hình 1.1: Ví dụ về một tờ đơn - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 1.1.

Ví dụ về một tờ đơn Xem tại trang 14 của tài liệu.
Hình 2.2: Perceptron. - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.2.

Perceptron Xem tại trang 17 của tài liệu.
Hình 2.1: Một nơ-ron sinh học2 - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.1.

Một nơ-ron sinh học2 Xem tại trang 17 của tài liệu.
Hình 2.3: Mạng nơ-ron nhân tạo gồm hai hidden layer3 - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.3.

Mạng nơ-ron nhân tạo gồm hai hidden layer3 Xem tại trang 18 của tài liệu.
Hình 2.6: Bên trái là đồ thị của hàm tanh, bên phải là đồ thị cho đạo hàm của nó - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.6.

Bên trái là đồ thị của hàm tanh, bên phải là đồ thị cho đạo hàm của nó Xem tại trang 20 của tài liệu.
Hình 2.5: Bên trái là đồ thị của hàm sigmoid, bên phải là đồ thị cho đạo hàm của nó - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.5.

Bên trái là đồ thị của hàm sigmoid, bên phải là đồ thị cho đạo hàm của nó Xem tại trang 20 của tài liệu.
Hình 2.7: Bên trái là đồ thị của hàm ReLU, bên phải là đồ thị cho đạo hàm của nó, tại x= 0 đồ thị không có đạo hàm - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.7.

Bên trái là đồ thị của hàm ReLU, bên phải là đồ thị cho đạo hàm của nó, tại x= 0 đồ thị không có đạo hàm Xem tại trang 21 của tài liệu.
6. Để giảm độ lỗi, R-CNN sử dụng một mô hình regression đã được huấn luyện để chỉnh sửa lại bounding box được dự đoán so với bouding box chính xác. - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

6..

Để giảm độ lỗi, R-CNN sử dụng một mô hình regression đã được huấn luyện để chỉnh sửa lại bounding box được dự đoán so với bouding box chính xác Xem tại trang 29 của tài liệu.
Hình 2.14: Mô hình nhận diện vật thể Fast R-CNN [8] - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.14.

Mô hình nhận diện vật thể Fast R-CNN [8] Xem tại trang 31 của tài liệu.
Hình 2.15: RoI pooling 6 - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.15.

RoI pooling 6 Xem tại trang 31 của tài liệu.
Hình 2.17: Mô hình nhận diện vật thể Faster R-CNN [6] - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.17.

Mô hình nhận diện vật thể Faster R-CNN [6] Xem tại trang 34 của tài liệu.
2.3.5 Mô hình Mask R-CNN - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

2.3.5.

Mô hình Mask R-CNN Xem tại trang 35 của tài liệu.
2.3.6 Tổng kết các mô hình thuộc R-CNN family - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

2.3.6.

Tổng kết các mô hình thuộc R-CNN family Xem tại trang 37 của tài liệu.
Hình 2.20: Khu vực quan tâm được ánh xạ chính xác từ hình ảnh gốc lên feature map mà không làm tròn đến số nguyên9 - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.20.

Khu vực quan tâm được ánh xạ chính xác từ hình ảnh gốc lên feature map mà không làm tròn đến số nguyên9 Xem tại trang 37 của tài liệu.
Hình 2.22: Cấu trúc mô hình YOLO [13] - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.22.

Cấu trúc mô hình YOLO [13] Xem tại trang 39 của tài liệu.
Hình 2.25: Tăng độ sâu của mạng dẫn đến hiệu suất kém hơn 11 - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 2.25.

Tăng độ sâu của mạng dẫn đến hiệu suất kém hơn 11 Xem tại trang 44 của tài liệu.
Hình 3.1: (a) Kiến trúc của mô hình CTPN (b) Mô hình CTPN cho ra kết quả là một tập các vùng văn bản (text proposals) liên tục nhau, màu sắc của mỗi vùng văn bản ứng với xác suất là text hay non-text [20] - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 3.1.

(a) Kiến trúc của mô hình CTPN (b) Mô hình CTPN cho ra kết quả là một tập các vùng văn bản (text proposals) liên tục nhau, màu sắc của mỗi vùng văn bản ứng với xác suất là text hay non-text [20] Xem tại trang 46 của tài liệu.
Hình 3.2: (Hàng trên) Kết quả dự đoán của mô hình khi không có mạng nơ-ron hồi quy. (Hàng dưới) Kết quả dự đoán của mô hình khi được tích hợp thêm mạng nơ-ron hồi quy [16] - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 3.2.

(Hàng trên) Kết quả dự đoán của mô hình khi không có mạng nơ-ron hồi quy. (Hàng dưới) Kết quả dự đoán của mô hình khi được tích hợp thêm mạng nơ-ron hồi quy [16] Xem tại trang 48 của tài liệu.
Hình 3.3: Hình chữ nhật đỏ: CTPN kết hợp với bước sàng lọc (side-refinement). hình chữ nhật màu vàng nét đứt: CTPN không có bước sàng lọc - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 3.3.

Hình chữ nhật đỏ: CTPN kết hợp với bước sàng lọc (side-refinement). hình chữ nhật màu vàng nét đứt: CTPN không có bước sàng lọc Xem tại trang 49 của tài liệu.
Mô hình được chia thành ba phần: - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

h.

ình được chia thành ba phần: Xem tại trang 51 của tài liệu.
Hình 3.6: Quy trình xây dựng nhãn: (a) Vùng văn bản tứ giác (nét đứt vàng) và vùng tứ giác được thu gọn (nét liền xanh lá cây); (b) Bản đồ điểm văn bản; (c) Tạo bản đồ RBOX; (d) 4 kênh khoảng cách của từng điểm ảnh đến đường biên hình chữ nhật; (e) Góc xo - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 3.6.

Quy trình xây dựng nhãn: (a) Vùng văn bản tứ giác (nét đứt vàng) và vùng tứ giác được thu gọn (nét liền xanh lá cây); (b) Bản đồ điểm văn bản; (c) Tạo bản đồ RBOX; (d) 4 kênh khoảng cách của từng điểm ảnh đến đường biên hình chữ nhật; (e) Góc xo Xem tại trang 53 của tài liệu.
Hình 4.2: Mẫu dữ liệu đã được gán nhãn đầy đủ. - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 4.2.

Mẫu dữ liệu đã được gán nhãn đầy đủ Xem tại trang 57 của tài liệu.
Hình 5.1: Ảnh đầu ra của maskrcnn - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 5.1.

Ảnh đầu ra của maskrcnn Xem tại trang 60 của tài liệu.
Hình 6.1: So sánh giữa ảnh gán nhãn và ảnh kết quả của U-Net - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 6.1.

So sánh giữa ảnh gán nhãn và ảnh kết quả của U-Net Xem tại trang 63 của tài liệu.
Tôi đã thực hiện thí nghiệm với mô hình U-Net và một số biến thể được mô tả trong Bảng 7.1 bao gồm: - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

i.

đã thực hiện thí nghiệm với mô hình U-Net và một số biến thể được mô tả trong Bảng 7.1 bao gồm: Xem tại trang 68 của tài liệu.
Hình 7.3: Ảnh dữ liệu của kiểu gán nhãn rút gọn - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 7.3.

Ảnh dữ liệu của kiểu gán nhãn rút gọn Xem tại trang 69 của tài liệu.
Hình 7.2: Ảnh dữ liệu của kiểu gán nhãn đầy đủ - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 7.2.

Ảnh dữ liệu của kiểu gán nhãn đầy đủ Xem tại trang 69 của tài liệu.
Hình 7.4: So sánh kết quả của mô hình Res50-U-Net - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 7.4.

So sánh kết quả của mô hình Res50-U-Net Xem tại trang 71 của tài liệu.
Hình 7.5: Một số ảnh kết quả của mô hình - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

Hình 7.5.

Một số ảnh kết quả của mô hình Xem tại trang 72 của tài liệu.
Hình A.1: Kế hoạch thực hiện luận văn - Xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định

nh.

A.1: Kế hoạch thực hiện luận văn Xem tại trang 75 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan