1. Trang chủ
  2. » Luận Văn - Báo Cáo

Số hóa dữ liệu nhà đất sử dụng thuật toán nhận dạng ảnh

68 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Phương pháp nghiên cứu bao gồm việc thu thập và xử lý dữ liệu giấy chứng nhận, xây dựng mô hình object detection, sử dụng OCR để trích xuất văn bản từ ảnh, và áp dụng mô hình NER để xác

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU - NGUYỄN VĂN BẮC SỐ HÓA DỮ LIỆU NHÀ ĐẤT SỬ DỤNG THUẬT TOÁN NHẬN DẠNG ẢNH LUẬN VĂN THẠC SĨ Bà Rịa – Vũng Tàu, tháng 8, năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU - NGUYỄN VĂN BẮC SỐ HÓA DỮ LIỆU NHÀ ĐẤT SỬ DỤNG THUẬT TOÁN NHẬN DẠNG ẢNH LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số: 8480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS Trần Mạnh Hà Bà Rịa – Vũng Tàu, tháng 8, năm 2023 i LỜI CAM ĐOAN Tôi Nguyễn Văn Bắc, học viên lớp MIT20K2, ngành Công nghệ thông tin Tơi xin cam đoan luận văn “Số Hóa Dữ Liệu Nhà Đất Sử Dụng Thuật Toán Nhận Dạng Ảnh” cơng trình nghiên cứu riêng tơi, thực hướng dẫn giảng viên hướng dẫn, khơng trùng lắp với cơng trình cơng bố trước Tơi hồn thành việc trích dẫn đầy đủ tài liệu tham khảo cơng trình nghiên cứu có liên quan từ nước quốc tế Các nguồn tài liệu mà tham khảo, kế thừa trích dẫn tổng hợp phần danh mục tài liệu tham khảo luận văn Học viên thực Luận văn Nguyễn Văn Bắc ii LỜI CÁM ƠN Tôi xin gửi lời cảm ơn chân thành đến người hỗ trợ, đồng hành đóng góp q giá cho q trình nghiên cứu thực luận văn "Số hóa liệu nhà đất sử dụng thuật toán nhận dạng ảnh" Đầu tiên, xin chân thành cảm ơn PGS.TS Trần Mạnh Hà - người trực tiếp hướng dẫn định hướng tận tình, giúp đỡ tơi vượt qua khó khăn q trình nghiên cứu Nhờ bảo tận tâm Thầy mà tơi có hội tiếp cận hiểu sâu lĩnh vực Tôi muốn gửi lời cảm ơn đến đồng nghiệp lãnh đạo Trung tâm Công nghệ thông tin Tài nguyên Môi trường hỗ trợ việc thu thập liệu Cuối cùng, xin gửi lời cảm ơn chân thành đến tất người góp phần hỗ trợ tơi hồnh thành luận văn Mong kết nghiên cứu kiến thức thu thập từ luận văn có ý nghĩa ứng dụng hữu ích lĩnh vực tương lai Nguyễn Văn Bắc iii MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI .2 1.1 Đặt vấn đề 1.2 Mục tiêu đề tài .3 1.3 Đối tượng nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà tài sản khác gắn liền với đất 2.2 Các thuật toán Object Detection 2.2.1 R-CNN (Region-based Convolutional Neural Network) 2.2.2 Faster R-CNN 11 2.2.3 YOLO (You Only Look Once) .12 2.2.4 SSD (Single Shot Multibox Detector): 13 2.3 Nhận dạng thực thể (NER) 15 2.3.1 Nhận dạng thực thể gì? 15 2.3.2 Các phương pháp NER phổ biến 16 CHƯƠNG 3: XÂY DỰNG GIẢI PHÁP SỐ HĨA THƠNG TIN GIẤY CHỨNG NHẬN .18 3.1 Xác định trường thông tin giấy chứng nhận 18 3.2 Trình bày tổng quan giải pháp số hóa thơng tin giấy chứng nhận .20 3.3 Thu thập liệu 22 3.4 Xây dựng mơ hình nhận dạng đối tượng để nhận dạng vùng thông tin ảnh giấy chứng nhận 23 3.4.1 Lựa chọn mơ hình Object Detection 23 3.4.2 Công cụ sử dụng 24 3.4.3 Các bước thực huấn luyện mơ hình 25 iv 3.5 Các phương pháp tiền xử lý ảnh 33 3.6 Tesseract OCR 34 3.7 Xây dựng mơ hình nhận dạng thực thể (NER) 35 3.7.1 Công cụ sử dụng 35 3.7.2 Chuẩn bị liệu 36 3.7.3 Gán nhãn liệu 37 3.7.4 Chuyển liệu train thành SpaCy format (.spacy) 39 3.7.5 Các bước thực huấn luyện mơ hình NER 40 3.8 Kết hợp mơ hình nhận dạng đối tượng, OCR NER 44 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46 4.1 Dữ liệu thử nghiệm 46 4.2 Mô tả tập liệu 47 4.3 Xây dựng kịch thử nghiệm 48 4.4 Kết thu 49 4.5 Phân tích kết 51 4.5.1 Phương pháp đánh giá .51 4.5.2 Phân tích .52 4.6 Đánh giá .53 4.6.1 Ưu điểm .53 4.6.2 Hạn chế .53 CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 55 5.1 Công việc làm .55 5.2 Hạn chế .55 5.3 Cải tiến giải pháp .56 5.4 Định hướng phát triển 56 v DANH MỤC CÁC TỪ VIẾT TẮT NLP - Natural Language Processing ML - Machine Learning SDD – Single Shot MultiBox Detector R-CNN - Region-based Convolutional Neural Network NER - Named Entity Recognition vi DANH MỤC CÁC HÌNH ẢNH Hình 2.1: Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà tài sản khác gắn liền với đất Hình 2.2: Nhận biết giấy chứng nhận (nguồn: Internet) Hình 2.3: Mẫu trang trang giấy chứng nhận Hình 2.4: Mẫu trang trang giấy chứng nhận Hình 2.5: R-CNN 10 Hình 2.6: Faster R-CNN 11 Hình 2.7: Mơ hình single shot detection SSD, nguồn [10] .14 Hình 2.8: Xác định gắn nhãn thực thể NER .15 Hình 3.1: Vùng chứa thơng tin chủ sử dụng số hiệu trang file scan GCN 18 Hình 3.2: Vùng chứa thơng tin đất trang file scan GCN 19 Hình 3.3: Sơ đồ giải pháp số hóa thơng tin giấy chứng nhận 22 Hình 3.4: Chuẩn bị liệu ảnh huấn luyện 23 Hình 3.5: Sơ đồ huấn luyện model nhận dạng vùng thông tin 24 Hình 3.6: Gán nhãn phần mềm labelImg 25 Hình 3.7: Kết gán nhãn liệu 26 Hình 3.8: Sơ đồ thuật toán chia liệu huấn luyện 27 Hình 3.9: Sơ đồ chuyển liệu dạng TFRecord để huấn luyện mơ hình 28 Hình 3.10: Thực huấn luyện mơ hình nhận dạng Colab 31 Hình 3.11: Kết mơ hình nhận dạng vùng thơng tin 33 Hình 3.12: Tiền xử lý mặt trang in GCN .33 Hình 3.13: Sơ đồ chuẩn bị liệu huấn luyện NER 36 Hình 3.14: Kết bước chuẩn bị liệu 37 Hình 3.15: Gắn nhãn liệu dạng BIO format 38 Hình 3.16: Dữ liệu train giấy chứng nhận định dạng Spacy .40 Hình 3.17: Giao diện tạo file config.cfg spaCy 41 Hình 3.18: Huấn luyện mơ hình NER dùng Spacy Colab 42 vii Hình 3.19: Kết huấn luyện mơ hình NER 42 Hình 3.20: Kiểm tra kết mơ hình NER .43 Hình 3.21: Sơ đồ thực trích xuất thơng tin từ giấy chứng nhận 45 Hình 4.1: Giấy chứng nhận quyền sử dụng đất 46 Hình 4.2: Giấy chứng nhận quyền sử dụng đất tài sản gắn liền với đất .47 Hình 4.3: Giao diện chương trình thực nghiệm 48 Hình 4.4: File scan PDF giấy chứng nhận đầu vào 49 Hình 4.5: Nội dung Json kết .49 Hình 4.6: Giao diện kết 50 Hình 4.7: Trường hợp thông tin bị mờ 54 viii DANH MỤC CÁC BẢNG BIỂU Bảng 3.1: Thông tin chủ sủ dụng 18 Bảng 3.2: Thông tin đất 19 Bảng 3.3: Dữ liệu huấn luyện 23 Bảng 3.4: Mô tả nhãn liệu .38 Bảng 4.1: Kết thực nghiệm .51

Ngày đăng: 19/02/2024, 14:52

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN