1. Trang chủ
  2. » Luận Văn - Báo Cáo

[LUẬN VĂN THẠC SĨ] Số hóa dữ liệu nhà đất sử dụng Thuật toán nhận dạng ảnh

68 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU

-

NGUYỄN VĂN BẮC

SỐ HÓA DỮ LIỆU NHÀ ĐẤT SỬ DỤNG THUẬT TOÁN NHẬN DẠNG ẢNH

LUẬN VĂN THẠC SĨ

Bà Rịa – Vũng Tàu, tháng 8, năm 2023

Trang 2

TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU

-

NGUYỄN VĂN BẮC

SỐ HÓA DỮ LIỆU NHÀ ĐẤT SỬ DỤNG THUẬT TOÁN NHẬN DẠNG ẢNH

LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin

Trang 3

LỜI CAM ĐOAN

Tôi là Nguyễn Văn Bắc, học viên lớp MIT20K2, ngành Công nghệ thông tin Tôi xin cam đoan luận văn “Số Hóa Dữ Liệu Nhà Đất Sử Dụng Thuật Toán Nhận Dạng Ảnh” là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn của giảng viên hướng dẫn, không trùng lắp với bất kỳ công trình nào đã được công bố trước đây Tôi đã hoàn thành việc trích dẫn đầy đủ các tài liệu tham khảo và công trình nghiên cứu có liên quan từ cả trong nước và quốc tế Các nguồn tài liệu mà tôi đã tham khảo, kế thừa và trích dẫn đều được tổng hợp trong phần danh mục tài liệu tham khảo của luận văn

Trang 4

LỜI CÁM ƠN

Tôi xin gửi lời cảm ơn chân thành đến những người đã hỗ trợ, đồng hành và đóng góp quý giá cho quá trình nghiên cứu và thực hiện luận văn "Số hóa dữ liệu nhà đất sử dụng thuật toán nhận dạng ảnh"

Đầu tiên, tôi xin chân thành cảm ơn PGS.TS Trần Mạnh Hà - người đã trực tiếp hướng dẫn và định hướng tận tình, giúp đỡ tôi vượt qua những khó khăn trong quá trình nghiên cứu Nhờ sự chỉ bảo và tận tâm của Thầy mà tôi đã có cơ hội tiếp cận và hiểu sâu hơn về lĩnh vực này

Tôi cũng muốn gửi lời cảm ơn đến các đồng nghiệp và lãnh đạo Trung tâm Công nghệ thông tin Tài nguyên và Môi trường đã hỗ trợ tôi trong việc thu thập dữ liệu

Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến tất cả những người đã góp phần hỗ trợ tôi hoành thành luận văn này Mong rằng những kết quả nghiên cứu và kiến thức thu thập từ luận văn sẽ có ý nghĩa và ứng dụng hữu ích trong lĩnh vực tương lai

Trang 5

MỤC LỤC

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 2

1.1 Đặt vấn đề 2

1.2 Mục tiêu của đề tài 3

1.3 Đối tượng nghiên cứu 3

1.4 Phương pháp nghiên cứu 4

1.5 Cấu trúc luận văn 4

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6

2.1 Giới thiệu về giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất 6

2.2 Các thuật toán Object Detection 9

2.2.1 R-CNN (Region-based Convolutional Neural Network) 9

2.2.2 Faster R-CNN 11

2.2.3 YOLO (You Only Look Once) 12

2.2.4 SSD (Single Shot Multibox Detector): 13

2.3 Nhận dạng thực thể (NER) 15

2.3.1 Nhận dạng thực thể là gì? 15

2.3.2 Các phương pháp NER phổ biến 16

CHƯƠNG 3: XÂY DỰNG GIẢI PHÁP SỐ HÓA THÔNG TIN GIẤY CHỨNG NHẬN 18

3.1 Xác định các trường thông tin trên giấy chứng nhận 18

3.2 Trình bày tổng quan giải pháp số hóa thông tin giấy chứng nhận 20

Trang 6

3.7.4 Chuyển dữ liệu train thành SpaCy format (.spacy) 39

3.7.5 Các bước thực hiện huấn luyện mô hình NER 40

3.8 Kết hợp các mô hình nhận dạng đối tượng, OCR và NER 44

CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46

CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 55

5.1 Công việc đã làm được 55

5.2 Hạn chế 55

5.3 Cải tiến giải pháp 56

5.4 Định hướng phát triển 56

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

NLP - Natural Language Processing ML - Machine Learning

SDD – Single Shot MultiBox Detector

R-CNN - Region-based Convolutional Neural Network NER - Named Entity Recognition

Trang 8

DANH MỤC CÁC HÌNH ẢNH

Hình 2.1: Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác

gắn liền với đất 6

Hình 2.2: Nhận biết giấy chứng nhận mới (nguồn: Internet) 7

Hình 2.3: Mẫu trang 1 và trang 4 giấy chứng nhận 8

Hình 2.4: Mẫu trang 2 và trang 3 giấy chứng nhận 9

Hình 2.5: R-CNN 10

Hình 2.6: Faster R-CNN 11

Hình 2.7: Mô hình single shot detection SSD, nguồn [10] 14

Hình 2.8: Xác định và gắn nhãn thực thể trong NER 15

Hình 3.1: Vùng chứa thông tin chủ sử dụng và số hiệu ở trang 1 file scan GCN 18

Hình 3.2: Vùng chứa thông tin thửa đất ở trang 2 file scan GCN 19

Hình 3.3: Sơ đồ giải pháp số hóa thông tin giấy chứng nhận 22

Hình 3.4: Chuẩn bị dữ liệu ảnh huấn luyện 23

Hình 3.5: Sơ đồ huấn luyện model nhận dạng vùng thông tin 24

Hình 3.6: Gán nhãn bằng phần mềm labelImg 25

Hình 3.7: Kết quả gán nhãn dữ liệu 26

Hình 3.8: Sơ đồ thuật toán chia dữ liệu huấn luyện 27

Hình 3.9: Sơ đồ chuyển dữ liệu về dạng TFRecord để huấn luyện mô hình 28

Hình 3.10: Thực hiện huấn luyện mô hình nhận dạng trên Colab 31

Hình 3.11: Kết quả mô hình nhận dạng vùng thông tin 33

Hình 3.12: Tiền xử lý 2 mặt trang in GCN 33

Hình 3.13: Sơ đồ chuẩn bị dữ liệu huấn luyện NER 36

Hình 3.14: Kết quả của bước chuẩn bị dữ liệu 37

Hình 3.15: Gắn nhãn dữ liệu dạng BIO format 38

Hình 3.16: Dữ liệu train giấy chứng nhận định dạng Spacy 40

Hình 3.17: Giao diện tạo file config.cfg của spaCy 41

Hình 3.18: Huấn luyện mô hình NER dùng Spacy trên Colab 42

Trang 9

Hình 3.19: Kết quả huấn luyện mô hình NER 42

Hình 3.20: Kiểm tra kết quả mô hình NER 43

Hình 3.21: Sơ đồ thực hiện trích xuất thông tin từ giấy chứng nhận 45

Hình 4.1: Giấy chứng nhận quyền sử dụng đất 46

Hình 4.2: Giấy chứng nhận quyền sử dụng đất và tài sản gắn liền với đất 47

Hình 4.3: Giao diện chương trình thực nghiệm 48

Hình 4.4: File scan PDF giấy chứng nhận đầu vào 49

Hình 4.5: Nội dung Json kết quả 49

Hình 4.6: Giao diện kết quả 50

Hình 4.7: Trường hợp thông tin bị mờ 54

Trang 10

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.1: Thông tin về chủ sủ dụng 18

Bảng 3.2: Thông tin về thửa đất 19

Bảng 3.3: Dữ liệu huấn luyện 23

Bảng 3.4: Mô tả các nhãn dữ liệu 38

Bảng 4.1: Kết quả thực nghiệm 51

Trang 11

TÓM TẮT

Luận văn tập trung vào nghiên cứu và phát triển một giải pháp tự động hóa việc nhận dạng và trích xuất thông tin từ “giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất” [1] Mục tiêu nghiên cứu là xây dựng mô hình nhận dạng và trích xuất thông tin từ vùng ảnh chứa thông tin của giấy chứng nhận

Phương pháp nghiên cứu bao gồm việc thu thập và xử lý dữ liệu giấy chứng nhận, xây dựng mô hình object detection, sử dụng OCR để trích xuất văn bản từ ảnh, và áp dụng mô hình NER để xác định loại thông tin trong văn bản

Kết quả nghiên cứu cho thấy giải pháp kết hợp các mô hình nhận dạng đạt được độ chính xác cao trong việc trích xuất thông tin từ giấy chứng nhận

Hàm ý quản trị của luận văn là giúp cải thiện quy trình xử lý thông tin từ giấy chứng nhận và đưa ra giải pháp tự động hóa hiệu quả trong việc quản lý dữ liệu địa chính

Tuy nhiên, trong quá trình thực hiện đề tài, luận văn còn một số hạn chế như thời gian làm luận văn hạn chế và khối lượng công việc lớn, dẫn đến một số vấn đề chưa được giải quyết Hướng nghiên cứu tiếp theo là mở rộng giải pháp để xử lý thông tin biến động về quyền sử dụng đất, dữ liệu thuộc tính của thửa đất và tài sản gắn liền với đất

Trang 12

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI

1.1 Đặt vấn đề

Quản lý đất đai là một lĩnh vực quan trọng của quản lý nhà nước, có tác động trực tiếp đến đời sống kinh tế - xã hội của đất nước Trong những năm qua, Chính phủ đã có nhiều nỗ lực để cải thiện công tác quản lý đất đai, tuy nhiên vẫn còn một số tồn tại, hạn chế cần được khắc phục

Một trong những tồn tại, hạn chế lớn nhất trong công tác quản lý đất đai hiện nay là việc chưa ứng dụng công nghệ thông tin một cách hiệu quả Hệ thống thông tin đất đai hiện tại vẫn còn lạc hậu, thiếu đồng bộ và chưa được kết nối với nhau Điều này dẫn đến việc khó khăn trong việc tra cứu, quản lý và khai thác dữ liệu đất đai

Bên cạnh đó, công tác đào tạo, bồi dưỡng cán bộ quản lý đất đai về công nghệ thông tin cũng còn nhiều hạn chế Điều này khiến cho cán bộ quản lý đất đai chưa có đủ kiến thức và kỹ năng để sử dụng công nghệ một cách hiệu quả trong công tác quản lý đất đai [2]

Hạ tầng thông tin đất đai và cơ sở dữ liệu đất đai là một hệ thống quan trọng, giúp hỗ trợ công tác chuyên môn, cải cách thủ tục hành chính và phối hợp với các bên có liên quan Tuy nhiên, hệ thống hiện tại vẫn còn nhiều hạn chế, bao gồm:

• Thiếu đồng bộ và thống nhất: Hệ thống hiện tại vẫn còn được quản lý và vận hành theo nhiều mô hình khác nhau, dẫn đến việc thiếu đồng bộ và thống nhất về dữ liệu, quy trình nghiệp vụ và tiêu chuẩn kỹ thuật

• Thiếu tính toàn diện: Hệ thống hiện tại vẫn chưa bao gồm đầy đủ các thông tin về đất đai, bao gồm thông tin về quy hoạch sử dụng đất, giá đất, hồ sơ giao dịch đất đai, v.v…

• Thiếu hiệu quả: Hệ thống hiện tại vẫn còn nhiều hạn chế về hiệu quả, bao gồm thời gian xử lý hồ sơ lâu, độ chính xác thấp và khó khăn trong việc khai thác và sử dụng dữ liệu

Trong bối cảnh đó, đề tài "Số Hóa Dữ Liệu Nhà Đất Sử Dụng Thuật Toán Nhận Dạng Ảnh" nhằm giải quyết một phần vấn đề trên Đề tài tập trung nghiên cứu

Trang 13

và ứng dụng thuật toán nhận dạng ảnh để trích xuất thông tin từ các tài liệu lưu trữ đã số hóa như giấy chứng nhận quyền sử dụng đất Mục tiêu của đề tài là thu thập dữ liệu đất đai nhanh chóng và chính xác, đồng thời hạn chế dữ liệu sai sót và không nhất quán trong quá trình nhập dữ liệu thủ công

Nghiên cứu và ứng dụng thuật toán nhận dạng ảnh trong việc trích xuất thông tin từ giấy chứng nhận quyền sử dụng đất từ file scan sẽ đóng góp vào quá trình số hóa dữ liệu và cải thiện quy trình quản lý đất đai Việc tự động hóa quy trình này sẽ giúp giảm thiểu công sức và thời gian, đồng thời tăng tính chính xác và hiệu suất làm việc Đề tài này nhằm đóng góp vào quá trình cải cách thủ tục hành chính và quản lý đất đai, tạo ra sự hiệu quả và tiện ích cho việc thu thập và sử dụng dữ liệu đất đai

1.2 Mục tiêu của đề tài Mục tiêu chung:

Đề tài nghiên cứu ứng dụng các thuật toán xử lý ảnh và mô hình máy học để nhận dạng dữ liệu giấy chứng nhận quyền sử dụng đất và trích xuất thông tin dữ liệu địa chính từ nội dung hình ảnh

Mục tiêu cụ thể:

- Áp dụng các thuật toán xử lý ảnh để xử lý và phân tích hình ảnh

- Sử dụng mô hình nhận dạng đối tượng để xác định vị trí của các thông tin cần trích xuất trong giấy chứng nhận quyền sử dụng đất

- Đánh giá hiệu quả và độ chính xác của giải pháp trích xuất thông tin được phát triển Quá trình đánh giá sẽ so sánh kết quả của giải pháp với kết quả của việc trích xuất thông tin thủ công

1.3 Đối tượng nghiên cứu

Đối tượng nghiên cứu của đề tài là các file scan hoặc ảnh số giấy chứng nhận quyền sử dụng đất đã được số hóa

Nghiên cứu phát triển một giải pháp có thể trích xuất thông tin từ hình ảnh giấy chứng nhận quyền sử dụng đất bao gồm thông tin về quyền sở hữu, diện tích, số tờ, số thửa, địa chỉ thửa đất, hình thức sử dụng, mục đích sử dụng, thời hạn sử dụng, nguồn gốc giao đất

Trang 14

1.4 Phương pháp nghiên cứu

Xây dựng tập dữ liệu huấn luyện và kiểm tra:

Dựa trên các giấy chứng nhận quyền sử dụng đất đã được số hóa, sẽ xây dựng tập dữ liệu huấn luyện và kiểm tra Tập dữ liệu sẽ được chia thành hai phần để huấn luyện và kiểm tra giải pháp Tập huấn luyện sẽ được sử dụng để huấn luyện mô hình nhận dạng ảnh, trong khi tập kiểm tra sẽ được sử dụng để đánh giá hiệu suất và độ chính xác của mô hình

Tiến hành phân tích và xây dựng giải pháp xử lý ảnh và nhận dạng:

Sử dụng các kỹ thuật xử lý ảnh và mô hình nhận dạng ảnh, tiến hành phân tích và xây dựng giải pháp để trích xuất thông tin từ giấy chứng nhận quyền sử dụng đất Các bước tiền xử lý ảnh như chuẩn hóa, nhị phân ảnh sẽ được áp dụng để chuẩn bị

dữ liệu đầu vào Sau đó, sẽ xây dựng mô hình nhận dạng sử dụng các phương pháp

như máy học chuyên sâu và mạng nơ-ron nhân tạo

Triển khai và thử nghiệm giải pháp:

Sẽ hiện thực giải pháp xử lý ảnh và nhận dạng trên ngôn ngữ lập trình Python Sau khi hoàn thiện, sẽ tiến hành thử nghiệm giải pháp trên tập dữ liệu kiểm tra Kết quả thu được sẽ được đánh giá và phân tích để đảm bảo tính chính xác và đáng tin cậy của giải pháp

1.5 Cấu trúc luận văn

Cấu trúc luận văn được tổ chức gồm 5 chương, cụ thể như sau:

Chương 1: Tổng quan về đề tài

Nội dung chương này nhằm giới thiệu tổng quan bài toán xây dựng phương pháp số hóa dữ liệu địa chính, phương pháp tiếp cận, phạm vi nghiên cứu, hướng nghiên cứu

Chương 2: Cơ sở lý thuyết

Chương này trình bày tổng quan về các mảng kiến thức liên quan đến đề tài, bao gồm các phương pháp xử lý ảnh, thuật toán Object Detection và nhận dạng thực thể (NER)

Chương 3: Xây dựng giải pháp số hóa thông tin giấy chứng nhận

Trang 15

Chương này trình bày quá trình xây dựng giải pháp tự động hóa việc nhận dạng và trích xuất thông tin từ giấy chứng nhận, trình bày chi tiết về việc đào tạo mô hình object detection, sử dụng OCR để trích xuất văn bản từ ảnh, và đào tạo và áp dụng mô hình NER để xác định loại thông tin trong văn bản

Chương 4: Kết quả thử nghiệm và đánh giá

Chương này sẽ trình bày chi tiết về kết quả thực nghiệm và đánh giá của giải pháp nhận dạng và trích xuất thông tin từ giấy chứng nhận Nội dung bao gồm mô tả về dữ liệu thử nghiệm, quy trình thực hiện thử nghiệm, cũng như các kết quả thu được từ việc sử dụng giải pháp Kết quả được đánh giá dựa trên việc so sánh với thông tin vùng ảnh đúng đã được xác định trước, đánh giá về độ chính xác và hiệu quả của giải pháp

Chương 5: Kết luận và kiến nghị

Trang 16

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1 Giới thiệu về giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất

Hình 2.1: Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất

“Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất” là một loại giấy tờ pháp lý do cơ quan nhà nước có thẩm quyền cấp cho người sử dụng đất, chủ sở hữu nhà ở và tài sản khác gắn liền với đất nhằm xác nhận quyền sử dụng, quyền sở hữu hợp pháp [1]

Mẫu “giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất” được quy định tại Thông tư số 23/2014/TT-BTNMT ngày 19 tháng 10 năm 2014 của Bộ Tài nguyên và Môi trường [3]

Trang 17

Ở Việt Nam, có nhiều loại giấy chứng nhận nhà đất tùy thuộc vào từng giai đoạn khác nhau [4], bao gồm:

- Giấy chứng nhận quyền sử dụng đất

- Giấy chứng nhận quyền sở hữu nhà ở và quyền sử dụng đất ở

- Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất

Hình 2.2: Nhận biết giấy chứng nhận mới (nguồn: Internet)

Bộ Tài nguyên và Môi trường đã ban hành một mẫu giấy chứng nhận mới áp dụng trên toàn quốc từ ngày 10/12/2009, có tên gọi là "Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất"

Trang 18

Các loại giấy chứng nhận đã được ban hành trước ngày 10/12/2009 vẫn có giá trị pháp lý, mặc dù đã áp dụng một mẫu giấy chứng nhận chung

Ảnh dưới đây thể hiện mẫu giấy chứng nhận do Bộ Tài nguyên và Môi trường phát hành, được áp dụng trong phạm vi cả nước đối với mọi loại đất, nhà ở và tài sản gắn liền với đất [3]

Hình 2.3: Mẫu trang 1 và trang 4 giấy chứng nhận

Trang 19

Hình 2.4: Mẫu trang 2 và trang 3 giấy chứng nhận

2.2 Các thuật toán Object Detection

Việc phát hiện đối tượng đã đạt được nhiều tiến bộ trong những năm gần đây nhờ sử dụng mạng nơ-ron tích chập Các thuật toán phát hiện đối tượng dựa trên các mạng này, chẳng hạn như Faster R-CNN, R-FCN, Multibox, SSD và YOLO, hiện đã đủ tốt để được triển khai trong các sản phẩm tiêu dùng (ví dụ: Google Photos, Pinterest Visual Search) và một số đã được chứng minh là đủ nhanh để chạy trên thiết bị di động [5]

Trong lĩnh vực xử lý ảnh, Object Detection là một bài toán quan trọng, nhằm xác định và phát hiện các đối tượng cụ thể trong hình ảnh

2.2.1 R-CNN (Region-based Convolutional Neural Network)

R-CNN là một mô hình phát hiện đối tượng dựa trên kiến trúc mạng nơ-ron tích chập (CNN) Nó được giới thiệu lần đầu tiên bởi Ross Girshick và cộng sự vào năm 2014 [6] R-CNN là một mô hình phát hiện đối tượng theo hai bước, trong đó bước

Trang 20

đầu tiên là đề xuất các vùng có thể chứa đối tượng (region proposals), bước thứ hai là sử dụng CNN để phân loại các vùng này và ước tính vị trí của các đối tượng

Hình 2.5: R-CNN

Ưu điểm:

• Độ chính xác cao: R-CNN sử dụng mạng nơ-ron tích chập để trích xuất đặc

trưng từ các vùng đề xuất Điều này giúp nâng cao độ chính xác trong việc xác định và phân loại các đối tượng trong ảnh

• Khả năng phát hiện nhiều đối tượng: R-CNN cho phép phát hiện nhiều đối

tượng khác nhau trong một ảnh Kết hợp với các kỹ thuật đề xuất vùng (region proposals), nó có thể xử lý nhiều vùng chứa đối tượng trong một lần chạy

• Tích hợp với các mô hình CNN tiên tiến: R-CNN có thể sử dụng các mô hình

CNN tiên tiến, như VGG-16 hoặc ResNet, để trích xuất đặc trưng Điều này giúp nâng cao hiệu suất của hệ thống

Nhược điểm:

• Tốc độ xử lý chậm: Việc trích xuất đặc trưng từ các vùng đề xuất và phân loại

chúng một cách riêng lẻ làm cho R-CNN trở nên chậm và không thể ứng dụng cho các ứng dụng thời gian thực

• Không chia sẻ đặc trưng: Mỗi vùng đề xuất được đưa vào mô hình CNN để

trích xuất đặc trưng độc lập Điều này dẫn đến lượng tính toán lớn và làm tăng thời gian xử lý

• Đòi hỏi bộ nhớ lớn: R-CNN yêu cầu bộ nhớ lớn để lưu trữ các vùng đề xuất

và các đặc trưng của chúng, gây ra sự lãng phí và giới hạn việc ứng dụng trên các hệ thống có tài nguyên hạn chế

Trang 21

Kết luận:

R-CNN là một mô hình phát hiện đối tượng hiệu quả và chính xác Nó đã đạt được kết quả tốt hơn các phương pháp phát hiện đối tượng truyền thống như Viola-Jones Tuy nhiên, R-CNN cũng có một số nhược điểm, chẳng hạn như thời gian đào tạo lâu và sử dụng nhiều bộ nhớ nên có thể khó triển khai trong các ứng dụng thực tế.

2.2.2 Faster R-CNN

Faster R-CNN là một mô hình phát hiện đối tượng dựa trên kiến trúc mạng ron tích chập (CNN) Được giới thiệu vào năm 2015, Faster R-CNN kết hợp việc sử dụng mạng CNN với một mô-đun đặc biệt được gọi là Region Proposal Network (RPN), giúp tự động tạo ra các vùng đề xuất (region proposals) trong ảnh [7]

nơ-Hình 2.6: Faster R-CNN

Ưu điểm:

• Hiệu suất cao và nhanh chóng: Faster R-CNN vượt qua các hạn chế về tốc độ

xử lý của R-CNN và Fast R-CNN Nhờ vào việc sử dụng RPN để đề xuất các vùng quan tâm, nó giúp giảm đáng kể thời gian tính toán, tăng cường tốc độ xử lý và có khả năng thực hiện nhận dạng đối tượng gần với thời gian thực

• Tự động đề xuất vùng quan tâm: RPN là một mạng nơ-ron tích chập nhằm dự

đoán các vùng có khả năng chứa đối tượng Điều này giúp tự động tạo ra các

Trang 22

đề xuất vùng quan tâm, loại bỏ bước đề xuất vùng riêng biệt và làm giảm đáng kể thời gian và công sức trong việc tạo ra các vùng đề xuất

• Phát hiện nhiều đối tượng: Faster R-CNN cho phép phát hiện nhiều đối tượng

khác nhau trong một ảnh Nhờ vào việc kết hợp với các kỹ thuật đề xuất vùng (region proposals), nó có thể xử lý nhiều vùng chứa đối tượng trong một lần chạy

• Chia sẻ đặc trưng: Thay vì trích xuất đặc trưng từ các vùng đề xuất một cách

riêng lẻ như R-CNN, Faster R-CNN chia sẻ đặc trưng đã trích xuất cho toàn bộ các vùng đề xuất Điều này giúp tiết kiệm bộ nhớ và tối ưu hóa việc tính toán, nâng cao hiệu suất của hệ thống

Nhược điểm:

• Phức tạp trong triển khai: Faster R-CNN đòi hỏi kiến thức chuyên sâu và công

sức trong việc triển khai do việc sử dụng mạng RPN

• Yêu cầu bộ nhớ lớn: Vì cần lưu trữ các đặc trưng của toàn bộ ảnh và các vùng

đề xuất, Faster R-CNN yêu cầu bộ nhớ lớn để hoạt động hiệu quả

Kết luận:

Faster R-CNN là một phương pháp phát hiện đối tượng hiệu quả và chính xác Nó có thể được sử dụng trong nhiều ứng dụng thực tế

2.2.3 YOLO (You Only Look Once)

YOLO (You Only Look Once) là một phương pháp tiên tiến trong lĩnh vực Object Detection, được giới thiệu vào năm 2016 YOLO tiếp cận bài toán nhận dạng đối tượng một cách hoàn toàn khác biệt so với các phương pháp truyền thống [8]

YOLO hoạt động bằng cách phân loại từng pixel trong hình ảnh thành một trong các lớp đối tượng khác nhau YOLO cũng ước tính vị trí của các đối tượng và xác suất cho mỗi pixel thuộc về một đối tượng

Ưu điểm:

• Tốc độ nhanh: YOLO có thể thực hiện nhận dạng đối tượng nhanh chóng và

hiệu quả Với cách tiếp cận "You Only Look Once", nó chỉ yêu cầu một lần chạy qua mạng nơ-ron để dự đoán các vùng chứa đối tượng và xác định lớp

Trang 23

của chúng trong cùng một bước Điều này giúp YOLO đạt được hiệu suất thời gian thực và phù hợp cho các ứng dụng yêu cầu xử lý nhanh như theo dõi video thời gian thực

• Phân loại đa lớp cùng một lúc: YOLO có khả năng dự đoán nhiều lớp đối

tượng cùng một lúc trong một lần chạy qua mạng Điều này giúp nó có thể phát hiện và phân loại đa dạng các đối tượng trong một ảnh một cách hiệu quả

• Không chia sẻ đặc trưng: YOLO không chia sẻ đặc trưng cho các vùng đề

xuất, đồng nghĩa với việc nó không bị giới hạn bởi kích thước đề xuất như các phương pháp R-CNN Điều này giúp YOLO xử lý hiệu quả cả các đối tượng nhỏ và lớn

Nhược điểm:

• Độ chính xác chưa cao: So với một số phương pháp truyền thống khác, YOLO

có thể không đạt được độ chính xác cao đối với các đối tượng nhỏ hoặc lỗi phân cụm

• Nhạy cảm với độ phân giải ảnh: YOLO có thể bị ảnh hưởng bởi độ phân giải

ảnh Khi độ phân giải thấp, các đối tượng nhỏ có thể bị bỏ sót

Kết luận:

YOLO là một phương pháp phát hiện đối tượng hiệu quả và chính xác Nó đã đạt được kết quả tốt hơn các phương pháp phát hiện đối tượng truyền thống trên nhiều tập dữ liệu phát hiện đối tượng

2.2.4 SSD (Single Shot Multibox Detector):

SSD (Single Shot MultiBox Detector) là một mô hình phát hiện đối tượng dựa trên kiến trúc mạng nơ-ron tích chập (CNN) Nó được giới thiệu lần đầu tiên bởi Wei Liu và cộng sự vào năm 2016 [9]

SSD hoạt động bằng cách sử dụng một mạng CNN để dự đoán các hộp giới hạn (bounding boxes) và các nhãn đối tượng (object labels) cho từng pixel trong hình ảnh Sau đó, các hộp giới hạn được lọc theo độ tin cậy và chỉ những hộp giới hạn có độ tin cậy cao nhất mới được giữ lại

Trang 24

Hình 2.7: Mô hình single shot detection SSD, nguồn [10]

Ưu điểm:

• Tính toán nhanh: SSD là một mô hình "single-shot" tức là chỉ cần một lần chạy

qua mạng nơ-ron để dự đoán các vùng chứa đối tượng và xác định lớp của chúng Việc này giúp tăng tốc độ xử lý so với các phương pháp truyền thống yêu cầu nhiều lần chạy qua mạng

• Phân loại đa lớp cùng một lúc: SSD có khả năng dự đoán nhiều lớp đối tượng

cùng một lúc trong một lần chạy qua mạng Điều này giúp phát hiện và phân loại đa dạng các đối tượng trong ảnh

• Hỗ trợ phát hiện các đối tượng có kích thước khác nhau: SSD sử dụng các

"default boxes" với các tỷ lệ khác nhau để phát hiện các đối tượng có kích thước khác nhau Điều này giúp SSD dễ dàng phát hiện cả các đối tượng nhỏ và lớn trong cùng một lần chạy qua mạng

Nhược điểm:

• Khó khăn trong việc định hình đối tượng phức tạp: SSD có thể gặp khó khăn

trong việc định hình các đối tượng có hình dạng phức tạp hoặc bị che khuất

• Yêu cầu tính toán và bộ nhớ lớn với số lượng "default boxes" lớn: Nếu số

lượng "default boxes" được sử dụng quá lớn, SSD có thể đòi hỏi nhiều tài nguyên tính toán và bộ nhớ

Trang 25

Kết luận:

SSD là một phương pháp phát hiện đối tượng hiệu quả và chính xác Nó đã đạt được kết quả tốt hơn các phương pháp phát hiện đối tượng truyền thống trên nhiều tập dữ liệu phát hiện đối tượng

2.3 Nhận dạng thực thể (NER) 2.3.1 Nhận dạng thực thể là gì?

Nhận dạng thực thể (Named Entity Recognition - NER) là là một nhiệm vụ trong xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) Nó liên quan đến việc nhận dạng và phân loại các thành phần quan trọng trong văn bản, như tên riêng, địa chỉ, thời gian, số tiền, và các loại thực thể khác NER được sử dụng rộng rãi trong nhiều ứng dụng NLP, bao gồm trích xuất thông tin, phân tích ý kiến, tóm tắt văn bản, dự đoán ngữ cảnh, v.v…

Hình 2.8: Xác định và gắn nhãn thực thể trong NER

NER nhằm xác định và gán nhãn cho các từ trong văn bản, nhằm phân loại chúng vào các loại thực thể khác nhau Các thực thể này có thể là:

- Người (Person): Tên người, tên riêng cá nhân

- Tổ chức (Organization): Tên công ty, tổ chức, tổ chức chính phủ - Địa chỉ (Location): Địa danh, tên địa điểm, tên đất nước

- Thời gian (Time): Ngày tháng, mùa, thời điểm cụ thể - Số tiền (Money): Tiền tệ, số tiền, giá trị tiền tệ

Trang 26

Nhiệm vụ của NER là tìm các từ trong văn bản mà đề cập đến các thực thể trên và gán nhãn phù hợp cho chúng Điều này giúp cho việc trích xuất thông tin, hiểu ý nghĩa của văn bản và cải thiện khả năng tương tác giữa con người và máy tính

2.3.2 Các phương pháp NER phổ biến

Trong NER, có nhiều phương pháp tiếp cận khác nhau Dưới đây là một số phương pháp phổ biến được sử dụng [11]:

2.3.2.1 Rule-based

Phương pháp tiếp cập rule-based là một phương pháp xác định và phân loại các thực thể có tên trong văn bản bằng cách sử dụng một tập hợp các quy tắc Các quy tắc có thể được viết thủ công hoặc có thể được học từ một tập dữ liệu văn bản có nhãn

Quy trình NER rule-based bao gồm các bước sau: - Tách văn bản thành các từ hoặc cụm từ

- Áp dụng các quy tắc để xác định và phân loại các thực thể có tên - Tạo kết quả NER

Ví dụ về một quy tắc rule-based là:

Nếu một từ bắt đầu bằng chữ cái viết hoa và kết thúc bằng dấu chấm, thì nó là một thực thể có tên

Ví dụ về một tập dữ liệu văn bản có nhãn là:

John Doe đến từ San Francisco Ông ấy sinh ngày 1 tháng 1 năm 1970.

Dữ liệu này được đánh nhãn như sau:

John Doe - PERSON

San Francisco - LOCATION 1 tháng 1 năm 1970 - DATE

Kết quả của NER rule-based cho ví dụ trên là:

[John Doe, PERSON], [San Francisco, LOCATION], [1 tháng 1 năm 1970, DATE]

NER rule-based là một phương pháp đơn giản và dễ triển khai Tuy nhiên, nó có thể không chính xác như các phương pháp khác, chẳng hạn như NER dựa trên học

Trang 27

máy Điều này là do các quy tắc có thể không thể bao gồm tất cả các trường hợp có thể xảy ra của các thực thể có tên

2.3.2.2 Supervised

Một phương pháp phổ biến để thực hiện NER là sử dụng học có giám sát Trong phương pháp này, một mô hình học máy được đào tạo trên một tập dữ liệu văn bản có đánh dấu thực thể Tập dữ liệu này được gọi là tập dữ liệu NER Tập dữ liệu NER được tạo bằng cách đánh dấu các thực thể có tên trong văn bản

Các mô hình học có giám sát phổ biến nhất được sử dụng cho NER bao gồm: - Naive Bayes

- Support vector machines - Hidden Markov models - Neural networks

2.3.2.3 Unsupervised

Một phương pháp khác để thực hiện NER là sử dụng học không giám sát Trong phương pháp này, một mô hình học máy được đào tạo trên một tập dữ liệu văn bản không có đánh dấu thực thể Tập dữ liệu này được gọi là tập dữ liệu NER không giám sát Tập dữ liệu NER không giám sát được tạo bằng cách lấy một tập dữ liệu văn bản và loại bỏ các đánh dấu thực thể

Các mô hình học không giám sát phổ biến nhất được sử dụng cho NER bao gồm: - K-means clustering

- Hierarchical clustering - Gaussian mixture models - Self-organizing maps

Các mô hình học không giám sát được đào tạo bằng cách sử dụng tập dữ liệu NER không giám sát Sau khi đào tạo, các mô hình có thể được sử dụng để nhóm các từ trong văn bản thành các nhóm Các nhóm này có thể được sử dụng để đại diện cho các thực thể có tên trong văn bản

Trang 28

CHƯƠNG 3: XÂY DỰNG GIẢI PHÁP SỐ HÓA THÔNG TIN GIẤY CHỨNG NHẬN

3.1 Xác định các trường thông tin trên giấy chứng nhận Thông tin về chủ sử dụng

Họ tên chủ Thông tin về tên đầy đủ của chủ sử dụng đất Năm sinh chủ Thông tin về năm sinh của chủ sử dụng đất

Thông tin giấy tờ chủ Gồm loại giấy tờ (CMND, CCCD), số giấy tờ, ngày cấp, nơi cấp của chủ sử dụng đất Địa chỉ thường trú Thông tin về địa chỉ thường trú của chủ sử dụng đất

Bảng 3.1: Thông tin về chủ sủ dụng

Hình 3.1: Vùng chứa thông tin chủ sử dụng và số hiệu ở trang 1 file scan GCN

Thông tin về giấy chứng nhận: Số phát hành của giấy chứng nhận quyền sử dụng đất

Trang 29

Thông tin về thửa đất

Số thửa Thông tin về số thứ tự thửa của thửa đất Số tờ Thông tin về số hiệu tờ bản đồ của thửa đất

Địa chỉ thửa Địa chỉ chi tiết của thửa đất

Diện tích Thông tin về diện tích của thửa đất theo đơn vị m2Mục đích sử dụng Xác định mục đích sử dụng của thửa đất, ví dụ như đất ở,

đất trồng cây lâu năm, đất trồng lúa, đất công cộng, v.v… Hình thức sử dụng Thông tin về hình thức sử dụng đất, ví dụ như sử dụng riêng lẻ, sử dụng chung

Thời hạn sử dụng Thông tin về thời hạn cấp quyền sử dụng đất cho thửa đất Nguồn gốc sử dụng Cho biết nguồn gốc sử dụng đất, ví dụ như chuyển

nhượng, thừa kế, v.v…

Bảng 3.2: Thông tin về thửa đất

Hình 3.2: Vùng chứa thông tin thửa đất ở trang 2 file scan GCN

Trang 30

3.2 Trình bày tổng quan giải pháp số hóa thông tin giấy chứng nhận

Mô tả giải pháp kết hợp sử dụng thuật toán nhận dạng đối tượng (Object Detection), nhận dạng ký tự quang học (OCR), và nhận dạng thực thể có tên (NER) như sau:

Dữ liệu đầu vào: File PDF hoặc hình ảnh của giấy chứng nhận Bước 1: Tiền xử lý

Trước khi áp dụng bất kỳ mô hình nào, chúng ta cần tiến hành các bước tiền xử lý để làm cho dữ liệu đầu vào phù hợp với quá trình xử lý tiếp theo Các bước xử lý dữ liệu bao gồm:

Chuyển đổi định dạng (nếu cần): Nếu dữ liệu ban đầu là file PDF, chúng ta cần chuyển đổi chúng thành hình ảnh để tiếp tục xử lý Điều này có thể thực hiện bằng cách chuyển đổi các trang PDF thành ảnh

Xử lý ảnh: Nếu ảnh của giấy chứng nhận có độ tương phản thấp hoặc nhiễu, chúng ta cần thực hiện các bước xử lý ảnh như cân bằng sáng, làm mịn hoặc loại bỏ nhiễu để cải thiện chất lượng hình ảnh

Bước 2: Nhận dạng vùng chứa thông tin

Sử dụng mô hình nhận dạng đối tượng chúng ta xác định các vùng quan trọng trên hình ảnh giấy chứng nhận như vùng chứa thông tin chủ sử dụng, thông tin thửa đất và số phát hành giấy chứng nhận Mô hình sẽ tạo ra các hộp giới hạn (bounding boxes) và gán nhãn tương ứng cho mỗi vùng đã xác định

Bước 3: Trích xuất văn bản từ vùng đã xác định

Sử dụng công cụ OCR có hỗ trợ Tiếng Việt (như Tesseract), chúng ta trích xuất văn bản từ các vùng đã xác định bởi mô hình nhận dạng dối tượng Các vùng ảnh được chuyển đổi thành văn bản có thể đọc được, giúp chúng ta nhận diện thông tin như họ tên chủ sử dụng, số giấy tờ, địa chỉ, diện tích và mục đích sử dụng và các thông tin khác

Bước 4: Nhận dạng thực thể có tên (NER)

Sau khi có văn bản trích xuất bằng OCR, chúng ta áp dụng mô hình nhận dạng thực thể có tên (NER) để nhận diện và gán nhãn các thực thể quan trọng như tên chủ

Trang 31

sử dụng, địa chỉ, số giấy tờ, diện tích và mục đích sử dụng Mô hình NER tạo ra danh sách các thực thể đã được gán nhãn trong văn bản

Ngoài ra trong trường hợp mô hình nhận dạng đối tượng không nhận diện được vùng chứa thông tin cần lấy chúng ta sẽ thực hiện OCR cho toàn bộ ảnh của giấy chứng nhận để trích xuất văn bản, sau đó áp dụng mô hình NER để nhận dạng và gắn nhãn các thực thể có tên trong văn bản Điều này sẽ bổ sung các dữ liệu bị thiếu do không nhận dạng được vùng thông tin

Bước 5: Regex

Sau khi đã áp dụng mô hình NER để nhận diện và gắn nhãn các thực thể có tên quan trọng trong văn bản trích xuất từ ảnh giấy chứng nhận, một bước tiếp theo quan trọng có thể được thực hiện để cải thiện chính xác và độ tin cậy của thông tin trích xuất Đó là sử dụng các biểu thức chính quy (Regex - Regular Expressions) để kiểm tra và rà soát lại thông tin

Trong bước này, chúng ta sử dụng các biểu thức chính quy để kiểm tra xem thông tin trích xuất từ mô hình NER có phù hợp với các mẫu chuẩn hay không Cụ thể, chúng ta xác định các mẫu chuẩn (pattern) cho các trường thông tin cụ thể như năm sinh, số tờ, số thửa, diện tích

Bước 6: Trả về kết quả

Xuất kết quả thành một định dạng dễ quản lý như JSON hoặc XML, để thuận tiện cho việc truy xuất và sử dụng sau này

Trang 32

Hình 3.3: Sơ đồ giải pháp số hóa thông tin giấy chứng nhận

3.3 Thu thập dữ liệu

Trong quá trình xây dựng giải pháp số hóa thông tin giấy chứng nhận quyền sử dụng đất, dữ liệu giấy chứng nhận được thu thập dưới dạng file scan PDF Sau đó, quá trình xử lý dữ liệu được thực hiện theo các bước sau:

- Chuyển đổi file PDF thành file ảnh: Đầu tiên, các file PDF thu thập được sẽ được chuyển đổi thành file ảnh, thường là dạng ảnh PNG hoặc JPEG Quá trình chuyển đổi này giúp tiện lợi trong việc xử lý hình ảnh và huấn luyện mô hình

- Lọc bỏ những ảnh mờ, không rõ: Sau khi chuyển đổi thành ảnh, các file ảnh sẽ được xử lý để loại bỏ những ảnh mờ, không rõ, hoặc có chất lượng không đủ tốt để thực hiện quá trình huấn luyện Điều này giúp đảm bảo chất lượng và độ chính xác của quá trình nhận dạng và trích xuất thông tin

- Lọc bỏ các loại giấy chứng nhận trước nghị định 88/2009/NĐ-CP: Để bảo đảm tính đồng nhất của dữ liệu là cùng một loại giấy chứng nhận

- Lọc bỏ các giấy chứng nhận có nhiều thửa đất trong cùng một giấy: vì phức tạp trong việc xử lý thông tin và đảm bảo tính chính xác của dữ liệu

Trang 33

Hình 3.4: Chuẩn bị dữ liệu ảnh huấn luyện

Đối với đề tài này, dữ liệu được lấy từ kho số của Trung tâm Công nghệ thông tin Tài nguyên và Môi trường tỉnh Bà Rịa – Vũng Tàu

Dữ liệu huấn luyện Dữ liệu kiểm thử

Bảng 3.3: Dữ liệu huấn luyện

3.4 Xây dựng mô hình nhận dạng đối tượng để nhận dạng các vùng thông tin trên ảnh giấy chứng nhận

3.4.1 Lựa chọn mô hình Object Detection

SSD là một thuật toán tiên tiến trong việc đạt được sự cân bằng giữa tốc độ và độ chính xác, thích hợp cho việc nhận dạng và trích xuất thông tin từ ảnh Bằng việc

Trang 34

kết hợp SSD với các phương pháp tiền xử lý ảnh và các thuật toán khác có thể xây dựng một giải pháp mạnh mẽ và hiệu quả cho việc số hóa dữ liệu đất đai từ giấy chứng nhận

Hình 3.5: Sơ đồ huấn luyện model nhận dạng vùng thông tin

3.4.2 Công cụ sử dụng

Tensorflow Object Detection API là một bộ công cụ mạnh mẽ được phát triển

bởi TensorFlow, một thư viện mã nguồn mở phổ biến trong lĩnh vực học máy và trí tuệ nhân tạo Bộ công cụ này được tạo ra để giúp nhận dạng và phân loại đối tượng trong hình ảnh và video với hiệu suất cao Nó cung cấp các mô hình đã được đào tạo sẵn và tùy chỉnh cho việc phát hiện và theo dõi các đối tượng khác nhau trong các tác vụ ứng dụng thực tế

Các tính năng và ưu điểm của Tensorflow Object Detection API

• Các mô hình mạnh mẽ: Tensorflow Object Detection cung cấp một loạt các mô hình phổ biến được đào tạo trước như Faster R-CNN, SSD (Single Shot Multibox Detector), và YOLO (You Only Look Once) Những mô hình này đã được tối ưu hóa cho hiệu suất cao và phù hợp với nhiều loại ứng dụng

• Dễ tùy chỉnh: Bộ công cụ này cho phép người dùng tùy chỉnh và đào tạo lại các mô hình theo yêu cầu của họ Việc tùy chỉnh các mô hình này giúp tăng tính chính xác và hiệu quả trong việc nhận dạng đối tượng đặc thù cho từng tác vụ cụ thể

• Tích hợp với TensorFlow: Tensorflow Object Detection được tích hợp chặt chẽ với thư viện TensorFlow, giúp dễ dàng tích hợp vào các dự án học máy hiện có và tận dụng lợi ích của hệ sinh thái TensorFlow

Ngày đăng: 19/08/2024, 05:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN