1. Trang chủ
  2. » Luận Văn - Báo Cáo

Số hóa dữ liệu nhà đất sử dụng thuật toán nhận dạng ảnh

68 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 4,16 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI (12)
    • 1.1. Đặt vấn đề (12)
    • 1.2. Mục tiêu của đề tài (13)
    • 1.3. Đối tượng nghiên cứu (13)
    • 1.4. Phương pháp nghiên cứu (14)
    • 1.5. Cấu trúc luận văn (14)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT (14)
    • 2.1. Giới thiệu về giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất (16)
    • 2.2. Các thuật toán Object Detection (19)
      • 2.2.1. R-CNN (Region-based Convolutional Neural Network) (19)
      • 2.2.2. Faster R-CNN (21)
      • 2.2.3. YOLO (You Only Look Once) (22)
      • 2.2.4. SSD (Single Shot Multibox Detector) (23)
    • 2.3. Nhận dạng thực thể (NER) (25)
      • 2.3.1. Nhận dạng thực thể là gì? (25)
      • 2.3.2. Các phương pháp NER phổ biến (26)
  • CHƯƠNG 3: XÂY DỰNG GIẢI PHÁP SỐ HÓA THÔNG TIN GIẤY CHỨNG NHẬN (14)
    • 3.1. Xác định các trường thông tin trên giấy chứng nhận (28)
    • 3.2. Trình bày tổng quan giải pháp số hóa thông tin giấy chứng nhận (30)
    • 3.3. Thu thập dữ liệu (32)
    • 3.4. Xây dựng mô hình nhận dạng đối tượng để nhận dạng các vùng thông tin trên ảnh giấy chứng nhận (33)
      • 3.4.1. Lựa chọn mô hình Object Detection (33)
      • 3.4.2. Công cụ sử dụng (34)
      • 3.4.3. Các bước thực hiện huấn luyện mô hình (35)
    • 3.5. Các phương pháp tiền xử lý ảnh (43)
    • 3.6. Tesseract OCR (44)
    • 3.7. Xây dựng mô hình nhận dạng thực thể (NER) (45)
      • 3.7.1. Công cụ sử dụng (45)
      • 3.7.2. Chuẩn bị dữ liệu (46)
      • 3.7.3. Gán nhãn dữ liệu (47)
      • 3.7.4. Chuyển dữ liệu train thành SpaCy format (.spacy) (49)
      • 3.7.5. Các bước thực hiện huấn luyện mô hình NER (50)
    • 3.8. Kết hợp các mô hình nhận dạng đối tượng, OCR và NER (54)
  • CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ (56)
    • 4.1. Dữ liệu thử nghiệm (56)
    • 4.2. Mô tả tập dữ liệu (57)
    • 4.3. Xây dựng kịch bản thử nghiệm (58)
    • 4.4. Kết quả thu được (59)
    • 4.5. Phân tích kết quả (61)
      • 4.5.1. Phương pháp đánh giá (61)
      • 4.5.2. Phân tích (62)
    • 4.6. Đánh giá (63)
      • 4.6.1. Ưu điểm (63)
      • 4.6.2. Hạn chế (63)
  • CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ (15)
    • 5.1. Công việc đã làm được (65)
    • 5.2. Hạn chế (65)
    • 5.3. Cải tiến giải pháp (66)
    • 5.4. Định hướng phát triển (66)

Nội dung

Phương pháp nghiên cứu bao gồm việc thu thập và xử lý dữ liệu giấy chứng nhận, xây dựng mô hình object detection, sử dụng OCR để trích xuất văn bản từ ảnh, và áp dụng mô hình NER để xác

TỔNG QUAN VỀ ĐỀ TÀI

Đặt vấn đề

Quản lý đất đai là một lĩnh vực quan trọng của quản lý nhà nước, có tác động trực tiếp đến đời sống kinh tế - xã hội của đất nước Trong những năm qua, Chính phủ đã có nhiều nỗ lực để cải thiện công tác quản lý đất đai, tuy nhiên vẫn còn một số tồn tại, hạn chế cần được khắc phục

Một trong những tồn tại, hạn chế lớn nhất trong công tác quản lý đất đai hiện nay là việc chưa ứng dụng công nghệ thông tin một cách hiệu quả Hệ thống thông tin đất đai hiện tại vẫn còn lạc hậu, thiếu đồng bộ và chưa được kết nối với nhau Điều này dẫn đến việc khó khăn trong việc tra cứu, quản lý và khai thác dữ liệu đất đai Bên cạnh đó, công tác đào tạo, bồi dưỡng cán bộ quản lý đất đai về công nghệ thông tin cũng còn nhiều hạn chế Điều này khiến cho cán bộ quản lý đất đai chưa có đủ kiến thức và kỹ năng để sử dụng công nghệ một cách hiệu quả trong công tác quản lý đất đai [2]

Hạ tầng thông tin đất đai và cơ sở dữ liệu đất đai là một hệ thống quan trọng, giúp hỗ trợ công tác chuyên môn, cải cách thủ tục hành chính và phối hợp với các bên có liên quan Tuy nhiên, hệ thống hiện tại vẫn còn nhiều hạn chế, bao gồm:

• Thiếu đồng bộ và thống nhất: Hệ thống hiện tại vẫn còn được quản lý và vận hành theo nhiều mô hình khác nhau, dẫn đến việc thiếu đồng bộ và thống nhất về dữ liệu, quy trình nghiệp vụ và tiêu chuẩn kỹ thuật

• Thiếu tính toàn diện: Hệ thống hiện tại vẫn chưa bao gồm đầy đủ các thông tin về đất đai, bao gồm thông tin về quy hoạch sử dụng đất, giá đất, hồ sơ giao dịch đất đai, v.v…

• Thiếu hiệu quả: Hệ thống hiện tại vẫn còn nhiều hạn chế về hiệu quả, bao gồm thời gian xử lý hồ sơ lâu, độ chính xác thấp và khó khăn trong việc khai thác và sử dụng dữ liệu

Trong bối cảnh đó, đề tài "Số Hóa Dữ Liệu Nhà Đất Sử Dụng Thuật Toán

Nhận Dạng Ảnh" nhằm giải quyết một phần vấn đề trên Đề tài tập trung nghiên cứu và ứng dụng thuật toán nhận dạng ảnh để trích xuất thông tin từ các tài liệu lưu trữ đã số hóa như giấy chứng nhận quyền sử dụng đất Mục tiêu của đề tài là thu thập dữ liệu đất đai nhanh chóng và chính xác, đồng thời hạn chế dữ liệu sai sót và không nhất quán trong quá trình nhập dữ liệu thủ công

Nghiên cứu và ứng dụng thuật toán nhận dạng ảnh trong việc trích xuất thông tin từ giấy chứng nhận quyền sử dụng đất từ file scan sẽ đóng góp vào quá trình số hóa dữ liệu và cải thiện quy trình quản lý đất đai Việc tự động hóa quy trình này sẽ giúp giảm thiểu công sức và thời gian, đồng thời tăng tính chính xác và hiệu suất làm việc Đề tài này nhằm đóng góp vào quá trình cải cách thủ tục hành chính và quản lý đất đai, tạo ra sự hiệu quả và tiện ích cho việc thu thập và sử dụng dữ liệu đất đai.

Mục tiêu của đề tài

Mục tiêu chung: Đề tài nghiên cứu ứng dụng các thuật toán xử lý ảnh và mô hình máy học để nhận dạng dữ liệu giấy chứng nhận quyền sử dụng đất và trích xuất thông tin dữ liệu địa chính từ nội dung hình ảnh

- Áp dụng các thuật toán xử lý ảnh để xử lý và phân tích hình ảnh

- Sử dụng mô hình nhận dạng đối tượng để xác định vị trí của các thông tin cần trích xuất trong giấy chứng nhận quyền sử dụng đất

- Đánh giá hiệu quả và độ chính xác của giải pháp trích xuất thông tin được phát triển Quá trình đánh giá sẽ so sánh kết quả của giải pháp với kết quả của việc trích xuất thông tin thủ công.

Đối tượng nghiên cứu

Đối tượng nghiên cứu của đề tài là các file scan hoặc ảnh số giấy chứng nhận quyền sử dụng đất đã được số hóa

Nghiên cứu phát triển một giải pháp có thể trích xuất thông tin từ hình ảnh giấy chứng nhận quyền sử dụng đất bao gồm thông tin về quyền sở hữu, diện tích, số tờ, số thửa, địa chỉ thửa đất, hình thức sử dụng, mục đích sử dụng, thời hạn sử dụng, nguồn gốc giao đất.

Phương pháp nghiên cứu

Xây dựng tập dữ liệu huấn luyện và kiểm tra:

Dựa trên các giấy chứng nhận quyền sử dụng đất đã được số hóa, sẽ xây dựng tập dữ liệu huấn luyện và kiểm tra Tập dữ liệu sẽ được chia thành hai phần để huấn luyện và kiểm tra giải pháp Tập huấn luyện sẽ được sử dụng để huấn luyện mô hình nhận dạng ảnh, trong khi tập kiểm tra sẽ được sử dụng để đánh giá hiệu suất và độ chính xác của mô hình

Tiến hành phân tích và xây dựng giải pháp xử lý ảnh và nhận dạng:

Sử dụng các kỹ thuật xử lý ảnh và mô hình nhận dạng ảnh, tiến hành phân tích và xây dựng giải pháp để trích xuất thông tin từ giấy chứng nhận quyền sử dụng đất Các bước tiền xử lý ảnh như chuẩn hóa, nhị phân ảnh sẽ được áp dụng để chuẩn bị dữ liệu đầu vào Sau đó, sẽ xây dựng mô hình nhận dạng sử dụng các phương pháp như máy học chuyên sâu và mạng nơ-ron nhân tạo

Triển khai và thử nghiệm giải pháp:

Sẽ hiện thực giải pháp xử lý ảnh và nhận dạng trên ngôn ngữ lập trình Python Sau khi hoàn thiện, sẽ tiến hành thử nghiệm giải pháp trên tập dữ liệu kiểm tra Kết quả thu được sẽ được đánh giá và phân tích để đảm bảo tính chính xác và đáng tin cậy của giải pháp.

Cấu trúc luận văn

Cấu trúc luận văn được tổ chức gồm 5 chương, cụ thể như sau:

Chương 1: Tổng quan về đề tài

Nội dung chương này nhằm giới thiệu tổng quan bài toán xây dựng phương pháp số hóa dữ liệu địa chính, phương pháp tiếp cận, phạm vi nghiên cứu, hướng nghiên cứu

CƠ SỞ LÝ THUYẾT

Giới thiệu về giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất

và tài sản khác gắn liền với đất

Hình 2.1: Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất

“Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất” là một loại giấy tờ pháp lý do cơ quan nhà nước có thẩm quyền cấp cho người sử dụng đất, chủ sở hữu nhà ở và tài sản khác gắn liền với đất nhằm xác nhận quyền sử dụng, quyền sở hữu hợp pháp [1]

Mẫu “giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất” được quy định tại Thông tư số 23/2014/TT-BTNMT ngày 19 tháng

10 năm 2014 của Bộ Tài nguyên và Môi trường [3] Ở Việt Nam, có nhiều loại giấy chứng nhận nhà đất tùy thuộc vào từng giai đoạn khác nhau [4], bao gồm:

- Giấy chứng nhận quyền sử dụng đất

- Giấy chứng nhận quyền sở hữu nhà ở và quyền sử dụng đất ở

- Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất

Hình 2.2: Nhận biết giấy chứng nhận mới (nguồn: Internet)

Bộ Tài nguyên và Môi trường đã ban hành một mẫu giấy chứng nhận mới áp dụng trên toàn quốc từ ngày 10/12/2009, có tên gọi là "Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất"

Các loại giấy chứng nhận đã được ban hành trước ngày 10/12/2009 vẫn có giá trị pháp lý, mặc dù đã áp dụng một mẫu giấy chứng nhận chung Ảnh dưới đây thể hiện mẫu giấy chứng nhận do Bộ Tài nguyên và Môi trường phát hành, được áp dụng trong phạm vi cả nước đối với mọi loại đất, nhà ở và tài sản gắn liền với đất [3]

Hình 2.3: Mẫu trang 1 và trang 4 giấy chứng nhận

Hình 2.4: Mẫu trang 2 và trang 3 giấy chứng nhận

Các thuật toán Object Detection

Việc phát hiện đối tượng đã đạt được nhiều tiến bộ trong những năm gần đây nhờ sử dụng mạng nơ-ron tích chập Các thuật toán phát hiện đối tượng dựa trên các mạng này, chẳng hạn như Faster R-CNN, R-FCN, Multibox, SSD và YOLO, hiện đã đủ tốt để được triển khai trong các sản phẩm tiêu dùng (ví dụ: Google Photos, Pinterest Visual Search) và một số đã được chứng minh là đủ nhanh để chạy trên thiết bị di động [5]

Trong lĩnh vực xử lý ảnh, Object Detection là một bài toán quan trọng, nhằm xác định và phát hiện các đối tượng cụ thể trong hình ảnh

2.2.1 R-CNN (Region-based Convolutional Neural Network)

R-CNN là một mô hình phát hiện đối tượng dựa trên kiến trúc mạng nơ-ron tích chập (CNN) Nó được giới thiệu lần đầu tiên bởi Ross Girshick và cộng sự vào năm

2014 [6] R-CNN là một mô hình phát hiện đối tượng theo hai bước, trong đó bước đầu tiên là đề xuất các vùng có thể chứa đối tượng (region proposals), bước thứ hai là sử dụng CNN để phân loại các vùng này và ước tính vị trí của các đối tượng

• Độ chính xác cao: R-CNN sử dụng mạng nơ-ron tích chập để trích xuất đặc trưng từ các vùng đề xuất Điều này giúp nâng cao độ chính xác trong việc xác định và phân loại các đối tượng trong ảnh

• Khả năng phát hiện nhiều đối tượng: R-CNN cho phép phát hiện nhiều đối tượng khác nhau trong một ảnh Kết hợp với các kỹ thuật đề xuất vùng (region proposals), nó có thể xử lý nhiều vùng chứa đối tượng trong một lần chạy

• Tích hợp với các mô hình CNN tiên tiến: R-CNN có thể sử dụng các mô hình

CNN tiên tiến, như VGG-16 hoặc ResNet, để trích xuất đặc trưng Điều này giúp nâng cao hiệu suất của hệ thống

• Tốc độ xử lý chậm: Việc trích xuất đặc trưng từ các vùng đề xuất và phân loại chúng một cách riêng lẻ làm cho R-CNN trở nên chậm và không thể ứng dụng cho các ứng dụng thời gian thực

• Không chia sẻ đặc trưng: Mỗi vùng đề xuất được đưa vào mô hình CNN để trích xuất đặc trưng độc lập Điều này dẫn đến lượng tính toán lớn và làm tăng thời gian xử lý

• Đòi hỏi bộ nhớ lớn: R-CNN yêu cầu bộ nhớ lớn để lưu trữ các vùng đề xuất và các đặc trưng của chúng, gây ra sự lãng phí và giới hạn việc ứng dụng trên các hệ thống có tài nguyên hạn chế

R-CNN là một mô hình phát hiện đối tượng hiệu quả và chính xác Nó đã đạt được kết quả tốt hơn các phương pháp phát hiện đối tượng truyền thống như Viola- Jones Tuy nhiên, R-CNN cũng có một số nhược điểm, chẳng hạn như thời gian đào tạo lâu và sử dụng nhiều bộ nhớ nên có thể khó triển khai trong các ứng dụng thực tế

Faster R-CNN là một mô hình phát hiện đối tượng dựa trên kiến trúc mạng nơ- ron tích chập (CNN) Được giới thiệu vào năm 2015, Faster R-CNN kết hợp việc sử dụng mạng CNN với một mô-đun đặc biệt được gọi là Region Proposal Network (RPN), giúp tự động tạo ra các vùng đề xuất (region proposals) trong ảnh [7]

Hình 2.6: Faster R-CNN Ưu điểm:

• Hiệu suất cao và nhanh chóng: Faster R-CNN vượt qua các hạn chế về tốc độ xử lý của R-CNN và Fast R-CNN Nhờ vào việc sử dụng RPN để đề xuất các vùng quan tâm, nó giúp giảm đáng kể thời gian tính toán, tăng cường tốc độ xử lý và có khả năng thực hiện nhận dạng đối tượng gần với thời gian thực

• Tự động đề xuất vùng quan tâm: RPN là một mạng nơ-ron tích chập nhằm dự đoán các vùng có khả năng chứa đối tượng Điều này giúp tự động tạo ra các đề xuất vùng quan tâm, loại bỏ bước đề xuất vùng riêng biệt và làm giảm đáng kể thời gian và công sức trong việc tạo ra các vùng đề xuất

• Phát hiện nhiều đối tượng: Faster R-CNN cho phép phát hiện nhiều đối tượng khác nhau trong một ảnh Nhờ vào việc kết hợp với các kỹ thuật đề xuất vùng (region proposals), nó có thể xử lý nhiều vùng chứa đối tượng trong một lần chạy

• Chia sẻ đặc trưng: Thay vì trích xuất đặc trưng từ các vùng đề xuất một cách riêng lẻ như R-CNN, Faster R-CNN chia sẻ đặc trưng đã trích xuất cho toàn bộ các vùng đề xuất Điều này giúp tiết kiệm bộ nhớ và tối ưu hóa việc tính toán, nâng cao hiệu suất của hệ thống

• Phức tạp trong triển khai: Faster R-CNN đòi hỏi kiến thức chuyên sâu và công sức trong việc triển khai do việc sử dụng mạng RPN

• Yêu cầu bộ nhớ lớn: Vì cần lưu trữ các đặc trưng của toàn bộ ảnh và các vùng đề xuất, Faster R-CNN yêu cầu bộ nhớ lớn để hoạt động hiệu quả

Faster R-CNN là một phương pháp phát hiện đối tượng hiệu quả và chính xác

Nó có thể được sử dụng trong nhiều ứng dụng thực tế

2.2.3 YOLO (You Only Look Once)

XÂY DỰNG GIẢI PHÁP SỐ HÓA THÔNG TIN GIẤY CHỨNG NHẬN

Xác định các trường thông tin trên giấy chứng nhận

Thông tin về chủ sử dụng

Tên thông tin Mô tả

Họ tên chủ Thông tin về tên đầy đủ của chủ sử dụng đất

Năm sinh chủ Thông tin về năm sinh của chủ sử dụng đất

Thông tin giấy tờ chủ Gồm loại giấy tờ (CMND, CCCD), số giấy tờ, ngày cấp, nơi cấp của chủ sử dụng đất Địa chỉ thường trú Thông tin về địa chỉ thường trú của chủ sử dụng đất

Bảng 3.1: Thông tin về chủ sủ dụng

Hình 3.1: Vùng chứa thông tin chủ sử dụng và số hiệu ở trang 1 file scan GCN

Thông tin về giấy chứng nhận: Số phát hành của giấy chứng nhận quyền sử dụng đất

Thông tin về thửa đất

Tên thông tin Mô tả

Số thửa Thông tin về số thứ tự thửa của thửa đất

Số tờ Thông tin về số hiệu tờ bản đồ của thửa đất Địa chỉ thửa Địa chỉ chi tiết của thửa đất

Diện tích Thông tin về diện tích của thửa đất theo đơn vị m 2

Mục đích sử dụng Xác định mục đích sử dụng của thửa đất, ví dụ như đất ở, đất trồng cây lâu năm, đất trồng lúa, đất công cộng, v.v… Hình thức sử dụng Thông tin về hình thức sử dụng đất, ví dụ như sử dụng riêng lẻ, sử dụng chung Thời hạn sử dụng Thông tin về thời hạn cấp quyền sử dụng đất cho thửa đất

Nguồn gốc sử dụng Cho biết nguồn gốc sử dụng đất, ví dụ như chuyển nhượng, thừa kế, v.v…

Bảng 3.2: Thông tin về thửa đất

Hình 3.2: Vùng chứa thông tin thửa đất ở trang 2 file scan GCN

Trình bày tổng quan giải pháp số hóa thông tin giấy chứng nhận

Mô tả giải pháp kết hợp sử dụng thuật toán nhận dạng đối tượng (Object Detection), nhận dạng ký tự quang học (OCR), và nhận dạng thực thể có tên (NER) như sau:

Dữ liệu đầu vào: File PDF hoặc hình ảnh của giấy chứng nhận

Trước khi áp dụng bất kỳ mô hình nào, chúng ta cần tiến hành các bước tiền xử lý để làm cho dữ liệu đầu vào phù hợp với quá trình xử lý tiếp theo Các bước xử lý dữ liệu bao gồm:

Chuyển đổi định dạng (nếu cần): Nếu dữ liệu ban đầu là file PDF, chúng ta cần chuyển đổi chúng thành hình ảnh để tiếp tục xử lý Điều này có thể thực hiện bằng cách chuyển đổi các trang PDF thành ảnh

Xử lý ảnh: Nếu ảnh của giấy chứng nhận có độ tương phản thấp hoặc nhiễu, chúng ta cần thực hiện các bước xử lý ảnh như cân bằng sáng, làm mịn hoặc loại bỏ nhiễu để cải thiện chất lượng hình ảnh

Bước 2: Nhận dạng vùng chứa thông tin

Sử dụng mô hình nhận dạng đối tượng chúng ta xác định các vùng quan trọng trên hình ảnh giấy chứng nhận như vùng chứa thông tin chủ sử dụng, thông tin thửa đất và số phát hành giấy chứng nhận Mô hình sẽ tạo ra các hộp giới hạn (bounding boxes) và gán nhãn tương ứng cho mỗi vùng đã xác định

Bước 3: Trích xuất văn bản từ vùng đã xác định

Sử dụng công cụ OCR có hỗ trợ Tiếng Việt (như Tesseract), chúng ta trích xuất văn bản từ các vùng đã xác định bởi mô hình nhận dạng dối tượng Các vùng ảnh được chuyển đổi thành văn bản có thể đọc được, giúp chúng ta nhận diện thông tin như họ tên chủ sử dụng, số giấy tờ, địa chỉ, diện tích và mục đích sử dụng và các thông tin khác

Bước 4: Nhận dạng thực thể có tên (NER)

Sau khi có văn bản trích xuất bằng OCR, chúng ta áp dụng mô hình nhận dạng thực thể có tên (NER) để nhận diện và gán nhãn các thực thể quan trọng như tên chủ sử dụng, địa chỉ, số giấy tờ, diện tích và mục đích sử dụng Mô hình NER tạo ra danh sách các thực thể đã được gán nhãn trong văn bản

Ngoài ra trong trường hợp mô hình nhận dạng đối tượng không nhận diện được vùng chứa thông tin cần lấy chúng ta sẽ thực hiện OCR cho toàn bộ ảnh của giấy chứng nhận để trích xuất văn bản, sau đó áp dụng mô hình NER để nhận dạng và gắn nhãn các thực thể có tên trong văn bản Điều này sẽ bổ sung các dữ liệu bị thiếu do không nhận dạng được vùng thông tin

Sau khi đã áp dụng mô hình NER để nhận diện và gắn nhãn các thực thể có tên quan trọng trong văn bản trích xuất từ ảnh giấy chứng nhận, một bước tiếp theo quan trọng có thể được thực hiện để cải thiện chính xác và độ tin cậy của thông tin trích xuất Đó là sử dụng các biểu thức chính quy (Regex - Regular Expressions) để kiểm tra và rà soát lại thông tin

Trong bước này, chúng ta sử dụng các biểu thức chính quy để kiểm tra xem thông tin trích xuất từ mô hình NER có phù hợp với các mẫu chuẩn hay không Cụ thể, chúng ta xác định các mẫu chuẩn (pattern) cho các trường thông tin cụ thể như năm sinh, số tờ, số thửa, diện tích

Bước 6: Trả về kết quả

Xuất kết quả thành một định dạng dễ quản lý như JSON hoặc XML, để thuận tiện cho việc truy xuất và sử dụng sau này

Hình 3.3: Sơ đồ giải pháp số hóa thông tin giấy chứng nhận

Thu thập dữ liệu

Trong quá trình xây dựng giải pháp số hóa thông tin giấy chứng nhận quyền sử dụng đất, dữ liệu giấy chứng nhận được thu thập dưới dạng file scan PDF Sau đó, quá trình xử lý dữ liệu được thực hiện theo các bước sau:

- Chuyển đổi file PDF thành file ảnh: Đầu tiên, các file PDF thu thập được sẽ được chuyển đổi thành file ảnh, thường là dạng ảnh PNG hoặc JPEG Quá trình chuyển đổi này giúp tiện lợi trong việc xử lý hình ảnh và huấn luyện mô hình

- Lọc bỏ những ảnh mờ, không rõ: Sau khi chuyển đổi thành ảnh, các file ảnh sẽ được xử lý để loại bỏ những ảnh mờ, không rõ, hoặc có chất lượng không đủ tốt để thực hiện quá trình huấn luyện Điều này giúp đảm bảo chất lượng và độ chính xác của quá trình nhận dạng và trích xuất thông tin

- Lọc bỏ các loại giấy chứng nhận trước nghị định 88/2009/NĐ-CP: Để bảo đảm tính đồng nhất của dữ liệu là cùng một loại giấy chứng nhận

- Lọc bỏ các giấy chứng nhận có nhiều thửa đất trong cùng một giấy: vì phức tạp trong việc xử lý thông tin và đảm bảo tính chính xác của dữ liệu

Hình 3.4: Chuẩn bị dữ liệu ảnh huấn luyện Đối với đề tài này, dữ liệu được lấy từ kho số của Trung tâm Công nghệ thông tin Tài nguyên và Môi trường tỉnh Bà Rịa – Vũng Tàu

Dữ liệu huấn luyện Dữ liệu kiểm thử

Kích thước ảnh 2158 x 3010 2158 x 3010 Độ phân giải 96 dpi 96 dpi

Bảng 3.3: Dữ liệu huấn luyện

Xây dựng mô hình nhận dạng đối tượng để nhận dạng các vùng thông tin trên ảnh giấy chứng nhận

3.4.1 Lựa chọn mô hình Object Detection

SSD là một thuật toán tiên tiến trong việc đạt được sự cân bằng giữa tốc độ và độ chính xác, thích hợp cho việc nhận dạng và trích xuất thông tin từ ảnh Bằng việc kết hợp SSD với các phương pháp tiền xử lý ảnh và các thuật toán khác có thể xây dựng một giải pháp mạnh mẽ và hiệu quả cho việc số hóa dữ liệu đất đai từ giấy chứng nhận

Hình 3.5: Sơ đồ huấn luyện model nhận dạng vùng thông tin

Tensorflow Object Detection API là một bộ công cụ mạnh mẽ được phát triển bởi TensorFlow, một thư viện mã nguồn mở phổ biến trong lĩnh vực học máy và trí tuệ nhân tạo Bộ công cụ này được tạo ra để giúp nhận dạng và phân loại đối tượng trong hình ảnh và video với hiệu suất cao Nó cung cấp các mô hình đã được đào tạo sẵn và tùy chỉnh cho việc phát hiện và theo dõi các đối tượng khác nhau trong các tác vụ ứng dụng thực tế

Các tính năng và ưu điểm của Tensorflow Object Detection API

• Các mô hình mạnh mẽ: Tensorflow Object Detection cung cấp một loạt các mô hình phổ biến được đào tạo trước như Faster R-CNN, SSD (Single Shot Multibox Detector), và YOLO (You Only Look Once) Những mô hình này đã được tối ưu hóa cho hiệu suất cao và phù hợp với nhiều loại ứng dụng

• Dễ tùy chỉnh: Bộ công cụ này cho phép người dùng tùy chỉnh và đào tạo lại các mô hình theo yêu cầu của họ Việc tùy chỉnh các mô hình này giúp tăng tính chính xác và hiệu quả trong việc nhận dạng đối tượng đặc thù cho từng tác vụ cụ thể

• Tích hợp với TensorFlow: Tensorflow Object Detection được tích hợp chặt chẽ với thư viện TensorFlow, giúp dễ dàng tích hợp vào các dự án học máy hiện có và tận dụng lợi ích của hệ sinh thái TensorFlow

• Hỗ trợ nhiều ngôn ngữ lập trình: Bộ công cụ này hỗ trợ nhiều ngôn ngữ lập trình như Python và C++, giúp cho các nhà phát triển có sự lựa chọn linh hoạt khi triển khai ứng dụng

• Khả năng xử lý thời gian thực: Các mô hình Tensorflow Object Detection được tối ưu hóa để hoạt động với hiệu suất cao, cho phép xử lý hình ảnh và video thời gian thực, đáp ứng yêu cầu của các ứng dụng đòi hỏi tốc độ cao và chính xác

3.4.3 Các bước thực hiện huấn luyện mô hình

Bước 1: Gán nhãn cho dữ liệu

Dùng công cụ để gán nhãn phổ biến, đơn giản, dễ sử dụng là LabelImg hỗ trợ trong việc gắn nhãn các bức ảnh Ở bước này, ta sẽ thu được file XML chứa tọa độ của các object

Hình 3.6: Gán nhãn bằng phần mềm labelImg

Hình 3.7: Kết quả gán nhãn dữ liệu

Sau khi thực hiện gán nhãn, chúng ta cần định nghĩa các nhãn (labels) mà mô hình sẽ phải nhận dạng Chúng ta liệt kê danh sách các nhãn cùng với id tương ứng của chúng Ta định nghĩa file label_map.pbtxt phục vụ cho việc huấn luyện có format như sau:

File label_map.pbtxt này sau đó sẽ được sử dụng trong quá trình cấu hình huấn luyện mô hình nhận dạng đối tượng Mô hình sẽ hiểu rằng khi nó nhận diện một vùng item { id: 1 name: 'ThongTinChu'

} chứa thông tin, nó cần phải quyết định xem đó có phải là "ThongTinChu",

"SoHieuGiay" hay "ThongTinThua" dựa vào mã số tương ứng từ file label_map.pbtxt

Bước 3: Chia dữ liệu huấn luyện thành hai tập train và validate

Trong quá trình huấn luyện mô hình nhận dạng đối tượng, việc chia dữ liệu thành hai tập train và validate là một bước quan trọng để đảm bảo tính khách quan và đánh giá hiệu suất của mô hình

Chia dữ liệu thành tập train và validate giúp kiểm tra hiệu suất của mô hình trên dữ liệu mà nó chưa từng thấy trước đó và đảm bảo rằng mô hình không chỉ học thuộc lòng dữ liệu huấn luyện Để thực hiện chia dữ liệu thực hiện như sau:

Hình 3.8: Sơ đồ thuật toán chia dữ liệu huấn luyện

Bước 4: Chuyển dữ liệu về dạng TFRecord

TFRecord là một định dạng tệp nhị phân được sử dụng để lưu trữ dữ liệu cho TensorFlow Định dạng này được thiết kế để hiệu quả và linh hoạt, có thể lưu trữ một loạt các dữ liệu, bao gồm hình ảnh, văn bản và âm thanh TFRecord được sử dụng bởi nhiều mô hình TensorFlow khác nhau, bao gồm TensorFlow Object Detection

Hình 3.9: Sơ đồ chuyển dữ liệu về dạng TFRecord để huấn luyện mô hình

Bước 5: Cấu hình pipeline từ model pre-trained

Mô hình sử dụng trong đề tài là mô hình SSD Mobilenet v2, nó là một mô hình đã được đào tạo và phổ biến cho việc phát hiện đối tượng Nó cung cấp một sự cân bằng tốt giữa hiệu suất và tốc độ, và nó có thể được sử dụng để phát hiện nhiều loại đối tượng khác nhau

$ python create_tf_record.py -x /TrainDataset/train/ -l

/config/label_map.pbtxt -o /TrainDataset/train.record

$ python create_tf_record.py -x /TrainDataset/test/ -l

/config/label_map.pbtxt -o /TrainDataset/test.record

Lý do cho việc không đào tạo một mô hình từ đầu là vì quá trình đào tạo một mô hình có thể mất rất nhiều thời gian và tài nguyên Các mô hình được đào tạo trước đã được đào tạo trên một bộ dữ liệu lớn và có thể hoạt động rất tốt

Download tại: https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/ tf2_detection_zoo.md

Các phương pháp tiền xử lý ảnh

Trong quá trình sử dụng, ảnh scan giấy chứng nhận thường có chất lượng khác nhau, có thể bị ố, mốc, nhàu, mờ hoặc chữ in không rõ ràng Đồng thời, mặt trước của giấy chứng nhận thường có hoa văn nền khá rõ nét Để đảm bảo quá trình trích xuất thông tin và kết quả nhận dạng chính xác, việc áp dụng các kỹ thuật xử lý ảnh là cần thiết để cải thiện chất lượng ảnh đầu vào

Hình 3.12: Tiền xử lý 2 mặt trang in GCN

Dưới đây là một số kỹ thuật xử lý ảnh thường được áp dụng:

- Chuyển từ ảnh màu về ảnh đa cấp xám

Quá trình này giúp loại bỏ thông tin màu sắc không cần thiết và tập trung vào độ sáng và độ tương phản của ảnh Điều này giúp tăng cường khả năng nhận dạng các ký tự và thông tin trên giấy chứng nhận

Kỹ thuật làm trơn ảnh được sử dụng để giảm nhiễu và làm mịn các vết bẩn, ố hay mốc trên ảnh Bằng cách loại bỏ các chi tiết không mong muốn, kỹ thuật này giúp làm sạch ảnh và làm tăng độ rõ nét của thông tin cần trích xuất

Kỹ thuật nhị phân hóa ảnh được sử dụng để chuyển đổi ảnh từ dạng liên tục sang dạng nhị phân, trong đó chỉ có hai mức xám: trắng và đen Điều này giúp phân biệt rõ ràng giữa các đối tượng và nền, từ đó giúp quá trình trích xuất thông tin chính xác hơn.

Tesseract OCR

OCR (Optical Character Recognition) là một công nghệ nhận dạng ký tự quang học, được sử dụng để chuyển đổi các hình ảnh chứa văn bản hoặc ký tự in thành dạng văn bản có thể sửa đổi và xử lý trên máy tính OCR đã tiến bộ đáng kể trong những năm gần đây nhờ sự phát triển của các thuật toán học máy và sức mạnh tính toán Tesseract OCR là một thư viện mã nguồn mở phổ biến và mạnh mẽ được phát triển bởi Google [13] Nó hỗ trợ nhiều ngôn ngữ và định dạng văn bản và có thể tích hợp dễ dàng vào các ứng dụng Python và nhiều ngôn ngữ lập trình khác

Các tính năng chính của Tesseract bao gồm:

▪ Đa ngôn ngữ: Tesseract hỗ trợ nhiều ngôn ngữ, bao gồm hơn 100 ngôn ngữ khác nhau, giúp nhận dạng văn bản từ các hình ảnh có ngôn ngữ và ký tự đa dạng

▪ Hỗ trợ định dạng hình ảnh đa dạng: Tesseract có thể nhận dạng văn bản từ nhiều định dạng hình ảnh phổ biến như JPG, PNG, TIFF và PDF

▪ Tích hợp với nhiều ngôn ngữ lập trình: Tesseract hỗ trợ tích hợp với nhiều ngôn ngữ lập trình như Python, Java, C++, NET, v.v., giúp dễ dàng tích hợp vào các ứng dụng và dự án khác

▪ Thiết kế mở rộng và linh hoạt: Tesseract cho phép tùy chỉnh và mở rộng thông qua việc sử dụng dữ liệu học máy và các tập dữ liệu tuỳ chỉnh

▪ Phát triển và cải tiến liên tục: Tesseract tiếp tục được cải tiến và phát triển thường xuyên nhờ cộng đồng mã nguồn mở rộng lớn.

Xây dựng mô hình nhận dạng thực thể (NER)

SpaCy là một thư viện mã nguồn mở được viết bằng ngôn ngữ Python, được sử dụng để xử lý ngôn ngữ tự nhiên (NLP) SpaCy cung cấp một bộ công cụ và mô hình cho nhiều nhiệm vụ NLP, bao gồm phân tích cú pháp, phân tích từ vựng, nhận diện thực thể có tên (NER) và phân loại SpaCy cũng cung cấp một giao diện API thân thiện với người dùng, giúp dễ dàng sử dụng các tính năng của nó trong các ứng dụng của riêng bạn [14]

SpaCy được phát triển bởi một nhóm các kỹ sư và nhà khoa học tại Google AI

Nó được phát hành lần đầu tiên vào năm 2015 và kể từ đó đã trở thành một trong những thư viện NLP phổ biến nhất SpaCy hiện được sử dụng bởi các công ty và tổ chức lớn như Google, Facebook và Microsoft

Dưới đây là một số tính năng chính của Spacy:

- Phân tích cú pháp: Spacy có thể phân tích cú pháp của văn bản, xác định các thành phần câu như chủ ngữ, động từ và tân ngữ

- Phân loại từ: Spacy có thể phân loại các từ trong văn bản thành các loại từ, chẳng hạn như danh từ, động từ, tính từ và trạng từ

- Trích xuất thực thể có tên: Spacy có thể trích xuất các thực thể có tên từ văn bản, chẳng hạn như người, địa điểm và tổ chức

- Dịch ngôn ngữ: Spacy có thể dịch văn bản từ một ngôn ngữ sang ngôn ngữ khác

Trước khi tiến hành xây dựng mô hình NER (Named Entity Recognition), chúng ta cần thực hiện chuẩn bị dữ liệu Dưới đây là các bước chi tiết để chuẩn bị dữ liệu:

- Tiền xử lý ảnh: ta cần tiến hành các bước tiền xử lý để làm sạch và khử nhiễu ảnh sao cho quá trình nhận dạng văn bản OCR có thể đạt hiệu quả cao

- Trích xuất văn bản từ ảnh: tiến hành trích xuất văn bản từ tất cả các ảnh bằng thư viện PyTesseract Quá trình này giúp chuyển đổi dữ liệu hình ảnh thành dạng văn bản để phân tích

- Làm sạch và chuẩn bị văn bản: Sau khi trích xuất văn bản, cần thực hiện các công việc làm sạch dữ liệu, bao gồm loại bỏ các ký tự không cần thiết, chuẩn hóa dấu câu, và xử lý các lỗi nhận dạng của OCR

- Lưu kết quả thành file csv để tiến hành gán nhãn dữ liệu

Hình 3.13: Sơ đồ chuẩn bị dữ liệu huấn luyện NER

Hình 3.14: Kết quả của bước chuẩn bị dữ liệu

Gán nhãn dữ liệu đòi hỏi phải thực hiện thủ công, từ việc đọc và hiểu nội dung giấy chứng nhận đến việc đánh dấu và phân loại từng thông tin theo các trường Quá trình này mất rất nhiều thời gian và công sức, đặc biệt khi số lượng giấy chứng nhận lớn Định dạng BIO / IOB Format Định dạng BIO/IOB (Inside, Outside, Begin) là phương pháp phổ biến để gán nhãn các thực thể có tên trong dữ liệu văn bản Định dạng này cung cấp cách biểu diễn ranh giới và loại của các thực thể có tên trong một chuỗi từ

Trong định dạng BIO, mỗi từ hoặc mã thông báo trong văn bản được đánh dấu bằng một trong ba nhãn: B, I, hoặc O [15]

- B - Beginning: từ này là từ đầu tiên trong một phân đoạn

- I - Inside: từ này là một từ bên trong một phân đoạn text id nội 26680-GCN-BA_292955.png dung 26680-GCN-BA_292955.png thay 26680-GCN-BA_292955.png đổi 26680-GCN-BA_292955.png và 26680-GCN-BA_292955.png cơ 26680-GCN-BA_292955.png sở 26680-GCN-BA_292955.png pháp 26680-GCN-BA_292955.png lý 26680-GCN-BA_292955.png người 26680-GCN-BA_292955.png sử 26680-GCN-BA_292955.png dụng 26680-GCN-BA_292955.png đất 26680-GCN-BA_292955.png thay 26680-GCN-BA_292955.png đổi 26680-GCN-BA_292955.png giấy 26680-GCN-BA_292955.png cmnd 26680-GCN-BA_292955.png số 26680-GCN-BA_292955.png

271155230 26680-GCN-BA_292955.png thành 26680-GCN-BA_292955.png cccd 26680-GCN-BA_292955.png

- O - Outside: từ này không phải là một từ trong bất kỳ phân đoạn nào

Giấy tờ chủ GiayTo Địa chỉ chủ DiaChiChu

Số tờ SoTo Địa chỉ thửa DiaChiThua

Hình thức sử dụng HinhThuc

Mục đích sử dụng MucDich

Nguồn gốc sử dụng NguonGoc

Bảng 3.4: Mô tả các nhãn dữ liệu

Hình 3.15: Gắn nhãn dữ liệu dạng BIO format text id tag bà 26680-GCN-BA_292955.png B-TenChu hỗ 26680-GCN-BA_292955.png I-TenChu thị 26680-GCN-BA_292955.png I-TenChu tuyết 26680-GCN-BA_292955.png I-TenChu hằng 26680-GCN-BA_292955.png I-TenChu năm 26680-GCN-BA_292955.png O sinh 26680-GCN-BA_292955.png O

1975, 26680-GCN-BA_292955.png B-NamSinh cmnd 26680-GCN-BA_292955.png B-GiayTo

271155230.cấp 26680-GCN-BA_292955.png I-GiayTo ngày 26680-GCN-BA_292955.png I-GiayTo

01/03/2006 26680-GCN-BA_292955.png I-GiayTo tại 26680-GCN-BA_292955.png I-GiayTo công 26680-GCN-BA_292955.png I-GiayTo an 26680-GCN-BA_292955.png I-GiayTo tỉnh 26680-GCN-BA_292955.png I-GiayTo brvt 26680-GCN-BA_292955.png I-GiayTo

3.7.4 Chuyển dữ liệu train thành SpaCy format (.spacy)

SpaCy format là gì Định dạng dữ liệu để đào tạo SpaCy là một định dạng dữ liệu JSON chứa các cặp văn bản và nhãn Mỗi cặp văn bản và nhãn đại diện cho một từ hoặc cụm từ trong văn bản và nhãn của nó

Dữ liệu được biểu diễn dưới dạng danh sách một câu và danh sách các thực thể có tên đã được gán nhãn cho từng câu đó Mỗi thực thể có tên đều được gán một nhãn cùng với vị trí bắt đầu và kết thúc của từ trong câu gốc

[ ('I want apples', {'entities': [(2, 5, 'COMMAND'), (7, 12, 'FRUIT')]}) ]

Danh sách thực thể có tên (entities):

Thực thể COMMAND: Bắt đầu từ vị trí thứ 2 và kết thúc ở vị trí thứ 5, nghĩa là

Thực thể FRUIT: Bắt đầu từ vị trí thứ 7 và kết thúc ở vị trí thứ 12, nghĩa là "apples"

Thuật toán chuyển dữ liệu thành dạng Spacy

Trong quá trình huấn luyện mô hình NER của SpaCy, chúng ta cần cung cấp dữ liệu dạng định dạng SpaCy để mô hình có thể hiểu và học cách nhận dạng các thực thể có tên Để làm điều này, cần biểu diễn các văn bản và thực thể có tên trong dạng mà SpaCy có thể xử lý

Các bước để thực hiện để chuyển dữ liệu train thành định dạng SpaCy format là như sau:

- Tiền xử lý dữ liệu: thực hiện tiền xử lý dữ liệu bằng cách làm sạch văn bản, loại bỏ ký tự đặc biệt và dấu câu không cần thiết, chuyển thành chữ thường, và loại bỏ dòng trống

- Gom nhóm dữ liệu: Gom nhóm các văn bản theo id để xử lý cùng lúc

- Tạo dữ liệu trong định dạng SpaCy: Tạo một danh sách “gcnDatas” trong đó mỗi phần tử bao gồm nội dung văn bản và thông tin về thực thể có tên đã gắn nhãn trong văn bản đó (vị trí của thực thể trong văn bản, nhãn của thực thể)

- Chuyển thành định dạng SpaCy: Sử dụng thư viện SpaCy để chuyển đổi dữ liệu văn bản và thực thể có tên sang định dạng SpaCy format Cụ thể, tạo ra một đối tượng DocBin để lưu trữ các văn bản và thông tin về thực thể có tên đã gắn nhãn Sau đó duyệt qua từng văn bản trong tập huấn luyện và thêm chúng vào DocBin Mỗi văn bản sẽ được biểu diễn dưới dạng một đối tượng Doc của SpaCy, trong đó các thực thể có tên sẽ được tạo thành các đối tượng “span” và gắn vào “doc.ents”

Kết hợp các mô hình nhận dạng đối tượng, OCR và NER

Bước này kết hợp các mô hình mô hình nhận dạng đối tượng (Object Detection), OCR và NER là giai đoạn quan trọng trong quá trình trích xuất thông tin từ giấy chứng nhận Trong giai đoạn này, chúng ta kết hợp ba mô hình khác nhau để đạt được kết quả chính xác

- Nhận dạng đối tượng (Object Detection): Bước đầu tiên là sử dụng mô hình nhận dạng đối tượng để xác định các vùng ảnh trong giấy chứng nhận chứa thông tin cần trích xuất, như họ tên chủ, năm sinh, địa chỉ, số thửa, số tờ, và các trường thông tin khác Mô hình giúp xác định các vùng ảnh này dựa trên các đặc trưng hình ảnh như kích thước, hình dạng, và vị trí trên trang giấy chứng nhận

- OCR (Optical Character Recognition): Sau khi xác định được các vùng ảnh chứa thông tin, chúng ta sử dụng mô hình OCR để trích xuất văn bản từ các vùng ảnh này Mô hình OCR có khả năng chuyển đổi các hình ảnh chứa văn bản thành văn bản có thể đọc được, giúp chúng ta thu thập thông tin từ các vùng ảnh đã được xác định

- NER (Named Entity Recognition): Cuối cùng, sau khi có được văn bản từ bước OCR, chúng ta áp dụng mô hình NER để xác định và phân loại các trường thông tin cụ thể trong văn bản, chẳng hạn như họ tên chủ, năm sinh, số thửa, số tờ, v.v Mô hình NER có khả năng nhận diện các thực thể có tên và trích xuất thông tin từ văn bản, giúp ta tự động hóa quá trình trích xuất dữ liệu từ giấy chứng nhận

Hình 3.21: Sơ đồ thực hiện trích xuất thông tin từ giấy chứng nhận

KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dữ liệu thử nghiệm

Các loại giấy chứng nhận quyền sử dụng đất đang được sử dụng:

Trước ngày 10/12/2009, có hai loại giấy tờ được sử dụng để chứng minh quyền sử dụng đất:

- Giấy chứng nhận quyền sử dụng đất do Bộ Tài nguyên và Môi trường cấp

- Giấy chứng nhận quyền sở hữu nhà ở và quyền sử dụng đất ở do Bộ Xây dựng cấp

Hình 4.1: Giấy chứng nhận quyền sử dụng đất

Kể từ ngày 10/12/2009, Nghị định 88/2009/NĐ-CP có hiệu lực đã quy định thống nhất các loại giấy tờ này thành một loại giấy duy nhất là “Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất” Giấy chứng nhận này do Bộ Tài nguyên và Môi trường cấp cho người có quyền sử dụng đất, quyền sở hữu nhà ở, quyền sở hữu tài sản khác gắn liền với đất theo một mẫu thống nhất và được áp dụng trên toàn quốc [4] Trong khuôn khổ đề tài này chỉ sử dụng các giấy sau Nghị định 88/2009/NĐ-CP

Hình 4.2: Giấy chứng nhận quyền sử dụng đất và tài sản gắn liền với đất

Mô tả tập dữ liệu

Tập dữ liệu thực nghiệm trong luận văn bao gồm 150 file scan của giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất Cụ thể, tập dữ liệu này được thu thập từ kho dữ liệu tài nguyên môi trường tại Trung tâm Công nghệ thông tin Tài nguyên và Môi trường tỉnh Bà Rịa - Vũng Tàu

Trong tập dữ liệu này, có tổng cộng 133 file được sử dụng để huấn luyện các mô hình nhận dạng và trích xuất thông tin từ giấy chứng nhận Các file này đã được gán nhãn đầy đủ với các vùng thông tin cần nhận dạng, bao gồm họ tên chủ, năm sinh chủ, thông tin giấy tờ chủ, địa chỉ thường trú, số thửa, số tờ, địa chỉ thửa, diện tích, hình thức sử dụng, mục đích sử dụng, thời hạn sử dụng, nguồn gốc sử dụng, số phát hành, và các thông tin khác liên quan đến quyền sử dụng đất và tài sản

Ngoài ra, tập dữ liệu cũng bao gồm 17 file để đánh giá hiệu quả của các mô hình đã huấn luyện Những file này không được sử dụng trong quá trình huấn luyện, và việc đánh giá sẽ xem xét khả năng của các mô hình nhận dạng và trích xuất thông tin từ các giấy chứng nhận mới mà chưa từng thấy trước đó.

Xây dựng kịch bản thử nghiệm

Dữ liệu đầu vào là file PDF quét trên máy scan hai mặt, mặt trước và mặt sau

Dữ liệu xuất ra dữ liệu dạng JSON gồm có: họ tên chủ, năm sinh chủ, giấy tờ chủ, địa chỉ chủ, số phát hành giấy, số tờ bản đồ, số thứ tự thửa, địa chỉ thửa, diện tích, mục đích sử dụng, hình thức sử dụng, thời hạn sử dụng, nguồn gốc sử dụng Chương trình được xây dựng thử nghiệm tại đường dẫn sau: http://taybacvt.pythonanywhere.com/

Hình 4.3: Giao diện chương trình thực nghiệm

Bước 1: Chọn file scan giấy chứng nhận cần trích xuất dữ liệu

Bước 2: Kiểm tra nội dung dữ liệu thu được so với thông tin trên giấy chứng nhận

Hình 4.4: File scan PDF giấy chứng nhận đầu vào

Kết quả thu được

Hiển thị các thông tin được trích xuất và các nhãn được gán

Hình 4.5: Nội dung Json kết quả

Hình 4.6: Giao diện kết quả

Phương pháp đánh giá được sử dụng là kiểm tra độ chính xác của từng trường thông tin được nhận diện bởi giải pháp số hóa so với khi thực hiện trích xuất dữ liệu thủ công Để thực hiện phương pháp này, tôi đã thu thập một tập dữ liệu gồm 17 file giấy chứng nhận và thực hiện trích xuất dữ liệu thủ công từng trường thông tin trên mỗi giấy chứng nhận

Sau đó, tôi sử dụng mô hình đã huấn luyện trước đó để nhận diện và trích xuất dữ liệu từ các file giấy chứng nhận trong tập dữ liệu thử nghiệm Kết quả được so sánh với dữ liệu thủ công đã thu thập để đánh giá độ chính xác của giải pháp

Bảng 4.1: Kết quả thực nghiệm

Phân tích kết quả

Phương pháp Precision, Recall và F1-score là các phương pháp thường được sử dụng trong việc đánh giá hiệu suất của các mô hình phân loại, như mô hình Nhận dạng thực thể (NER) trong trường hợp này Các phương pháp này được sử dụng để đo lường độ chính xác của việc dự đoán và trích xuất thông tin từ dữ liệu

Precision đo lường tỷ lệ các trường thông tin được nhận dạng chính xác trên tổng số trường thông tin được dự đoán Nó tính toán bằng cách chia số trường thông tin dự đoán đúng cho một lớp cho tổng số trường thông tin dự đoán là thuộc lớp đó Precision càng cao thì tỷ lệ các trường thông tin được dự đoán đúng cũng cao Tuy nhiên, nếu Precision quá cao mà Recall thấp, có thể dẫn đến việc bỏ sót nhiều trường thông tin thực tế

STT Label Manual Model Match Pre.(%) Rec.(%) F-Measure(%)

Recall đo lường tỷ lệ các trường thông tin được nhận dạng chính xác trên tổng số trường thông tin thực tế của một lớp Nó tính toán bằng cách chia số trường thông tin dự đoán đúng cho một lớp cho tổng số trường thông tin thực tế thuộc lớp đó Recall càng cao thì tỷ lệ các trường thông tin dự đoán đúng cũng cao Tuy nhiên, nếu Recall quá cao mà Precision thấp, có thể dẫn đến việc dự đoán sai nhiều trường thông tin không thuộc lớp đó

F1-score là sự kết hợp của Precision và Recall, dùng để đo lường hiệu suất tổng thể của mô hình Nó được tính bằng công thức:

F1-score = 2 * (Precision * Recall) / (Precision + Recall)

F1-score có giá trị nằm trong khoảng từ 0 đến 1, và càng cao thì mô hình càng đạt hiệu suất tốt trong việc dự đoán và trích xuất dữ liệu

Trong quá trình đánh giá kết quả thực nghiệm, Precision, Recall và F1-score được sử dụng để đánh giá hiệu suất của mô hình NER trong việc nhận dạng và trích xuất thông tin từ giấy chứng nhận sử dụng đất Việc sử dụng cả ba phương pháp này giúp đánh giá toàn diện và cân nhắc cả độ chính xác và độ đáng tin cậy của mô hình

Qua việc sử dụng các độ đo Precision, Recall và F1-score, chúng ta có cái nhìn tổng quan về hiệu suất của mô hình trên từng thông tin cụ thể

Nhìn chung, các thông tin như "Họ tên chủ", “Số thửa”, “Số tờ”, "Địa chỉ thửa",

"Diện tích thửa", "Mục đích sử dụng", và "Nguồn gốc sử dụng" đạt mức độ Precision và Recall cao, tạo ra F1-score gần 90%, cho thấy khả năng nhận dạng và trích xuất thông tin chính xác

Tuy nhiên, một số thông tin như "Năm sinh chủ", "Giấy tờ chủ", "Địa chỉ chủ",

"Hình thức sử dụng", "Thời hạn sử dụng" và "Số phát hành" có kết quả đánh giá không cao bằng các thông tin khác, với Precision và Recall dưới 90% Điều này có thể do sự phức tạp trong cấu trúc và định dạng thông tin trong giấy chứng nhận, đồng thời cũng phụ thuộc vào lượng dữ liệu huấn luyện có sẵn cho mô hình.

Ngày đăng: 19/02/2024, 14:52

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN