Xuất metadata cho văn bản được số hóa

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 40)

Như trên đã trình bày, việc rút trích và tạo metadata cho các tài liệu điện tử giúp cho việc sắp xếp tài liệu một cách khoa học và hỗ trợ người dùng có thể tìm kiếm chúng một cách dễ dàng.

Đối với các trang thông tin điện tử hoặc cổng thông tin điện tử của các cơ quan nhà nước, việc tạo lập, sử dụng và lưu trữ các yếu tố đặc tả dữ liệu được quy định trong thông tư 24 của Bộ Thông tin và Truyền thông [6]. Thực hiện quy định này giúp cho việc quản lý trên các trang thông tin điện tử hoặc cổng thông tin điện tử của các cơ quan nhà nước một cách khoa học và tiện lợi, đồng thời giúp việc tìm kiếm văn bản thuận lợi hơn. Như vậy, với mỗi văn bản quy phạm pháp luật trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước, người dùng có thể tìm kiếm thể loại văn bản (Hiến pháp, Sắc lệnh/Sắc luật, Luật/Pháp lệnh, Chỉ thị, Thông tư, Nghị định, Quyết định), lĩnh

vực của văn bản (Khoa học-Công nghệ, Giáo dục- Đào tạo, Kinh tế xã hội, Cơ cấu tổ chức,...), cơ quan ban hành (Quốc hội, Chủ tịch nước, Chính phủ, Thủ tướng Chính phủ, Các bộ/Cơ quan ngang bộ, liên bộ, UBND tỉnh/thành phố,...), hoặc cần tìm ngày ban hành văn bản, số/kí hiệu văn bản, trích yếu nội dung văn bản,...

Đối với việc quản lý các tài liệu lưu trữ: mỗi hồ sơ và văn bản lưu trữ cần được lưu theo phông lưu trữ, mục lục số, hồ sơ số,...theo quy định của luật lưu trữ tại hướng dẫn 169 – Cục văn thư và lưu trữ nhà nước.

Như vậy, đối với văn bản số hóa, việc tạo lập, sử dụng và lưu trữ các yếu tố đặc tả tương tự như các trang thông tin điện tử hoặc cổng thông tin điện tử của các cơ quan nhà nước sẽ rất hữu ích, giúp tổ chức và doanh nghiệp có nhu cầu số hóa tài liệu sẽ quản lý tài liệu một cách dễ dàng. Tuy nhiên, đối với văn bản số hóa, tổ chức và doanh nghiệp có nhu cầu số hóa cần xác định người số hóa văn bản, hay ngày số hóa, thiết bị số hóa...của loại văn bản cần quan tâm, cần được bổ sung vào các yếu tố đặc tả dữ liệu nhằm mô tả đầy đủ hơn nữa những văn bản được số hóa.

Đề xuất các yếu tố metadata cho số hóa văn bản gồm 25 trường như bảng 2.8

Bảng 2.8. Đề xuất xây dựng các yếu tố metadata cho số hóa văn bản

ST

T Tên trường Ý nghĩa

Quy định áp dụng Sử dụng 15 yếu tố đặc tả dữ liệu theo chuẩn Dublin Core

1. Title Tiêu đề Bắt buộc

2. Creator Người tạo Bắt buộc

3. Date Thời gian Bắt buộc

4. Publisher Cơ quan ban hành Bắt buộc

5. Description Mô tả Bắt buộc

6. Identifier Định danh Bắt buộc

7. Language Ngôn ngữ Khuyến nghị

8. Source Nguồn Khuyến nghị

9. Contributor Người cộng tác Khuyến nghị

11. Coverage Phạm vi Tùy chọn

12. Type Dạng Tùy chọn

13. Format Định dạng Tùy chọn

14. Relation Quan hệ Tùy chọn

15. Rights Các quyền Tùy chọn

6 yếu tố đặc tả bổ sung cho quản lý tài liệu lưu trữ 16. Archive Cơ quan lưu trữ Khuyến nghị 17. Archive fond Phông lưu trữ Khuyến nghị 18. List number Mục lục số Khuyến nghị

19. Folder number Hộp số Khuyến nghị

20. Record number Hồ sơ số Khuyến nghị

21. Page number Tờ số Khuyến nghị

4 yếu tố đặc tả bổ sung cho văn bản số hóa 22. Digitizing date Ngày số hóa tài

liệu Khuyến nghị

23. Digitizing person Người số hóa Khuyến nghị 24. Digitizing organization Tổ chức số hóa Khuyến nghị 25. Digitizing equipment Thiết bị số hóa Khuyến nghị Mô tả từng yếu tố đặc tả dữ liệu: (adsbygoogle = window.adsbygoogle || []).push({});

Bảng 2.9. Tiêu đề (Title)

Tên yếu tố Title

Định nghĩa Tiêu đề tài liệu. Ràng buộc Bắt buộc

Chú thích Tên của văn bản số hóa.

Ví dụ Thông tư 24 Bộ Thông tin và Truyền thông

Tên yếu tố Creator

Định nghĩa Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả tập thể.

Ràng buộc Bắt buộc

Chú thích Chức vụ và chữ ký của người ban hành tài liệu

Ví dụ Thứ trưởng Bộ Thông tin và Truyền thông Nguyễn Minh Hồng

Bảng 2.11. Ngày tháng (Date)

Tên yếu tố Date

Định nghĩa Ngày, tháng ban hành tài liệu. Khuyến nghị dùng chuẩn ISO 8601 dạng YYYY- MM-DD

Ràng buộc Bắt buộc

Chú thích Có thể phân ra thành các yếu tố con như: ngày tháng ban hành tài liệu, ngày tháng tài liệu có hiệu lực.

Ví dụ Ngày ban hành thông tư 24/TT-BTTTT là: 2011-09-20

Bảng 2.12. Nhà xuất bản (Publisher)

Tên yếu tố Publisher

Định nghĩa Nhà xuất bản, nơi ban hành tài liệu có thể là tên cá nhân, tên cơ quan, tổ chức, dịch vụ... Ràng buộc Khuyến nghị nên sử dụng.

Bắt buộc khi mô tả các dịch vụ tài liệu Chú thích Cơ quan ban hành tài liệu

Bảng 2.13. Mô tả (Description)

Tên yếu tố Description

Định nghĩa Tóm tắt, mô tả nội dung tài liệu. Có thể bao gồm tóm tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung...

Ràng buộc Bắt buộc

Chú thích Trích yếu nội dung văn bản

Ví dụ Quy định về việc tạo lập, sử dụng và lưu trữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước

Bảng 2.14. Định danh (Identifier)

Tên yếu tố Identifier

Định nghĩa Các thông tin về định danh tài liệu, các nguồn tham chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform Resource Name), ISBN (International Standard Book Number), ISSN (International Standard Serial Number), SICI (Serial Item & Contribution Identifier), …

Ràng buộc Bắt buộc (adsbygoogle = window.adsbygoogle || []).push({});

Chú thích Nơi lưu trữ văn bản số hóa trên hệ thống, dùng đường dẫn để định vị tài nguyên

Bảng 2.15. Ngôn ngữ (Language)

Tên yếu tố Language

Định nghĩa Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính của tài liệu: Có thể sử dụng chuẩn ISO 639

Ràng buộc Khuyến nghị nên sử dụng.

Bắt buộc khi tài liệu không phải tiếng Việt

Chú thích tham khảo

http://www.w3.org/WAI/ER/IG/ert/iso63 9.htm) để mô tả ngôn ngữ cho tài liệu.

Bảng 2.16. Nguồn (Source)

Tên yếu tố Source

Định nghĩa Các thông tin về xuất xứ của tài liệu, tham chiếu đến nguồn mà tài liệu hiện mô tả được trích ra/tạo ra, nguồn cũng có thể là: đường dẫn (URL), URN, ISBN, ISSN...

Ràng buộc Tùy chọn

Chú thích Số/Kí hiệu của văn bản

Ví dụ 24/2011/TT-BTTTT

Bảng 2.17. Người cộng tác (Contributor)

Tên yếu tố Contributor

Định nghĩa Tên những người cùng tham gia cộng tác đóng góp vào nội dung tài liệu, có thể là cá nhân, tổ chức...

Bảng 2.18. Chủ đề (Subject)

Tên yếu tố Subject

Định nghĩa Chủ đề tài liệu đề cập dùng để phân loại tài liệu. Có thể thể hiện bằng từ, cụm từ/Khung chủ đề, hoặc chỉ số phân loại/ Khung phân loại.

Ràng buộc Bắt buộc, nếu không có yếu tố chức năng (Function)

Chú thích Lĩnh vực của văn bản như: Khoa học- công nghệ, Giáo dục-đào tạo, Kinh tế xã hội,...

Bảng 2.19. Phạm vi (Coverage)

Tên yếu tố Coverage

Định nghĩa Các thông tin liên quan đến phạm vi, quy mô hoặc mức độ bao quát của tài liệu. Phạm vi đó có thể là địa điểm, không gian hoặc thời gian, tọa độ...

Ràng buộc Khuyến nghị nên sử dụng.

Bắt buộc khi phạm vi bao phủ của nội dung tài liệu không phải là toàn quốc. Chú thích Phạm vi, mức độ bao quát của văn bản

gồm không gian, khoảng thời gian.

Bảng 2.20. Kiểu /Loại (Type)

Tên yếu tố Type (adsbygoogle = window.adsbygoogle || []).push({});

Định nghĩa Mô tả bản chất của tài liệu. Dùng các thuật ngữ mô tả tính chất tài liệu

Ràng buộc Bắt buộc Chú thích Loại văn bản

Bảng 2.21. Khổ mẫu (Format)

Tên yếu tố Format

Định nghĩa Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm; vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg, xls, phần mềm....)

Ràng buộc Tùy chọn

Chú thích Vật mang tin, tình trạng vật lý của tài liệu,..

Như: Giấy tốt, giấy xấu, hư hỏng, chữ mờ-khó đọc, giấy Pơ luya mỏng-đen,....

Bảng 2.22. Liên kết (Relation)

Tên yếu tố Relation

Định nghĩa Mô tả các thông tin liên quan đến tài liệu khác. có thể dùng đường dẫn (URL), URN, ISBN, ISSN...

Tài liệu kèm theo, thông tin cấp 1 Ràng buộc Tùy chọn

Chú thích Mô tả các thông tin liên quan đến tài liệu khác Ví dụ Luật CNTT ngày 29/6/2009; Nghị định

64/2007/ NĐ-CP ngày 10/4/2007; Nghị định 187/2007/NĐ-CP ngày 25/12/2007; Nghị định 43/2011/NĐ-CP ngày 13/6/2011

Bảng 2.23. Bản quyền (Right)

Tên yếu tố Right

Định nghĩa Các thông tin liên quan đến bản quyền của tài liệu.

Ràng buộc Tùy chọn

Ghi chú Mức độ sử dụng: sử dụng rộng rãi, hạn chế,...

Bảng 2.24. Cơ quan lưu trữ (Archive)

Tên yếu tố Archive

Định nghĩa Tên cơ quan lưu trữ (đối với lưu trữ cơ quan)

Ràng buộc Khuyến nghị

Bảng 2.25. Phông lưu trữ (Archive fond)

Tên yếu tố Archive fond

Định nghĩa Tên của đơn vị sự nghiệp có con dấu và chữ ký, thường là tên của đơn vị sử dụng hệ thống lưu trữ

Ràng buộc Khuyến nghị

Bảng 2.26. Mục lục số (List number)

Tên yếu tố List number

Định nghĩa Ghi số thứ tự của mục lục hồ sơ có trong phông lưu trữ, trường hợp phông chỉ có một mục lục hồ sơ thì ghi số 1 (adsbygoogle = window.adsbygoogle || []).push({});

Ràng buộc Khuyến nghị

Bảng 2.27. Hộp số (Folder number)

Tên yếu tố Folder number

Định nghĩa Ghi số thứ tự của hộp Ràng buộc Khuyến nghị

Bảng 2.28. Hồ sơ số (Record number)

Tên yếu tố Record number

Định nghĩa Ghi số thứ tự của hồ sơ Ràng buộc Khuyến nghị

Bảng 2.29. Tờ số (Page number)

Tên yếu tố Page number

Định nghĩa Ghi số thứ tự của tờ số trong một văn bản Ràng buộc Khuyến nghị

Bảng 2.30. Ngày số hóa (Digitizing date)

Tên yếu tố Digitizing date

Định nghĩa Ngày số hóa văn bản, khuyến nghị dùng chuẩn ISO 8601 dạng YYYY-MM-DD Ràng buộc Khuyến nghị

Bảng 2.31. Người số hóa (Digitizing person)

Tên yếu tố Digitizing person Định nghĩa Người số hóa văn bản Ràng buộc Khuyến nghị

Ghi chú Là người chịu trách nhiệm về sự đúng đắn của văn bản số hóa so với văn bản gốc

Bảng 2.32. Tổ chức số hóa (Digitizing organization)

Tên yếu tố Digitizing organization

Định nghĩa Tổ chức, cơ quan số hóa văn bản Ràng buộc Khuyến nghị

Ghi chú Chịu trách nhiệm về sự đúng đắn của văn bản số hóa so với bản gốc trước pháp luật

Bảng 2.33. Thiết bị số hóa (Digitizing equipment)

Tên yếu tố Digitizing equipment Định nghĩa Loại thiết bị số hóa văn bản Ràng buộc Khuyến nghị

Ghi chú Tên của thiết bị số hóa văn bản

Tại bảng 2.34 trình bày cơ sở dữ liệu cho các yếu tố metadata đã đề xuất sử dụng Hệ quản trị cơ sở dữ liệu Micrsoft SQL Server.

Bảng 2.34. Bảng Cơ sở dữ liệu của 25 yếu tố metadata xây dựng cho văn bản được số hóa

Trong bảng 2.34, với mỗi yếu tố metadata ở cột Column Name có một kiểu dữ liệu tương ứng ở cột Data Type. Ví dụ yếu tố metadata TITLE cho phép nhập dữ liệu dạng text tối đa 300 kí tự. Cột Allow Nulls cho phép giá trị rỗng lưu trong trường hay không.

Tổng kết chương 2

Trong chương này, chúng tôi tìm hiểu về một số kỹ thuật nhận dạng OCR, kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình n-gram, kỹ thuật trích rút metadata.

Kỹ thuật nhận dạng OCR giới thiệu về mô hình tổng quát của một hệ nhận dạng chữ, khâu quan trọng nhất quyết định độ chính xác của nhận dạng là Trích rút đặc trưng và Phân lớp. Thuật toán phân lớp là yếu tố có vai trò quyết định đến chất lượng của một hệ thống nhận dạng. Có nhiều phương pháp phân lớp nhận dạng, trong luận văn giới thiệu về hướng tiếp cận dựa trên mô hình máy véc tơ hỗ trợ SVM, mô hình mạng nơ ron ANN và mô hình Markov ẩn HMM. Với mỗi mô hình phân lớp đó, luận văn chỉ ra ưu và nhược điểm của mô hình, sau đó lập bảng tổng hợp các kết quả nghiên cứu của một số nhà nghiên cứu với kỹ thuật phân lớp nào đã sử dụng kiểu đặc trưng nào. Ngoài ra, luận văn còn tổng quan một số phần mềm nhận dạng chữ Việt và lập bảng so sánh ưu nhược điểm của những phần mềm đó.

Kỹ thuật soát lỗi chính tả giới thiệu về đặc điểm tiếng Việt, phân loại lỗi chính tả, một trong số điểm khác biệt nhất giữa ngôn ngữ tiếng Việt và ngôn ngữ tiếng Anh là sự khác nhau bởi ranh giới của các từ. Do đó việc quan trọng đầu tiên khi xử lý văn bản tiếng Việt là tách từ. Bài toán tách từ là bài toán tiền đề cho các ứng dụng xử lý ngôn ngữ tự nhiên, trong đó có soát lỗi chính tả. Có nhiều hướng tiếp cận của bài toán tách từ như hướng tiếp cận dựa trên từ điển, hướng tiếp cận dựa vào thống kê, hoặc kết hợp cả hai. Luận văn tập trung vào sử dụng mô hình n-gram cho bài toán tách từ tiếng Việt. Luận văn giới thiệu phương pháp ứng dụng xác suất thống kê và quá trình máy tự học [Lê Trung Hiếu, 2012] cho việc sửa lỗi chính tả tiếng Việt của hệ thống FSCANNER. (adsbygoogle = window.adsbygoogle || []).push({});

Kỹ thuật trích rút metadata giới thiệu về bài toán trích rút metadata, khái niệm metadata, giới thiệu chuẩn Dublin Core. Trong bài toán trích rút metadata, với các văn bản cần số hóa là các văn bản hành chính, câu hỏi đặt ra là trích rút những trường thông tin nào? Luận văn đã tìm hiểu quy định về việc tạo lập, sử dụng, khai thác dữ liệu đặc tả trong thông tư 24 của Bộ Thông tin và Truyền thông; tìm hiểu hướng dẫn xây dựng cơ sở dữ liệu lưu trữ tại hướng dẫn 169 của Cục Văn thư và Lưu trữ Nhà nước; dựa vào nhu cầu thực tế của những cơ quan có nhu cầu số hóa, từ đó đề xuất xây dựng metadata gồm 25 trường cho văn bản được số hóa cho hệ thống FSCANNER.

CHƯƠNG 3. THỰC NGHIỆM, ĐÁNH GIÁ 3.1. Các bước thực hiện chương trình của hệ thống

Hệ thống FSCANNER đã được nhóm nghiên cứu của Viện CNTT – ĐHQGHN xây dựng và có giao diện như hình 3.1. Hệ thống này cho phép đưa ảnh quét lên hệ thống, sau đó hệ thống sẽ tự động nhận dạng OCR, tự động sửa lỗi chính tả và tự động lập chỉ mục phục vụ cho quá trình tìm kiếm của người dùng theo yêu cầu của mỗi tổ chức đặt hàng. Ở hình 3.1, nút “Upload văn bản” cho phép người dùng đưa ảnh quét lên hệ thống; nút “OCR Processing (n)” cho biết hệ thống đang nhận dạng n văn bản; nút “NLP Processed(m)” cho biết hệ thống đã xử lý xong m văn bản, kết quả xử lý hiển thị ở vùng bên dưới, là danh sách metadata đã được trích rút của mỗi văn bản. Trên giao diện của hệ thống có nút “tìm kiếm” cho phép người dùng tìm kiếm có định hướng, như chọn tìm tỉnh, số và kí hiệu, tác giả, cơ quan lưu trữ,...

Hình 3.2. Giao diện chính của chương trình

Hình 3.1. Giao diện chương trình FSCANNER

Rút trích metadata Đưa ảnh văn bản

lên hệ thống Đang tiến hành nhận

dạng tự động file ảnh Đang xử lý văn bản

Tìm kiếm theo metadata

Đã xử lý văn bản xong

Các bước thực hiện trong chương trình:

Bước 1: Chọn Upload văn bản : nhấn chọn Choose Files để upload ảnh quét lên hệ thống; sau đó nhấn chọn Tiền xử lý.

Hình 3.2. Upload văn bản trong hệ thống FSCANNER

Bước 2: Khi khâu Tiền xử lý thực hiện xong với thông báo “Tiền xử lý thành công”, hệ thống tự động sang khâu nhận dạng, quan sát trên màn hình thấy OCR Processing là 1:

Hình 3.3. Hệ thống FSCANNER đang nhận dạng OCR 1 file ảnh

Bước 3: Sau khi hệ thống tự động nhận dạng OCR xong, hệ thống tự động chuyển sang khâu “NLP Processing” để tiến hành sửa lỗi chính tả tiếng Việt và trích chọn thông tin trong văn bản theo metadata phù hợp với nhu cầu của tổ chức sử dụng. Khi thực hiện xong việc NLP, quan sát trên màn hình thấy NLP

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 40)