Bài toán trích rút metadata

Việc rút trích và tạo metadata cho các văn bản số hóa giúp cho việc sắp xếp tài liệu một cách khoa học và hỗ trợ người dùng có thể tìm kiếm chúng một cách dễ dàng. Tạo metadata bằng tay sẽ tốn kém nhiều thời gian và công sức. Việc xác định được metadata tự động sẽ hỗ trợ tích cực cho công việc lập chỉ mục tự động và với metadata của tài liệu chúng ta có thể sẽ tìm kiếm những mối liên hệ giữa các tài liệu thông qua metadata.

2.3.2.1. Các nghiên cứu liên quan

Rút trích metadata là lĩnh vực nghiên cứu thu hẹp thuộc lĩnh vực rút trích thông tin. Hầu hết các phương pháp rút trích metadata hiện nay có thể chia làm 2 cách tiếp cận chính đó là: các phương pháp dựa trên học máy [16,24] và một nhóm các phương pháp dựa trên luật, từ điển [23].

Theo [16], những phương pháp học máy để rút trích metadata điển hình có thể kể đến như: lập trình logic, mô hình Markov ẩn (Hidden Markov Models), Support Vector Machince, và các phương pháp học thống kê khác. Trong [16], nhóm tác giả đã dùng SVM để rút trích metadata từ các bài báo khoa học. Quá trình rút trích của họ gồm 2 bước: bước thứ 1 họ dùng SVM để phân lớp các dòng (lines) thuộc phần heading của các tài liệu (từ phần giới thiệu trở lên); bước thứ 2 họ rút trích metadata từ các dòng đã phân lớp trong bước thứ 1 dùng các luật dấu câu, ký tự viết hoa kết hợp với các từ điển. Kết quả thử nghiệm của các tác giả trong [16] đã cho thấy phương pháp của họ cho kết quả tốt hơn các phương pháp học máy khác (dựa trên thực nghiệm).

Trong [24], nhóm tác giả đã đề xuất phương pháp rút trích metadata dùng CRF (Conditional Random Fields) và dựa trên đánh giá thực nghiệm trong [24],

phương pháp của họ cho kết quả tương đương với phương pháp SVM trong

[16]. Kết quả thực nghiệm trong [16, 24] cho thấy các phương pháp trong CRF và SVM là tương đương nhau về hiệu xuất và độ chính xác từ 96% – 100% (kết quả khác nhau đối với các metadata khác nhau).

Mặc dù những phương pháp máy học đã đề cập đến ở trên áp dụng cho việc rút trích metadata đã cho kết quả khá ấn tượng. Tuy nhiên chúng ta biết rằng đối với các phương pháp máy học, việc tạo ra một tập dữ liệu học, có gán nhãn sẽ tốn nhiều công sức, chi phí cho việc chọn mẫu và gán nhãn. Đó là lý do cho việc đầu tư cho việc phát triển các phương pháp, hệ thống dựa trên luật, từ điển, ...Trong tài liệu [23], nhóm tác giả đã đề xuất một phương pháp rút trích cấu trúc logic (tiêu đề, các tác giả, các đề mục, các định nghĩa, định lý, …) từ các bài báo trong lĩnh vực toán học. Từ đó họ xây dựng đã xây dựng một trình duyệt giúp người dùng có thể dễ dàng đọc các bài báo toán học. Thuật toán học đề xuất gồm 2 bước: thứ nhất xác định những vùng đặc biệt trong tài liệu (số trang, đề mục, phần footnote cuối trang, tiêu đề của các bảng biểu và hình ảnh) dùng các từ khóa, kiểu dáng font chữ, khoảng cách không gian trình bày trong tài liệu; sau đó thông tin chi tiết sẽ được xác định từ các vùng này dựa vào kiểu dáng, vị trí và trình bày của từng vùng. Nhóm tác giả đã thực nghiệm trên 29 bài báo toán học và độ chính xác là 93%.

Mỗi cách tiếp cận đều có những ưu, nhược điểm riêng. Đối với các phương pháp máy học thì chúng ta cần phải tốn nhiều thời gian cho việc chọn mẫu, gán nhãn và để có kết quả tốt cần rất nhiều dữ liệu học. Bên cạnh đó các phương pháp dựa trên luật và mẫu đơn giản và dễ dàng thực hiện hơn, nhưng để

có kết quả tốt cũng tốn rất nhiều công sức cho việc khảo sát, định nghĩa luật của chuyên gia. Các luật cũng cần phải thay đổi khi xuất hiện các loại dữ liệu mới mà những luật hiện có không thể giải quyết được. Thông thường đối với từng bài toán cụ thể người ta sẽ đưa ra một cách tiếp cận và phương pháp giải quyết vấn đề tương ứng phù hợp với bài toán đặt ra.

2.3.2.2. Cách tiếp cận của hệ thống FSCANNER

Các văn bản số hóa của hệ thống là các văn bản quy phạm pháp luật như báo cáo, nghị định, công văn, đề nghị,...Với mỗi loại văn bản đó được trình bày tuân theo thể thức và kỹ thuật trình bày văn bản hành chính trong hệ thống văn bản quy phạm pháp luật Việt Nam [5], như quy định về khổ giấy (Ví dụ A4), kiểu trình bày, quy định đặt lề trang văn bản (ví dụ lề trên, lề dưới: 20-25mm; lề trái: 30-35mm; lề phải: 15-20mm),vị trí trình bày các thành phần thể thức trong văn bản. Vì vậy, sau khi văn bản đã được số hóa, chuyển từ ảnh văn bản thành văn bản tài liệu có thể chỉnh sửa được, hệ thống sẽ trích rút metadata tự động dựa trên hình thái của văn bản đó. Hệ thống sẽ duyệt văn bản từ trên xuống, dựa vào tính chất của văn bản, hệ thống bắt các từ khóa dựa vào đặc thù của văn bản đó, ví dụ như gặp từ “BÁO CÁO” loại chữ in hoa, cỡ chữ 14, kiểu chữ đứng, đậm và xuống dòng thì chắc chắn thể loại văn bản đó là báo cáo; hoặc gặp chữ “Nơi nhận” chữ in thường, kiểu chữ nghiêng, đậm, cỡ chữ 12, sau đó là dấu hai chấm và xuống dòng, các kí tự bên dưới cỡ chữ 11, có thể suy được ô bên phải nó là quyền hạn, chức vụ của người ký văn bản đó.

Mô hình ngôn ngữ N-gram

Giới thiệu về metadata và chuẩn DublinCore