Rút trích metadata là lĩnh vực nghiên cứu thu hẹp thuộc lĩnh vực rút trích thơng tin. Hầu hết các phương pháp rút trích metadata hiện nay cĩ thể chia làm 2 cách tiếp cận chính đĩ là: các phương pháp dựa trên học máy [10][36][38][42] và một nhĩm các phương pháp dựa trên luật [39][41][43], các phương pháp này được áp dụng kết hợp cùng với sự xuất hiện và phát triển của các từ điển và các Ontologies.
Theo [36], những phương pháp học máy để rút trích metadata điển hình cĩ thể kể đến như: lập trình logic, mơ hình Markov ẩn (Hidden Markov Models), Support Vector Machince, và các phương pháp học thống kê khác. Trong [36], nhĩm tác giả đã dùng SVM để rút trích metadata từ các bài báo khoa học. Quá trình rút trích của họ gồm 2 bước: bước thứ 1 họ dùng SVM để phân lớp các dịng (lines) thuộc phần heading của các tài liệu (từ phần giới thiệu trở lên); bước thứ 2 họ rút trích metadata từ các dịng đã phân lớp trong bước thứ 1 dùng các luật dấu câu, ký tự viết hoa kết hợp với các từ điển. Kết quả thử nghiệm của các tác giả trong [36] đã cho thấy phương pháp của họ cho kết quả tốt hơn các phương pháp học máy khác (dựa trên thực nghiệm).
Trong [38], nhĩm tác giả đã đề xuất phương pháp rút trích metadata dùng CRF (Conditional Random Fields) và dựa trên đánh giá thực nghiệm trong [38], phương pháp của họ cho kết quả tương đương với phương pháp SVM trong [36]. Kết quả thực nghiệm trong [36][38] cho thấy các phương pháp trong CRF và SVM là tương đương nhau về hiệu xuất. Kết quả đạt được Precision từ 86% - 99%, Recall từ 45%-100%, và độ chính xác từ 96% – 100% (kết quả khác nhau đối với các metadata khác nhau).
Trong [42], nhĩm tác giả đã xây dựng một package đặt tên là PDF2gsdl, package này chỉ dùng để rút trích các tiêu đề và tác giả từ các bài báo cĩ định dạng PDF, package này cĩ thể dùng kết hợp với phần mềm thư viện số Greenstone11 để tạo metadata tự động cho các tài liệu trong thư viện số. Trong [42], nhĩm tác giả đã áp dụng học máy và xây dựng bộ phân lớp Neural dùng đặc trưng như thơng tin trình bày, kích thước font chữ, vị trí, thử nghiệm trên một tập dữ liệu bao gồm 45 bài báo lấy từ các kỷ yếu hội thảo và độ chính xác đạt được cho ‘tiêu đề’ khoảng 93% và cho ‘tác giả’ khoảng 70%.
Mặc dù những phương pháp máy học đã đề cập đến ở trên áp dụng cho việc rút trích metadata đã cho kết quả khá ấn tượng. Tuy nhiên chúng ta biết rằng đối với các phương pháp máy học, việc tạo ra một tập dữ liệu học, cĩ gán nhãn sẽ tốn nhiều cơng sức, chi phí cho việc chọn mẫu và gán nhãn. Đĩ là lý do cho việc đầu tư cho việc phát triển các phương pháp, hệ thống dựa trên luật, từ điển, ontologies [37][39][41][43].
Trong tài liệu [37], nhĩm tác giả đã đề xuất một phương pháp rút trích cấu trúc logic (tiêu đề, các tác giả, các đề mục, các định nghĩa, định lý, …) từ các bài báo trong lĩnh vực tốn học. Từ đĩ họ xây dựng đã xây dựng một trình duyệt giúp người dùng cĩ thể dễ dàng đọc các bài báo tốn học. Thuật tốn học đề xuất gồm 2 bước: thứ nhất xác định những vùng đặc biệt trong tài liệu (số trang, đề mục, phần footnote cuối trang, tiêu đề của các bảng biểu và hình ảnh) dùng các từ khĩa, kiểu dáng font chữ, khoảng cách khơng gian trình bày trong tài liệu; sau đĩ thơng tin chi tiết sẽ được xác định từ các vùng này dựa vào kiểu dáng, vị trí và trình bày của từng vùng. Nhĩm tác giả đã thực nghiệm trên 29 bài báo tốn học và độ chính xác là 93%.
Trong bài báo [39], nhĩm tác giả đã đề xuất phương pháp làm giàu một Ontology về những người làm nghệ thuật hay nghệ sĩ bằng cách tìm kiếm và rút trích các thơng tin cá nhân liên quan (ngày sinh, nơi sinh, cơ quan cơng tác, ngày thành hơn, quá trình làm việc, v.v) từ kết quả tìm kiếm trên internet. Để làm được điều đĩ, họ đã tiến hành tách câu trong văn bản (kết quả tìm kiếm trên internet), sau đĩ dùng GATE Framework để nhận diện các thực thể như NGƯỜI, ĐỊA ĐIỂM, THỜI GIAN và kết hợp với một ontology cĩ sẵn Artequakt Ontology (CONCEPT-RELATION-CONCEPT) [39] để nhận diện mối quan hệ giữa các thực thể như NGƯỜI, ĐỊA ĐIỂM, THỜI GIAN từ các câu trong văn bản của kết quả tìm kiếm.
Mỗi cách tiếp cận đều cĩ những ưu, nhược điểm riêng. Đối với các phương pháp máy học thì chúng ta cần phải tốn nhiều thời gian cho việc chọn mẫu, gán nhãn và để cĩ kết quả tốt cần rất nhiều dữ liệu học. Bên cạnh đĩ các phương pháp dựa trên luật và mẫu đơn giản và dễ dàng thực hiện hơn, nhưng để cĩ kết quả tốt cũng tốn rất nhiều cơng sức cho việc khảo sát, định nghĩa luật của chuyên gia. Các luật cũng cần phải thay đổi khi xuất hiện các loại dữ liệu mới mà những luật hiện cĩ khơng thể giải quyết được. Thơng
thường đối với từng bài tốn cụ thể người ta sẽ đưa ra một cách tiếp cận và phương pháp giải quyết vấn đề tương ứng phù hợp với bài tốn đặt ra.