Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 124 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
124
Dung lượng
8,69 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM – KHÓA - - KHÓA LUẬN TỐT NGHIỆP Đề tài: RÚT TRÍCH METADATA TỪ BÀI BÁO KHOA HỌC MÁY TÍNH METADATA EXTRACTION FROM COMPUTER SCIENCE PAPERS Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Sinh viên thực hiện: VÕ ĐINH DUY – 06520112 HUỲNH MINH ĐỨC – 06520087 Lớp: CNPM01 Khóa: 2006 - 2011 TP.Hồ Chí Minh, tháng 04 năm 2011 Formatted: Font: Times New Roman i Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman ABSTRACT Formatted: Font: Times New Roman In this report, we present the approach to the problem of metadata extraction from computer science papers We built a module to extract information from pdf paper by combining the layout information of papers with rules which are defined by using JAPE Grammar rules of GATE Beside, we conducted experiments SVM machine learning method and rule method to extract metadata From experimental results, we assess and review strengths and weaknesses of each method GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức Formatted: Font: Times New Roman Formatted: Font: Times New Roman ii Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman LỜI MỞ ĐẦU Formatted: Font: Times New Roman Cùng với đầu tƣ phát triển khoa học kỹ thuật, số lƣợng kết cơng bố cơng trình nghiên cứu khoa học ngày nhiều, thơng qua báo tăng lên nhanh chóng Việc tổ chức xếp báo khoa học nhằm cho mục đích hỗ trợ tìm kiếm tri thức, vấn đề đƣợc nhà nghiên cứu quan tâm Từ nguyên nhân ấy, khóa luận hƣớng đến việc rút trích thơng tin metadata báo khoa học, để từ giúp cho việc xếp tổ chức báo đƣợc chặt chẽ thuận tiện Hiện có hai phƣơng pháp phổ biến đƣợc dùng để rút trích thơng tin, phƣơng pháp máy học sử dụng tập luật Đề tài kiểm thử hai phƣơng pháp tập thử nghiệm để đƣa nhận xét, ƣu khuyết điểm phƣơng pháp Ngồi ra, đề tài khóa luận xây dựng mơ-đun sử dụng tập luật để rút trích thơng tin metadata báo khoa học có định dạng pdf Khóa luận dừng lại mức độ kiểm thử, so sánh, từ đƣa đánh giá phƣơng pháp, nên tránh khỏi nhận định chƣa xác Vì chúng em mong đƣợc nhận góp ý từ quý thầy bạn để chúng em hồn thiện đề tài khóa luận GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức Formatted: Font: Times New Roman Formatted: Font: Times New Roman iii Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman LỜI CẢM ƠN Formatted: Font: Times New Roman Đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến thầy ThS Huỳnh Ngọc Tín giúp đỡ giới thiệu chúng em đến với đề tài khóa luận Khơng thế, q trình thực khóa luận, thầy bảo hƣớng dẫn tận tình cho chúng em kiến thức lý thuyết chuyên ngành thông qua sách, báo, buổi thuyết trình, nhƣ cách xây dựng bố cục, cách viết khóa luận tốt nghiệp… Thầy ngƣời truyền động lực chúng em, giúp chúng em hồn thành tốt khóa luận tốt nghiệp Chân thành cảm ơn đến bạn nhóm TKORG hỗ trợ để chúng em hồn thành tốt khóa luận Chúng em xin chân thành biết ơn tận tình dạy dỗ tất quý thầy cô Khoa Công nghệ Phần mềm – Trƣờng Đại học Công Nghệ Thông Tin – Đại học Quốc gia TPHCM Lời cảm ơn chân thành sâu sắc, chúng em xin gửi đến gia đình, ln sát cánh động viên chúng em giai đoạn khó khăn TP Hồ Chí Minh, ngày 15 tháng 03 năm 2011 Sinh viên Võ Đinh Duy Huỳnh Minh Đức GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức Formatted: Font: Times New Roman iv - Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman NHẬN XÉT (Của giảng viên hƣớng dẫn) ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Formatted: Font: Times New Roman Formatted: Font: Times New Roman v - Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman NHẬN XÉT (Của giảng viên phản biện) ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… Formatted: Font: Times New Roman vi Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman MỤC LỤC ABSTRACT .i LỜI MỞ ĐẦU ii LỜI CẢM ƠN iii NHẬN XÉT iv NHẬN XÉT v MỤC LỤC vi DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH ix CHƢƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI KHÓA LUẬN 1.1 Đặt vấn đề 1.2 Khảo sát nghiên cứu liên quan 1.2.1 Khái niệm Metadata 1.2.2 Chuẩn Dublin Core Metadata 1.2.3 Các nghiên cứu liên quan 1.3 Mục tiêu khóa luận 16 1.4 Phạm vi khóa luận 17 1.5 Nội dung thực 18 1.6 Kết dự kiến 19 1.7 Bố cục báo cáo khóa luận 19 GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức Formatted: Font: Times New Roman vii Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman CHƢƠNG 2: CƠ SỞ LÝ THUYẾT 20 2.1 Phƣơng pháp máy học SVM 20 2.1.1 Những khái niệm liên quan 20 2.1.2 Giới thiệu SVM 23 2.1.3 Phân lớp với liệu nhiễu, hàm nhân 29 2.1.4 Các giải pháp phân đa lớp 31 2.2 Phƣơng pháp sử dụng tập luật 34 2.2.1 Giới thiệu GATE 34 2.2.2 ANNIE Plugin 37 2.2.3 Luật ngữ pháp JAPE 39 CHƢƠNG 3: RÚT TRÍCH METADATA TỪ HEADER CỦA BÀI BÁO KHOA HỌC 53 3.1 Ứng dụng thuật toán SVM vào toán 54 3.1.1 Xây dựng Vectơ đặc trƣng 57 3.1.2 Phân lớp dòng 66 3.2 Hiện thực luật JAPE 67 3.2.1 Luật JAPE mơ-đun rút trích từ tập tin pdf 67 3.2.2 Luật JAPE dùng cho mơ-đun rút trích tập liệu header 76 CHƢƠNG 4: HIỆN THỰC HỆ THỐNG 80 Môi trƣờng, công cụ, ngôn ngữ phát triển 80 4.1 Kiến trúc chƣơng trình 81 4.1.1 Kiến trúc phân lớp chƣơng trình 82 GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman viii Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman 4.1.2 Luồng xử lý chung 84 4.2 Các mô-đun hệ thống 85 4.2.1 Mô-đun tƣơng tác với tập pdf: 85 4.2.2 Mô-đun tƣơng tác với tập liệu header: 87 CHƢƠNG 5: THỰC NGHIỆM, NHẬN XÉT VÀ ĐÁNH GIÁ 91 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 95 DANH MỤC TÀI LIỆU THAM KHẢO 97 PHỤ LỤC A 100 PHỤ LỤC B 103 GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman ix Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman Formatted: Font: Times New Roman DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH BẢNG Bảng 1.1: Các yếu tố chuẩn Dublin Core Metadata Bảng 1.2: Bảng kết thử nghiệm [1] 14 Bảng 1.3: Danh sách thông tin metadata 18 Bảng 2.1: Các đặc tính vài loại thích 45 Bảng 2.2: Các toán tử vế trái luật ngữ pháp JAPE 51 Bảng 3.1: Danh sách từ điển 58 Bảng 3.2: Các đặc trƣng từ 63 Bảng 3.3: Các đặc trƣng dòng 64 Bảng 3.4: Những mẫu nhận dạng cho lớp metadata 78 Bảng 5.1: Kết phân lớp SVM 91 Bảng 5.2: Kết kiểm thử dùng luật 93 Bảng 5.3: Số liệu thống kê module rút trích PDF 94 GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 97 - DANH MỤC TÀI LIỆU THAM KHẢO [1] Tin Huynh, Kiem Hoang Automatic Metadata Extraction from Scienctific Papers ITEDU@2010 2010 [2] Thạc sĩ Huỳnh Ngọc Tín Báo cáo chun đề rút trích thơng tin 2010 [3] Luận văn ThS - Bui Nguyen Khoi-2009 Máy học phân loại văn bản.2009 [4] Jie Zou, Daniel Le, George R Thoma Locating and parsing bibliographic references in HTML medical articles Springer 2009 [5] Nicola Zen, Nadzeya Kiyavitskaya, Luisa Mich, John Mylopoulos, James R.Cordy A lightweight approach to semantic annotation of research papers In Proc NLDB 2007 [6] Min-Yuh Day, Tzong-Han Tsai, Cheng-Lung Sang, Cheng-Wei Lee, Shih-Hung Wu, Chorng-Shyong Ong, Wen-Lian Hsu A Knowledge-based Approach to Citation Extraction Proceedings of Information Reuse and Integration Conference, IRI-2005 2005 [7] Hui Han, Eren Manavoglu, Hongyuan Zha, Kostas Tsioutsiouliklis, C Lee Giles, Xiangmin Zhang Rule-based Word Clustering for Document Metadata Extraction In: Preneel, B., Tavares, S (eds.) SAC 2005 LNCS, vol 3897, pp 1049–1053 Springer, Heidelberg 2005 GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 98 - [8] Fuchun Peng, Andrew McCallum Accurate Information Extraction Research Papers using Conditional from Random Fields Information Reuse and Integration IEEE 2004 [9] K Nakagawa, A Nomura and M Suzuki Extraction of Logical Structure from Articles in Mathematics, MKM, LNCS 3119, pages 276 – 289, Springer Berlin Heidelberg from Articles in Mathematic, 2004 [10] Lutz Hame Knowledge Discovery with Support Vector Machine Published by JohnWiley & Sons, Inc., Hoboken, New Jersey ISBN 978-0-470-37192-3 2004 [11] H Han, C.L Giles, E Manavoglu, H Zha, Z Zhang, E.A Fox Automatic document medata extraction using support vectơ machines In Proceeding of the rd ACM/IEEECS Joint Conference on Digital Libraries, International Conference on Digital Libraries, pages 37 – 48 IEEE Computer Society Press, Washington, DC, 2003 [12] H Alani, S Kim, D E Millard, M J Weal, P H Lewis, W Hall and N R Shadbolt Automatic Extraction of Knowlegde from Web Document In nd International Semantic Web Conference – Workshop on Human Language Technology for the Semantic Web abd Web Services, October 20 -23, Senibel Island, Florida, USA, 2003 [13] John Lafferty, Andrew McCallum, Fernando Pereira Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data In: Proceedings of the ICML, pp 282–289 2001 [14] K Seymore, A.McCallum, and R Rosenfeld Learning hidden Markov model structure for information extraction In Proc of AAAI 99 Workshop on Machine Learning for Information Extraction, pages 37–42, 1999 GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 99 - [15] Wikipedia:http://en.wikipedia.com [16] Tristan Fletcher Support Vector Machines Explained http://www.cs.ucl.ac.uk/staff/T.Fletcher/ [17].http://www.nlv.gov.vn/nlv/index.php/en/2008060697/DUBLIN-CORE/XMLMetadata-va-Dublin-Core-Metadata.html [18] http://gate.ac.uk [19] http://en.wikipedia.org/wiki/General_Architecture_for_Text_Engineering GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 100 - PHỤ LỤC A LIBSVM Đây thƣ viện đơn giản, dễ sử dụng hiệu phân lớp SVM hồi quy Nó giải phân lớp C-SVM, nu-SVM, hồi quy epsilon-SVM hồi quy nu-SVM Nó cung cấp cơng cụ lựa chọn mơ hình tự động phân lớp C-SVM Định dạng tập tin liệu huấn luyện tập tin test là: : : giá trị đích tập huấn luyện Đối với việc phân lớp, số nguyên xác định lớp Đối với hồi quy, số thực số nguyên số thực Các nhãn tập tin liệu test đƣợc sử dụng để tính tốn độ xác lỗi Ví dụ: Có tập huấn luyện đơn giản việc phân lớp gói này: heart_scale Gõ „svm-train heart_scale‟ chƣơng trình đọc liệu huấn luyện xuất tập tin mô hình heart_scale.model sau ta gõ „svm-predict heart_scale heart_sacle.model output‟ để xem tỉ lệ phân lớp tập huấn luyện Tập tin output chứa giá trị dự đoán mơ hình Có số chƣơng trình hữu dụng gói này: GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 101 - svm-scale: Đây công cụ việc xác định tập tin liệu vào svm-toy: Đây giao diện đồ họa đơn giản thể liệu phân tách SVM mặt phẳng Ta kích vào cửa sổ để vẽ điểm liệu Sử dụng nút “change” để chọn lớp 2, nút “load” để đọc liệu từ tập tin, nút “save” để lƣu liệu vào tập tin, nút “run” để thu đƣợc mơ hình SVM nút “clear” để xóa cửa sổ Chú ý rằng, nút “load” “save” áp dụng cho truờng hợp phân lớp, không áp dụng cho trƣờng hợp hồi quy Sử dụng svm-train: svm-train [options] training_set_file [model_file] options: -s svm_type : Với tham số sau : o -s Kiểu SVM: (mặc định 0) C-SVC = 0, nu-SVC = 1, one-class SVM = 2, epsilon-SVR = 3, nu-SVR = o -t ernel_type : Kiểu hàm kernel (mặc định 2) linear = 0, polynomial = 1, radial basis function: 2, sigmoid: o -d Degree: bậc hàm kernel (mặc định 3) o -g Gamma: Giá trị gamma hàm kernel (mặc định 1/k) o -r Coef0: giá trị coef0 kernel function (mặc định 0) o -c Cost: tham số C C-SVC, epsilon-SVR, nu-SVR (mặc định 1) o -n Nu: tham số nu nu-SVC, one-class SVM, nu-SVR (mặc định 0.5) o -p Epsilon: giá trị epsilon hàm loss epsilon-SVR (mặc định 0.1) o -m Cachesize: kích thƣớc cache nhớ tính theo MB (mặc định 40) GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 102 - o -e Epsilon: dung sai (tolerance) tiêu chuẩn thoát (termination criterion) (mặc định 0.001) o -h Shrinking: có sử dụng shrinking(co lại) heuristics hay không, or (mặc định 1) o -w weight: tham số C lớp i tới trọng số weight*C C-SVC (mặc định 1) Giá trị k tùy chọn -g nghĩa số thuộc tính liệu đầu vào GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 103 - PHỤ LỤC B HƢỚNG DẪN SỬ DỤNG GATE DEVELOPER Giao diện GATE Developer gồm phần chính: phần hiển thị tài nguyên GATE (Resources Pane) nhƣ: Applications, Language Resources, Processing Resources, Datastores phần hiển thị nội dung (Display Pane) Hình B.1: Giao diện Gate Developer Chúng em trình bày cách để đƣa tập tin liệu với ngôn ngữ tiếng Anh vào cách GATE xác định thực thể tập tin nhƣ Input: tập tin html Wikipedia định nghĩa “Woman”15 15 http://en.wikipedia.org/wiki/Woman GVHD: ThS Huỳnh Ngọc Tín Field Code Changed SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 104 - Đầu tiên ta tạo “GATE Document”: Nhấp phải vào biểu tƣợng Language Resources -> New -> GATE Document Hình B.2: Tạo GATE Document Chƣơng trình hình bên dƣới, sau ta điền thêm thơng tin nhƣ: Hình B.3: Cửa sổ tạo GATE Document GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 105 - Name: tên tài liệu đƣợc dùng để phân biệt GATE, ta để trống GATE lấy tên tài liệu thêm vào số đằng sau để phân biệt với tài liệu tên Vd: tập tin „Woman.html‟ sau thêm vào „Woman.html_00067‟ Chế độ mã hóa „encoding‟: tốt „utf-8‟ MarkupAware: cho phép ta giữ lại tag tài liệu html, xml hay không Mặc định true tƣơng đƣơng với loại bỏ tag, hiển thị nội dung tập tin văn MimeType: GATE xác định đọc (Right Reader) thích hợp để đọc tập tin tài liệu Sau đƣa định dạng chuẩn GATE Ví dụ nhƣ tập tin „Woman.html‟ hình ảnh kí tự đặc biệt bị loại bỏ MimeType tài liệu html „text/html‟ Chọn đƣờng dẫn đến tập tin tài liệu Ta chuyển đổi thay đƣa vào tập tin liệu, ta muốn đƣa vào câu truy vấn ta nhấn vào dropdownlist thay chọn „sourceUrl‟ ta chọn stringContent sau nhập nội dung câu truy vấn vào textbox kế bên GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 106 - Hình B.4: Sau đƣa tập tin „Woman.html‟ vào GATE Tạo Processing Resources (PR) cần thiết để xác định thực thể Ta nhấn phải vào biểu tƣợng Processing Resources -> New -> New -> ANNIE Gazetteer Để thông số mặc định chọn „ok‟ GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 107 - Hình B.5: Danh sách Processing Resources Tạo Application: Ở ta tạo „Pipeline‟ dùng để xử lý cho tập tin tài liệu Để xử lý cho nhiều tập tin liệu (tập liệu ) trình bày phần sau Ta nhấn phải vào biểu tƣợng Applications -> New -> Pipeline Rồi chọn „ok‟ Tiếp tục thêm ANNIE Gazetteer từ ListBox „Loaded PR‟ sang ListBox „Selected PR‟ GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 108 - Hình B.6: Cách chọn Processing Resources để thực thi Sau thêm ANNIE Gazetteer sang ListBox „Selected PR‟, ta chọn tập tin tài liệu cần xử lý, nhấn vào nút „Run this Application‟ nhƣ hình sau: Hình B.7: Chọn document để xử lý GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 109 - Output: Sau Run Pipeline ta nhấp kép chuột vào tập tin “Woman.html” nhấn vào thẻ „Annotation Sets‟ „Annotations List‟ để xem kết Khi nhấn vào „Annotations Sets‟ tab check vào CheckBox „Lookup‟ tìm cho thực thể có ontology GATE Tab „Annotation List‟ cho ta biết xác thực thể loại thực thể (majorType, minorType) Tuy nhiên ta chƣa xác định nhóm thực thể nhƣ: có thực thể thuộc nhóm „location‟ or „people‟ chẳng hạn Hình B.8: Kết thực thể đƣợc gán nhãn „Lookup‟ Để xác định nhóm thực thể ta tạo PR có tên “ANNIE NE Transducer” Trong ANNIE NE Transducer chứa luật để gán nhãn cho thực thể này, nhƣ thực thể đƣợc gán nhãn person (thuộc nhóm person) chẳng hạn GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 110 - Việc tạo ANNIE NE Transducer làm tƣơng tự nhƣ tạo „ANNIE Gazetteer‟ chạy lại application Pipeline Ta thấy nhóm thực thể nhƣ: Date, FirstPerson, Job Title, Location… Hình B.9: Danh sách nhóm thực thể đƣợc tìm thấy GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức - - 111 - GVHD: ThS Huỳnh Ngọc Tín SVTH: Võ Đinh Duy & Huỳnh Minh Đức ... luận thực rút trích 1.2.3 Các nghiên cứu liên quan 1.2.3.1 Các tốn liên quan Vấn đề rút trích thơng tin metadata đƣợc thể qua toán: Rút trích thơng tin từ phần đầu (header) báo khoa học Phần... nhiều phƣơng pháp tập trung rút trích thơng tin metadata báo khoa học thuật toán máy học tập luật Một vài phƣơng pháp bƣớc đầu quan tâm đến vấn đề rút trích tri thức báo nhƣ: nội dung nghiên cứu,... sách thông tin metadata Đối tƣợng liệu: o Các báo khoa học có định dạng pdf o 935 header báo khoa học máy tính đƣợc lấy từ nghiên cứu Seymore đồng nghiệp [14] Đầu thông tin metadata, đƣợc