Trích rút thông tin dựa trên kỹ thuật học máy

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	76
Dung lượng	882,23 KB

Nội dung

Trích rút thông tin dựa trên kỹ thuật học máy Trích rút thông tin dựa trên kỹ thuật học máy Trích rút thông tin dựa trên kỹ thuật học máy luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

NGUYỄN ĐĂNG BẮC TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN KHOA HỌC CÔNG NGHỆ VÀ MÔI TRƯỜNG NGUYỄN ĐĂNG BẮC CƠNG NGHỆ THƠNG TIN TRÍCH RÚT THƠNG TIN DỰA TRÊN KỸ THUẬT HỌC MÁY LUẬN VĂN THẠC SĨ KỸ THUẬT KHÓA 2010 Hà Nội, năm 2013 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN KHOA HỌC CÔNG NGHỆ VÀ MƠI TRƯỜNG NGUYỄN ĐĂNG BẮC TRÍCH RÚT THƠNG TIN DỰA TRÊN KỸ THUẬT HỌC MÁY Chuyên ngành: Công nghệ thông tin Mã số: CB101364 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ THANH HƯƠNG Hà Nội, năm 2013 LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn chân thành đến PGS.TS Lê Thanh Hương Cơ bảo tận tình hướng dẫn cho tơi suốt q trình nghiên cứu thực luận văn Tôi xin chân thành gửi lời cảm ơn đến: Ban lãnh đạo Viện Công nghệ thông tin Truyền thông, Bộ môn Hệ thống Thông tin, Viện Đào tạo Sau đại học, tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu làm luận văn Cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè - người bên lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! i LỜI CAM ĐOAN Tôi xin cam đoan luận văn hoàn thành sở nghiên cứu trích rút thơng tin tự động dựa kỹ thuật học máy thực Luận văn không chép nguyên từ nguồn tài liệu khác Các kết qủa luận văn trung thực TÁC GIẢ NGUYỄN ĐĂNG BẮC ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC CHỮ VIẾT TẮT vi DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH ẢNH viii MỞ ĐẦU x A Động nghiên cứu luận văn x B Mục tiêu phạm vi nghiên cứu luận văn xi C Cấu trúc luận văn .xi CHƯƠNG 1: GIỚI THIỆU CHUNG 11 1.1 Khái niệm trích rút thơng tin .11 1.2 Các khó khăn với trích rút thơng tin 12 1.3 Kiến trúc hệ thống trích rút thơng tin 13 1.3.1 Nhận dạng tên thực thể (Named Entity Recognition – NER) .14 1.3.2 Giải đồng tham chiếu 14 1.3.3 Xây dựng mẫu phần tử 14 1.3.4 Xây dựng mẫu quan hệ 15 1.3.5 Đưa mẫu kịch 15 1.4 Bài toán nhận dạng thực thể 16 1.4.1 Khái niệm nhận dạng thực thể 17 1.4.2 Kiến trúc hệ thống nhận dạng thực thể 17 iii 1.4.2.1 Tách câu .18 1.4.2.2 Tách từ 18 1.4.2.3 Gán nhãn từ loại 18 1.4.2.4 Phân cụm .19 1.4.2.5 Dò tìm tên thực thể .20 1.4.3 Ứng dụng nhận dạng thực thể .20 1.5 Bài tốn trích rút thơng tin tour du lịch cho tiếng Việt .21 1.6 Hướng tiếp cận giải tốn trích rút thơng tin 23 1.6.1 Hướng tiếp cận dựa học luật thủ công 23 1.6.2 Hướng tiếp cận dựa học máy 25 1.7 Phương pháp tiếp cận luận văn .28 1.8 Tổng kết chương 28 CHƯƠNG 2: MƠ HÌNH TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN (CONDITIONAL RANDOM FIELDS) .29 2.1 Khái niệm mơ hình trường ngẫu nhiên có điều kiện 29 2.2 Nguyên lý cực đại hóa Entropy 30 2.2.1 Độ đo Entropy điều kiện .31 2.2.2 Các ràng buộc phân phối mơ hình 31 2.2.3 Nguyên lý cực đại hóa Entropy 32 2.3 Hàm tiềm mơ hình CRFs 34 2.4 Ước lượng tham số cho mơ hình CRFs 35 2.5 Gán nhãn cho liệu dạng chuỗi 37 2.6 CRFs giải vấn đề sai lệch nhãn .39 iv 2.7 Tổng kết chương 40 CHƯƠNG 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG TRÍCH RÚT .41 THÔNG TIN TOUR DU LỊCH .41 3.1 Ứng dụng CRFs vào tốn trích rút thơng tin tour du lịch .41 3.1.1 Mơ hình hóa tốn trích rút thơng tin tour du lịch .42 3.1.2 Cấu trúc hệ thống 43 3.1.2.1 Quá trình huấn luyện 44 3.1.2.1.1 Gán nhãn liệu huấn luyện 45 3.1.2.1.2 Huấn luyện 46 3.1.2.1.2.1 Phân tích đặc trưng 46 3.1.2.1.2.1 Huấn luyện CRFSuite .49 3.1.2.2 Quá trình nhận dạng .49 3.1.2.2.1 Xử lý liệu đầu vào 49 3.1.2.2.2 Nhận dạng .54 3.1.2.3 Đưa vào sở liệu 55 3.1.2.3.1 Bảng liệu 55 3.1.2.3.2 Xử lý đưa vào sở liệu .55 3.2 Tổng kết chương 57 CHƯƠNG 4: CHƯƠNG TRÌNH ỨNG DỤNG VÀ KẾT QUẢ THỰC NGHIỆM.58 4.1 Mơi trường thực nghiệm .58 4.1.1 Phần cứng 58 4.1.2 Phần mềm 58 4.1.2.1 Công cụ Vntagger 58 v 4.1.2.2 Công cụ CRFSuite 58 4.2 Dữ liệu thực nghiệm 61 4.3 Đánh giá hệ thống .61 4.3.1 Đánh giá hệ thống nhận dạng thực thể 61 4.3.2 Kết thực nghiệm 61 4.4.Giao diện chương trình .65 4.4.1 Giao diện chương trình 65 4.4.2 Giao diện huấn luyện 66 4.4.3 Giao diện nhận dạng .67 4.4.4 Giao diện tìm kiếm CSDL .68 4.5 Tổng kết chương 68 KẾT LUẬN VÀ KIẾN NGHỊ .69 TÀI LIỆU THAM KHẢO .70 vi DANH MỤC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CRFs Conditional Random Fields Các trường điều kiện ngẫu nhiên HMM Hidden Markov Model Mơ hình Markov ẩn Maximum Entropy Markov Mơ hình Markov cực đại hóa Model entropy SVM Support Vector Machine Máy vector hỗ trợ IE Information Extraction Trích rút thơng tin NER Named Entity Recognition Nhận dạng thực thể có tên MEMM vii DANH MỤC BẢNG BIỂU Bảng 1.1: Ví dụ xây dựng mẫu quan hệ 15 Bảng 1.2: Một số ví dụ Tag Chunking 19 Bảng 1.3: Các nhãn thực thể hệ thống trích rút thơng tin tour du lịch 23 Bảng 3.1: Các thơng tin tour cần trích rút 43 Bảng 3.2: Các nhãn sử dụng hệ thống 46 Bảng 3.3: Các trang web sử dụng trích rút thơng tin tour du lịch 50 Bảng 3.4: Bảng table TOUR 55 58 CHƯƠNG 4: CHƯƠNG TRÌNH ỨNG DỤNG VÀ KẾT QUẢ THỰC NGHIỆM 4.1 Môi trường thực nghiệm 4.1.1 Phần cứng CPU Intel Core duo 2.2GHz, Ram 2G 4.1.2 Phần mềm Để thực tách từ, gán nhãn từ loại trích rút thơng tin, tác giả sử dụng cơng cụ gán nhãn từ loại tiếng Việt mã nguồn mở tác giả Lê Hồng Phương[29] (vnTagger) công cụ CRFSuite tác giả Naoaki Okazaki [32] người Nhật 4.1.2.1 Công cụ Vntagger VnTagger hệ thống mã nguồn mở thực gán nhãn từ loại tự động cho tiếng Việt Vntagger thực tách câu, tách từ gán nhãn có độ xác cao Độ xác lên đến 96% thực thử nghiệm sử liệu tiếng Việt: Vietnamese treebank Hệ thống vnTagger có sử dụng thư viện vnTokenizer thư viện hệ thống Stanford Maxent Tagger v2.0 trường Đại học Standford để thực tách gán nhãn từ loại cho tiếng Việt Các thư viện sử dụng dạng file jars thư mục lib chương trình vnTagger Để gán nhãn, ta cần gõ lệnh sau: /vnTagger.sh -i samples/0.txt -o samples/0.tagged.txt File “0.txt” file liệu đầu vào tiếng Việt (UTF-8) Đầu gán nhãn lưu thành file "0.tagged.txt" 4.1.2.2 Công cụ CRFSuite Công cụ CRFsuite tác giả Naoaki Okazaki tải Source package hay Win32 binary công cụ địa chỉ: http://www.chokkan.org/software/crfsuite/ 59 a Đặc điểm CRFSuite - Là cài đặt CRF cho gán nhãn liệu - Sự huấn luyện gán nhãn nhanh, để đảm bảo mục đích cơng cụ phải huấn luyện sử dụng mơ hình CRFs nhanh - Định dạng liệu cho việc huấn luyện gán nhãn đơn giản: dòng chứa nhãn thuộc tính (đặc trưng) mục (item), dòng liên tục đại diện cho mục (một dòng trống biểu thị kết thúc tuần tự) Điều có nghĩa người dùng thiết kế tùy ý số đặc trưng cho mục - CRFsuite cài đặt số thuật toán huấn luyện như: Limited-memory BFGS L-BFGS, Averaged Perceptron, - CRFsuite tính độ xác, độ hồi tưởng, F1 mơ hình đánh giá liệu test - Định dạng tập tin mơ hình cách hiệu cho việc lưu trữ truy xuất file mơ hình CRFs: cách sử dụng Constant Quark Database (CQDB) b Tập tin định dạng huấn luyện kiểm tra Dữ liệu bao gồm tập mục (item sequences), mục trình bày dòng liên tục kết thúc dòng rỗng Một mục (item sequence) bao gồm loạt mục (items) có đặc trưng (nhãn thuộc tính) mơ tả dịng Bắt đầu dòng (item line) nhãn nó, theo sau thuộc tính phân cách ký tự TAB Vì vậy, tồn trích rút thơng tin tour du lịch, tác giả phải tổ chức liệu yêu cầu đầu vào cho công cụ CRFSuite c Huấn luyện kiểm tra - Để huấn luyện mơ hình CRFs từ tập liệu, gõ lệnh sau: 60 $ crfsuite learn [OPTIONS] [DATA] Trong đó: [DATA] tập file huấn luyện [OPTIONS] gồm có: - m: tạo file model CRFs - a: định thuật toán sử dụng huấn luyện: lbfgs, ap,pa - h: hướng dẫn Ví dụ: Tạo mơ hình CRFs từ tập tin train.txt, lưu trữ tập tin mơ hình crf.model: $ crfsuite learn –m crf.model train.txt - Để gán nhãn liệu cách sử dụng mơ hình CRFs, gõ lệnh sau: $ crfsuite tag [OPTIONS] [DATA] Trong đó: [OPTIONS] gồm: - m: đọc file model CRFs - t: báo cáo việc thực mơ hình liệu - q: kết gán thẻ ( hữu ích cho chế độ thử nghiệm) - h: hướng dẫn Ví dụ: $ crfsuite tag –m crf.model test.txt Đánh giá mơ hình CRFs (crf.model) liệu gán nhãn test $ crfsuite tag –m crf.modelsuite –qt test 61 4.2 Dữ liệu thực nghiệm Dữ liệu dùng để thử nghiệm hệ thống trích rút thơng tin tour du lịch 400 tin chứa nội dung nằm phần phần liên hệ trang chi tiết trang web du lịch như: http://www.dulichnamchau.vn/, http://vietravel.com.vn/vn.aspx, http://transviet.com.vn/, http://www.intour.com.vn/, http://dulichvinatravel.com.vn/ 4.3 Đánh giá hệ thống 4.3.1 Đánh giá hệ thống nhận dạng thực thể Các hệ thống nhận biết loại thực thể đánh giá chất lượng thơng qua ba độ đo: độ xác (precision), độ hồi tưởng (recall) độ đo F (F-messure) Ba độ đo tính tốn theo cơng thức sau: rec  correct correct  incorrect  mis sin ng (4.1) pre  correct correct  incorrect  spurious (4.2) F * pre * rec pre  rec 4.3.2 Kết thực nghiệm Hệ thống thử nghiệm theo phương pháp “5-fold cross validation” Theo phương pháp này, liệu thực nghiệm chia thành phần (Tức phần 80 tin), lấy phần để huấn luyện phần lại để kiểm tra, kết sau lần thực nghiệm ghi lại đánh giá tổng thể 62 Lần 1: Độ xác là: 87,86% Hình 4.1 : Lần thực nghiệm Lần 2: Độ xác là: 96,22% Hình 4.2 : Lần thực nghiệm 63 Lần 3: Độ xác là: 96,43% Hình 4.3 : Lần thực nghiệm Lần 4: Độ xác là: 96,16% Hình 4.4 : Lần thực nghiệm 64 Lần 5: Độ xác là: 91,63% Hình 4.5 : Lần thực nghiệm Biểu đồ lần thử nghiệm Độ xác Biểu đồ lần thử nghiệm 98 96 94 92 90 88 86 84 82 Lần thử nghiệm Hình 4.6: Biểu đồ lần thử nghiệm Ta nhận thấy sau lần thử nghiệm độ xác trung bình hệ thống 93,66% Hệ thống đạt độ xác hệ thống tự học đặc trưng liệu huấn luyện (từ, thể loại từ, hình dạng từ ngữ cảnh xung quanh từ) 65 4.4.Giao diện chương trình 4.4.1 Giao diện chương trình Hình 4.7: Giao diện chương trình Đây giao diện chương trình Hệ thống trích rút thơng tin tour du lịch thực q trình chính: - Để huấn luyện hệ thống: vào menu Chức chọn lệnh Huấn luyện - Để nhận dạng thực thể tour du lịch đưa vào CSDL: vào menu Chức chọn lệnh Nhận dạng - Để tra cứu thơng tin tour du lịch trích rút đưa vào CSDL: vào menu Chức chọn lệnh Tìm kiếm Tour 66 4.4.2 Giao diện huấn luyện Hình 4.8: Giao diện phần huấn luyện - Vì trình gán nhãn nhiều thời gian, nên tác giả xây dựng giao diện hỗ trợ trình gán nhãn - Sau gán nhãn xong, cần vào menu Huấn luyện, thực chức Lưu file gán nhãn để lưu lại tập ngữ liệu gán nhãn Sau đó, tiếp tục thực lệnh Huấn luyện để tiến hành huấn luyện mơ hình tạo file crf.model - Tương tự cho trình huấn luyện liệu Chú ý, lần huấn luyện file mơ hình crf.model tạo dựa đặc trưng lần huấn luyện trước cộng với đặc trưng tập văn vừa huấn luyện 67 4.4.3 Giao diện nhận dạng Hình 4.9: Giao diện phần nhận dạng - Đầu tiên nhập địa trang web chi tiết tour Mỗi địa url phân cách ký tự xuống dịng Sau đó, tiến hành vào menu Nhận dạng chọn lệnh Lấy nội dung từ web, lúc hệ thống tiến hành xử lý lấy nội dung từ tập địa trang web đuợc cung cấp đồng thời tiến hành nhận dạng thực thể tour du lịch nội dung lấy Sau đó, chọn lệnh Đưa thơng tin tour vào CSDL, để đưa thơng tin trích rút vào CSDL 68 4.4.4 Giao diện tìm kiếm CSDL Hình 4.10: Giao diện phần tìm kiếm CSDL Ở đây, với chức để xem kết mà hệ thống nhận dạng thực thể tin tour du lịch, nên tác giả xây dựng chức hỗ trợ Tìm kiếm Tour CDSL mà lưu trữ thơng tin trích rút (thực thể) tour du lịch, với chức tìm kiếm theo: tên điểm đến lượng thời gian tour 4.5 Tổng kết chương Trình bày mơi trường thực nghiệm, cách sử dụng công cụ CRFsuite việc huấn luyện để tạo tập tin mơ hình CRFs tốn trích rút thơng tin tour du lịch Hệ thống trích rút thơng tin tour du lịch đạt độ xác trung bình 93.66% (về thực nghiệm) 69 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Trong phạm vi nghiên cứu, số kết đạt sau: - Hiểu trích rút thơng tin cấu trúc hệ thống trích rút thơng tin nói chung, nghiên cứu phương pháp thủ công số phương pháp học máy sử dụng tốn trích rút thông tin - Nghiên cứu áp dụng mô hình CRFs vào việc xây dựng hệ thống có khả sinh tự động luật trích rút thơng tin dựa học máy, với liệu đầu vào tập trang web chi tiết tour du lịch, đầu sở liệu chứa thông tin tour du lịch - Hệ thống đạt độ xác 93,66% (quả thử nghiệm) Kiến nghị Tôi tiếp tục phát triển luận văn theo hướng sau: - Nghiên cứu kỹ thuật bóc tách liệu từ trang web như: phân tích mã HTML, so sánh khung mẫu,… để hỗ trợ cho trình lấy nội dung từ trang web cho hệ thống trích rút thơng tin - Nghiên cứu việc xử lý hòa nhập liệu đưa thơng tin trích rút vào sở liệu sử dụng độ đo cosin để xác định độ tương đồng trường thơng tin trích rút văn đầu vào với trường lưu sở liệu - Nghiên cứu phương pháp học bán giám sát áp dụng với mơ hình CRFs để hạn chế nhàm chán trình gán nhãn liệu huấn luyện 70 TÀI LIỆU THAM KHẢO [1] A.Berger, A.D.Pietra, and J.D.Pietra.A maximum entropy approach to natural langauge processing Computational Linguistics, 22(1):39-71, 1996 [2] A.McCallum, D.Freitag, and F Pereira Maximum entropy markov models for information extraction and segmentation In Proc Iternational Conference on Mechine Learning, 2000, pages 591-598 [3] A.Ratnaparkhi.A maximum entropy model for part-of-speech tagging.In Proc Emparical Methods for Natural Language Processing, 1996 [4] Andrew Borthwick (New York University-1999) A maximum entropy approach to Named Entity Recognition [5] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton, Department of Computer Science, University of Massachusetts Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences [6] Andrew Moore Hidden Markov Models Tutorial Slides [7] Appelt, D., 1999 An Introduction to Information Extraction Artificial Intelligence Communications 12 (3), 161–172 [8] Bikel, D., Schwartz, R., & Weischedel, R (1999) An algorithm that learns what’s in a name.Machine Learning 34 (1-3):211.231 [9] Charles Sutton (University of Edinburgh), Andrew McCallum (University of Massachusetts Amherst) An Introduction to Conditional Random Fields, 2010 [10] Cunningham, H (2003).“GATE, a General Architecture for Text Engineering,”Computers and the Humanities, vol 36, pp 223–254 [11] Cunningham, H., Maynard, D., Bontcheva, K & Tablan, V (2002) GATE: A framework and graphical development enviroment for robust NLP tools and applications In Proc Of the 40th Annual Meeting of the Association for Computational Linguistic (ACL 2002) 71 [12] Dong C.Liu and Jorge Nocedal On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528 [13] F.Sha and F.Pereira.Shallow parsing with conditional random fields In Proc Human Language Technology/ the Association for Computational Linguistics North American Chapter, 2003 [14] Frederik Hogenboom, Flavius Frasincar, Uzay Kaymak An Overview of Approaches to Extract Information from Natural Language Corpora, 2010 [15] Fuchun Peng, Andrew McCallum (Department of Computer Science, University of Massachusetts) Accurate Information Extraction from Research Papers using Conditional Random Fields [16] GuoDong Zhou, Jian Su Named Entity Recognition using an HMM-based Chunk Tagger [17] Hammersley, J., & Clifford, P (1971) Markov fields on finite graphs and lattices Unpublished manuscript [18] Hanna Wallach (University Of Edinburgh-2002) Efficient Training of Conditional Random Fields [19] Hieu Phan, Minh Nguyen, Bao Ho – Japan Advanced Institute of Science and Technology,Japan , and Susumu Horiguchi- Tokosu University, Japan Improving Discriminative Sequential Learning with Rare-but-Important Associations SIGKDD ’05 Chicago, II, USA, 2005 [20] J.Lafferty, A.McCallum, and F.Pereira.Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML, 2001 [21] Katharina Kaiser and Silvia Miksch Technology).Information Extraction A Survey, 2005 (Vienna University of 72 [22] Mayfield, J., McNamee, P and Piatko, C (2003).Named Entity Recognition using Hundreds of Thousands of Features, In: Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003 Morristown, NJ, USA: Association for Computational Linguistics (2003), p 184—187 [23] Nguyen, T.H.,&Cao, T.H (2007) VN-KIM IE:Automatic extraction of Vietnamese named-entities on the Web Journal of new Generation Computing, 25(3):277-292 [24] Rabiner.A tutorial on hidden markov models and selected applications in speech recognition In Proc the IEEE, 77(2):257-286, 1989 [25] Takeuchi, K and Collier, N (2002) “Use of Support Vector Machines in Extended Named Entity Recognition,” in Proceedings of the 6th Conference on Natural Language Learning (CoNLL-2002), pp 119–125 [26] Tjong, K.S E.F (2002): Introduction to the CoNLL-2002 shared task: Language-independent named entity recognition In Proc Of Sixth Conference on Natural Language Learning (CoNLL-2002), pp.155-158 [27] Tjong, K.S.E F., and De Meulder, F (2003) Introduction to the CoNLL- 2003 Shared Task: Language-Independent Named Entity Recognition Proc Conference on Natural Language Learning [28] Web site: http://nlp.stanford.edu/software/CRF-NER.shtml [29] Web site: http://www.loria.fr/~lehong/tools/vnTagger.php [30] Website: http://en.wikipedia.org/wiki/Hidden_Markov_model [31] Website: http://nlp.postech.ac.kr/research/previous_research/posbiotm/ [32] Website: http://www.chokkan.org/software/crfsuite/ [33] Website:http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceeding s/muc_7_toc.html Information about the seventh Message Understanding Conference ... ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN KHOA HỌC CƠNG NGHỆ VÀ MƠI TRƯỜNG NGUYỄN ĐĂNG BẮC TRÍCH RÚT THÔNG TIN DỰA TRÊN KỸ THUẬT HỌC MÁY Chuyên ngành: Công nghệ thông tin Mã số: CB101364 LUẬN VĂN THẠC SĨ KỸ... tên, trích rút thuộc tính thực thể, trích rút thơng tin mối quan hệ thực thể Việc nghiên cứu trích rút thơng tin chia thành hai hướng: tiếp cận dựa học luật thủ công tiếp cận kỹ thuật học máy. .. tập luật Với cách tiếp cận dựa kỹ thuật học máy thường dùng để xác định giá trị thuộc tính thực thể đoạn văn phức tạp Mục đích kỹ thuật học máy tốn trích rút thông tin tự động phát mô hình liệu,

Ngày đăng: 13/02/2021, 07:24

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[9] Charles Sutton (University of Edinburgh), Andrew McCallum (University of Massachusetts Amherst). An Introduction to Conditional Random Fields, 2010 [10] Cunningham, H. (2003).“GATE, a General Architecture for TextEngineering,”Computers and the Humanities, vol. 36, pp. 223–254

Sách, tạp chí

Tiêu đề:	GATE, a General Architecture for Text Engineering
Tác giả:	Charles Sutton (University of Edinburgh), Andrew McCallum (University of Massachusetts Amherst). An Introduction to Conditional Random Fields, 2010 [10] Cunningham, H
Năm:	2003

[25] Takeuchi, K. and Collier, N. (2002) “Use of Support Vector Machines in Extended Named Entity Recognition,” in Proceedings of the 6th Conference on Natural Language Learning (CoNLL-2002), pp. 119–125

Sách, tạp chí

Tiêu đề:	Use of Support Vector Machines in Extended Named Entity Recognition

[28] Web site: http://nlp.stanford.edu/software/CRF-NER.shtml [29] Web site: http://www.loria.fr/~lehong/tools/vnTagger.php[30]Website: http://en.wikipedia.org/wiki/Hidden_Markov_model

Link

[31] Website: http://nlp.postech.ac.kr/research/previous_research/posbiotm/

Link

[33] Website:http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_toc.html . Information about the seventh Message Understanding Conference

Link

[1] A.Berger, A.D.Pietra, and J.D.Pietra.A maximum entropy approach to natural langauge processing. Computational Linguistics, 22(1):39-71, 1996

Khác

[2] A.McCallum, D.Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation. In Proc. Iternational Conference on Mechine Learning, 2000, pages 591-598

Khác

[3] A.Ratnaparkhi.A maximum entropy model for part-of-speech tagging.In Proc. Emparical Methods for Natural Language Processing, 1996

Khác

[4] Andrew Borthwick (New York University-1999). A maximum entropy approach to Named Entity Recognition

Khác

[5] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton, Department of Computer Science, University of Massachusetts. Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences

Khác

[7] Appelt, D., 1999. An Introduction to Information Extraction. Artificial Intelligence Communications 12 (3), 161–172

Khác

[8] Bikel, D., Schwartz, R., & Weischedel, R. (1999). An algorithm that learns what’s in a name.Machine Learning 34 (1-3):211.231

Khác

[11] Cunningham, H., Maynard, D., Bontcheva, K. & Tablan, V. (2002). GATE: A framework and graphical development enviroment for robust NLP tools and applications. In Proc. Of the 40th Annual Meeting of the Association for Computational Linguistic (ACL 2002)

Khác

[12] Dong C.Liu and Jorge Nocedal. On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528

Khác

[13] F.Sha and F.Pereira.Shallow parsing with conditional random fields. In Proc. Human Language Technology/ the Association for Computational Linguistics North American Chapter, 2003

Khác

[14] Frederik Hogenboom, Flavius Frasincar, Uzay Kaymak. An Overview of Approaches to Extract Information from Natural Language Corpora, 2010

Khác

[15] Fuchun Peng, Andrew McCallum (Department of Computer Science, University of Massachusetts). Accurate Information Extraction from Research Papers using Conditional Random Fields

Khác

[16] GuoDong Zhou, Jian Su. Named Entity Recognition using an HMM-based Chunk Tagger

Khác

[17] Hammersley, J., & Clifford, P. (1971). Markov fields on finite graphs and lattices. Unpublished manuscript

Khác

[18] Hanna Wallach (University Of Edinburgh-2002). Efficient Training of Conditional Random Fields

Khác