1. Trang chủ
  2. » Luận Văn - Báo Cáo

Học mối quan hệ trong trích rút thông tin tiếng việt

117 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - CHỬ ĐĂNG ĐỊNH ĐỀ TÀI: HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT LUẬN VĂN THẠC SỸ NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: LÊ THANH HƯƠNG HÀ NỘI – 2010 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” LỜI CAM ĐOAN Tơi Chử Đăng Định – học viên lớp Cao học CNTT 2008-2010 xin cam kết: Luận văn tốt nghiệp Thạc sĩ cơng trình nghiên cứu thân tơi hướng dẫn TS Lê Thanh Hương Các kết luận văn tốt nghiệp trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày 29 tháng 10 năm 2010 Tác giả LVTN Chử Đăng Định LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn chân thành sâu sắc tới cô giáo TS Lê Thanh Hương tận tình hướng dẫn giúp đỡ trình làm luận văn Em chân thành cảm ơn thầy cô Viện Công nghệ Thông tin Truyền thông cung cấp kiến thức quý báu cho em năm học vừa qua Xin chân thành cảm ơn tác giả Lê Hồng Phương (tác giả công cụ gán nhãn từ loại tiếng Việt vnTagger) cho phép sử dụng có hỗ trợ kịp thời công cụ vnTagger Xin chân thành cảm ơn thành viên nhóm xử lý ngôn ngữ tự nhiên Viện Công nghệ Thông tin Truyền thơng đưa góp ý, nhận xét giải pháp kết đề tài Mặc dù em cố gắng hoàn thành luận văn phạm vi khả cho phép chắn khơng khơng thể tránh thiếu sót Em kính mong nhận thơng cảm bảo tận tình thầy bạn Hà Nội 10/2010 Học viên: Chử Đăng Định Lớp: Cao học CNTT 2008-2010 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .3 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ PHẦN MỞ ĐẦU 11 CHƯƠNG TỔNG QUAN VỀ TRÍCH RÚT THƠNG TIN VÀ CÁC MƠ HÌNH HỌC QUAN HỆ 14 1.1 Tổng quan trích rút thơng tin 15 1.1.1 Trích rút thông tin 15 1.1.2 Trích rút thơng tin thu thập thông tin 16 1.2 Kỹ thuật học quan hệ kiểu ký hiệu (symbolic) 17 1.2.1 Các vấn đề thiết kế giải thuật tổng thể 18 1.2.2 FOIL 20 1.2.3 GOLEM 23 1.2.4 CHILLIN 26 1.2.5 PROGOL 27 1.3 Các phương pháp học 28 1.4 Các nguồn lực xử lý ngôn ngữ tự nhiên 29 1.4.1 Phân tách từ vựng (Word Segmentation) 30 1.4.2 Gán nhãn từ loại (Part-of-speech tagger) 31 1.4.3 Từ điển từ vựng (Lexicon) 33 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” 1.4.4 Nhận dạng thực thể có tên (Named-Entity Recognition) 35 1.5 Kết chương 36 CHƯƠNG HƯỚNG TIẾP CẬN RAPIER CHO BÀI TOÁN TRÍCH RÚT THƠNG TIN .37 2.1 Biểu diễn luật 38 2.2 Giải thuật học 39 2.2.1 Các lựa chọn thiết kế giải thuật 39 2.2.2 Tổng quan giải thuật 41 2.2.3 Xây dựng tập luật khởi đầu 42 2.2.4 Cô đọng tập luật 43 2.2.5 Tiêu chuẩn đánh giá luật 48 2.2.6 Tính tốn mẫu khái quát hóa hai mẫu 51 2.2.7 Pha chuyên biệt hóa 61 2.3 Áp dụng phương pháp học tích cực với RAPIER 65 2.3.1 Lấy mẫu có lựa chọn 66 2.3.2 Áp dụng phương pháp lấy mẫu có lựa chọn vào RAPIER 67 Độ không chắn RAPIER 68 Trang bị khả học tăng cường cho RAPIER 69 2.4 Kết chương 70 CHƯƠNG ĐỀ XUẤT MƠ HÌNH RAPIER CHO TRÍCH RÚT THƠNG TIN TIẾNG VIỆT .72 3.1 Các điều chỉnh áp dụng mơ hình RAPIER với tiếng Việt 73 3.1.1 Công cụ tách từ tiếng Việt 73 3.1.2 Công cụ gán nhãn từ loại tiếng Việt 74 3.1.3 Cây ngữ nghĩa từ điển ngữ nghĩa tiếng Việt 74 3.2 Các cải tiến cho mơ hình 74 3.2.1 Tích hợp nhận dạng thực thể có tên 74 3.2.2 Sinh luật trích rút gần 77 3.2.3 Tùy biến độ rộng cửa sổ so khớp theo trường thông tin 78 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” 3.3 Kết chương 78 CHƯƠNG PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 79 4.1 Xác định yêu cầu 80 4.2 Phân tích thiết kế hệ thống 81 4.2.1 Thiết kế tổng thể hệ thống trích rút thông tin tiếng Việt 81 4.2.2 Chức tiền xử lý văn 83 4.2.3 Chức học luật 86 4.2.4 Chức trích rút thơng tin 91 4.2.5 Chức đánh giá luật 92 4.3 Kết chương 93 CHƯƠNG – CÀI ĐẶT MƠ HÌNH VÀ KIỂM THỬ KẾT QUẢ 94 5.1 Cài đặt chương trình 95 5.2 Phương pháp thực nghiệm 95 Các độ đo thực nghiệm 95 Các phiên thực nghiệm 96 5.3 Ngữ liệu thực nghiệm 97 5.4 Kết thực nghiệm 98 5.5 Đánh giá thực nghiệm 101 5.5.1 Về thời gian thực 101 5.5.2 Về công cụ tách từ gán nhãn từ loại 101 5.5.3 Về từ điển ngữ nghĩa tác vụ gán nhãn thực thể có tên 102 5.5.4 Về luật trích rút gần 103 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 104 TÀI LIỆU THAM KHẢO .106 PHẦN PHỤ LỤC 108 PHỤ LỤC - TẬP CÁC NHÃN TỪ LOẠI TIẾNG VIỆT ĐƯỢC SỬ DỤNG109 PHỤ LỤC - TẬP LUẬT KẾT QUẢ THỰC NGHIỆM 110 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT STT Từ viết tắt CFG Giải nghĩa Context Free Grammar Văn phạm phi ngữ cảnh filler FOIL Thông tin điền hay thơng tin cần trích rút First Order Inductive Learning Học quy nạp bậc Hidden Markov Model HMM Mô hình Markov ẩn Hệ trích rút thơng tin IE Information Extraction Trình logic quy nạp ILP Inductive Logic Programming Hệ thu thập thông tin IR Information Retrieval LGG Phép tổng qt hóa khái qt Least-general generalization literal Ký hiệu mệnh đề LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” STT Từ viết tắt Giải nghĩa 10 MUC Message Understanding Conferences 11 NER Named-Entity Recognition Nhận dạng thực thể có tên 12 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 13 POS 14 RAPIER Part of Speech - Từ loại Robust Automated Production of Information Extraction Rules Tự động linh hoạt sinh luật trích rút thơng tin 15 slot-filler 16 SVM Thơng tin cần trích rút trường Support Vector Machine Mơ hình máy vector hỗ trợ LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” DANH MỤC CÁC BẢNG Bảng 1.1: Đánh giá số hệ thống tách từ tiếng Việt 31 Bảng 5.1: Kết đo theo trường thông tin trường hợp có sử dụng luật trích rút gần .98 Bảng 5.2: Kết đo tổng thể thời gian thực trung bình trường hợp có sử dụng luật trích rút gần 99 Bảng 5.3: Kết đo theo trường thông tin trường hợp khơng sử dụng luật trích rút gần 99 Bảng 5.4: Kết đo tổng thể thời gian thực trung bình trường hợp khơng sử dụng luật trích rút gần .99 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Thu thập thông tin .16 Hình 1.2 Trích rút thông tin .16 Hình 1.3 Mối quan hệ IR, IE Full Text Understanding[3] 17 Hình 1.4: Giải thuật bao phủ FOIL 21 Hình 1.5: Bước “tìm mệnh đề” giải thuật FOIL 22 Hình 1.6: Hai trường hợp cụ thể mối quan hệ uncle 24 Hình 1.7: Mệnh đề LGG mệnh đề Hình 1.6 .24 Hình 1.8: Kết việc đơn giản hóa mệnh đề cách loại bỏ literal dư thừa .25 Hình 1.9: Giải thuật xây dựng mệnh đề GOLEM 25 Hình 1.10: Giải thuật gộp CHILLIN 27 Hình 2.1: Ví dụ mẫu ràng buộc luật .39 Hình 2.2: Giải thuật RAPIER 41 Hình 2.3: Giải thuật RAPIER để qui nạp luật trích rút .47 Hình 2.4: Một ví dụ việc khái quát hóa hai phần tử mẫu 54 Hình 2.5: Ví dụ việc khái quát hóa cặp hai mẫu độ dài .55 Hình 2.6: Hai mẫu khác độ dài Các đường thẳng các phần tử khác nhóm để khái quát hóa 56 Hình 2.7: Sáu cách có phần tử mẫu Hình 2.6 so sánh để khái quát hóa .57 Hình 2.8: Cách nhóm thu từ việc tìm so khớp xác phần tử mẫu dài với phần tử mẫu ngắn Hình 2.6 Khi phần tử giống ghép cặp, phần lại lại cách ghép nhóm 58 Hình 2.9: Khái qt hóa mẫu hai phần tử với mẫu khơng có phần tử 59 Hình 2.10: Khái qt hóa mẫu hai phần tử với mẫu có phần tử Vì mẫu B mẫu dạng danh sách có độ dài 3, khái qt hóa phải có độ dài .59 Hình 2.11: Giải thuật RAPIER để chuyên biệt hóa mẫu pre-filler luật 63 Hình 2.12: Giải thuật RAPIER để chun biệt hóa mẫu post-filler luật 64 Hình 2.13: Các pha giải thuật học RAPIER 65 Hình 3.1: Giải thuật gộp theo nhãn thực thể .76 Hình 4.1 Các chức hệ thống trích rút thơng tin vnRAPIER 81 Hình 4.2: Sơ đồ hệ thống trích rút thơng tin vnRAPIER 82 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” Ngồi ra, lựa chọn đầu công cụ gán nhãn từ loại có định dạng XML cơng cụ chưa xử lý triệt để ký tự đặc biệt dấu “&”, “” làm cho file XML đầu trở nên không hợp lệ Tuy nhiên, lỗi nhỏ dễ dàng khắc phục đoạn chương trình hậu xử lý file đầu 5.5.3 Về từ điển ngữ nghĩa tác vụ gán nhãn thực thể có tên Các bảng kê kết rõ phiên có sử dụng từ điển ngữ nghĩa gán nhãn thực thể có tên đem lại kết tốt so với phiên không sử dụng Tuy nhiên, có tác động việc gán nhãn thực thể có tên đáng kể cịn tác động từ điển ngữ nghĩa không rõ rệt Trong trường hợp khơng sử dụng luật trích rút gần đúng, phiên có sử dụng từ điển ngữ nghĩa có độ F 0.76 (có gán nhãn thực thể có tên) 0.46 (khơng gán nhãn thực thể có tên) Nếu khơng sử dụng từ điển ngữ nghĩa, giá trị 0.75 0.41 Sự tác động không rõ rệt từ điển ngữ nghĩa sơ khai, số lớp ngữ nghĩa cịn ít, đồng thời từ vựng từ điển phân vào lớp nghĩa chung chung Về tác vụ gán nhãn thực thể có tên, thực nghiệm cho thấy rõ tác vụ cần thiết việc trích rút thơng tin Ngồi việc đem lại độ xác bao phủ cao, tác vụ giúp cho tập luật gọn nhẹ số lượng luật mẫu, ràng buộc cấu thành luật Trong Bảng 5.3 liệt kê kết trường hợp không sử dụng luật gần ta thấy trường thông tin “lĩnh vực nghiên cứu” có độ bao phủ gần khơng gán nhãn thực thể có tên Trong có thực gán nhãn đạt độ bao phủ 0.75 Sự khác biệt sau gộp theo nhãn thự thể tiến hành khái qt hóa tồn ràng buộc dài dịng tên thực thể bỏ qua, cịn lại ràng buộc nhãn thực thể Tuy nhiên, thực nghiệm chủ yếu để đánh giá vai trò tác vụ gán nhãn thực thể có tên thực nghiệm tiến hành điều kiện lý tưởng, tức thực gán nhãn thực thể có tên tay với độ xác coi 100% Thực tế tốn khó khó nhận dạng xác thực thể có tên trường hợp trường thông tin “lĩnh vực nghiên cứu” 102 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” 5.5.4 Về luật trích rút gần Nhìn bảng kết ta dễ dàng nhận thấy sử dụng luật trích rút gần đem lại kết tốt hơn, độ bao phủ Kết đo theo trường thông tin cho thấy trường hợp không sử dụng luật trích rút gần khơng có tác vụ gán nhãn thực thể có tên (phiên vnRAPIER_WTS vnRAPIER_WT) trường có chuỗi giá trị dài quan lĩnh vực nghiên cứu khơng trích rút Bởi luật cụ thể sinh học trường hợp khái quát được, bao phủ ví dụ khác Khi áp dụng luật gần đúng, độ bao phủ đạt tới 0.42 với độ xác 0.84 Việc sinh luật trích rút gần rõ ràng cách giải dễ thực mà có hiệu định Tuy nhiên, gần nên luật làm giảm độ xác kết Vì luật nên sử dụng mà tồn luật áp dụng khơng thu kết Ngồi ra, điều quan luật so khớp theo tiêu đề, văn mà xuất lần tiêu đề đem lại kết trích rút sai Vì vậy, tùy lĩnh vực thơng tin áp dụng mà có nên sử dụng tập luật hay không 103 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Các kết đạt Trong luận văn này, tác giả nghiên cứu, đề xuất hướng tiếp cận học mối quan hệ tốn trích rút thơng tin tiếng Việt trình bày kết nghiên cứu thực nghiệm theo hướng tiếp cận tiến hành khoảng thời gian nghiên cứu gần tháng vừa qua với hỗ trợ Cô giáo, Tiến sĩ Lê Thanh Hương Đây hướng tiếp cận nghiên cứu, áp dụng để trích rút thơng tin tiếng Anh Khi áp dụng vào tiếng Việt, tác giả khai thác nguồn lực sẵn có tiếng Việt từ nghiên cứu công bố, đồng thời đưa số cải tiến cho mơ tích hợp tác vụ nhận dạng thực thể có tên (Named-Entity Recognition - NER) vào khâu tiền xử lý văn bản; bổ sung chức sinh luật trích rút gần với mục thơng tin trích rút có cấu trúc đặc biệt; bổ sung khả tùy biến độ rộng cửa sổ so khớp theo trường thơng tin cần trích rút Do thời gian có hạn nên tác giả chưa thể tự xây dựng mơ đun nhận dạng thực thể có tên cách tự động Thay vào đó, tác giả thực tác vụ tay để thực nghiệm nhằm đánh giá vai trò tác vụ nhận dạng thực thể có tên mơ hình Tuy kết thu từ thực nghiệm chưa đạt kỳ vọng nguồn lực sẵn có tiếng Việt cịn hạn chế, số ngữ liệu mẫu thu thập chưa nhiều cho thấy cải tiến tác giả phát huy hiệu định Những kết bước đầu đạt giúp khẳng định tính đắn tiềm hướng tiếp cận học mối quan hệ trích rút thơng tin tiếng 104 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” Việt mà tác giả đề xuất, tạo tiền đề cho định hướng nghiên cứu phát triển tác giả Định hướng nghiên cứu phát triển tiếp Trong thời gian tới tác giả dự kiến nghiên cứu, phát triển tiếp đề tài với số định hướng sau: ™ Nghiên cứu, xây dựng mô đun nhận dạng thực thể có tên tích hợp vào mơ hình tạo thành hệ thống liên hồn ™ Bổ sung ràng buộc phủ định: ràng buộc từ, nhãn từ loại, lớp ngữ nghĩa hay nhãn thực thể không xuất phần văn khớp với ràng buộc khẳng định luật ™ Nâng cao chất lượng thực nghiệm nữa: Tiến hành thực nghiệm mơ hình với nhiều lĩnh vực thông tin khác Với lĩnh vực thu thập số lượng ví dụ mẫu đủ lớn, có sức thuyết phục ™ Nghiên cứu số hướng tiếp cận khác cho tốn, ví dụ: mơ hình SRV, RHB+, WHISK… Khai thác điểm mạnh hướng tiếp cận đó, từ cải tiến thêm cho mơ hình Bên cạnh kết đạt được, vấn đề để ngỏ lại sẽ, định hướng nghiên cứu tiếp tương lai 105 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” TÀI LIỆU THAM KHẢO [1] Mary Elaine Califf, Raymond J Mooney (2003), Bottom-Up Relational Learning of Pattern Matching Rules for Information Extraction, Journal of Machine Learning Research (2003), pp 177-210 [2] Mary Elaine Califf (1998), Relational Learning Techniques for Natural Language Information Extraction, PhD Thesis, Artificial Intelligence Laboratory - The University of Texas at Austin [3] Tianhao Wu, Stephen V Zanias, William M.Pottenger (2007), A Software System for Information Extraction in Criminal Justice Information Systems, U.S Department of Justice [4] Xiao Jing (2004), Global Rule Induction For Information Extraction, PhD Thesis, Graduate School of National University Of Singapore [5] Nguyễn Bá Đạt, Hoàng Hữu Sơn, Phạm Bảo Sơn, Nguyễn Phương Thái (2010), Named Entities Recognition for Vietnamese, Proceedings of the second Asian Conference on Intelligent Information and Databases Systems, Vietnam 2010, Springer [6] Phan Xuân Hiếu (2006), JVnTagger: Công cụ gán nhãn từ loại tiếng Việt dựa Conditional Random Fields Maximum Entropy, Đề tài KC01.01/0610 [7] Nguyễn Thanh Hùng (2006), Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet, Đại học Quốc gia Tp.HCM [8] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt, Kỷ yếu Hội thảo ICT.rda’03, Hà Nội [9] Nguyễn Trọng Khánh (2007), Recognition Vietnamese Name Entity By method Maximum Entropy, Luận văn Thạc sĩ Công nghệ thông tin, Viện Tin học Pháp ngữ (IFI) 106 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” [10] Đỗ Bá Lâm, Lê Thanh Hương (2008), Xây dựng hệ thống phân tích cú pháp tiếng Việt sử dụng văn phạm HPSG, Đề tài Nhà nước “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” mã số KC01.01/06-10 [11] Lê Hồng Phương, Azim Roussanaly, Nguyễn Thị Minh Huyền, Mathias Rossignol (2010), An empirical study of maximum entropy approach for partof-speech tagging of Vietnamese texts, Traitement Automatique des Langues Naturelles - TALN 2010, Montreal - Canada [12] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Azim Roussanaly, Hồ Tường Vinh (2008), A Hybrid Approach to Word Segmentation of Vietnamese Texts, Language and Automata Theory and Applications, Lecture Notes in Computer Science, Springer Verlag, vol 5196, p 240-249 [13] Phạm Thị Xuân Thảo, Trần Quốc Trí, Ai Kawazoe, Đinh Điền, Nigel Collier (2007), Named Entity Recognition in Vietnamese documents, Progress in Informatics, No.4 March 2007, p 5-13 [14] Đinh Quang Thắng, Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Cẩm Tú, Mathias Rossignol, Vũ Xuân Lương (2008), Word segmentation of Vietnamese texts: a comparison of approaches, Proceedings of the 6th Language Resources and Evaluation Conference LREC 2008 [15] Nguyễn Cẩm Tú, Phan Xuân Hiếu, Hà Quang Thụy (2007), Named Entity Recognition in Vietnamese Free Text and Web Documents Using Conditional Random Fields, The Workshop on Asian Applied NLP and language resource development, March 13, 2007, Sirindhorn International Institute of Technology, Pathumthani - Thailand [16] Nguyễn Cẩm Tú, Nguyễn Trung Kiên, Phan Xuân Hiếu, Nguyễn Lê Minh, Hà Quang Thụy (2006), Vietnamese Word Segmentation with CRFs and SVMs: An Investigation, The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20) Wuhan – China, November 13/2006, p 215-222 107 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” PHẦN PHỤ LỤC NỘI DUNG: PHỤ LỤC 1: Tập nhãn từ loại tiếng Việt PHỤ LỤC 2: Tập luật kết thực nghiệm 108 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” PHỤ LỤC TẬP CÁC NHÃN TỪ LOẠI TIẾNG VIỆT ĐƯỢC SỬ DỤNG Phụ lục liệt kê danh mục nhãn từ loại tiếng Việt sử dụng thực nghiệm (công cụ vnTagger) Np - Proper noun Nc - Classifier Nu - Unit noun N - Common noun V - Verb A - Adjective P - Pronoun R - Adverbe L - Determiner M - Numeral E - Preposition C - Subordinating conjunction CC - Coordinating conjunction I - Interjection T - Auxiliary, modal words Y - Abbreviation Z - Bound morphemes X - Unknown EOS 109 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” PHỤ LỤC TẬP LUẬT KẾT QUẢ THỰC NGHIỆM Đây số luật tiêu biểu tập luật học từ tập ngữ liệu thực nghiệm Thông tin nhà khoa học người Việt Phiên có gán nhãn thực thể có tên: rule(viet-sciences, tên, 84, 2, [], [item(_,'name')], []) rule(viet-sciences, tên, 17, 0, [item(['là','.',''],_)], [item(_,['np','name'])], [item(_,['',',']),item(['hiện','khoa vật','trường'],_)]) rule(viet-sciences, tên, 47, 0, [item('tên','n','a2b'),item([':','là'],_)], [item(_,['np','name'])], [item(_,['',','])]) rule(viet-sciences, số-phone, 51, 0, [item(_,_),item(':',':')], [item(_,'phone')], [item(_,_),item(_,_), list(2,_,_),item(_,['e',':'])]) rule(viet-sciences, số-phone, 56, 1, [item(['cơ quan','tel','đt','+84 38682595','điện thoại','mobile'],_),item(_,_)], [item(_,['m','phone'])], [item(_,['','.'])]) rule(viet-sciences, số-phone, 37, 0, [item(['điện thoại','phone'],_),item(':',':')], [item(_,'phone')], [item(_,['.','']),item(_,_)]) rule(viet-sciences, số-phone, 48, 0, 110 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” [item(':',':')], [item(_,'phone')], [item('',''),item(_,_),item([':','thư'],_)]) rule(viet-sciences, số-phone, 40, 0, [item(['mobile','điện thoại'],'n'),item(':',':')], [item(_,['m','phone'])], [item('','')]) rule(viet-sciences, số-phone, 43, 0, [item(['mobile','điện thoại'],'n'),item(':',':')], [item(_,['m','phone'])], [item(_,['','.'])]) rule(viet-sciences, học-hàm-học-vị, 7, 0, [item(_,['n','name']),item(_,['v',''])], [item(_,'diploma')], []) rule(viet-sciences, học-hàm-học-vị, 17, 0, [item(_,['',':'])], [item(_,'diploma')], [item(_,['name',''])]) rule(viet-sciences, học-hàm-học-vị, 6, 0, [item(['là','','chức danh'],_)], [item(['nghiên cứu sinh','phó giáo sư'],_)], []) rule(viet-sciences, học-hàm-học-vị, 5, 0, [item(_,['n','np']),item(['của','và'],_,'b6')], [item(['pgs ts ','tiến sĩ'],_)], []) rule(viet-sciences, email, 69, 0, [item(':',':')], [item(_,'email')], [list(2,['thecuong [ at ] gmail.org','',','],_),item(_,['','n','np'])]) rule(viet-sciences, email, 9, 0, [item(_,['p','np']),list(2,_,_),item(':',':')], [item(_,['n','email'])], [item('',''),item(['năng lực','lĩnh vực'],'n')]) rule(viet-sciences, email, 43, 1, [item(['website','email'],'n'),item(':',':')], [item(_,['m','email'])], [item(_,_),list(2,_,_),item(_,[':','n','x','m'])]) rule(viet-sciences, email, 29, 0, [item(_,['',':']),item(_,_), item(_,_),item(['cuongpt [ at ] ewi.tudelft.nl','email'],_),item(_,_)], 111 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” [item(_,'email')], [item(_,['','cc'])]) rule(viet-sciences, email, 36, 0, [], [item(_,'email')], [item('',''),item(_,['m','n'])]) rule(viet-sciences, email, 60, 0, [item(['email','website'],'n'),item(':',':')], [item(_,_)], [item('','')]) rule(viet-sciences, cơ-quan, 7, 0, [item(_,['v',''])], [item(_,'organization'),item(',',','),item('trường đh bách khoa hà nội','organization')], []) rule(viet-sciences, cơ-quan, 5, 0, [item(_,['','n']),item(_,_),list(2,_,_)], [item(_,'organization'),item(',',','),item(['đại học quốc gia hồ chí minh','đại học bách khoa hà nội'],'organization')], [item('','')]) rule(viet-sciences, cơ-quan, 9, 0, [item(_,['position','n']),item(_,_)], [item(_,'organization'),item(',',','),item(['trường đh bách khoa hà nội','đại học vermont'],'organization')], []) rule(viet-sciences, cơ-quan, 3, 0, [item(_,['','e'])], [item(_,'organization'),list(3,_,_),item(_,'organization')], [item(_,['','.'])]) rule(viet-sciences, chức-vụ, 12, 0, [list(2,_,_)], [item(['giảng viên','trợ giảng'],'position')], [item(_,_),item(_,[',','organization'])]) rule(viet-sciences, chức-vụ, 14, 0, [item(_,['v',':'])], [item(['giảng viên','giám đốc dự án , trung tâm kỹ thuật sản xuất , cadiff university'],_)], [item(_,['e','.'])]) rule(viet-sciences, chức-vụ, 8, 0, [], [item(['giảng viên','giảng viên , gđ trung tâm kh & cn nano'],'position')], [item(_,['e',''])]) rule(viet-sciences, chức-vụ, 4, 0, [item(['hành chính','2009'],_),item(':',':')], 112 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” [item(['giảng viên','nghiên cứu viên'],_)], []) rule(viet-sciences, chức-vụ, 7, 0, [item(_,_,'b3'),list(2,_,_)], [item('giảng viên','position')], []) rule(viet-sciences, chức-vụ, 15, 0, [item(_,['','v'])], [item(['trợ giảng','giảng viên'],_)], [item(_,[',','e'])]) rule(viet-sciences, chức-vụ, 21, 0, [item('là','v','b3')], [item(_,'position')], []) rule(viet-sciences, chức-vụ, 11, 0, [item(_,['n','organization']),item(_,_)], [item(_,'position')], [item(_,_),item(_,['n',',']),item(_,[':','organization'])]) rule(viet-sciences, chức-vụ, 7, 0, [item(_,['n','r']),item(_,[':','v'])], [item(['giám đốc dự án , trung tâm kỹ thuật sản xuất , cadiff university','giảng viên'],_)], [list(2,_,_),item(_,['np','.']),item(_,'np')]) rule(viet-sciences, chức-vụ, 11, 0, [list(2,_,_)], [item(['giảng viên','phó trưởng môn'],'position')], [item(_,_),item(_,['n','organization'])]) rule(viet-sciences, chức-vụ, 22, 0, [item(_,['v',''])], [item(_,'position')], []) rule(viet-sciences, chức-vụ, 12, 0, [item(_,['n','name']),item(_,_)], [item(_,'position')], [item(_,_),item(_,_),item(_,[':','organization'])]) rule(viet-sciences, chức-vụ, 3, 0, [], [item(_,'position'),item(_,_),item(_,'position')], []) rule(viet-sciences, chức-vụ, 9, 0, [item('đang','r','b1'),item('là','v','b3')], [item(['trợ giảng','giảng viên'],_)], []) rule(viet-sciences, các-lĩnh-vực-nghiên-cứu, 200, 0, 113 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” [], [item(_,'research')], []) rule(viet-sciences, các-lĩnh-vực-nghiên-cứu, 3, 0, [], [item('lý thuyết','n'),item(_,_), item(_,['n','cc']),item(_,['a','v'])], []) Phiên khơng có gán nhãn thực thể có tên: rule(viet-sciences, tên, 8, 0, [item('tên','n','a2b'),item(['là',':'],_)], [item(_,'np')], [item([',','('],_)]) rule(viet-sciences, tên, 45, 0, [item(['olap','tên'],_),item(_,['-',':'])], [item(_,'np')], [item(_,[',',''])]) rule(viet-sciences, tên, 12, 0, [item(['của','là'],_,'b6')], [item(_,'np')], [item(['!','đến'],['!','v'])]) rule(viet-sciences, tên, 29, 1, [item(_,['np','n'],'b'),item('.','.')], [item(_,'np')], [item('','')]) rule(viet-sciences, số-phone, 6, 0, [item(['phone','tel'],_),item(':',':')], [item(_,'m')], [item(_,[',',''])]) rule(viet-sciences, số-phone, 8, 0, [item(_,['n','']),item(['cơ quan','mobile'],'n'),item(':',':')], [item(_,'m')], [item('',''),item(_,['n','m'])]) rule(viet-sciences, số-phone, 17, 0, [item('điện thoại','n'),item(':',':')], [item(_,'m')], [item('','')]) rule(viet-sciences, email, 55, 0, [item(['e-mail','email'],_),item(':',':')], 114 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” [item(_,_)], [item('','')]) rule(viet-sciences, email, 37, 1, [item('email','n'),item(':',':')], [item(_,['n','np'])], [item(['','hoặc'],_)]) rule(viet-sciences, email, 9, 0, [item('website','n','b5e'),item(':',':')], [item(_,'n')], []) rule(viet-sciences, email, 7, 0, [item(['mail','e.mail'],_),item(':',':')], [item(_,_)], [item('','')]) rule(viet-sciences, cơ-quan, 7, 0, [], [item('khoa vật','np'),item('lý','n','a1a'), item('-','-'),item('đhsphn','np')], []) rule(viet-sciences, cơ-quan, 3, 0, [], [item('bộ mơn','n'),item(_,_), list(3,_,_),item(',',','),item('khoa cơng','np'), item('nghệ','n'),item('hố học','n'),item(',',','), item('trường đại','np'),item('học','v'),item('bách khoa hà nội','np')], []) rule(viet-sciences, chức-vụ, 7, 0, [item(_,[':','v'])], [item('giảng viên','n')], [item(['','trường'],_)]) rule(viet-sciences, học-hàm-học-vị, 15, 0, [item(['2','phong'],_),item(['luận án','chức danh'],'n')], [item(['tiến sĩ','phó giáo sư'],_)], []) rule(viet-sciences, học-hàm-học-vị, 9, 0, [item(['','hồn thành'],_),item(['-','chương trình'],_)], [item('tiến sĩ','n')], [list(2,_,_),item(_,['n','m'])]) rule(viet-sciences, học-hàm-học-vị, 5, 0, [list(2,_,_),list(2,_,_)], [item(['tiến sĩ','nghiên cứu sinh'],'n')], 115 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” [item('tại','e','b6'),item(_,_),item(_,['np','n'])]) rule(viet-sciences, học-hàm-học-vị, 9, 0, [item(['bảo vệ','tôi'],_),item(['luận án','hiện'],'n')], [list(2,_,_),item('tiến sĩ','n')], []) rule(viet-sciences, học-hàm-học-vị, 4, 0, [item([':','sau'],_)], [item(['ts','tiến sĩ'],'n')], [item(['','tại'],_)]) 116 ... SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” CHƯƠNG TỔNG QUAN VỀ TRÍCH RÚT THƠNG TIN VÀ CÁC MƠ HÌNH HỌC QUAN HỆ NỘI DUNG: 1.1 Tổng quan trích rút thơng tin 1.2 Kỹ... CHƯƠNG TỔNG QUAN VỀ TRÍCH RÚT THƠNG TIN VÀ CÁC MƠ HÌNH HỌC QUAN HỆ 14 1.1 Tổng quan trích rút thông tin 15 1.1.1 Trích rút thơng tin 15 1.1.2 Trích rút thơng tin thu... thuật học mối quan hệ dựa so khớp mẫu – mơ hình RAPIER 36 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THƠNG TIN TIẾNG VIỆT” CHƯƠNG HƯỚNG TIẾP CẬN RAPIER CHO BÀI TỐN TRÍCH RÚT

Ngày đăng: 27/02/2021, 23:53

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w