Trích rút thông tin từ dữ liệu WEB cá nhân Trích rút thông tin từ dữ liệu WEB cá nhân Trích rút thông tin từ dữ liệu WEB cá nhân luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHAN ĐỨC MINH TRÍCH RÚT THƠNG TIN TỪ DỮ LIỆU WEB CÁ NHÂN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ THANH HƯƠNG HÀ NỘI – 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHAN ĐỨC MINH TRÍCH RÚT THƠNG TIN TỪ DỮ LIỆU WEB CÁ NHÂN CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ THANH HƯƠNG HÀ NỘI – 2009 LỜI CAM ĐOAN Tơi cam đoan tồn nội dung luận văn tơi viết cơng sức nghiên cứu tìm hiểu thân Tất nội dung trích dẫn, tham khảo sử dụng lại thông tin tin cậy báo tạp chí có uy tín giới Hà Nội, ngày tháng năm 2009 Tác giả Luận văn Phan Đức Minh LỜI NÓI ĐẦU Đầu tiên, Tơi xin bày tỏ lịng biết ơn tới TS Lê Thanh Hương giúp thời gian vừa qua Cơ sẵn lịng cung cấp tài liệu tham khảo nhiệt tình gợi ý phương pháp làm luận văn cho Thứ hai, xin cảm ơn bạn đồng nghiệp học cao học CNTT Đại học Bách Khoa Hà Nội trao đổi thêm cách thức nội dung trong q trình thực luận văn Cuối cùng, tơi xin gửi lời cảm ơn tới cha mẹ anh trai gia đình tơi động viên, khuyến khích tơi hoàn thành tốt luận văn MỤC LỤC LỜI CAM ĐOAN LỜI NÓI ĐẦU .2 MỤC LỤC .3 DANH MỤC CHỮ VIẾT TẮT .5 DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG CHƯƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề .8 1.2 Mục đích nghiên cứu 10 1.3 Đối tượng nghiên cứu 11 1.4 Phạm vi nghiên cứu .11 1.5 Ý nghĩa khoa học thực tiễn đề tài 12 CHƯƠNG 2: NỀN TẢNG VÀ CÁC HƯỚNG NGHIÊN CỨU LIÊN QUAN 13 2.1 Một số khái niệm 13 2.1.1 Khái niệm trích rút thơng tin 13 2.1.1.1 Phân đoạn .14 2.1.1.2 Phân loại kết hợp .14 2.1.1.3 Phân cụm 15 2.1.2 Các kiểu trích rút thông tin 15 2.2 Các bước thực hệ thống trích rút thơng tin .16 2.3 Một số cách tiếp cận hệ thống trích rút thơng tin 21 2.3.1 Phương pháp thủ công 21 2.3.2 Phương pháp tự động (học máy) 22 2.3.3 Cách tiếp cận mơ hình đồ thị 23 2.3.3.1 Mơ hình Markov ẩn (HMM) 23 2.3.3.2 Mơ hình Markov Entropy cực đại (MEMM) 26 2.3.3.3 Trường ngẫu nhiên điều kiện (CRF) 27 2.3.4 Đánh giá cách tiếp cận liên quan 30 CHƯƠNG 3: CÁC BÀI TỐN CON TRONG TRÍCH RÚT THƠNG TIN 35 3.1 Bài tốn trích rút dựa xây dựng mẫu .35 3.1.1 Xây dựng mẫu thủ công .35 3.1.2 Xây dựng mẫu tự động 41 3.2 Bài tốn trích rút dựa luật 42 3.2.1 Luật gán nhãn .43 3.2.2 Luật ngữ cảnh 44 3.2.3 Luật hiệu chỉnh 45 3.2.4 Khái quát luật .46 3.3 Bài tốn trích rút dựa phân loại 46 3.4 Bài tốn trích rút dựa gán nhãn 48 CHƯƠNG 4: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 49 4.1 Kiến trúc hệ thống .49 4.2 Các chức hệ thống 51 4.2.1 Mô-đun phân vùng văn 51 4.2.2 Mơ-đun gán nhãn phân tích từ vựng 52 4.2.3 Mô-đun học 54 4.2.4 Mô-đun nhận dạng thực thể định danh 56 4.2.5 Mô-đun loại bỏ nhập nhằng 57 4.2.6 Mô-đun đồng tham chiếu .59 4.3 Hệ thống trích rút thơng tin dùng CRF 59 4.3.1 Suy diễn tham số cực đại khả 60 4.3.2 Quy nạp đặc trưng mơ hình CRF 60 4.3.3 Quy nạp mơ hình CRF cấu trúc tùy ý 61 4.3.4 Suy diễn đặc trưng cho chuỗi tuyến tính CRF .62 4.3.5 Lập trình Động .63 4.3.6 Huấn luyện mơ hình CRF 64 CHƯƠNG 5: CÀI ĐẶT VÀ ĐÁNH GIÁ HỆ THỐNG 66 5.1 Cài đặt ứng dụng 66 5.2 Giới thiệu ứng dụng trích rút thơng tin StanfordCRF 66 5.3 Thực huấn luyện kiểm thử 68 5.3 Đánh giá kết 70 5.3.1 Dữ liệu 70 5.3.2 Các tiêu chí đánh giá 71 5.3.3 Kết thử nghiệm 73 5.3.4 Đánh giá kết 75 CHƯƠNG 6: KẾT LUẬN 77 6.1 Các kết đạt 77 6.2 Hướng phát triển 77 TÀI LIỆU THAM KHẢO 78 TÓM TẮT LUẬN VĂN 80 ABSTRACT OF THESIS 81 DANH MỤC CHỮ VIẾT TẮT Chứ viết Chữ đầy đủ Giải nghĩa tắt ADJP Adjective phrase Cụm tính từ ADVP Adverb phrase Cụm phó từ Coreference resolution Phân giải đồng tham chiếu Conjunction phrase Cụm liên từ Conditional random fields Trường ngẫu nhiên điều kiện HMM Hidden markov model Mơ hình Markov ẩn IE Information extraction Trích rút thơng tin Maximum entropy markov Mơ hình Markov entropi cực model đại Message Understanding Hội nghị Hiểu Văn CO CONJP CRF MEMM MUC Conferences Named entity recognition Nhận thực thể định danh NE Named entity Thực thể định danh NP Noun phrase Cụm danh từ POS Part of speech Từ loại PP Prepositional phrase Cụm giới từ ST Scenario Template Mẫu kịch TE Template Element Phần tử mẩu TR Template Relation Quan hệ mẫu VP Verb phrase Cụm động từ NER DANH MỤC CÁC HÌNH Hình 2.1 Các mơ-đun hệ thống trích rút thông tin 17 Hình 2.2 Cây phân tích từ loại .19 Hình 2.3 Cấu trúc đồ thị phụ thuộc cho HMMs 24 Hình 2.4 Sơ đồ kiến trúc tổng quát HMM ban đầu 24 Hình 2.5 Mơ hình Markov ẩn cho nhận dạng thực thể định danh 25 Hình 2.6 Cấu trúc đồ thị phụ thuộc cho MEMMs .26 Hình 2.7 Cấu trúc đồ thị CRF có cấu trúc chuỗi 28 Hình 2.8 Trích rút quan hệ gán nhãn chuỗi .29 Hình 2.9 Mơ hình CRF cho nhận dạng thực thể định danh 29 Hình 2.10 Kết so sánh CRF, MEMM HMM 31 Hình 2.11 Cấu trúc đồ thị HMMs,MEMMs, CRFs 31 Hình 2.12 Bộ thu nhận trạng thái hữu hạn cho phân tích nơng hai câu .33 Hình 3.1 Sơ đồ trích rút giá trị thuộc tính dựa mẫu luật ngơn ngữ 36 Hình 3.2 Một nút khái niệm AutoSlog .42 Hình 3.3 Ví dụ trích rút thơng tin phân loại 47 Hình 4.1 Kiến trúc hệ thống trích rút thông tin 49 Hình 5.1 Giao diện hệ thống khởi tạo .67 Hình 5.2 Chức nhận dạng thực thể định danh theo phương pháp CRF 68 DANH MỤC CÁC BẢNG Bảng 2-1 Kết thí nghiệm so sánh HMMS va MEMM 34 Bảng 2-2 Kết nhiệm vụ gán nhãn từ loại 34 Bảng 3-1 Các mẫu ví dụ thu cách tiếp cận trích rút mẫu tự động 41 Bảng 3-2 Ví dụ luật gán nhãn khởi tạo 44 Bảng 3-3 Luật ngữ cảnh thêm nhãn vào câu (với tri thức NLP kết hợp) 44 Bảng 3-4 Luật hiểu chỉnh thay đổi nhãn từ vị trí sai đến vị trí 45 Bảng 3-5 Các luật khái quát kết hợp với tri thức NLP kết hợp 46 Bảng 4-1 Các đặc trưng nhị phân 55 Bảng 4-2 Trích rút thực thể dịnh danh tiếng Anh có suy diễn không suy diễn 63 Bảng 5-1 Thống kê khái quát tập liệu huấn luyện .70 Bảng 5-2 Bảng liệu gồm 18 trường thuộc tính .71 Bảng 5-3 Hiệu hệ thống StanfordCRF với liệu .74 Bảng 5-4 Hiệu hệ thống StanfordCRF theo thực thể 74 Bảng 5-5 Độ xác CRFs thay đổi theo vịng lặp 75 Bảng 5-6 Thống kê kết thử nghiệm 76 CHƯƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề Trong năm năm gần gần đây, lĩnh vực xử lỷ ngôn ngữ tự nhiên ngày phát triển Nhưng để tận dụng hết lợi ích khơng phải làm Đề tài sử dụng công nghệ trích rút thơng tin xử lý ngơn ngữ tự nhiên để xây dựng hệ thống trích rút thơng tin từ liệu web cá nhân Trích rút thơng tin toán phổ biến quan trọng, áp dụng tìm kiếm thu thập thơng tin nhiều lĩnh vực khác nhau, cung cấp thơng tin hữu ích giúp cho việc định cho cá nhân hay tổ chức cách nhanh chóng Bài tốn trích rút thơng tin từ liệu web cá nhân khía cạnh tốn trích rút thơng tin Các thơng tin trích rút từ đơn giản họ tên, ngày sinh, nghề nghiệp, nơi làm việc, chuyên môn, thông tin phức tạp hướng nghiên cứu, báo cơng bố… Đã có nhiều báo viết việc trích rút thơng tin từ website cá nhân trích rút lý lịch cá nhân Một vấn đề đặt việc trích rút liên quan đến văn phi cấu trúc, viết theo lối tự nên khó cho trích rút xác hồn tồn Trích rút tự động giúp ta thu thập nhiều thông tin hơn, đưa vào sở liệu Dữ liệu chắt lọc, lưu vào sở liệu sử dụng sau Hoặc truy cập tìm kiếm trực tuyến thơng qua ứng dụng web Để giải toán có nhiều phương pháp thực nghiệm nhằm đánh giá độ xác cho tốn cụ thể Tiêu biểu số phương pháp trích rút mơ hình Markov ẩn (HMM), hay mơ hình Markov entropy cực đại (MEMM) phương pháp mơ hình trường ngẫu nhiên điều kiện (CRF) Trong luận văn 68 Cửa sổ nhận dạng thực thể mặc định Sau ta mở file liệu cần nhận dạng thực thể từ mục File->Open File nhận dạng file txt html Hoặc lấy liệu từ trang web trực tuyến cách vào mục File->URL nhập địa trang web cần trích rút thơng tin Sau ta thực phân loại thuộc tính theo trường xây dựng sẵn cách nhấn vào nút thực Hệ thống bôi màu khác cho thực thể theo trường ta thực đánh giá kết trích rút Hình 5.2 Chức nhận dạng thực thể định danh theo phương pháp CRF 5.3 Thực huấn luyện kiểm thử Ở bước tiền xử lý, cần phải chuyển đổi văn thành văn chứa token dòng, sử dụng câu lệnh command sau 69 với file đầu vào file văn *.txt * html file đầu token (*.tok) Câu lệnh có dạng: java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer 001.html > 001.tok Chương trình huấn luyện thành công đưa thông báo “PTBTokenizer tokenized 1354 tokens at 2880.85 tokens per second” Giả sử muốn xây dựng hệ thống nhận dạng thực thể cho tập văn trang web cá nhân Chúng ta cần thực bước huấn luyện liệu trước tiên Để huấn luyện mơ hình CRF với tốn trích rút thơng phải chuẩn bị liệu tổ chức sau: + Bộ liệu huấn luyện thô với lớp (cá nhân riêng biệt) gồm thư mục tương ứng với lớp đó, thư mục chứa liệu gồm nhiều file html liệu web cá nhân + Bộ liệu kiểm thử thô lớp cá nhân riêng biệt gồm thư mục tương ứng với lớp Thư mục chứa liệu có định dạng tương tự liệu huấn luyện, liệu kiểm thử liệu huấn luyện theo tỷ lệ đinh Tỷ lệ ảnh hưởng đến hiệu đánh giá hệ thống với vòng lặp với lượng liệu khác Tập liệu huấn luyện down đây: http://nlp.uned.es/weps/weps2/WePS2_AE_training.zip 70 5.3 Đánh giá kết 5.3.1Dữ liệu Tập văn huấn luyện thử nghiệm sử dụng cho luận văn lấy thủ công từ trang web cá nhân người Việt Nam làm CNTT thơng qua máy tìm kiếm Nó bao gồm danh sách trang web lưu trữ dạng HTML Các website tài liệu bán cấu trúc với trường thông tin Tên (Name), Quốc tịch (Nationality), Ngày sinh (Birthday), Nơi công tác (Affiliation), Nghề nghiệp (Occupation), Chuyên môn (Major), Địa Email, Số điện thoại, Trang web cá nhân (Homepage), … Ở liệu thống kê tập văn huấn luyện Số lượng cá nhân (lớp) cần trích rút (file) 49(8) Số lượng trang web huấn luyện (file) 3557(100) Dữ liệu nhiều cá nhân (trang) 404 Dữ liệu cá nhân (trang) Dữ liệu trung bình cá nhân (trang) ~73 Kích thước trang nhỏ (KB) Kích thước trang lớn (KB) 2662 Kích thước trung bình trang (KB) 87 Bảng 5-1 Thống kê khái quát tập liệu huấn luyện Mỗi lớp liệu cá nhân gồm nhiều thư mục liệu đánh số từ 999 Trong thư mục trang web cá nhân thu thập tay máy tìm kiếm File liệu test gồm 18 trường thuộc tính sau gồm hai cột Cột thứ lớp thuộc tính cột thứ hai giá trị thuộc tính Trong luận văn 71 thực trích rút trường thc tính là: tên cá nhân (Name), quan trực thuộc (Organization), nơi công tác (Location) Bảng 5-2 Bảng liệu gồm 18 trường thuộc tính Mơ tả liệu Website cá nhân viết vơ số định dạng (ví dụ bảng cấu trúc văn tự do), theo nhiều ngôn ngữ nhiều kiểu file định dạng (trong luận văn xem xét định dạng text html) Trong luận văn sử dụng ngôn ngữ văn tiếng Anh 5.3.2 Các tiêu chí đánh giá Hệ thống IE thiết kế để đạt hai mục tiêu chính: đánh giá hệ thống so sánh hệ thống Mục đích đánh giá hệ thống để xác định mối quan hệ nhiều tham số hiệu hệ thống Trong so sánh hệ thống để so sánh hệ thống ta thiết kế hệ thống có khác Việc đánh giá cách so sánh đầu hệ thống liệu tiêu chuẩn (dữ liệu vàng) tạo phận thích 72 (annotators) Dữ liệu vàng cần tạo Sau đó, tất đầu phát sính (over-generated) hệ thống kiểm tra thích để xem có kết bị bỏ lỡ Thước đo: Việc so sánh thực sử dụng thước đo recall, precision F-measures cho thuộc tính riêng cho tồn kết Precision phần trăm thơng tin trích rút hệ thống Cịn Recall phần trăm thơng tin liên quan trích rút hệ thống Ta có cơng thức Precision (P) Recall: P= R= Số thuộc tính trích rút dúng Số thuộc tính sản sinh Số thuộc tính trích rút dúng Số thuộc tính liệu đích Để thuận tiện cho việc so sánh kết quả, hội nghị MUC đề xuất đại lượng F-measure kết hợp Precision Recall thước đo riêng cho việc trích rút thơng tin Trong P đại diện cho Precision R cho Recall Còn tham số đánh trọng số tầm quan trọng tương đối P R thường F-measure khoảng 0.6 F-measure cho công thức ( 1)PR 2PR F-measure = với = PR PR Ta lấy ví dụ cụ thể tính Precision, Recall F-measure với đoạn văn sau: “Michael Kearns and Sebastian Seung will start Monday’s tutorial, followed by Richard M Karpe and Martin Cooke.” Ví dụ văn câu trên, ta có 17 từ có giá trị thuộc tính gán nhãn tên Trong số hệ thống gán giá trị thuộc tính (Richard M Karpe, Martin Cooke) số giá trị thuộc tính liệu đích tồn văn Recall 2/4 hay 50% Những số 73 giá trị thuộc tính dự đốn nên Precision 2/5 hay 40% Và Fmeasure 44,44% Ràng buộc: Các trang web sau không sử dụng đánh giá: a) Trang web không chứa chuỗi tên xác người cần trích rút (target person) Ví dụ, tên nhắm tới “John Kennedy” khác với tên xuất trang web “John F Kennedy”, trang web không sử dụng để đánh giá b) Trang web có hai cá nhân chia sẻ tên nhắm tới Ví dụ trang web chứa hai nhân vật tên khác ngành nghề: “John Kennedy (nhà trị)” and “John Kennedy (diễn viên)” không sử dụng c) Trang web hiển thị từ sở liệu (ví dụ CiteSeer hay trang web mua bán amazon.com d) Trang web mà tên nhắm tới nhân vật khơng có thật tiểu thuyết, truyện Hơn thế, đánh giá độ xác phạm vi hẹp web cá nhân Còn với phạm lĩnh vực mở khác kết khác đáng kể 5.3.3 Kết thử nghiệm Tập test thu thập thủ công từ 30 trang web cá nhân từ nhiều nguồn với khoảng 120 file html sau lọc tài liệu khơng sử dụng đánh giá khơng có thơng tin liên quan q thơng tin liên quan đá nói tiêu chí đánh giá Trung bình trang web site cá nhân test có khoảng đến website thành phần Tập tài liệu phân chia vài lần thành tập liệu tập huấn luyện Chúng ta huấn luyện học, lựa chọn cấu trúc mơ hình cài đặt tham cho Sau sử dụng tập huấn luyện thực đo hiệu sử dụng tập kiểm thử 74 Họ_tên Sồ Sồ tài liệu Số phát Số lần sinh thừa bỏ sót (Match) (Over (Miss) test lần Precision Recall Fscore generations) BAOTU_HO 11.11 50.00 18.48 DUCANH_DUO 29 96.67 85.29 90.62 HAIAN_DOAN 22 84.62 81.48 83.02 HUNGTRAN_DA 81.82 90.00 85.71 110 12 90.16 93.22 91.67 Tổng số 11 171 27 20 - - - Trung bình - - - - 72.88 80.00 73.84 NG NG THUYQUANG_H A Bảng 5-3 Hiệu hệ thống StanfordCRF với liệu cho nhận dạng thuộc tính họ tên Nhận xét: hệ thống khơng dự đốn trích rút tên viết tắt dạng Ho, T.B; Tu-Bao Ho, AnHai Doan,… Tiếp theo ta test tổng hợp với thuộc tính tên, nơi cơng tác có kết hợp chung tổng hợp nhưu bảng dưới: Thực thể Precision Recall F-measure Họ Tên 89.19 91.88 90.52 Nơi công tác 80.15 82.91 81.51 Địa điểm công 85.48 88.21 86.82 87.67 86.28 tác Trung bình 84.94 Bảng 5-4 Hiệu hệ thống StanfordCRF theo thực thể tên, nơi công tác, địa điểm làm việc 75 Bảng thể độ xác phương pháp huấn luyện thay đổi theo số vòng lặp phương pháp CRFs Kết từ bảng cho thấy vòng lặp thứ 10, thuật tốn CRFs cho độ xác tương đương với vòng lặp nhiều Để tiết kiệm thời gian huấn luyện thực tế, cần huấn luyện 10 vòng lặp Bảng 5-5 Độ xác CRFs thay đổi theo vịng lặp Với kỹ thuật học, đặt câu hỏi quan trọng cần liệu huấn luyện để đạt hiệu chấp nhận Khái quát hơn, hiệu thay đổi kích thước tập huấn luyện tăng hay giảm? Chúng ta chạy thử chuỗi thí nghiệm với cách chọn liệu nói Ta chọn tỉ lệ liệu huấn luyện/dữ liệu kiểm thử khoảng 3-4 lần (ví dụ 150/40) Ta thực test với với 40 mẫu liệu kiểm thử với 10 lần thay đổi kích thước tập huấn luyện 150 mẫu sau 2,5,10,15,20,30,50,100, 120,150 Điểm số 10 lần test đồ thị hóa hàm số kích thước tập huấn luyện 5.3.4 Đánh giá kết Một ưu điểm nhận thấy mơ hình CRFs linh hoạt việc tích hợp nhiều kiểu đặc trưng từ liệu huấn luyện, phải thiết kế thí nghiệm tách biệt cho CRFs, sau làm giàu đặc trưng 76 trước để ước lượng ảnh hưởng đặc trưng hiệu hệ thống Số lượng cá nhân thử nghiệm 30 Số lượng trang web thử nghiệm 100 Hiệu trích rút thuộc tính tên (%) 90.52 Hiệu trích rút thuộc tính nơi cơng tác (%) 81.51 Hiệu trích rút thuộc tính nơi địa điểm (%) 86.82 Bảng 5-6 Thống kê kết thử nghiệm Qua trình thử nghiệm, nhìn chung hệ thống cho hiệu suất chấp nhận thời gian xử lý chậm Ưu điểm: Trích rút thơng tin xác chưa loại bỏ hết nhập nhằng Do việc huấn luyện xây dựng luật chưa đủ Thời gian tời thực test lại hệ thống hướng phát triển tương lai bổ sung nhiều luật ràng buộc để kết xác Với tập liệu huấn luyện vừa phải, chúng tơi thu kết trích rút gần tiệm cận với kết trích rút trung bình Đó phương pháp tiếp cận học máy cấu trúc với phương pháp Trường ngẫu nhiên điều kiện, kết hợp với xây dựng mẫu, loại bỏ nhập nhằng Nhược điểm: Hệ thống xử lý chậm phụ thuôc vào môi trường phần cứng, phần mềm, hệ điều hành, JVM nhớ, tốc độ xử lý CPU Độ cịn phụ thuộc nhiều vào liệu test Vấn đề chia văn thành token hạn chế 77 CHƯƠNG 6: KẾT LUẬN 6.1 Các kết đạt Tìm hiểu khái niệm trích rút thơng tin, bước để xây dựng tốn trích rút thông tin tiếp cận khác để giải tốn trích rút thơng tin Đã nghiên cứu so sánh phương pháp trích rút thông tin tiên tiến áp dụng giới mơ hình HMM, MEMM CRF Và thực thử nghiệm so sánh việc trích rút thơng tin từ liệu web cá nhân với số thuộc tính với hệ thống trích rút thông tin đề xuất Đề xuất phương pháp cải tiến hiệu trích rút thơng tin qua việc xây dựng mẫu thủ công kết hợp với phương pháp học máy suy diễn luật Kết cải tiến khả quan so với số hệ thống trích rút truyền thống trước Dữ liệu thu thập với hàng chục cá nhân khác với hàng trăm website để thực huấn luyện thử nghiệm 6.2 Hướng phát triển Từ quan điểm trích rút thơng tin có số thách thức việc học từ thích tự động, thay cách sử dụng thích người Nhiều hệ thống IE có khả học từ văn thích cách đầy đủ Trong tương lai gần, chúng tơi hồn thiện trích rút thơng tin với nhiều trường thuộc tính trích rút Và khơng trích rút thơng tin thuộc tính thực thể mà cịn bổ sung thêm chức khác trích rút quan hệ trích rút kiện Dựa vào kết trích rút thu được, chúng tơi tích hợp thơng tin vào mạng xã hội trích rút thơng tin theo định dạng u cầu có sẵn Những ý tưởng tác giả tìm hiểu thêm tường lai 78 TÀI LIỆU THAM KHẢO Hércules Antonio Prado, Edilson Ferneda, Emerging technologies of text mining: techniques and applications Sandeepkumar B Satpal , Information Extraction in Diverse Settings, July 25, 2006, Kanwal Rekhi School of Information Technology, Indian Institute of Technology-Bombay Michael Collins, Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms W Bruce Croft, Information Extraction: Algorithms and Prospects in a Retrieval Context, University of Massachusetts, Amherst, 2006 Aron Culotta and Andrew McCallum, Reducing labeling effort for structured prediction tasks, Department of Computer Science, University of Massachusetts Erik F Tjong Kim Sang , Sabine Buchholz, Introduction to the CoNLL2000 Shared Task: Chunking John Lafferty, Andrew McCallum, Fernando Pereira, Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data John Lafferty, A McCallum, and F Pereira Conditional random fields: Probabilistic models for segmenting and labeling sequence data Proc 18th International Conf on Machine Learning, 2001 A Lavelli, M E Califf , F Ciravegna, D Freitagz, C Giuliano, A Critical Survey of theMethodology for IE Evaluation 10 Andrew McCallum, Efficiently Inducing Features of Conditional Random Fields, 2003 11 Andrew McCallum, Dayne Freitag, and Fernando Pereira, Maximum entropy Markov models for information extraction and segmentation In Proc ICML 2000, 2000 79 12 Andrew McCallum, Dynamic Conditional Random Fields: Factorized Probabilistic Models for Labeling and Segmenting Sequence Data Charles Sutton Khashayar Rohanimanesh 13 Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, and Quang-Thuy Ha, Vietnamese Word Segmentation with CRFs and SVMs: An Investigation 14 Fuchun Peng, Andrew McCallum, Accurate Information Extraction from Research Papers using Conditional Random Fields 15 Nancy R Zhang, Hidden Markov Models for Information Extraction, June, 2001 16 Roth and W Yih Integer linear programming inference for conditional random fields In Proc of the International Conference on Machine Learning (ICML), pages 737–744, 2005 17 Fei Sha and Fernando Pereira, Shallow Parsing with Conditional Random Fields, Department of Computer and Information Science, University of Pennsylvania 18 Keigo Watanabe, Danushka BollegalaA Two-Step Approach to Extracting Attributes for People on the Web, The University of Tokyo 80 TÓM TẮT LUẬN VĂN Luận văn trọng vào nội dung sau đây: Nghiên cứu lý thuyết trích rút thông tin từ tài liệu bán cấu trúc bao gồm khái niệm liên quan, bước để thực trích rút thơng tin cho đề tài này, số cách tiếp cận để giải toán đặt phương pháp học máy với cách tiếp cận dựa đồ thị với hai mơ hình trích rút thơng tin phổ biến HMM CRF So sánh, phân tích ưu nhược điểm phương pháp, phương pháp CRF mang lại kết tốt cách tiếp cận luận văn Luận văn nêu số tốn trích rút thơng tin từ liệu web cá nhân với cách tiếp cận phổ biến xây dựng mâu, dựa luật, dựa phân loại gán nhãn Luận văn mơ tả số module cho mơ hình tốn trích rút thơng tin đề nhằm xử lý để giải vấn đề mà đề tài đặt Luận văn thử nghiệm vài ứng dụng trích rút thơng tin để thực đánh giá kết với phương pháp đề Một số thử nghiệm thực với bước huấn luyện kiểm thử Các kết thử nghiệm đạt dùng để đánh giá hiệu hệ thống Cuối cùng, luận văn đưa kết luận, đánh giá hiệu phương pháp đề xuất hướng phát triển luận văn tương lai 81 ABSTRACT OF THESIS This thesis aims at these main points: Researching theory of information extraction from semi structured documents include related concepts, the steps to perform the information extraction for the thesis, as well as some approaches to solve given problem such as machine learning approach based on graphs with two most common models are HMM and CRF Comparing and analysing the advantages and disadvantages of each method, and show that the CRF method provides better results and it is the main approach of the thesis Thesis also raised and proposed child problem of extraction information from personal web data with the most popular approach like pattern building, based on the rules, the classification and the sequential labeling Thesis also described a number of main modules for the proposed IE problem in order to solve problems that topic posed Thesis tested some information extraction applications to make assessment results with the proposed methods Some experiment were done with two steps training and testing The test results achieved will be used to evaluate the system performance Finally, the thesis make conclusions and evaluate the performance of the proposed method and future work of the thesis Key word: automatic information extraction, conditional random field, personal web data 82 ... thơng tin hữu ích giúp cho việc định cho cá nhân hay tổ chức cách nhanh chóng Bài tốn trích rút thơng tin từ liệu web cá nhân khía cạnh tốn trích rút thơng tin Các thơng tin trích rút từ đơn... Đề tài nghiên cứu mơ hình trích rút thơng tin tiên tiến cho việc trích rút thông tin cá nhân từ website cá nhân Các mơ hình có điểm sau: Dựa phương pháp trích rút thơng tin tự động cho độ xác cao... dụ: trích rút thơng tin cá nhân web, trích rút báo tin tức thuộc lĩnh vực tri, văn hóa, thể thao, nghệ thuật…, trích rút số liệu từ nghiên cứu khoa học 2.1.1.3 Phân cụm Trong trích rút thơng tin,