Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
404,49 KB
Nội dung
1 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG HỒNG THỊ VÂN ANH TRÍCH RÚT THỰC THỂ TÊN TỪ CÁC VĂN BẢN TIẾNG VIỆT TRÊN INTERNET LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI – 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Nguyễn Phương Thái Phản biện 1: ………………………………………………………… Phản biện 2: ………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 26 với đặc thù riêng tốn trích rút thực thể tên tiếng Việt Hệ thống hoạt động trích rút thực thể tên từ văn tiếng Việt MỞ ĐẦU Thông tin trang web thường thể dạng ngôn ngữ tự nhiên định dạng theo HTML Q trình xây dựng hệ thống cịn gặp số khó Hạn chế HTML thiếu khả diễn đạt ngữ nghĩa khăn như: Thuật toán DIPRE thường áp dụng cho đối tượng xuất trang web nên phần lớn tốn trích rút cặp quan hệ Vì vậy, trích rút thực thể nội dung thông tin trang web phù hợp cho đơn gặp khó chọn lọc Pattern mẫu trình người đọc hiểu Hầu hết cơng cụ tìm kiếm tài liệu xây dựng Pattern sinh Pattern Mặt khác, thực thể web coi tìm kiếm hiệu chủ yếu tìm kiếm tên có nhiều cách biểu diễn khác nên khó để tìm bề web mối liên hệ xây dựng mẫu xảy nhập nhằng Để khai thác hiệu nguồn thông tin trang web, cần nghiên cứu ứng dụng tự động Trong tương lai, tiếp tục nghiên cứu trích xử lý văn Trước hết, cần xây dựng hệ thống rút thông tin phát triển hệ thống, bổ sung chức tìm tự động trích rút thực thể, khái niệm xuất dựa kiếm, nhận diện thực thể tên trường hợp đặc biệt vào nguồn tri thức thực thể khái niệm nâng cao chất lượng trích rút Tơi dự định tìm hiểu phổ biến giới thực Từ đó, xây sâu kỹ thuật xây dựng Pattern để có Pattern dựng hệ thống khai thác liệu để khai phá lớp tri hợp lý Ngồi ra, tơi tiến hành phân tích thêm thức nhằm hiểu đầy đủ ngữ nghĩa văn Tiếng Việt xâu ký tự đứng trước Pattern để hạn chế nhập nhằng có nhiều cách viết, cách thể nội dung nên q trình trích rút thực thể tên số dạng đặc biệt trích rút thông tin từ văn tiếng Việt gặp nhiều khó khăn văn tiếng Anh Trong luận văn, tiến hành nghiên cứu xây dựng hệ thống tự động trích rút thực thể tên từ văn tiếng Việt Internet 25 KẾT LUẬN Luận văn hệ thống hóa số lý thuyết trích CHƯƠNG I: TỔNG QUAN chọn thơng tin, trình bày, phân tích, đánh giá phương 1.1 Bài tốn trích rút thực thể tên pháp Sau số nét mà luận văn tập 1.1.1 Phát biểu tốn trích rút thực thể tên trung giải Theo Baumgarter, hệ thống trích rút thơng tin Chương I trình bày nêu ý nghĩa toán hệ thống phần mềm tự động liên tục trích rút trích rút thực thể tên Trong chương I, phần đặc điểm tiếng liệu trang web có nội dung thay đổi phân phối Việt để làm cho q trình tìm kiếm liệu trích rút vào sở liệu ứng dụng khác trích rút thực thể tên Ngồi ra, chương I cịn trình bày số hướng tiếp cận để giải toán là: Giải thuật DIPRE, phương pháp Snowball, phương pháp KnowItAll Sau đó, luận văn phân tích ưu nhược điểm phương pháp để đề xuất phương pháp có hiệu trích rút thực thể tên Ở đây, luận văn sử dụng giải thuật DIPRE kết hợp Snowball để xây dựng hệ thống trích rút thực thể tên Chương II đưa mơ hình khái qt, mơ hình chi Hình 1.1 Mơ hình hệ thống trích rút thơng tin web Hệ thống trích rút thơng tin thường đưa kết tiết, ý tưởng cách giải tốn trích rút thực thể tên từ văn tiếng Việt mẫu (template) chứa số lượng xác định Chương III xây dựng hệ thống thử nghiệm dựa theo trường (slots) điền thơng tin Bài tốn trích rút ý tưởng thuật tốn DIPRE có cải tiến để phù hợp 24 Bảng 3.4 Bảng kết thực nghiệm File correct incorrect Missing Spurious name 1019.seg 1 974.seg 0 46609.seg 11 53.seg 20 0 23254.seg 1 Trung bình: thực thể tên văn tiếng Việt gặp nhiều Pre 83,33 66,67 78,57 95,24 85,71 81,90 Rec F 83,33 83,33 66,67 66,67 68,75 73,33 95,24 95,24 75,00 80,00 77,80 79,71 khó khăn so với tốn văn tiếng Anh số nguyên nhân như: Thiếu liệu huấn luyện ngồn tài nguyên tra cứu WordNet tiếng Anh, tồn nhiều vấn đề nhập nhằng làm cho việc trích rút gặp nhiều khó khăn 1.1.2 Ý nghĩa tốn trích rút thực thể tên - Hỗ trợ xây dựng Sementic Web - Xây dựng máy tìm kiếm hướng thực thể 100,00 Pr e 50,00 - Hỗ trợ hệ thống tự động tóm tắt văn 1.2 Đặc điểm tiếng Việt 0,00 Phần lớn vốn từ vựng tiếng Việt từ đa âm tiết Cùng vật, tượng, hoạt động hay Hình 3.5 Giá trị ba độ đo Precision, Recall, F-measure Kết cho thấy, hệ thống trích rút thực thể tên hoạt động tốt văn viết đúng, đầy đủ tiền tố quy tắc trình bày thực thể tên đặc trưng biểu thị nhiều từ ngữ khác gây khó khăn xây dựng hệ thống trích rút thực thể tên Thực tế có nhiều nghiên cứu hệ thống xử lí, phân đoạn từ Trong hệ thống trích rút xây dựng phần demo, hệ thống sử dụng văn chạy qua hệ thống phân đoạn từ nên hệ thống bỏ qua bước phân đoạn từ 1.3 Một số nghiên cứu liên quan 23 1.3.1 Giải thuật Dual Iterative Pattern Relation Expansion (DIPRE) Giải thuật DIPRE (Dual Iterative Pattern Relation Expansion) dùng để trích rút mẫu quan hệ ngữ nghĩa “author – book” với tập liệu ban đầu khảng ví dụ cho mối quan hệ Hệ thống DIPRE mở rộng tập ban đầu Hình 3.1 Giao diện hệ thống thành danh sách khoảng 15.000 sách Tóm tắt giải thuật DIPRE sau: Đầu vào: Tập quan hệ mẫu S={Ai , Bi} Ví dụ: trường hợp trên, tập quan hệ mẫu S = { vào tập luật để từ trích rút luật cho S : Xâu nội dung PrefixString (xâu tiền tố) lớp quan hệ ontology [4] N: Tên thực thể Đầu vào KnowItAll tập lớp thực thể C: Count – Số lần S “tiền tố” N trích xuất, kết danh sách thực thể trích xuất từ trang web Các mẫu sử dụng gán nhãn tay, mẫu xây dựng dựa vào việc tách cụm danh từ (Noun Phrase chunker) Mỗi PrefixString có “độ ưu tiên” khác việc lựa chọn tham gia sinh pattern Độ ưu tiên dựa theo số lượng thực thể nhận làm tiền tố 2.2.2 Thuật tốn sinh PrefixPattern 1.4 Tổng kết chương Phương pháp KnowItAll sử dụng kĩ thuật xử lý ngơn ngữ (phân tích cú pháp, tách cụm danh từ) nên khó áp dụng cho tài liệu tiếng Việt ngơn ngữ tiếng Việt, kĩ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học Input: Tập PrefixPattern mẫu, văn phân đoạn từ Bước 1: Lấy PrefixPattern mẫu tblPattern đem so khớp với văn để tìm xâu ký tự có chứa PrefixPattern xâu ký tự kỳ vọng tên thực thể 18 11 - Ký tự từ đứng sau tiền tố ký tự viết hoa đưa kết tốt SnowBall đưa phương - Xâu ký tự lấy không trùng với liệu bảng chứa xâu ký tự không hợp lệ khớp hiển thị bảng KẾT QUẢ (mẫu quan hệ tập seed mới) sinh có độ tin cậy cao, xác từ liệu nhỏ ban đầu Dựa vào ưu nhược điểm phương pháp, * Trim Ta cần tách xâu ký tự nhận thỏa mãn điều kiện kiểm tra để lấy thực thể tên cần trích rút Tập thực thể tên sau trích rút ánh xạ ngược trở lại văn bước lặp để tìm DIPRE kết hợp với phương pháp SnowBall Tuy nhiên, nhận dạng thực thể, bước bắt buộc để đảm bảo trình sinh tập seed việc trích rút mẫu có độ xác cao xuất (Occurrences) * Find_PrefixStrings Hệ thống tìm kiếm tiền tố (PrefixString) thực thể tên tìm thấy bước trước * Generate_NewPrefixPattern Generate_NewPrefixPattern hệ thống xây dựng phần demo sử dụng giải thuật phương pháp yêu cầu phải tiến hành bước * Filter_Entities tục pháp tìm kiếm, trích chọn đánh giá độ tin cậy seed mẫu sinh Vì thế, tập liệu - Kết so khớp không trùng với so Thủ kĩ thuật học máy xây dựng chưa sinh NewPrefixPattern từ tập PrefixStrings trích rút bước trước để trích rút thực thể 12 CHƯƠNG II: PHƯƠNG PHÁP TRÍCH RÚT THỰC THỂ TÊN 2.1 Mơ hình trích rút thực thể tên 2.1.1 Mơ hình tổng qt Đối với tốn trích rút thực thể tên xét, mức tổng quát gồm bước sau: - Xuất phát số mẫu xây dựng thủ công; - Rút trích thực thể tên tập tài liệu web dựa vào mẫu đó; - “Ánh xạ” lại thực thể vừa trích rút vào tập tài liệu web để xác định xuất (Occurrences) chúng tài liệu; - Sinh mẫu từ Occurrences đó; - Quay lại bước thứ với mẫu vừa sinh Do xuất phát tập thực thể “mồi” mà mẫu, nên rút trích nhiều thực thể vịng lặp Số lượng mẫu sinh cho vịng lặp lớn khiến chương trình giảm số lần thực vòng lặp Tuy nhiên, nguyên nhân dẫn đến việc hệ thống đưa nhiều kết trích rút bị sai Vì vậy, xây dựng hệ thống, trình 17 - Xâu ký tự kỳ vọng thực thể tên có điểm đặc biệt ký tự xâu ln viết hoa - Xâu ký tự đứng sau tên thực thể lại thường khơng có quy tắc xác định Trong hệ thống thực nghiệm luận văn, liệu đầu vào văn tiếng việt chạy qua hệ thống xử lý khâu phân đoạn từ Vì vậy, tiếng tên thực thể nối lại dấu “_” nên lược bỏ phần kiểm tra suffix thực thể tên Thay vào đó, hệ thống kiểm tra ký tự xâu ký tự đứng sau tiền tố so khớp tìm xem có phải ký tự viết hoa khơng Nếu kết q trình kiểm tra false hệ thống quay lại tìm PrefixPattern tblPattern để tiếp tục tìm kiếm thực thể tên khác Thủ tục Find_IndexsOfPrefixPattern với tham số đầu vào PrefixPattern tìm xâu khớp (match) với PrefixPattern, kết thu xâu chứa tiền tố xuất văn * Extract_CandidateStrings Xét so khớp tìm được, xâu đứng sau tiền tố mong đợi tên thực thể Điều kiện: 16 Từ PrefixStrings sinh mẫu 7) Quy lại bước với NewPrefixPattern vừa sinh bắt đầu bước lặp 13 tìm kiếm hệ thống cần có can thiệp luật để hạn chế sai sót Chương trình dừng lại hệ thống khơng tìm thêm mẫu số lượng tên thực thể trích rút bị sai q nhiều Quy trình rút trích mơ tả hình : Hình 2.1 Mơ hình tổng qt Một số điểm khác tốn trích rút thực thể tên tốn trích rút cặp thực thể Brin: Hình 2.2 Mơ hình tốn Các mục giải thích rõ ràng * Find_IndexsOfPrefixPattern Ngữ cảnh thực thể tên có nhiều điểm khác biệt như: - Đứng trước thực thể tên thực thể thường “tiền tố” có dạng đặc biệt nằm miền giá trị cụ thể - Thứ nhất: Đối tượng trích rút hai tốn khác Bài tốn trích rút Brin yêu cầu phải trích rút theo cặp quan hệ (tác giả, tên sách) Bài tốn trích rút xét yêu cầu trích rút tất thực thể tên - Thứ hai: “Sự xuất hiện” thực thể mà Brin rút trích khác với “sự xuất hiện” thực thể tên văn mà hệ thống rút trích Trong mơ hình Snowball, cặp quan hệ đánh giá dựa theo số lượng pattern sinh nó, 14 15 “tính chọn lọc” pattern Chỉ cặp Ánh xạ PrefixPattern vào tập tài liệu để xác định có độ đánh giá phù hợp sử dụng xâu mà mẫu đốn nhận kết qúa trình trích rút Bài toán luận văn áp dụng ý tưởng cho việc sinh patterns thích hợp dựa vào tập thực thể liên quan Không phải thực thể tên trích rút đối tượng để xét tiền tố đứng trước Thực thể xuất nhiều lần văn ta xét đến tiền tố đứng trước dùng tiền tố làm để tiến hành trích rút tiếp thực thể tên Có vậy, hệ thống trích rút nhanh giảm thiểu số bước lặp có kết trích rút không khả quan Mặt khác, mẫu sinh đảm bảo yêu cầu mẫu đặc biệt chung chung giải thuật DIPRE quy định 2.1.2 Mơ hình chi tiết Input: PrefixPattern (Initial) – Hệ thống bắt đầu hoạt động trích rút thực thể tên với mẫu xây dựng thủ công 1) IndexsOfPrefixPattern Find_IndexsOfPrefixPattern (PrefixPattern) 2) CandidateStrings Extract_CandidateStrings (Extract_CandidateStrings, CandidateRegularExpression): Thu xâu ký tự kỳ vọng xâu có chứa thực thể tên 3) Entities Trim (CandidateStrings) Hệ thống tiến hành tách xâu kỳ vọng (không bị loại sở liệu) CandidateStrings để thu thực thể (Entities) thích hợp 4) RepresentativeEntities (Entities) Filter_Entities Từ Entities chọn thực thể đại diện 5) PrefixStrings Find_PrefixStrings(RepresentativeEntities, PrefixRegularExpression) Sử dụng biểu thức quy PrefixRegularExpression kết hợp với RepresentativeEntities để đoán nhận “tiền tố” RepresentativeEntities (PrefixStrings) 6) NewPrefixPattern Generate_NewPrefixPattern ( PrefixStrings ) ... nghĩa văn Tiếng Việt xâu ký tự đứng trước Pattern để hạn chế nhập nhằng có nhiều cách viết, cách thể nội dung nên q trình trích rút thực thể tên số dạng đặc biệt trích rút thơng tin từ văn tiếng Việt. .. trích rút bước trước để trích rút thực thể 12 CHƯƠNG II: PHƯƠNG PHÁP TRÍCH RÚT THỰC THỂ TÊN 2.1 Mơ hình trích rút thực thể tên 2.1.1 Mơ hình tổng qt Đối với tốn trích rút thực thể tên xét, mức tổng... Module Trích rút: dùng để trích rút thực thể tên từ báo chọn Kết sau trích rút hiển thị phần KẾT QUẢ - Module Huấn luyện: lấy kết trích rút từ báo làm giàu sở liệu để phục vụ cho trình trích rút thực