Rút trích các khối văn bản mang tin tức chính trên các trang báo

83 5 0
Rút trích các khối văn bản mang tin tức chính trên các trang báo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CHƯƠNG 1: GIỚI THIỆU 1.1 Động mục tiêu việc nghiên cứu Ngày với phát triển vũ bão tin học, trang web trở thành phương tiện hữu hiệu để người ta truyền tải cập nhật thông tin Lượng thông tin mà trang web truyền tải khổng lồ thuộc nhiều lĩnh vực chuyên biệt khác Tuy nhiên trang web với mục tiêu nhắm đến người đọc nên có khuynh hướng thiên trình bày thơng tin Các máy tính dừng lại việc truyền tải thể thông tin web mà nội dung thật thông tin cần truyền tải gì, khơng thể giúp việc xử lí thơng tin cách xác Ví dụ rõ ràng cho điều động tìm kiếm (search engine), cơng cụ tìm kiếm tìm kiếm thơng tin cách so trùng từ khóa kết thơng tin tìm sử dùng từ khoá với nhiều ý nghĩa khác nhau, mặt khác chúng tổng hợp thông tin trả từ nhiều nguồn khác Vấn đề giải cơng cụ tìm kiếm khơng cịn dựa việc so trùng từ khố mà sử dụng ngữ nghĩa thơng tin trình bày trang web để tìm kiếm Thấy vấn đề này, vào năm 1998, Tim Berners-Lee đưa thuật ngữ web ngữ nghĩa để mô tả hệ web Web ngữ nghĩa web riêng biệt khác mà mở rộng từ web thơng tin trình bày xác định ý nghĩa cách rõ ràng xác, điều cho phép máy tính người hợp tác làm việc với tốt Tuy nhiên thông tin web cần xác định ý nghĩa, ta xác định ý nghĩa thông tin quan trọng thể tư tưởng chủ đạo mà trang web muốn truyền đạt mà thơi Do vấn đề để chuyển trang web sang trang web có ngữ nghĩa làm để xác định đâu vùng thông tin quan trọng trang web Đây động thúc đẩy để hình thành đề tài Mặc dù vùng thông tin quan trọng trang web bao gồm nhiều thành phần hình ảnh, siêu liên kết, đoạn văn bản, , nhiên phạm vi đề tài giới hạn việc xác định đâu khối văn mang tin tức Tóm lại mục tiêu luận văn xác định rút trích tự động khối văn mang tin tức trang web, nhiên bao gồm tất loại trang web mà tập trung vào rút trích cho trang web báo chí mà thơi 1.2 Đóng góp luận văn Với mục tiêu đề tài rút trích khối văn mang tin tức trang web báo chí đóng góp luận văn là: Đưa giải pháp tự động xác định rút trích khối văn mang tin tức trang web thơng qua ý tưởng dựa RoadRunner [4] đại diện cho phương pháp nhận dạng mẫu (mục 2.6) Giải pháp đưa có số điểm cải tiến sau đây: ƒ Thực xác định rút trích khối văn mang tin tức trang web dựa ý tưởng mà RoadRunner dùng để rút trích liệu có cấu trúc ƒ Tự động tìm kiếm trang web mà có cách trình bày với trang web cần rút trích, RoadRunner yêu cầu người sử dụng phải cung cấp trang web có cách trình bày ƒ Thực so trùng trang web cách so trùng thông qua đa phân có gốc tương ứng chúng, RoadRunner lại thực so trùng trực tiếp đoạn mã Html trang web ƒ Biến đổi giải thuật so trùng hai đa phân có gốc [14] giải thuật rút trích khối văn mang tin tức cách so trùng hai cấu trúc đa phân hai trang web (mục 4.3.4) ƒ Ngồi mục tiêu rút trích khối văn mang tin tức trang web, giải pháp mà luận văn đưa cịn rút thơng tin khác mà trang web cần trình bày hình ảnh, siêu liên kết, Hiện thực thành cơng chương trình tự động xác định rút trích khối văn mang tin tức với độ xác, độ khơng bỏ sót thời gian đáp ứng cao (các thí nghiệm trình bày mục 4.4) 1.3 Sơ lược cấu trúc luận văn Chương 1, “Giới thiệu”, trình bày động mục tiêu phạm vi mà luận văn thực Trình bày cấu trúc tổ chức đóng góp luận văn Chương 2, “Các nghiên cứu liên quan”, trình bày phân loại cơng trình nghiên cứu liên quan đến luận văn dựa phương pháp mà sử dụng để rút trích thơng tin Đưa ưu điểm nhược điểm phương pháp mà cơng trình sử dụng Có phương pháp rút trích thơng tin trình bày chương là: phát triển ngơn ngữ xây dựng wrapper, xử lí ngơn ngữ tự nhiên, suy dẫn wrapper, mơ hình hóa cuối nhận dạng mẫu Chương 3, “Cơ sở lý thuyết”, đưa các sở tảng lý thuyết mà luận văn sử dụng Phần 3.2 trình bày giải thuật so trùng chuỗi mà sử dụng để tìm kiếm trang web có cách trình bày với trang web cần rút trích Phần 3.3 trình bày giải thuật so trùng hai đa phân có gốc, giải thuật biến đổi để thực rút trích cách so trùng hai cấu trúc đa phân hai trang web Chương 4, “Thiết kế thực luận văn”, chương quan trọng luận văn, trình bày tồn bước để giải vấn đề rút trích khối văn mang tin tức trang web Chương chia làm phần Phần 4.1 trình bày việc phân tích u cầu tốn, từ việc hiểu rõ yêu cầu toán đưa giải pháp phù hợp để giải tốn Phần 4.2 đưa cấu trúc hệ thống mà đáp ứng yêu cầu đề tài dựa phương hướng giải trình bày phần 4.1 Phần 4.3 trình bày giải thuật sử dụng hệ thống Phần 4.4 trình bày kết thí nghiệm có việc rút trích trang web thực tế phân tích kết để đánh giá độ hiệu chương trình Và cuối cùng, phần 4.5 4.6 hướng dẫn cách sử dụng cài đặt chương trình Chương 5, “Kết luận hướng phát triển”, tổng kết lại mà luận văn thực kết đạt Nêu lên điểm tồn cần khắc phục để giúp cơng trình nghiên cứu phát triển tiếp sau hoàn thiện CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Tổng quan Hiện rút trích thơng tin web thường thực cách sử dụng wrapper Một wrapper xem thủ tục thiết kế để rút trích nội dung cần quan tâm nguồn thông tin Đã có nhiều cơng trình nghiên cứu khác giới sử dụng nhiều phương pháp tạo wrapper khác để thực rút trích thơng tin web Chương phân loại cơng trình nghiên cứu dựa phương pháp mà sử dụng để tạo wrapper Các phương pháp bao gồm: + Phát triển ngơn ngữ xây dựng wrapper + Xử lí ngôn ngữ tự nhiên + Suy dẫn wrapper + Mô hình hố + Nhận dạng mẫu 2.2 Phát triển ngơn ngữ xây dựng wrapper Một giải pháp sử dụng để sinh wrapper phát triển ngôn ngữ xây dựng wrapper Trước phát triển giải pháp này, để xây dựng wrapper ngơn ngữ Java thường dùng Tuy nhiên việc tạo thư viện wrapper nhằm để rút trích loại thơng tin khác cách nhiều công sức thời gian Vì người ta phát triển lớp ngơn ngữ bên thân thiện, dễ dùng khơng địi hỏi kiến thức sâu kỹ thuật lập trình Những cơng cụ theo hướng kể bao gồm: Lapis [1], Web-OQL [9], Tsimmis [8], Minerva [3] Sau ta xem xét qua hai công cụ Lapis Web-OQL: LAPIS – Lapis trang bị ngôn ngữ ràng buộc văn (text constraint language) cho phép người sử dụng xây dựng wrapper cách xác định giới hạn xác vùng liệu cần quan tâm tài liệu văn cho trước Với thư viện wrapper xây dựng sẵn công cụ việc sử dụng thuật ngữ thể ràng buộc giới hạn là: contain, first, last, just before,in ta xây dựng wrapper nhằm phục vụ rút trích vùng thơng tin đoạn văn mà ta muốn lấy Ví dụ ta muốn xây dựng wrapper mà rút trích thơng tin nằm cột bảng trang web đó, ta viết: “Wrapper1 is text in first [td]” Với cách thức ta xây dựng wrapper phức tạp từ thư viện sẵn có từ wrapper đơn giản mà ta tạo trước WEB-OQL – Sử dụng ngôn ngữ truy vấn giống SQL để xác định liệu cần lấy trang Html Ở người ta trước tiên phân tích trang Html thành cú pháp tương ứng gọi hypertree Sau tùy theo yêu cầu câu truy vấn mà liệu tương ứng hypertree rút trích Mặc dù phát triển ngơn ngữ xây dựng wrapper góp phần lớn giúp người sử dụng dễ dàng tạo wrapper rút trích thơng tin mà quan tâm, nhiên thơng tin trình bày theo phong cách định dạng khác website khác nhau, chí website cách trình bày thơng tin trang web khác theo thời điểm khác Điều khiến cho người sử dụng phải liên tục cập nhật lại wrapper mà viết, để wrapper rút trích loại thơng tin rút trích trình bày theo định dạng khác 2.3 Xử lí ngơn ngữ tự nhiên Đây phương pháp sử dụng kỹ thuật xử lí ngơn ngữ tự nhiên áp dụng cho tài liệu mà thơng tin phi cấu trúc (ví dụ truyện) Các kỹ thuật xem xét ràng buộc mặt ngữ nghĩa cú pháp để từ nhận dạng thơng tin liên quan, dẫn xuất luật rút trích thông tin Các công cụ sử dụng phương pháp thích hợp cho việc rút trích thơng tin trang web có chứa đoạn văn tuân theo qui luật văn phạm Tuy nhiên thông tin web đa phần có cấu trúc hay bán cấu trúc lúc trình bày theo câu cú văn phạm Mặt khác xử lí ngơn ngữ tự nhiên tốn khó nên phương pháp tỏ khơng phù hợp với yêu cầu luận văn Một số công cụ áp dụng phương pháp như: WHISK [7], RAPIER, SRV [3] 2.4 Suy dẫn wrapper (học máy – machine learning) Phương pháp tốt phương pháp phát triển ngôn ngữ xây dựng wrapper chỗ phương pháp không đòi hỏi người sử dụng phải tự tay viết wrapper Thay vào người sử dụng cần cung cấp tập trang web mà có đánh dấu vùng thơng tin cần rút trích ví dụ mẫu Công cụ tự động suy dẫn wrapper có khả rút trích vùng thơng tin đánh dấu tập trang web ví dụ mẫu vùng thông tin trang web khác tương tự tập trang web ví dụ Những cơng cụ áp dụng phương pháp thích hợp cho tài liệu văn có cấu trúc hay bán cấu trúc nên thích hợp với trang Html Những công cụ áp dụng phương pháp Wien [10], SoftMealy [3], Stalker [11] Sau ta xem xét sơ lược qua hai công cụ Wien Stalker: WIEN – The Wrapper Induction Environment công cụ đưa khái niệm suy dẫn wrapper Nó làm việc tài liệu có cấu trúc mà chứa thông tin dạng bảng thiết kế không tập trung vào lĩnh vực xác định Hướng tiếp cận cơng cụ xử lí trang web có chứa cách tổ chức mà gọi HLRT, H (Head delimiter) dấu phân cách đầu, LR (left, right delimiters) tập dấu phân cách bên trái bên phải vùng thơng tin cần rút trích, T (Tail delimiter) dấu phân cách đuôi HLRT hiểu lớp wrapper mà thực thể wrapper cụ thể Giải thuật suy dẫn wrapper có đầu vào tập trang có đánh dấu vùng thơng tin cần rút trích người sử dụng, sau thực vịng lặp để thử trường hợp dấu phân cách có để sinh thực thể wrapper thuộc lớp HLRT có khả rút trích thơng tin đánh dấu trang ví dụ người sử dụng STALKER – Kỹ thuật suy dẫn wrapper Wien cải tiến Stalker giúp công cụ thực rút trích liệu phân cấp ™ Đầu vào Stalker: Một mô tả cấu trúc trang web cần rút trích thơng tin – cấu trúc cấu trúc hay gọi ECT (Embedded Catalog Tree) Một tập ví dụ theo hình thức chuỗi kí hiệu thể việc bao phủ xung quanh vùng liệu cần rút trích ™ Đầu Stalker: luật rút trích mà rút trích nhiều ví dụ Các cơng cụ áp dụng theo phương pháp tự động hóa bước so với phương pháp phát triển ngôn ngữ xây dụng wrapper chỗ người sử dụng không cần tự tay xây dựng wrapper Thay vào cần đưa tập ví dụ trang web có đánh dấu thơng tin cần rút trích, cơng cụ tự động suy dẫn wrapper Mặc dù vậy, có thực tế nhằm để đáp ứng nhu cầu phát triển xã hội, nội dung hình thức trình bày trang web thay đổi liên tục, việc ví dụ mà người dùng cung cấp trở nên khơng cịn phù hợp chuyện thường xuyên xảy Do người sử dụng muốn rút trích thơng tin xác lại phải thường xun cung cấp mẫu ví dụ để cơng cụ suy dẫn wrapper thay cho wrapper cũ khơng cịn thích Điều xét lâu dài tốn nhiều công sức thời gian 2.5 Mơ hình hóa liệu Các công cụ áp dụng phương pháp cho phép người sử dụng mô tả cấu trúc đối tượng liệu cần rút trích Cấu trúc xây dựng cách dựa tập mơ hình kiểu liệu Ở người ta xây dựng giải thuật có khả nhận diện đối tượng liệu trang web tương ứng với cấu trúc liệu mà người sử dụng mô tả để từ thực việc rút trích NoDoSE [12] DEByE [3] đại diện cho việc áp dụng phương pháp Sau ta xem xét qua công cụ NoDoSE: NoDoSE (Northwestern Document Structure Extractor) – Đây cơng cụ có tính tương tác với người dùng có bao gồm bước để thực rút trích liệu: Xác định mơ hình liệu cần rút trích trang web Phân rã theo cấp trang web cần rút trích thơng tin, ánh xạ vùng cần rút trích vào phần mơ hình chọn Xác định định dạng liệu sau rút trích Phương pháp giúp người sử dụng tự động hố phần cơng đoạn rút trích phải mơ tả cấu trúc đối tượng liệu cần rút trích Tuy nhiên phương pháp lại lần lập lại giới hạn phương pháp suy dẫn wrapper việc mô tả phải lặp lặp lại để đáp ứng với việc thay đổi thường xuyên trang web 2.6 Nhận dạng mẫu Phương pháp xây dựng dựa nhận xét (Hình 1) xuất phát từ thực tế thơng tin trình bày web site (mà web site báo chí) xuất phát từ sở liệu Muốn trình bày liệu sở liệu thành thơng tin trình bày trang web, người ta sử dụng đoạn mã chương trình chạy web server thực kết nối truy xuất liệu từ sở liệu Sau dựa vào liệu truy xuất sinh đoạn mã Html mà đuợc thể thành trang web trình bày thơng tin phía client Tuy nhiên đoạn mã chương trình đề cập đáp ứng yêu cầu khác từ phía client truy xuất vùng liệu khác từ sở liệu Do đoạn mã chương trình khơng phải sinh trang web mà chịu trách nhiệm sinh nhóm trang web Các trang web thuộc nhóm mà sinh có một đặc điểm chung có cách trình bày thơng tin hồn tồn giống nhau, có thơng tin mang lại cho người đọc khác Dựa nhận xét đó, để thực việc rút trích thơng tin người ta làm bước sau: Tìm trang web mà tiên liệu khn mẫu trình bày thơng tin giống nhau, sau nhóm chúng lại Đối với nhóm trên, người ta thực so sánh trang web để tìm điểm giống khác để từ suy khn mẫu trình bày chung nhóm Từ khn mẫu tìm nhóm, thực rút trích liệu trang web thuộc nhóm Web server Các trang web phía Client Mã chương trình Database (1) Mã chương trình (2) Mã chương trình n (n) (1), (2), …, (n): thể nhóm trang web có cách trình bày thơng tin Hình 1: Nhóm trang web có cách trình bày thơng tin Cơng cụ RoadRunner [4] đại diện cho việc áp dụng phương pháp Sau ta xem xét công cụ RoadRunner: ROADRUNNER – Roadrunner công cụ tự động sinh wrapper để rút trích liệu có cấu trúc Bằng cách so sánh đoạn mã Html hai hay nhiều trang web ví dụ thuộc lớp (cùng cách thức trình bày), người ta suy dẫn wrapper mà dùng để rút trích liệu có cấu trúc nằm nhóm trang web ví dụ Sau ta xem xét ví dụ minh họa (Hình 2): 10 Hình 34: Monitor thể bước rút trích trang web Hình 35: Các khối văn mang tin tức mà chương trình rút trích 69 Hình 36: Trang web đưọc xác định khối văn cần rút trích 4.6 Cách cài đặt chương trình Bây ta xem xét cách cài đặt môi trường hệ đìều hành Windows XP để sử dụng chương trình trình bày phần 4.5 Các bước thực sau: ™ Trước tiên ta phải cài đặt Java ™ Chạy trực tiếp file thực thi WebInfoIdentW.exe sử dụng thư viện WebInfoIdent.jar để phát triển ứng dụng riêng 4.6.1 Cài đặt Java Ta vào trang web java.sun.com tải file cài đặt J2SE Software Development Kit (SDK) v 1.4.2_08 để giúp ta tạo chạy ứng dụng J2SE Thực thi file cài đặt j2sdk1_4_2_06-windows-i586-p.exe theo bước hướng dẫn Hình 37 70 Hình 37: Cài đặt Java 71 4.6.2 Sử dụng thư viện WebInfoIdent.jar để phát triển ứng dụng Sau ta xem xét việc phát triển ứng dụng dựa thư viện rút trích khối văn mang tin tức web WebInfoIdent.jar Ứng dụng ví dụ trình bày Hình 38 nhận địa trang web cần rút trích từ đối số dòng lệnh trả trang web rút trích có tên Thu.htm Sau ta xem xét bước thực ví dụ: Khởi tạo đối tượng rút trích thơng tin trang web InfoPage sau: WebInfoIdent InfoPage = new WebInfoIdent(PageAdd, monitor), PageAdd địa trang web cần rút trích cịn monitor thơng số thể cơng việc thực q trình rút trích bao gồm lỗi có Để tham khảo đến đoạn văn rút trích ta dùng phương thức getInfoList InfoPage Thông qua danh sách trả phương thức getInfoList mà ta sửa đổi nội dung đoạn văn rút trích Ví dụ Hình 38, phương thức setInfoList thông qua danh sách trả getInfoList thay đổi màu đoạn văn rút trích Cuối ta sử dụng phương thức getPageSource đối tượng InfoPage lấy đoạn mã Html trang web rút trích import javax.swing.*; import javax.swing.*; import java.util.LinkedList; import org.htmlparser.*; import java.io.*; import WebInfo.*; public class TestWebInfoIdent { private static void setInfoList(LinkedList InfoList) { String start; for (int i = 0; i < InfoList.size(); i++) { Node CurNode = ( (Node) InfoList.get(i)); if (i % == 0) start = ""; else 72 start = ""; String end = ""; CurNode.setText(start + CurNode.getText() + end); } } public static void main(String[] args) { try { if (args.length != 1) System.exit(0); String PageAdd = args[0]; JTextArea monitor = new JTextArea(); WebInfoIdent InfoPage = new WebInfoIdent(PageAdd, monitor); String AppPath = System.getProperty("user.dir"); File tmpFile = new File(AppPath + "\\Thu.htm"); if (tmpFile.exists()) { tmpFile.delete(); tmpFile.createNewFile(); } setInfoList(InfoPage.getInfoList()); RandomAccessFile HTMLfile = new RandomAccessFile(tmpFile, "rw"); HTMLfile.writeBytes(InfoPage.getPageSource()); HTMLfile.close(); } catch (Exception e1) { e1.printStackTrace(); } } } Hình 38: Chương trình ví dụ cho việc sử dụng thư viện WebInfoIdent.jar 73 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Xác định rút trích thơng tin web vấn đề xem xét nhiều cơng trình nghiên cứu giới Hướng tiếp cận giải vấn đề phần lớn tập trung vào việc xác định định dạng thông tin cần rút trích trước, sau xem xét xem trang web cần rút trích có thành phần thoả mãn định dạng hay khơng, thành phần thoả mãn rút trích Hướng tiếp cận cho phép rút trích thơng tin với độ xác cao, nhiên việc định dạng thơng tin cần rút trích ln phải cập nhật thường xun cấu trúc trình bày thơng tin trang web thay đổi Việc cập nhật tốn nhiều công sức thời gian, tính lâu dài chi phí tốn cho việc cập nhật bảo trì lớn nhiều so với kết mà mang lại Khác với cách tiếp cận người sử dụng phải xác định trước định dạng thông tin cần rút trích, có hướng tiếp cận khác lại tập trung vào việc rút trích thơng tin dựa theo quan điểm người đưa tin Có nghĩa khơng rút thơng tin theo định dạng mà muốn lấy mà rút thông tin theo định dạng mà người đưa tin muốn mang đến cho người đọc Ý tưởng hướng tiếp cận cho người đưa tin muốn đăng tin phải thiết kế khung trình bày thơng tin trước, khung trình bày thơng tin thể bố cục trình bày trang tin, sau người ta đặt thơng tin cần chuyển tải đưa lên khung Những thơng tin thơng tin mà người đưa tin muốn mang đến cho người đọc, muốn rút tin ta phải biết đâu khung trình bày tin tức trang web Và ý tưởng ý tưởng mà luận văn sử dụng khơng phụ thuộc vào việc phải xác định trước định dạng thơng tin cần rút trích Do sau trang web có thay đổi cách trình bày thơng tin kết cách rút trích khơng thay đổi Mặc dù ý tưởng luận văn sử dụng, nhiên để áp dụng vào tốn mà đề tài đặt xác định rút trích khối văn mang tin tức trang web luận văn đưa giải pháp có thêm số điểm cải 74 tiến Các điểm cải tiến quan trọng liệt kê như: áp dụng phương pháp mà RoadRunner [4] dùng để rút trích liệu có cấu trúc, để thực rút trích khối văn tin tức; tự động tìm kiếm trang web có cách trình bày với trang web cần rút trích; biến đổi trang web thành cấu trúc đa phân thực so trùng cấu trúc thay so trùng trực tiếp đoạn mã Html trang web Qua kết thí nghiệm (mục 4.4) cho thấy tính tự động, độ xác độ khơng bỏ sót chương trình cao, bên cạnh thời gian thực thi chấp nhận Điều chứng tỏ giải pháp mà luận văn đưa phù hợp với yêu cầu đặt sử dụng để phát triển thành sản phẩm ứng dụng hữu ích thực tế 5.2 Hướng phát triển Thí nghiệm (mục 4.4) cho thấy kết mà chương trình đạt cao Tuy nhiên tồn số khó khăn vướng mắc mà đề tài sau phát triển tiếp cần khắc phục Xây dựng thư viện phân tích hiểu trang web cách xác Các trang web lúc sử dụng nhiều kỹ thuật phức tạp, địi hỏi việc phân tích xác cần thiết hiểu rõ phân tích trang web ta làm việc khác Sau tải trang web để thực cơng việc rút trích thay đổi nội dung nó, việc thể lại trang web thay đổi lên trình duyệt cho cách trình bày y hệt ban đầu ngoại trừ số thông tin mà ta thêm vào quan trọng Tuy nhiên luận văn gặp nhiều khó khăn việc thể này, khó khăn xuất phát từ hai lý sau đây: a Thư viện HtmlParser mà luận văn sử dụng để tải phân tích trang web chưa mạnh đủ để hiểu hết tất trang web b Các trình duyệt khơng thống việc duyệt trang web Mặt khác khơng phải trình duyệt mã nguồn mở nên gây khó khăn việc tìm hiểu để thể trang web trình duyệt 75 TÀI LIỆU THAM KHẢO [1] Toolkits for Generating Wrappers - Kuhlins, Tredwell (2002) - Papers from the International Conference on Objects, Components, Architectures, Services, and Applications for a Networked World, Pages: 184-198, ISBN:3-540-00737-7 [2] Information Extraction from World Wide Web, A Survey - Line Eikvil, Norweigan Computing Center (1999) - Report No 945, ISBN 82-539-0429-0 [3] A Brief Survey of Web Data Extraction Tools - Alberto H F Laender, Berthier A Ribeiro-Neto, Altigran S da Silva, Juliana S.Teixeira (2002) - SIGMOD Record [4] RoadRunner: Towards Automatic Data Extraction from Large Web Sites - Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo (2001) - Proceedings of 27th International Conference on Very Large Data Bases [5] Database Techniques for the World-Wide Web: A Survey - Daniela Florescu, Alon Levy, Alberto Mendelzon (1998) - SIGMOD Record [6] Learning to Extract Text-based Information from the World Wide Web - Stephen Soderland (1997) - In Proceedings of Third International Conference on Knowledge Discovery and Data Mining [7] Learning Information Extraction Rules for Semi-structured and Free Text Stephen Soderland (1999) - Machine Learning, Volume 34 , Issue 1-3, Pages: 233-272, ISSN:0885-6125 76 [8] Template-Based Wrappers in the Tsimmis System - Joachim Hammer, Hector Garcia-Molina, Svetlozar Nestorov, Ramana Yerneni , Marcus Breunig, Vasilis Vassalos (1997) - ACM SIGMOD Record, Volume 26, Issue 2, Pages: 532535 [9] WebOQL: Restructuring Documents, Databases, and Webs - Arocena (1998) In Proceedings of the 14th IEEE International Coference on Data Engineering, Pages: 22-33 [10] Wrapper Induction for Information Extraction - Nicholas Kushmerick (1997) Intl Joint Conference on Artificial Intelligence (IJCAI), ISBN:0-591-70843-4 [11] STALKER: Learning Extraction Rules for Semistructured, Web-based Information Sources - Ion Muslea, Steve Minton, Craig Knoblock (1998) - In Proceedings of the AAAI-98 workshop on AI & information integration [12] NoDoSE: A tool for Semi-Automatically Extracting Structured and Semistructured Data from Text Documents - Brad Adelberg (1998) Proceedings of the 1998 ACM SIGMOD international conference on Management of data, Pages: 283-294 [13] Conceptual-Model-Based Data Extraction from Multiple-Record Web Pages D.W Embley, D.M Campbell, Y.S Jiang, S.W Liddle, D.W Lonsdale, Y.-K Ng, R.D Smith (1999) - Data & Knowledge Engineering, Volume 31, Issue 3, Pages: 227-251, ISSN:0169-023X [14] Identifying syntactic differences between two programs - W Yang (1991) - Software-Practice & Experience Volume 21, Issue 7, Pages: 739-755, ISSN:0038-0644 77 MỤC LỤC CHƯƠNG 1: GIỚI THIỆU 1.1 Động mục tiêu việc nghiên cứu 1.2 Đóng góp luận văn 1.3 Sơ lược cấu trúc luận văn CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Tổng quan 2.2 Phát triển ngôn ngữ xây dựng wrapper 2.3 Xử lí ngơn ngữ tự nhiên 2.4 Suy dẫn wrapper (học máy – machine learning) 2.5 Mơ hình hóa liệu 2.6 Nhận dạng mẫu CHƯƠNG 3: CƠ SỞ LÍ THUYẾT 13 3.1 Giới thiệu 13 3.2 Giải thuật so trùng chuỗi .13 3.2.1 Định nghĩa phép so trùng hai chuỗi .13 3.2.2 Tổng quan giải thuật 13 3.2.3 Mô tả giải thuật so trùng hai chuỗi 15 3.3 Giải thuật so trùng hai đa phân có gốc 16 3.3.1 Định nghĩa phép so trùng hai 16 3.3.2 Tổng quan giải thuật 17 3.3.3 Mô tả giải thuật 18 CHƯƠNG 4: THIẾT KẾ VÀ HIỆN THỰC LUẬN VĂN 21 4.1 4.1.1 Phân tích yêu cầu toán phương pháp giải 21 Phân tích u cầu tốn 21 78 4.1.2 4.2 Phương pháp giải toán 22 Cấu trúc hệ thống 26 4.2.1 Biểu đồ dòng chảy liệu hệ thống mức ngữ cảnh 26 4.2.2 Biểu đồ dòng chảy liệu hệ thống mức 26 4.2.3 Biểu đồ dòng liệu mức hai trình rút trích thơng tin cho trang .29 4.2.4 Biểu đồ dòng liệu mức hai q trình rút trích thơng tin cho trang chủ 30 4.3 Các giải thuật 32 4.3.1 Phân tích trang web thành cấu trúc đa phân có gốc 32 4.3.2 Giải thuật xác định xem nút văn có phải nút tin tức hay không 35 4.3.3 Giải thuật rút trích tất khối văn mà mang tin tức trang web .36 4.3.4 Giải thuật rút trích khối văn mang tin tức cách so trùng hai trang web cho trước 37 4.3.5 Giải thuật tìm địa trang web có cách trình bày với trang web cần rút trích 47 4.3.6 Giải thuật rút trích cách so trùng trang web cần rút trích với tập trang web có cách trình bày .49 4.4 Kiểm tra phân tích kết đạt 52 4.4.1 Kiểm tra phân tích kết cho trang chủ .52 4.4.2 Kiểm tra phân tích kết cho trang 55 4.5 Cách sử dụng chương trình 68 4.6 Cách cài đặt chương trình .70 4.6.1 Cài đặt Java 70 4.6.2 Sử dụng thư viện WebInfoIdent.jar để phát triển ứng dụng 72 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 74 5.1 Kết luận .74 5.2 Hướng phát triển .75 TÀI LIỆU THAM KHẢO 76 79 DANH MỤC HÌNH VÀ BẢNG Hình 1: Nhóm trang web có cách trình bày thơng tin .10 Hình 2: Suy dẫn wrapper từ việc so trùng đoạn mã Html hai trang web 11 Hình 3: Giải thuật so trùng hai chuỗi .15 Hình 4: Ví dụ cho giải thuật so trùng hai chuỗi .16 Hình 5: Phép so trùng hai đa phân có gốc 17 Hình 6: Thể chuỗi kí tự dạng đa phân có gốc .17 Hình 7: Giải thuật so trùng hai đa phân có gốc 19 Hình 8: Hai cần so trùng minh họa giải thuật Tree_Matching 20 Hình 9: Ma trận W cho có độ sâu cấp hai A B 20 Hình 10: Ma trận T cho có độ sâu cấp hai A B 20 Hình 11: Ví dụ cho trang web rút trích thơng tin .21 Hình 12: Trang web cần rút trích thơng tin cấu trúc tương ứng 23 Hình 13: Trang web có cách trình bày thông tin cấu trúc tương ứng 24 Hình 14: Tìm khung trình bày chung hai rút trích thơng tin 25 Hình 15: Biểu đồ dịng chảy liệu hệ thống mức ngữ cảnh 26 Hình 16: Biểu đồ dịng chảy liệu hệ thống mức 28 Hình 17: Biểu đồ dịng chảy liệu mức hai q trình rút trích thơng tin cho trang 29 Hình 18: Biểu đồ dịng chảy liệu mức hai q trình rút trích thơng tin cho trang chủ .31 Hình 19: Ví dụ cho trang web cần phân tích thành đa phân có gốc 33 Hình 20: Cây đa phân có gốc tương ứng với trang web ví dụ hình 17 34 Hình 21: Giải thuật xác định xem nút văn có phải nút tin tức hay khơng .36 Hình 22: Giải thuật rút trích tất vùng tin tức trang web 37 Hình 23: Giải thuật xem xét hai nút có giống hay khơng .39 Hình 24: Bước giải thuật extractInfo 40 Hình 25: Bước giải thuật extractInfo 40 Hình 26: Bước giải thuật extractInfo 41 Hình 27: Ví dụ cho phép so trùng hai rừng 42 Hình 28: Giải thuật rút trích khối văn mang tin tức cách so trùng hai trang web cho trước .46 80 Hình 29: Giải thuật tìm địa trang web có cách trình bày với trang web cần rút trích 49 Hình 30: Giải thuật rút trích thơng tin mang tin tức trang web 52 Hình 31: Kết chạy chương trình cho trang chủ 55 Hình 32: Kết chạy chương trình cho trang 67 Hình 33: Giao diện chương trình rút khối văn mang tin tức web 68 Hình 34: Monitor thể bước rút trích trang web 69 Hình 35: Các khối văn mang tin tức mà chương trình rút trích .69 Hình 36: Trang web đưọc xác định khối văn cần rút trích 70 Hình 37: Cài đặt Java 71 Hình 38: Chương trình ví dụ cho việc sử dụng thư viện WebInfoIdent.jar .73 81 TÓM TẮT Hiện trang web chứa đựng nhiều khối thơng tin khác phím thực đơn, hình ảnh quảng cáo, tin tức, Tuy nhiên khối thơng tin có người đọc hiểu phân biệt được, cịn máy tính khơng Từ vấn đề đó, yêu cầu đề tài đặt làm để xác định rút trích tự động khối văn mang tin tức trang web báo chí Xác định rút trích hiểu cách ta phải cho phép tham khảo đến đoạn mã Html trang web tương ứng với khối văn cần rút trích, để thơng qua mà người ta tuỳ theo yêu cầu cụ thể thay đổi đoạn mã Html Ta nhận xét thấy hầu hết trang web nay, đặc biệt trang web báo chí, ln tách cấu trúc trang web thành hai phần tách biệt: phần thơng tin cần trình bày phần cách thức trình bày thơng tin Phần thơng tin cần trình bày trang web bao gồm nhiều khối, điều quan trọng khối văn chứa khối văn mang tin tức phần mà ta cần rút trích Cịn phần hình thức trình bày thơng tin trang web cách mà người ta xếp thơng tin cần trình bày Từ nhận xét trên, vấn đề rút trích khối văn mang tin tức trang web báo chí trở thành vấn đề xác định cách thức trình bày thơng tin trang web Bởi cần xác định cách thức trình bày thơng tin, ta xác định đâu vùng thơng tin cần trình bày từ suy đâu khối văn mang tin tức mà ta cần rút trích Tuy nhiên khó khăn đặt cách thức trình bày thơng tin trang web web site khác khác Thậm chí web site người ta thường xun thay đổi cách thức trình bày thơng tin để đáp ứng nhu cầu phát triển Để giải vấn đề này, có giải pháp nêu mà nguyên tắc dựa việc nhận xét trang web thuộc chủ đề web site báo chí thơng thường có cách thức trình bày thơng tin giống Dựa vào tính chất này, ta tìm trang web mà có cách trình bày thơng tin với trang web cần rút trích, sau cách so trùng hai trang web ta suy cách thức trình bày thơng tin chung hai trang web ta giải vấn đề đặt Với phương pháp giải trình bày độ xác độ khơng bỏ sót việc rút trích khối văn mang tin tức trang web thực tế 90% 99% (mục 4.4.2) Mặt khác q trình thực rút trích phương pháp khơng phụ thuộc vào cách thức trình bày thông tin đa dạng, phong phú 82 thay đổi web site Điều làm cho q trình thực rút trích tối thiểu hóa can thiệp người tiến tới gần tự động hoàn toàn 83 ... văn mang tin tức Ở có vấn đề đặt là: xác định rút trích khối văn mang tin tức trang web? Để thấy điều này, ta xem xét ví dụ Hình 11 mà thể trang web cần xác định rút trích khối văn mang tin tức. .. thuật rút trích khối văn mang tin tức cách so trùng hai cấu trúc đa phân hai trang web (mục 4.3.4) ƒ Ngoài mục tiêu rút trích khối văn mang tin tức trang web, giải pháp mà luận văn đưa cịn rút. .. Phân tích địa trang web cần rút trích Rút trích thơng tin cho trang web (trang web bao gồm trang web trung gian trang web tin tức chi tiết web site tin tức) Rút trích thơng tin cho trang web chủ

Ngày đăng: 16/04/2021, 04:17

Tài liệu cùng người dùng

Tài liệu liên quan