Truy suất tài liệu web63 - đồ án công nghệ thông t- 123docz.net

- Lấy một trang Web sử dụng thư viện Net

Lớp Page chứa thông tin của trang Web

page = Net.GetURL("http://yahoo.com ", null, null, null);

- Xác định một nhãn theo tên

Lớp PieceSet chứa thông tin về tập cỏc nhón

pieceSet = page.getElem(); // lấy tập tất cả cỏc nhón của trang.

Cỏc nhãn liên kết với nhau bằng một danh sách thực thi bằng lớp Cell

public Piece pce; // nhãn

public Cell prev, next; // con trỏ trước sau public Cell prev, next; // con trỏ trước sau

Chọn một nhãn theo tên

Cell c = PieceSet.OpElem(pieceSet, tagName, startCell); piece = c.pce;

// Chọn một nhãn trong một danh sách nhãn pieceSet với tên tagName, bắt đầu từ cell startCell.

Chọn tập cỏc nhón theo tên

pieceSet = OpElem(PieceSet x, String name)

3.2.4 Mô đun giao diện người sử dụng

Hiển thị thông tin trang web lấy về dạng theo trình duyệt và dạng text để kỹ sư tri thức viết kịch bản DEL.

Mỗi một wrapper chương trình sẽ hiển thị thành một cây với cỏc nỳt con là DEL script , các trang web đầu vào, và kết quả.

Chương IV : Đánh giá và Kết luận

Wrapper là một vấn đề quen thuộc và có rất nhiều dự án xây dựng. Cách xây dựng wrapper cũng rất đa dạng. Mỗi wrapper đã xây dựng đều có những ưu nhược điểm riêng. Để hoàn thiện wrapper trong dự án này đòi hỏi phải tập trung nhiều công sức hơn nữa. Wrapper mà chúng tôi xây dựng. Tuy nhiên nó sẽ giúp chúng ta hiểu ra hơn về cách xây dựng cũng như các kỹ thuật. Hơn nữa chúng ta có thể cài đặt các wrapper với chức năng phù hợp với hệ thống tích hợp dữ liệu này. Trong đồ án này phương pháp xây dựng được lựa chọn là bán tự động. Lý do chọn phương pháp này vớ nó giảm bớt được công việc xây dưng wrapper hơn so với phương pháp thủ công, và cũng linh hoạt hơn phương pháp tự động vốn không có sự tham gia của con người. Có nhiều dự án cũng đã chọn cách xây dựng theo phương pháp này như W4F, AranusWPR, XWrap, … Ngôn ngữ lựa chọn để biểu diễn định nghĩa thông tin trích chọn là kịch bản DEL. Có nhiều dự án đã đưa ra các ngôn ngữ trích chọn riêng như W4F có HEL (HTML Extraction Language), AranusWPR có NF, Jedi có ngôn ngữ Jedi. Ngôn ngữ DEL là ngôn ngữ tách thông tin. Đối tượng của nó không chỉ là các tài liệu Web mà cả các tài liệu văn bản thông thường. Đó cú một số sử dụng ngôn ngữ này để xây dựng wrapper. DEL có một số ưu điểm so với các ngôn ngữ khác.

- Biểu diễn dưới dạng XML - Một chuẩn biểu diễn thông tin có thể xử lý dễ dàng.

- Cấu trúc dữ liệu tách có thể phức tạp được định nghĩa ngay trong DEL. HEL chỉ lưu thông tin vào một danh sách sau đó phải dùng một cơ chế ánh xạ để đưa ra cấu trúc thông tin khác.

Do có hạn chế về mặt thời gian, vấn đề xây dựng wrapper là khá phức tạp, nên phần cài đặt chỉ mang tính chất thử nghiệm. Để hoàn thiện thành một sản phẩm ứng dụng cần phải tinh chỉnh nhiều

Hướng phát triển của hệ thống

- Xây dựng một giao diện thân thiện hơn cho phép tự động sinh mã DEL - Tận dụng thông tin về truy vấn để giảm bớt khối lượng thông tin trích

Các tài liệu tham khảo

1. The TSIMMIS Approach to Mediation: Data Models and Languages. Hector Garcia Molina, Yannis Papakonstantinou, Dallan Quass, Anand Rajaraman,

Yehoshua Sagiv, Jeffrey Ullman, Vasilis Vassalos, Jennifer Widom. Stanford University, Stanford CA 94350 USA

2. Template-Based Wrappers in the tsimmis System

Joachim Hammer, Hector Garcia-Molina, Svetlozar Nestorov, Ramana Yerneni, Marcus Breunig, Vasilis Vassalos.Department of Computer Science. Stanford University, Stanford CA 94350 USA

3. Information Extraction from World Wide Web – Asurvey. Line Eikvil

4. Extraction of Web information using W4F wrapper factory and XML-QL Query language. Deepali Bhandari, Philadelphia, Pennsylvania (August, 1999)

5. Effective Web Data Extraction with Standard XML Technologies. Jussi Myllymaki. IBM Almaden Research Center. 650 Harry Road.San Jose, CA 95120, USA

6. Don’t Scrap It, Wrap It! A Wrapper Architecture for Legacy Data Sources. Mary Tork Roth, Peter Schwarz, , IBM Almaden Research Center.

7. Wrapper Generation forWeb Accessible Data Sources. Jean-Robert Gruser, Louiqa Raschid, Mar´ýa Esther Vidal, Laura Bright. University of Maryland College Park, MD 20742

8. Semi-automaticWrapper Generation for Internet Information Sources. Naveen Ashish and Craig Knoblock. Information Sciences Institute and Department of Computer Science. University of Southern California 4676 AdmiraltyWay, Marina del Rey, CA 90292

10. Semi-Automatic Wrapper Generation for Commercial

Web Sources. Alberto Pan1, Juan Raposo2, Manuel Álvarez2, Justo Hidalgo1 and Angel Viủa2. 1Denodo Technologies. 2Communications and Information Technology Department-University of A Coruủa

11. Rapper: A Wrapper Generator with Linguistic Knowledge. David Mattox, Len Seligman, Ken smith. The MITRE Corporation. 1820 Dolley Maidson.

12. NoDoSE-A tool for Semi-Automatically Extracting Structured and Semistructured Data from Text Documents. Brad Adelberg.

13. A Flexible MetaWrapper Interface for Autonomous Distributed Information Sources. Louiqa Raschid, Maria Esther Vidal, Jean-Robert Gruser. University of Maryland. College Park.

14. A Wrapper Generator for Integrated Information Retrieval Min-Huang Ho, Yue-Shan Chang, Wen-Chen Sun, Shyan-Ming Yuan. Department of Computer and Information Science, National Chiao Tung University. Department of Electronic Engineering, Ming-Hsin Institute of Technology. Embedded System Lab, Institute for Information Industry

15. Automatic Wrapper Generation for Web Search Engines. Boris Chidlovskii, Jon Ragetlli, and Maarten de Rijke. Xerox Research Centre Europe, Chemin de Maupertuis, 38240 Meylan, France.

16. Semi – Automatic wrapper generation and adaption. Living with heterogeneity in a market environment. Michael Christoffel, Bethina Schmitt, Jỹrgen Schneider Institute for Program Structures and Data Organization, Universitọt Karlsruhe, Karlsruhe, Germany.

17. Extracting Semistructured Information from the Web J. Hammer, H. Garcia- Molina, J. Cho, R. Aranha, and A. Crespo. Department of Computer Science. Stanford University. Stanford, CA 94305-9040

18. The ARANEUS wrapper toolkit: A tutorial. Valter crescenzi, Giansalvatore Mecca. Universita di Roma Tre.

20. WyiWyg Web Wrapper Factory (W4F). Arnaud Sahuguet. Department of Computer and Information Science. University of Pennsylvania.

21. WebL - A Programming Language for theWeb. Hannes Marais. Compaq Systems Research Center (SRC)

22. XML Syntax for XQuery 1.0 (XQueryX). W3C Working Draft 07 June 2001 23. DEL - Data Extraction Language. W3C Note 31 October 2001.

MỤC LỤC

LỜI GIỚI THIỆU1...

CHƯƠNG 1. GIỚI THIỆU2...

1.1. Các hệ thống tích hợp dữ liệu2...

1.2. Web và vấn đề khai thác thông tin từ Web3...

1.2.1. Tài liệu web3...

1.2.2. Bé sinh wrapper4...

1.3. Một số dự án xây dựng wrapper trên Web8...

1.4. Kiến trúc hệ thống BKDATIS9...

1.4.1. Giới thiệu hệ thống BKDATIS9...

1.4.2. Kiến trúc hệ thống BKDATIS11...11

CHƯƠNG II. CƠ SỞ LÝ THUYẾT14...14

2.1. Các hệ thống tích hợp dữ liệu14...14

2.1.1. Dữ liệu bán cấu trúc biểu diễn bởi XML14...14

2.2. Công cụ truy vấn XML: XQuery17...17

2.2.1. Giới thiệu17...17

2.2.2. Cú pháp biểu thức truy vấn18...18

2.2.3. Hướng tiếp cận theo trường hợp sử dông24...24

2.2.4. XqueryX: Cú pháp XML cho Xquery27...27

2.3. DEL - Ngôn ngữ trích chọn dữ liệu32...32

2.3.1. Các ngôn ngữ kích bản tách dữ liệu trong wrapper32...32

2.3.2. Giới thiệu DEL35...35

2.3.3. Định nghĩa ngôn ngữ trích dữ liệu35...35

2.3.4. Ví dụ về ngôn ngữ trích chọn dữ liệu45...45

2.3.5. DTD của DEL49...49

2.4. Mô hình truy xuất dữ liệu Web51...51

2.4.1. Lấy nội dung trang web về51...51

CHƯƠNG III. CÀI ĐẶT MÔ ĐUN WRAPPER TRÊN HỆ THỐNG TÍCH

HỢP DỮ LIỆU60...60

3.1. Mô hình logic60...60

3.2. Cài đặt61...61

3.1.1. Mô đun phân tích truy vấn61...61

3.2.2. Mô đun tách dữ liệu62...62

3.2.3. Truy suất tài liệu web63...63

3.2.4. Mô đun giao diện người sử dông64...64

CHƯƠNG IV. ĐÁNH GIÁ VÀ KẾT LUẬN67...67