Hình 3-18. Sơ đồ class của các Extractor

kế trên cho phép dễ dàng mở rộng thêm các phương pháp lấy dữ liệu như: Perl Expression, jQuery Selector.

Sử dụng XPATH để lấy dữ liệu thông qua hai helper pDOM và pXPATH.

Khác với Expression Extractor, XPATH cần phải được thực hiện các bước chuyển đổi từ input do crawler tạo ra trước khi query lấy dữ liệu.

Khi thực hiện lệnh load, Extractor tạo một DOMDocument bằng pDOM, và từ DOMDocument đó tạo một DOMXPath để query dữ liệu

<xpath>//div[@class=”title”]|</xpath>

Extractor sẽ thực hiện lệnh query trên DOMDocument hiện tại, tìm kiếm các div có thuộc tính class là title.

KẾT LUẬN

Các kết quả đạt được

Luận văn đã nêu lên được những nét cơ bản của bài toán khai thác dữ liệu trên web, các kỹ thuật phân tích, bóc tách và trích xuất dữ liệu trên nội dung HTML. Từ đó đưa ra giải pháp và hiện thực một ứng dụng hỗ trợ người dùng nhập liệu nhằm giải thiểu tiền bạc, thời gian và công sức mà vẫn đảm bảo được lượng thông tin như mong muốn.

Các hạn chế của ứng dụng

Mặc dù DESS đã đạt được một số kết quả nhất định nhưng do khả năng cũng như điều kiện thời gian không cho phép nên vẫn còn tồn tại một vài hạn chế chưa thể khắc phục:

1. Khó sử dụng: Để có thể giải quyết được một bài toán trích xuất dữ liệu trên một website cụ thể, người sử dụng DESS cần phải có kiến thức về Web, HTML, Xpath…

2. Thư viện HtmlInput chưa thật sự hoạt động tốt đối với các trang web phức tạp, dẫn tới kết quả có thể bị sai lệch.

Hướng phát triển

Các hướng phát triển của đề tài mà ta có thể nghĩ đến:

1. Tích hợp một web browser lên ứng dụng cho phép người dùng lựa chọn thông tin cần trích xuất mà không cần đặc tả XPath.

2. Áp dụng các kỹ thuật tìm kiếm thông minh giúp ứng dụng thu thập và chắt lọc thông tin có chất lượng tốt.

TÀI LIỆU THAM KHẢO

Website

[1] Wikipedia, http://www.wikipedia.org (01-Tháng Năm-2013)

[2] World Wide Web Consortium (W3C), http://www.w3.org (01-Tháng Năm- 2013)

[3] HTML Tidy project, http://tidy.sourceforge.net/ (01-Tháng Năm-2013)

[4] cURL project, http://curl.haxx.se/ (01-Tháng Năm-2013)

[5] CodeIgniter Framework, http://codeigniter.com/ (01-Tháng Năm-2013)

[6] Mozenda software, http://www.mozenda.com/ (01-Tháng Năm-2013)

Tài liệu viết

[7] Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA.

[8] Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA.

[9] Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98.

[10] Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden

Value. University of Michigan, USA.

[11] Stephen Soderland. Learning to Extract Text-based Information from the

World Wide Web. Department of Computer Science & Engineering,

University of Washington.

[12] Đinh Mạnh Tường. Cấu trúc dữ liệu và thuật toán. Nhà xuất bản khoa học và kỹ thuật 2000.

Hình 3-18. Sơ đồ class của các Extractor

Hình 2-4. Một trang web danh bạ

Hình 2-5. Sơ đồ Use Case của ứng dụng DESS