Làm thế nào ta có thể gán một định dạng với một ý nghĩa nào đó?

Một phần của tài liệu TỔNG QUAN (Trang 26 - 28)

Với các phân tích ở phần trên, chúng ta hoàn toàn có thể gán một ý nghĩa cho một định dạng nào đó nhờ vào vết của định dạng đó.

Để lưu vết này, chúng tôi quyết định sử dụng XML với ngôn ngữ truy vấn rất mạnh là XPath vì những lý do sau:

• HTML có thể chuyển đổi thành XML, VS.NET cũng hỗ trợ rất tốt việc chuyển đổi này.

• Với XML, chúng ta có thể dễ dàng tổ chức file HTML theo dạng cây để dễ dàng hơn cho việc phân tích.

• XML hỗ trợ XPath, một ngôn ngữ truy vấn rất mạnh trên XML. Với XPath chúng ta có thể thực hiện việc truy vấn, lấy nội dung rất dễ dàng và nhanh chóng. Chẳng hạn như muốn lấy tiêu đề của các tin, chúng ta có thể thực hiện câu truy vấn:

html/body/table/tr/td/table/tr/td/a[@class="TitleFront"]

hay lấy nội dung tóm tắt

html/body/table/tr/td/table/tr/td[@class="LeadFront"]

• XPath là một ngôn ngữ truy vấn, do đó với hệ thống cú pháp của XPath, chúng ta có thể truy vấn hầu như tất cả những thông tin cho dù là phức tạp nhất (kể cả việc tính toán, gọi hàm…).

VD: Để lấy nội dung của trang VNN - Đầu tư chứng khoán - Hướng dẫn đầu tư, chúng ta có thể thực hiện câu truy vấn khá phức tạp sau:

html/body/table[4]/tr/td/p/following-sibling::*

hay lấy tiêu đề của trang VCBS – Tin chứng khoán & Cổ phần hóa

html/body/table/tr/td/table[2]/tbody/tr[position()>2 and position()<=11]//a

4 Kết luận

Với những điểm đã nêu trên, việc thu thập thông tin từ các trang web hoàn toàn khả thi. Và với XML và XPath, chúng ta hoàn toàn có thể mở rộng, truy vấn với bất kỳ loại trang web nào chứ không riêng gì đối với những trang tin tức.

Một phần của tài liệu TỔNG QUAN (Trang 26 - 28)

Tải bản đầy đủ (DOCX)

(28 trang)
w