Khai phá nội dung Web

Khai phá nội dung Web tập trung vào việc khám phá một cách tự động nguồn thông tin có giá trị trực tuyến. Không giống như khai phá sử dụng Web và cấu trúc Web, khai phá nội dung Web tập trung vào nội dung của các trang Web, không chỉ đơn thuần là văn bản đơn giản mà còn có thể là dữ liệu đa phương tiện như âm thanh, hình ảnh, phần biến đối dữ liệu và siêu liên kết,....

Trong lĩnh vực khai phá Web, khai phá nội dung Web được xem xét như là kỹ thuật KPDL đối với CSDL quan hệ, bởi nó có thể phát hiện ra các kiểu tương tự của tri thức từ kho dữ liệu không cấu trúc trong các tài liệu Web. Nhiều tài liệu Web là nữa cấu trúc (như HTML) hoặc dữ liệu có cấu trúc (như dữ liệu trong các bảng hoặc CSDL tạo ra các trang HTML) nhưng phần đa dữ liệu văn bản là không cấu trúc. Đặc điểm không cấu trúc của dữ liệu đặt ra cho việc khai phá nội dung Web những nhiệm vụ phức tạp và thách thức.

Web mining Web content mining Web Structure mining Web Usage mining Web Page Content Mining Search Result Mining Customized Usage Tracking General Access Pattern Tracking

Khai phá nội dung Web có thể được tiếp cận theo 2 cách khác nhau: Tìm kiếm thông tin và KPDL trong CSDL lớn. KPDL đa phương tiện là một phần của khai phá nội dung Web, nó hứa hẹn việc khai thác được các thông tin và tri thức ở mức cao từ nguồn đa phương tiện trực tuyến rộng lớn. KPDL đa phương tiện trên Web gần đây đã thu hút sự quan tâm của nhiều nhà nghiên cứu. Mục đích là làm ra một khung thống nhất đối với việc thể hiện, giải quyết bài toán và huấn luyện dựa vào đa phương tiện. Đây thực sự là một thách thức, lĩnh vực nghiên cứu này vẫn còn là ở thời kỳ sơ khai, nhiều việc đang đợi thực hiện.

Có nhiều cách tiếp cận khác nhau về khai phá nội dung Web, song trong luận văn này sẽ xem xét dưới 2 góc độ: Khai phá kết quả tìm kiếm và khai phá nội dung trang HTML.

Lợi ích của khai phá Web

Phân cụm dựa trên lưới