4. Phạm vi ứng dụng
2.1.2.2. Phân loại khai phá web
Khai phá Web được phân thành 03 lĩnh vực chính: khai phá nội dung web, khai phá cấu trúc web và khai phá sửdụng web.
Hình 2.1– Sơ đồlĩnh vực khai phá web [2]
Khai phá web
Khai phá nội dung trang web
Khai phá cấu trúc web Khai phá sửdụng web
Khai phá nội dung trang web
Khai phá các mẫu truy cập Tối ưu hóa kết
quảtrảvề
Khai phá các xu
Theo như sơ đồtrên, thấy được rằng phân loại khai phá web có nhiều lĩnh vực nhưng nội dung chính của luận văn muốn đềcập ở đâylà khai phá nội dung trang web và khai phá cấu trúc trang web.
−Khai phá nội dung trang web: Phần lớn nội dung chính của trang web được chứa trong nội dung văn bản của trang web đó. Khai phá nội dung trang web liên quan đến việc truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết hay văn bản bán cấu trúc.
−Khai phá cấu trúc trang web: Nhờ vào các kết nối giữa các văn bản siêu liên kết, World Wide Web chứa đựng nhiều thông tin hơn so với tập các văn bản nội dung trang web. Ví dụ, số lượng liên kết trỏ tới 01 trang web được coi là một chỉ số về mức quan trọng của trang web đó, đồng thời, các liên kết đi ra từ 01 trang web chỉ ra rằng, các trang đích có nội dung liên quan đến các chủ đề được đề cập trong trang hiện tại. Khai phá cấu trúc web là các quá trình, xử lý, nhằm rút ra các tri thức từ cách tổchức và liên kết giữa các tham chiếu của các trang web.