Phân loại khai phá web

Một phần của tài liệu nghiên cứu các phương pháp và đề xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng việt không lành mạnh (Trang 25 - 26)

4. Phạm vi ứng dụng

2.1.2.2.Phân loại khai phá web

Khai phá Web được phân thành 03 lĩnh vực chính: khai phá nội dung web, khai phá cấu trúc web và khai phá sửdụng web.

Hình 2.1– Sơ đồlĩnh vực khai phá web [2]

Khai phá web

Khai phá nội dung trang web

Khai phá cấu trúc web Khai phá sửdụng web

Khai phá nội dung trang web

Khai phá các mẫu truy cập Tối ưu hóa kết

quảtrảvề

Khai phá các xu

Theo như sơ đồtrên, thấy được rằng phân loại khai phá web có nhiều lĩnh vực nhưng nội dung chính của luận văn muốn đềcập ở đâylà khai phá nội dung trang web và khai phá cấu trúc trang web.

−Khai phá nội dung trang web: Phần lớn nội dung chính của trang web được chứa trong nội dung văn bản của trang web đó. Khai phá nội dung trang web liên quan đến việc truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết hay văn bản bán cấu trúc.

−Khai phá cấu trúc trang web: Nhờ vào các kết nối giữa các văn bản siêu liên kết, World Wide Web chứa đựng nhiều thông tin hơn so với tập các văn bản nội dung trang web. Ví dụ, số lượng liên kết trỏ tới 01 trang web được coi là một chỉ số về mức quan trọng của trang web đó, đồng thời, các liên kết đi ra từ 01 trang web chỉ ra rằng, các trang đích có nội dung liên quan đến các chủ đề được đề cập trong trang hiện tại. Khai phá cấu trúc web là các quá trình, xử lý, nhằm rút ra các tri thức từ cách tổchức và liên kết giữa các tham chiếu của các trang web.

Một phần của tài liệu nghiên cứu các phương pháp và đề xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng việt không lành mạnh (Trang 25 - 26)