Phân loại khai phá Web

Một phần của tài liệu sơ lược về xếp hạng các trường đại học (Trang 53 - 55)

Khai phá Web có thể được phân chia thành 3 lĩnh vực chính: Khai phá nội dung Web (Web Content Mining), khai phá cấu trúc Web (Web Structure Mining), khai phá hành vi sử dụng Web (Web Usage Mining).

Hình 2.2: Phân loại khai phá Web

Khai phá nội dung Web

Khai phá nội dung Web là một quá trình tự động, được sử dụng để khảo sát dữ liệu được thu thập bởi các công cụ tìm kiếm. Nó là một quá trình khám phá thông tin hoặc tài nguyên từ hàng triệu nguồn trên World Wide Web. Có hai hướng tiếp cận chính trong khai phá nội dung: Hướng tiếp cận dựa trên tác nhân (Agent-Based Approach) và hướng tiếp cận cơ sở dữ liệu (Database Approach).

•Hướng tiếp cận dựa trên tác nhân:

Hướng tiếp cận dựa trên tác nhân liên quan đến các hệ thống trí tuệ nhân tạo có thể hoạt động tự động hoặc bán tự động thay mặt người dùng, để khám

Khai phá Web

Khai phá

phá và tổ chức thông tin có trên Web. Hướng tiếp cận dựa trên tác nhân có thể chia thành 3 loại chính (Hình 2.3)

Hình 2.3: Phân loại khai phá nội dung Web theo hướng tiếp cận dựa trên tác nhân.

- Tác nhân tìm kiếm thông minh (Intelligent Search Agents) sử dụng những đặc điểm của tên miền (domain characteristics) và tiểu sử người dùng (user profiles) để tổ chức và phân tích các thông tin.

- Tác nhân phân loại / lọc thông tin (Information Filtering / Categorization Agents) sử dụng các kỹ thuật truy tìm thông tin khác nhau và đặc tính của các tài liệu siêu văn bản mở rộng để tổ chức và lọc thông tin đã truy tìm.

- Tác nhân Web cá nhân (Personalized Web) học các sở thích của người sử dụng (user preferences) và khai phá thông tin Web dựa trên các sở thích này.

•Hướng tiếp cận dựa trên cơ sở dữ liệu

o Hướng tiếp cận dựa trên cơ sở dữ liệu tập trung vào tích hợp và tổ

chức dữ liệu không đồng nhất và bán cấu trúc trên Web thành tập hợp các tài nguyên ở mức cao và có cấu trúc hơn, như trong cơ sở dữ liệu quan hệ. Với

Khai thác nội dung web theo hướng tiếp cận dựa

trên tác nhân

Tác nhân tìm kiếm thông

cơ chế truy vấn và các kỹ thuật khai phá dữ liệu, các nguồn tài nguyên được tổ chức lại để có thể truy xuất và phân tích chúng.

Khai phá cấu trúc Web

Khai phá cấu trúc Web là một quá trình phát hiện các trang web có trọng lượng (authoritative) và có sự ảnh hưởng nhất định. Thông thường, tầm quan trọng của một trang Web được dựa vào số liên kết chỉ đến trang đó. Các phương pháp PageRank và CLEVER sử dụng thông tin được truyền đạt bởi các liên kết để tìm ra trang Web có ảnh hưởng lớn [12]. Khai phá cấu trúc Web sẽ được trình bày chi tiết hơn ở các chương sau.

Khai phá hành vi sử dụng Web

Khai phá hành vi sử dụng Web là một quá trình khám phá các mẫu truy nhập của người sử dụng bằng cách phân tích dữ liệu trong các tệp log truy nhập, trong đó các tệp log này được tự động tạo ra bởi các máy chủ Web. Bằng việc phân tích các dữ liệu này, nhiều tổ chức có khả năng quyết định giá trị vòng đời của khách hàng, các chiến thuật marketing và hiệu quả của các chiến dịch quảng cáo trong các thứ khác. Hơn thế nữa, với các tri thức giá trị đó, các tổ chức có thể sửa đổi các website và nhắm tới nhóm người dùng cụ thể cho chiến thuật marketing của họ.

Nhiều công cụ khai phá dữ liệu khác nhau sẵn có trên thị trường để khám phá các mẫu và phân tích chúng từ các dữ liệu nhận được trong các tệp log truy nhập. Thí dụ, Webminer tự động phát hiện các luật liên kết và các mẫu tiếp theo từ các logs truy nhập; hệ thống WebViz hình dung các mẫu đường dẫn, cho phép các nhà phân tích hiểu và diễn giải các tri thức ẩn sau dữ liệu [12]. Ngoài ra, kỹ thuật như OLAP tạo ra khối dữ liệu (data cubes), cũng được sử dụng để đơn giản hóa việc phân tích các thống kê sử dụng từ các log truy nhập.

Một phần của tài liệu sơ lược về xếp hạng các trường đại học (Trang 53 - 55)

Tải bản đầy đủ (DOC)

(123 trang)
w