Chương 3. KHAI PHÁ DỮ LIỆU WEB
3.3. Khai phá cấu trúc Web
3.3.2. Khai phá và quản lý cộng đồng Web
Cộng đồng Web là một nhóm gồm các trang Web chia sẽ chung những vấn đề mà người dùng quan tâm. Các thành viên của cộng đông Web có thể không biết tình trạng tồn tại của mỗi trang (và có thể thậm chí không biết sự tồn tại của cộng đồng). Nhận biết được các cộng đồng Web, hiểu được sự phát triển và những đặc trưng của các cộng đồng Web là rất quan trọng. Việc xác định và hiểu các cộng đồng trên Web có thể được xem như việc khai phá và quản lý Web.
Hình 3.13. Cộng đồng Web Đặc điểm của cộng đồng Web:
- Các trang Web trong cùng một cộng đồng sẽ “tương tự” với nhau hơn các trang Web ngoài cộng đồng.
- Mỗi cộng đồng Web sẽ tạo thành một cụm các trang Web.
- Cỏc cộng đồng Web được xỏc định một cỏch rừ ràng, tất cả mọi người đều biết, như các nguồn tài nguyên được liệt kê bởi Yahoo.
- Cộng đồng Web được xác định hoàn chỉnh: Chúng là những cộng đồng bất ngờ xuất hiện.
Cộng đồng Web ngày càng được mọi người quan tâm và có nhiều ứng dụng trong thực tiễn. Vì vậy, việc nghiên cứu các phương pháp khám phá cộng đồng là rất có ý nghĩa to lớn trong thực tiễn. Để trích dẫn ra được các cộng đồng ẩn, ta có thể phân tích đồ thị Web. Có nhiều phương pháp để chứng thực cộng đồng như thuật toán tìm kiếm theo chủ đề HITS, luồng cực đại và nhát cắt cực tiểu, thuật toán PageRank,...
3.3.2.1. Thuật toán PageRank
Google dựa trên thuật toán PageRank [brin98], nó lập chỉ mục các liên kết giữa các Web site và thể hiện một liên kết từ A đến B như là xác nhận của B bởi A. Các liên kết có những giá trị khác nhau. Nếu A có nhiều liên kết tới nó và C có ít các liên kết tới nó thì một liên kết từ A đến B có giá trị hơn một liên kết từ C đến B. Giá trị được xác định như thế được gọi là PageRank của một trang và xác định thứ tự sắp xếp của nó trong các kết quả tìm kiếm (PageRank được sử dụng trong phép cộng để quy ước chỉ số văn bản để tạo ra các kết quả tìm kiếm chính xác cao). Các liên kết có thể được phân tích chính xác và hiệu quả hơn đối với khối lượng chu chuyển hoặc khung nhìn trang và trở thành độ đo của sự thành công và việc biến đối thứ hạng của các trang.
Hình 3.14. Kết quả của thuật toán PageRank
PageRank không đơn giản chỉ dựa trên tổng số các liên kết đến. Các tiếp cận cơ bản của PageRank là một tài liệu trong thực tế được xét đến quan trọng
hơn là các tài liệu liên kết tới nó, nhưng những liên kết về (tới nó) không bằng nhau về số lượng. Một tài liệu xếp thứ hạng cao trong các phần tử của PageRank nếu như có các tài liệu thứ hạng cao khác liên kết tới nó. Cho nên trong khái niệm PageRank, thứ hạng của một tài liệu được dựa vào thứ hạng cao của các tài liệu liên kết tới nó. Thứ hạng ngược lại của chúng được dựa vào thứ hạng thấp của các tài liệu liên kết tới chúng.
3.3.2.2. Phương pháp phân cụm nhờ thuật toán HITS
Thuật toán HITS (Hypertext-Induced Topic Selection) do Kleinberg đề xuất, là thuật toán phát triển hơn trong việc xếp thứ hạng tài liệu dựa trên thông tin liên kết giữa tập các tài liệu.
Định nghĩa:
- Authority: Là các trang cung cấp thông tin quan trọng, tin cậy dựa trên các chủ đề đưa ra.
- Hub: Là các trang chứa các liên kết đến authorities
- Bậc trong: Là số các liên kết đến một nút, được dùng để đo độ ủy quyền.
- Bậc ngoài: Là số các liên kết đi ra từ một nút, nó được sử dụng để đo mức độ trung tâm.
Trong đó: Mỗi Hub trỏ đến nhiều Authority, mỗi Authority thì được trỏ đến bởi nhiều Hub. Chúng kết hợp với nhau tạo thành đồ thi phân đôi.
Hình 3.15. Đồ thị phân đôi của Hub và Authority
Các Authority and hub thể hiện một quan hệ tác động qua lại để tăng cường lực lượng. Nghĩa là một Hub sẽ tốt hơn nếu nó trỏ đến các Authority tốt và ngược lại một Authority sẽ tốt hơn nếu nó được trỏ đến bởi nhiều Hub tốt.
Hub Authoritie
Hình 3.16. Sự kết hợp giữa Hub và Authority Các bước của phương pháp HITS
Bước 1: Xác định một tập cơ bản S, lấy một tập các tài liệu trả về bởi Search Engine chuẩn được gọi là tập gốc R, khởi tạo S tương ứng với R.
Bước 2: Thêm vào S tất cả các trang mà nó được trỏ tới từ bất kỳ trang nào trong R.
Thêm vào S tất cả các trang mà nó trỏ tới bất kỳ trang nào trong R Với mỗi trang p trong S:
Tính giá trị điểm số Authority: ap (vector a) Tính giá trị điểm số Hub: hp (vector h)
Với mỗi nút khởi tạo ap và hp là 1/n (n là số các trang)
Bước 3. Trong mỗi bước lặp tính giá trị trọng số Authority cho mỗi nút trong S theo công thức:
p q q
q
p h
a
:
Bước 4. Mỗi bước lặp tính giá trị trọng số Hub đối với mỗi nút trong S theo công thức
p q q
p
q a
h
:
1 1
7
1 2
3
4 5
7 6
h(1) = a(5) + a(6) + a(7) a(1) = h(2) + h(3) + h(4)
Lưu ý rằng các trọng số Hub được tính toán nhờ vào các trọng số Authority hiện tạo, mà các trọng số Authority này lại được tính toán từ các trọng số của các Hub trước đó.
Bước 5. Sau khi tính xong trọng số mới cho tất cả các nút, các trọng số được chuẩn hóa lại theo công thức:
S p
p S
p
p and h
a ) 1 ( ) 1
( 2 2
Lặp lại bước 3 cho tới khi các hp và ap không đổi.
Ví dụ: Tập gốc R là {1, 2, 3, 4}
Hình 3.17. Đồ thị Hub-Authority Kết quả tính được như sau:
Hình 3.18. Giá trị trọng số các Hub và Authority
Giá trị trọng số của Authority Giá trị trọng số của Hub
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
KPDL Web là một lĩnh vực nghiên cứu mới, có triển vọng lớn. Các kỹ thuật được áp dụng rộng rãi trên thế giới như KPDL văn bản trên Web, KPDL không gian và thời gian liên tục trên Web. Khai phá Web đối với hệ thống thương mại điện tử, khai phá cấu trúc siêu liên kết Web,... Cho tới nay kỹ thuật KPDL vẫn phải đương đầu với nhiều thử thách lớn trong vấn đề KPDL Web.
3.4. Áp dụng thuật toán phân cụm dữ liệu trong tìm kiếm và phân