Trong phần này, tôi mô tả ý tưởng chính của thuật toán HITS [7]. Một thuật toàn mà trong luận văn này, người viết sẽ sử dụng thuật toán này cho việc xác định những chuyên gia trong một vùng các địa điểm.
Thuật toán HITS là một thuật toán phân tích liên kết giữa các Web pages và được phát triển bởi giáo sư Jon Kleinberg. Đây là một thuật toán xếp hạng phụ thuộc truy vấn tìm kiếm cho việc tìm kiếm thông tin trên web.
Tính hạng của mỗi trang web được xác định hai trong số khác: authority và hub
Authority: là trọng số đánh giá những trang được xem là phù hợp nhất đối với mỗi câu truy vấn.
Hub: là những trang không cần có đặc tính “authority” nhưng lại trỏ tới nhiều trang có đặc tính “authority”
Khi người dùng lựa chọn một truy vấn tìm kiếm, đầu tiên thuật toán HITS mở rộng danh sách các trang (page) liên quan được trả lại bởi công cụ search engine và thực hiện việc xếp hạng cho tập các trang được được mở rộng, xếp hạng authority và xếp hạng hub. Với mỗi page trong tập đã được mở rộng, HITS phân chia chúng một điểm authority và một điểm hub.
Ở hình bên dưới, một authority là một trang web với nhiều in-links và một hub là một page có nhiều out-links. Ý tưởng chính của HITS là một hub tốt liên kết tới nhiều authority tốt và một authority tốt sẽ được liên kết bởi nhiều hub tốt. Các authority và hub có mối quan hệ tăng cường hỗ trợ lẫn nhau. Đặc biệt hơn, điểm authority của một page là tổng của các điểm hub của các page mà nó liên kết tới. Và điểm hub là sự kết hợp của các điểm authority của các page đã liên kết bởi nó. Qua sử dụng các phương thức vòng lặp, các điểm authority và hub của mỗi trang sẽ được tính toán và cập nhât.
33
Hình 15: Graph biểu thị liên kết giữa các nút
Điểm mạnh chính của thuật toán HITS là xếp hạng các trang dựa trên truy vấn, điều này giúp đưa ra kết quả liên quan hơn. Tuy nhiên, nhược điểm của HITS cần tính toán trực tuyến. Nghĩa là, khi có yêu cầu truy vấn, thuật toán mới bắt đầu tính điểm Authority và Hub. Chính vì thế kết quả trả về cho người dùng thường bị chậm.
Mô hình tổng quan của thuật toán HITS bao gồm các bước như sau:
Tiền xử lý dữ liệu
Khởi tạo các vector Authority và Hub
Tính toán k vòng lặp (cập nhật và chuẩn hóa lại vector Authority và Hub)
Sau k vòng lặp, trả về kết quả vector Authority và Hub
34
Tiếp theo, tôi sẽ giới thiệu mã giả thuật toán HITS dưa trên luồng xử lý trên:
Ở phần trên, người viết luận văn đã giới thiệu mô hình tổng quan của bài toán xếp hạng cũng như một số thuật toán xếp hạng cho các mạng xã hội. Tiếp theo người viết luận văn sẽ giới thiệu cơ sở lý thuyết được sử dụng trong luận văn này.