Sắp xếp thuộc tính

Một phần của tài liệu Trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm luận văn ths công nghệ thông tin (Trang 30)

Mặc dù các thuật toán HITS có thể sắp xếp các thuộc tính dựa các thuộc tính thích hợp, nhưng sắp xếp cuối cùng không chỉ được xác định dựa vào sự thích hợp đó mà còn dựa vào tần suất xuất hiện của các thuộc tính. Tần suất của thuộc tính là một nhân tố quan trọng ảnh hưởng đến thứ hạng cuối cùng. Các thuộc tính mong muốn được sắp xếp ở vị trí cao và nằm ở trên cùng vì chúng quan trọng hơn các thuộc tính trích chọn sai hoặc ít khi gặp. Với ý tưởng này, tác giả đặt tất cả các thuộc tính cùng nhau và thực hiện thuật toán như sau:

Bước 1: Tính toán điểm của thuộc tính sửdụng thuật toán HITS mà không cần quan tâm tới đơn vịtần suất. Các thuộc tính được trích từ ba phương pháp là các ứng cử viên thuộc tính, từ đó tạo thành một đồ thị hai phía. Mỗi ứng cử viên thuộc tính đóng vai trò như là một nút authority trong đồ thị, mỗi chỉ dẫn thuộc tính đóng vai trò như một nút

hub. Đối với nút s trong đồ thị, họ cho HS là điểm hub và AS là điểm authority. Sau đó,

họ khởi tạo HS và AS từ 1 đến tất cả các nút trong đồ thị. Cập nhật các điểm của HS

AS cho đến khi chúng hội tụ bằng cách sử dụng vòng lặp. Cuối cùng, họ chuẩn hóa AS

Hình 6. Thuật toán HITS[10]

Bước 2: Tính điểm cuối cùng cho thuộc tính S = S (f) log (freq (f))

Trong đó, freq(f) là đếm tần suất của thuộc tính f, và S(f) là số điểm authority của ứng cử viên thuộc tính f. Ý tưởng là đẩy vào các thuộc tính ứng cử viên thường

xuyên bằng cách nhân với logarit của tần suất. Giá trị logarit được sử dụng để giảm ảnh hưởng của các số đếm tần suất lớn.

1. for each p in G do //G là tập thuộc tính được trích chọn 2. p.auth = 1 // p.auth là điểm authority

3. p.hub = 1 // p.hub là điểm hub 4. function HubsAndAuthorities(G)

5. for step from 1 to k do 6. norm = 0 7. for each p in G do 8. p.auth = 0

9. for each q in p.incomingNeighbors do // p.incomingNeighbors là tập các thuộc tính được trích chọn dựa vào thuộc tính p

10. p.auth += q.hub

11. norm += square(p.auth) 12. norm = sqrt(norm) 13. for each page p in G do 14. p.auth = p.auth / norm

15. norm = 0

16. for each page p in G do 17. p.hub = 0

18. for each page r in p.outgoingNeighbors do // p.outgoingNeighbors là tập thuộc tính liên quan đến p

19. p.hub += r.auth

20. norm += square(p.hub) 21. norm = sqrt(norm) 22. for each page p in G do 23. p.hub = p.hub / norm

CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dựa vào cơ sở lý thuyết được đề xuất trong chương 3, khóa luận tiến hành thực nghiệm trích chọn thuộc tính sản phẩm từ tài liệu đánh giá trực tuyến. Áp dụng thuật toán HIT để xếp hạng các thuộc tính đó nhằm đưa ra những thuộc tính quan trọng giúp cho việc đánh giá sản phẩm được tập trung và đưa ra kết quả tốt nhất.

Đầu vào của hệ thống: Tập văn bản chứa câu đánh giá về sản phẩm

Đầu ra của hệ thống: Các thuộc tính được trích chọn và xếp hạng theo thứ tự về mức độ quan trọng

Một phần của tài liệu Trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm luận văn ths công nghệ thông tin (Trang 30)