Với mỗi tweet trong tập huấn luyện và tập kiểm tra, đếm số luật kết hợp mà có sự tham gia của tác giả tweet, và sử dụng nó làm đặc trưng độ ảnh hưởng người dùng.
Công việc 4: Tính các giá trị cho các đặc trưng còn lại và điểm số của tweet.
Dựa theo công thức đã nêu trong chương 3, sử dụng MS-Excel, chúng tôi thực hiện tính giá trị cho các đặc trưng tác giả, retweet, reply, URL và hash tag cho tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Chúng tôi cũng thực hiện tính điểm số của mỗi tweet, và sử dụng điểm số làm nhãn cho tweet.
Công việc 5: Xây dựng dữ liệu huấn luyện và dữ liệu kiểm tra
Với giá trị các đặc trưng đã tính trước, chúng tôi sử dụng MS-Excel để xây dựng file huấn luyện và file kiểm tra theo định dạng đầu vào của phần mềm sofia-ml.
Hình 4.8. Minh họa dữ liệu file huấn luyện (TN1)
Hình 4.9. Minh họa dữ liệu file kiểm tra (TN1)
Hình 4.11. Minh họa dữ liệu file kiểm tra (TN2)
Công việc 6: Sinh mô hình tính hạng
Ở cả hai thí nghiệm, chúng tôi chạy phần mềm sofia-ml với chức năng sinh mô hình, đầu vào là file huấn luyện, thu được hàm tính hạng. Sau đó, chúng tôi chạy sofia-ml với chức năng dự đoán hạng (để kiểm tra mô hình), đầu vào là file kiểm tra và hàm tính hạng, chúng tôi thu được file kết quả chứa nhãn dự đoán của các tweet trong dữ liệu kiểm tra.
Công việc 7: Đánh giá mô hình tính hạng
Để đánh giá hàm tính hạng, chúng tôi sử dụng MS-Excel để tính các độ chính xác P@K, Map đã trình bày trong 2.1.4. với hai file kết quả thu được từ hai thí nghiệm.
4.4. Kết quả và Đánh giá
Sau khi thực nghiệm với hai thí nghiệm (1) và (2), chúng tôi thu được 2 hàm tính hạng. Sử dụng MS-Excel, chúng tôi đánh giá các mô hình của thí nghiệm trên, thể hiện trong các hình sau: