Công việc 2: Xây dựng mô hình chủ đề ẩn và đặc trưng nội dung
Đặc trưng nội dung được xây dựng dựa trên mô hình chủ đề ẩn LDA như sau
o Sử dụng tập dữ liệu chủ đề ẩn huấn luyện và tập dữ liệu chủ đề ẩn kiểm tra đã xây dựng trong công việc 1.
o Chạy phần mềm JGibbLDA với câu lệnh:
$lda -est -ntopics 30 -twords 20 -dfile models/tweet/tweethoc.dat Chúng tôi chủ định tìm sự phân phối của mỗi tweet trên 30 chủ đề. Đầu ra bao gồm các file model-final.others, model-final.phi, model-final.theta, model-final.tassign,
model-final.twords ( là mô hình model-final) . Chúng tôi sử dụng file model-final.theta để làm đặc trưng nội dung cho dữ liệu huấn luyện. Đặc trưng nội dung của dữ liệu huấn luyện được minh họa như hình dưới đây:
Hình 4.5. Minh họa đặc trưng nội dung (dữ liệu huấn luyện)
o Sử dụng mô hình thu được, chạy phần mềm JGibbLDA với câu lênh:
$lda -inf -dir models/tweet -model model-final -twords 20 -dfile tweettest.dat
Đầu ra là các file tweettest.dat.model-final.others, tweettest.dat.model-final.phi, tweettest.dat.model-final.theta, tweettest.dat.model-final.tassign, tweettest.dat.model- final.twords. Chúng tôi sử dụng file tweettest.dat.model-final.theta để làm đặc trưng nội dung cho dữ liệu kiểm tra. Đặc trưng nội dung của dữ liệu kiểm tra được minh họa như hình dưới đây:
Hình 4.6. Minh họa đặc trưng nội dung (dữ liệu kiểm tra)
Công việc 3: Tìm tập luật kết hợp và xây dựng đặc trưng độ ảnh hưởng người dùng
Vì tweet có số lượng lớn, nhưng có nhiều người dùng tham gia, nên độ hỗ trợ sẽ thấp. Ngoài ra, việc sử dụng các tweet do chính người dùng reply hay retweet, nên các luật tìm được sẽ có độ tin cậy là 100%. Trong thực nghiệm, sử dụng cơ sở dữ liệu giao dịch người dùng cùng độ hỗ trợ 2.5% và độ tin cậy 100%, chạy chương trình Apriori để tìm ra các luật kết hợp giữa các người dùng với người dùng đang xét. Minh họa tập luật kết hợp như Hình 4.7.