Ví dụ minh hoạ dữ liệu đầu ra của pha tiền xử lý- 123docz.net

Phân cụm vai trò

Bởi vì Gibbs sampling là một thuật toán lấy mẫu phổ biến, có thể cài đặt đơn giản và hiệu quả nên chúng tôi chọn sử dụng thuật toán này trong quá trình lấy mẫu.

Tuy nhiên, việc lấy mẫu riêng rẽ cho 2 tập biến ẩn vai trò người gửi – vai trò người nhận là rất phức tạp. Vì vậy, McCallum và cộng sự đã đưa ra chiến lược hiệu quả sử dụng mô hình ART [6]. Đầu tiên, một mô hình ART sẽ được huấn luyện để có được lựa chọn chủ đề và lựa chọn người nhận cho mỗi từ. Do đó, ở bước tiếp theo, chủ đề và người nhận được xem như là đã quan sát được. Trong quá trình thực nghiệm này, chúng tôi cũng tiến hành theo cách như vậy.

Trong thực nghiệm mô hình ART, McCallum và cộng sự [6] nhận thấy rằng việc lựa chọn tham số đầu vào không ảnh hưởng lớn lắm đến kết quả của mô hình nên đã cố định giá trị 𝛼 = 50/𝑇 và 𝛽 = 0.1. Do đó, chúng tôi cũng cố định 2 giá trị trên và tiến hành huấn luyện ART với T = 50 topic. Sau đó chúng tôi lấy mẫu vai trò cho người nhận theo từng từ có trong chủ đề mà người nhận được gán với 12 nhóm vai trò.

4.4. Đánh giá kết quả

Để đánh giá kết quả thử nghiệm và hiệu quả của thuật toán trong mô hình này chúng tôi sử dụng độ đo F- measure. Nó là sự kết hợp của của độ đo chính xác và độ đo hồi tưởng. Độ đo chính xác được ký hiệu là π chính là số lượng người có vai trò

đúng với cụm vai trò trên tổng số người trong cụm. Độ đo hồi tưởng được ký hiệu là ρ chính là số người phù hợp với vai trò tìm được trên tổng số người thực tế phù hợp với vai trò này. Do đó độ đo F được tính như sau:

F=2𝜋𝜌

𝜋+𝜌

Chúng tôi đặt tên cho các nhóm vai trò dựa vào các từ xuất hiện trong vai trò và hiểu biết về các vị trí công việc trong tập dữ liệu. Tốp những người có phân phối vai trò > 0.1 cho mỗi vai trò được lựa chọn để đánh giá độ chính xác. Kết quả như sau:

Ví dụ minh hoạ dữ liệu đầu ra của pha tiền xử lý

Một ví dụ về phân phối vai trò