Đánh giá khách quan, chủ quan và so sánh các mơ hình

Một phần của tài liệu Gom cụm văn bản dựa trên mô hình phát hiện chủ đề (Trang 79 - 81)

5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ

6.4Đánh giá khách quan, chủ quan và so sánh các mơ hình

6.4.1 Độ đo coherence và silhouette

Coherence - Tính mạch lạc. Là đặc trưng đại diện cho sự mạch lạc về ngữ nghĩa trong một hoàn cảnh nhất định của văn bản. Các tuyên bố hoặc dữ kiện được cho là mạch lạc khi chúng có sự tương quan hỗ trợ lẫn nhau. Do đó, một tập hợp dữ kiện mạch lạc sẽ có thể được giải thích trong một ngữ cảnh gồm tập hợp gần như toàn bộ các dữ kiện. Lấy một ví dụ về dữ kiện mạch lạc: "Trị chơi là một mơn thể thao đồng đội", đây là một câu hoàn chỉnh, trong đó các dữ kiện có liên quan với nhau, và sắp xếp trong một thứ tự hợp lý(trị chơi - mơn thể thao đồng đội) khiến cho câu này mạch lạc.

Độ đo coherence - hay topic coherence là một độ đo xác định tính mạch lạc trong chủ đề. Độ đo này được tính bằng cách đo mức độ tương đồng về ngữ nghĩa của các từ đạt điểm cao(top- word) trong chủ đề. Được sử dụng rất nhiều trong việc đo độ mạch lạc chủ đề trong các mơ hình chủ đề. Độ đo này giúp phân biệt giữa các chủ đề có thể giải thích bởi sự mạch lạc, liên quan về ngữ nghĩa của ngôn ngữ tự nhiên và các chủ đề được sinh từ phương pháp suy luận thống kê.

Có khá nhiều độ đo topic coherence như: C_v, C_p, C_uci, C_umass, C_npmi, C_a. Tuy nhiên trong đề tài này chỉ sử dụng o C_v[46], c xut bi Răoder v cộng sự năm 2015. Độ đo này dựa trên cửa sổ trượt(sliding window), một tập hợp các top-word và phép đo xác nhận gián tiếp sử dụng thông tin tương hỗ theo chiều kim đồng hồ - normalized pointwise mutual information (NPMI) và độ tương đồng cosin. Độ đo này có giá trị trong khoảng từ 0 - 1, với giá trị càng gần về 0 thì các từ trong chủ đề càng mất đi tính mạch lạc. Bởi vì theo như giải thích độ đo này đo mối quan hệ tương đồng giữa các từ trong tồn bộ một chủ đề, do đó rất hiếm khi đạt được ngưỡng 1, vì đó là trường hợp hầu như các từ trong cùng một chủ đề giống nhau(cả chủ đề chỉ có một từ). Theo như những thực nghiệm thực tế, độ đo này đạt giá trị tốt nhất rơi vào khoảng 0.65 đến 0.75.

Silhouette là một phương pháp đề cập đến sự giải thích và xác nhận tính nhất quán trong các cụm dữ liệu. Độ đo silhouette đo lường mức độ tương tự của một đối tượng với cụm chính nó(sự gắn kết) so với các cụm khác(sự tách biệt). Độ đo này thường dùng để tính tốn mức độ tốt của kỹ thuật phân cụm.

Giá trị của độ đo silhouette nằm trong khoảng từ -1 đến 1. Càng gần về một thì các cụm càng cách xa nhau, các đối tượng trong cùng một cụm có tương đồng với nhau lớn, các đối tượng khác cụm thì phân biệt nhau tốt. Càng gần về 0 thì các cụm ít có sự phân biệt, khoảng cách giữa các cụm là không đáng kể. Càng gần về -1, hoặc bị giá trị âm, có nghĩa là các cụm đang được phân chia chưa hợp lí, cơng thức để xác định độ means của các cụm đang tính tốn sai.

Một phần của tài liệu Gom cụm văn bản dựa trên mô hình phát hiện chủ đề (Trang 79 - 81)