Đánh giá kết quả phương pháp phân lớp văn bản có thểđược tính toán theo nhiều cách khác nhaụ Theo khảo sát của Sebastiani [23], độđo phổ biến nhất được sử dụng
đểđánh giá phân lớp là độ hồi tưởng và độ chính xác Kí hiệu :
Tôi đã ởđây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi vàthoải máị
Giá cả thì tuyệt vời, trên của sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãị
Cảm ơn!
Tôi đã ởđây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải máị
Giá cả thì tuyệt vời, trên của sự mọng đơi, mà chất lượng phòng thì không có gì để bàn cãị
25
Bảng 3.2: Bảng ký hiệu
Lớp Ci Dữ liệu thực
Thuộc lớp Ci Không thuộc lớp Ci
Dự đoán Thuộc lớp Ci TPi TNi Không thuộc lớp Ci FPi FNi Trong đó :
TPi (true positives): số lượng ví dụ dương được thuật toán phân đúng vào lớp Ci
TNi (true negatives): số lượng ví dụ âm được thuộc toán phân đúng vào lớp Ci. FPi (false positives) : số lượng ví dụ dương được thuật toán phân sai vào Ci. FNi (false negatives) : số lượng ví dụ âm được thuật toán phân sai vào Ci.
Độ chính xác Pri của lớp Ci là tỷ số ví dụ dương được thuật toán phân lớp cho giá trịđúng trên tổng số ví dụđược thuật toán phân lớp vào lớp Ci:
j4 = kj4
kj4 + k"4
Độ hồi tưởng Rei của lớp Ci là tỷ lệ số ví dụ dương được thuật toán phân lớp cho giá trịđúng trên tổng số ví dụ dương thực sự thuộc lớp Ci :
lm4 = kj4
kj4+ nj4
Do nhóm thực hiện phân lớp tập dữ liệu thành 10 lớp, nên độ chính xác và độ hồi tưởng cần được tính cho toàn bộ tập 10 lớp. Nhóm sử dụng 3 độđo trong [22] đểđánh giá độ chính xác của hệ thống với D là số nhãn lớp là : Accuracy : @ĂO) = 1 |O| :kj4 + k"kj44+ n"+ nj44+ n"4 |o| 4= Precision : PrO = |O| :1 kj4kj+ k"4 4 |o| 4=
26 Recall: lmO =|O| :1 kj4kj+ nj4 4 |o| 4= Kết luận chương ba
Chương ba của khóa luận trình bày về tư tưởng chính của phương pháp đề xuất cho bài toán xây dựng đặc trưng cho phân lớp dữ liệu đa nhãn dựa trên mô hình chủđề Nn và phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ. Khóa luận cũng đã giới thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất.
Trong chương tiếp theo, khóa luận tiến hành thực nghiệm trên phương pháp đã xây dựng và đánh giá kết quảđạt được của phương pháp đề xuất.
27
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Dựa vào mô hình đề xuất ở chương 3, khóa luận tiến hành thực nghiệm việc đánh giá danh tiếng 1000 khách sạn ở Việt Nam dựa vào tập nhận xét của người dùng bằng Tiếng Việt. Để làm rõ kết quả của mô hình đề xuất trong chương 3, khóa luận tiến hành 4 thực nghiệm nhỏ :
• Thực nghiệm 1 : Thực hiện việc phân lớp mà không qua pha bổ xung đặc trưng chủ đề Nn và pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF của tập dữ liệu đầu vàọ
• Thực nghiệm 2 : Thực hiện việc phân lớp sử dụng pha bổ xung đặc trưng nhưng không sử dụng pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng bổ xung TF.IDF và tập đặc trưng chủđềNn.
• Thực nghiệm 3 : Thực hiện việc phân lớp sử dụng pha lựa chọn đặc trưng nhưng không sử dụng pha bổ xung đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF đã qua lựa chọn.
• Thực nghiệm 4 : Thực hiện việc phân lớp mà sử dụng cả 2 pha : bổ xung đặc trưng và lựa chọn đặc trưng. Tức là thực hiện toàn bộ các pha trong mô hình đề
xuất ở chương 3.