Đánh giá độ chính xác của hệ thống

Đánh giá kết quả phương pháp phân lớp văn bản có thểđược tính toán theo nhiều cách khác nhaụ Theo khảo sát của Sebastiani [23], độđo phổ biến nhất được sử dụng

đểđánh giá phân lớp là độ hồi tưởng và độ chính xác Kí hiệu :

Tôi đã ởđây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi vàthoải máị

Giá cả thì tuyệt vời, trên của sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãị

Cảm ơn!

Tôi đã ởđây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải máị

Giá cả thì tuyệt vời, trên của sự mọng đơi, mà chất lượng phòng thì không có gì để bàn cãị

Bảng 3.2: Bảng ký hiệu

Lớp Ci Dữ liệu thực

Thuộc lớp Ci Không thuộc lớp Ci

Dự đoán Thuộc lớp Ci TPi TNi Không thuộc lớp Ci FPi FNi Trong đó :

TPi (true positives): số lượng ví dụ dương được thuật toán phân đúng vào lớp Ci

TNi (true negatives): số lượng ví dụ âm được thuộc toán phân đúng vào lớp Ci. FPi (false positives) : số lượng ví dụ dương được thuật toán phân sai vào Ci. FNi (false negatives) : số lượng ví dụ âm được thuật toán phân sai vào Ci.

Độ chính xác Pri của lớp Ci là tỷ số ví dụ dương được thuật toán phân lớp cho giá trịđúng trên tổng số ví dụđược thuật toán phân lớp vào lớp Ci:

j4 = kj4

kj4 + k"4

Độ hồi tưởng Rei của lớp Ci là tỷ lệ số ví dụ dương được thuật toán phân lớp cho giá trịđúng trên tổng số ví dụ dương thực sự thuộc lớp Ci :

lm4 = kj4

kj4+ nj4

Do nhóm thực hiện phân lớp tập dữ liệu thành 10 lớp, nên độ chính xác và độ hồi tưởng cần được tính cho toàn bộ tập 10 lớp. Nhóm sử dụng 3 độđo trong [22] đểđánh giá độ chính xác của hệ thống với D là số nhãn lớp là : Accuracy : @ĂO) = 1 |O| :kj4 + k"kj44+ n"+ nj44+ n"4 |o| 4= Precision : PrO = |O| :1 kj4kj+ k"4 4 |o| 4=

26 Recall: lmO =|O| :1 kj4kj+ nj4 4 |o| 4= Kết luận chương ba

Chương ba của khóa luận trình bày về tư tưởng chính của phương pháp đề xuất cho bài toán xây dựng đặc trưng cho phân lớp dữ liệu đa nhãn dựa trên mô hình chủđề Nn và phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ. Khóa luận cũng đã giới thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất.

Trong chương tiếp theo, khóa luận tiến hành thực nghiệm trên phương pháp đã xây dựng và đánh giá kết quảđạt được của phương pháp đề xuất.

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dựa vào mô hình đề xuất ở chương 3, khóa luận tiến hành thực nghiệm việc đánh giá danh tiếng 1000 khách sạn ở Việt Nam dựa vào tập nhận xét của người dùng bằng Tiếng Việt. Để làm rõ kết quả của mô hình đề xuất trong chương 3, khóa luận tiến hành 4 thực nghiệm nhỏ :

• Thực nghiệm 1 : Thực hiện việc phân lớp mà không qua pha bổ xung đặc trưng chủ đề Nn và pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF của tập dữ liệu đầu vàọ

• Thực nghiệm 2 : Thực hiện việc phân lớp sử dụng pha bổ xung đặc trưng nhưng không sử dụng pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng bổ xung TF.IDF và tập đặc trưng chủđềNn.

• Thực nghiệm 3 : Thực hiện việc phân lớp sử dụng pha lựa chọn đặc trưng nhưng không sử dụng pha bổ xung đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF đã qua lựa chọn.

• Thực nghiệm 4 : Thực hiện việc phân lớp mà sử dụng cả 2 pha : bổ xung đặc trưng và lựa chọn đặc trưng. Tức là thực hiện toàn bộ các pha trong mô hình đề

xuất ở chương 3.

Đánh giá độ chính xác của hệ thống

Mô hình sinh trong LDA

Ước lượng tham số và suy luận