Mô tả phương pháp

Dựa trên kết quả khả quan của giải pháp lựa chọn đặc trưng dựa vào độđo tương hỗ MI của Gauthier Doquire và Michel Verleysen [11], khóa luận đề xuất một giải pháp xây dựng đặc trưng cho bộ phân lớp dữ liệu đa nhãn. Trong giải pháp này, khóa luận không chỉ sử dụng các đặc trưng về từ thu được từ tập dữ liệu học mà khóa luận còn sử dụng các đặc trưng ở mức trừu tượng cao hơn từ mô hình chủđềNn, đây là các

đặc trưng về topic với xác suất của các topi trên từng tài liệụ Chúng tôi chọn mô hình chủđề Nn LDA vì theo Blei và cộng sự [17], đây là mô hình xác suất tốt ở mức độ tài liệu, ngoài ra mô hình còn cho chất lượng tốt khi gặp tài liệu không nằm trong tập dữ

liệu học. Do đó, các đặc trưng được bổ xung từ mô hình chủđềNn LDA có chất lượng tốt. Nhờ vậy mà có thể cải tiến kết quả của bộ phân lớp dữ liệu đa nhãn.

Phát biểu bài toán :Mô hình xây dựng đặc trưng tiến hành tạo lập vector đặc trưng cho văn bản từ những từ khóa trong tập dữ liệu học và những đặc trưng về xác suất topic trong mô hình chủ đề Nn LDẠ Mô hình lựa chọn đặc trưng và giảm thiểu những đặc trưng ít có giá trị bằng phương lựa chọn đặc trưng dựa vào độ tương hỗ MỊ Việc xây dựng vector đặc trưng như trên được áp dụng vào bộ phân lớp dữ liệu đa nhãn trong hệ thống đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam.

Đầu vào :

• Một tập văn bản (text) về các nhận xét của người dùng của 1000 khách sạn ở Việt Nam.

• Tập dữ liệu bài báo, nhận xét, giới thiệu về lĩnh vực khách sạn

Đầu ra :

• Phân loại từng nhận xét của người dùng vào từng lớp tương ứng. Trong mỗi lớp tương ứng có phân loại đánh giá tốt, đánh giá xấu

Các pha chính :

• Phân lớp đa nhãn sử dụng mô hình huấn luyện

Mô hình sinh trong LDA

Ước lượng tham số và suy luận