Bài tốn phân loại cảm xúc người dùng trong mạng xã hội mà luận văn tìm hiểu cĩ thể được phát biểu như sau:
Input: Cho tập bình luận của người dùng khi nghe một số thể loại nhạc.
Output: Mỗi bình luận sẽ đại diện cho cảm xúc của người dùng lúc đĩ và được phân vào một trong hai lớp “Cảm xúc tích cực” hay “Cảm xúc tiêu cực” sử dụng các mơ hình khác nhau. Đánh giá, so sánh, tính hiệu quả của các mơ hình, cũng như so sánh hai bộ phân loại SVM và Nạve Bayes.
Bài tốn 1: So sánh 2 phương pháp xây dựng vec-tơ đặc trưng Unigram và Vector Space Model trong bộ phân loại SVM.
Bài tốn 2: So sánh 2 phương pháp xây dựng vec-tơ đặc trưng Unigram và Vector Space Model trong bộ phân loại Nạve Bayes
Bài tốn 3: So sánh 2 bộ phân loại SVM và Nạve Bayes bằng phương pháp xây dựng vec-tơ đặc trưng Unigram.
Bài tốn 4: So sánh 2 bộ phân loại SVM và Nạve Bayes bằng phương pháp xây dựng vec-tơ đặc trưng Vector Space Model.
Mỗi bài tốn sẽ được đánh giá, so sánh trên tập dữ liệu nhạc cách mạng,
nhạc trẻ và tất cả.
Luận văn sẽ kiểm thử độ chính xác của các đặc trưng bằng phương pháp kiểm thử k-folds với k=5, k=10. Ví dụ với k=5, tức là bộ dữ liệu huấn luyện ban đầu được chia ra thành 5 phần tương đối bằng nhau về số lượng văn bản. 4 phần trong đĩ được sử dụng như dữ liệu huấn luyện. Mơ hình phân loại được tạo ra từ 4 phần sẽ áp dụng với 1 phần cịn lại. Kết quả cuối cùng của từng bước thực nghiệm là trung bình các kết quả của 5 lần huấn luyện.