Đối với các đánh giá ở dạng 3, chúng ta cần phải phân loại mỗi câu cĩ chứa một đặc trưng sản phẩm là tích cực, tiêu cực hoặc trung tính. Sự phân loại này cũng cần thiết cho các đánh giá ở dạng 2 vì mặc dù ưu và nhược điểm được phân biệt ở dạng 2, nhưng một số câu cĩ chứa các quan điểm trung lập.
Chúng tơi mơ tả hai kỹ thuật chính dưới đây. Độ chính xác thường khá cao (hơn 80%) nếu câu là tích cực hay tiêu cực, nhưng nếu cĩ câu trung lập, độ chính xác thường giảm xuống đáng kể. Câu cĩ chứa phủ định cũng gây ra nhiều khĩ khăn.
1. Sử dụng các từ và cụm từ quan điểm: Như đã giải thích ở trên, từ và cụm từ thể hiện quan điểm là những từ và cụm từ thể hiện tình cảm tích cực hay tiêu cực. Chúng chủ yếu là tính từ và trạng từ, nhưng cũng cĩ thể là động từ và danh từ. Các nhà nghiên cứu đã biên soạn tập hợp các từ và cụm từ như vậy đối với tính từ, trạng từ, động từ, và danh từ tương ứng. Mỗi tập thu được thơng qua một quá trình:
Tìm thủ cơng một tập hợp hạt giống các từ tích cực và tiêu cực. Tập hợp hạt giống được phân biệt cho các tính từ, trạng từ, động từ và danh từ
Phát triển mỗi hạt giống bằng cách lặp đi lặp lại tìm kiếm các từ đồng nghĩa và trái nghĩa của chúng trên từ điển WordNet cho đến khi hội tụ, tức là, cho đến khi khơng cĩ từ mới cĩ thể được thêm vào tập. Từ trái nghĩa của từ tích cực (hoặc tiêu cực) sẽ được thêm vào tập âm (hoặc dương).
Kiểm tra thủ cơng kết quả để loại bỏ những từ khơng chính xác. Mặc dù bước này tốn thời gian, nhưng chỉ phải thực hiện một lần
Một phần của các từ quan điểm, là các thành ngữ, cũng cĩ thể được phân loại là tích cực, tiêu cực và trung lập. Nhiều mẫu ngơn ngữ cũng cho thấy quan điểm tích cực hay tiêu cực. Ta cĩ thể tự biên soạn và khai phá bằng cách sử dụng phương pháp khai phá mẫu.
Sử dụng danh sách các từ tích cực và tiêu cực, cụm từ, thành ngữ và các mẫu, mỗi câu cĩ chứa các đặc trưng sản phẩm cĩ thể được phân loại như sau: Từ và cụm từ quan điểm trong câu được xác định đầu tiên. Từ hoặc cụm từ tích cực được gán điểm số +1 và từ hoặc cụm từ tiêu cực được chỉ định một điểm số -1. Tất cả các điểm số sau đĩ được tổng hợp. Nếu tổng số cuối cùng là tích cực, thì câu là tích cực, nếu khơng nĩ là tiêu cực. Nếu một từ phủ định là gần một từ quan điểm, thì quan điểm được đảo ngược. Một câu cĩ
chứa mệnh đề “but” (câu sau bắt đầu với “but”, “however”, vv) cho thấy một sự thay đổi quan điểm cho đặc trưng trong mệnh đề đĩ.
Định hướng quan điểm của nhiều từ cịn phụ thuộc vào lĩnh vực và bối cảnh của câu. Các tình huống như vậy thường rất khĩ giải quyết và chỉ thể giải quyết dễ dàng trong một số trường hợp. Ví dụ, từ “small” cĩ thể là tích cực hay tiêu cực. Tuy nhiên, nếu cĩ một từ “too” trước đĩ, nĩ thường chỉ ra một tâm lý tiêu cực, ví dụ như “this camera is too small for me”.
2. Áp dụng các phương pháp trong phần 1.1 để phân lớp quan điểm: Sử dụng học cĩ giám sát, ta cần phải chuẩn bị thủ cơng một tập các câu được gán nhãn tích cực, tiêu cực và trung lập làm dữ liệu huấn luyện. Nếu từ và cụm từ quan điểm, thành ngữ và các mẫu cũng được sử dụng như các thuộc tính, kết quả phân lớp cĩ thể được cải thiện hơn nữa. Câu chứa phủ định và cĩ mệnh đề bắt đầu bằng “but”, “however”, vv, cần xử lý đặc biệt kể vì một phần của câu cĩ thể là tích cực và một phần khác cĩ thể là tiêu cực, ví dụ như “The pictures of this camera are great, but the camera itself is a bit too heavy.”
Tĩm lại, mặc dù nhiều kỹ thuật phân lớp đã được đề xuất, ít nghiên cứu so sánh những kỹ thuật này đã được nghiên cứu. Một cách tiếp cận đầy hứa hẹn là kết hợp những kỹ thuật này để tạo ra một kỹ thuật phân lớp tốt hơn.