Các phương pháp thuộc loại này phụ thuộc vào từ đồng nghĩa hoặc các mẫu xuất hiện đồng thời, và cả một danh sách từ ý kiến ban đầu để tìm ra các từ ý kiến khác trong một tập văn bản lớn. Một trong những ý tưởng chính được đưa ra bởi Hazivassiloglou và McKeown [10]. Kỹ thuật bắt đầu mới một danh sách các tính từ ý kiến, và dùng chúng cùng với một số ràng buộc ngơn ngữ (hay quy ước) về kết nối để xác định các tính từ ý kiến bổ sung là xu hướng của chúng. Một trong các ràng buộc là về liên từ “và” chỉ ra rằng các tính từ được kết nối thường cĩ chung một xu hướng ý kiến. Ví dụ, trong câu “Chiếc xe này đẹp và sang trọng”, nếu “đẹp” được biết là tích cực, thì cĩ thể suy ra “sang trọng” cũng tích cực. Bởi vì con người thường thể hiện cùng một ý kiến ở hai vế của liên từ. Câu sau thường khơng tự nhiên “Chiếc xe này đẹp và khĩ điều khiển”. Nếu đổi thành “chiếc xe này đẹp nhưng khĩ điều khiển” thì hợp lý hơn. Các quy tắc hoặc ràng buộc cũng được thiết kế cho các liên từ khác như “hoặc”, “nhưng”… Chúng ta gọi ý tưởng này là tính nhất quán trong tình cảm. Tất nhiên, trong thực tế khơng phải lúc nào nĩ cũng nhất quán. Phương pháp học sử dụng mơ hình logarit tuyến tính được áp dụng cho tập văn bản lớn để xác định xem hai tính từ được liên kết cĩ cùng hay khơng cùng xu hướng. Các kết nối giống nhau hoặc khác nhau giữa hai tính từ tạo thành một đồ thị. Cuối cùng, việc phân loại được thực hiện trên đồ thị dể đưa ra hai tập từ: tích cực và
35
tiêu cực. Trong [15], Kanayama và Nasukawa mở rộng phương pháp này bằng cách đưa ra ý tưởng về tính nhất quán ý kiến trong cùng một câu, và giữa các câu cạnh nhau. Ý tưởng này dựa trên suy nghĩ rằng cùng một kiểu xu hướng ý kiến (tích cực hay tiêu cực) thường được thể hiện trong một số câu liên tiếp nhau.
Các thay đổi ý kiến được chỉ báo bằng các từ như “nhưng”, “tuy nhiên”. Một vài tiêu chí để xác định xem bổ sung một từ vào bộ từ vựng tích cực hay tiêu cực cũng được đưa ra.
Trong [28], Qiu đưa ra một phương pháp khác để trích chọn các từ ý kiến đặc trưng theo miền ứng dụng từ các nhận xét sử dụng một vài từ ý kiến ban đầu. Ý tưởng chính là tạo ra mối quan hệ cú pháp giữa các từ ý kiến và đặc tính đối tượng được trích chọn. Chúng chỉ ra rằng các từ ý kiến hầu hết luơn luơn kiên kết với đặc tính đối tượng theo một cách nào đĩ. Do đĩ, các từ ý kiến cĩ thể được nhận diện bằng các đặc tính đã xác định, và các đặc tính cũng cĩ thể xác định được bằng các từ ý kiến đã biết (khơng cần xác định trước một vài đặc tính). Từ ý kiến và đặc tính trích chọn được được dùng để xác định từ ý kiến và đặc tính mới, sau đĩ lại được dùng để trích chọn được nhiều từ và đặc tính hơn. Quá trình tự mở rộng này kết thúc khi khơng cĩ từ hoặc đặc tính mới nào được thêm vào. Vì quá trình liên quan đến việc lan truyền thơng qua cả từ ý kiến và đặc tính nên nĩ được gọi là lan truyền kép. Các quy tắc trích chọn được xây dựng dựa trên những mối quan hệ khác nhau giữa từ ý kiến và đặc tính, và giữa các từ hoặc đặc tính với nhau.
Tuy nhiên, việc sử dụng một mình phương pháp dựa trên tập văn bản để xác định được tất cả các từ ý kiến khơng hiệu quả bằng dựa trên từ điển vì rất khĩ chuẩn bị một tập văn bản lớn chứa tất cả các từ Tiếng Anh.
Tuy nhiên, như đã nĩi, phương pháp này cĩ một ưu điểm chính mà phương pháp dựa trên từ điển khơng cĩ. Nĩ cĩ thể hỗ trợ các từ ý kiến đặc trưng miền ứng dụng và xu hướng của chúng nếu một tập văn bản cho một miền lĩnh vực cụ thể được dùng trong quá trình khai phá.
Trong [7], Ding và Liu đưa ra ý tưởng vượt xa hơn tính nhất quán tình cảm trong câu, hoặc giữa các câu. Thay vì tìm ra các từ ý kiến phụ thuộc miền ứng dụng,
36
họ chỉ ra rằng cùng một từ cĩ thể cĩ xu hướng khác nhau trong các ngữ cảnh khác nhau, thậm chí trong cùng một miền lĩnh vực. Ví dụ, đối với máy ảnh kỹ thuật số, từ “lâu” thể hiện các ý kiến khác nhau trong 2 câu: “Pin sử dụng được lâu” (tích cực), và “Thời gian lấy tiêu điểm lâu” (tiêu cực). Do đĩ, việc tìm các từ ý kiến phụ thuộc miền ứng dụng là chưa đủ. Sau đĩ, họ đưa ra việc xem xét cả từ ý kiến và đặc tính đối tượng cùng nhau, và dùng cặp (đặc tính, từ ý kiến) như ngữ cảnh ý kiến. Do đĩ, phương pháp của họ xác định các từ ý kiến và xu hướng của chúng cùng với đặc tính đối tượng mà nĩ mơ tả. Quy tắc về các liên từ ở trên vẫn được áp dụng. [9] thực hiện cùng một định nghĩa ngữ cảnh nhưng dùng nĩ để phân tích ý kiến cho các câu so sánh. Thực tế, phương pháp trong [31,33] cũng cĩ thể xem xét như một phương pháp tìm ra các từ ý kiến theo ngữ cảnh. Tuy nhiên, nĩ khơng sử dụng ý tưởng tính nhất quán tình cảm. Ngữ cảnh ý kiến của nĩ dựa trên các mẫu POS chứ khơng dựa vào các từ ý kiến và đặc tính nĩ mơ tả. Trong [3], Breck đi xa hơn để nghiên cứu vấn đề trích chọn các thể hiện ý kiến, cĩ thể gồm rất nhiều việc. Phương pháp Conditional Random Fields (CRF) trong [18] được sử dụng như một kỹ thuật học tuần tự cho việc trích chọn.
Cuối cùng, chúng ta nên chú ý rằng một bộ từ vựng ý kiến (cả phụ thuộc hay khơng phụ thuộc ứng dụng) khác với việc xác định một từ hay cụm từ cĩ thực sự thể hiện ý kiến và xu hướng của nĩ là gì trong một câu cụ thể. Chỉ bởi vì một từ/cụm từ được liệt kê trong bộ từ vựng khơng cĩ nghĩa nĩ luơn luơn thể hiện ý kiến đĩ trong câu. Ví dụ, trong câu “Tơi đang tìm một dịch vụ bảo hiểm sức khỏe tốt cho
gia đình mình”, từ “tốt” ở đây khơng thể hiện ý kiến tích cực hay tiêu cực. Chúng ta
cũng nhận ra rằng các từ/cụm từ ý kiến khơng phải là những mẩu tin mang ý kiến duy nhất, ngồi ra cịn cĩ rất nhiều cách thể hiện khác.