Phân loại dựa trên học khơng giám sát

Một số phương pháp học khơng giám sát đầu tiên tạo ra một bộ từ vựng ý kiến theo một cách khơng giám sát, và sau đĩ xác định mức độ tích cực (hay chủ quan) của một đơn vị văn bản thơng qua một hàm nào đĩ dựa trên các từ chỉ báo tích cực và tiêu cực, được xác định bằng bộ từ vựng, trong văn bản đĩ. Khơng khĩ để tưởng tượng ra rằng các từ và cụm từ ý kiến là những từ chỉ định chủ đạo trong phân loại ý kiến. Do đĩ, việc sử dụng học khơng giám sát trên những từ và cụm từ này là điều rất tự nhiên.

2.1.2.1. Sử dụng bộ từ vựng

Phương pháp trong [33] thực hiện phân loại dựa trên một vài cụm từ cú pháp cố định cĩ khả năng được dùng để bày tỏ ý kiến trong tiếng Anh. Thuật tốn bao gồm ba bước:

Bƣớc 1: Trích chọn các cụm từ chứa tính từ và trạng từ. Lý do để làm điều này là nghiên cứu đã chứng tỏ rằng tính từ và trạng từ là những từ chỉ báo rất tốt về ý kiến và tính chủ quan. Tuy nhiên, mặc dù tính từ độc lập cĩ thể chỉ báo tính chủ quan, nhưng cĩ thể ngữ cảnh khơng đủ để xác định xu hướng ngữ nghĩa của nĩ. Do đĩ, một thuật tốn trích chọn hai từ liền nhau, trong đĩ một từ trong cặp là một tính từ/ trạng từ cịn từ kia là từ chỉ ngữ cảnh. Hai từ liền nhau được trích chọn nếu POS tag của chúng phù hợp với mẫu trong bảng dưới đây. Ví dụ, mẫu trong dịng 2 nghĩa là 2 từ liền nhau được trích chọn nếu từ đầu tiên là trạng từ và từ thứ hai là tính từ nhưng từ thứ 3 (khơng được trích chọn) khơng phải là danh từ.

Bảng 2. 1: Bảng quy tắc trích chọn từ loại

Từ thứ nhất Từ thứ hai Từ thứ ba (khơng được trích chọn)

Trạng từ Tính từ Khơng phải danh từ

Tính từ Tính từ Khơng phải danh từ

Danh từ Tính từ Khơng phải danh từ

Trạng từ Động từ Bất cứ từ loại nào

Bƣớc 2: Ước lượng xu hướng của các cụm từ đã trích chọn bằng cách sử dụng cơng thức tính pointwise mutual information (PMI) như sau:

𝑷𝑴𝑰 𝒕𝒆𝒓𝒎𝟏, 𝒕𝒆𝒓𝒎𝟐 = 𝐥𝐨𝐠𝟐 𝐏𝐫 𝒕𝒆𝒓𝒎𝟏 ∩ 𝒕𝒆𝒓𝒎𝟐

𝐏𝐫 𝒕𝒆𝒓𝒎𝟏 𝐏𝐫 𝒕𝒆𝒓𝒎𝟐 (𝟏)

Trong đĩ:

Pr(term1 ∩ term2) là xác suất xuất hiện đồng thời của term1 và term2

Pr(term1)Pr(term2) là xác suất xuất hiện đồng thời nếu term1 và term2 độc lập. Do đĩ Pr(term1 ∩ term2) và Pr(term1)Pr(term2) là một phép đo mức độ độc lập thống kê giữa chúng. Hàm log của tỉ số này là lượng thơng tin chúng ta lấy được về sự cĩ mặt của một từ khi quan sát từ cịn lại.

Xu hướng ý kiến (oo) của một cụm từ được tính dựa trên quan hệ của nĩ với từ tham chiếu tích cực, như “excellent” (“xuất sắc”), và với từ tham chiếu tiêu cực, “poor” (“tệ”):

oo(term)= PMI(term, “excellent”) −PMI(term, “poor”). (2)

Các xác suất được tính bằng cách sử dụng câu truy vấn để tìm kiếm và thu thập số lần xuất hiện của từ. Với mỗi tìm kiếm truy vấn, một cơ chế tìm kiếm thường cho số lượng các tài liệu cĩ liên quan đến truy vấn, ta lấy số này làm số lần xuất hiện của từ/cụm từ. Do đĩ, bằng cách tìm kiếm 2 từ đồng thời, và riêng biệt, chúng ta cĩ thể tính được các xác suất trong biểu thức 1.

Bƣớc 3: cho một bài đánh giá, thuật tốn tính oo trung bình của tất cả các cụm từ trong bài, và phân loại nĩ thành “nên dùng” (tích cực) nếu oo tính được dương hoặc “khơng nên dùng” (tiêu cực) nếu oo âm.

Bên cạnh phương pháp này cịn cĩ nghiên cứu của Hatzivassiloglou và Wiebe [11], Turney [34]. Một vài biến thể thú vị của kỹ thuật này là dùng xu hướng

của câu trước đĩ khi hàm tính tốn khơng chỉ ra một lớp phân loại xác định cho một câu, hoặc kết hợp thơng tin từ một vài dữ liệu đã được gán nhãn. Một thành phần quyết định để áp dụng kiểu kỹ thuật này là việc tạo ra bộ từ vựng thơng qua việc gán nhãn khơng giám sát các từ hoặc cụm từ với xu hướng ngữ nghĩa của nĩ hoặc tính chủ quan.

Hatzivassiloglou và McKeown [10] đưa ra một phương pháp dựa trên heuristics ngơn ngữ (thực chất họ cĩ sử dụng học cĩ giám sát). Kỹ thuật của họ được xây dựng dựa trên sự thật là trong các trường hợp phân loại xu hướng, hai loại được quan tâm mang xu hướng trái ngược nhau, và chúng ta cĩ thể sử dụng “các ràng buộc đối nghịch” để hỗ trợ trong quyết định gán nhãn. Đặc biệt, các ràng buộc giữa cặp tính từ được chứa trong một văn bản lớn bằng cách tìm kiếm xem hai từ đĩ cĩ liên kết với nhau bằng quan hệ từ như “nhưng” (bằng chứng cho xu hướng trái ngược : “đẹp nhưng quá đắt”), hoặc “và” (cùng xu hướng: “thơng minh và xinh đẹp”). Nhiệm vụ lúc này được chuyển thành một vấn đề phân cụm hay phân vùng nhị phân trong đĩ các ràng buộc suy luận được tuân theo.

2.1.2.2. Một số phương pháp khơng giám sát khác

Bootstrapping là một phương pháp khác. Ý tưởng là sử dụng đầu ra của một bộ phân loại ban đầu để tạo ra dữ liệu đã gán nhãn, sau đĩ cĩ thể áp dụng một thuật tốn học cĩ giám sát nào đĩ. Riloff và Wiebe [30] sử dụng phương pháp này kết hợp với một bộ phân loại độ chính xác cao để học các mẫu trích chọn cho ý kiến chủ quan. (Một mẫu thú vị được khai phá ra : danh từ “sự thật” trong “Sự thật là…” đưa ra tương quan cao với tính chủ quan) Kaji và Kitsuregawa [16] sử dụng một phương pháp tương tự để xây dựng một cách tự động một tập hợp văn bản dạng HTML với các nhãn xu hướng.

Pang và Lee [24] kiểm nghiệm với các phương pháp khơng giám sát khác nhau. Vấn đề họ xem xét là để xếp hạng kết quả tìm kiếm cho các truy vấn tìm kiếm đánh giá để các tài liệu chứa đoạn văn bản cĩ giá trị được đặt trước những văn bản kém giá trị hơn. Họ đưa ra một phương pháp đơn giản dựa trên sự hiếm xuất hiện của các từ trong kết quả tìm kiếm thu được. Trực giác cho thấy các từ xuất hiện

thường xuyên trong tập các văn bản được trả về cho một chủ đề hẹp dường như mơ tả thơng tin khách quan, vì thơng tin khách quan thường cĩ xu hướng được lặp lại trong tập tìm kiếm; ngược lại, cĩ thể ý kiến của con người và cách thể hiện chúng sẽ rất khác nhau. Pang và Lee nhận thấy rằng từ vựng được xem xét là hạn chế với hầu hết các từ thường xuyên trong tập tìm kiếm (như một phương pháp giảm nhiễu), các tài liệu chủ quan thường chứa một phần trăm cao các từ ít xuất hiện, cĩ lẽ do sự thật là hầu hết các đánh giá bao trùm các đặc tính chính của đối tượng được đánh giá. (điều này lặp lại quan sát trước kia của chúng ta rằng việc hiểu thơng tin khách quan trong một tài liệu cĩ thể là cấp thiết cho việc hiểu các ý kiến và tình cảm nĩ thể hiện.) Hiệu suất của phương pháp đơn giản này ngang bằng với một phương pháp dựa trên một hệ thống phát hiện tính chủ quan, OpinionFinder [36,38].

Phân loại dựa trên học khơng giám sát

Phân loại dựa trên học cĩ giám sát

Quan hệ giữa các thành phần tháo luận