Mơ hình kết hợp LDA-MaxEnt

Một phần của tài liệu Vu trong hoa EXTRACTING ASPECT IN OPINIO (Trang 43 - 46)

Các biến biểu thị được học bởi Maximum Entropy. Họ dựa vào một quan sát rằng các từ quan điểm và từ khía cạnh thường cĩ vai trị ngữ pháp trong câu khác nhau.

3.2. Tiếp cận bằng học máy giám sát

Trích xuất khía cạnh cĩ thể được xem như một trường hợp đặc biệt của bài tốn trích xuất thơng tin nĩi chung. Nhiều giải thuật dựa trên học máy giám sát đã được đề xuất trong quá khứ đề giải quyết bài tốn trích xuất thơng tin. Trong đĩ, phương pháp chủ đạo dựa trên học máy chuỗi. Vì là cĩ giám sát nên các thuật tốn này cần dữ liệu gán nhãn thủ cơng để huấn luyện. Do đĩ cần gán nhãn đâu là khía cạnh, đâu khơng phải khía cạnh trong tập dữ liệu. Các phương pháp học máy chuỗi phổ biến và hiệu quả nhất hiện này là mơ hình Markov ẩn [14] và CRFs [8].

3.2.1. Mơ hình của Jin Wei và Ho Hung Hay

Năm 2009, Jin Wei và Ho Hung Hay [22] đề xuất phương pháp trích xuất khía cạnh trong khai phá quan điểm dựa trên mơ hình Markov ẩn, kết hợp với các thơng tin từ vựng. Điểm mạnh của phương pháp này là cĩ thể trích xuất các khía cạnh phức tạp hoặc cĩ tần suất thấp. Trong cơng trình, các tác giả phân biệt rõ các khía cạnh như (hình 10): tên thực

thể, tên thành phần (thành phần vật lí như của máy ảnh là pin, màn hình), chức năng (ví dụ khả năng cung cấp bởi máy ảnh: quay phim, phĩng to), đặc trưng (tính chất của thành phần và chức năng ví dụ đối với máy ảnh là màu săc, tốc độ xử lí, kích cỡ) và quan điểm.

Hình 3.4: Các thực thể được quan tâm trong [21]

Ý tưởng của cơng trình khá rõ ràng, tích hợp vào HMMs các đặc trưng ngơn ngữ như từ loại (POS), và các từ, coi mỗi câu như một chuỗi quan sát. Mỗi trạng thái quan sát được sẽ bao gồm (𝑤𝑜𝑟𝑑𝑖, 𝑃𝑂𝑆 (𝑤𝑜𝑟𝑑𝑖)). Bài tốn được định nghĩa như sau:

Cho chuỗi từ 𝑊 = 𝑤1𝑤2𝑤3 𝑤𝑛 và chuỗi từ loại tương ứng 𝑆 = 𝑠1𝑠2𝑠3 𝑠𝑛. Đầu ra: Chuỗi tag 𝑇̂ = 𝑡1𝑡2𝑡3 𝑡𝑛 cực đại hĩa xác suất cĩ điều kiện 𝑃(𝑇|𝑊, 𝑆) hay là

𝑇̂ = 𝑎𝑟𝑔 𝑚𝑎𝑥𝑇𝑃(𝑇|𝑊, 𝑆) = 𝑎𝑟𝑔 𝑚𝑎𝑥 𝑇𝑃(𝑊, 𝑆 |𝑇) 𝑃(𝑇)

𝑃(𝑊, 𝑆) (2.1)

Để giải bài tốn trên, các tác giả đưa thêm giả thiết cùng với giả thiết Markov:

𝑃(𝑡𝑖 | 𝑡𝑖− 𝑡𝑖−1) ≈ 𝑃(𝑡𝑖|𝑡𝑖−1).

Giả thiết thứ hai kết hợp thơng tin từ vựng và thơng tin về từ loại (POS):

 Trạng thái hiện tại 𝑡𝑖 phụ thuộc vào trạng thái trước đĩ 𝑡𝑖−1 và từ trước đĩ

𝑤𝑖−1

 Từ 𝑤𝑖 hiện tại wi được giả sử phụ thuộc vào tag 𝑡𝑖, tư loại 𝑠𝑖 và từ trước đĩ

Khĩa luận tốt nghiệp Vũ Trọng Hĩa

32

 Từ loại hiện tại được giả thiết phụ thuộc vào trạng thái hiện tại 𝑡𝑖 và từ trước đĩ 𝑤𝑖

Maximum Likelihood Estimation (MLE) được sử dụng để ước lượng tham số của cơng thức. Trong quá trình đánh giá, các tác giả so sánh với các phương pháp dựa trên luật của Minqing Hu và Bing Liu, 2004 [10]. Qua thực nghiệm trên bộ dữ liệu đánh giá về các camera cho thấy hiệu quả rõ rệt khoảng xấp xỉ 80% với độ đo F so với baseline là khoảng 20%.

3.2.2. Mơ hình của Jakob và Gurevych

Jakob Niklas và Gurevych Iryna, 2010 [23] đề xuất phương pháp trích xuất đích của quan điểm bằng học máy giám sát, áp dụng cho dữ liệu trên một miền (single domain) và dữ liệu nhiều miền khác nhau (cross-domain). Học máy CRFs kết thừa những điểm mạnh và cĩ nhiều ưu điểm hơn so với HMMs như đã trình bày ở chương 2. Các đặc trưng được các tác giả sử dụng bao gồm:

 Token: Đặc trưng này biểu diễn chuỗi kí tự của token như một đặc trưng. Nếu tập từ vựng của dữ liệu là đĩng cho miền nhất định (số khía cạnh khác nhau/ tổng số khía cạnh là thấp điều này cĩ nghĩa các khía cạnh giống nhau được nhắc đến nhiều lần), thì đặc trưng này sẽ cĩ ích.

 Từ loại (part of speech): cung cấp khả năng giải quyết các nhập nhằng từ loại, đồng thời CRFs cũng nhận được thêm thơng tin về thu được các đặc trưng

 Đặc trưng quan hệ phục thuộc: Nhiều nghiên cứu trước đây đã thành cơng trong việc khai thác liên kết giữa các từ quan điểm và đích đến của chúng. Các token cĩ quan hệ “amod”, “nsubj” với các từ quan điểm sẽ được gán nhãn này.

 Khoảng cách từ: Đơi khi các từ quan điểm và khía cạnh khơng cĩ quan hệ phụ thuộc, do đĩ đặc trưng phía trên khơng thể bắt được những trường hợp như thế. Do đĩ các tác giả sử dụng kĩ thuật áp dụng trong [10] theo đĩ các token trong cụm danh từ gần từ quan điểm nhất (khoảng cách nhất định) sẽ được gán giá trị ở đặc trưng này

 Câu quan điểm: Với đặc trưng này thì tất cả các token trong câu mang quan điểm sẽ được gán nhãn, đặc trưng này cho phép CRF phân biệt các câu mang quan điểm và khơng mang quan điểm.

3.2.3. Mơ hình của Li Fangtao và cộng sự

Li Fangtao và cộng sự năm 2010 [24] đề xuất hệ thống trích xuất đồng thời các khía cạnh và quan điểm dựa trên CRFs. Bên cạnh linear-chain CRFs với ngữ cảnh liền kề, các tác giả đề xuất sử dụng Skip-chain CRFs và Tree CRFs để tận dụng các cấu trúc cây, và phụ thuộc giữa các thành phần trong câu.

Một phần của tài liệu Vu trong hoa EXTRACTING ASPECT IN OPINIO (Trang 43 - 46)

Tải bản đầy đủ (PDF)

(70 trang)