Sử dụng linear-chain CRFs: Các tác giả đề xuất mơ hình sử dụng linear-chain CRFs nhằm tận dụng ngữ cảnh của câu. ví dụ 2 từ liên tiếp cĩ cùng một kiểu từ loại, nếu từ thứ nhất mang quan điểm tích cực thì khả năng cao từ thứ hai cũng thế. Hay từ thứ nhất là tính từ mang quan điểm thì từ thứ hai nhiều khả năng là khía cạnh của thực thể. Để mơ hình hĩa sự phụ thuộc liên tiếp đĩ các tác giả đề xuất sử dụng mơ hình linear-chain CRFs. Biểu diễn đồ thị như hình 11 (a).
Sử dụng Skip-chain CRFs: Để tận dụng và nhấn mạnh vai trị của các liên từ (and,
but …) các tác giả đề xuất sử dụng mơ hình Skip-chain CRFs cĩ biểu diễn như hình
11(b). Vai trị của các liên từ này đã nghiên cứu trong nhiều cơng trình trước đây (Hatzivassiloglou and McKeown, 1997; Ding and Liu, 2007). Ví dụ, “I like the
Khĩa luận tốt nghiệp Vũ Trọng Hĩa
34
thể dễ dàng cĩ được “special effects”. Hay đối với các từ quan điểm, nếu được liên kết bằng liên từ “and” thì nhiều khả năng chúng mang cùng một hướng quan điểm, ngược lại với “but”. “This phone has a very cool and useful feature – the
speakerphone”, “cool” được kết nối với “useful” bằng liên từ “and”.
Sử dụng Tree CRFs: Nhằm tận dụng các phụ thuộc (như nsubj, amod, advmod, dobj) trích từ cây phụ thuộc, hay nĩi cách khác là khai thác mối quan hệ giữa quan điểm và đích của nĩ, tác giả đề xuất mơ hình Tree CRFs hình (11c) cho phép mơ hình hĩa sự phụ thuộc đĩ. Ví dụ: “I really like this long movie”. Nếu sử dụng linear-chain CRFs. “like” và “movie” sẽ khơng cĩ cạnh trực tiếp nào. Tree CRFs giải quyết được vấn đề này.
Mơ hình Skip-Tree CRFs là kết hợp của hai mơ hình trên.
3.3. Nhận xét và đánh giá
Hai phương pháp học máy giám sát và mơ hình chủ đề tỏ ra hiệu quả khi áp dụng vào bài tốn trích xuất khía cạnh, đồng thời đây cũng là các phương pháp được tập trung nghiên cứu trong thời gian gần đây. Qua các cơng trình [24], [21]áp dụng mơ hình chủ đề ở trên ta cĩ thể thấy một ưu điểm đĩ là chúng là các mơ hình học máy khơng giám sát, chúng ta khơng cần thiết phải chuẩn bị dữ liệu gán nhãn thủ cơng để huấn luyện, cơng việc mà tiêu tốn thời gian cũng như cơng sức. Tuy nhiên mơ hình này địi hỏi một lượng rất lớn dữ liệu, và cơng sức để cĩ thể điều chỉnh các tham số mơ hình nhằm đạt kết quả tốt nhất, giả thiết về sinh văn bản của các mơ hình đĩ cĩ thể khơng hồn tồn phù hợp với dữ liệu nhiễu như dữ liệu từ mạng xã hội. Nhưng việc địi hỏi lượng dữ liệu lớn lại là một thuận lợi khi áp