GIỚI THIỆU
Động cơ nghiên cứu
Phân giải đồng tham chiếu là một bài toán khá phổ biến trong lĩnh vực Xử lý ngôn ngữ tự nhiên, được áp dụng trong tóm tắt văn bản, rút trích thông tin, hệ thống hỏi đáp, phân tích cảm xúc, v.v Trong văn bản, một đối tượng hay khía cạnh của một đối tượng có thể được nhắc nhiều lần bởi chính cụm từ ban đầu hoặc có thể là những cụm từ khác, nhưng người đọc vẫn tham chiếu được đối tượng hay khía cạnh đó Các cụm từ khác này là một tên gọi ngắn gọn hơn, hay các đại từ, danh từ Để hiểu được nội dung một đoạn hay toàn bộ văn bản, thì người đọc phải nối ý của các câu với nhau Trong đó, quan trọng nhất là liên kết các từ thay thế với các từ chỉ đối tượng được đề cập ở những câu trước trong văn bản Việc xác định sự liên kết (sự tham chiếu) của các cụm từ cùng chỉ đến một đối tượng trong văn bản được gọi là bài toán phân giải đồng tham chiếu trong Xử lý ngôn ngữ tự nhiên
Bài toán phân giải đồng tham chiếu hiện nay có nhiều dạng, như đồng tham chiếu đại từ, sự kiện, thực thể và đồng tham chiếu đối tượng, khía cạnh Đồng tham chiếu đại từ [1-3]là bài toán phổ dụng, nhưng phức tạp trong Xử lý ngôn ngữ tự nhiên và thu hút sự quan tâm của nhiều nhà nghiên cứu Việc xác định các đại từ tham chiếu đến một danh từ, hoặc đại từ trước đó trong văn bản gọi là đồng tham chiếu đại từ Đồng tham chiếu thực thể [4] là xác định thực thể nào đề cập trong văn bản tham chiếu đến cùng một thực thể Đồng tham chiếu sự kiện [5] là xác định sự kiện nào trong văn bản tham chiếu đến cùng một sự kiện Đồng tham chiếu đối tượng và khía cạnh [6]là nghiên cứu nhằm nâng cao hiệu quả của bài toán phân tích cảm xúc, đóng vai trò quan trọng vì giải quyết vấn đề làm mất hay gán sai thông tin về cảm xúc, quan điểm cho các thực thể liên quan Ví dụ: “I bought a Canon S500 camera yesterday It looked beautiful I took a few photos last night They were amazing." Trong câu thứ nhất, “a Canon S500 camera” là đối tượng được tham chiếu bởi từ “It” trong câu thứ 2 Trong câu thứ ba, “photos” là thuộc tính của đối tượng
“Canon S500 camera” được tham chiếu bởi “They” trong câu thứ tư Bài toán phân giải
2 đồng tham chiếu đối tượng và khía cạnh xác định các đề cập đến đối tượng và thuộc tính tham chiếu đến cùng một thực thể
Hiện nay, do sự đa dạng về mặt hàng cùng loại sản phẩm, nhu cầu của con người càng ngày khắt khe trong việc lựa chọn sản phẩm và với công nghệ Internet, mạng xã hội toàn cầu phát triển mạnh nên nguồn dữ liệu văn bản có nhiều ý kiến về các sản phẩm trên các trang web ngày một giàu và phong phú Những đoạn văn bản có ý kiến đó gọi là văn bản có cảm xúc và việc quan tâm đến vấn đề phân tích văn bản cảm xúc cũng là một nhu cầu tất yếu của thực tiễn và khoa học
Phân tích cảm xúc (Sentiment analysis) [7] hay còn gọi là khai phá ý kiến (Opinion mining) là một lĩnh vực phân tích ý kiến, tình cảm, sự ước lượng, sự đánh giá, thái độ và cảm xúc của con người về các thực thể như sản phẩm, dịch vụ, tổ chức, cá nhân, vấn đề, sự kiện, chủ đề và các thuộc tính của chúng Bài toán phân tích cảm xúc vẫn đang là một vấn đề được khá nhiều công trình nghiên cứu quan tâm và bài toán được chia thành nhiều mức Thứ nhất là phân tích cảm xúc mức văn bản, thứ hai là mức câu, và chi tiết hơn là mức khía cạnh
Bài toán phân tích cảm xúc ở mức văn bản là bài toán đơn giản nhất trong phân tích cảm xúc, với việc xác định tổng thể tính phân cực của văn bản là tích cực, tiêu cực hay trung lập Nhiệm vụ này thường được xem là bài toán phân lớp cảm xúc mức văn bản
Bài toán phân tích cảm xúc ở mức câu xác định mỗi câu trong văn bản có giá trị tích cực, tiêu cực hay trung lập, phân tích cảm xúc ở mức này sâu hơn mức văn bản
Phân tích cảm xúc mức khía cạnh là xác định cảm xúc hay ý kiến nhận xét về các khía cạnh hoặc đối tượng được đề cập trong văn bản Nói cụ thể hơn, ngoài việc đánh giá cảm nhận tích cực hay tiêu cực của một khía cạnh, đối tượng bằng một từ cảm xúc thì các đối tượng có thể là sản phẩm hay khía cạnh cũng phải được xác định cụ thể Ví dụ, câu “although the service is not that great, I still love this restaurant” có tính tích cực về “restaurant” nhưng tiêu cực về “service” Do đó phân tích cảm xúc ở mức khía cạnh được coi là phức tạp hơn so với hai mức trên
Tuy có nhiều phương pháp tiếp cận cho bài toán phân tích cảm xúc ở các mức, nhưng các tiếp cận này cũng chỉ mới dừng ở kết quả văn bản, câu hay khía cạnh và đối
3 tượng được đề cập có tính phân cực gì về cảm xúc mà vẫn chưa quan tâm mối quan hệ giữa cảm xúc, khía cạnh và đối tượng Vấn đề nghiên cứu còn để mở này chính là động cơ nghiên cứu của luận án
1.2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu của luận án là xây dựng mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có một và nhiều đối tượng để xác định được các bộ ba đối tượng, khía cạnh và cảm xúc từ các văn bản cảm xúc có một hoặc nhiều đối tượng Để đạt được mục tiêu trên, trước tiên luận án giải quyết bài toán 1 “Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có một đối tượng” (được trình bày chương 3) Để giải quyết bài toán 1, luận án đã nghiên cứu và tiếp cận các phương pháp và công cụ hỗ trợ như đồ thị đồng tham chiếu, ontology và xác định khía cạnh ẩn để giải quyết triệt để và nâng cao hiệu quả cho bài toán 1 Trong quá trình giải quyết bài toán 1, luận án đã nghiên cứu và tiếp cận giải quyết bài toán 2 “Làm giàu ontology cảm xúc” và bài toán 3 “Xác định khía cạnh ẩn” Cuối cùng, luận án tiếp cận và giải quyết bài toán 4 “Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng” Để giải quyết được bài toán 4, là vấn đề khó, vì chưa có công trình nào công bố trước đó Luận án đã nghiên cứu các phương pháp tiếp cận, và cuối cùng đã chọn phương pháp học sâu, có ứng dụng mô hình ngôn ngữ BERT
Trước khi đi vào chi tiết mục tiêu, luận án đưa ra các định nghĩa, khái niệm của một số thuật ngữ được sử dụng trong luận án
- Đối tượng (Object) là một khái niệm chỉ đến một thực thể hay là một tên riêng của một sản phẩm, đồ vật cụ thể Ví dụ: Samsung Galaxy Note7, iPhone 6S là tên riêng chỉ đến đối tượng là điện thoại di động
- Khía cạnh (Aspect) là một khái niệm đề cập đến một thành phần (component) hay một thuộc tính (tính chất - attribute) của một đối tượng Ví dụ như pin (battery) là một thành phần của smartphone, thiết kế (design), giá thành (price) là các thuộc tính của smartphone, v.v
- Cảm xúc (Sentiment) là những khái niệm gồm những từ mang cảm xúc, ý kiến về một khía cạnh của đối tượng Cảm xúc có thể là tích cực (khen), trung lập (không
4 khen, không chê) và tiêu cực (chê, phê bình) Ví dụ, beautiful (tích cực), normal (trung lập), bad (tiêu cực)
Việc xác định cảm xúc cho một khía cạnh của một đối tượng cụ thể cho thấy chi tiết hơn về chất lượng của một sản phẩm mà một khách hàng quan tâm Trên cơ sở phân giải đồng tham chiếu trên văn bản có cảm xúc, tác giả luận án đề xuất (1) bài toán phân giải đồng tham chiếu đối tượng để tìm ra bộ ba gồm đối tượng, khía cạnh và cảm xúc
Tuy nhiên với văn bản có từ hai đối tượng trở lên thì việc tìm ra các khía cạnh, cảm xúc thuộc về đối tượng nào sẽ khó hơn rất nhiều Xét ví dụ sau:
Mô hình đề xuất
Để giải quyết mục tiêu đề ra, luận án đề xuất giải pháp giải quyết bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc như Hình 1.1, với các mô-đun sau
Document: Một văn bản cảm xúc, bình luận về một sản phẩm theo miền chuyên biệt
PARSE: Mô-đun phân tích cú pháp văn bản: gán nhãn, xác định mối quan hệ văn phạm phụ thuộc, v.v
RECOAS: Nhận dạng các thành phần trong văn bản theo cấu trúc của ontology cảm xúc, như đối tượng, khía cạnh, cảm xúc và các mối quan hệ giữa các thành phần
OCR1Obj: Mô-đun phân giải đồng tham chiếu đối tượng trong văn bản chỉ đề cập đến một đối tượng
OCR2Obj: Mô-đun phân giải đồng tham chiếu đối tượng trong văn bản đề cập, có từ hai đối tượng trở lên
EMBEDDING CONTEXT WORD (ECW): Mô-đun chuyển đổi các từ thành các véc-tơ dựa theo ngữ cảnh trái và phải của các từ trong một câu của một đoạn văn bản
COREFERENCE RESOLUTION: Sử dụng đồ thị đồng tham chiếu để truy xuất bộ ba: đối tượng – khía cạnh – cảm xúc về các đối tượng được đề cập trong văn bản
SENTIMENT ONTOLOGY: Cơ sở tri thức chứa các thể hiện của đối tượng, khía cạnh, cảm xúc về một loại sản phẩm và mối quan hệ giữa các thành phần
POPULATION: Mô-đun làm giàu cơ sở tri thức ontology cảm xúc SENTIMENT
TRIPLETS OF OBJECT – ASPECT – SENTIMENT: Kết quả của mô hình là các bộ ba: đối tượng – khía cạnh – cảm xúc về các đối tượng trong Document
Mô hình đóng vai trò nhận diện các thành phần dựa trên ontology cảm xúc, thực hiện nhiệm vụ chuyển đổi văn bản được phân tích cú pháp thành các véc-tơ số.
6 xác định số đối tượng được đề cập trong văn bản Nếu số đối tượng lớn hơn 1 (Obj > 1) thì bài toán phân giải đồng tham chiếu đối tượng được thực hiện theo mô-đun OCR2Obj, ngược lại bài toán thực hiện theo mô-đun OCR1Obj Sau khi xác định được các thành phần và các cặp, như đối tượng - cảm xúc, đối tượng - khía cạnh, khía cạnh - cảm xúc, v.v thì các thành phần và mối quan hệ giữa chúng được đưa vào một đồ thị đồng tham chiếu có hướng và có trọng số CRG Áp dụng các thuật toán tìm kiếm trên đồ thị xác định được các bộ ba đối tượng - khía cạnh - cảm xúc
Hình 1.1 Mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
7 Để hiểu chi tiết hơn về các mô-đun và lý do đề xuất mô hình, trong chương 2 luận án sẽ trình bày các nghiên cứu liên quan: bài toán phân tích cảm xúc mức khía cạnh, bài toán phân giải đồng tham chiếu, ontology cảm xúc, v.v Với mỗi bài toán, luận án sẽ trình bày các phương pháp đã và đang được quan tâm và đưa ra các điểm còn hạn chế
Từ đó khẳng định giải pháp đề xuất của tác giả là cần thiết Để xây dựng mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận án cần giải quyết một số bài toán sau
Bài toán 1: Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có một đối tượng - OCR1Obj
Với văn bản có một đối tượng, giải quyết bài toán phân giải đồng tham chiếu đối tượng sẽ dựa vào cơ sở tri thức Văn bản cảm xúc chỉ đề cập đến một đối tượng thì từ, cụm từ chỉ khía cạnh, cảm xúc đều tham chiếu đến một đối tượng duy nhất Yêu cầu đặt ra của bài toán là phải xác định được từ, cụm từ nào chỉ khía cạnh, cảm xúc và đối tượng Để hỗ trợ xác định cảm xúc, khía cạnh và đối tượng chính xác, luận án đề xuất xây dựng cơ sở tri thức chuyên biệt cho bài toán phân giải đồng tham chiếu đối tượng, đó là ontology cảm xúc Đây là một mục tiêu của luận án
Ontology cảm xúc là một cơ sở tri thức được chia làm ba lớp Object, Aspect và Sentiment bao gồm các từ, cụm từ chỉ đối tượng, khía cạnh và cảm xúc Ngoài ra nó xác định được các mối quan hệ trong bộ ba, từ đó hỗ trợ xác định khía cạnh ẩn cho cảm xúc, giải quyết đồng tham chiếu thực thể có tên và xác định từ cảm xúc là tích cực, tiêu cực hay trung lập
Các mối quan hệ giữa các thành phần đối tượng, khía cạnh và cảm xúc trong văn bản được tổng hợp từ đồng tham chiếu đại từ và thực thể có tên, kết hợp với các mối quan hệ ngữ nghĩa (được xác định bằng văn phạm phụ thuộc) trong câu Các thành phần này được kết nối thông qua một đồ thị đồng tham chiếu và từ đó rút ra được các bộ ba đối tượng - khía cạnh - cảm xúc Đồ thị đồng tham chiếu là một đồ thị có hướng và trọng số, với các đỉnh là các từ, cụm từ được xác định từ đồng tham chiếu đại từ và thực thể có tên Các cạnh có hướng và trọng số được gán theo mối quan hệ giữa các thành phần trong ontology cảm xúc
8 Phương pháp giải quyết cho bài toán phân giải đồng tham chiếu đối tượng cho văn bản một đối tượng được trình bày chi tiết trong chương 3 Để giải quyết Bài toán 1, luận án đề xuất xây dựng:
- ontology cảm xúc (Sentiment Ontology-SO) hỗ trợ phân giải đồng tham chiếu đối tượng
- đồ thị đồng tham chiếu (CoReference Graph-CRG) để xác định bộ ba đối tượng, khía cạnh và ý kiến (Obj-Asp-Sen)
- mô hình phân giải đồng tham chiếu (một) đối tượng
Nội dung liên quan đến đóng góp này được công bố trong các công trình [Error! R eference source not found.], [Error! Reference source not found.]
Bài toán 2: Làm giàu ontology cảm xúc hỗ trợ phân giải đồng tham chiếu đối tượng
Ontology cảm xúc SO là một công cụ hỗ trợ đắc lực cho bài toán phân giải đồng tham chiếu đối tượng trên cơ sở cảm xúc Để nâng cao hiệu quả việc nhận dạng các từ, cụm từ thuộc về thành phần nào trong bộ ba Obj-Asp-Sen thì ontology cảm xúc cần chứa nhiều từ, cụm từ chỉ đối tượng, khía cạnh và cảm xúc có trong văn bản cảm xúc Việc lưu trữ đầy đủ các từ, cụm từ là một vấn đề không thể đạt được Nhưng hiện nay với lượng thông tin khổng lồ trên các trang mạng sẽ là kho ngữ liệu đủ lớn để có thể rút trích các thông tin cần thiết và lưu trữ trong SO Luận án đã xây dựng mô hình làm giàu ontology cảm xúc (Enriched Sentiment Ontology - ESO) dựa trên các thể hiện (instance) của các lớp Đây là một nhu cầu cần thiết của bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Cách tiếp cận để xây dựng mô hình ESO là sự kết hợp phương pháp dựa theo luật, phương pháp tính độ tương tự ngữ nghĩa giữa các từ và xác định phân cực cảm xúc dựa trên các bộ từ vựng khá phổ dụng như WordNet và Opinion Lexicon trong lĩnh vực xử lý ngôn ngữ tự nhiên
Đóng góp chính của luận án
Các đóng góp chính của luận án bao gồm:
• Đóng góp thứ nhất: Xây dựng ontology cảm xúc SO và đồ thị đồng tham chiếu CRG hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Ontology cảm xúc SO được xây dựng bán tự động dựa trên ontology của [8] Với mục tiêu nhận dạng các từ, cụm từ chỉ đối tượng, khía cạnh và cảm xúc bằng ontology, kiến trúc của ontology bao gồm có ba lớp chính là Object, Aspect và Sentiment Trong mỗi lớp sẽ có các lớp con tùy theo miền chuyên biệt, ví dụ ontology cảm xúc về smartphone thì trong Object có các lớp con như Samsung, iPhone, v.v Trong Aspect có Device, Attribute và Application; trong Sentiment có Positive, Negative và Neutral Ngoài việc nhận dạng các thành phần của bộ ba đối tượng, khía cạnh và cảm xúc, ontology cảm xúc có thể:
- xác định khía cạnh không tường minh cho cảm xúc;
- xác định khía cạnh với đối tượng;
- giải quyết đồng tham chiếu thực thể có tên;
- xác định cảm xúc là tích cực, tiêu cực hay trung lập;
- xác định mối quan hệ giữa các thành phần trong bộ ba
Công cụ thứ hai hỗ trợ giải quyết bài toán phân giải đồng tham chiếu đó là đồ thị đồng tham chiếu (CRG), là công cụ cuối cùng để sinh ra các bộ ba đối tượng, khía cạnh và cảm xúc CRG là đồ thị có hướng và có trọng số với mỗi đỉnh là các từ, cụm từ thuộc bộ đồng tham chiếu đại từ, thực thể có tên hoặc bộ phân tích cảm xúc mức
11 khía cạnh Trọng số của mỗi cạnh là khoảng cách giữa các lớp mà mỗi từ, cụm từ thuộc về lớp đó Luận án áp dụng các thuật toán tìm kiếm, duyệt cây để xác định các bộ ba đối tượng - khía cạnh - cảm xúc trên một miền chuyên biệt Đóng góp thứ nhất được công bố trong các công trình [Error! Reference source n ot found., Error! Reference source not found.]
• Đóng góp thứ hai: Mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn bản có một đối tượng
Từ đóng góp thứ nhất, luận án xây dựng được mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn bản có một đối tượng Trọng tâm của mô hình là mô-đun OBASCore Mô hình sử dụng ontology nhận dạng đối tượng, khía cạnh và cảm xúc dựa trên kết quả của phân giải đồng tham chiếu đại từ, thực thể có tên (ký hiệu Core) và phân tích cảm xúc mức khía cạnh (ký hiệu Sen) Sau đó, OBASCore kết nối các kết quả của Core và Sen trên đồ thị đồng tham chiếu CRG và suy luận ra bộ ba đồng tham chiếu đối tượng - khía cạnh - cảm xúc Đóng góp thứ hai được công bố trong các công trình [Error! Reference source n ot found., Error! Reference source not found.]
• Đóng góp thứ ba: Đề xuất mô hình làm giàu ontology cảm xúc
Ontology là công cụ hỗ trợ cho bài toán phân giải đồng tham chiếu đối tượng, vì vậy nó ảnh hưởng đến hiệu quả của bài toán Nếu ontology cảm xúc chứa nhiều thông tin tri thức thì việc nhận dạng và suy luận mối quan hệ giữa các thành phần trong một văn bản càng chính xác Để nâng cao hiệu quả của công cụ hỗ trợ này thì việc làm giàu thêm tri thức cho ontology là mục tiêu cần thiết của luận án Cách tiếp cận để làm giàu ontology đã được giới thiệu ở Bài toán 2 và sẽ được trình bày chi tiết trong chương 4 Đóng góp thứ ba được công bố trong công trình [Error! Reference source not f ound.]
• Đóng góp thứ tư: Đề xuất mô hình xác định khía cạnh ẩn trong văn bản cảm xúc
Mô hình xác định khía cạnh ẩn được áp dụng phương pháp học sâu trên một kho ngữ liệu các văn bản cảm xúc (Corpus12) để tìm ra một mô hình phân lớp khía cạnh cho các khía cạnh ẩn Đầu tiên mô hình huấn luyện từ bộ dữ liệu sinh ra từ Corpus12 và nhận được bộ trọng số W1 Sau đó W1 tiếp tục được tinh chỉnh trên các tập dữ liệu tương ứng với mỗi từ cảm xúc cho ra các bộ trọng số W2s Cuối cùng, W2s lần lượt được tinh chỉnh trên các tập dữ liệu tương ứng với các từ cảm xúc tham chiếu đến các khía cạnh thuộc lớp thuộc tính (Attribute) của ontology cảm xúc Kết quả cuối cùng là W3s được dùng để phân lớp khía cạnh ẩn hỗ trợ phân giải đồng tham chiếu đối tượng
• Đóng góp thứ năm: Xây dựng mô hình phân giải đồng tham chiếu đối tượng cho văn bản cảm xúc có từ hai đối tượng trở lên
Với mục tiêu xác định các bộ ba đối tượng - khía cạnh – cảm xúc trong một văn bản có ý kiến, cảm xúc với hai đối tượng trở lên, mô hình sử dụng mô-đun tiền huấn luyện để sinh ra véc-tơ có ngữ cảnh cho các từ chỉ đối tượng, khía cạnh và cảm xúc Cách tiếp cận của mô hình được áp dụng theo phương pháp mới hiện nay là học máy và học sâu dựa trên ngữ cảnh của văn bản và ontology cảm xúc Để áp dụng phương pháp học máy và học sâu, bài toán cần xác định bộ dữ liệu được học từ một kho ngữ liệu theo miền (Corpus12) Đặc biệt kho ngữ liệu này được phân tách thành hai là kho ngữ liệu chứa các văn bản cảm xúc đề cập đến một đối tượng (Corpus1) và kho ngữ liệu đề cập từ hai đối tượng trở lên (Corpus2) Có hai vấn đề luận án cần phải xử lý, thứ nhất chuyển đổi dữ liệu từ văn bản sang dữ liệu số có ngữ cảnh hay còn gọi contextual word embedding, thứ hai lọc trên bộ dữ liệu số những mẫu dữ liệu theo cặp đối tượng - khía cạnh và đối tượng - cảm xúc để huấn luyện Bộ dữ liệu mẫu được huấn luyện nằm trong ngữ cảnh của kho ngữ liệu Corpus1 Sau khi huấn luyện Corpus1, luận án thu được một mô hình dùng để phân lớp đối tượng cho khía cạnh và cảm xúc trong một văn bản Kết quả phân lớp được đưa vào đồ thị CRG và áp dụng các thuật toán tìm kiếm và duyệt cây xác định được các bộ ba đối tượng – khía cạnh – cảm xúc Các bộ ba này là kết quả cuối cùng của bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng Đóng góp thứ năm được công bố trong các công trình [1]
Cấu trúc của luận án
Luận án được chia thành sáu chương và một phụ lục, trong đó ở đầu mỗi chương đều có phần giới thiệu tổng quan và ở cuối mỗi chương đều có phần kết chương
Chương 1 trình bày mục tiêu, phạm vi nghiên cứu của luận án và những đóng góp chính của luận án; giới thiệu cấu trúc của luận án
Chương 2 trình bày các nghiên cứu liên quan đến các vấn đề mà luận án quan tâm
Chương này trình bày một cách tổng quan những hướng nghiên cứu liên quan đến phân giải đồng tham chiếu, phân tích cảm xúc, phân giải đồng tham chiếu cho phân tích cảm xúc, xác định khía cạnh ẩn, xây dựng và làm giàu ontology trên miền chuyên biệt
Chương 3 trình bày mô hình, giải thuật phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc của văn bản có một đối tượng Đồng tham chiếu đối tượng cho phân tích cảm xúc của văn bản có một đối tượng là bài toán cơ bản làm tiền đề để giải quyết bài toán phân giải đồng tham chiếu đối tượng phức tạp hơn, với văn bản có từ hai đối tượng trở lên
Chương 4 trình bày mô hình làm giàu ontology cảm xúc hỗ trợ phân giải đồng tham chiếu
Chương 5 trình bày mô hình, giải thuật phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn bản có nhiều đối tượng Đây là bài toán phức tạp, vì vậy chương này sẽ trình bày các mô-đun hỗ trợ như tiền xử lý văn bản, mô-đun học sâu để sinh ra các véc-tơ ngữ cảnh, mô-đun huấn luyện và cuối cùng là mô-đun phân giải đồng tham chiếu sinh ra các bộ ba đối tượng, khía cạnh và cảm xúc
Chương 6 là phần tổng kết của luận án, trong đó trình bày những kết quả mà luận án đã đạt được cũng như những dự định nghiên cứu trong tương lai Các kết quả của luận án đã được công bố trong các công trình [1-1]
CÁC NGHIÊN CỨU LIÊN QUAN VÀ CÁC KIẾN THỨC NỀN TẢNG
Phân giải đồng tham chiếu
Phân giải đồng tham chiếu là một thách thức phổ biến trong xử lý ngôn ngữ tự nhiên và được ứng dụng trong các bài toán như phân tích cảm xúc [7], tóm tắt văn bản [9], và rút trích thông tin hoặc hệ thống hỏi đáp [10]
Bài toán phân giải đồng tham chiếu được chia ở nhiều dạng đồng tham chiếu, như đồng tham chiếu đại từ, đồng tham chiếu thực thể, đồng tham chiếu sự kiện Mỗi dạng bài toán đến nay đã có nhiều phương pháp được nghiên cứu và áp dụng như dựa theo luật, dựa theo học máy, thống kê và học sâu, v.v Đối với phân giải đồng tham chiếu đại từ (ACR) và thực thể, bài toán tập trung vào việc xác định các cặp danh từ hoặc đại từ với danh từ cùng đồng tham chiếu đến một đối tượng Trong [2], R Sukthanker cùng các cộng sự (2018) đã tổng hợp đồng tham chiếu đại từ được chia thành nhiều loại tham chiếu khác nhau và các ràng buộc cho đồng tham chiếu đại từ Từ các ràng buộc này, nhiều công trình nghiên cứu đã đưa ra các tiếp cận từ dựa theo luật đến học máy Các giải pháp dựa theo luật như các công trình [11-19] Trong đó các công trình sử dụng các đặc trưng về cú pháp và ngữ nghĩa của văn bản được xem xét để xây dựng các luật giải quyết đồng tham chiếu đại từ và thực thể Tiếp cận học máy như cây quyết định [20-22], Bayes [23] mang lại hiệu quả cao hơn tiếp cận dựa theo luật Hoặc các công trình [24-26] giải quyết đồng tham chiếu theo tiếp cận gom cụm Ngoài ra, phân giải đồng tham chiếu dựa vào đồ thị có các công trình [27-30] Công trình [29], A Culotta và các cộng sự (2007) áp dụng đồ thị để giải quyết bài toán đồng tham chiếu cụm danh từ, với mỗi đỉnh của đồ thị là cụm danh từ và mỗi cạnh có trọng số tương ứng với xác suất mà hai danh từ đồng tham chiếu Sau đó phân chia đồ thị thành các cụm rời rạc tương ứng với phân giải đồng tham chiếu trên cụm danh từ Công trình [30] sử dụng đồ thị vô
15 hướng có trọng số là độ tin cậy giữa các đỉnh và cũng là cạnh giữa hai đỉnh Sau đó áp dụng thuật toán Min-Cut [31] để tính trọng số cắt và dừng Hay tiếp cận đồ thị có tri thức, ontology [32], R Prokofyev và các cộng sự (2015) đề xuất thêm tầng ngữ nghĩa để giải quyết đồng tham chiếu tốt hơn Tầng ngữ nghĩa sử dụng các kỹ thuật Web ngữ nghĩa cụ thể là Knowledge Graph (e.g., DBpedia) Hiện nay, có nhiều công trình áp dụng tiếp cận học sâu [33] sử dụng mạng nơ-ron lan truyền tiến (FFNN) [34-36] hay [37] kết hợp FFNN với Recurrent Neural Network (RNN) hoặc [38] kết hợp FFNN, LSTM (Long Short Term Memory), CNN (Convolutional Neural Network) và attention Đây là các kỹ thuật học sâu khá hiệu quả trong một số nhiệm vụ của lĩnh vực NLP và cũng hiệu quả trong phân giải đồng tham chiếu đại từ và thực thể Với tiếp cận học sâu, các từ được biểu diễn như một véc-tơ mang được ngữ nghĩa của từ trong câu Đến nay bài toán đồng tham chiếu vẫn được quan tâm và nghiên cứu vì tính ứng dụng của nó trong các bài toán liên quan đến NLP
Dạng bài toán thứ hai là đồng tham chiếu sự kiện So với đồng tham chiếu đại từ, thực thể, bài toán đồng tham chiếu sự kiện được cho là thách thức hơn Việc xác định các đề cập sự kiện đồng tham chiếu đến cùng một sự kiện là xác định các từ ngữ đề cập đến sự kiện có thể có liên quan đến thời gian, địa điểm, nhân vật, hay địa điểm Từ các yếu tố này, bài toán sẽ xác định mối quan hệ đồng tham chiếu đến một sự kiện trong văn bản Với bài toán đồng tham chiếu sự kiện cũng có nhiều cách tiếp cận như cây quyết định [39], Maximum Entropy [40,41], Support Vector Machines (SVM) [42], và mạng nơ-ron (ANN) [43,44], v.v
Trên đây là hai bài toán phổ biến về đồng tham chiếu, tuy nhiên đồng tham chiếu đại từ và thực thể được ứng dụng và xuất hiện nhiều trong các bài toán NLP khác như tóm tắt văn bản, phân tích cảm xúc, v.v.
Phân tích cảm xúc
Phân tích cảm xúc cũng là bài toán thách thức hiện nay, được cộng đồng NLP quan tâm và vẫn còn tiếp tục nghiên cứu Bài toán này thường được chia thành ba mức: mức văn bản, mức câu và mức khía cạnh
Phân tích cảm xúc ở mức văn bản là bài toán đơn giản và thường được xem là bài toán phân lớp cảm xúc mức văn bản Phân loại văn bản bằng một số phương pháp học
16 có giám sát: Naive Bayes [45,46] Phân loại văn bản bằng Support Vector Machine
(SVM) [47-50], ngoài ra, nhiều biến thể của SVM cũng đã được phát triển, ví dụ như Multi class SVM được dùng trong [51]; Maximal Entropy [52-54]; mô hình n-gram [55] Các phương pháp phân loại văn bản nêu trên được áp dụng cho bài toán phân lớp cảm xúc mức văn bản
Bài toán phân tích cảm xúc ở mức câu có một số phương pháp, công trình nghiên cứu ở mức câu như phân tích hướng ngữ nghĩa [56-59], học sâu [60], appraisal [61], point of view [62]
Phân tích cảm xúc mức khía cạnh (ABSA) [7] là xác định các ý kiến về thực thể ở từng đặc tính của nó Mỗi thực thể hay đối tượng trong một văn bản cảm xúc thường được đề cập đến các khía cạnh đi kèm với cảm xúc, quan điểm Bài toán cần xác định từ cảm xúc nào tham chiếu đến khía cạnh gì trong văn bản Bài toán phân tích ở mức này tập trung vào việc xác định các cặp khía cạnh - cảm xúc và đánh giá cảm xúc của khía cạnh ABSA có thể được chia thành ba bài toán con: rút trích khía cạnh và cảm xúc, phân tích từ cảm xúc và tóm tắt cảm xúc Trong đó, rút trích khía cạnh và cảm xúc là bài toán con quan trọng trong ABSA Với mỗi bài toán con đều có một số vấn đề phức tạp sẽ được đào sâu và phân tích tiếp bởi cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên, đặc biệt phân tích cảm xúc
Ví dụ 2.1: “I have just bought a Samsung Galaxy Note7 I like Note7 because its design looks beautiful However, it is expensive It has a camera I took a photo and it is amazing.”
Trong Ví dụ 2.1, văn bản đang nhận xét về chiếc điện thoại “Samsung Galaxy Note7” và chúng ta thấy rõ “beautiful” là khen khía cạnh “design”; “amazing” là khen khía cạnh “photo” Ngoài ra “expensive” cũng là từ chỉ cảm xúc nhưng trong văn bản không đề cập tường minh khía cạnh mà “expensive” nói tới
Công trình [63], C Manning và cộng sự (2014) đã sử dụng ngân hàng cây có nhãn cảm xúc (Stanford Sentiment Treebank) và mạng Neural Tensor đệ quy (Recursive Neural Tensor Network - RNTN) để phân lớp các câu theo năm lớp từ rất tiêu cực (very negative) đến rất tích cực (very positive) thể hiện qua các ký hiệu: , -, 0, +, + + Stanford Sentiment Treebank là một kho ngữ liệu với các cây được phân tích cú pháp có gán nhãn cảm xúc Các nút lá sẽ được gán giá trị cảm xúc, các nút cha được tính giá
17 trị thông qua các nút con bởi một hàm thành phần Mỗi nút là một véc-tơ đặc trưng, qua bộ phân lớp được gán một trong năm nhãn lớp ( , -, 0, +, ++) Quá trình này sẽ được thực hiện đệ quy về đến nút gốc Phương pháp của [63] được tích hợp vào một công cụ xử lý NLP khá nổi tiếng là Stanford CoreNLP Việc phân tích cảm xúc được coi như một tầng trong kiến trúc của CoreNLP
Công trình [64], M Hu và B Liu (2004) sẽ phân tích ý kiến sản phẩm theo từng khía cạnh, phân loại ý kiến thành khen hoặc chê Đầu tiên, các tác giả nhận dạng các khía cạnh của sản phẩm và xếp hạng các khía cạnh theo tần suất xuất hiện của chúng trong các đánh giá Với mỗi khía cạnh, các tác giả nhận diện số ý kiến là khen hay chê theo hướng ngữ nghĩa Trong đó, công trình sử dụng từ điển WordNet và kỹ thuật tái định cỡ mẫu trong xác suất thống kê để xác định ngữ nghĩa
Ngoài ra, phân tích cảm xúc mức khía cạnh được giải quyết theo nhiều hướng tiếp cận khác như phương pháp mô hình hóa chủ đề (Topic modeling) [65]; Probabilistic Latent Semantic Analysis (PLSA) [66-68]; dựa trên Latent Dirichlet Analysis (LDA) [69-72]; học máy [73,74]; học sâu [75-82]; v.v
Trong [67], A Balahura và các cộng sự (2009) thực hiện phân cực cảm xúc với ba mức khác nhau (cao, trung bình và thấp), sau đó các tác giả sẽ tóm tắt văn bản dựa trên yếu tố cảm xúc Các tác giả kết hợp các từ điển SentiWordNet, WordNet Affect và Micro WordNet Option cho thử nghiệm Ở quá trình tóm tắt, công trình [67] dùng phương pháp LSA (Latent Semantic Analysis) để tìm kiếm các câu có độ quan trọng lớn nhất, đồng thời có sự tương đồng về mặt ngữ nghĩa với chủ đề
Phát triển công trình [67], A Balahur và các cộng sự (2012) [68] vẫn sử dụng LSA nhưng kết hợp nhiều nguồn từ điển để tăng cường kiến thức đặc trưng ngữ nghĩa Với sự thay đổi này giúp hệ thống mới có được kết quả khá ấn tượng
Công trình [77], H Wu và các cộng sự (2016) thực hiện rút trích ý kiến và phân lớp cảm xúc dựa trên khía cạnh Cách tiếp cận của các tác giả là dựa trên mạng nơ-ron tích chập CNN theo hai phương pháp là cascade CNN (C-CNN) và multitask CNN (M-CNN) Hai phương pháp khác nhau ở điểm các bộ CNN sắp xếp câu theo khía cạnh và phân lớp cảm xúc cho câu ở cùng một mức, dùng chung ma trận từ nhúng để thực hiện các phần việc riêng, không phụ thuộc nhau
18 Công trình [78], D Dhanush và các cộng sự (2016) sử dụng mạng nơ-ron hồi quy RNN (Recurrent Neuron Network) để phát hiện và gán nhãn khía cạnh Các câu được gán nhãn sẽ được phân loại cảm xúc bằng CNN Trong giai đoạn tiền xử lý, các tác giả sử dụng Word2Vec để tạo ma trận cho tầng Word Embedding
Ngoài ra, bài toán phân tích cảm xúc mức khía cạnh còn sử dụng sự kết hợp Ontology chuyên biệt với các luật ngôn ngữ cụ thể để xử lý các từ cảm xúc [8] Trong [8], T Nguyen và các cộng sự (2014) đã đề xuất ontology cảm xúc SO (Sentiment Ontology) khá chi tiết và áp dụng vào việc phân tích cảm xúc mức khía cạnh Các tác giả muốn xác định ý kiến cảm xúc cho các hãng sản xuất, sản phẩm hoặc các đặc trưng Sử dụng ontology cảm xúc, [8] nhận diện tất cả các thực thể có mối quan hệ cảm xúc từ một văn bản cảm xúc Chính vì vậy ontology cảm xúc do các tác giả đề xuất có hai lớp khái niệm (khía cạnh và cảm xúc) cùng các tập mối quan hệ (quan hệ không phân loại, quan hệ phân loại và quan hệ cảm xúc) Cụ thể cấu trúc SO sẽ được trình bày ở phần 2.5
Phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc
Phân giải đồng tham chiếu cho phân tích cảm xúc [6,87,88] xác định các từ, cụm từ chỉ đối tượng và khía cạnh cùng tham chiếu đến một thực thể là các sản phẩm hoặc dịch vụ trong các văn bản có cảm xúc Các tác giả đề xuất bài toán nhằm nâng cao hiệu quả cho bài toán phân tích cảm xúc mức khía cạnh Không bỏ sót đối tượng, không xác định sai khía cạnh của đối tượng trong các văn bản cho bài toán phân tích cảm xúc mức khía cạnh, đó là mục tiêu của các công trình
Công trình [6], X Ding và các cộng sự (2010) giải quyết bài toán phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc Mục tiêu của bài toán là xác định các từ, cụm từ chỉ đối tượng (object) và thuộc tính (attribute) cùng tham chiếu đến một thực thể Trong đó đối tượng là các thực thể có tên, như là tên các sản phẩm và dịch vụ Mỗi đối tượng được mô tả bởi các thành phần và các thuộc tính, gọi chung là attributes Giới hạn của bài toán [6] được thực hiện trên các văn bản cảm xúc trên các trang web như các bình luận, thảo luận và các blog Các tác giả sử dụng tiếp cận học máy có giám sát với mô hình đề xuất huấn luyện trên các đặc trưng từ công trình [26] cộng thêm các đặc trưng mới của các tác giả Các đặc trưng được trình bày trong Bảng 2.1 dưới đây Trong đó α i ký hiệu cho từ, cụm từ dự tuyển xuất hiện trước (antecedent candidate) và α j ký hiệu cho từ, cụm từ dự tuyển xuất hiện sau (anaphor candidate) Trong Bảng 2.1, các đặc trưng được đánh dấu * là của công trình [6] đề xuất dựa trên phân tích cảm xúc và một số đặc tính từ vựng như đồng nhất quan điểm, liên kết
20 thực thể với các từ cảm xúc, độ tương tự chuỗi và các từ khóa giữa các từ, cụm từ cần xác định
Bảng 2.1 Danh sách các đặc trưng được sử dụng trong [6]
Các loại đặc trưng Đặc trưng Giải thích
Dựa trên phân tích cảm xúc Đồng nhất quan điểm *
Bằng 1 nếu hướng quan điểm của α i và α j là như nhau; bằng 0 nếu khác nhau, ngược lại bằng 2
Liên kết thực thể và các từ quan điểm *
1, 2, 3, 4, 5 là các giá trị của đặc trưng được tính theo độ Pointwise Mutual Information (PMI)
Thuộc văn phạm Đại từ i Bằng 1 nếu α i là đại từ, ngược lại bằng 0 Đại từ j Bằng 1 nếu α j là đại từ, ngược lại bằng 0 Đặc trưng số nhiều, số ít
Bằng 1 nếu cả hai α i và α j cùng là số nhiều hoặc cùng là số ít, ngược lại bằng 0
Mạo từ xác định Bằng 1 nếu α j bắt đầu với từ “the”, ngược lại bằng 0 Đại từ nhân xưng Bằng 1 nếu α j bắt đầu với từ “this”, “that”,
“those” hoặc “these”, ngược lại bằng 0
Tên riêng Bằng 1 nếu cả α j và α j cùng là tên riêng, ngược lại bằng 0
Tương tự chuỗi * Độ tương tự giữa α i và α j Đặc trưng bí danh Bằng 1 nếu α i là bí danh của α j hoặc α j là bí danh của α i , ngược lại bằng 0
Loại khác Khoảng cách Bằng khoảng cách giữa các câu chứa cặp α i và α j , bằng 0 nếu cùng trong một câu
Từ khóa giữa α i và α j (is-between, has- between) *
Bằng 1 nếu tồn tại từ khóa giữa α i và α j , ngược lại bằng 0
21 Đặc trưng đồng nhất quan điểm (sentiment consistency) được sử dụng khi tác giả của một bình luận bắt đầu mô tả quan điểm, cảm xúc về một đối tượng thì họ sẽ tiếp tục có cùng hướng quan điểm với đối tượng đó hoặc các thuộc tính của nó nếu không có các từ trái ngược như “but”, “however” Xét ví dụ sau: “(1) I bought Camera-A yesterday (2) I took a few pictures in the evening in my living room (3) The images were very clear (4) They were definitely better than those from my old Camera-B (5a) It is cheap too (5b) The pictures of that camera were blurring for night shots, but for day shots it was ok” [6] Câu (4) là câu so sánh Camera-A tốt hơn Camera-B, câu tiếp theo (5a) có quan điểm tích cực vậy nên “It” sẽ tham chiếu đến Camera-A Câu (5b) là câu tiếp theo câu (5a), biểu diễn cảm xúc tiêu cực, “that camera” sẽ tham chiếu đến “Camera-B” Các tác giả định nghĩa ngữ cảnh này là đồng nhất quan điểm Đặc trưng thứ hai là liên kết các thực thể với các từ cảm xúc Để xác định được sự liên kết, các tác giả của bài báo đã sử dụng độ tương quan giữa các từ PMI như công thức (2.1)
- NP ký hiệu cụm danh từ, có thể là đối tượng hoặc thuộc tính
- OW ký hiệu từ cảm xúc
- P(NP, OW) là xác suất có điều kiện của NP với sự xuất hiện đồng thời của
OW và được tính theo công thức (2.2)
- P(NP) là xác suất xuất hiện của NP
- P(OW) là xác suất xuất hiện của OW
Ngoài ra, một số đặc trưng hữu ích khác như is-between, has-between có giá trị “true” nếu giữa α i và α j có các động từ is, are, was, were, be, has, have, had, ngược lại bằng
22 Công trình phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc được áp dụng cho các văn bản cảm xúc có chứa các câu không so sánh và có so sánh từ hai đối tượng trở lên Công trình sử dụng đặc điểm của văn bản cảm xúc để đề xuất bổ sung các đặc trưng nhằm nâng cao hiệu quả bài toán phân giải đồng tham chiếu đối tượng khía cạnh trong phân tích cảm xúc Với tiếp cận học máy có giám sát trên tập dữ liệu được gán nhãn thủ công, kết quả của bài báo thu được trên ba tập dữ liệu (cellphone, TVs và Cars) với độ chính xác hơn 70%
Tuy nhiên, bài báo chưa gắn kết đối tượng, khía cạnh với cảm xúc mà chỉ dừng ở việc xác định các cặp tham chiếu đối tượng với khía cạnh trên các câu so sánh (không phải tất cả văn bản) Kết quả của công trình này chính là tiền đề để luận án nghiên cứu mối quan hệ gắn kết giữa đối tượng-khía cạnh-cảm xúc
Sau 10 năm, bài báo đó đã được cải tiến bởi công trình [87] với tiếp cận định hướng tri thức (knowledge-driven) Từ [6] sử dụng học máy có giám sát với dữ liệu được gán nhãn thủ công, J Chen và các cộng sự (2020) đã cải tiến đề xuất khai phá tự động tri thức miền chuyên biệt từ dữ liệu văn bản thô và áp dụng tri thức theo miền chuyên biệt cho phân lớp đồng tham chiếu đối tượng, khía cạnh Cụ thể các tác giả ứng dụng mạng nơ-ron nhân tạo để thực hiện phân lớp đồng tham chiếu (OAC2) và kiến trúc mô hình được trình bày như Hình 2.1
Hình 2.1 Kiến trúc mô hình OAC2 hướng tri thức [87]
Trong mô hình ở Hình 2.1, các tác giả sử dụng ba nguồn tri thức, trong đó có hai nguồn tri thức tổng quát (General Knowledge) và một nguồn cơ sở tri thức theo miền chuyên
23 biệt (Domain-specific Knowledge) Nguồn thứ nhất: cơ sở tri thức OMCS [89] chứa 600K các bộ ba (thực thể 1, quan hệ, thực thể 2) như (clock, usedFor, keeping time) được áp dụng theo phương pháp [90] để chọn lọc ra các bộ ba có độ tin cậy cao hơn và cuối cùng OMCS có tổng cộng là 62,730 bộ Nguồn tri thức thứ hai: SenticNet [91] cũng là cơ sở tri thức chung chứa 50K các khái niệm liên quan đến cảm xúc Nguồn thứ ba: cơ sở tri thức miền chuyên biệt được xây dựng từ các tập dữ liệu bình luận chưa gán nhãn
Ba cơ sở tri thức trên là yêu cầu cho bước 1 của Hình 2.1, xác định được các bộ ba tương ứng với từ, cụm từ đề cập đến đối tượng hoặc khía cạnh (ký hiệu m) trong một văn bản cảm xúc Bước thứ hai các tác giả xác định các cụm từ liên quan đến cú pháp (quan hệ phụ thuộc) cho các từ, cụm từ m và các từ anaphor p Các cụm từ liên quan cú pháp có thể là danh từ, động từ, hoặc tính từ Sau bước 1 và 2, các từ, cụm từ đã xác định, được chuyển đổi sang dữ liệu số thực theo ngữ cảnh bởi công cụ BERT [92] Bước thứ ba, điểm dự đoán cuối cùng (the final prediction score)𝐹̂ được tính theo công thức (2.3)
𝐹̂ = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝐹 𝐶 + 𝐹 𝐾 + 𝐹 𝑆𝐾 ) (2.3) Trong đó, FC là điểm liên quan đến ngữ cảnh giữa m và p; FKlà điểm liên quan dựa trên tri thức giữa m và p; FSK là điểm liên quan giữa tri thức (bước 1) và các cụm liên quan cú pháp (bước 2) Để tính được các điểm 𝐹̂ cuối cùng, các tác giả sử dụng tám mạng nơ- ron nhân tạo theo kiểu xếp chồng, phụ thuộc nhau
Thực nghiệm của mô hình được thực hiện trên năm tập dữ liệu khác nhau: (1) alarm clock, (2) camera, (3) cellphone, (4) computer, và (5) laptop Kết quả đạt được của năm bộ dữ liệu không chênh lệch nhiều và trong khoảng 71% đến 73% độ F1-score Mặc dù với mô hình OAC2 rất phức tạp nhưng kết quả đạt được chưa phải là cao
Phương pháp [87] còn một số hạn chế:
- Sử dụng BERT để sinh ra véc-tơ ngữ cảnh tuy nhiên phạm vi của BERT có sẵn sẽ rất rộng và không gần với ngữ cảnh của một miền chuyên biệt
- Phải gán nhãn thủ công cho dữ liệu dùng để huấn luyện
- Bài toán chỉ đề cập đến mối liên hệ đối tượng và khía cạnh
- Không đề cập đến vấn đề xác định khía cạnh ẩn
24 Công trình [88], Y Zhao và các cộng sự (2015) đã quan tâm đến bài toán liên kết đối tượng và khía cạnh trong phân tích cảm xúc Các tác giả đề xuất mô hình có hai bước: thứ nhất cung cấp bộ phân lớp nhị phân cho các cặp khía cạnh – đối tượng, thứ hai sử dụng Integer linear programming (ILP) để suy luận ra kết quả cuối cùng của bài toán
Bộ phân lớp sử dụng ba tập đặc trưng:
- Cơ bản: (1) đặc trưng loại câu, dựa trên các câu có chứa đối tượng và khía cạnh, có ba loại câu lần lượt có giá trị 1, 2, 3 là câu chỉ chứa đối tượng, câu chứa cả đối tượng và khía cạnh, câu chỉ chứa khía cạnh (2) đặc trưng câu so sánh có giá trị true nếu trong câu có sự so sánh và false là câu bình thường không so sánh (3) đặc trưng đối tượng trả về đối tượng có xuất hiện trong câu
Xác định khía cạnh ẩn
Rút trích khía cạnh là nhiệm vụ quan trọng của bài toán phân tích cảm xúc mức khía cạnh Rút trích khía cạnh được khá nhiều công trình nghiên cứu quan tâm và bằng nhiều cách tiếp cận khác nhau như kỹ thuật xử lý ngôn ngữ tự nhiên, dựa theo luật, kỹ thuật Term Frequency – Inverse Document Frequency (TF-IDF), hoặc PMI
Khía cạnh trong văn bản có cảm xúc, quan điểm thường được các công trình nghiên cứu [7] chia thành hai loại, khía cạnh tường minh (Explicit Aspect) và khía cạnh ẩn (Implicit Aspect) Explicit aspect là khía cạnh được biểu diễn bởi các danh từ, động từ hoặc cụm danh từ, cụm động từ, ví dụ: “picture”, “run” Implicit aspect là khía cạnh được biểu diễn bởi các từ, cụm từ không phải là danh từ, ví dụ: “expensive”, “nice”, v.v
Nó có thể là tính từ, trạng từ biểu thị cảm xúc về một khía cạnh nào đó mà không xuất hiện cụ thể trong văn bản
Rút trích khía cạnh tường minh và khía cạnh ẩn đã được nhiều công trình nghiên cứu [93-94] Tuy nhiên phần này luận án sẽ chỉ tập trung đến việc xác định khía cạnh ẩn vì đây là vấn đề phức tạp, hấp dẫn và cũng được khá nhiều nhà nghiên cứu quan tâm theo các cách tiếp cận khác nhau, như gom cụm, phân cấp, học máy, học sâu, dựa tri thức, v.v
26 Công trình [95], Q Su và các cộng sự (2008) đề xuất theo hướng tăng cường lẫn nhau để gom cụm các khía cạnh tường minh và các từ cảm xúc của chúng Dựa trên các cụm này, công trình xác định các khía cạnh ẩn bằng cách tìm sự liên kết giữa các khía cạnh tường minh và các từ cảm xúc
Các tác giả [96,97] sử dụng phương pháp gom cụm để xác định các khía cạnh tường minh và gom nhóm chúng vào cùng nhóm tương tự nhau Sau đó xác định các khía cạnh ẩn bằng cách ánh xạ các khía cạnh ẩn vào tập các khía cạnh tường minh
Công trình [98], J Yu và các cộng sự (2011) sử dụng phân cấp khía cạnh và các từ cảm xúc để xác định khía cạnh ẩn Họ tích hợp các thông số sản phẩm và các bình luận của khách hàng để sinh ra một cấu trúc phân cấp có thể suy diễn khía cạnh ẩn trong một câu
Công trình [99], E H Hajar và B Mohammed (2016) sử dụng Naive Bayes và cùng với WordNet huấn luyện một bộ phân lớp xác định khía cạnh ẩn Đầu tiên họ kết hợp kho ngữ liệu với bộ từ điển WordNet để xác định các từ chỉ khía cạnh ẩn Với các từ khía cạnh được rút trích này, các tác giả đã huấn luyện một mô hình sử dụng Naive Bayes để xác định các khía cạnh ẩn
Công trình [100], J Feng và các cộng sự (2019) sử dụng Convolutional neural network (CNN) với thuật toán tuần tự để gán nhãn các từ trong câu Họ xác định khía cạnh ẩn bằng cách xem các khía cạnh ẩn như là các chủ đề, sau đó đối sánh mức độ giữa các từ cảm xúc và mức độ của các khía cạnh Đồ thị
Tác giả A Bagheri và các cộng sự (203) [101] đề xuất mô hình dựa trên đồ thị để rút trích khía cạnh ẩn Công trình định nghĩa một hàm dựa trên mối liên kết giữa các khía cạnh tường minh và các từ cảm xúc và trên cơ sở của hàm này, họ đã cập nhật thêm
27 trọng số cho mỗi cạnh của đồ thị Tiếp theo, họ sử dụng ngưỡng chênh lệch mô tả ranh giới giữa mọi khía cạnh với giá trị đo được đồng xuất hiện của từ cảm xúc và trích xuất ra danh sách các từ khía cạnh ẩn có khả năng xảy ra nhất
Công trình [102], Z Yan và các cộng sự (2015) đề xuất thuật toán NodeRank, đầu tiên xác định tất cả các cặp đồng xuất hiện của các từ cảm xúc với các từ khía cạnh Sau đó thuật toán tính giá trị NodeRank cho mỗi khía cạnh ẩn với từ cảm xúc Khía cạnh có giá trị cao nhất được xem như khía cạnh ẩn tiềm năng
Công trình [103], T A Rana và các cộng sự (2020) đề xuất giải pháp dựa trên tri thức nhiều lớp để rút trích các khía cạnh ẩn từ các bình luận, nhận xét sản phẩm online Công trình sử dụng NGD (Normalized Google Distance) để xác định khía cạnh liên quan nhất đối với những từ cảm xúc có thể đề cập đến nhiều hơn một khía cạnh Bài báo thực hiện rút trích cả khía cạnh tường minh và không tường minh (ẩn)
Nhược điểm của [103] là chưa quan tâm đến đồng tham chiếu đại từ trong trường hợp có đại từ ‘it’ (ví dụ: ‘I like the size It is small and light’), họ sử dụng IACs (Implicit Aspect Clues) để thay thế ‘It’ bởi ‘phone’ Trong ví dụ này không đúng cho việc thay thế ‘it’
Trong một văn bản mỗi từ tại vị trí khác nhau sẽ có ngữ nghĩa khác nhau, đặc biệt từ cảm xúc, nó có thể tham chiếu đến một đối tượng hay khía cạnh khác nhau Nó không những phụ thuộc vào ý nghĩa của các từ đứng trước mà còn phụ thuộc cả từ đứng sau Hay nói cách khác, tại mỗi vị trí của từ cảm xúc xuất hiện trong câu, văn bản nó có ngữ nghĩa khác nhau và tham chiếu đến thực thể khác nhau Đây chính là hạn chế mà các công trình nghiên cứu trên chưa đề cập
2.5 Ontology cảm xúc và làm giàu ontology
Ontology cảm xúc là một cơ sở tri thức phụ thuộc miền được sử dụng cho các bài toán phân tích cảm xúc Hiện nay đã có nhiều công trình nghiên cứu về phân tích cảm xúc dựa trên ontology Một trong các công trình đưa ra định nghĩa ontology cảm xúc chi tiết nhất đó là [8]
Theo định nghĩa của [8]: Ontology cảm xúc là một cặp (C, R), trong đó:
C A : tập khái niệm khía cạnh
C S : tập khái niệm cảm xúc
R N : tập quan hệ không phân loại (non-taxonomic relationships)
R T : tập quan hệ phân loại (taxonomic relationships)
R S : quan hệ cảm xúc (sentiment relationships)
- ci C: tập các đối tượng (thể hiện-instances), được ký hiệu là instance-of(ci)
- ri (cp,cq) R: mối quan hệ nhị phân giữa cp và cq,
- instance của ri là instance-of(ri),
- một instance r s i(a,s) của R S là mối quan hệ giữa một aspect a A và một từ cảm xúc (sentiment term) sS
Các kiến thức nền tảng
Trước khi trình bày các mô hình đề xuất trong chương này, luận án sẽ giới thiệu tổng quan các công cụ hỗ trợ và các bước xử lý cần thiết cho văn bản Những công cụ này cũng sẽ được áp dụng cho các mô hình xác định khía cạnh ẩn và phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng
2.6.1 Mạng nơ-ron nhân tạo – ANN
ANN có nghĩa Artificial Neural Network [139-141], mạng nơ-ron nhân tạo Một mạng nơ-ron được cấu thành bởi các nơ-ron đơn lẻ gọi là perceptron như Hình 2.7, có
34 nhiều đầu vào và một đầu ra Đầu ra y được tính theo công thức (2.4), với x là đầu vào, w là trọng số
Hình 2.7 Một nơ-ron nhân tạo – Perceptron
ANN là một sự kết hợp của các tầng perceptron (perceptron đa tầng – MLP) và có ba loại tầng: tầng vào (input layer), tầng ẩn (hidden layer) và tầng ra (output layer) như Hình 2.8 Tầng vào và tầng ra chỉ có một, tầng ẩn có thể có nhiều tầng
Hình 2.8 Kiến trúc mạng nơ-ron nhân tạo ANN
Ngoài ba loại tầng trên, một thành phần khá quan trọng trong một mạng ANN, đó là hàm kích hoạt (activation function) Hàm này dùng để giới hạn phạm vi đầu ra của các nơ-ron Thông thường, phạm vi đầu ra của mỗi nơ-ron được giới hạn trong đoạn [0,1] hoặc [-1,1] Hàm kích hoạt nhận đầu vào là một hàm tổng như công thức (2.4) và độ lệch bias Hàm này rất đa dạng, có thể là hàm tuyến tính hoặc phi tuyến và phổ biến hiện nay là hàm Tanh (2.5), Sigmoid (2.6), ReLU (2.7), v.v
𝑥 𝑓𝑜𝑟 𝑥 ≥ 0 } (2.7) Để áp dụng ANN cho các bài toán phân lớp thì quá trình học là tìm một hàm lỗi để đánh giá và tìm cách tối ưu hàm lỗi đó để được kết quả hợp lý nhất có thể Quá trình học sử dụng thuật toán lan truyền ngược và kết hợp với một phương pháp tối ưu hóa như
“gradient descent” Phương pháp này tính toán đạo hàm của hàm lỗi với tất cả các trọng số có trong mạng ANN, sau đó cập nhật lại các trọng số để cực tiểu hóa hàm lỗi Các bước của thuật toán có thể được trình bày như sau
Cho một số bước lặp:
Bước 1: Khởi tạo ngẫu nhiên véc-tơ trọng số w với các phần tử gần 0
Bước 2: Lan truyền tiến, với mỗi mẫu huấn luyện x
- Tính đầu ra y theo công thức (2.4)
- Tính hàm lỗi của y so với đầu ra mong muốn
- Tính đạo hàm hàm lỗi
- Cập nhật trọng số theo đạo hàm hàm lỗi
Thuật toán lan truyền ngược và mạng ANN là nền tảng cho các phương pháp học sâu [142] hiện nay Các mô hình học sâu đã mang lại hiệu quả rất lớn trong ngành trí tuệ nhân tạo cũng như trong các lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý ảnh, v.v
2.6.2 Mô hình ngôn ngữ - Tiền huấn luyện
“Word embeddings” là một khái niệm cơ bản của một mô hình học sâu trong các bài toán xử lý ngôn ngữ tự nhiên Để xử lý các từ, chuỗi từ (đoạn), câu hay văn bản thì việc chuyển đổi các từ thành các véc-tơ số có ý nghĩa được áp dụng trong các mô hình học sâu được gọi là nhúng từ (Word Embeddings - WE) Ví dụ hai từ “king” và “queen” được WE (Hình 2.9), mỗi từ có một véc-tơ số hóa
36 Hình 2.9 Word embedding của từ “king” và “queen”
Các phương pháp cho WE thường tiền huấn luyện trên các kho ngữ liệu (corpus) từ việc thống kê sự xuất hiện đồng thời của các từ, như mô hình Word2Vec [143], Glove [144] Tuy nhiên các mô hình này thực hiện WE không có ngữ cảnh Ví dụ từ “bank” trong Hình 2.10 cùng có giá trị WE như nhau trong hai đoạn khác nhau
Hình 2.10 Word embeddings của từ “bank” không ngữ cảnh
Một từ ở mỗi vị trí, ngữ cảnh khác nhau được biểu diễn bởi các véc-tơ khác nhau trên cùng kho ngữ liệu là một véc-tơ được sinh ra từ một mô hình tiền huấn luyện biểu diễn ngữ cảnh kết hợp cả trái và phải hiện nay rất hiệu quả đó là BERT [92]
BERT (Bidirectional Encoder Representations from Transformers) là một mô hình ngôn ngữ mới, được thiết kế để tiền huấn luyện việc biểu diễn từ, câu theo ngữ cảnh hai chiều trái và phải trên tất cả các tầng của mô hình Ví dụ hai câu sau sẽ giải thích rõ hơn về ngữ cảnh hai chiều
Câu 3.1 “The man was accused of robbing a bank.”
Câu 3.2 “The man went fishing by the bank of the river.”
Câu thứ nhất và thứ hai đều có từ “bank”, tuy nhiên ở mỗi câu, mỗi vị trí, từ “bank” có nghĩa khác nhau Từ “bank” ở câu thứ nhất đi sau từ “robbing” có nghĩa “ngân hàng”, ở câu thứ hai đi sau cụm từ “fishing by the” và trước cụm từ “of the river” nên từ “bank” được hiểu là “bờ sông” Xét cả trái và phải của từ “bank”, ta có một véc-tơ số thực mã hóa ngữ cảnh theo từ vựng, vị trí của từ trong câu và token (nhãn từ) Đầu vào của mô hình BERT được minh họa như Hình 2.11 Mỗi từ trong câu là tổng của token, vị trí từ (position embeddings) và vị trí câu chứa từ đó (segment embeddings)
37 Hình 2.11 Biểu diễn đầu vào của mô hình BERT [92]
Hình 2.11 minh họa đầu vào của 2 câu “My dog is cute He likes playing.”.Vị trí của từ trong cả hai câu được đánh chỉ số từ 0, vị trí câu được đánh dấu theo câu A và B Cuối cùng là cách tách từ theo bộ từ vựng của BERT
BERT là một kiến trúc đa tầng gồm nhiều lớp và đơn giản về khái niệm, mạnh về thực nghiệm Kết quả đạt được của mô hình trên 11 bài toán xử lý ngôn ngữ tự nhiên là khá cao, như đánh giá trên tập dữ liệu GLUE đạt 80.4%, tập dữ liệu MultiNLI đạt độ chính xác là 86.7%, tập dữ liệu hỏi đáp SQuAD v1.1 đạt F1 là 93.2%
BERT là phương pháp học không giám sát và thực hiện hai nhiệm vụ chính:
- Nhiệm vụ thứ nhất: Mô hình ngôn ngữ mặt nạ (Masked Language Model-
- Nhiệm vụ thứ hai: Dự đoán câu tiếp theo (Next Sentence Prediction-NSP)
Nhiệm vụ của MLM là chọn 15% từ ngẫu nhiên và sau đó thực hiện trong:
- 80% thời gian đầu tiên, các từ này được thay thế bởi nhãn [MASK]
- 10% thời gian tiếp theo, các từ được thay thế bởi các từ ngẫu nhiên
- 10% thời gian còn lại, các từ được giữ nguyên từ gốc
Nhiệm vụ thứ hai, NSP dự đoán câu tiếp theo có đúng là câu kế tiếp của câu trước hay không? Mô hình thực hiên nhằm xác định mối quan hệ giữa hai câu Giả sử có câu
A là câu đứng trước câu B cho mỗi mẫu huấn luyện Mô hình sẽ lấy 50% thời gian cho
B thực sự là câu đứng ngay sau A và 50% còn lại sẽ chọn một câu ngẫu nhiên từ kho ngữ liệu
38 BERT sử dụng kho ngữ liệu kết hợp của BooksCorpus 800 triệu từ [145] và Wikipedia tiếng Anh 2500 triệu từ
Kết luận
Bài toán phân giải đồng tham chiếu đại từ, thực thể đã được quan tâm, nghiên cứu rất nhiều và mang vào áp dụng trong phân tích cảm xúc đã có nhiều công trình nghiên cứu công bố Với bài toán phân tích cảm xúc mức khía cạnh có nhiều cách tiếp cận và phương pháp giải quyết, tuy nhiên các phương pháp này vẫn thiếu sự xác định mối liên kết giữa đối tượng được đề cập với các khía cạnh và cảm xúc của nó Trong xử lý ngôn ngữ tự nhiên, vấn đề đồng tham chiếu đối tượng để xác định cảm xúc đề cập đến thành phần hay thuộc tính của một đối tượng trong văn bản cho kết quả phân tích một văn bản có cảm xúc đầy đủ và chi tiết hơn Phân giải đồng tham chiếu cho phân tích cảm xúc mà luận án đề xuất là một bài toán phức tạp nhưng đầy đủ hơn vì giải quyết được vấn đề còn hạn chế nêu trên.
PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CÓ MỘT ĐỐI TƯỢNG
Mô hình xác định khía cạnh ẩn - IAI
Trong văn bản cảm xúc, các khía cạnh được đề cập thường đi kèm với cảm xúc (nhận xét) cụ thể Có nhiều cách trình bày, diễn đạt cảm xúc cho khía cạnh, có thể cảm xúc và khía cạnh cùng xuất hiện trong một câu, hoặc có thể xuất hiện ở hai câu cận kề nhau, hoặc chỉ có cảm xúc và còn khía cạnh thì ẩn Trường hợp khía cạnh ẩn là khía cạnh được đề cập đến nhưng không xuất hiện tường minh trong văn bản, mà người đọc nhận ra nhờ kiến thức, kỹ năng đọc hiểu, dựa vào ngữ cảnh của văn bản và cách diễn đạt của người viết
Khía cạnh ẩn của một đối tượng được đề cập, nhận xét, hoặc bình luận thông qua đối tượng và cảm xúc của nó, như trong ví dụ sau
Ví dụ 3.1: “I have a Samsung Galaxy A8 It is beautiful I took a photo It is amazing.”
40 Với Ví dụ 3.1, người đọc không thể đoán được “beautiful” là cảm xúc chỉ đến khía cạnh “design” hay “color” hay “photo” hay “screen”, v.v nếu không am hiểu lắm về các khía cạnh của smartphone Người đọc có thể hiểu “beautiful” trong câu “It is beautiful” là cảm xúc chỉ đến đối tựơng “Samsung Galaxy A8” Trong trường hợp này các từ
“design”, “color”, “photo”, “screen”, v.v gọi là khía cạnh ẩn
Ví dụ 3.2: “The Samsung Galaxy A8 is very beautiful.”
Trong Ví dụ 3.2, “beautiful” là cảm xúc chỉ đến đối tượng “Samsung Galaxy A8”, tuy nhiên không biết nó tham chiếu đến khía cạnh gì của đối tượng
Vậy làm thế nào để xác định được khía cạnh ẩn, là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên Dựa trên một kho ngữ liệu văn bản cảm xúc về một miền chuyên biệt, luận án đề xuất phương pháp học sâu để tìm ra vết cho khía cạnh ẩn tùy thuộc vào ngữ cảnh của văn bản chứa khía cạnh ẩn
Hình 3.1 dưới đây là các mẫu văn bản trong kho ngữ liệu có chứa dấu hiệu để hỗ trợ học máy tìm ra “vết” cho bài toán xác định khía cạnh ẩn, cụ thể khía cạnh ẩn của từ cảm xúc “beautiful” ở Ví dụ 3.1 và Ví dụ 3.2
Hình 3.1 Kho ngữ liệu có chứa các dấu hiệu xác định khía cạnh ẩn của “beautiful”
Hiện nay, việc xác định khía cạnh ẩn không đơn giản, hơn nữa còn phụ thuộc nhiều vào phạm vi ngữ cảnh của miền dữ liệu, mặc dù đã có nhiều nghiên cứu quan tâm trong phạm vi hẹp, xác định khía cạnh ẩn này
Ví dụ 3.3: Xét hai đoạn văn sau:
(i) “I have the Samsung Galaxy A8 I like its wifi and it is very strong.”
(ii) “I have the Samsung Galaxy A8 The configuration is very strong.”
Trong đoạn (Ví dụ 3.3i), từ “strong” rõ ràng tham chiếu đến khía cạnh “wifi” và trong đoạn (Ví dụ 3.3ii), “strong” tham chiếu đến “configuration” Vậy trong phạm vi bình luận về smartphone, “strong” không phải chỉ đến sức mạnh cơ bắp của con người mà chỉ đến “configuration” hoặc “wifi” của một thiết bị điện tử Không chỉ có hai khía cạnh này, “strong” có thể tham chiếu đến khía cạnh “RAM” hoặc “battery”, v.v Ngữ cảnh của các từ cảm xúc là vấn đề mà luận án quan tâm để xác định khía cạnh ẩn
Nhận thức về những hạn chế vì chưa tập trung đầy đủ ngữ cảnh của từ cảm xúc trong câu ở các phương pháp đã trình bày trong phần 2.4, chương 2, luận án đề xuất kỹ thuật học sâu trong ngữ cảnh miền và văn bản để xác định khía cạnh ẩn, đó là một cách tiếp cận hiện đại (state-of-the-art) hiện nay Sử dụng mối quan hệ văn phạm, cú pháp và đồng tham chiếu đại từ trong một kho ngữ liệu chuyên biệt để tạo ra các mối quan hệ cảm xúc
- khía cạnh, kết hợp với ngữ cảnh của từ trong câu để sinh ra bộ dữ liệu huấn luyện Bộ dữ liệu sau khi được huấn luyện sinh ra bộ phân lớp khía cạnh ẩn Từ đó xác định được khía cạnh ẩn bằng phương pháp phân lớp cho các từ cảm xúc không xuất hiện cùng khía cạnh Phương pháp học sâu được thể hiện trên kho ngữ liệu được tiền huấn luyện chuyển thành các véc-tơ có ngữ cảnh và được tách lọc ra các cặp cảm xúc – khía cạnh để huấn luyện, sau đó được tinh chỉnh ở bước tiếp theo để có được một mô hình phù hợp với phạm vi của các từ cảm xúc chỉ đến các khía cạnh ẩn
3.1.2 Tiền xử lý dữ liệu Đối với việc giải quyết các bài toán trong xử lý ngôn ngữ tự nhiên, một vấn đề không thể thiếu đó là tiền xử lý dữ liệu như xử lý từ vựng, loại bỏ các ký tự không có nghĩa, v.v Trong mô hình phân giải đồng tham chiếu đối tượng, các văn bản cảm xúc đề cập đến các đối tượng cụ thể có tên riêng, ví dụ: “Samsung Galaxy A8”, “Apple iPhone7” Để quá trình phân tách từ, cụm từ không làm mất ý nghĩa của tên các đối tượng, các cụm từ này sẽ được thay thế bởi một từ đại diện là OBJ Lý giải cho việc thay thế này, hãy xét Ví dụ 3.4
Ví dụ 3.4: “I gave my 6s plus to my wife and bought for myself an Apple iPhone7 two days ago iPhone7 is beautiful The battery is amazing But what I really appreciate is the speaker producing good sound and its 128g storage.”
Chúng ta nhận thấy vị trí của hai đối tượng “6s plus” và “Apple iPhone7” trong văn bản được hoán đổi thì kết quả đồng tham chiếu vẫn không thay đổi vị trí của đối tượng tham chiếu đến, chỉ thay đổi về tên của đối tượng Văn bản trong Ví dụ 3.4 được thay thế các đối tượng bởi OBJ như sau:
“I gave my OBJ 1,4 to my wife and bought for myself an OBJ 1,14 two days ago OBJ 2,1 is beautiful The battery is amazing But what I really appreciate is the speaker producin g good sound and its 128g storage.”
Trong đó OBJ 1,4 ở câu thứ nhất vị trí thứ 4, OBJ 1,14 ở câu thứ nhất vị trí 14, OBJ 2,1 ở câu thứ hai, ví trí thứ nhất Kết quả đồng tham chiếu trước và sau khi thay thế OBJ vẫn không thay đổi vì: từ “beautiful”, các cặp khía cạnh - cảm xúc: “battery” - “amazing”,
“speaker” - “appreciate”, “sound” - “good” vẫn đề cập đến OBJ 1,14 và OBJ 2,1 Hơn nữa việc thay thế này với mục đích là làm giảm số từ vựng của bộ phân tích cú pháp trong mô-đun tiền huấn luyện (ECW) sẽ được áp dụng trong các bài toán OCR1Obj và OCR2Obj
3.1.3 Mô hình xác định khía cạnh ẩn
Giải pháp đề xuất xác định khía cạnh ẩn (Implicit Aspect Identification - IAI) được trình bày ở Hình 3.2 Trong đó đường đi của những mũi tên màu đỏ là quá trình huấn luyện, màu xanh là quá trình phân lớp khía cạnh Quá trình huấn luyện là đi xác định bộ phân lớp khía cạnh ẩn, quá trình phân lớp là xác định khía cạnh ẩn cho các từ cảm xúc xuất hiện trong văn bản nhưng không tham chiếu đến khía cạnh tường minh
Mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có một đối tượng
Mô hình phân giải đồng tham chiếu đối tượng cho các văn bản cảm xúc có một đối tượng là xác định đồng tham chiếu bộ ba: đối tượng - khía cạnh - cảm xúc được luận án đề xuất và trình bày ở Hình 3.7
Mô hình ở Hình 3.7 có các mô-đun sau
- Document là văn bản có ý kiến (cảm xúc) về các smartphone, là dữ liệu đầu vào của mô hình;
- Parse là mô-đun phân tích cú pháp: xác định các quan hệ ngữ nghĩa, cú pháp cho các từ, cụm từ
- Anaphora & Entity CR: mô-đun phân giải đồng tham chiếu đại từ và thực thể;
- Embedding Context Word: mô-đun chuyển đổi các từ thành các véc-tơ dựa theo ngữ cảnh trái và phải của các từ của một câu trong một đoạn văn bản, tương tự mô-đun ECW trong phần 3.1.2
- Aspect-based Sentiment Analysis: mô-đun phân tích cảm xúc mức khía cạnh;
- Sentiment Ontology: một cơ sở tri thức chuyên biệt có cảm xúc;
- OBASCore: mô-đun do luận án đề xuất OBASCore sử dụng cơ sở tri thức của ontology để xác định các bộ ba đồng tham chiếu giữa đối tượng với khía cạnh có cảm xúc (Triplet of Object-Aspect-Sentiment) Giải thuật mô tả chức năng của mô- đun OBASCore được trình bày ở Hình 3.9
- Triplets of Object-Aspect-Sentiment là kết quả của bài toán, gồm các bộ ba: đối tượng
– khía cạnh – cảm xúc trong Document
3.2.1 Parse – Phân tích cú pháp Đây là bước quan trọng và cơ bản của bất kỳ bài toán liên quan đến phân tích văn bản Một văn bản dưới dạng ngôn ngữ tự nhiên của bất kỳ ngôn ngữ nào, sau khi tiền xử lý dữ liệu (xóa bỏ những ký tự, những vùng không cần thiết của hệ thống, tách đoạn, câu, từ, v.v.) các văn bản sẽ qua bước phân tích cú pháp như: gán nhãn từ loại, nhãn quan hệ ngữ pháp, tạo cây cú pháp v.v Mỗi ngôn ngữ sẽ có một bộ phân tích cú pháp riêng của ngôn ngữ đó, được gọi là Parse
55 Hình 3.7 Mô hình phân giải đồng tham chiếu cho phân tích cảm xúc có một đối tượng
3.2.2 Anaphora & Entity CR - Phân giải đồng tham chiếu đại từ và thực thể
Trong một văn bản, các cụm danh từ hoặc danh từ chỉ một đối tượng (thực thể có tên) được nhắc lại trong các câu hoặc các đoạn văn bản phía sau bởi các đại từ thay thế hoặc cụm danh từ nguyên gốc hoặc các cụm từ khác ngắn gọn hơn hay một cách gọi khác của đối tượng, thực thể ban đầu Từ đặc điểm này của văn bản, luận án chia thành hai trường hợp riêng biệt xác định đồng tham chiếu trong văn bản cho mô-đun Anaphora
- Trường hợp 1: xác định các đại từ đề cập đến đối tượng, thực thể ban đầu được gọi là phân giải đồng tham chiếu đại từ;
- Trường hợp 2: xác định các cụm danh từ cùng đề cập đến đối tượng, thực thể ban đầu gọi là phân giải đồng tham chiếu thực thể có tên
Ví dụ 3.8: “ 1 I have just bought a Samsung Galaxy Note7 2 I like Note7 because it looks beautiful 3 However, it is expensive 4 It has a camera 5 I took a photo and it is amazing.”
Trong Ví dụ 3.8, đối tượng là “Samsung Galaxy Note7” và cũng dễ nhận ra “Note7” là cách gọi khác của “Samsung Galaxy Note7”, trường hợp này gọi là đồng tham chiếu thực thể có tên Tuy nhiên, từ “it” trong câu thứ 2, 3 và 4 là các đại từ được dùng để thay thế “Note7”; hoặc từ “it” trong câu thứ 5 thay thế từ “photo”, các trường hợp này gọi là đồng tham chiếu đại từ (Anaphora CR - ACR)
Hiện nay phân giải đồng tham chiếu đại từ và thực thể có tên có khá nhiều công cụ hỗ trợ và đạt được độ chính xác khá cao, như CoreNLP của Stanford, NeuralCoref của spaCy, v.v Chính vì vậy luận án sẽ không nghiên cứu sâu để đưa ra tiếp cận mới cho cả hai trường hợp 1 và 2 Tác giả sử dụng các công cụ có sẵn này để giải quyết mô-đun Anaphora & Entity CR của mô hình (Hình 3.7)
3.2.3 Aspect-based sentiment analysis - Phân tích cảm xúc mức khía cạnh
Với mô hình ở Hình 3.7, vấn đề xác định mối quan hệ giữa đối tượng - cảm xúc, khía cạnh - cảm xúc trong một văn bản gọi là phân tích cảm xúc mức khía cạnh Một khía cạnh được nhận xét với cảm xúc là gì, tích cực, tiêu cực hay trung lập Bài toán này có rất nhiều cách tiếp cận và được nhiều nhà nghiên cứu quan tâm và hiện nay có rất nhiều công cụ hỗ trợ có hiệu quả cao như đã giới thiệu trong chương 2
Ontology là một cơ sở tri thức chứa các đặc tả về các khái niệm cũng như quan hệ giữa các khái niệm đó trong đa lĩnh vực Tùy theo miền chuyên biệt mà ontology lưu trữ và tổ chức thông tin để hệ thống có thể xử lý Hiện nay ontology là một trong những công cụ hữu hiệu cho các bài toán hướng đến tri thức như truy vấn thông tin, hệ thống hỏi đáp, v.v Cụ thể nó được sử dụng trong các lĩnh vực trí tuệ nhân tạo, web ngữ nghĩa, xử lý ngôn ngữ tự nhiên, v.v
Trong bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn bản có một đối tượng, việc xác định các khái niệm và mối quan hệ giữa chúng là trọng tâm của bài toán
57 Để giải quyết mục tiêu của đề tài luận án, ban đầu tác giả sẽ xây dựng thủ công Ontology cảm xúc cho miền chuyên biệt (smartphone) trên cơ sở áp dụng và phát triển công trình [8], với hai tập (C, R) Trong đó:
C = (C O , C A , C S ), là tập các khái niệm C O là tập khái niệm của đối tượng (object), ví dụ Samsung, IPhone, Oppo, v.v.; C A là tập khái niệm của khía cạnh (aspect): có ba lớp con, ví dụ như Device (camera, battery, v.v.), Attribute (design, price, v.v.) và Application (Bluetooth, wifi, v.v.); C S là tập khái niệm cảm xúc (sentiment) có các trị thuộc các lớp tích cực (Positive), tiêu cực (Negative) và trung lập (Neutral)
R = (R T , R N , R S ) tập các quan hệ giữa các lớp (class) với nhau, giữa các cá thể trong cùng class hoặc khác class R T là tập các mối quan hệ có phân cấp cha con (subconcept- of); R N là tập các mối quan hệ không phâp cấp cha con (isCore, hasAttribute, hasComponent, hasApplication); R S là tập các mối quan hệ cảm xúc (isPositive, isNegative, isNeutral)
Cá thể (Individual) là thực thể hay đối tượng cụ thể:
+ của đối tượng: Samsung Galaxy J3, Oppo A37, v.v
+ của khía cạnh: price, design, camera, v.v
+ của cảm xúc: cheap, expensive, beautiful, long, v.v Để hiểu rõ hơn về cấu trúc của Ontology cảm xúc hỗ trợ phân giải đồng tham chiếu đối tượng – khía cạnh – cảm xúc, luận án minh họa thông qua Hình 3.8 Kiến trúc ontology có ba lớp Object, Aspect và Sentiment Đường mũi tên có thể xuất hiện giữa các cá thể trong cùng một lớp hoặc giữa các lớp khác nhau Đường mũi tên thể hiện sự đồng tham chiếu giữa đối tượng – khía cạnh, khía cạnh – cảm xúc
Kết luận
Ứng dụng ontology cảm xúc SO do luận án xây dựng cho bài toán phân tích cảm xúc mức khía cạnh kết hợp phân giải đồng tham chiếu đã xác định được đối tượng cụ thể với các khía cạnh kèm theo cảm xúc của người viết về một sản phẩm trong một văn bản Ngoài ra, với sự hỗ trợ của mô hình xác định khía cạnh ẩn IAI trong bài toán phân giải đồng tham chiếu cho phân tích cảm xúc có một đối tượng cũng thu được kết quả tốt hơn so với sử dụng SO đơn thuần
Tuy nhiên kết hợp này vẫn còn một số hạn chế như bỏ sót đối tượng khi không có đồng tham chiếu đại từ hoặc thực thể; phân giải đồng tham chiếu không chính xác khi có những giới từ phủ định; rút trích cụm danh từ chưa đầy đủ Đây là những vấn đề mà luận án sẽ giải quyết ở các chương sau Ngoài ra để nâng cao hiệu quả đồng tham chiếu giữa đối tượng – khía cạnh, khía cạnh – cảm xúc thì việc phát triển, mở rộng ontology cảm xúc cũng là bài toán mà luận án đặt ra để giải quyết
CHƯƠNG 4 LÀM GIÀU ONTOLOGY CẢM XÚC HỖ TRỢ PHÂN GIẢI ĐỒNG THAM CHIẾU CHO PHÂN TÍCH CẢM XÚC
Chương này trình bày bài toán làm giàu ontology và giới thiệu mô hình đề xuất làm giàu các thể hiện (instances) cho ontology cảm xúc (SO) hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc và một số công cụ được sử dụng trong mô hình Cuối chương trình bày thực nghiệm cho mô hình ESO trên dữ liệu thực nghiệm và đánh giá ESO bằng độ chính xác và độ truy hồi
Mô hình làm giàu ontology cảm xúc ESO được công bố trong [Error! Reference s ource not found.]
Ontology cảm xúc SO hỗ trợ phân giải đồng tham chiếu đối tượng trong văn bản có cảm xúc là một cơ sở tri thức nhằm suy luận các bộ ba đối tượng - khía cạnh - cảm xúc được đề cập trong một văn bản có ý kiến, cảm xúc về một sản phẩm, mặt hàng nào đó Để ontology cảm xúc có đầy đủ tri thức và khả dụng cho bài toán phân giải đồng tham chiếu đối tượng - khía cạnh - cảm xúc trong văn bản có cảm xúc thì việc xây dựng và làm giàu SO là một yêu cầu tất yếu Cách tiếp cận làm giàu ontology của luận án là kết hợp văn phạm phụ thuộc, các luật dựa trên phân tích cú pháp và từ điển cảm xúc SentiWordnet
Xét ví dụ sau để làm rõ hơn tầm quan trọng của việc làm giàu ontology
Ví dụ 4.1: “I have just bought a Samsung Galaxy Note7 I like it because it looks beautiful However, it is expensive It has a camera I took a photo and it is amazing.”
Văn bản của Ví dụ 4.1 được tiền xử lý và phân tích cú pháp: tách câu, tách từ, gán nhãn từ loại, tạo quan hệ văn phạm Sau đó SO nhận dạng các từ, cụm từ sẽ thuộc về lớp đối tượng, khía cạnh hay cảm xúc Kết quả thu được các bộ ba như sau:
“Samsung Galaxy Note7” - “photo” - “amazing”;
“Samsung Galaxy Note7” - “design” - “beautiful”;
“Samsung Galaxy Note7” - “price” - “expensive”
Trong Ví dụ 4.1, ontology cảm xúc suy luận được đầy đủ các bộ ba theo yêu cầu của bài toán Tuy nhiên không phải đoạn văn bản nào cũng được giải quyết đúng, chính xác và đầy đủ Nguyên nhân chủ yếu đó là SO không chứa đầy đủ tri thức, dữ liệu
68 (instances) Vậy việc bổ sung, cập nhật thêm tri thức cho ontology là mục tiêu của luận án : “Làm giàu dữ liệu cho ontology cảm xúc hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc”
4.2 Mô hình làm giàu ontology cảm xúc ESO (Enriched Sentiment Ontology) Để ontology cảm xúc (SO) hỗ trợ phân giải đồng tham chiếu đối tượng, khía cạnh và cảm xúc hiệu quả hơn luận án đề xuất mô hình làm giàu SO, được thể hiện ở Hình 4.1
Cách tiếp cận cho mô hình ở Hình 4.1 là sự kết hợp phương pháp dựa theo luật, độ tương tự ngữ nghĩa giữa các từ, nhận diện tính phân cực của cảm xúc dựa trên các bộ từ điển khá phổ dụng như WordNet và Opinion Lexicon trong lĩnh vực xử lý ngôn ngữ tự nhiên
Document là đầu vào của mô hình ESO và có dạng văn bản không cấu trúc đề cập đến một đối tượng và có ý kiến, cảm xúc về các khía cạnh của đối tượng đó
Parse: phân tích cú pháp
Luận án sử dụng bộ công cụ parse của Stanford [63] để thực hiện việc gán nhãn từ loại và phân tích cú pháp theo văn phạm phụ thuộc (DG)
Các nhãn từ loại sau phân tích cú pháp là danh từ riêng (NNP), danh từ chung (NN), động từ (VERB), tính từ (ADJ) và trạng từ (ADV) Đây là năm loại nhãn từ được luận án lọc ra để phân lớp ngữ nghĩa
Ngoài việc gán nhãn từ loại, công cụ Parse còn trích xuất quan hệ ngữ pháp giữa các từ loại, ví dụ: cụm danh từ (NNP, NN); trạng từ bổ nghĩa động từ (ADV, ADV); tính từ bổ nghĩa danh từ (NN, ADJ) Phân tích phụ thuộc ngữ pháp (DG) sau đó xác định mối quan hệ ngữ nghĩa giữa các từ sau khi gán nhãn ngữ nghĩa.
Cuối cùng mô-đun Parse sẽ loại bỏ các từ không có giá trị ngữ nghĩa (stopword) cho miền chuyên biệt, ví dụ các từ chỉ thời gian như “yesterday”, “last”, “week”, v.v
69 Hình 4.1 Mô hình đề xuất ESO làm giàu ontology cảm xúc
Annotating of semantics: Gán nhãn ngữ nghĩa
Các từ, cụm từ tương ứng với các từ loại (NNP, NN, VERB, ADJ, ADV) đã được lọc ở mô-đun Parse sẽ được phân lớp ngữ nghĩa bằng SO Những từ còn lại không thuộc vào các lớp của SO (không tồn tại) sẽ được gán nhãn UNKN
Coreference resolution: Phân giải đồng tham chiếu (NNP)
Sử dụng DG như “compound” xác định các danh từ riêng đồng tham chiếu với nhau
“Compound” là quan hệ văn phạm giữa các danh từ hoặc danh từ riêng như thống kê trong Hình 4.2
Hình 4.2 Quan hệ văn phạm “compound” [146]
Ví dụ, Samsung Galaxy A8, có:
Tagging: Samsung/NNP Galaxy/NNP A8/NNP
70 Dependence Grammar: compound(A8, Samsung); compound(A8, Galaxy)
→ Ta có các danh từ riêng đồng tham chiếu đến “A8” là “Samsung A8”, “Galaxy A8”, “Samsung Galaxy A8”
Ngoài ra để phân lớp cho các Obj, tác giả sử dụng phương pháp so trùng giữa các Object với các lớp con
LÀM GIÀU ONTOLOGY CẢM XÚC HỖ TRỢ PHÂN GIẢI ĐỒNG
Mô hình làm giàu ontology cảm xúc ESO (Enriched Sentiment Ontology)
Để ontology cảm xúc (SO) hỗ trợ phân giải đồng tham chiếu đối tượng, khía cạnh và cảm xúc hiệu quả hơn luận án đề xuất mô hình làm giàu SO, được thể hiện ở Hình 4.1
Cách tiếp cận cho mô hình ở Hình 4.1 là sự kết hợp phương pháp dựa theo luật, độ tương tự ngữ nghĩa giữa các từ, nhận diện tính phân cực của cảm xúc dựa trên các bộ từ điển khá phổ dụng như WordNet và Opinion Lexicon trong lĩnh vực xử lý ngôn ngữ tự nhiên
Document là đầu vào của mô hình ESO và có dạng văn bản không cấu trúc đề cập đến một đối tượng và có ý kiến, cảm xúc về các khía cạnh của đối tượng đó
Parse: phân tích cú pháp
Luận án sử dụng bộ công cụ parse của Stanford [63] để thực hiện việc gán nhãn từ loại và phân tích cú pháp theo văn phạm phụ thuộc (DG)
Các nhãn từ loại sau phân tích cú pháp là danh từ riêng (NNP), danh từ chung (NN), động từ (VERB), tính từ (ADJ) và trạng từ (ADV) Đây là năm loại nhãn từ được luận án lọc ra để phân lớp ngữ nghĩa
Ngoài gán nhãn từ loại, công cụ Parse còn xuất ra mối quan hệ văn phạm giữa các từ loại như: compound(NNP, NN); advmod(VERB, ADV); amod(NN, ADJ), v.v Phần phân tích văn phạm phụ thuộc (DG) sẽ xác định quan hệ ngữ nghĩa giữa các từ sau khi gán nhãn ngữ nghĩa
Cuối cùng mô-đun Parse sẽ loại bỏ các từ không có giá trị ngữ nghĩa (stopword) cho miền chuyên biệt, ví dụ các từ chỉ thời gian như “yesterday”, “last”, “week”, v.v
69 Hình 4.1 Mô hình đề xuất ESO làm giàu ontology cảm xúc
Annotating of semantics: Gán nhãn ngữ nghĩa
Các từ, cụm từ tương ứng với các từ loại (NNP, NN, VERB, ADJ, ADV) đã được lọc ở mô-đun Parse sẽ được phân lớp ngữ nghĩa bằng SO Những từ còn lại không thuộc vào các lớp của SO (không tồn tại) sẽ được gán nhãn UNKN
Coreference resolution: Phân giải đồng tham chiếu (NNP)
Sử dụng DG như “compound” xác định các danh từ riêng đồng tham chiếu với nhau
“Compound” là quan hệ văn phạm giữa các danh từ hoặc danh từ riêng như thống kê trong Hình 4.2
Hình 4.2 Quan hệ văn phạm “compound” [146]
Ví dụ, Samsung Galaxy A8, có:
Tagging: Samsung/NNP Galaxy/NNP A8/NNP
70 Dependence Grammar: compound(A8, Samsung); compound(A8, Galaxy)
→ Ta có các danh từ riêng đồng tham chiếu đến “A8” là “Samsung A8”, “Galaxy A8”, “Samsung Galaxy A8”
Ngoài ra để phân lớp cho các Obj, tác giả sử dụng phương pháp so trùng giữa các Object với các lớp con
WordNet: [136,137] là một cơ sở tri thức phân cấp trong tiếng Anh được sử dụng như một cơ sở dữ liệu từ vựng chứa 155.287 từ và 117.659 tập đồng nghĩa cho các từ loại danh từ, động từ, tính từ và danh từ Tất cả các tập đồng nghĩa có quan hệ ngữ nghĩa
Ví dụ Hình 4.3 giới thiệu tập đồng nghĩa của từ “quality” và với từ loại là danh từ thì nó có 5 ngữ nghĩa
Hình 4.3 Tập từ đồng nghĩa của danh từ “quality” trong WordNet
Với mỗi ngữ nghĩa, từ “quality” sẽ có các từ đồng nghĩa với nó Hình 4.4 giới thiệu cấu trúc phân cấp với ngữ nghĩa đầu tiên của danh từ “quality”
Hình 4.4 Cấu trúc phân cấp của từ “quality” với nghĩa đầu tiên
Classify Aspect: Phân lớp khía cạnh Để thực hiện phân lớp khía cạnh, luận án sử dụng độ đo Semantic Similarity between
Words (SSW) [147] và WordNet Dựa trên cấu trúc phân cấp của cơ sở tri thức để xác định khoảng cách ngữ nghĩa giữa các từ Cấu trúc phân cấp của từ điển được mô tả như Hình 4.5 Các từ được tổ chức thành các tập đồng nghĩa trong cơ sở tri thức với ngữ nghĩa và quan hệ chỉ tới các tập đồng nghĩa khác Vì vậy chúng ta có thể tìm được lớp đầu tiên trong mạng ngữ nghĩa phân cấp là từ gần nghĩa chung nhất (subsumer) của các từ được so sánh Phương pháp trực tiếp tính độ tương tự là độ dài đường đi ngắn nhất giữa hai từ Ví dụ trong Hình 4.5, đường đi ngắn nhất giữa từ “boy” và “girl” là “boy- male-person-female-girl”, độ dài đường đi ngắn nhất là 4 và “person” được gọi là subsumer của “boy” và “girl”
Xét thêm ví dụ, theo Hình 4.5, độ dài ngắn nhất từ “boy” đến “animal” là 4 và ngắn hơn từ “boy” đến “teacher” Nhưng rõ ràng “boy” có độ tương tự về ngữ nghĩa với
“teacher” hơn “animal” Vậy trong mạng ngữ nghĩa phân cấp, với các từ ở cấp trên có ngữ nghĩa khái quát hơn và độ tương tự về ngữ nghĩa thấp hơn, ngược lại từ ở cấp dưới có ngữ nghĩa chi tiết hơn, độ tương tự giữa các từ sẽ cao hơn Tóm lại, độ tương tự giữa các từ được xác định bởi độ dài đường đi giữa chúng và độ sâu của subsumer
Cho hai từ w 1 và w 2, khi đó độ tương tự s(w 1, w 2) theo công thức (4.1)
- Với l : độ dài đường đi ngắn nhất giữa w 1 và w 2
- Với h : độ sâu của subsumer giữa w 1 và w 2
Công thức (4.1) có thể được viết lại theo công thức (4.2) và giá trị của s(w 1,w 2) trong khoảng từ 0 đến 1
❖ Cách tính độ dài l giữa hai từ có thể xảy ra ba trường hợp sau:
72 Hình 4.5 Cấu trúc phân cấp của WordNet
- w 1, w 2 không đồng nghĩa nhưng có ít nhất một từ đồng nghĩa giống nhau: l = 1 w 1, w 2 không đồng nghĩa, không có từ đồng nghĩa giống nhau, khi đó l được tính theo công thức (4.3) Trong đó là hằng số và tốt nhất bằng 0.2 với Wordnet theo [148]
❖ Độ sâu h giữa 2 từ w 1, w 2 được tính theo công thức (4.4), với là hằng số và tốt nhất bằng 0.45 với Wordnet theo [148]
Từ (4.3) và (4.4), ta có s(w 1,w 2) được viết lại theo (4.5), với ∈ [0,1], 𝛽 ∈ (0,1]
Giá trị của và phụ thuộc vào cơ sở tri thức được sử dụng
73 Khía cạnh là các danh từ, cụm danh từ hoặc có thể là động từ Trong SO có ba lớp con của lớp Aspect là Device, Attribute và Application Với những từ loại là động từ được phân lớp Attribute, còn các từ loại danh từ được sử dụng WordNet để tìm ra độ tương tự SSW với ba lớp con của Aspect Nếu SSW nào lớn nhất sẽ thuộc về lớp tương ứng
Kết luận
Ontology cảm xúc là một cơ sở tri thức hỗ trợ rất hiệu quả cho các bài toán phân tích cảm xúc và việc làm giàu SO là rất cần thiết Với đặc thù riêng về cấu trúc của SO hỗ trợ bài toán phân giải đồng tham chiếu cho phân tích cảm xúc nên mỗi lớp khái niệm sẽ có những tiếp cận khác nhau để làm giàu các thể hiện cho các lớp Mô hình ESO sử dụng cú pháp của câu và ngữ nghĩa của các từ để làm giàu cho ontology dựa vào WordNet và Opinion Lexicon Cụ thể, lớp đối tượng sử dụng văn phạm phụ thuộc, lớp khía cạnh sử dụng cơ sở tri thức WordNet và lớp cảm xúc dựa trên bộ từ vựng cảm xúc Với sự phụ thuộc của mô hình vào các cơ sở tri thức đã có (WordNet, Opinion Lexical) là điểm hạn chế của phương pháp đề xuất, tuy nhiên đây là những cơ sở tri thức đáng tin cậy và được cộng đồng xử lý ngôn ngữ tự nhiên sử dụng rất rộng rãi trong các công trình nghiên cứu.
PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CÓ NHIỀU ĐỐI TƯỢNG
Đặt vấn đề
Hiện nay, với công nghệ Internet và nhu cầu mua sắm của con người càng cao thì những đoạn văn bản có nhiều ý kiến về các sản phẩm trên các trang web ngày một phong phú Đặc biệt, việc so sánh, đánh giá nhiều hơn một sản phẩm trong cùng một văn bản hay đoạn văn bản sẽ nhiều hơn Với văn bản có một đối tượng việc xác định cảm xúc đề cập đến khía cạnh của đối tượng đơn giản hơn so với văn bản có từ hai đối tượng Trong văn bản có nhiều quan điểm, cảm xúc và đề cập đến nhiều khía cạnh của các đối tượng khác nhau sẽ làm cho bài toán phân giải đồng tham chiếu trên cơ sở cảm xúc càng trở nên phức tạp Vậy làm thế nào để xác định được chính xác cảm xúc chỉ đến khía cạnh của đối tượng cụ thể trong văn bản
Ví dụ 5.1: “I gave my 6s_plus to my wife and bought for myself an Apple iPhone7 two days ago iPhone7 is beautiful The battery is amazing But what I really appreciate is the speaker producing good sound and its 128g storage.”
Trong Ví dụ 5.1 xuất hiện hai đối tượng “6s_plus” và “Apple iPhone7” (nói ngắn gọn là “iPhone7”) Ngoài ra có một số các khía cạnh như “battery”, “speaker”, “sound”,
“storage” và các từ cảm xúc “beautiful”, “amazing”, “appreciate”, “good” Vậy các từ chỉ khía cạnh và cảm xúc này sẽ đề cập đến đối tượng nào trong hai đối tượng trên Với người đọc có thể dễ nhận thấy “battery” - “amazing”, “speaker” - “appreciate”,
“sound” - “good” và “beautiful” cùng nói về “Apple iPhone7” Nhưng “beautiful” là từ
81 cảm xúc chỉ đến khía cạnh nào của “Apple iPhone7”, trong văn bản không chỉ cụ thể, trường hợp này khía cạnh đã bị ẩn Với văn bản có một đối tượng thì bài toán phân giải đồng tham chiếu được đơn giản hơn nhờ vào một cơ sở tri thức đó là ontology cảm xúc Tuy nhiên trong Ví dụ 5.1, văn bản có từ hai đối tượng trở lên, việc xác định khía cạnh, cảm xúc cho đối tượng cụ thể trở nên phức tạp hơn
Với bài toán phân giải đồng tham chiếu đối tượng xác định được bộ ba đối tượng - khía cạnh - cảm xúc trong văn bản có nhiều đối tượng, luận án đã kết hợp cơ sở tri thức với học máy, học sâu, văn phạm phụ thuộc và đồ thị đồng tham chiếu để giải quyết.
Mô hình phân giải đồng tham chiếu cho phân tích cảm xúc có nhiều đối tượng -
Mô hình CROAS gồm hai giai đoạn huấn luyện và thử nghiệm, được trình bày như Hình 5.1 Giai đoạn huấn luyện nằm bên trái Hình 5.1 có mô-đun tiền huấn luyện (Pre- training) và mô-đun huấn luyện (Training) Giai đoạn thử nghiệm nằm bên phải hình có mô-đun phân lớp và phân giải đồng tham chiếu đối tượng Các mô-đun sẽ được trình bày chi tiết ở các phần tiếp theo
Hình 5.1 Kiến trúc của mô hình CROAS
Giai đoạn đầu tiên này sử dụng kho ngữ liệu các văn bản Corpus12 để tiền huấn luyện (Pre-training) và Corpus1, SO để huấn luyện (Training) Kho ngữ liệu Corpus12 bao gồm các văn bản chỉ đề cập đến một đối tượng (Corpus1) và các văn bản đề cập từ hai đối tượng trở lên (Corpus2) Từ kho ngữ liệu ban đầu Corpus12, giai đoạn này sử dụng
82 mô hình BERT sinh ra bộ trọng số W1 biểu diễn véc-tơ có ngữ cảnh Ngoài ra, từ huấn luyện đến thử nghiệm, mô hình cần sự hỗ trợ của cơ sở tri thức ontology cảm xúc SO
SO giúp mô hình xác định được các từ, cụm từ là đối tượng, khía cạnh hay cảm xúc và các mối quan hệ giữa các thành phần với nhau
Mô-đun tiền huấn luyện học trên tập Corpus12 thông qua mô hình sinh véc-tơ có ngữ cảnh BERT [92] và sinh ra một bộ trọng số W1 để áp dụng trong việc nhúng từ Trước khi thực hiện tiền huấn luyện, các đối tượng trong Corpus12 được tiền xử lý như phần 3.1.2 và bộ từ vựng của BERT được bổ sung thêm từ OBJ
Mô-đun huấn luyện học trên Corpus1 để xác định bộ trọng số W2 được dùng để phân lớp đối tượng cho các từ khía cạnh và cảm xúc mà chúng tham chiếu đến Hình 5.2 trình bày cấu trúc mô-đun huấn luyện, bao gồm ba mô-đun con: nhúng từ (Embedding Word –EW), tạo dữ liệu huấn luyện (Creating Data) và huấn luyện (Learning) EW sử dụng BERT để chuyển đổi từ trong Corpus1 thành các véc-tơ số thông qua W1 Creating Data sẽ sử dụng SO để lọc các từ chỉ đối tượng, khía cạnh và cảm xúc Mỗi véc-tơ đối tượng được bắt cặp với lần lượt các véc-tơ khía cạnh và cảm xúc Tất cả các cặp véc-tơ đó tạo nên bộ dữ liệu huấn luyện Example(x, y) với mỗi véc-tơ khía cạnh và cảm xúc là đầu vào và véc-tơ đối tượng là đầu ra
Hình 5.2 Mô-đun Training của mô hình CROAS Đầu vào x và đầu ra y có cùng kích thước n Áp dụng phép biến đổi tuyến tính [149], luận án tính được đầu ra y như công thức (5.1)
Từ công thức (5.1), mô-đun huấn luyện phải xác định bộ trọng số W2 trên toàn bộ tập dữ liệu huấn luyện Từ ý tưởng này dẫn đến bài toán hồi quy tuyến tính nhiều biến trong học máy Vì vậy, luận án sử dụng mạng nơ-ron ANN, để thực hiện bài toán hồi quy tuyến tính nhiều biến và được trình bày ở Hình 5.3
Hình 5.3 Mạng nơ-ron xác định bộ trọng số W2
Trong Hình 5.3, nút màu đỏ biểu diễn một véc-tơ đầu vào x với kích thước n và màu xanh biểu diễn đầu ra 𝑦̂ với kích thước n Đầu ra 𝑦̂ được tính bởi công thức (5.3):
Giải thuật 5.1 trình bày các bước ANN học trên tập dữ liệu Example để tìm ra bộ trọng số W2 Các biến sau được sử dụng trong giải thuật 5.1
- E là hàm mất mát giữa y và 𝑦̂
- dW2 là giá trị cần cập nhật cho W2
- db là giá trị cần cập nhật cho độ lệch b
- W2 được cập nhật mới thông qua hệ số học η và dW2
- b là giá trị được cập nhật mới thông qua η và db
Quá trình xác định W2 hoàn thành sẽ kết thúc giai đoạn huấn luyện
Xét ví dụ sau minh họa các bước của quá trình huấn luyện trong mô-đun CROAS
Ví dụ 5.2 Phân tích câu: “The Samsung Galaxy S5 is very beautiful Its price is low.” trong Corpus1 để tạo ra bộ dữ liệu huấn luyện và bộ trọng số W2
Các từ trong câu ở Ví dụ 5.2 được chuyển thành các véc-tơ ngữ cảnh trong Bảng 5.1 Cột Corpus1 trong Bảng 5.1 là các từ đã được tách từ, sau đó các đối tượng (tên của các smartphone) được thay bởi nhãn OBJ sẽ được mã hóa thành các véc-tơ có ngữ cảnh nhờ bộ trọng số W1
Các từ sau khi được chuyển thành các véc-tơ sẽ được lọc qua SO và giữ lại các véc- tơ của các từ là đối tượng, khía cạnh và cảm xúc Các véc tơ trong Bảng 5.1 được lọc qua SO sẽ cho kết quả là các dòng chữ đậm tương ứng với các thành phần trong SO ở cột thứ 2 trong Bảng 5.2 Cụ thể là V OBJ (đối tượng), V beautiful (cảm xúc), V price (khía cạnh), V low (cảm xúc)
Với bốn véc-tơ này sẽ tạo ba mẫu huấn luyện với đầu vào là các khía cạnh, cảm xúc và đầu ra là các đối tượng như Bảng 5.3
Bộ dữ liệu huấn luyện được mô tả trong Bảng 5.3 qua mạng ANN sẽ xác định bộ trọng số W2, được dùng cho mô-đun Classifying trong Hình 5.1 Trong đó các bộ véc- tơ đầu vào và đầu ra mong muốn có kích thước bằng nhau
Giải thuật 5.1 Huấn luyện trong mô-đun Training
85 Bảng 5.1 Véc-tơ ngữ cảnh của các từ trong Ví dụ 5.2
CORPUS1 VÉC-TƠ NGỮ CẢNH
The V The (1.7271,-3.9271,-3.7594,2.2622,3.6807 …) Samsung_Galaxy_S5 V OBJ (7.5163,-3.8687,-2.8119,6.4047,2.7057 …) is V is (-2.8495,3.4059,-2.8382,3.7184,1.8503 …) very V very (-0.6955,-3.6818,-5.0879,4.1740,-0.1736 …) beautiful V beautiful (6.2480,1.9683,-1.1540,0.4997,1.8538 …) Its V its (-3.4802,-1.4304,-4.3583,6.4000,-1.0986 …) price V price (1.0068,7.3092,-3.3400,-2.9799,4.6184 …) is V is (-2.9990,-0.6183,-1.2438,2.7345,-2.9368 …) low V low (8.3778,-3.7653,-3.8451,-1.4428,1.5906 …)
Bảng 5.2 Sử dụng SO lọc ra các đối tượng, khía cạnh, cảm xúc
VÉC-TƠ NGỮ CẢNH SO
86 Bảng 5.3 Bộ dữ liệu huấn luyện của mô-đun Training
DỮ LIỆU HUẤN LUYỆN ĐẦU VÀO ĐẦU RA
Trong mô-đun Classifying (giải thuật 5.2), BERT được sử dụng để chuyển đổi các từ trong Document sang các véc-tơ số thực có ngữ cảnh, ký hiệu Vs Khi đó, SO lọc ra các véc-tơ của các từ chỉ đối tượng, khía cạnh và cảm xúc theo phạm vi miền dữ liệu (chuyên biệt)
Kết luận
Mô hình đề xuất CROAS kết hợp học máy, học sâu, cơ sở tri thức ontology, đồ thị đồng tham chiếu và văn phạm phụ thuộc đã thể hiện tính hiệu quả cho bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn bản có nhiều đối tượng Đặc biệt với phương pháp biểu diễn ngôn ngữ mới và học máy hỗ trợ phân lớp đối tượng trong mô hình CROAS, mô hình đã hoạt động hiệu quả và thu được kết quả khá ấn tượng Bên cạnh đó, luận án đã thử nghiệm đưa mô hình xác định khía cạnh ẩn IAI vào mô hình CROAS Kết quả thử nghiệm cho thấy cao hơn so với việc sử dụng ontology cảm xúc
SO Tuy nhiên phương pháp này vẫn chưa bao phủ tất cả các trường hợp ngữ cảnh, ví dụ với các văn bản chứa chuỗi so sánh (more than ) thì CROAS chưa đạt kết quả chính xác cao Vì với dạng chuỗi so sánh more than không xuất hiện trong tập Corpus1 khi huấn luyện Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc trong văn bản có nhiều đối tượng là một bài toán khó trong xử lý ngôn ngữ tự nhiên và vẫn còn tiếp tục được nghiên cứu Với kết quả thu được khá tốt của mô hình CROAS,
98 cho thấy việc cải tiến phương pháp phức tạp này để giải quyết hạn chế còn lại sẽ hoàn thiện mô hình đề xuất một cách tốt nhất.