Minh họa việc sử dung mơ hình véc-tơ kết hợp cho biểu diễn mức câu

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 47)

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

2.9 Minh họa việc sử dung mơ hình véc-tơ kết hợp cho biểu diễn mức câu

Hình 2.9 là một minh họa việc sử dụng mơ hình véc-tơ kết hợp cho biểu diễn mức câu. Chúng ta thấy rằng mơ hình sử dụng hàmBI tương tự như một mơ hình CNN với kích cỡ cửa sổ tích chập là 2, thực hiện trên từng cặp từ, nhưng đơn giản và linh hoạt hơn mơ hình CNN khi nó khơng sử dụng các ma trận bộ lọc và các phép toán tổng hợp đặc trưng (max pooling operations) như trong mơ hình CNN.

2.4 Kết luận và thảo luận

Chương này luận án đã trình bày các mơ hình học biểu diễn cơ sở cho mức từ, mức câu, mức đoạn/văn bản và hai mơ hình đánh giá khía cạnh được xây dựng dựa trên phương pháp hồi quy xác xuất.

Bên cạnh các mơ hình học biểu diễn đã được trình bày, cịn có các mơ hình học biểu diễn hiệu quả khác được xây dựng dựa trên mạng bộ nhớ dài-ngắn LSTM (Long Short

Term Memory networks), như trong nghiên cứu [24, 29, 30]. Tuy nhiên hầu hết các mơ

hình này xây dựng dựa trên mơ hình LSTM đều cần sử dụng rất nhiều tham số [32], chi phí thời gian cho cơng việc huấn luyện mơ hình là rất lớn. Ngồi ra, xây dựng mơ hình khai thác kết hợp nhiều nguồn thơng tin khác nhau (ví dụ: đa mức biểu diễn từ và ký tự) thì xây dựng mơ hình dựa trên LSTM cũng khơng phù hợp như mơ hình xây dựng dựa trên CNN. Đó là lý do, trong luận án của chúng tôi sử dụng hoặc liên quan đến các mơ hình đã được trình bày trong chương này.

Chương 3

Đề xuất mơ hình dựa trên mạng nơ-ron xác định hạng và trọng số khía cạnh

của thực thể

Trong chương này, đầu tiên chúng tơi giới thiệu về hạng và trọng số khía cạnh của thực thể, xác định bài tốn và các yêu cầu đặt ra cần giải quyết. Sau đó trình bày mơ hình hóa hai bài tốn: (1) xác định hạng và trọng số khía cạnh ẩn; (2) xác định trọng số khía cạnh chung. Tiếp theo, trình bày các mơ hình đề xuất và các thực nghiệm, kết quả và đánh giá của các mơ hình đề xuất này trên tập dữ liệu sản phẩm/dịch vụ được trích xuất từ hệ thống thực tế1.

3.1 Giới thiệu

Nội dung trong các bài bình luận/ý kiến đánh giá trên các trang mạng xã hội hay website thương mại điện tử chứa quan điểm đánh giá của người sử dụng đối với từng khía cạnh của sản phẩm/dịch vụ (gọi chung là thực thể) thông thường là khác nhau. Theo [1, 25, 33, 34] hai thơng tin hữu ích về khía cạnh cần được xác định là hạng và trọng số khía cạnh. Hạng của một khía cạnh có thể là một số nguyên hoặc số thực, có giá trị trong khoảng từ 1 đến 5. Trọng số của một khía cạnh có giá trị trong khoảng từ 0 đến 1. Dựa trên hạng khía cạnh chúng ta sẽ biết được quan điểm người dùng đã đánh giá khía cạnh theo nghĩa làrất tiêu cực, hoặctiêu cực mức trung bình, hoặctrung lập,

hoặctích cực, hoặcrất tích cực. Trong khi đó, thơng tin trọng số khía cạnh sẽ cho chúng

ta thấy được mức độ quan trọng của từng khía cạnh mà người dùng đã quan tâm tới nó. Nhiều nghiên cứu trước về xếp hạng khía cạnh [33, 34] và xác định trọng số khía 1www.tripadvisor.com

cạnh [26,71] xem bài toán như là những bài toán phân lớp văn bản, yêu cầu dữ liệu huấn luyện được gán nhãn quan điểm khía cạnh. Mặc dù đã đạt được các kết quả tốt, nhưng việc gán nhãn quan điểm khía cạnh cho dữ liệu huấn luyện có thể tốn rất nhiều cơng sức của người làm dữ liệu. Để giải quyết vấn đề này, nghiên cứu [1, 25, 39, 40] coi hạng và trọng số khía cạnh của thực thể là ẩn. Nhằm ước lượng hạng và trọng số khía cạnh, họ đã đề xuất các mơ hình dựa trên các phương pháp xác suất thống kê (hồi quy, mơ hình chủ đề, phân phối Gaussian,...), với đầu vào là thông tin hạng chung (đánh giá chung) và nội dung văn bản của các bài bình luận/ý kiến đánh giá. Hạn chế chung của các mơ hình xác suất là sử dụng túi từ (một bộ từ điển) để biểu diễn đặc trưng cho khía cạnh, nó có thể tạo ra các véc-tơ đặc trưng thưa và thiếu thông tin (thiếu các từ quan trọng) nếu bộ từ điển đó chỉ được xây dựng trên tập dữ liệu huấn luyện.

Gần đây, các mơ hình học biểu diễn Word2Vec [57], véc-tơ Paragraph [2] với kiến trúc được thiết kế dựa trên mạng nơ-ron nhân tạo có khả năng sinh ra được các véc-tơ đặc trưng số thực có số chiều nhỏ (thường là nhỏ hơn 600) đã khắc phục được cách biểu diễn véc-tơ đặc trưng truyền thống. Trong chương này, đầu tiên chúng tơi đề xuất mơ hình mạng nơ-ron một lớp ẩn với giả thiết hạng khía cạnh ẩn tại tầng ẩn, trọng số khía cạnh ẩn là các tham trong mơ hình. Đầu vào của mơ hình là các véc-tơ biểu diễn khía cạnh được học tự động từ mơ hình véc-tơ Paragraph [2]. Sau đó, chúng tơi đề xuất mơ hình học biểu diễn đa tầng cho bài toán xác định hạng và trọng số khía cạnh ẩn, và một mơ hình mạng nơ-ron cho cơng việc xác định trọng số khía cạnh chung.

3.2 Mơ hình hóa bài tốn

3.2.1 Bài tốn xác định hạng và trọng số khía cạnh ẩn của thực thể

Cho trước một tập văn bảnD={d1,d2,...,d|D|}, chứa quan điểm đánh giá về các khía cạnh của một tập thực thể. Từng văn bản đánh giádđược gán một hạng chungOd, hạng chung này xác nhận quan điểm đánh giá chung được đề cập trongd. Giả sử rằng hạng

chungOdđược sinh ra từ các đánh giá riêng trên các khía cạnh của thực thể. Cụ thể, khi quan sát thơng thường, các khía cạnh này ảnh hưởng tới hạng chung của văn bản đánh giád và sự ảnh hưởng này được thể hiện thơng qua các trọng số khía cạnh tương ứng. Theo các nghiên cứu [1, 26, 39, 71], cơng thức ràng buộc giữa hạng khía cạnh và trọng số khía cạnh như sau:

∧ Od= k ∑ i=1 rdiαdi (3.1)

thiết hạng khía cạnhrd và trọng sốαd ẩn, chưa biết và làm thế nào chúng ta có thể xác định được các hạng khía cạnh cũng như các trọng số khía cạnh.

Hình 3.1: Ví dụ: đầu vào, đầu ra của toán xác định hạng và trọng số khía cạnh ẩn

Hình 3.1 là ví dụ: đầu vào, đầu ra của tốn xác định hạng và trọng số khía cạnh ẩn cho văn bản đánh giá sản phẩm “iPhone 6s Plus 32 GB”. Hạng và trọng số ẩn xác định được tương ứng của các khía cạnh “Màn hình”, “Hệ điều hành”, “Camera sau”, “Camera trước”, “Bộ nhớ trong”, và “Dung lượng pin” là “4 sao (0.10)”, “5 sao (0.12)”, “4 sao (0.09)”, “3 sao (0.35)”, “4 sao (0.13)”, vào “3 sao (0.21)”. Giá trị trong dấu “(” và “)” là giá trị của trọng số khía cạnh.

3.2.2 Bài tốn xác định trọng số khía cạnh chung của các thực thể

Cho một tập văn bản đánh giáD={d1,d2,...,d|D|}của một tập sản phẩm/dịch vụ cụ thể (ví dụ dịch vụ Khách sạn) bao gồm các quan điểm về sản phẩm này và các khía cạnh của nó, từng văn bản đánh giá d∈Dđược gán một hạng chungOd. Yêu cầu xác định trọng số khía cạnhα của các khía cạnh được thảo luận trong tập dữ liệuD. Bài toán này

có ý nghĩa là xác định mức độ quan trọng chung của các khía cạnh mà các khách hàng đã thể hiện quan điểm trong tập dữ liệuD.

Lưu ý là trong tập dữ liệu này các văn bản đánh giá cùng về một loại đối tượng (ví dụ như đối tượng khách sạn), mỗi văn bản đánh giá về một đối tượng cụ thể. Các đối tượng này có chung (share chung) danh sách các khía cạnh. Từ đó đặt ra vấn đề xây

dựng mơ hình xác định xem mức độ quan trọng của các khía cạnh của loại đối tượng đang đánh giá. Chúng ta mơ hình hóa bài tốn này bằng cách gán mỗi khía cạnh một trọng số (weight) thể hiện mức độ quan trọng và nhiệm vụ là đi tìm trọng số này.

Hình 3.2: Ví dụ: đầu vào, đầu ra của tốn xác định trọng số khía cạnh chung

Hình 3.2 thể hiện ví dụ: đầu vào, đầu ra của bài tốn xác định trọng số khía cạnh chung trên tập văn bản đánh giá của các sản phẩm iPhone. Trọng số khía cạnh chung của các khía cạnh “Màn hình”, “Hệ điều hành”, “Camera sau”, “Camera trước”, “Bộ

nhớ trong”, và “Dung lượng pin” tương ứng là “0.23”, “0.19”, “0.24”, “0.02”, “0.01”,

vào “0.31”

3.3 Phương pháp đề xuất

Trong phần này luận án trình bày các mơ hình đề xuất tương ứng cho các bài tốn đã được mơ hình hóa trong phần trên.

3.3.1 Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụngmơ hình mạng nơ-ron một lớp ẩn mơ hình mạng nơ-ron một lớp ẩn

Trong bài tốn này, chúng ta có các văn bản đánh giá đã được gán nhãn hạng chung, tức là mỗi văn bảnd đã được gán nhãn hạng đánh giáOd là quan điểm chung cho thực thể đề cập trong văn bảnd. Chúng tơi sẽ đề xuất một mơ hình, trong đó sẽ lấy đầu vào

là văn bảndvà đầu ra làOd, các tham số về trọng số và hạng khía cạnh sẽ được mơ hình hóa đồng thời ln vào mơ hình này. Khi đó việc học mơ hình sẽ giải quyết bài toán của chúng ta, tức là xác định giá trị cho trọng số và hạng khía cạnh.

Hình 3.3: Các cơng việc cần giải quyết của bài toán xác định hạng và trọng số khía cạnh ẩn của thực thể

Các cơng việc cần giải quyết được minh họa trong Hình 3.3. Gồm bốn công việc: (1) Tiền xử lý dữ liệu; (2) Phân đoạn khía cạnh; (3) Học biểu diễn khía cạnh; (4) Xác định hạng và trọng số khía cạnh. Trong đó: (1) Tiền xử lý dữ liệu có nhiệm vụ thực hiện: chuẩn hóa dữ liệu, tách câu, tách từ trong mỗi câu, loại bỏ từ dừng. Các cơng việc khác được trình bày như sau:

Phân đoạn khía cạnh (Aspect Segmentation):Phân đoạn khía cạnh là cơng việc xác định khía cạnh mức câu, sau đó thu thập các câu có cùng nhãn khía cạnh lại với nhau, và chúng ta sẽ được các đoạn văn bản khía cạnh thảo luận cho từng văn bản trong tập dữ liệu dữ liệu đầu vào. Trong công việc này, luận án sử dụng một thuật toán lặp được xây dựng dựa trên kỹ thuậtbootstrapping[1].

Xuất phát từ các tập từ hạt nhânT ={T1,T2,...,Tk}củak-khía cạnh. Trong mỗi bước

lặp thuật tốn sử dụng thống kêχ2để lựa chọn số từ mới có giá trịχ2thỏa mãn ngưỡng lựa chọn để mở rộng các tập từ hạt nhân. Thuật tốn dừng khi khơng thể mở rộng thêm các từ hạt nhân hoặc đã lặp đủ lặp vòng so với ngưỡng lặp.

Thuật tốn phân đoạn khía cạnh được trình bày như sau:

Thuật tốn 2:: Thuật tốn phân đoạn khía cạnh

Đầu vào: Cho trước một tập văn bản đánh giá của một tập thực thể

D={d1,d2,...,dm}, các tập từ hạt nhânT ={T1,T2,...,Tk}củak-khía cạnh, tập từ

điểnV, ngưỡng lựa chọn từp, ngưỡng vịng lặpI

Bước 1: Tách mỗi văn bản thành các câu.

Bước 2: Xác định tần số xuất hiện từ thể hiện khía cạnh của mỗi khía cạnh xuất

hiện trong từng câu. Ký hiệuCount(i)– là tần số xuất hiện từ thể hiện của khía cạnh thứitrong câu.

Bước 3: Một câu được gán nhãn khía cạnh thứi, nếuCount(i)có giá trị lớn nhất.

Bước 4: Tínhχ2của từng từ (với điều kiện xuất hiện trongV).

Bước 5: Xếp hạng từ theo giá trị χ2và lựa chọn top ptừ cho từng khía cạnh và đưa vào trong danh sách từ hạt nhânTicủa khía cạnh thứi.

Bước 6: Nếu dach sách các từ của các khía cạnh khơng thay đổi hoặc đã hết số

lần lặpI thì thuật tốn dừng, nếu khơng thì quay lạiBước 2.

Đầu ra: Tất cả các câu trong mỗi văn bản được gán nhãn khía cạnh

Thống kêχ2tính sự phụ thuộc của từω đối với khía cạnhAinhư cơng thức sau

χ2(ω,Ai) = C∗(C1C4−C2C3)2

(C1+C3)∗(C2+C4)∗(C1+C2)∗(C3+C4)

-C1Số lần xuất hiện củaω trong tất cả các câu gán nhãn được gán nhãn khía cạnh

Ai.

-C2Số lần xuất hiện củaω trong tất cả các câu khơng được gán nhãn khía cạnhAi. -C3Số lượng câu được gán nhãn khía cạnhAinhưng khơng chứa từω.

-C4Số lượng câu khơng được gán nhãn khía cạnhAihoặc không chứa từω. -CLà tổng tất cả các từ xuất hiện trong tập dữ liệuD.

Học biểu diễn khía cạnh: Khơng giống với các nghiên cứu trước đây, đặc trưng của khía cạnh được biểu diễn bằng một mơ hình túi từ (Bag of words), không thể bắt được ngữ nghĩa giữa các từ hoặc giữa các từ với các khía cạnh. Luận án áp dụng mơ hình véc-tơ Paragraph [2] để học biểu diễn cho các khía cạnh. Cụ thể, đối với từng văn bản

d∈D, chúng ta nhóm tất cả các câu có cùng nhãn khía cạnh lại với nhau và coi nó như

một đoạn văn bản của một khía cạnh cụ thể và luận án sẽ đạt đượck- đoạn tương ứng

với k-khía cạnh. Sau đó áp dụng mơ hình véc-tơ Paragraph để học ma trận biểu diễn

các khía cạnhXd= (xd1,xd2,...,xdk)cho văn bảnd. Theo ma trậnXd, các biểu diễn đặc trưng các khía cạnh của văn bảnd được xác định.

Trong phần này, luận án trình bày mơ hình đề xuất mới dựa trên mơ hình mạng nơ-ron để xác định các hạng và trọng số khía cạnh ẩn cho từng văn bản đánh giá. Luận án giả thiết rằng cả trọng số khía cạnh và hạng khía cạnh ẩn trong mơ hình mạng nơ-ron và chúng tơi gọi mơ hình này là mơ hình mạng nơ-ron xếp hạng ẩn(Latent Rating Neural Network Model). Kiến trúc mơ hình LRNN được minh họa như trong Hình 3.4.

Hình 3.4: Minh họa mơ hình mạng nơ-ron LRNN xếp hạng ẩn

Khơng giống với mơ hình mạng nơ-ron thơng thường, q trình học mơ hình LRNN là quá trình khai phá (xác định) hạng và trọng số khía cạnh ẩn cho từng thực thể tương ứng với văn bản đánh giá của nó. Ngồi ra, đối với một văn bản đánh giá đầu vàod thì các tham số αd phải thỏa mãn điều kiện ∑k

i=1

αdi =1 và 0≤αdi ≤1, điều này đã làm cho việc học mơ hình LRNN phức tạp hơn rất nhiều so với mơ hình mạng nơ-ron thơng thường. So với mơ hình quy đánh giá ẩn LRR của Wang và các cộng sự [1], được xây dựng dựa trên các hàm phân phốiGaussianthì mơ hình LRNN sử dụng ít tham số hơn, và phù hợp cho việc mơ hình hóa đánh giá các khía cạnh của thực thể hơn.

Sau khi học biểu diễn đặc trưng các khía cạnh, các véc-tơ biểu diễn khía cạnh được sử dụng làm đầu vào cho mơ hình LRNN. Ký hiệuwi= (wi1,wi2,...,win)là véc-tơ trọng số của khía cạnh Ai. Hạng rdi của văn bản đánh giá d dựa trên tổ hợp tuyến tính của véc-tơxdi và véc-tơ trọng số làrdi∼ ∑n

l=1

xdil.wil [1]. Cụ thể, luận án giả thiết rằng hạng khía cạnhrdi được sinh tại tầng ẩn của mơ hình mạng nơ-ron và nó được tính bởi cơng thức: rdi=sigm( n ∑ l=1 xdilwil+wi0) (3.2)

Các trọng số khía cạnh của văn bản đánh giád được giả thiết là trọng số giữa tầng ẩn và tầng đầu ra. Hạng chung được sinh tại đầu ra của mơ hình và nó được tính dựa trên tổ hợp tuyến tính củaadvàrd như sau:

∧ Od= k ∑ i=1 rdiαdi (3.3)

với điều kiện

k ∑ i=1 αdi=1,0≤αdi≤1,i = 1, 2, . . . , k Để hỗ trợ ∑k i=1

αdi =1và 0≤αdi≤1, chúng ta sử dụng trọng số khía cạnh giảα∧di thay cho trọng sốαdi, như biểu thức sau:

αdi= exp( ∧ αdi) k ∑ l=1 exp(α∧dl) (3.4)

Biểu thức (2) bây giờ trở thành biểu thức như sau:O∧d= ∑k

i=1 rdi exp( ∧ αdi)

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh (Trang 47)

Tải bản đầy đủ (PDF)

(136 trang)