Các kết quả phân loại quan điểm

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

4.6 Các kết quả phân loại quan điểm

Phương pháp Positive-F1 Negative-F1 Neutral-F1 Conflict-F1 Accuracy

Word2Vec 86.93 52.25 66.60 55.93 79.22 GloVec 87.10 51.07 71.02 57.85 80.35 Pre-Word2Vec 82.04 49.53 68.44 53.16 79.01 Pre-GloVec 83.95 53.04 65.04 54.04 80.13 SCWE 89.54 64.00 74.01 56.30 81.41 SSCWE* 93.78 63.81 76.58 61.93 83.85 SSCWE 93.80 64.70 76.13 63.02 84.69

(Word2Vec và GloVe) được huấn luyện trên tập dữ liệu dịch vụ Nhà hàng là tốt hơn các vec-tơ từ được huấn luyện trên các tập dữ liệu khác (Pre-Word2Vec và Pre-GloVe). Đối với véc-tơ từ nhúng thơng tin khía cạnh và quan điểm khía cạnh, mặc dù mơ hình SCWE (Sentiment-Category Word Embedding) là một phiên bản của mơ hình SSCWE, nó chỉ bắt được thơng tin khía cạnh và quan điểm khía cạnh, nhưng nó thực hiện tốt hơn mơ hình Word2Vec và Glove. Điều này cho chúng ta thấy rằng thơng tin khía cạnh và quan điểm khía cạnh đóng một vai trò quan trọng trong véc-tơ biểu diễn từ.

Dự đốn quan điểm theo khía cạnh:Bảng 4.6 thể hiện giá trị của độ đoF1-scoređạt được của từng nhãn quan điểm khía cạnh và độ đo độ chính xácAccuracy trong cơng việc phân loại quan điểm của từng phương pháp. Trong hầu hết các trường hợp, hai mơ hình SCWE và SSCWE thực hiện tốt hơn các mơ hình khác. Điều này xác nhận rằng các véc-tơ từ được học từ các mơ hình đề xuất đã giúp cải thiện các kết quả dự đoán quan điểm theo khía cạnh.

Truy vấn từ ngữ nghĩa gần:Các véc-tơ từ cũng được đánh giá chất lượng thông qua công việc truy vấn từ. Cho trước một số từ quan điểm khía cạnh hoặc từ khía cạnh, chúng ta có thể tìm được các từ gần ngữ nghĩa với họ nhất. Trong Bảng 4.7 thể hiện các kết quả của các từ gần nghĩa nhất cho bốn từ cho trước là “good”, “bad”, “food”, và “price”. Hai mơ hình GloVe và SSCWE bắt được sự tương đồng về ngữ nghĩa, trong đó mơ hình SCWE bắt được ngữ nghĩa đúng của hai từ khía cạnh “food” và “price” nhưng

Bảng 4.7: Năm từ gần ngữ nghĩa với từ đã cho đối với từng mơ hình

Mơ hình good bad food price

GloVe excellant decent fantastic costco parm poor awful horrible terrible lousy props postings vary gosh cuisine prices pricing penny albeit praise SCWE delight goodness millionaires paycheck best horrible alien calling deveined discriminating snacks resturant hospitality fashion soooooo prices pricing pricey 150 500 SSCWE excellent great better wonderfull unbeatable terrible worse poor lousy aweful meal foods snacks variation cuisine prices pricey pricing bills buck

nó khơng bắt tốt ngữ nghĩa của hai từ quan điểm “good” và “bad”, nguyên nhân này có thể do mơ hình SCWE khơng sử dụng đầu vào là các ngữ cảnh của các từ. Mơ hình đầy đủ SSCWE bắt được ba loại thơng tin là ngữ nghĩa, khía cạnh và quan điểm khía cạnh vì vậy mà nó được xem là cho kết quả truy vấn từ tốt hơn mô hình GloVe và SCWE. Điều này xác nhận lại rằng việc thêm thơng tin mức khía cạnh và quan điểm khía cạnh khi thực hiện mã hóa trong véc-tơ biểu diễn từ là quan trọng.

Hiệu quả của việc chọn số chiều cho véc-tơ từ:Để đánh giá chi tiết hiệu quả số chiều của véc-tơ từ, luận án chọn số chiều của véc-tơ từ từ 50 đến 500. Trong biểu đồ 4.6, luận án thể hiện các kết quả đạt được của các mơ hình. Chúng ta thấy rằng mơ hình đề xuất cho kết quả tốt hơn các mơ hình khác trong tất cả các trường hợp. Mơ hình Word2Vec và GloVe thực hiện tốt khi số chiều của véc-tơ từ được chọn là trên 200. Trong khi đó các mơ hình SCWE và SSCWE thực hiện tốt nhất với số chiều là 150. Họ không cải thiện kết quả dự đoán khi số chiều véc-tơ từ tăng từ 200 đến 500.

4.6.3 So sánh hai mơ hình WEFT và SSCWE

Đặc điểm chung của cả hai mơ hình là hỗ trợ các véc-tơ biểu diễn từ bắt được cả ba loại thơng tin: ngữ nghĩa, khía cạnh, và quan điểm khía cạnh. Mơ hình mạng nơ-ron tích chập WEFT sử dụng đầu vào là những câu được gán nhãn và ma trận các véc-tơ từ, được khởi tạo bằng kết quả đạt được từ các mơ hình học véc-tơ nhúng ngữ nghĩa như Word2Vec, Glove. Mơ hình SSCWE sử dụng các câu đầu vào, gồm cả câu gán nhãn và câu không gán nhãn. Ma trận các véc-tơ từ được khởi tạo ngẫu nhiên. Xét về kiến trúc, mơ hình WEFT có vai trị giống với thành phần SCWE trong mơ hình SSCWE,

Hình 4.6: Hiệu quả của số chiều véc-tơ từ trong công việc dự đốn quan điểm khía cạnh

tuy nhiên thành phần SCWE đơn giản hơn khi chỉ sử dụng một tầng ẩn. Quá trình học trong mơ hình WEFT là q trình tinh chỉnh các véc-tơ biểu diễn từ, cịn q trình học trong mơ hình SSCWE là q trình học liên hợp, đồng thời giữa hai thành phần SWE và SCWE. Bảng 4.8 thể hiện kết quả đạt được của mơ hình WEFT so với mơ hình SSCWE, trong hầu hết các trường hợp mơ hình SSCWE cho kết quả nhỉnh hơn mơ hình WEFT. Điều này chứng tỏ việc học liên hợp trong mơ hình SSCWE tốt hơn việc tinh chỉnh trong mơ hình WEFT.

Bảng 4.8: So sánh kết quả phân loại quan điểm giữa mơ hình WEFT và SSCWE

Phương pháp Positive-F1 Negative-F1 Neutral-F1 Conflict-F1 Accuracy

WEFT-SG 90.87 64.63 73.82 60.23 83.82

WEFT-CB 93.12 64.70 77.03 61.17 84.05

WEFT-GV 93.61 64.77 77.11 61.43 84.23

SSCWE 93.80 64.70 76.13 63.02 84.69

Xét về thời gian thực hiện, cả hai mơ hình cùng được cài đặt bằng ngơn ngữ lập trình Java trên mơi trường NetBean IDE 7.2 trên máy tính ASUS PC với bộ xử lý IntelR Core

TM i5-2450M CPU @ 2.50 GHz, 4.00 GB memory. Hệ điều hành Window 7 Ultimate Service Pack 1. Nhưng, để khách quan khi so sánh thời gian huấn luyện mơ hình WEFT với mơ hình SSCWE, luận án tính cả q trình huấn luyện của các mơ hình Word2Vec và Glove khi tạo ra ma trận các véc-tơ biểu diễn từ khởi tạo cho mơ hình WEFT. Nội dung Bảng 4.9 thể hiện thời gian thực hiện học véc-tơ biểu diễn từ với kích cỡ chiều véc-tơ là 300 của các mơ hình.

Bảng 4.9: So sánh thời gian thực hiện giữa mơ hình WEFT và SSCWE

Mơ hình Thời gian thực hiện

WEFT-SG 4045 WEFT-CB 1823 WEFT-GV 1087

SSCWE 46832

Thời gian thực hiện của mơ hình SSCWE là 46832 giây (tương đương 13 giờ 41 phút 32 giây), trong khi mơ hình WEFT-SG là 4045 giây (tương đương 1 giờ 7 phút 25 giây). Lý do có sự chênh lệch lớn này là do mơ hình SSCWE được cài đặt theo một thuật toán lan truyền ngược chuẩn, cịn mơ hình WEFT-SG sử dụng kỹ thuật tính tốn tối ưu

Huffman tree[86] nên thời gian huấn luyện được giảm đi rất nhiều.

4.7 Kết luận

Trong chương này, luận án đã trình bày hai mơ hình mới học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh. Mơ hình thứ nhất là mơ hình mạng nơ-ron tích chập WEFT chỉnh sửa các véc-tơ được học từ các mơ hình Word2Vec và Glove. Mơ hình thứ hai là mơ hình SSCWE, sử dụng sự kết hợp của kỹ thuật học giám sát và không giám sát để học véc-tơ từ cho các cơng việc của phân tích quan điểm theo khía cạnh. Các kết quả thực nghiệm đã cho thấy rằng, khi sử dụng các véc-tơ từ học từ mơ hình đề xuất cho các cơng việc: xác định khía cạnh và phân loại quan điểm, kết quả dự đoán đã được cải thiện so với việc sử dụng các véc-tơ từ được học từ mơ hình Word2Vec hay GloVe. Mơ hình WEFT và SSCWE cùng với các kết quả thực nghiệm đã được cơng bố trong cơng trình [3] và [4], xuất bản trong kỷ yếu của các hội nghị quốc tế uy tín,TSD 2017

vàPACLING 2017.

Trong tương tai, chúng tôi định hướng tập trung cải tiến kỹ thuật trong mơ hình SSCWE để quá trình huấn luyện được rút ngắn thời gian hơn. Chúng tôi cũng sẽ sử dụng các véc-tơ biểu diễn từ vào các cơng việc khác của phân tích quan điểm theo khía cạnh, như dự đốn hạng khía cạnh, xác định trọng số khía cạnh. Đặc biệt mơ hình cũng sẽ được mở rộng thực hiện trên các tập dữ liệu sản phẩm/dịch vụ của tiếng Việt, giải quyết các bài toán ứng dụng trong thực tế như Ngân hàng, Bất động sản, Chứng khốn. Kiến trúc các mơ hình học véc-tơ từ khác nhau, do đó các véc-tơ biểu diễn từ học từ các mơ hình đó cũng có thể mã hóa được những thơng tin ngơn ngữ khác nhau. Trong chương tiếp theo, luận án sẽ trình bày vấn đề khai thác đa tập véc-tơ từ cho phân tích quan điểm theo khía cạnh.

Chương 5

Mơ hình đa kênh dựa trên CNN nhằm khai thác đa véc-tơ biểu diễn từ và ký tự cho phân tích quan điểm theo khía cạnh

Trong bất kỳ một mơ hình học máy nào, dữ liệu trước hết phải được chuyển đổi về dạng cấu trúc phù hợp để có thể đưa vào mơ hình. Ví dụ như một câu đầu vào trước khi đưa vào mơ hình CNN thì phải được chuyển đổi về dạng ma trận các số thực dựa trên việc mỗi từ được đại diện bởi một vec-tơ các số thực. Các cách biểu diễn dữ liệu khác nhau sẽ chuyển đổi lượng thơng tin khác nhau vào mơ hình học của hệ thống. Trong chương này chúng tôi đặt vấn đề làm thế nào để tích hợp các nguồn thơng tin khác nhau (từ việc biểu diễn dữ liệu đầu vào khác nhau) để tạo nên mơ hình tích hợp mạnh hơn.

Trong chương này chúng tơi sẽ đề xuất mơ hình tích hợp thơng tin dựa trên mạng đa kênh CNN (Convolutional Neural Network). Các nguồn thông tin khác nhau được đồng thời sử dụng bao gồm các mơ hình Word2Vec khác nhau và mơ hình Character2Vec. Các nguồn thơng tin được tích hợp một cách hiệu quả thơng qua các tầng CNN và kết hợp giữa các tầng CNN. Đầu tiên luận án trình bày về giới thiệu các nghiên cứu liên quan và mơ tả đầu vào/ra của nó. Tiếp đến, trình bày mơ hình đề xuất để giải quyết bài toán. Cuối cùng, luận án đánh giá mơ hình đề xuất thơng qua hai bài tốn của phân tích quan điểm theo khía cạnh: (1) Xác định khía cạnh; (2) Phân loại quan điểm theo khía cạnh.

5.1 Giới thiệu

Cùng với sự phát triển mạnh mẽ của các mơ hình học biểu diễn véc-tơ từ, nhiều tập véc-tơ từ đã được đưa ra cho cộng đồng khai thác áp dụng vào các cơng việc cụ thể của NLP. Bài tốn khai thác đa tập véc-tơ biểu diễn từ cho trước các tập véc-tơ biểu từ được học từ nhiều mơ hình khác nhau như Word2Vec, Glove. Nhiệm vụ là cần xây dựng một mơ hình học biểu diễn có thể khai thác hiệu quả các mức biểu diễn này cho các công việc cụ thể trong phân tích quan điểm theo khía cạnh. Nhiều mơ hình mạng nơ-ron tích chập CNN sử dụng các véc-tơ biểu diễn từ làm đầu vào đã chứng minh được sự hiệu quả trong nhiều công việc của xử lý ngơn ngữ tự nhiên [101–103]. Các mơ hình CNN có khả năng học biểu diễn thông tin hiệu quả tại mức cao hơn của đối tượng văn bản đầu vào. Nhiều nghiên cứu đã sử dụng đa kênh CNN cho phân loại câu, như Kim [3] đã đề xuất một kiến trúc học biểu diễn đa kênh dựa trên các bộ lọc với kích cỡ khác nhau. Nhưng mơ hình đa kênh của họ chỉ làm việc với một phiên bản của Word2Vec, cụ thể, một kênh sử dụng các véc-tơ Word2Vec tĩnh, một kênh còn lại thực hiện việc tinh chỉnh lại các véc-tơ Word2Vec. Yin và các cộng sự [104] đã phát triển một mơ hình đa kênh CNN khai thác đa véc-tơ biểu diễn từ, tuy nhiên mơ hình của họ u cầu các véc-tơ biểu diễn từ phải có số nhiều bằng nhau. Zhang và các cộng sự [105] cải tiến mơ hình của Yin và các cộng sự [104] bằng cách coi các phiên bản biểu diễn từ như là các nhóm khác nhau, và họ đã áp dụng mơ hình CNN cho từng nhóm.

Đối với véc-tơ biểu diễn ký tự, một số nghiên cứu sử dụng riêng chúng làm đầu vào hoặc sử dụng kết hợp với véc-tơ biểu diễn từ như Zhang và cộng sự [81] thiết kế một mơ hình mạng nơ-ron tích chập sâu gồm 9 tầng thực hiện trên các véc-tơ biểu diễn ký tự cho bài tốn phân loại văn bản. Mơ hình đã đạt được kết quả tốt hơn các phương pháp truyền thống, như mơ hình hồi quy sử dụng đặc trưng là túi từBoW,Bag-of-ngramsvà véc-tơ trung bình biểu diễn từ. Ngồi ra mơ hình của họ cũng nhỉnh hơn các mơ hình học sâu như LSTM (Long-Short Term Memory), mơ hình mạng nơ-ron tích chập thực hiện trên đầu vào là các véc-tơ Word2Vec. Tuy nhiên việc thiết kế và triển khai một mơ hình mạng CNN gồm 9 tầng địi hỏi cấu hình phần cứng của máy tính cao. Santos và các cộng sự [82] đề xuất mạng nơ-ron tích chập với đầu vào là các véc-tơ ký tự và véc-tơ biểu diễn từ Word2Vec cho bài toán phân loại văn bản ngắn. Kim và các cộng sự [83] đề xuất mơ hình mạng nơ-ron ngơn với đầu vào là các véc-tơ ký tự, họ sử dụng mơ hình mạng nơ-ron tích chập để sinh các véc-tơ biểu diễn từ, sau đó các véc-tơ từ được sử dụng làm vào cho mơ hình LSTM và mơ hình mạng nơ-ron ngôn ngữ hồi quy (recurrent

5.2 Mơ tả bài tốn

Bài tốn xác định khía cạnh và phân loại quan điểm theo khía cạnh đã được trình bày trong phần 4.2 của Chương 4. Trong phần này luận án xem việc khai thác đa véc-tơ biểu diễn từ và ký tự như là một công việc được thực hiện đồng thời trong quá trình học một mơ hình dự đốn cho các bài tốn này.

Đối với từng bài tốn (xác định khía cạnh hoặc phân loại quan điểm theo khía cạnh) của phân tích quan điểm theo khía cạnh, để học được mơ hình dự đốn, chúng ta cần sử dụng một tập dữ liệu huấn luyện gồm các câu được gán nhãn được trích xuất từ một tập các văn bản đánh giá của các thực thể (ví dụ: các thực thể sản phẩm/dịch vụ là các quán ăn). Sau khi học được mơ hình dự đốn, đối với một câu văn bản mới chúng ta có thể dự đốn được nhãn thích hợp tương ứng cho nó. Hình 5.1 mơ tả cơng việc cần giải quyết của bài toán. Đầu tiên là sử dụng một tập các câu văn bản D=`1, `2, ..., `|D| được gán nhãn, các nhãn này tương ứng với các nhãn trong bài toán con của phân tích quan điểm theo khía cạnh cần giải quyết (ví dụ: bài tốn Xác định khía cạnh), sau đó tập dữ liệuDđược thông qua giai đoạn tiền xử lý dữ liệu. Tiếp theo tập dữ liệuDđược sử dụng cùng với một tập véc-tơ Word2vec, một tập véc-tơ GloVe, và một tập véc-tơ one-hot biểu diễn ký tự làm đầu vào cho một mơ hình khai thác các mức biểu diễn từ và ký tự. Mơ hình này có nhiệm vụ học để dự đoán nhãn của các câu mới (chưa được gán nhãn) và cho đầu ra là các giá trị của các tham số mơ hình dự đốn.

Hình 5.1: Mơ tả đầu vào, đầu ra của công việc khai thác đa véc-tơ biểu diễn từ, biểu diễn ký tự cho phân tích quan điểm theo khía cạnh

Trong nghiên cứu của chúng tơi, để đơn giản và khơng mất tính hiệu quả của mơ hình đề xuất, giống như nghiên cứu của [106], chúng tôi coi từng câu văn bản chỉ gồm

Hình 5.2: Minh họa thành phần tích chập

một nhãn khía cạnh và một nhãn quan điểm của khía cạnh.

5.3 Phương pháp đề xuất

Mạng nơ-ron tích chập (CNN) đã chứng tỏ được sự phù hợp và hiệu quả trong việc khai thác đa phiên bản véc-tơ biểu diễn từ [3, 104, 105], hay các véc-tơ biểu diễn ký tự [81–83] cho các bài toán cần giải quyết ở mức câu hoặc mức văn bản ngắn. Trong phần này, đầu tiên luận án trình bày thành phần tích chập gồm hai tầng, tầng tích chập và tầng thu thập đặc trưng. Sau đó, thành phần tích chập được sử dụng để trình bày mơ

Nghiên cứu trên thế giới và Việt nam

Minh họa tích chập trong ma trận câu