hàng dựa trên đánh giá sản phẩm.
M.Hu và cộng sự, 2004 [10] đã đề xuất một công nghệ dựa trên khai phá các luật kết hợp để trích xuất đặc trƣng sản phẩm. Công nghệ này cũng giới thiệu ý tƣởng sử dụng từ quan điểm để tìm các đặc trƣng không thƣờng xuyên. Các tác giả sử dụng tập tính từ đồng nghĩa trong WordNet để dự đoán ngữ nghĩa của các tính từ, sau đó dựa vào số từ quan điểm tích cực(tiêu cực) nhiều hơn thì câu quan quan điểm mang hƣớng tích cực (tiêu cực).
Theo chúng tôi quan sát, đặc điểm dữ liệu tiếng Việt trong đánh giá của khách hàng về sản phẩm mang những đặc trƣng sau:
- Các đánh giá trong một mục sản phẩm chủ yếu tập trung đánh giá về sản phẩm đó.
- Số lƣợng đánh giá là ít nếu chia theo từng đặc trƣng riêng biệt. - Các đánh giá không chuẩn về cấu trúc câu.
Theo các đặc điểm trên, chúng tôi đề xuất mô hình khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm nhƣ sau:
Mô hình gồm 4 bƣớc:
Bƣớc 1: Thu thập, tiền xử lý dữ liệu. Bƣớc 2: Trích xuất từ quan điểm.
Bƣớc 3: Xác định hƣớng quan điểm dựa vào từ điển VietSentiWordNet Bƣớc 4: Tổng hợp kết quả.
24
Hình 9. Mô hình đề xuất khai phá quan điểm khách hàng
Dữ liệu trên các website bán hàng trực tuyến Nhận xét của khách hàng Chuẩn hóa dữ liệu Tách từ, Gán nhãn Postag
Trích xuất từ quan điểm
Tập từ quan điểm
Xác định quan điểm hƣớng của
khách hàng với từng sản phẩm Bộ từ điển VietSentiWordNet
25
3.2.1 Bước 1: Thu thập, tiền xử lý dữ liệu.
Trong bƣớc này, miền dữ liệu của ứng dụng quan tâm sẽ đƣợc xác định trên trang web bán hàng trực tuyến. Sử dụng công cụ crawl dữ liệu trong một miền xác định, với những tùy chọn về độ sâu của quá trình.
Bước 1.1: Tách từ
Đối với tiếng Anh, các từ đƣợc phân cách bởi dấu cách hoặc các dấu câu khác. Tuy nhiên, một từ tiếng Việt có thể gồm nhiều hơn một âm tiết. Do đó việc tách từ dựa vào dấu cách hoặc dấu câu khác có thể gây ra nhiều sai sót.
Ví dụ:
Câu = “Cảm ứng tệ lắm”
Sau công đoạn tách từ, ta đƣợc kết quả nhƣ sau:
Cảm_ứng tệ lắm . Bước 1.2: Gán nhãn từ loại
Dữ liệu sau khi đƣợc tách từ, sẽ đƣợc tiến hành gán nhãn từ loại nhằm phục vụ cho bƣớc trích xuất ra các cụm từ quan điểm.
Ví dụ về kết quả thu đƣợc sau khi dữ liệu đƣợc gán dữ liệu trong câu trên:
Cảm_ứng/N tệ/A lắm/T ./.
3.2.2 Bước 2: Trích xuất từ quan điểm.
Từ quan điểm trong câu là các tính từ. Theo cấu trúc câu tiếng Việt, các từ chỉ mức độ và từ phủ định nằm trong cụm tính từ chứa từ quan điểm [2].
a) Trích xuất từ quan điểm trong câu khẳng định:
Câu khẳng định là dạng câu xuất hiện nhiều nhất trong các đánh giá của khách hàng.
Ví dụ:
“Máy này dùng rất tốt”
Trong ví dụ này, khách hàng thể hiện quan điểm tích cực về chiếc điện thoại. Kết cấu của cụm tính từ trong câu khẳng định thƣờng có dạng:
Từ chỉ mức độ + tính từ.
Dựa vào đặc điểm này, chúng tôi trích ra đƣợc từ quan điểm và từ chỉ mức độ. Các từ chỉ mức độ thƣờng xuất hiện: rất, khá, cực..
b) Trích xuất từ quan điểm trong phủ định:
Câu phủ định cũng là một dạng câu hay xuất hiện trong đánh giá. Trong câu có từ phủ định nhƣ không, không thể, không có, chẳng, đâu có, khỏi…
26 Ví dụ: pin dùng không được lâu
Trong ví dụ này, khách hàng đƣa ra phàn nàn tiêu cực về dung lƣợng pin. Kết cấu của cụm tính từ trong câu phủ định thƣờng là:
Từ phủ định + (từ chỉ mức độ) + tính từ.
Dựa vào đặc điểm này, chúng tôi trích ra đƣợc từ quan điểm, từ phủ định và từ chỉ mức độ đi kèm.
c) Trích xuất từ quan điểm trong câu nghi vấn:
Câu nghi vấn là dạng câu ít gặp trong đánh giá, đƣợc ngƣời dùng đƣa ra để xin lời khuyên. Đồng thời, câu nghi vấn thƣờng không đƣa ra ý kiến/ quan điểm. Do đó chúng tôi bỏ qua câu nghi vấn trong quá trình thực hiện.
3.2.3 Bước 3: Xác định hướng quan điểm của khác hàng trên từng sản phẩm dựa vào từ điển VietSentiWordNet
Sau bƣớc thứ 2, với mỗi một câu chứa quan điểm ta sẽ thu đƣợc một bộ quan điểm ( từ phủ định (nếu có) fp , từ quan điểm s, từ chỉ mức độ (nếu có) fs)
Ví dụ: pin hơi yếu
Thu đƣợc bộ (hơi , yếu)
Các bƣớc xác định hƣớng quan điểm mà chúng tôi thực hiện nhƣ sau:
Bước 3.1: tính trọng số quan điểm ts trên mỗi bộ quan điểm:
Trọng số của một bộ từ quan điểm sẽ đƣợc tính bằng công thức
Trong đó: ts: trọng số của bộ từ quan điểm
fp: trọng số từ phủ định
fs: trọng số từ chỉ mức độ.
Bước 3.2: xác định quan điểm định hướng
Chúng tôi tập trung xác định ba hƣớng quan điểm: tích cực, tiêu cực, trung lập. Với mức câu, trọng số của câu đƣợc tính bằng công thức:
27 Trong đó : trọng số mức câu.
: trọng số bộ quan điểm thứ i trong câu.
Với mức đoạn đánh giá, trọng số đoạn đánh giá đƣợc tính bằng công thức
∑
Trong đó trọng số mức đoạn.
Các trọng số đƣợc đáng giá là tiêu cực, tích cực, trung lập nhƣ sau: - Trọng số lớn hơn 0 đƣợc đánh giá là tích cực.
- Trọng số nhỏ hơn 0 đƣợc đánh giá là tiêu cực. - Trọng số bằng 0 đƣợc đánh giá là trung lập.
3.2.4 Bước 4: Tổng hợp kết quả.
Dựa trên số đoạn đánh giá tích cực – tiêu cực trên từng sản phẩm, chúng tôi thu đƣợc số đánh giá tích cực trên tổng số đánh giá và số đánh giá tiêu cực trên tổng số đánh giá.
Các kết quả này đƣợc biểu diễn lại dƣới dạng biểu đồ trực quan cho từng sản phẩm.
3.3 Tóm tắt chương 3
Khóa luận đã trình bày về mô hình xây dựng VietSentiWordNet và áp dụng kết quả vào bài toán khai phá quan điểm dựa trên đánh giá của khách hàng. Chƣơng tiếp theo, chúng tôi trình bày kết quả và những vẫn đề liên quan khi thử nghiệm mô hình này.
28
Thực nghiệm Chương 4:
4.1 Môi trường và công cụ sử dụng cho thực nghiệm 4.1.1 Cấu hình máy thực nghiệm
Chip: Intel(R) Core I5(R) @ 2.53GHz Ram: 3.00 GB
Hệ điều hành: Microsoft Windows 7
4.2 Thực nghiệm xây dựng VietSentiWordNet 4.2.1 Công cụ và phần mềm sử dụng: 4.2.1 Công cụ và phần mềm sử dụng:
Một số phần mềm sử dụng
Bảng 6.
STT Tên phần mềm Tác giả Nguồn
1 eclipse-SDK-3.4.1-win32 http://www.eclipse.org/downloads 2 SVMlight Thorsten Joachims http://svmlight.joachims.org/ 3 Cygwin http://www.cygwin.com 4 VietTagger_VLSP_SP83 http://vlsp.vietlp.org:8080/ 5 VnTokenizer_VLSP_SP82 Lê Hồng Phƣơng http://vlsp.vietlp.org:8080/
4.2.2 Xây dựng tập đào tạo và phân lớp
Các bƣớc xây dựng tập đào tạo:
Trích tập từ quan điểm từ từ điển tiếng Việt
Tạo tập đặc trƣng: tách các từ trong tập từ quan điểm và VietSentiWordNet cho miền dữ liệu tiếng Việt.
Tạo tập đào tạo
o Tập đào tạo cho bộ phân lớp tích cực: các synset trong VietSentiWordNet đƣợc gán nhãn thông qua quy tắc:
Các synset có trọng số PosScore lớn hơn 0.4: trọng số đƣợc chuyển về giá trị nằm trong khoảng [0,1]. Bổ sung các từ đồng nghĩa với các từ trong synset ban đầu
Các synset có trọng số PosScore lớn hơn 0.4: trọng số đƣợc chuyển về giá trị nằm trong khoảng [-1, 0]. Bổ sung các từ đồng nghĩa với các từ trong synset ban đầu
Các synset thuộc tập từ điển đồng nghĩa đƣợc gán nhãn 0 ( không nhãn).
29
o Tập đào tạo cho bộ phân lớp tiêu cực: làm tƣơng tự nhƣ tập đào tạo cho bộ phân lớp tích cực, thay trọng số PosScore bằng trọng số NegScore. Đào tạo bộ phân lớp:
o Khởi động cygwin, chuyển đến thƣ mục chứa file dữ liệu train và svm_learn.exe
o Lệnh thực thi: svm_learn <tên file train> <tên model>
Phân lớp:
o File dầu vào cho quá trình phân lớp là một trong 2 file train. Nhãn trong file test đƣợc bỏ qua trong quá trình phân lớp.
o Khởi động cygwin, chuyển đến thƣ mục chứa file phân lớp và svm_classify.exe
o Lệnh thực thi:
svm_classify.exe <tên file phân lớp> <tên model> <tên file đầu ra>
Đào tạo và phân lớp lại nhiều lần: giá trị của từng vector sau lần phân lớp k
đƣợc kiểm tra và sử dụng làm nhãn cho quá trình đào tạo k +1. Sau 4 lần đào tạo, các giá trị phân lớp tƣơng ƣng với từng vector hội tụ.
Tính lại trọng số: trọng số đƣợc tính lại theo quy tắc đƣợc nêu ra trong mô hình phần 3.1.4.
4.2.3 Kết quả
VietSentiWordNet phiên bản 1 chứa 9333 synset, 9533 từ đƣợc trình bày theo quy tắc trong SentiWordNet.
4.3 Thực nghiệm áp dụng VietSentiWordNet trong bài toán khai phá quan điểm điểm
4.3.1 Thu thập dữ liệu và tiền xử lý
Dựa vào các dữ liệu thu thập từ trang http://thegioididong.com sử dụng công cụ [Interntet Download Manager], chúng tôi chọn một số sản phẩm điện thoại di dộng nổi bật. Tổng số comment thu đƣợc là 669 comment/10 sản phẩm tại nhiều thời điểm khác nhau.
30 Tổng số dữ liệu thực nghiệm Bảng 8. STT Tên sản phẩm Số đánh giá 1 LG GS290 Cookie Fresh. 77 2 LG Optimus One P500 45 3 LG Wink Touch T300 41 4 Nokia c5-03 89 5 Nokia e63 61 6 Nokia E72 68 7 Nokia N8 88 8 Nokia X2-01 79
9 Samsung galaxy tab 42
10 Samsung star s5233w 79
4.3.2 Tách từ và gán nhãn từ loại
Chúng tôi sử dụng bộ công cụ VnTokenizer_VLSP_SP82 để tách từ, đầu ra của bƣớc tách từ dùng làm đầu vào cho bƣớc gán nhãn từ sử dụng bộ công cụ VietTagger_VLSP_SP83.
2 bộ công cụ đƣợc download tại địa chỉ http://vlsp.vietlp.org:8080/ [3], là sản phẩm của CHƢƠNG TRÌNH KH&CN CẤP NHÀ NƢỚC KC01/06-10.
Sau khi tách từ và gán nhãn từ lại, đầu ra bƣớc này có dạng nhƣ sau: Đầu vào: cảm ứng không nhạy.
Đầu ra: cảm_ứng/N không/R nhạy/A ./.
4.3.3 Tính trọng số câu và đoạn.
Trong bƣớc này, chúng tôi sử dụng biểu thức chính quy có dạng: (?:([^/ R]*)/R )*([^/ ]*)/A
để tìm ra các cụm tính từ. Với mỗi cụm tính từ, sử dụng biểu thức chính quy :
(?:([^/ R]*)/R )
để tách đƣợc các thành phần phụ chỉ sắc thái và từ phủ định.
Kết quả của việc tính trọng số từng bộ từ quan điểm đƣợc trình bày trong bảng dƣới đây:
31
Kết quả bước tính trọng số bộ từ quan điểm
Bảng 9. STT Tên sản phẩm Số cụm tính từ Đúng Độ chính xác 1 LG GS290 Cookie Fresh. 224 148 66.07% 2 LG Optimus One P500 245 112 45.71% 3 LG Wink Touch T300 103 65 63.11% 4 Nokia c5-03 314 199 63.38% 5 Nokia e63 358 251 70.11% 6 Nokia E72 419 280 66.83% 7 Nokia N8 390 249 63.85% 8 Nokia X2-01 278 184 66.19%
9 Samsung galaxy tab 199 134 67.34%
10 Samsung star s5233w 322 211 65.53%
Qua bảng trên, độ chính xác khoảng 63.81%. Kết quả này bị ảnh hƣởng bởi độ chính xác khi tách từ, gán nhãn và đặc biệt là ngữ cảnh của câu. Do chúng tôi chƣa thể đánh giá từng bộ quan điểm theo ngữ cảnh nên trong một số trƣờng hợp xảy ra sai sót.
Sau khi tính trọng số từng bộ quan điểm, các giá trị này sẽ đƣợc dùng để tính trọng số cho từng đánh giá, để lấy đƣợc kết quả cuối cùng là số đánh giá tích cực/ tiêu cực trên tổng số đánh giá ban đầu. Dƣới đây là bảng kết quả cho từng sản phẩm
Kết quả trọng số tích cực/tiêu cực của từng sản phẩm
Bảng 10. STT Tên sản phẩm Số đánh giá tích cực Số đánh giá tiêu cực Tổng số đánh giá 1 LG GS290 Cookie Fresh. 38 11 77 2 LG Optimus One P500 18 7 45 3 LG Wink Touch T300 26 4 41 4 Nokia c5-03 52 10 89 5 Nokia e63 41 8 61 6 Nokia E72 49 7 68 7 Nokia N8 47 18 88 8 Nokia X2-01 48 11 79
9 Samsung galaxy tab 27 7 42
32
Hình 10. Biểu diễn trực quan kết quả tổng hợp với từng sản phẩm
Đối với từng đánh giá, các đánh giá có trọng số > 0.1 đƣợc coi là tích cực, trọng số < 0.1 đƣợc coi là tiêu cực, các đánh giá còn lại là trung lập. Khi áp dụng VietSentiWordNet ban đầu, mô hình đạt kết quả trung bình 44.45%. Bên cạnh đó, Vũ Xuân Sơn và cộng sƣ, 2011 [1] đạt kết quả 69.70% trong nghiên cứu của khi áp dụng VietSentiWordNet ban đầu vào miền dữ liệu tin tức. Với VietSentiWordNet mở rộng, mô hình đạt đƣợc độ chính xác trung bình 66.60% cho miền dữ liệu đánh giá của khách hàng. Độ chính xác bước đánh giá tổng hợp Bảng 11. STT Tên sản phẩm Tổng số đánh giá Đúng Độ chính xác 1 LG GS290 Cookie Fresh. 77 50 64.94% 2 LG Optimus One P500 45 30 66.67% 3 LG Wink Touch T300 41 28 68.29% 4 Nokia c5-03 89 61 68.54% 5 Nokia e63 61 38 62.30% 6 Nokia E72 68 45 66.18% 7 Nokia N8 88 61 69.32% 8 Nokia X2-01 79 54 68.35%
9 Samsung galaxy tab 42 27 64.29%
10 Samsung star s5233w 79 53 67.09% 0 10 20 30 40 50 60 Tích cực Tiêu cực
33
Độ chính xác bước tổng hợp với VietSentiWordNet ban đầu
Bảng 13. STT Tên sản phẩm Tổng số đánh giá Đúng Độ chính xác 1 LG GS290 Cookie Fresh. 77 35 45.45% 2 LG Optimus One P500 45 18 40.00% 3 LG Wink Touch T300 41 18 43.90% 4 Nokia c5-03 89 41 46.07% 5 Nokia e63 61 28 45.90% 6 Nokia E72 68 29 42.65% 7 Nokia N8 88 40 45.45% 8 Nokia X2-01 79 34 43.04%
9 Samsung galaxy tab 42 19 45.24%
34
Kết luận
Với số lƣợng đánh giá sản phẩm đa dạng và phong phú trên Internet, nhu cầu về một kho ngữ liệu có trọng số VietSentiWordNet là rất cần thiết cho bài toán khai phá quan điểm. Nắm bắt nhu cầu đó, khóa luận tiến hành mở rộng VietSentiWordNet sẵn có và áp dụng thử nghiệm vào bải toán khai phá quan điểm trên các đánh giá của khách hàng.
Các kết quả chính đạt được
Khóa luận đã tìm hiểu các phƣơng pháp xây dựng SentiWordNet cho tiếng Anh và tiếng Ấn Độ. Từ đó đề xuất một mô hình áp dụng phƣơng pháp xây dựng SentiWordNet 3.0 cho vấn đề mở rộng VietSentiWordNet sẵn có. Đồng thời, khóa luận đề xuất một giải pháp áp dụng VietSentiWordNet vào bài toán khai phá quan điểm trên các đánh giá của khách hàng, đồng thời tiến hành thử nghiệm mô hình đã đề xuất.
Sản phẩm VietSentiWordNetOpen phiên bản đầu tiên có 9333 synset, 9533 từ, gấp gần 9 lần so với phiên bản VietSentiWordNet nguồn. Khóa luận đã tiến hành thử nghiệm áp dụng VietSentiWordNetOpen với bài toán khai phá quan điểm. Kết quả của mô hình là khả quan với độ chính xác bƣớc tổng hợp đạt 66.6%,
Một số vấn đề cần giải quyết và hướng nghiên cứu tiếp theo
Tuy mô hình đã đạt đƣợc một số kết quả khả quan trên tập dữ liệu thử nghiệm, nhƣng còn một số trƣờng hợp phụ thuộc ngữ cảnh thì mô hình chƣa quải quyết đƣợc tốt. Hơn nữa, mô hình mở rộng VietSentiWordNet hiện tại mới chỉ áp dụng với tập từ quan điểm là tính từ. Việc mở rộng thêm VietSentiWordNet với tập từ quan điểm đầy đủ hơn là cần thiết.
Trong thời gian tới, ngoài việc tiếp tục giải quyết các vấn đề còn tồn tại, chúng tôi định hƣớng một số nghiên cứu tiếp theo:
- Nghiên cứu thêm về các bƣớc tính trọng số trong phƣơng pháp xây dựng SentiWordNet.
- Cải tiến số lƣợng cũng nhƣ chất lƣợng của VietSentiWordNetOpen. Sử dụng tập từ quan điểm bổ sung danh từ và động từ để làm giàu thêm tập phân lớp.
35
Tài liệu tham khảo
Tiếng Việt:
[1] Vũ Xuân Sơn, Trần Trung Hiếu, Lê Thu Hà, Đào Thủy Ngân. Xây dựng từ điển VietSentiWordNet ứng dụng khai phá quan điểm trên tin tức. CÔNG TRÌNH THAM GIA GIẢI THƯỞNG “SINH VI N N HI N C U HOA H C” N M 2 , ĐẠI H C CÔNG NGHỆ
[2] Hoàng Trọng Phiến. Ngữ pháp tiếng Việt: Câu. Nhà xuất bản Đại học