Tính trọng số câu và đoạn - Mở rộng VietSentiWordN- 123docz.net

Trong bƣớc này, chúng tôi sử dụng biểu thức chính quy có dạng: (?:([^/ R]*)/R )*([^/ ]*)/A

để tìm ra các cụm tính từ. Với mỗi cụm tính từ, sử dụng biểu thức chính quy :

(?:([^/ R]*)/R )

để tách đƣợc các thành phần phụ chỉ sắc thái và từ phủ định.

Kết quả của việc tính trọng số từng bộ từ quan điểm đƣợc trình bày trong bảng dƣới đây:

Kết quả bước tính trọng số bộ từ quan điểm

Bảng 9. STT Tên sản phẩm Số cụm tính từ Đúng Độ chính xác 1 LG GS290 Cookie Fresh. 224 148 66.07% 2 LG Optimus One P500 245 112 45.71% 3 LG Wink Touch T300 103 65 63.11% 4 Nokia c5-03 314 199 63.38% 5 Nokia e63 358 251 70.11% 6 Nokia E72 419 280 66.83% 7 Nokia N8 390 249 63.85% 8 Nokia X2-01 278 184 66.19%

9 Samsung galaxy tab 199 134 67.34%

10 Samsung star s5233w 322 211 65.53%

Qua bảng trên, độ chính xác khoảng 63.81%. Kết quả này bị ảnh hƣởng bởi độ chính xác khi tách từ, gán nhãn và đặc biệt là ngữ cảnh của câu. Do chúng tôi chƣa thể đánh giá từng bộ quan điểm theo ngữ cảnh nên trong một số trƣờng hợp xảy ra sai sót.

Sau khi tính trọng số từng bộ quan điểm, các giá trị này sẽ đƣợc dùng để tính trọng số cho từng đánh giá, để lấy đƣợc kết quả cuối cùng là số đánh giá tích cực/ tiêu cực trên tổng số đánh giá ban đầu. Dƣới đây là bảng kết quả cho từng sản phẩm

Kết quả trọng số tích cực/tiêu cực của từng sản phẩm

Bảng 10. STT Tên sản phẩm Số đánh giá tích cực Số đánh giá tiêu cực Tổng số đánh giá 1 LG GS290 Cookie Fresh. 38 11 77 2 LG Optimus One P500 18 7 45 3 LG Wink Touch T300 26 4 41 4 Nokia c5-03 52 10 89 5 Nokia e63 41 8 61 6 Nokia E72 49 7 68 7 Nokia N8 47 18 88 8 Nokia X2-01 48 11 79

9 Samsung galaxy tab 27 7 42

Hình 10. Biểu diễn trực quan kết quả tổng hợp với từng sản phẩm

Đối với từng đánh giá, các đánh giá có trọng số > 0.1 đƣợc coi là tích cực, trọng số < 0.1 đƣợc coi là tiêu cực, các đánh giá còn lại là trung lập. Khi áp dụng VietSentiWordNet ban đầu, mô hình đạt kết quả trung bình 44.45%. Bên cạnh đó, Vũ Xuân Sơn và cộng sƣ, 2011 [1] đạt kết quả 69.70% trong nghiên cứu của khi áp dụng VietSentiWordNet ban đầu vào miền dữ liệu tin tức. Với VietSentiWordNet mở rộng, mô hình đạt đƣợc độ chính xác trung bình 66.60% cho miền dữ liệu đánh giá của khách hàng. Độ chính xác bước đánh giá tổng hợp Bảng 11. STT Tên sản phẩm Tổng số đánh giá Đúng Độ chính xác 1 LG GS290 Cookie Fresh. 77 50 64.94% 2 LG Optimus One P500 45 30 66.67% 3 LG Wink Touch T300 41 28 68.29% 4 Nokia c5-03 89 61 68.54% 5 Nokia e63 61 38 62.30% 6 Nokia E72 68 45 66.18% 7 Nokia N8 88 61 69.32% 8 Nokia X2-01 79 54 68.35%

9 Samsung galaxy tab 42 27 64.29%

10 Samsung star s5233w 79 53 67.09% 0 10 20 30 40 50 60 Tích cực Tiêu cực

Độ chính xác bước tổng hợp với VietSentiWordNet ban đầu

Bảng 13. STT Tên sản phẩm Tổng số đánh giá Đúng Độ chính xác 1 LG GS290 Cookie Fresh. 77 35 45.45% 2 LG Optimus One P500 45 18 40.00% 3 LG Wink Touch T300 41 18 43.90% 4 Nokia c5-03 89 41 46.07% 5 Nokia e63 61 28 45.90% 6 Nokia E72 68 29 42.65% 7 Nokia N8 88 40 45.45% 8 Nokia X2-01 79 34 43.04%

9 Samsung galaxy tab 42 19 45.24%

Kết luận

Với số lƣợng đánh giá sản phẩm đa dạng và phong phú trên Internet, nhu cầu về một kho ngữ liệu có trọng số VietSentiWordNet là rất cần thiết cho bài toán khai phá quan điểm. Nắm bắt nhu cầu đó, khóa luận tiến hành mở rộng VietSentiWordNet sẵn có và áp dụng thử nghiệm vào bải toán khai phá quan điểm trên các đánh giá của khách hàng.

Các kết quả chính đạt được

Khóa luận đã tìm hiểu các phƣơng pháp xây dựng SentiWordNet cho tiếng Anh và tiếng Ấn Độ. Từ đó đề xuất một mô hình áp dụng phƣơng pháp xây dựng SentiWordNet 3.0 cho vấn đề mở rộng VietSentiWordNet sẵn có. Đồng thời, khóa luận đề xuất một giải pháp áp dụng VietSentiWordNet vào bài toán khai phá quan điểm trên các đánh giá của khách hàng, đồng thời tiến hành thử nghiệm mô hình đã đề xuất.

Sản phẩm VietSentiWordNetOpen phiên bản đầu tiên có 9333 synset, 9533 từ, gấp gần 9 lần so với phiên bản VietSentiWordNet nguồn. Khóa luận đã tiến hành thử nghiệm áp dụng VietSentiWordNetOpen với bài toán khai phá quan điểm. Kết quả của mô hình là khả quan với độ chính xác bƣớc tổng hợp đạt 66.6%,

Một số vấn đề cần giải quyết và hướng nghiên cứu tiếp theo

Tuy mô hình đã đạt đƣợc một số kết quả khả quan trên tập dữ liệu thử nghiệm, nhƣng còn một số trƣờng hợp phụ thuộc ngữ cảnh thì mô hình chƣa quải quyết đƣợc tốt. Hơn nữa, mô hình mở rộng VietSentiWordNet hiện tại mới chỉ áp dụng với tập từ quan điểm là tính từ. Việc mở rộng thêm VietSentiWordNet với tập từ quan điểm đầy đủ hơn là cần thiết.

Trong thời gian tới, ngoài việc tiếp tục giải quyết các vấn đề còn tồn tại, chúng tôi định hƣớng một số nghiên cứu tiếp theo:

- Nghiên cứu thêm về các bƣớc tính trọng số trong phƣơng pháp xây dựng SentiWordNet.

- Cải tiến số lƣợng cũng nhƣ chất lƣợng của VietSentiWordNetOpen. Sử dụng tập từ quan điểm bổ sung danh từ và động từ để làm giàu thêm tập phân lớp.

Tài liệu tham khảo

Tiếng Việt:

[1] Vũ Xuân Sơn, Trần Trung Hiếu, Lê Thu Hà, Đào Thủy Ngân. Xây dựng từ điển VietSentiWordNet ứng dụng khai phá quan điểm trên tin tức. CÔNG TRÌNH THAM GIA GIẢI THƯỞNG “SINH VI N N HI N C U HOA H C” N M 2 , ĐẠI H C CÔNG NGHỆ

[2] Hoàng Trọng Phiến. Ngữ pháp tiếng Việt: Câu. Nhà xuất bản Đại học và trung học chuyên nghiệp, H., 1980, trang 60–66.

[3] Đề tài KC01.01/06-10 “Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”

http://vlsp.vietlp.org:8080/

[4] Trang web bán hàng trực tuyến http://www.thegioididong.com

[5] WordNet tiếng Việt: http://vi.asianwordnet.org

Tiếng Anh:

[6] Stefano Baccianella, Andrea Esuli, Fabrizio Sebastiani (2010). SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining, LREC 7th Conference on Language Resources and Evaluation, Valletta, MT, 2010

[7] Amitava Das, Sivaji Bandyopadhyay (2010). SentiWordNet for Indian Languages, The 8th Workshop on Asian Language Resources: 56–63.

[8] Andrea Esuli ,Fabrizio Sebastiani (2006) SENTIWORDNET: A Publicly Available Lexical Resource for Opinion Mining, In Proceedings of the 5th Conference on Language Resources and Evaluation (LREC’ 6) , enova, IT

[9] Andrea Esuli. 2008. Automatic Generation of Lexical Resources for Opinion Mining: Model, Algorithms, and Application. Ph.D. thesis Scuola di Dottorato in Ingegneria ”Leonardo da Vinci”, University of Pisa, Pisa, IT.

[10] M. Hu and B. Liu. 2004. Mining and Summarizing in Customer Reviews. In KDD, pages 168–177, Seattle, WA. 2004

[11] Bing Liu, Opinion Mining & Summarization - Sentiment Analysis,

Tutorial given at WWW-2008, April 21, 2008 in Beijing.

[12] Bing Liu (2010). Sentiment Analysis and Subjectivity. Invited Chapter for the Handbook of Natural Language Processing, Second Edition. March, 2010

[13] Bruno Ohana (2009).Opinion mining with the SentWordNet lexical resource, the Dublin Institute of Technology in March, 2009

[14] Bruno Ohana, Brendan Tierney(2009).Sentiment classification of reviews using SentiWordNet 9th. IT&T Conference, Dublin Institute of Technology, Dublin

[15] Bo Pang and Lillian Lee(2008).Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval 2(1-2) [16] Virach Sornlertlamvanich (2010). AsianWordNet: What’s next?

ADD6&AWN2010, December 7-9, 2010 , Phuket, Thailand

[17] WordNet tiếng Anh: http://wordnet.princeton.edu/

[18] Công cụ biểu thức chính qui. Just Great Software Co. Ltd.