Lỗi do tách câu

Ở phần đánh giá chúng tôi cũng đề cập đến việc độ chính xác mức câu là không cao và có nói nguyên nhân chủ yếu là do tách câu và tất nhiên cũng một phần là do việc nhận dạng từ không chuẩn. Lỗi do tách câu thực ra cũng chính là do viết luật nhưng ở đây chúng tôi tách ra để cho thấy được tầm quan trọng của công việc này. Việc tách câu ghép thành các câu đơn là không hề dễ dàng nhất là với văn bản tiếng Việt thì độ chính xác về phân tích cấu trúc câu không cao do đó mà chúng tôi không thể mượn việc phân tích cấu trúc câu để tách câu. Chúng tôi hoàn toàn chỉ dựa vào luật và với sự nhập nhằng các câu gây nên rất nhiều vấn đề khó khăn để tách chúng ra.

Ví dụ:

“Một chiếc máy tính hạng sang với tốc độ xử lí, dung lượng ổ cứng... đáp

ứng đủ cho yêu cầu đa số nhiều người”

“Một chiếc máy tính hạng sang với tốc độ xử lí”

“dung lượng ổ cứng... đáp ứng đủ cho yêu cầu đa số nhiều người”

Hình 15 – Lỗi do tách câu

Ngoài ra cũng còn nhiều nguyên nhân từ việc tách từ hay sử dụng bộ từđiển thiếu sót tuy không phải là vấn đề chủ yếu nhưng trong một vài trường hợp cũng gây ra một số lỗi sai cho hệ thống.

Từ việc phân tích lỗi chúng tôi cũng nhận thấy một số lỗi có khả năng sửa được

để nâng cao độ chính xác của hệ thống. Ví dụ như dùng luật chính xác và đầy đủ hơn cho ngữ cảnh hay dùng bộ gán nhãn, tách từ có độ chính xác cao hơn, xây dựng bộ từ điển chuẩn xác hơn, … Đó là những công việc trong tương lai để hệ thống có độ chính xác cao hơn.

Chương 6

Tổng kết và hướng phát triển

Chúng tôi bước đầu xây dựng một hệ thống đánh giá quan điểm người dùng cho tiếng Việt dựa trên luật và phân lớp ở mức câu. Hệ thống được thiết kế trên nền GATE

để cộng đồng có thể dễ dàng tiếp cận và phát triển cho bài toán đánh giá quan điểm người dùng. Với kết quảđộ chính xác được thực hiện trên dữ liệu về máy tính (computer) theo mức từ (F-measure: 77%), mức câu (F-measure: 63%) và mức văn bản theo Features (89%) có thể nói là một kết quảđáng khả quan mởđầu cho bài toán

đánh giá quan điểm người dùng trên hệ thống tiếng Việt.

Tuy nhiên trong quá trình xây dựng hệ thống vẫn còn một vài thiếu sót cả do vấn đề khách quan lẫn chủ quan. Trong tương lai chúng tôi sẽ cố gắng phát triển hệ

thống một cách chuẩn xác hơn. Bên cạnh hệ thống đánh giá quan điểm cho văn bản tiếng Việt, chúng tôi còn xây dựng được một tài liệu định nghĩa và một tập dữ liệu đã

được gán nhãn chuẩn. Khi tập dữ liệu được gán nhãn đủ lớn, chúng tôi có thể sử dụng thêm các thành phần nhận dạng thực thể (từ, câu, features) bằng các phương pháp học máy, làm tăng sức mạnh của hệ thống. Với những kết quảđã đạt được và khả năng có thể cải tiển hệ thống ở nhiều mặt như: cải tiến bộ từđiển, thêm những thành phần xử

lý sâu về ngữ cảnh, kết hợp với bộ nhận dạng sử dụng các phương pháp học máy v.v… sẽ hứa hẹn đem lại một hệ thống đánh giá quan điểm trong văn bản tiếng Việt đạt kết quả cao trong tương lai.

Tài liệu tham khảo

[1] Eric Brill. 1994. Some Advances in Transformation-Based Part of Speech Tagging. Proceedings of the 12th National Conference on Artificial Intelligence. 1994, Menlo Park, CA: AAAI Press, pp722–727.

[2] Rebecca F. Bruce and Janyce M. Wiebe. 1999. Recognizing subjectivity: a case study in manual tagging. Natural Language Engineering 5(2):187–205.

[3] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. 2002. GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Applications. Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL'02). Philadelphia, July 2002.

[4] Kenneth Ward Church, Patrick Hanks.1989. Word association norms, mutual information and lexicography. Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics.1989, Vancouver, B.C., Canada, pp76–83.

[5] Dang Duc Pham, Giang Binh Tran, Son Bao Pham. 2009. A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags. International Conference on Knowledge and Systems Engineering.

[6] Dat Ba Nguyen, Son Huu Hoang, Son Bao Phamand Thai Phuong Nguyen. 2010. Named Entity Recognition for Vietnamese. Springer Berlin / Heidelberg. April , 2010.

[7] David Day, Chad McHenry, Robyn Kozierok, Laurel Riek. 2004. Callisto: A Configurable Annotation Workbench. In Proceedings of the Fourth International Conference on Language Resources and Evaluation. (LREC 2004). ELRA. May, 2004.

[8] Xiaowen Ding, Bing Liu, Lei Zhang. 2009. Entity Discovery and Assignment for Opinion Mining Applications. Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining.

[9] Andrea Esuli and Fabrizio Sebastiani 2006. Senti-WordNet: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of the 5th Conference on Language Resources and Evaluation (LREC-06). 2006, Genova, Italy.

[10] Christiane Fellbaum. 1998. WordNet: an electronic lexical database. MIT Press.

[11] Vasileios Hatzivassiloglou and Kathleen R. McKeown. 1997. Predicting the Semantic Orientation of Adjectives. Proceedings of the 8th conference on European chapter of the Association for Computational Linguis- tics. 1997, Madrid, Spain.

[12] Minqing Hu and Bing Liu. 2004a. Mining and summarizing customer reviews. Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining. Aug. 22–25, 2004, Seattle, WA, USA.

[13] Minqing Hu and Bing Liu. 2004b. Mining opinion features in customer reviews. Proceedings of 9th National Conference on Artificial Intellgience. Jul. 2004, San Jose, USA.

[14] Chris Manning and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA.

[15] Tetsuya Nasukawa, Jeonghee Yi. 2003. Sentiment Analysis: Capturing Favorability Using Natural Language Processing. Proceedings of the 2nd international conference on Knowledge capture. Technology systems (SEALTS).

[16] Mary S. Neff, Roy J. Byrd, and Branimir K. Boguraev. 2003. The Talent System: TEXTRACT Architecture and Data Model. Proceedings of the HLT- NAACL2003 Workshop on Software Engineering and Architecture of Language .

[17] Bo Pang, Lillian Lee and Shivakumar Vaithyanathan. 2002. Thumbs up? Sentiment classification using machine learning techniques. Proceedings of the 7th Conference on Empirical Methods in Natural Lan- guage Processing (EMNLP-02).

[18] Bo Pang and Lillian Lee. 2004. A sentiment education: sentiment analysis using subjectivity summrarization based on minimum cuts. Proceedings of the Conference of the Association for Computational Linguistics (ACL-04).

[19] Gong Tianxia. Processing Sentiments and Opinions in Text: A Survey. [20] Tong. 2001. An operational system for detecting and tracking opinions in online discussion. Proceedings of SIGIR Workshop on Operational Text

Classification. 2001, New York, pp1–6.

[21] Peter Turney. 2001. Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. Proceedings of the 12th European Conference on Machine Learning. Berlin: Spinger-Verlag, pp. 491–502.

[22] Peter Turney. 2002. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL-02). Jun. 2002, Philadelphia, PN, USA, pp.417–424.

[23] Peter Turney and Michael Littman. 2002. Unsupervised Learning of Semantic Orientation from a Hundred- Billion-Word Corpus. Technical Report NRC Technical Report ERB-1094. Institute for Information Technology, National Research Council Canada.

[24] Peter Turney and Michael Littman. 2003. Measuring praise and criticism: Inference of semantic orientation from association. ACM Tranctions on Information Systems, 21(4): 315-346.

[25] Janyce M. Wiebe, Theresa Wilson and Matthew Bell. 2001. Identifying collocations for recognizing opinions. Proceedings of the ACL/EACL Workshop on Collocation. 2001.

[26] Hong Yu and Vasileios Hatzivassiloglou. 2003. Towards answering opinion questions: Seperating facts from opinions and identifying the polarity of opinion sentences. Proceedings of the 8th Conference on Empirical Methods in Natural Language Processing (EMNLP-03). 2003, Sapporo, Japan, pp129–136.

Phụ lục A. Annotation Guideline.

• Feature tag: những từ nêu lên đặc điểm của sản phẩm như: giá, thiết kế, cấu hình, …

• Entity tag: là những từ chính có ý chỉ đến feature của sản phẩm như: bề ngoài -> feature thiết kế, số tiền -> giá, máy -> feature chung cho sản phẩm về

computer (laptop và desktop), …

• PosWord tag: những từ nêu lên đặc điểm, tính chất của entity có ý nghĩa đánh giá khen: đẹp, tốt, cao (đối với cấu hình), vừa phải (giá cả), nổi bật (thiết kế), bắt mắt (thiết kế), …

• NegWord tag: tương tự như PosWord tag nhưng đánh giá chê: xấu, thấp (đối với cấu hình), cao (đối với giá), …

• CompWord: những từ mang ý nghĩa so sánh: xấu hơn, đẹp hơn, kém hơn, tốt nhất, tốt hơn so với, … Chú ý những từ so sánh mà không mang ý nghĩa so sánh: Máy tốt hơn nếu cấu hình cao hơn -> câu bình thường không phải là opinion sentence.

• ReverseWord: những từ làm trái ngược ý nghĩa đánh giá như: không, không phải, chỉ, không được, …

• PosSen: là 1 câu trong đấy gồm những từ mang ý nghĩa đánh giá tốt. Chỉ gồm PosWord trong câu và không có ReverseWord cho PosWord nào, có cả

NegWord nhưng có ReverseWord cho NegWord đó.

• NegSen: trái ngược với PosSen.

• MixSen: có cả 2 loại PosWord và NegWord trong câu (tính cả ReverseWord cho nó rồi) hay không thuộc 2 loại câu trên và ko phải câu ko có ý nghĩa đánh giá.

Phụ lục B. Bảng nhãn từ loại tiếng Việt

Np danh từ riêng proper noun

Nc danh từđơn thể countable noun Ng danh từ tổng thể collective noun Nt danh từ loại thể classifier noun Nu danh từ chỉđơn vị concrete noun Na danh từ trừu tượng abstract noun Nn danh từ số lượng numeral

Nl danh từ vịtrí locative noun Vt động từ ngoại động transitive verb Vit động từ nội động intransitive verb Vim động từ cảm nghĩ impression verb Vo động từ chỉ hướng orientation verb Vs động từ tồn tại state verb Vb động từ biến hoá transformation verb Vv động từ ý chí volotive verb

Va động từ tiếp thụ acceptation verb Vc động từ so sánh comparative verb Vm động từ chuyển động move verb Vla động từ"là" “là” verb

Vta động từ ngoại động tiếp thụ transitive-acceptation verb Vtc động từ ngoại động so sánh transitive-comparative verb Vtb động từ ngoại động biến hoá transitive-transformation verb Vto động từ ngoại động chỉ hướng transitive-orientation verb Vts động từ ngoại động tồn tại transitive-state verb

Vtm động từ ngoại động chuyển động transitive-move verb Vtv động từ ngoại động ý chí transitive-volotive verb Vitim động từ nội động cảm nghĩ intransitive-impression verb Vitb động từ nội động biến hoá intransitive-transformation verb Vits động từ nội động tồn tại intransitive-state verb

Vitc động từ nội động so sánh intransitive-comparative verb Vitm động từ nội động chuyển động intransitive-move verb Aa tính từ hàm chất quality adjective An tính từ hàm lượng quantity adjective

Pp đại từ xưng hô personal pronoun

Pd đại từ không gian, thời gian demonstrative pronoun Pn đại từ số lượng quantity pronoun Pa đại từ hoạt động, tính chất quality pronoun

Pi đại từ nghi vấn interrogative pronoun Jt phụ từ chỉ thời gian time adjunct

Jd phụ từ chỉ mức độ degree adjunct

Jr phụ từ so sánh rapport adjunct

Ja phụ từ khẳng định, phủđịnh adjunct of negation and acceptation Ji phụ từ mệnh lệnh imperative adjunct

Cm giới từ major/minor conjunction

Cc liên từ combination conjunction

E cảm từ emotion word

I trợ từ introductory word

Xây dựng plugin trên GATE

Mô tả tổng quan hệ thống