Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,06 MB
Nội dung
VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY VU TIEN THANH A FEATURE-BASED OPINION MINING MODEL ON PRODUCT REVIEWS IN VIETNAMESE MASTER THESIS OF INFORMATION TECHNOLOGY Hanoi – 2012 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY VU TIEN THANH A FEATURE-BASED OPINION MINING MODEL ON PRODUCT REVIEWS IN VIETNAMESE Major : Computer Science Code : 60 48 01 MASTER THESIS OF INFORMATION TECHNOLOGY Supervisor: Assoc.Prof Ha QuangThuy Hanoi – 2012 Table of Contents Introduction Literature review 2.1 Opinion Mining 2.1.1 The demand of opinion mining 2.1.2 The basic concepts in the opinion mining field 2.1.3 Opinion mining problems 2.2 Feature-based Opinion Mining 2.2.1 Problem Definition 2.2.2 Features Extraction 2.2.3 Opinion Orientation Identification 2.2.4 Feature-based Opinion Mining System on Vietnamese Product Reviews Our Feature-based Opinion Mining Model 3.1 Introduction 3.2 Phase 1: Pre-processing 3.2.1 Data Standardizing 3.2.2 Token Segmenting and POS Tagging 3.3 Phase 2: Product Features and Opinion Words 3.3.1 Explicit Product Features Extraction 3.3.2 Opinion word Extraction 3.3.3 Implicit Features identification 3.3.4 Grouping Synonym Features 3.3.5 Frequent Features Identification 3.4 Phase 3: Determining the opinion orientation 3.5 Phase 4: Summarization vi Extraction 4 10 10 11 12 14 15 15 16 16 17 18 18 21 22 23 24 26 28 TABLE OF CONTENTS vii Evaluation 4.1 Environment and Experimental Data 4.1.1 Environment 4.1.2 Experimental Data 4.2 Product Features Extraction Evaluation 4.3 Opinion Words Extraction Evaluation 4.4 The Whole System Evaluation 29 29 29 29 30 31 32 Conclusion 36 A FEATURE-BASED OPINION MINING MODEL ON PRODUCT REVIEWS IN VIETNAMESE Vu Tien Thanh K16 Computer Science Master Course Faculty of Information Technology University of Engineering and Technology Vietnam National University, Hanoi tienthanh_dhcn@vnu.edu.vn Ha Quang Thuy Faculty of Information Technology University of Engineering and Technology Vietnam National University, Hanoi thuyhq@vnu.edu.vn Abstract Feature-based opinion mining and summarizing (FOMS) of reviews is a very interesting and attracting issue in the opinion mining field With the development of ecommerce in Vietnam, there are more and more commercial sites and technical forums where people can review or express their opinions on the products which they have used As a result, the number of reviews has been increasing rapidly to hundreds or even thousands for a hot-product in recent years Not only makes it difficult for the customer to read them to make a decision whether to buy product but difficult for the producer to handle customer’s opinions to improve their products as well In this thesis, we describe a Feature-based opinion mining and summarizing model on Vietnamese customer reviews Experimental results on Vietnamese reviews of mobile phone products domain demonstrate the effectiveness of the model Keywords feature-word; feature-based opinion mining system; opinion summarization; opinionword; reviews; syntax rules; VietSentiWordnet dictionary PUBLICATIONS Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran and Quang-Thuy Ha A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews In Proceedings of the 6th international conference on Asia-Pacific Services Computing (APSCC 2011) Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham and Cong-To Luu An Upgrading Featurebased Opinion Mining Model on Vietnamese Product Reviews In Proceedings of the 7th international conference on Active media technology (AMT 2011), pp 173-185 Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu and Quang-Thuy Ha A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese In Semantic Methods for Knowledge Management and Communication (SCI 381), pp 23-33 I INTRODUCTION Feature-based opinion mining and summarizing(FOMS) of product reviewsis a very interesting and attracting issue in the opinion mining field [1][2][3][4] There are many research have done for improving FOMS systems [5][3][2] In this thesis, we propose a Feature-based opinion mining and summarizing model on Vietnamese customer reviews overcoming some drawbacks of the recent FOMS systems With an input customer reviews set of products, our task is performed into four steps:(1)Pre-processing the input customer reviews by standardizing reviews, segmenting Token, and POS tagging(2) extracting explicit product features and opinion-words as well by using Vietnamese syntax rules, identifying implicit product features by using relationships with opinion words,and automatically grouping synonym product features by combining HAC clustering method and semi-supervised SVM-kNN classification method; (3) identifying opinion sentences in each review and deciding whether each opinion sentence is positive, negative or neutral by using a VietSentiWordNet extended from an initial SentiWordNet 3.0; (4) summarizing the results The rest of this thesis is organized as following In the second chapter, we provide some literature reviews In next chapter, the FOMS model with four steps is described Experiment results and remarks are described in the fourth chapter Conclusions are showed in the last chapter II RELATED WORKS Because positive opinionated document on a particular object does not mean that the author has positive opinions on all features of the object and vice versa In a typical opinionated text, the author writes both positive and negative features of the object, although the general sentiment on the object may be positive or negative Document-level and sentence-level classification not provide such information Thus, feature-based opinion mining is needed to determine positive, negative or neutral opinions the feature level And the feature-based opinion mining focuses on two main tasks [6]: • Identify object features(product features) For example, in the sentence “The touch screen of this mobile phone is great”, the product feature is touch screen • Determine orientation of opinions on features (positive, negative, or neutral) In above sentence, the opinion on “touch screen” is positive A Features Extraction The approach applied in early feature-based opinion mining systems to identify features is based on association mining [7] The main idea of this approach is that although different customers usually have different reviews related to product features, when they comment on product features, the words that they use to express the feature are consistent Thus, the approach uses association mining to find noun/noun phrases (N/NP) that frequently occur in reviews and considers those N/NP as product features A disadvantage of the association mining based approach is that it does not identify implicit features Other related works on feature extraction mainly use the topic modeling and clustering to extract topics/features in customer reviews [8] The main idea of these approaches is that it clusters the synonym features based on context of reviews B Opinion Orientation Identification Opinion Words Extraction The first approach applied to extract opinion words is based on syntactic or co-occurrence patterns and also a seed list of opinion words to find other opinion words in a large corpus [9] The approach starts with a list of seed opinion adjectives, and uses them and a set of linguistic constraints such as “AND”, “OR”, “BUT”,etc to identify additional adjective opinion words and their orientations (positive, negative, or neutral) For example, given a sentence “This car is beautiful and spacious,” if “beautiful” is known to be positive, it can be inferred that “spacious” is also positive Other approaches are based on dictionary, one of the simple techniques in this approach is based on bootstrapping using a small set of seed opinion words and an online dictionary, e.g., WordNet [7][10] The approach firstly collects a small set of opinion words manually with known orientations and then to grow this set by searching in the WordNet for their synonyms and antonyms After that, the newly found words are added to the seed list The next iteration starts The iterative process stops when no more new words are found Aggregating opinions: This step applies an opinion aggregation function to the resulting opinion scores to determine the final orientation of the opinion on each object feature in the sentence Let the sentence be s, which contains a set of object features f1 , , fm and a set of opinion words or phrases op1 , , opn with their opinion scores obtained previous steps The opinion orientation on each feature fi in s is determined by the opinion aggregation function (different functions on different systems) [6] defines the function as follows: opj so ; score(fi , s) = opj ∈s d(opj , fi ) where opj is an opinion word in s, d(opj , fi ) is the distance between feature fi and opinion word opj in s opj so is the orientation or the opinion score of opi III OUR FEATURE-BASED OPINION MINING MODEL A Introduction Figure describes the proposed model for feature-based opinion mining and summarizing on Vietnamese product reviews The system performs four following phases: (1)Pre-processing (2) extracting explicit/implicit product features and opinion-words, and grouping synonym product features(3) identifying orientation of opinion(4) summarizing the results Each step is implemented by several modules Figure Model for Feature-based Opinion Mining and Summarizing in Vietnamese Product Reviews B Phase 1: Pre-processing 1) Data Standardizing: The customer often uses a combination of standard spelling, apparently accidental mistakes, slang, sentence fragments, “typographic slang” and interjections in their reviews [11] We adopted a Vietnamese accented system combined N-gram statistic model and Hidden Markov model(HMM) for the purpose of converting a sentence without accents into a Vietnamese accented sentence, for example,“Chiec camera that tien loi” switched into “Chiếc camera thật tiện lợi”_(This camera is convenient) The customer often uses a combination of standard spelling, apparently accidental mistakes, slang, sentence fragments, “typographic slang” and interjections in their reviews [11] Therefore, we adopted a Vietnamese accented system combined N-gram statistic model and Hidden Markov model(HMM) for the purpose of converting a sentence without accents into a Vietnamese accented sentence, for example,“Chiec camera that tien loi” switched into “Chiếc camera thật tiện lợi”_(This camera is convenient) 2) Token Segmenting and POS Tagging: Because the product features are often nouns or noun phrases constructing from a bag of words, they need to be segmented and tagged In order to obtain that goal, we use Vietnamese word segmentation tool [12] For example, given a review sentence: “Các tính nói chung tốt”(Features are generally good.) After token segmenting and POS tagging, we achieve the following result: “Các /NN | tính năngf eatures /Na | nói chunggenerally /X | làare /Cc | tốtgood /Aa” All the segmented and tagged sentences are then stored in the database along with the POS tag information C Phase 2: Product Features and Opinion Words Extraction This phase extracts product features and opinion words from Vietnamese customer reviews In this phase, we consider product features being nouns or nouns phrases, and opinion words being not only adjectives as [7] but also verbs because apart from adjectives, sometimes Vietnamese verbs also express opinions For example, for the sentence “Tôi thích màu sắc điện thoại này”_(I love the color of this phone), “màu sắc(Noun phrase)”color is a product features; and “thích(Verb)”love is an opinion word Therefore, we combine Vietnamese syntax rules with the feature extraction method proposed by [2] to obtain Vietnamese product features In addition, we resolve some drawback points of FOMS system which are identifying co-references in subsection III-C2, extracting implicit features from opinion words in subsection III-C3, and grouping synonym product features in subsection III-C4 1) Explicit Product Features Extraction: Explicit product features are expressed directly in the sentences in customer reviews For example,“Màn hình cảm ứng Iphone tuyệt”_(The touch screen of the Iphone is great), Touch screen is an explicit product feature This module extracts the product features based on the three syntax rules which are part-whole relation, “No” patterns, and double propagation rule 2) Opinion word Extraction: This module not only extracts the nearest adjectives and verbs with identified product feature, but extracts both sentiment strength words (gradable words)such as “rất”very and negative words such as “không”not as well in the sentence If adjectives are connected to each other by commas or semicolons or conjunctions, we will extract all of these adjectives and consider them as opinion words 3) Implicit Features identification: Implicit features are product features not appearing directly in sentence but via opinion words in the sentence For example, “Điện thoại đắt quá”_This phone is too expensive, so the opinion word “đắt”expensive refers to product price not expressed directly in the sentence For the domain of “mobile phone”, we construct a mapping dictionary to identify the implicit feature by mapping those ones to corresponding opinion words 4) Grouping Synonym Features: We use two concepts in [1] Firstly, feature expression of a feature is a word or phrase that actually appears in a review to indicate the feature Secondly, feature group (or feature for short) is the name of a feature (given by the user) For example, a feature group could be named “Chất lượng ảnh”picture quality , but there are many possible expressions indicating the feature, e.g., “ảnh”picture , “hình ảnh”image , and even the “Chất lượng ảnh”picture quality itself All the feature expressions in a feature group signify the same feature Because the customer can express on the same product feature with many different words and phrases, for example, both “mẫu mã”style and “kiểu dáng”design are belong to “hình thức”appearence group To make more useful of the summarization phase, these words or phrases, which express the same feature, need to be grouped into synonym features group [1] Our grouping method based on the SVM-kNN semi-supervised learning [13][1][14] along with HAC clustering method generating training set for SVM-kNN Therefore, the method is unsupervised and full automatic 5) Frequent Features Identification: This step determines the frequent feature in reviews, and removes redundant features To resolving this task, we compute the frequency of features appearing on customer reviews If the frequency is greater than a given threshold, the feature is a frequent feature Whereas, the feature is redundant features and it is eliminated D Phase 3: Determining the opinion orientation Opinion orientation of each customer on each opinion feature is determined in this phase via two following steps Firstly, the opinion weight of the customer on each feature on which the customer expresses their opinions is determined Secondly, opinion orientation of the feature is determined by classifying into one of three classes: positive, negative or neutral • In the first step, a initial VietSentiWordnet which is Vietnamese sentiment dictionary have been constructed by extending SentiWordnet 3.0 Therefore, customer’s opinion weights on product feature are calculated The initial VietSentiWordNet has 977 sentiment synsets and 1179 sentiment words has been extended by using a semi supervised learning method [15][16] After the normalization all of opinion words, the extending VietSentiWordNet has 9333 synsets and 9533 words Denoting ts as the opinion weight of the feature in a customer’s review, tsi is the weight of the ith opinion words on the feature in the review (denoted by wordi ); wi is opinion weight of wordi got from VietSentiWordnet dictionary by getting the subtraction of positive and negative score of wordi After that, ts is determined as: ts = m tsi where m be the number of opinion words of the feature in the review In cases of having negative word such as “không”not , the value of tsi is reversed (it means that tsi = −1 × tsi ) In other cases, tsi features returned by the system The precision, recall and F1 are illustrated in Col 2, and respectively It can be seen that results of frequent features extraction step are good with all values of F1 above 80% Table III PRECISION, RECALL AND F1 OF FEATURE-BASED OPINION MINING MODEL ON VIETNAMESE MOBILE PHONES REVIEWS) Product names LG GS290 Cookie Fresh LG Optimums One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung star s5233w Samsung galaxy tab Average Precision(%) 77.12 67.19 70.59 65 71.01 70.25 71.32 68.18 64.18 70.30 69.51 Recall(%) 77.78 55.81 62.07 57 66.22 75 78.23 75.00 71.67 73.89 69.27 F1 (%) 77.45 60.97 66.06 60.74 68.53 72.55 74.62 71.43 67.72 72.05 69.21 C The Whole System Evaluation For each feature extracted from the previous experiment, firstly, the system extract opinion words from reviews mentioning to this feature in 743 crawled reviews Secondly, the system calculate opinion weight of the opinion words Finally, we obtain positive, negative and neutral comments for all features of each product According to the table III, the precision and recall of our system are quite satisfactory with both precision and recall values approximate 69% In summarization task, figure shows a summarization of the customer reviews on each features of product LG Wink Touch T300 V CONCLUSION In this thesis, we presented, in chapter III, an approach to build an opinion mining system of customer reviews according to product features based on Vietnamese syntax rules and VietSentiWordNet dictionary, with three main contributions as following: • Firstly, in the phase 1, we built a Vietnamese accented system combined N-gram statistic model and Hidden Markov model(HMM) for the purpose of converting a sentence without accents into a Vietnamese accented sentence • Secondly, in the phase 2, we proposed a method of using SVM-kNN semi-supervised learning along with HAC clustering method generating training set for SVM-kNN to group synonym features; after that, co-reference was resolved by using some Vietnamese rules Figure • A summarization of LG Wink Touch T300 Finally, in the phase 3, we extended the initial VietSentiWordnet dictionary (a Vietnamese sentiment resource) only having 977 sentiment synsets and 1179 sentiment words to a new VietSentiWordnet having 9333 synsets and 9533 words REFERENCES [1] Z Zhai, B Liu, H Xu, and P Jia, “Grouping product features using semi-supervised learning with soft-constraints,” in Proceedings of the 23rd International Conference on Computational Linguistics, ser COLING ’10 Stroudsburg, PA, USA: Association for Computational Linguistics, 2010, pp 1272–1280 [2] L Zhang, B Liu, S H Lim, and E O’Brien-Strain, “Extracting and ranking product features in opinion documents,” in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, ser COLING ’10 Stroudsburg, PA, USA: Association for Computational Linguistics, 2010, pp 1462–1470 [3] T.-T Vu, H.-T Pham, C.-T Luu, and Q.-T Ha, “A feature-based opinion mining model on product reviews in vietnamese,” in Semantic Methods for Knowledge Management and Communication, ser Studies in Computational Intelligence, R Katarzyniak, T.-F Chiu, C.-F Hong, and N Nguyen, Eds Springer Berlin Heidelberg, 2011, vol 381, pp 23–33 [4] Q.-T Ha, T.-T Vu, H.-T Pham, and C.-T Luu, “An upgrading feature-based opinion mining model on vietnamese product reviews,” in Proceedings of the 7th international conference on Active media technology, ser AMT’11 Berlin, Heidelberg: Springer-Verlag, 2011, pp 173–185 [5] G Qiu, B Liu, J Bu, and C Chen, “Opinion word expansion and target extraction through double propagation,” Comput Linguist., vol 37, pp 9–27, 2011 [6] B Liu, “Sentiment analysis and subjectivity,” in Handbook of Natural Language Processing, Second Edition, N Indurkhya and F J Damerau, Eds Boca Raton, FL: CRC Press, Taylor and Francis Group, 2010, iSBN 978-1420085921 [7] M Hu and B Liu, “Mining and summarizing customer reviews,” in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, ser KDD ’04 New York, NY, USA: ACM, 2004, pp 168–177 [8] V Stoyanov and C Cardie, “Topic identification for fine-grained opinion analysis,” in Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, ser COLING ’08 Stroudsburg, PA, USA: Association for Computational Linguistics, 2008, pp 817–824 [9] V Hatzivassiloglou and K R McKeown, “Predicting the semantic orientation of adjectives,” in Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics, ser EACL ’97 Stroudsburg, PA, USA: Association for Computational Linguistics, 1997, pp 174–181 [10] S.-M Kim and E Hovy, “Automatic identification of pro and reasons in online reviews,” in Proceedings of the COLING/ACL on Main conference poster sessions, ser COLING-ACL ’06 Stroudsburg, PA, USA: Association for Computational Linguistics, 2006, pp 483–490 [11] M Thelwall, “Myspace comments,” Online Information Review, vol 33, no 1, pp 58–76, 2009 [12] D D Pham, G B Tran, and S B Pham, “A hybrid approach to vietnamese word segmentation using part of speech tags,” Knowledge and Systems Engineering, International Conference on, vol 0, pp 154–161, 2009 [13] K Li, X Luo, and M Jin, “Semi-supervised learning for svm-knn,” Journal of Computers, vol 5, no 5, pp 671–679, 2010 [14] H Zhang, A C Berg, M Maire, and J Malik, “Svm-knn: Discriminative nearest neighbor classification for visual category recognition,” in CVPR (2), 2006, pp 2126–2136 [15] A Esuli and F Sebastiani, “Sentiwordnet: A publicly available lexical resource for opinion mining,” in In Proceedings of the 5th Conference on Language Resources and Evaluation (LREC’06), 2006, pp 417–422 [16] A Esuli, “Automatic generation of lexical resources for opinion mining: models, algorithms and applications,” SIGIR Forum, vol 42, pp 105–106, November 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CƠNG NGHỆ VŨ TIẾN THÀNH MƠ HÌNH KHAI PHÁ QUAN ĐIỂM DỰA TRÊN ĐẶC TRƯNG CÁC ĐÁNH GIÁ SẢN PHẨM TRONG TIẾNG VIỆT TÓM TẮT LUẬN VĂN THẠC SĨ Hanoi – 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CƠNG NGHỆ VŨ TIẾN THÀNH MƠ HÌNH KHAI PHÁ QUAN ĐIỂM DỰA TRÊN ĐẶC TRƯNG CÁC ĐÁNH GIÁ SẢN PHẨM TRONG TIẾNG VIỆT Chuyên ngành: Mã: Khoa học máy tính 60 48 01 TĨM TẮT LUẬN VĂN THẠC SĨ Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy Publication: [1] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews APSCC’2011, Jeju, Korea, inpress [2] Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, and Cong-To Luu An Upgrading Feature-based Opinion Mining Model on Vietnamese Product Reviews AMT’2011: 173-185, Lanzhou, China [3] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu and Quang-Thuy Ha A Featurebased Opinion Mining Model on Product Reviews in Vietnamese Studies in Computational Intelligence, SCI 381 (Semantic Methods for Knowledge Management and Communication): 23-33 Hanoi – 2012 MƠ HÌNH KHAI PHÁ QUAN ĐIỂM DỰA TRÊN ĐẶC TRƯNG CÁC ĐÁNH GIÁ SẢN PHẨM TRONG TIẾNG VIỆT Vũ Tiến Thành K16 khoa học máy tính Khoa cơng nghệ thơng tin Đại học cơng nghệ Đại học Quốc gia, Hà Nội tienthanh_dhcn@vnu.edu.vn Hà Quang Thụy Khoa công nghệ thông tin Đại học công nghệ Đại học Quốc gia, Hà Nội thuyhq@vnu.edu.vn Abstract Khai phá tổng hợp quan điểm đặc trưng (FOMS) đánh giá sản phẩm vấn đề thú vị hấp dẫn lĩnh vực khai phá quan điểm Với phát triển thương mại tử Việt Nam, ngày xuất nhiều trang web thương mại diễn đàn kỹ thuật, nơi mà người đánh giá thể quan điểm họ sản phẩm mà họ sử dụng Vì thế, số lượng đánh giá tăng nhanh chóng, chí đến hàng trăm, hàng nghìn sản phẩm tiếng Nó khơng tạo nên khó khăn cho người sử dụng muốn đọc chúng để đưa định có mua sản phẩm hay khơng, mà cịn khó khăn cho nhà sản xuất họ muốn kiểm soát chúng để nâng cao chất lượng sản phẩm Trong luận văn này, mơ tả mơ hình khai phá tổng hợp quan điểm dựa đặc trưng từ đánh giá tiếng việt khách hàng Kết thực nghiệm đánh giá tiếng việt miền điện thoại di động minh chứng cho tính hiệu mơ hình Keywords Đặc trưng; hệ thống khai phá quan điểm dựa đặc trưng; tổng hợp quan điểm; từ quan điểm; đánh giá; luật cú pháp; từ điển VietSentiWordnet PUBLICATIONS Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran and Quang-Thuy Ha A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews In Proceedings of the 6th international conference on Asia-Pacific Services Computing (APSCC 2011) Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham and Cong-To Luu An Upgrading Featurebased Opinion Mining Model on Vietnamese Product Reviews In Proceedings of the 7th international conference on Active media technology (AMT 2011), pp 173-185 Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu and Quang-Thuy Ha A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese In Semantic Methods for Knowledge Management and Communication (SCI 381), pp 23-33 I GIỚI THIỆU Khai phá tổng hợp quan điểm đặc trưng đánh giá sản phẩm (FOMS)là vấn đề thú vị hấp dẫn lĩnh vực khai phá quan điểm [1][2][3][4] Có nhiều nghiên cứu tập trung vào việc cải tiến hệ thống FOMS [5][3][2] Trong luận văn này, đề xuất mơt hình FOMS khắc phục hạn chế mơ hình FOMS Với đầu vào tập đánh giá sản phẩm, mơ hình thực thitheo pha:(1) Tiền xử lý (2) Trích xuất đặc trưng, từ quan điểm, gom nhóm đặc trưng đồng nghĩa (3) Xác định hướng quan điểm (4) Tổng hợp kết Phần lại luận văn tổ chức sau Trong chương II, cung cấp số nghiên cứu liên quan Trong chương tiếp theo, chúng tơi mơ tả mơ hình FOMS với pha Thực nghiệm trình bày chương IV Chương cuối trình bày kết đạt luận văn II NGHIÊN CỨU LIÊN QUAN Bởi văn tích cực đối tượng cụ đó, khơng có nghĩa tác giả có suy nghĩ tích cực tất đặc trưng ngược lại Trong văn thơng thường, tác giả viết mặt tích cực tiêu cực Khai phá quan điểm mức tài liệu mức câu cung cấp thông tin hai mặt tích cực tiêu cực đối tượng văn câu Vì khai phá quan điểm dựa đặc trưng cần thiết Khai phá quan điểm dựa đặc trưng tập trung vào hai nhiệm vụ [6]: • Xác định đặc trưng Ví dụ, câu “Màn hình cảm ứng điện thoại thật tuyệt”, đặc trưng “màn hình cảm ứng” • Xác định hướng quan điểm (tích cực, tiêu cực, hay trung lập) Trong câu trên, quan điểm “màn hình cảm ứng ” tích cực A Trích xuất đặc trưng Phương pháp áp dụng hệ thống FOMS ban đầu để xác định đặc trưng dựa luật kết hợp [7] Ý tưởng phương pháp khách hàng khác thường có đánh giá khác liên quan tới đặc trưng sản phẩm, họ bình luận đặc trưng sản phẩm, họ thường dùng từ đồng để thể đặc trưng Vì vậy, phương pháp sử dụng luật kết hợp để tìm danh từ/cụm danh từ (N/NP)thường xuyên xuất đánh giá coi N/NP đặc trưng sản phẩm Điểm bất lợi phương pháp không nhận diện đặc trưng ẩn Một số nghiên cứu liên quan việc trích xuất đặc trưng sử dụng mơ hình chủ đề phân cụm [8] Ý tưởng phương pháp phân cụm đặc trưng đồng nghĩa dựa nghữ cảnh đánh giá B Xác định hướng quan điểm Trích xuất từ quan điểm Phương pháp để trích xuất từ quan điểm dựa xuất đồng thời mẫu, danh sách từ quan điểm hạt giống để tìm từ quan điểm khác từ liệu lớn [9] Nền tảng việc xác định hướng dựa tính từ kết hợp ràng buộc ngôn ngữ Một hướng tiếp cận khác hướng tiếp cận dựa từ điển, sử dụng tập nhỏ từ quan điểm mồi từ điển trực tuyến, Wordnet [7][10].Chiến lược tạo tập mồi nhỏ từ quan điểm tay với hướng biết trước, sau phát triển tập cách tìm kiếm Wordnet từ đồng nghĩa trái nghĩa Các từ tìm thấy thêm vào danh sách mồi Vòng lặp kết thúc khơng có thêm từ tìm thấy Tích hợp quan điểm: Bước áp dụng hàm tích hợp quan điểm để tính điểm quan điểm đưa hướng quan điểm cuối đặc trưng sản phẩm câu Cho câu s, chứa tập đặc trưng f1 , , fm tập từ quan điểm op1 , , opn với giá trị quan điểm xác định từ bước trước Định hướng quan điểm đặc trưng fi s xác định theo hàm tích hợp quan điểm [6] định nghĩa hàm tích hợp quan điểm sau: opj so ; score(fi , s) = opj ∈s d(opj , fi ) opj từ quan điểm s, d(opj , fi ) khoảng cách fi opj s opj hướng quan điểm hay giá trị quan điểm opi III PHƯƠNG PHÁP ĐỀ XUẤT A Giới thiệu Hình mơ tả mơ hình đề xuất khai phá tổng hợp quan điểm dựa đặc trưng đánh giá sản phẩm tiếng việt Hệ thống thực thi theo pha:(1)Tiền xử lý(2) trích xuất đặc trưng, từ quan điểm, gom nhóm đặc trưng đồng nghĩa (3) Xác định hướng quan điểm (4) Tổng hợp kết Figure Model for Feature-based Opinion Mining and Summarizing in Vietnamese Product Reviews B Pha 1: Tiền xử lý 1) Chuẩn hóa liệu: Khách hàng thường sử dụng từ viết tắt để đánh giá sản phẩm [11] Tại Việt Nam, khách hàng thường sử dụng chữ không dấu để viết đánh giá sản phẩm Vì chúng tơi xây dựng hệ thống gán dấu tự động cho liệu khơng dấu tiếng Việt, dựa mơ hình markowv ẩn thống kê N-Gram, ví dụ,“Chiec camera that tien loi” chuyển thành “Chiếc camera thật tiện lợi” 2) Gán nhãn từ loại: Bởi đặc trưng sản phẩm thường danh từ cụm danh từ, việc gán nhãn từ loại cần thiết Chúng sử dụng công cụ phân đoạn từ tiếng việt [12] để phân đoạn gán nhãn từ loại.Ví dụ: “Các tính nói chung tốt” có phân đoạn gán nhãn từ loại sau “Các /NN | tính năn /Na | nói chung /X | /Cc | tốt/Aa” Tất các phân đoạn từ loại lưu với câu sở liệu C Pha 2: Trích xuất đặc trưng từ quan điểm Pha trích xuất đặc trưng sản phẩm từ quan điểm đánh giá tiếng việt khách hàng Ví dụ, với câu“Tơi thích màu sắc điện thoại này”, “màu sắc(Noun phrase)” đặc trưng; “thích(Verb)” từ quan điểm 1) Trích xuất đặc trưng hiện: Đặc trưng từ đặc trưng xuất trực tiếp đánh giá khách hàng.Ví dụ,“Màn hình cảm ứng Iphone tuyệt”, “màn hình cảm ứng” đặc trưng Mơ đun trích xuất đặc trưng sản phẩm dựa luật cú pháp: toàn thể phận, mẫu “không” luật lan truyền kép 2) Trích xuất từ quan điểm: Việc trích xuất từ quan điểm nói chung trích xuất tính từ động từ, động từ tính từ gần với đặc trưng xuất câu Cùng với từ mức độ cho từ quan điểm từ phủ định (nếu có) Trong trường hợp tính từ nối với dấu “,”, “;” hay liên từ trích xuất tất tính từ cho từ quan điểm.Ngồi module cịn trích xuất trọng từ ví dụ “rất” từ mang nghĩa phủ định “khơng”not 3) Trích xuất đặc trưng ẩn: Đặc trưng ẩn đặc trưng mà từ thể đặc trưng không xuất trực tiếp câu mà thể thong qua từ quan điểm kèm với từ thể đối tượng Trong đánh giá, tồn nhiều đặc trưng ẩn Bước thực nhiệm vụ tìm đặc trưng ẩn câu Để thực task này, tạo từ điển chứa tính từ mà tính từ nhắc đến đối tượng thường đến đặc trưng ẩn Nếu đối tượng nhắc đến với từ quan điểm xuất từ điển suy đặc trưng cho đặc trưng vào tập đặc trưng trích xuất 4) Gom nhóm đặc trưng đồng nghĩa: Chúng tơi sử dung khái niệm [1] Đầu tiên là, thể đặc trưng đặc trưng từ hay cụm từ xuất đánh giá để đại diện cho đặc trưng Thứ hai là, nhóm đặc trưng tên đặc trưng Ví dụ, nhóm đặc trưng có tên “Chất lượng ảnh”picture quality , có nhiều thể hiện, e.g., “ảnh”picture , “hình ảnh”image , chí “Chất lượng ảnh”picture quality Vì người khác sử dụng từ cụm từ khác để diễn đạt đặc trưng, ví dụ, “mẫu mã”style “kiểu dáng”design thuộc nhóm “hình thức”appearence Để pha cuối pha tổng kết kết có ý nghĩa, cần nhóm từ thể đặc trưng vào cụm[1] Phương pháp gom nhóm chúng tơi dựa học bán giám sát SVMkNN [13][1][14] với phương pháp phân cụm HAC để tạo huấn luyện cho SVM-kNN Vì phương pháp đề xuất chúng tơi tự động hồn tồn 5) Xác định đặc trưng thường xuyên: Mục tiêu bước xác định đặc trưng nhiều người nhắc đến đánh giá, nhằm loại bỏ đặc trưng dư thừa trích xuất Để tìm đặc trưng thường xuyên, chúng tơi tính tần suất xuất đặc trưng loại bỏ đặc trưng có tỉ lệ xuất nhỏ ngưỡng cho trước nhằm loại bỏ đặc trưng dư thừa D Pha 3: Xác định hướng quan điểm Định hướng quan điểm khách hàng đặc trưng xác định pha thơng qua bước Bước 1, tính trọng số quan điểm Bước 2, xác định định hướng quan điểm phân chúng vào lớp: tích cực, tiêu cực, trung lập • Tại bước đầu tiên, từ điển ngữ nghĩa tiếng việt VietSentiWordnet khởi tạo từ việc mở rộng từ Sentiwordnet 3.0 Từ điển ban đầu có 977 synset 1179 từ mở rộng theo phương pháp học bán giám sát[15][16] Sau chuẩn hóa tất từ quan điểm, từ điển mở rộng có 9333 synsets 9533 từ Gọi ts trọng số quan điểm đặc trưng đánh giá khách hàng, tsi is the trọng số từ quan điểm thứ i(được xác định wordi ); wi trọng số wordi lấy từ từ điển VietSentiWordnet cách lấy giá trị tích cực trừ giá trị tiêu cực wordi Khi đó, ts xác định bởi: ts = m tsi m số lượng từ quan điểm Trong trường hợp có từ phủ định ví dụ “khơng”not , giá trị tsi = −1 × tsi Trong trường hợp khác, tsi = wi khơng có trọng từ như: rấtvery , ti = h × wi có trọng từ với trọng số h • Tại bước thứ 2, định hướng quan điểm phân vào lớp: tích cực/tiêu cực/trung lập dựa trọng số ts – +0.2 < ts hướng quan điểm tích cực – −0.2 ≤ ts ≤ +0.2 hướng quan điểm trung lập – ts < −0.2 hướng quan điểm tiêu cực E Pha 4: Tổng hợp kết Với đặc trưng trích xuất, câu quan điểm liên quan đặt vào ba lớp tính cực, tiêu cực trung lập dựa theo hướng ngữ nghĩa câu quan điểm Sau đó, hệ thống tính tốn số lượng đánh giá tích cực, tiêu cực trung lập đặc trưng Tất đặc trưng xếp hạng theo tần suất xuất chúng đánh giá ví dụ pha trích tổng hợp quan điểm IV THỰC NGHIỆM Chúng xây dựng hệ thống FOMS miền đánh giá sản phẩm điện thoại Trong chương này, mô tả kết đạt theo thực nghiệm chính: trích xuất đặc trưng thực nghiệm toàn hệ thống Sau hai thực nghiệm này, thi hành bước tổng hợp kết đưa biểu đồ dạng cột A Môi trường liệu thực nghiệm 1) Mơi trường: • • Chip: Intel(R) Core I5(R) @ 2.53GHz Ram: 3.00 GB Figure A summarization output OS: Microsoft Windows • Programming Tool: Java Eclipse SDK 2) Dữ liệu thực nghiệm: Chúng thu thập 743 đánh giá khách hàng 10 sản phẩm điện thoại thông dụngtừ trang web http://www.thegioididong.com Table I đưa thống kê đánh giá sản phẩm • Table I TOTAL OF CRAWLED REVIEWS Product names LG GS290 Cookie Fresh LG Optimums One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung galaxy tab Samsung star s5233w Number of comments 77 45 102 102 61 68 88 79 42 79 B Thực nghiêm trích xuất đặc trưng Sau đó, chúng tơi đánh giá kết đạt từ pha trích xuất đặc trưng thơng qua sử dụng luật cú pháp tiếng việt Table II hiệu mơ hình đề xuất chúng tơi với độ đo F1 10 sản phẩm 80% Table II RESULTS OF FREQUENT PRODUCT FEATURES EXTRACTION (MF: NUMBER OF MANUAL PRODUCT FEATURE; SF: NUMBER OF PRODUCT FEATURES FOUND BY THE SYSTEM; CSF: NUMBER OF CORRECT PRODUCT FEATURES FOUND BY THE SYSTEM ) Product names LG GS290 Cookie Fresh LG Optimums One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung star s5233w Samsung galaxy tab Average MF 18 17 11 22 23 26 22 15 15 15 SF/CSF 19/18 18/16 11/11 23/20 23/21 28/23 24/21 19/14 20/14 16/14 Precision(%) 94.74 88.89 100 86.96 91.30 82.14 87.50 73.68 85.00 87.50 87.06 Recall(%) 100 94.12 100 90.91 91.30 88.46 95.45 93.33 93.33 93.33 93.58 F1 (%) 97.37 91.50 100 88.93 91.30 85.30 91.48 83.51 90.42 88.92 90.32 Table III PRECISION, RECALL AND F1 OF FEATURE-BASED OPINION MINING MODEL ON VIETNAMESE MOBILE PHONES REVIEWS) Product names LG GS290 Cookie Fresh LG Optimums One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung star s5233w Samsung galaxy tab Average Precision(%) 77.12 67.19 70.59 65 71.01 70.25 71.32 68.18 64.18 70.30 69.51 Recall(%) 77.78 55.81 62.07 57 66.22 75 78.23 75.00 71.67 73.89 69.27 F1 (%) 77.45 60.97 66.06 60.74 68.53 72.55 74.62 71.43 67.72 72.05 69.21 C Thực nghiệm toàn hệ thống Với đặc trưng trích xuất từ thực nghiệm trước, đầu tiên, hệ thống trích xuất từ quan điểm kèm với Sau đó, hệ thống tính trọng số quan điểm từ quan điểm Cuối tìm hướng quan điểm đặc trưng Theo table III, độ hồi tưởng tin cậy hệ thống tốt với giá trị 69% Tại bước tổng hợp kết quả, hình đưa tổng hợp kết sản phẩm LG Wink Touch T300 Figure A summarization of LG Wink Touch T300 V KẾT LUẬN Trong luận văn này, chúng tơi trình bay phương pháp xây dựng hệ thống khai pháp quan điểm khách hàng đặc trưng sản phẩm dựa vào luật cú pháp tiếng việt từ điển VietSentiWordNet với đóng góp sau: • Xây dựng chuẩn hóa tiếng việt khơng dấu dựa vào mơ hình markov ẩn thống kê N-gram • Tự động gom nhóm đặc trưng đồng nghĩa dựa vào kết hợp phân cụm HAC phân lớp bán giám sát SVM-kNN • Mở rộng từ điển VietSentiWordnet từ 977 synset lên tới 9333 synset REFERENCES [1] Z Zhai, B Liu, H Xu, and P Jia, “Grouping product features using semi-supervised learning with soft-constraints,” in Proceedings of the 23rd International Conference on Computational Linguistics, ser COLING ’10 Stroudsburg, PA, USA: Association for Computational Linguistics, 2010, pp 1272–1280 [2] L Zhang, B Liu, S H Lim, and E O’Brien-Strain, “Extracting and ranking product features in opinion documents,” in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, ser COLING ’10 Stroudsburg, PA, USA: Association for Computational Linguistics, 2010, pp 1462–1470 [3] T.-T Vu, H.-T Pham, C.-T Luu, and Q.-T Ha, “A feature-based opinion mining model on product reviews in vietnamese,” in Semantic Methods for Knowledge Management and Communication, ser Studies in Computational Intelligence, R Katarzyniak, T.-F Chiu, C.-F Hong, and N Nguyen, Eds Springer Berlin Heidelberg, 2011, vol 381, pp 23–33 [4] Q.-T Ha, T.-T Vu, H.-T Pham, and C.-T Luu, “An upgrading feature-based opinion mining model on vietnamese product reviews,” in Proceedings of the 7th international conference on Active media technology, ser AMT’11 Berlin, Heidelberg: Springer-Verlag, 2011, pp 173–185 [5] G Qiu, B Liu, J Bu, and C Chen, “Opinion word expansion and target extraction through double propagation,” Comput Linguist., vol 37, pp 9–27, 2011 [6] B Liu, “Sentiment analysis and subjectivity,” in Handbook of Natural Language Processing, Second Edition, N Indurkhya and F J Damerau, Eds Boca Raton, FL: CRC Press, Taylor and Francis Group, 2010, iSBN 978-1420085921 [7] M Hu and B Liu, “Mining and summarizing customer reviews,” in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, ser KDD ’04 New York, NY, USA: ACM, 2004, pp 168–177 [8] V Stoyanov and C Cardie, “Topic identification for fine-grained opinion analysis,” in Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, ser COLING ’08 Stroudsburg, PA, USA: Association for Computational Linguistics, 2008, pp 817–824 [9] V Hatzivassiloglou and K R McKeown, “Predicting the semantic orientation of adjectives,” in Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics, ser EACL ’97 Stroudsburg, PA, USA: Association for Computational Linguistics, 1997, pp 174–181 [10] S.-M Kim and E Hovy, “Automatic identification of pro and reasons in online reviews,” in Proceedings of the COLING/ACL on Main conference poster sessions, ser COLING-ACL ’06 Stroudsburg, PA, USA: Association for Computational Linguistics, 2006, pp 483–490 [11] M Thelwall, “Myspace comments,” Online Information Review, vol 33, no 1, pp 58–76, 2009 [12] D D Pham, G B Tran, and S B Pham, “A hybrid approach to vietnamese word segmentation using part of speech tags,” Knowledge and Systems Engineering, International Conference on, vol 0, pp 154–161, 2009 [13] K Li, X Luo, and M Jin, “Semi-supervised learning for svm-knn,” Journal of Computers, vol 5, no 5, pp 671–679, 2010 [14] H Zhang, A C Berg, M Maire, and J Malik, “Svm-knn: Discriminative nearest neighbor classification for visual category recognition,” in CVPR (2), 2006, pp 2126–2136 [15] A Esuli and F Sebastiani, “Sentiwordnet: A publicly available lexical resource for opinion mining,” in In Proceedings of the 5th Conference on Language Resources and Evaluation (LREC’06), 2006, pp 417–422 [16] A Esuli, “Automatic generation of lexical resources for opinion mining: models, algorithms and applications,” SIGIR Forum, vol 42, pp 105–106, November 2008 ... INTRODUCTION Feature- based opinion mining and summarizing(FOMS) of product reviewsis a very interesting and attracting issue in the opinion mining field [1][2][3][4] There are many research have done... words are found Aggregating opinions: This step applies an opinion aggregation function to the resulting opinion scores to determine the final orientation of the opinion on each object feature in. .. Whereas, the feature is redundant features and it is eliminated D Phase 3: Determining the opinion orientation Opinion orientation of each customer on each opinion feature is determined in this