Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 90 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
90
Dung lượng
2,48 MB
Nội dung
I HC QUC GIA THNH PH H CH MINH TRNG I HC KHOA HC T NHIấN HONG TUN KHAI THC í KIN CH QUAN NGI DNG LUN VN THC S NGNH H THNG THễNG TIN Thnh ph H Chớ Minh 2011 I HC QUC GIA THNH PH H CH MINH TRNG I HC KHOA HC T NHIấN HONG TUN KHAI THC í KIN CH QUAN NGI DNG Chuyờn ng n : H THNG THễNG TIN M s: 60.48.05 LUN VN THC S NGI HNG DN KHOA HC: PGS TS Lấ HOI BC T n p H C Min - 2011 LI CM N u tiờn, em xin gi n cỏc Thy Cụ khoa Cụng Ngh Thụng Tin trng i Hc Khoa Hc T Nhiờn li cm n sõu sc Cỏc Thy Cụ ó rt tn tỡnh ch dy, trang b cho em nhng kin thc quý bỏu sut thi gian hc tp, nghiờn cu v thc hin ti cao hc ti trng c bit, em xin chõn thnh cm n i vi PGS.TS Lờ Hoi Bc, ngi luụn quan tõm, tn tỡnh hng dn em quỏ trỡnh hc tp, nghiờn cu v thc hin ti Tụi cng xin gi li cỏm n n nhng ngi thõn, cỏc bn ng nghip ó quan tõm, ng viờn, giỳp v to mi iu kin giỳp tụi hon thnh ti Mc dự ó c gng hon thnh lun phm vi v kh nng cho phộp nhng ti chc chn s khụng trỏnh nhng thiu sút, kớnh mong nhn c s ch bo tn tỡnh ca quý Thy Cụ v cỏc bn Mt ln na, xin chõn thnh cm n v mong luụn nhn c nhng tỡnh cm chõn thnh ca tt c mi ngi TP H Chớ Minh, thỏng nm 2011 i MC LC LI CM N MC LC .i DANH MC CC T KHểA v DANH MC CC BNG vi DANH MC CC HèNH .vii CHNG 1: GII THIU 1.1 BI CNH THC HIN 1.2 BI TON KHAI THC í KIN CH QUAN NGI DNG 1.3 MC TIấU NGHIấN CU 1.4 ểNG GểP CA LUN VN 1.5 CU TRC LUN VN CHNG 2: KHAI THC í KIN 2.1 GII THIU 2.1.1 Phõn lp ch quan 2.1.2 Phõn lp cm ngh 2.2 CC NG DNG CA KHAI THC í KIN 2.2.1 Cỏc trang web phờ bỡnh 2.2.2 H tr cho cỏc h thng khỏc 2.2.3 Thụng tin kinh doanh v chớnh quyn 2.3 PHN LP CH QUAN 10 2.3.1 Phng phỏp tng ng 10 2.3.2 Phõn lp Naùve Bayes 11 2.3.3 Phõn lp Naùve Bayes nhiu lp 12 ii 2.3.4 Phng phỏp rỳt trớch mu 13 2.3.5 Phng phỏp dựng th tỡm Min-cut 13 2.4 PHN LP CM NGH 14 2.4.1 Phõn tớch theo cỏc liờn t gia cỏc tớnh t 15 2.4.2 Phõn tớch theo mi quan h t vng 16 2.4.3 Phõn tớch theo nh ngha chỳ dn 17 2.4.4 Phõn tớch theo thụng tin quan h cỏc im 18 2.4.5 Phõn tớch dựng hm tớnh im 20 2.4.6 Phõn tớch dựng phng phỏp phõn lp 21 2.5 TểM TT í KIN 22 2.5.1 Túm tt thng kờ cú gii hn 22 2.5.2 Túm tt thng kờ khụng gii hn 24 2.6 KHAI THC í KIN TRấN C TRNG 26 2.6.1 Trớch c trng t u im v khuyt im theo dng 1: 29 2.6.2 Trớch c trng t nhng nhn xột theo dng v 29 2.6.3 Phõn lp hng cm ngh 30 CHNG 3: THUT TON KHAI THC í KIN CH QUAN 31 3.1 CC K THUT C S DNG 31 3.1.1 Phõn lp cm ngh vi Naùve Bayesian 33 3.1.1.1 Mụ hỡnh Multinomial 34 3.1.1.2 Mụ hỡnh Bernoulli 36 3.1.2 Phõn lp cm ngh vi Support Vector Machine 38 3.1.3 B lc ch quan Naùve Bayes 41 3.1.4 B lc ch quan Lỏt ct cc tiu 41 3.1.4.1 nh lý lung cc i lỏt ct cc tiu 42 3.1.4.2 Thut toỏn Ford-Fulkerson 43 iii 3.1.4.3 ng dng b lc ch quan 45 3.1.5 Chn lc c trng 48 3.1.5.1 Information Gain (IG) 49 3.1.5.2 Document Frequency (DF) 49 3.1.5.3 Statistics (CHI) 50 3.1.5.4 Mutual Information (MI) 51 3.1.6 Tin x lý bn 52 3.1.6.1 Tỏch cõu 52 3.1.6.2 Tỏch t 53 3.1.6.3 Loi b t tm thng 53 3.2 THUT TON XUT 54 3.2.1 xut mụ hỡnh thut toỏn khai thỏc ý kin ch quan 54 3.2.2 Mụ t thut toỏn khai thỏc ý kin ch quan 54 3.3 CHNG TRèNH CI T 57 3.3.1 Gii thiu chng trỡnh 57 3.3.2 Cỏc chc nng chớnh ca chng trỡnh 57 3.3.2.1 Chc nng khai thỏc ý kin ch quan 57 3.3.2.2 Chc nng lc ch quan cho d liu hun luyn cm ngh 58 3.3.2.3 Chc nng th nghim ỏnh giỏ kt qu 58 3.3.3 Cu hỡnh h thng 58 CHNG 4: TH NGHIM V NH GI 59 4.1 B D LIU TH NGHIM 59 4.1.1 B d liu hun luyn phõn lp cm ngh 59 4.1.2 B d liu hun luyn phõn lp ch quan 59 4.1.3 Cụng thc ỏnh giỏ 60 4.2 KT QU TH NGHIM 61 iv 4.2.1 Th nghim cỏc thut toỏn phõn lp vi cỏc b d liu 62 4.2.2 Th nghim vi chn lc c trng 64 4.2.3 So sỏnh vi cỏc bi bỏo khỏc 66 CHNG 5: KT LUN V HNG PHT TRIN 68 5.1 KT LUN 68 5.2 HNG PHT TRIN 69 TI LIU THAM KHO 70 PH LC 74 PH LC A: CHNG TRèNH TH NGHIM 74 PH LC B: DANH MC B D LIU CM NGH 76 v DANH MC CC T KHểA Opinion mining: khai thỏc ý kin Sentiment analysis: phõn tớch cm ngh (khen/chờ, tớch cc/tiờu cc) Subjective analysis: phõn tớch ch quan/khỏch quan Sentiment orientation: hng tỡnh cm (mc t, mc cõu, mc ti liu) Polarity: phõn cc (phõn theo khen hoc chờ) Stop word: t cú tn s cao nhng khụng cú ý ngha nhiu phõn lp Stem word: a v t nguyờn th Part of Speech (POS): phõn tớch t loi (tớnh t, danh t, ng t, trng t,) Unigram: t n Bigram: cm hai t Trigram: cm ba t Feature: c trng Frequency: tn sut ca t Presence: s hin din t vi DANH MC CC BNG Bng 3-1 Kt qu chi phớ vi {Y,M} cú chi phớ nh nht .46 Bng 4-1 Kt qu th nghim phõn lp cm ngh 62 Bng 4-2 Bng o thi gian hun luyn 63 Bng 4-3 Kt qu chớnh xỏc vi cỏc ngng IG khỏc .64 vii DANH MC CC HèNH Hỡnh 2-1 Mn hỡnh ca h thng Pulse [8] .23 Hỡnh 2-2 Mn hỡnh ca h thng túm tt tng tỏc [3] 24 Hỡnh 2-3 Mn hỡnh h thng ca Liu v cng s [13] .25 Hỡnh 2-4 Mn hỡnh h thng ca Morinaga v cng s [16] 26 Hỡnh 3-1 Mụ hỡnh khai thỏc ý kin ch quan 32 Hỡnh 3-2 Mt siờu phng tỏch cỏc mu dng cỏc mu õm 38 Hỡnh 3-3 Vớ d s mng G(V,E) 43 Hỡnh 3-4 Thut toỏn Ford-Fulkerson vi lung cc i/lỏt ct cc tiu 45 Hỡnh 3-5 Mụ hỡnh th hin phõn lp ba nỳt .46 Hỡnh 3-6 Mụ hỡnh thut toỏn khai thỏc ý kin ch quan 54 Hỡnh 4-1 Biu so sỏnh chớnh xỏc (accuracy) cỏc trng hp 62 Hỡnh 4-2 Biu so sỏnh chớnh xỏc vi Information Gain 64 Hỡnh 4-3 Biu so sỏnh chớnh xỏc ca lun vi cỏc thut toỏn khỏc 66 66 4.2.3 So sỏn vi cỏc b i bỏo k ỏc Lun so sỏnh kt qu ca lun vi cỏc bi bỏo khỏc u ỏnh giỏ cựng b d liu ca Bo Pang v Lillian Lee [20] 100.00% 95.00% 91.00% 90.00% 87.15% 87.20% O'Keefe & Koprinska [18] Pang & Lee [20] 87.30% 87.45% Konig & Brill Prabowo & [12] Thelwall [22] Lun 86.00% 85.00% 80.00% 75.00% 70.00% Mullen & Collier [17] Hỡnh 4-3 Biu so sỏnh chớnh xỏc ca lun vi cỏc thut toỏn khỏc N n xột so sỏnh: Thut toỏn mi ca lun cú chớnh xỏc l 87.45% ch thua chớnh xỏc 91% ca thut toỏn ca bi bỏo Konig v Brill [12], cũn li kt qu tt hn so vi cỏc bi bỏo khỏc Lý phng phỏp ca Konig v Brill [12] cao hn l s dng hai b phõn lp cm ngh l SVM v k thut so khp mu (pattern matching), phng phỏp ny cú chi phớ mc v ũi hi s can thip ca ngi vo 67 Phng phỏp ca lun cú x lý thờm trng hp lc cõu ch quan mt bi phờ bỡnh loi b i nhng cõu khỏch quan khụng cú ý ngha phõn lp cm ngh iu ny khụng cú bi bỏo Konig v Brill [12] So vi cỏc phng phỏp trờn, lun cú b sung thờm x lý chn lc c trng IG cho nờn ó lm gim s chiu vector mt cỏch ỏng k v cho kt qu khỏ tt O'Keefe v Koprinska [18] a cỏch lc c trng khỏc da vo SentiWordNet ca Esculi v Sebastiani [6] cú kt qu l 87.15% thp hn so vi lun 68 CHNG 5: KT LUN V HNG PHT TRIN 5.1 KT LUN Lun ó phỏt trin thnh cụng ng dng khai thỏc ý kin ch quan ngi dựng theo quy trỡnh sau: (1) i vi mt bi phờ bỡnh a vo, lun s ỏnh nhón cỏc cõu bi phờ bỡnh nh l nhng cõu ch quan hay khỏch quan v loi b i nhng cõu khỏch quan khụng mang nhiu ý ngha phõn lp; (2) Sau ú, lun ỏp dng thut toỏn SVM thc hin phõn lp cm ngh trờn bi phờ bỡnh ch gm nhng cõu ch quan Phng phỏp ny giỳp ngn chn vic khai thỏc ý kin trờn nhng cõu khỏch quan cú th dn ti ỏnh giỏ sai kt qu Kt qu th nghim cho thy phõn lp cm ngh trờn bi phờ bỡnh ó lc ch quan tt hn so vi bi phờ bỡnh khụng lc Lun cng ó a phng phỏp chn lc c trng giỳp gim s chiu vector c trng, ú lm tng tc tớnh toỏn v ci thin chớnh xỏc iu m cỏc phng phỏp trc ó b qua Thut toỏn mi ca lun cú chớnh xỏc l 87.45% ch thua chớnh xỏc 91% ca thut toỏn ca bi bỏo Konig v Brill [12] nhng tt hn so vi cỏc bi bỏo khỏc Tuy nhiờn, phng phỏp lun cú mt cha c gii quyt nh l cõu cú cha t not thỡ ý ngha ca cõu s theo ngha ngc li Nhiu ti liu b phõn lp sai mt phn vỡ cỏch vit ca ngi ỏnh giỏ Vớ d: ngi ỏnh giỏ thnh thong a mt danh sỏch nhng iu m h khụng thớch v mt b phim v ri h li kt lun l thớch nú mc dự tt c nhng iu liờn quan trc ú l khụng thớch i vi ngi thỡ iu ny cú th d dng hiu c nhng thut toỏn m lun s dng thỡ ny cha x lý c õy cng chớnh l mt nhng lm cho cụng vic phõn lp cm ngh khú hn phõn lp theo ch 69 5.2 HNG PHT TRIN Thut toỏn ca lun cho kt qu khỏ tt, vy lun nhn thy cũn mt vi khỏc cn c nghiờn cu thờm ú l ci thin b phõn lp ch quan cng nh phõn lp cm ngh bng cỏch a thờm x lý cu trỳc cõu v tớch hp phõn lp ch vo gii quyt s nhp nhng ngha Ngoi ra, tng lai cú th s phỏt trin h thng Khai thỏc ý kin trờn ngụn ng ting Vit da vo phng phỏp m lun a nu chỳng ta cú b d liu hun luyn chun bng ting Vit thỡ vic ng dng khai thỏc ý kin hn s rt kh thi, cú tim nng phỏt trin ln 70 TI LIU THAM KHO Ting Vit [1] Phm Ngc Vit Phng (2008), Khai thỏc ý kin ngi dựng, Lun Thc s, H Khoa hc T nhiờn Tp.HCM [2] Lờ Th Ngc Tho (2009), Khai thỏc c trng ý kin khỏch hng, Lun Thc s, H Khoa hc T nhiờn Tp.HCM Ting An [3] Carenini G., Raymond T Ng, and Pauls A (2006), Interactive multimedia summaries of evaluative text, in Proceedings of Intelligent User Interfaces (IUI), pages 124131 ACM Press [4] Dave K., Lawrence S., and Pennock D M (2003), Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews, in Proceedings of WWW, pages 519528 [5] Ding X., Liu B., and Yu P S (2008), A holistic lexicon-based approach to opinion mining, in Proceedings of the Conference on Web Search and Web Data Mining (WSDM) [6] Esuli A and Sebastiani F (2006), Determining term subjectivity and term orientation for opinion mining, in Proceedings of the European Chapter of the Association for Computational Linguistics (EACL) [7] Ford L R and Fulkerson D R (1956), Maximal flow through a network, in Canadian Journal of Mathematics, 8:399-404 [8] Gamon M., Anthony Aue, Simon Corston-Oliver, and Eric Ringger (2005), Pulse: Mining customer opinions from free text, in Proceedings of the International Symposium on Intelligent Data Analysis (IDA), number 3646 in Lecture Notes in Computer Science, pages 121132 71 [9] Hatzivassiloglou V and McKeown K (1997), Predicting the Semantic Orientation of Adjectives, in Proceedings of the Joint ACL/EACL Conference, papes 174-181 [10] Hu M and Liu B (2004), Mining and summarizing customer reviews, in Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), pages 168177 [11] Joachims T (1998), Text categorization with Support Vector Machines: Learning with many relevant features, in Proc of the European Conference on Machine Learning (ECML), pages 137142 [12] Kửnig A and Brill E (2006), Reducing the Human Overhead in Text Categorization, in Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) [13] Liu B., Hu M., and Cheng J (2005), Opinion Observer: Analyzing and Comparing Opinions on the Web, in Proceedings of WWW [14] Liu B (2010), Sentiment Analysis and Subjectivity, in Handbook of Natural Language Processing, Vol 2nd ed [15] McCallum A and Nigam K (1998), "A comparison of event models for Naive Bayes text classification", in Proc of the AAAI-98 Workshop on Learning for Text Categorization, pages 4148 [16] Morinaga S., Yamanishi K., Tateishi K., and Fukushima T (2002), Mining product reputations on the web, in Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), pages 341349 [17] Mullen T and Collier N (2004), Sentiment Analysis using Support Vector Machines with Diverse Information Sources, in Proc of Conference on Empirical Methods in Natural Language Processing (EMNLP04) 72 [18] O'Keefe T and Koprinska I (2009), Feature selection and weighting methods in sentiment analysis, in Proceedings of the Fourteenth Australasian Document Computing Symposium (ADCS09) [19] Pang B., Lee L., and Vaithyanathan S (2002), Thumbs up? Sentiment Classification Using Machine Learning Techniques, in Proc of Conference on Empirical Methods in Natural Language Processing (EMNLP02) [20] Pang B and Lee L (2004), A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts, in Proceedings of the Association for Computational Linguistics (ACL), pages 271278 [21] Pang B and Lee L (2008), Opinion mining and sentiment analysis, Foundations and Trends in Information Retrieval 2(1-2), pp 1135 [22] Prabowo R and Thelwal M (2009), Sentiment analysis: a combined approach, in Journal of Informetrics [23] Riloff E., Wiebe J., and Wilson T (2003) Learning subjective nouns using extraction pattern bootstrapping, in Walter Daelemans and Miles Osborne, editors, Proceedings of CONLL-03, 7th Conference on Natural Language Learning, pages 2532, Edmonton, CA [24] Su F and Markert K (2009), Subjectivity recognition on word senses via semi-supervised mincuts, in Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL '09) [25] Tang H., Tan S., and Cheng X (2009), A survey on sentiment detection of reviews, Expert Systems with Applications, Vol 36, No 7, pages 1076010773 [26] Turney P D., and Littman M L (2002), Unsupervised learning of semantic orientation from a hundred-billion-word corpus, Technical Report ERB-1094 National Research Council Canada, Institute for Information Technology 73 [27] Turney P D., and Littman M L (2003), Measuring praise and criticism: Inference of semantic orientation from association ACM Transactions on Information Systems (TOIS), 21(4), 315346 [28] Yang C C., Tang X., Wong Y C., and Wei C (2010), Understanding Online Consumer Review Opinions with Sentiment Analysis using Machine Learning Pacific Asia Journal of the Association for Information Systems, vol.2, no.3 [29] Yang Y and Pederson J O (1997), A Comparative Study on Feature Selection in Text Categorization In Proceedings of ICML-97, 14th International Conference on Machine Learning [30] Yu H and Hatzivassiloglou V (2003), Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences, in Proc Of Intl Conf on Empirical Methods for Natural Language Processing (EMNLP03) 74 PH LC PH LC A: CHNG TRèNH TH NGHIM M n ỡn c ớn ca c ng trỡn SOAnalysis M n ỡn a kt qu p õn tớc cm ng bng t ut toỏn SVM 75 Mn hỡnh a lc cỏc cõu c quan c o b d liu cm ng Mn hỡnh a t ng im cỏc kt qu p õn lp cm ng khỏc 76 PH LC B: DANH MC B D LIU CM NGH Blog06 [Yờu cu ng ký v tr tin] i hc Glasgow phõn phi b kim tra TREC ny vi dung lng 148GB B d liu gm cỏc bi blog vit v mt s lnh vc nht nh Thụng tin truy cp cú ti a ch http://ir.dcs.gla.ac.uk/test_collections/access_to_data.html Trong s d liu ny cú cỏc top blogs Nielsen BuzzMetrics v c i hc Amsterdam h tr Ngoi ra, cú mt s blog rỏc (spam blog) hay cũn gi l splogs c a vo kho ti liu nhm mc ớch to d liu ging thc t hn Vic ỏnh giỏ bao gm kim tra thớch hp v nhón m bo cỏc bi vit cha nhng ý kin thớch hp v chiu hng c th ca cỏc ý kin (tớch cc, tiờu cc hoc cú c 2) Macdonald v Ounis cng a chi tit hn v vic to kho ti liu v cỏc c trng ca b ti liu; cú c so sỏnh vi mt b ti liu v blog khỏc l b d liu BlogPulse (thụng tin liờn lc v iu khon s dng cú th tỡm thy ti a ch http://www.blogpulse.com/www2006-workshop/datashare-agreement.pdf, nhng cú th khụng c cp nht) Bn tran lun quc i URL: http://www.cs.cornell.edu/home/llee/data/convote.html B d liu ny c Thomas v cng s gii thiu bao gm cỏc bi phỏt biu di dng nhng ti liu riờng r kốm theo: Cỏc nhón c suy t ng bit ngi phỏt biu ng h hay phn i o lut cú bi phỏt biu ú T ú cú th thc hin nhiu th nghim vi dng phõn tớch cm ngh ny Vic xỏc nh nhng ngi phỏt biu bng i chiu tờn cho phộp thc nghim v lp tỏn ng hoc phn i 77 Trng s cỏc cung ni v nhng thụng tin khỏc cú c t vic to th nh Thomas v cng s giỳp ta th nghim nhng phng phỏp hng th trờn cỏc th c to t cỏc cụng trỡnh cú t trc B d liu p bỡn p im Cornell URL: http://www.cs.cornell.edu/people/pabo/movie-review-data/ Nhng d liu ny c Pang v Lee gii thiu gm nhng b d liu sau (cú luụn cỏc nhón c gỏn t ng) B d liu hng tỡnh cm: o Cp ti liu: b d liu hng tỡnh cm v2.0: 1000 bi phờ bỡnh tớch cc v 1000 bi phờ bỡnh tiờu cc (u ó c x lý) o Cp cõu: b d liu hng tỡnh cm cp cõu v1.0: 5331 mu cõu tớch cc v 5331 mu cõu tiờu cc B d liu o mc cm ngha: b d liu o v1.0, mt b ti liu cú cỏc nhón t o xp hng B d liu ch quan v1.0: 5000 mu cõu ch quan v 5000 mu cõu khỏch quan Cỏc b d liu hng tỡnh cm (polarity-based dataset) khụng núi rừ tỏc gi tin rng nhng bi phờ bỡnh c xp hng trung bỡnh l khụng ỏng k xem xột thc t (thc thỡ b d liu o mc cm ngh cú cha nhng ti liu trung bỡnh ny) C s to b d liu hng tỡnh cm ny l nh Vo thi im kho ti liu bt u c to ra, vic ỏp dng cỏc k thut mỏy hc vo phõn lp cm ngh cũn rt mi v quan im lỳc ú l nhng k thut ú khú lũng gii quyt c bi toỏn ny Vỡ vy, kho ti liu ny c xõy dng cho cng d ỏp dng cỏc k thut phõn loi bn cng tt: cỏc bn thuc nhúm (2 nhúm ny phi tỏch bit rừ rng) v thuc vo cỏc nhúm cú kớch thc tng ng í tng l dựng kho ti liu ny nh l mt thu kớnh nghiờn cu nhng khú khn ca 78 bi toỏn phõn loi hng tỡnh cm so sỏnh vi bi toỏn phõn loi chun da vo ch Danh sỏch cỏc bi bỏo s dng hoc bỏo cỏo hiu qu dựng b d liu ỏnh giỏ phim Cornell cú th xem ti http://www.cs.cornell.edu/people/pabo/movie-reviewdata/otherexperiments.html B d liu ỏn giỏ k ỏc ng URL: http://www.cs.uic.edu/~liub/FBS/CustomerReviewData.zip B d liu ny Hu v Liu gii thiu cú cỏc bi ỏnh giỏ v sn phm in t c ly t Amazon v Cnet Cỏc cõu ú c ỏnh du th cụng l cú cha ý kin hay khụng, nu cú thỡ c trng cú mt danh sỏch cú sn s c ỏnh giỏ Mt phiờn bn mi gm sn phm cng cú ti a ch (http://www.cs.uic.edu/~liub/FBS/Reviews-9-products.rar) Tỏc gi cng a b d liu gm cỏc cõu so sỏnh nhng cn email yờu cu mi ly c EconoMining URL: http://economining.stern.nyu.edu/datasets.html Trang ny c t ti Stern School i hc New York gm d liu: Cỏc giao dch v giỏ tin bo him (s dng bi bỏo ACL 2007) Bi phn hi nhn xột ngi bỏn www.amazon.com (s dng bi bỏo ACL 2007) im cm ngh c tớnh t ng cho cỏc cm t ỏnh giỏ ph bin ti trang www.amazon.com Cỏc cõu ting P ỏp URL: http://www.psor.ucl.ac.be/personal/yb/Resources.html Do Bestge v cng s a B d liu ny gm 702 cõu t mt bi bỏo ting BPhỏp, cú nhón c gỏn theo 10 loi t khụng hi lũng cho n hi lũng vi ni dung trỡnh by (thang im 7) 79 K o t i liu MPQA (Multi-Perspective Question Answering) URL: http://www.cs.pitt.edu/mpqa/databaserelease Kho ti liu ý kin MPQA (MPQA Opinion Corpus) gm 535 bi bỏo thi s t nhiu ngun bỏo khỏc Chỳng c ỏnh du th cụng mc cõu v thnh phn ca cõu v cỏc ý kin v trng thỏi cỏ nhõn (nh nim tin, cm xỳc, cm ngh, ).Wiebe v cỏc cng s cú mụ t mt chin lc ỏnh du tng quỏt; Wilson v cỏc cng s cú mụ t cỏc ỏnh du hng tỡnh cm theo ng cnh v mt nghiờn cu tng ng B i p bỡn k ỏc sn v n iu mt URL: http://people.csail.mit.edu/bsnyder/naacl07 Snyder v Barzilay ó gii thiu kho d liu ny gm 4.488 bi phờ bỡnh dng bn thụ hoc mu vector c trng Mi bi phờ bỡnh cú mt xp hng rừ rng t n cho lnh vc khỏc nhau: thc phm, mụi trng sng, dch v, giỏ tr v tri nghim tng quỏt im chung ca tt c cỏc mt l cú nhiu im Mó chng trỡnh c dựng ca Snyder v Barzilay cú a ch phớa trờn Ngun gc ca cỏc bi phỏt biu ny l http://www.we8there.com B d liu cm ng a ln vc URL: http://www.cis.upenn.edu/~mdredze/datasets/sentiment/ B d liu ny c Blitzer v cỏc cng s gii thiu gm cỏc bi phờ bỡnh sn phm t nhiu loi sn phm khỏc trờn amzon Mt s cú nhón n sao, mt s li khụng cú nhón K o t i liu a ngụn ng NTCIR [Yờu cu ng ký] Kho ti liu cho NTCIR thc hin gm nhng bi bỏo thi s bng ting Anh, Nht v Trung Quc Nn tng ca Opinion Analysis Task cng c to nờn ti NTCIR6 D liu hun luyn cha cỏc ỏnh du theo ngi vit ý kin, ý kin ca 80 tng ngi vit v hng tỡnh cm cng nh thụng tin liờn quan cho mt ch cú trc Kho ti liu ca Tỏc c phõn tớch ý kin a ng (Multilingual Opinion Analysis Task - MOAT) NTCIR c ly t cỏc blog ting Anh, Nht v Trung Quc Tp kt qu tỡm kim b i p bỡnh URL: http://www.cs.cornell.edu/home/lee/data/search-subj.html Kho ti liu ny c Pang v Lee dựng gm 20 kt qu u tiờn mỏy tỡm Yahoo! Cho mi ln tỡm 69 cõu truy cú cha t review Cỏc cõu truy ly cỏc danh sỏch cõu truy cú sn danh sỏch ca ngi dựng MSN a cuc thi 2005 KDD Cup Bn thõn d liu KDD cú ti http://www.acm.org/sigs/sigkdd/kdd2005/Labeled800Queries.zip Kt qu tỡm kim kho ti liu c ỏnh du phõn bit cỏc kt qu ny cú phi l ch quan hay khụng [...]... chính gồm những chƣơng nhƣ sau: C ƣơng 1: Giới thiệu tổng quan về khai thác ý kiến, sơ lƣợc về lịch sử, các ứng dụng và bài tốn khai thác ý kiến chủ quan ngƣời dùng 4 C ƣơng 2: Giới thiệu những góc nhìn khác nhau về khai thác ý kiến nhƣ phân lớp chủ quan, phân lớp cảm nghĩ, câu so sánh và khai thác mối liên hệ, tóm tắt ý kiến, khai thác ý kiến dựa trên đặc trƣng Định nghĩa bài tốn một cách cụ thể,... TỐN KHAI THÁC Ý KIẾN CHỦ QUAN NGƢỜI DÙNG Đã có nhiều nghiên cứu và thuật tốn khai thác ý kiến đƣa ra, tuy kết quả khá tốt nhƣng luận văn nhận thấy rằng đối với bài tốn khai thác ý kiến sẽ có những vấn đề cần giải quyết sau (1) Xác địn câu c ủ quan trong b i p ê bìn : một bài phê bình sẽ gồm nhiều câu câu khách quan và câu chủ quan Câu khách quan là chỉ nói lên một sự việc (sự thật) thơng tin xung quanh... nghiên cứu về khai thác ý kiến phân loại theo từng hƣớng nghiên cứu Theo nghiên cứu của luận văn thì khai thác ý kiến có thể đƣợc phân loại thành 4 hƣớng nghiên cứu chính cơ bản nhất: 1) P ân lớp c ủ quan: dùng để xác định ý chủ quan hay khách quan; 2) P ân lớp cảm ng ĩ: xác định ý kiến là khen hay chê; 3) Tóm tắt ý kiến: rút gọn nội dung bài đánh giá thành các tóm tắt thống kê; 4) K ai t ác ý kiến trên... lớp c ủ quan Khái niệm chủ quan trong ngơn ngữ tự nhiên đề cập đến khía cạnh của ngơn ngữ đƣợc dùng để bày tỏ ý kiến và đánh giá Phân lớp chủ quan đƣợc phát biểu nhƣ sau: cho S s1 , s2 , , sn là một tập các câu trong tài liệu D Bài tốn phân lớp chủ quan là phân biệt những câu đƣợc dùng để trình bày quan điểm và các dạng khác của chủ quan (tập những câu chủ quan S S ) từ những câu đƣợc dùng để... trình nổi bật trong khai thác ý kiến cũng nhƣ phân tích chủ quan Luận văn sẽ kiểm nghiệm thực tế các phƣơng pháp đƣợc tìm hiểu qua việc xây dựng một hệ thống khai thác ý kiến chủ quan ngƣời dùng trên một lĩnh vực cụ thể đó là đánh giá bài phê bình phim ảnh Dựa trên các kết quả nghiên cứu đƣợc, luận văn sẽ đƣa ra phƣơng pháp áp dụng phân lớp văn bản để xác định cảm nghĩ trên nội dung chủ quan của một bài... dung chủ quan bài phê bình sẽ dựa vào phƣơng pháp tìm lát cắt cực tiểu trong đồ thị nhằm xác định sự ràng buộc giữa các câu trong bài phê bình Ngồi ra, luận văn cũng áp dụng phƣơng pháp chọn lọc đặc trƣng vào khai thác ý kiến nhằm giảm số lƣợng đặc trƣng giúp cho việc khai thác hiệu quả hơn và nhanh hơn 1.4 ĐĨNG GĨP CỦA LUẬN VĂN Luận văn đề xuất một phƣơng pháp khai thác ý kiến chủ quan ngƣời dùng. .. ý cảm nghĩ nhƣng ở mức chi tiết hơn đó xác định khen hay chê trên đặc trƣng nào chứ khơng hẳn chỉ là mức câu hay mức tài liệu Còn về thuật ngữ khai thác ý kiến, khi đọc các tài liệu về khai thác ý kiến, các từ nhƣ ý kiến (opinion), cảm nghĩ (sentiment) và chủ quan (subjective) xuất hiện thƣờng xun trong văn bản Những cơng trình trong lĩnh vực này có tên gọi thƣờng gắn liền với các cụm từ nhƣ khai thác. .. những kết quả nghiên cứu của mình và có những đóng góp nhƣ sau: Nghiên cứu tổng quan lĩnh vực khai thác ý kiến ngƣời dùng Tìm hiểu các phƣơng pháp phân tích chủ quan Tìm hiểu các phƣơng pháp phân tích cảm nghĩ Tìm hiểu các phƣơng pháp chọn lọc đặc trƣng Xây dựng một hệ thống khai thác ý kiến chủ quan ngƣời dùng trong một lĩnh vực cụ thể đó là lĩnh vực phim ảnh 1.5 CẤU TRÚC LUẬN VĂN Bố cục... phân lớp bằng luật kết hợp trong việc khai thác ý kiến cảm nghĩ theo đặc trƣng sản phẩm là máy quay phim 22 2.5 TĨM TẮT Ý KIẾN Sau khi khai thác ý kiến, việc tổng hợp và biểu diễn thơng tin cảm nghĩ lấy đƣợc từ những tài liệu hoặc bộ tài liệu là cơng việc rất quan trọng Có thể chia việc tóm tắt ý kiến thành 2 loại: 2.5.1 Tóm tắt t ống kê có giới ạn Chúng tơi dùng thuật ngữ có giới hạn để chỉ các tóm... kết quả thử nghiệm C ƣơng 5: Kết luận và hƣớng phát triển Phần P ụ lục sẽ trình bày giao diện chƣơng trình cài đặt và giới thiệu các nguồn dữ liệu thử nghiệm liên quan đến khai thác ý kiến 5 CHƯƠNG 2: KHAI THÁC Ý KIẾN Lĩnh vực khai thác ý kiến đang trở thành một trong những hƣớng nghiên cứu đầy hứa hẹn Đã có rất nhiều bài báo và các ứng dụng đƣợc đƣa ra, để có một cái nhìn tổng thể về lĩnh vực này,