Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
460,21 KB
Nội dung
I H C QU C GIA TP HCM I H C BÁCH KHOA - TR N MINH HÙNG RÚT TRÍCH, PHÂN LO I VÀ T NG H P THÔNG TIN T CÁC PH N H I TRÊN M NG XÃ H I Chuyên ngành : KHOA H C MÁY TÍNH Mã s : 60 48 01 LU TP H CHÍ MI C HOÀN THÀNH T I I H C BÁCH KHOA - Cán b - HCM ng d n khoa h c: PGS TS Qu Cán b ch m nh n xét 1: TS Nguy ng Cán b ch m nh n xét 2: TS Lê Thanh Vân Lu ngày 23 tháng 07 cb ov t i h c Bách 2013 Thành ph n H m: Ch t ch: TS Ph m Tr Ng c Châu Ph n bi n 1: TS Nguy ng Ph n bi n 2: TS Lê Thanh Vân y viên: TS Tr Xác nh n c a Ch t ch H ngành sau lu CH T CH H ng Khoa qu n lý chuyên c s a ch a (n u có) NG NG KHOA ii T NAM - - MSHV: 10070481 23/02/1987 Chuyên ngành: Kho : 60 48 01 I II áp -domain III NGÀY GIAO NHI : 02/07/2012 IV V CÁN : 30/11/2012 : 13 iii Tôi xin chân thành c cô gi ng d ih cc bi t c d n, truy th ng d n, ch d t n tình c a th y i h c Bách khoa thành ph H Chí Minh y PGS TS , i ng t nh ng ki n th c kinh nghi ki n hoàn thành lu Và xin c m n bè nh ng truy n thêm ngh l c cho trình h c t p, nghiên c u c a b n thân M g ng r t nhi u vi c th c hi n lu h n, nên không th tránh kh i nh ng thi u sót, cs i th i gian có nh, r t mong nh n n c a quý Th y Cô b n H c viên Tr n Minh Hùng x V i s phát tri n c a m ng xã h i, ngày nhi ki n i tham gia chia s ý a h v nh ng s n ph m d ch v mà h d ng Các ph n h i cung c p nhi u thông tin h u ích, giúp quy t nh mua s m công ty c i thi n s n ph m c a h Vi c rút trích thơng tin h u ích t v ng ph n h i l n không ph i m t i r t nhi u th i gian công s nhi ng nghiên c Nhi u b phân l này, t s c phát tri c c Tuy nhiên, c u gi i quy t v phân lo i m t ph n h i tích c c hay tiêu c th hi n khác mi n d li u khác nhau; xác c a vi c phân lo i Các b phân l p m xác áp d ng v i nh ng mi n d li u khác v i mi n hu n luy n M c tiêu c a lu xây d ng m t b phân l p có th ho ng t t mi n d li u khác ASTRACT With the growth of social networks, more and more people take part and share their comments and reviews about products and services they used These comments provide useful information, helping consumers make shopping decisions and companies improve their products But the amount of these comments is so big that extracting useful information from them is not easy, require a lot of time and effort As a result, many research directions have been proposed, one of them is Sentiment Analysis Many classifiers have been developed to classify a comment as either positive or negative However, sentiment is expressed differently in different domains, which affect the accuracy of sentiment classification Trained classifiers lose accuracy when used on domains different from the training domain The aim of this thesis is to develop a classifier which can perform well on different domains xi ng trình nghiên c u c a tơi Các s li u, k t qu nêu lu n án trung th c, khách quan c công b b t k m t cơng trình khác H c viên Tr n Minh Hùng xii NHI M V LU L IC iii x TÓM T T xi L xii M C L C xiii I THI U 1.1 Lý ch tài: 1.2 M c tiêu gi i h n c 1.3 tài: tài: NG QUAN 2.1 n theo c m xúc 2.2 V 2.3 Domain Adaptation 2.4 c ý g ng ti p c n c -domain classification tài 11 LÝ THUY T 13 3.1 Support Vector Machine (SVM) 13 3.2 Ti n x n 15 3.3 Bi n Vector Space Model 16 3.4 DeltaTFIDF 18 3.5 t qu phân lo i 19 T K VÀ HI N TH 4.1 4.2 21 xu t: 21 Thi t k hi n th 23 C NGHI M 27 5.1 T p d li u: 27 5.2 K t qu thí nghi m 28 5.3 Nh n xét: 29 T LU N 30 TÀI LI U THAM KH O 31 xiii 1.1 Lý ch tài: Các ph n h i, bình lu n c chia s b i dùng trang m ng xã h i m t ngu n d li u phong phú, cung c p nhi u thơng tin h u ích v c a s n ph m, d ch v mà h nh vào vi c quy m d ng Các thơng tin góp ph n khơng nh mua s m c i tiêu dù nhà s n su t ng phát tri n, c i ti n s n ph m Tuy nhiên, v i s phát tri n ngày m nh c a m ng xã h i, s ph n h ng c chia s ngày nhi u, vi c rút trích thơng tin h u ích m t v n nhi u th i gian công s c gi i quy t v s này, nhi u ng nghiên c u m Sentiment Classification (phân lo b n theo c m xúc m ng h c phân lo i d t n theo c m xúc) Phân lo c bi t c a toán phân lo ng c m xúc c a chúng n, ng phân lo i ng câu bình lu n, ph n h i m ng xã h i ho c m t s n ph m, d ch v c phân lo i làm hai l p tích c c tiêu c c M t nh ng thách th c c n gi i quy t c m xúc v c phân lo Domain Dependence (ph thu c mi n) Các b phân l xây d ng ch c k t qu phân lo i t t mi n d li áp d ng sang mi n d li u khác k t qu Nguyên nhân có nh ng t ch xu t hi n delicious i hi b phân l tr ng s n theo c c hu n luy n, xác r t th p m t s mi n d li u nh nh, ví d th hi n c m xúc tích c c s d ng nh n xét v ym t c hu n luy n t p d li u nh n xét v sách s khơng có ch cv t delicious dùng b phân l phân lo i nh n xét v Ngồi ra, x ng tình c m c a m t s t có th c s d ng Ví d , t unpredictable i tùy theo ng c nh mà c nói v kh n hành n nh c a m t chi c xe Hi n vi c xây d ng m t b phân l p có kh nhi u mi n khác m t v 1.2 c quan tâm gi i quy t M c tiêu gi i h n c M c tiêu c i t t d li u thu c tài: tài nghiên c u hi n th c m t b phân l p có th phân lo i hi u qu ph n h i thu c nhi u mi n d li u khác nhau, s d ng k thu t nh n d ng t khoá phân lo c l p mi n (domain-independent keywords) tài ch t p trung x lý ph n h i b ng ngôn ng ti xu ng d c y u t c a m ng xã h xác c a b phân l p 1.3 tài: V im k t qu Xây d c, nh tài mang l i là: c b phân l p cho d li u thu c nhi u mi n d li xác c a b phân l i m t s cơng trình nghiên c u khác Tìm hi u áp d ng k thu t nh n d ng t khoá phân lo (domain-independent keywords) d a tr ng s thành công t Góp ph n ch phát hi n n theo c m xúc cho k t qu i tr ng s TFIDF c vi c k t h p thêm thông tin v c m c a t c phân lo c l p mi n c l p mi n ph thu c mi n Cho th y vi c s d ng tr ng s DeltaTFIDF phân lo phân lo i t ng tình n nâng cao hi u qu n theo c m xúc ta s kh o sát m t s cơng trình nghiên c u có liên quan m t thi tài 2.1 Phân lo n theo c m xúc m ng h n nay, nhi u nghiên c l p c bi t c a toán phân lo i c ti n hành nh m xây d ng b phân c D a gi i thu t h c máy (machine learning): V b phân l c xây d ng d a gi i thu t h c máy t p d li u hu n luy n g m n c gán nhãn s n xác c a b phân l p ph thu c nhi thu t h c máy n Các gi i c s d ng Support Vector Machine (SVM), Naive Bayes, maximum entropy, d a gi i thu t h xác cao v i tốn phân lo Pang et al [10 t n truy n th ng theo ch o sát hi u qu c a i toán phân lo i n c m xúc Các gi i thu t h c máy Naive Bayes, maximum entropy support vector machines (SVMs) c áp d ng t p d li u nh ng nh n xét v phim nh K t qu th c nghi m cho th y phân lo n theo ch c th truy n th ng Nguyên nhân d m t s nh n xét v phim nh i nh n xét c i u t ng quát cv Ví d xét câu nh n xét v m t b This film should be brilliant It sounds like a great plot, the actors are first grade, and the supporting cast is good as well, and Stallone is attempting to deliver a good performance However, it can't hold up b n có s d ng nhi u t ng tích c i m t nh n xét tiêu c c : TPi (true positive): s n thu c l p ci c phân lo i xác FPi (false positive): s n không thu c l p ci b phân lo i sai TNi (true negative): s n không thu c l p ci FNi (false negative): s n thu c l p ci b phân lo i sai c phân lo i xác i v i l p ci Precision(ci ) Recall(ci ) TPi TPi FPi (6) TPi TPi FNi (7) Precision recall m t cách t ng th cho toàn h th C Precision(ci ) Precision i (8) C C Recall(ci ) Recall i i ta s d ng t Precision Recall F1 (9) C F 1, s k t h p c a hai tiêu chí : Precision Recall Precision Recall 20 (10) : 4.1 xu t: Ph n s trình bày chi ti t v l n xu c phân lo xây d ng b phân n theo c m xúc V t p d li u, ta s d ng t p d li u thu c nhi u mi n khác làm t p hu n luy n thu c t p hu n luy n s s g c gán nhãn s n T p d li u ki m tra c gán nhãn thu c m t mi n d li u khác, không n m t p hu n luy n u tiên, ta th c hi n ti n x l i t t b b t t không quan tr ng, ch gi ng c m xúc, góp ph n vào vi c phân lo ng t , tính t tr ng t c th c hi n d a vi t lo i (Part-Of-Speech tagging (Lemmatization) u n t v d ng g c c a gi m b t s t c n ph i x lý x lý c m t ph Ti p theo, ta l a ch n t khóa phân lo Xét t p hu n luy n g nh c l p mi n làm pivot features c gán nhãn, v i m i mi n d li u ta chia ng thành hai l p tích c c tiêu c c d a nhãn c tính ch s DeltaTFIDF c a m i t n mi n d li u theo công th c: (t , d ) tf (t , d )*(idf (t , P ) idf (t , N)) D a vào giá tr DeltaTFIDF, ta có th ng c m xúc c a t n m t mi n d li u Ch n hai giá tr thresholdpos < 0, n u giá tr DeltaTFIDF c a m t t l ng tiêu c thresholdpos c l i n u t tích c c Các giá tr ng thresholdneg > thresholdneg DeltaTFIDF nh ng threshodpos thresholdneg u ch nh cho thích h p v i t ng t p d li u c th c t ng tình c m m i mi n, ta so sánh gi a mi n d li u v i N u m t t mi ng tình c c l p mi cl in 21 ong ng tình c m c a t i gi a mi n d li th ph thu c mi n Gi thuy t có u s mi n d li u t p hu n luy mb c l p mi n c a t T t khóa phân lo c ch n c l p mi c c, ta tìm t ng tình m t mi n d li u khác thu c t p ki m tra Áp d ng tình c m c a Turney [14] d a Pointwise mutual information (PMI) gi a hai t PMI ( word1 , word ) log p( word1 & word ) p( word1 ) p( word ) p(word1 & word2) xác su t hai t word1 word2 xu t hi n n p(t) xác su t t t xu t hi p(t ) V i D t ng s 0.5 Dt D n, Dt s n có ch a t t Ta c ng thêm 0.5 vào ng h p l i chia cho 0, t t c u không ch a t t ng tình c m c a m t t (Semantic Orientation - SO) SO(word ) PMI (word , p) p POS PMI (word , n) n NEG t t p h p t khóa phân lo ý tích c c tiêu c c N u SO c a m t t giá tr tích c bi nh c l p mi n mang ng t c l i n u SO c a t giá tr âm t ng ng tiêu c c n thành feature vector, v i t p d li u hu n luy n g m c gán nhãn, ta có th s d ng m t s cách tính tr ng s khác TFIDF DeltaTFIDF Tuy nhiên v i t p d li u ki n c gán nhãn nên khơng th tính giá tr DeltaTFIDF c a t Ngoài ra, theo k t qu thí nghi m c a Pang et al [10], s d ng giá tr boolean bi u di n 22 s có m t c a t s t k t qu i s d ng giá tr t n s xu t hi n c a t , nh t v D a vào s có m t c a t : t n s có giá tr K th ng tình c m xu t hi n c l i t khơng xu t hi n s có giá tr ng tình c m c a t : xét t m n, t mang ý tích c c s có giá tr +1, t mang ý tiêu c c s có giá tr -1 Các t khơng xu t hi n có giá tr c chuy n thành feature vector, ta s d ti n hành xây d ng b phân l p 4.2 Thi t k hi n th c : m có module : Crawler, Pre-processing, KeywordFilter & Vectorization Classification Web, File Crawler Raw Data Feature Vector Pre-processing KeywordFilter & Vectorization Processed Data Test Data Classification Training Data Result 23 Crawler: thu th p t h ng ph n h i c i dùng m t trang m ng xã c t t p d li u m u V i m ng xã h i, ta ch t p trung thu th p ph n h i fanpage v m t s n ph m c th , n i dung không n s n ph m s c l c b m t cách th công K t qu c a q trình d li u thơ, g m nh ác d li u thô s c ti n hành gán nhãn N u d li u l y t t p d li u m c gán nhãn xác c a vi c gán nhãn s ph thu c vào t p d li u m u N u d li u l y t trang m ng xã h i, gán nhãn m t cách th c gán nhãn, ta ti n hành n t n nhi u th i gian n u ng d li u l n Pre-processing: s d ng b công c x lý ngôn ng t nhiên ti ng Anh Stanford CoreNLP (http://www-nlp.stanford.edu/software/corenlp.shtml part-of- rút g n t xóa b t th a nh m nâng cao hi u qu phân lo i POS tagger: gán nhãn t lo i cho t ho c ký hi u, t ng tình c không quan tr ng s gi l i ng t , tính t , tr ng t c lo i b Danh sách nhãn t lo i có th c tham kh o t i trang web www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html Lemmatization: bi i t v d ng g c c a Ví d : am, is, are, was, were c chuy n v d ng g c be nh m t s d ng ph o be + not + JJ o + not + VB nh not_JJ: isn't good not_VB: won't regret 24 nv it not KeywordFilter & Vectorization: c tiên s d ng b n Apache ti n hành t o file index, tính tốn Lucene (http://lucefne.apache.org/ tr ng s TFIDF DeltaTFIDF T c gán nhãn thu c t p d li u hu n luyên, ta s d ng k thu t nh n d ng t khoá phân lo keywords) S bày d a vào t khóa c l p mi n (domain-independent nh t khóa c l p mi n c l p mi n c, ti n hành tình c m c a t tr ng c t p ki m tra Các giá c tính b ng cách s d ng l nh truy v n (Query) c a b Lucene tìm s n n ch a m t t ho c c m t Ti n c a t p hu n luy n t p ki m tra s c bi i thành feature vector Classification: s d ng b n LIBSVM c a hai tác gi Chih-Chung Chang Chih-Jen Lin (http://www.csie.ntu.edu.tw/~cjlin/libsvm/) xây d ng b phân l B n LIBSVM h tr m t s lo -SVC, nu-SVC, one-class SVM, epsilon-SVR nu-SVR C-SVC nu-SVC dùng cho toán phân l p, nhìn chung hai lo i khác cách tính thơng s V i C-SVC s d ng thơng s C m t s có giá tr t nu có giá tr t n M One- -SVC s d ng thông s nh LIBSVM s dùng C-SVC ng h n t p d li u hu n luy n ch thu c m t l p nh t epsilon-SVR nu-SVR dùng cho toán h i quy c h tr b i LIBSVM g m: linear, polynomial, radial basis function (RBF) sigmoid m c s d ng nh 25 ch c chuy n sang d ng vector, ta chia t p d li u thành hai ph n: t p hu n luy n (train) t p ki m tra (test l pt tv ib xây d ng m t b phân n LIBSVM ta ti n hành t a Chu n hóa t p d li u: bi i t m giá tr tr ng s c c tính t p hu n luy n t p ki m tra v theo t l [-1, +1] ho c [0, 1] svm-scale -l -1 -u -s range train > train.scale svm-scale -r range test > test.scale b nh giá tr t (-c cost g gamma) python grid.py train.scale c D a vào t p hu n luy n thông s , xây d ng b phân l p train.model svm-train c cost g gamma train.scale d Áp d ng b phân l p v a hu n luy phân lo i t p ki xác c a b phân l p svm-predict test.scale train.scale.model test.predict c có th c th c hi n m t cách t ng b ng cách s d n script easy.py: python easy.py train test s d c công c ta c t python GNUPLOT l p thông s t p tin easy.py grid.py 26 t : 5.1 T p d li u: T p d li u m c ch n dùng Multi-Domain Sentiment Dataset Blitzer et al [1] thu th p, g m nh ng T p d li s n ph m thu c nhi u lo i khác c s d ng nghiên c u v domain adaptation c phân lo n theo c m xúc, có th l c t a ch : http://www.cs.jhu.edu/~mdredze/ datasets/sentiment/ d dàng so sánh k t qu thí nghi m v i cơng trình khác th c hi n t p d li u Blitzer et al [1], Pan et al [8] Bollegala et al [2], ta ch n b n mi n d li u books, dvd, electronics kitchen appliances; m i mi n g m có 1000 nh n xét tích c c 1000 nh n xét tiêu c c Books Dvd Electronics Kitchen appliances (B) (D) (E) (K) Positve Reviews 1000 1000 1000 1000 Negative Reviews 1000 1000 1000 1000 B ng 5.1: T p d li u thí nghi m Ta s l t ch n ba mi n d li u làm t p hu n luy t p ki m tra g xây d ng b phân l p, n thu c mi n l i, c th là: D, E, K làm t p hu n luy n; B làm t p ki m tra B, E, K làm t p hu n luy n; D làm t p ki m tra B, D, K làm t p hu n luy n; E làm t p ki m tra B, D, E làm t p hu n luy n; K làm t p ki m tra Ngoài ra, ta kh o sát hi u qu c a b phân l c hu n luy n t b n mi n d li u v i t p ki m tra câu nh n xét v phim nh t p d li u m u Movie Review, g m 1000 nh n xét tích c c 1000 nh n xét tiêu c c, có th t i v t a ch http://www.cs.cornell.edu/people/pabo/movie-review-data/ 27 5.2 K t qu thí nghi m B ng 5.2 xác c a b phân l m t s cc a c s d ng nghiên c u khác, dùng chung m t t p d li u m u g m nh n xét v s n ph m thu c mi n books, dvd, electronics kitchen appliances K t qu c cl yt báo c a Bollegala et al [2] B D E K SCL-MI [1] 74.56% 76.30% 78.93% 82.06% SFA-MI [8] 77.73% 76.31% 75.30% 81.48% Therasus [2] 76.32% 78.26% 83.86% 85.16% Proposed-1 80.31% 81.18% 83.43% 83.45% 66.8% Proposed-2 85.50% 85.25% 88.27% 87.42% 72.1% B xác c a b phân l p SCL- Blitzer et al [1] Movie xu t, SFA-MI Pan et al [8] u xây d ng b phân l p t m t mi n d li phân lo n thu c m t mi n d li u khác K t qu c c tính b ng trung bình c xác c a ba b phân l p d ng b t n Therasus Bollegala et al [2] n t nhi u mi n d li xây d ng b phân l Proposed-1 Proposedkhác cách bi d ng n xu t n thành feature vector Proposed-1 ch d a vào s có m t c a t mà gán giá tr 0; Proposed-2 k t h p thêm xu ng tình c m c a t gán giá tr +1, -1 Ngồi ra, ta cịn xây d ng m t b phân l p t t p hu n luy n g n thu c b n mi n d li u v d ng b phân l K t qu phân lo phân lo i cho nh n xét thu c mi n d li u v movie c trình bày b ng 5.2 28 Hình 5.1: So sánh b phân l p 5.3 Nh n xét: Nhìn vào bi 5.1, ta th y c hai xu t cho k t qu t Vi c cho th y vi c ch n pivot features b ng tr ng s DeltaTFIDF phân lo xu t c l p mi n so v i c Ngoài ra, bi khác y bi th k t h p thêm thông tin v c t t t khóa n sang feature vector, n u có ng c m xúc c a t xác c a b phân l p Tuy nhiên, áp d ng b phân l p phân lo i cho câu nh n xét v phim nh t t p d li u Movie Review, k t qu (66.8% 72.1%) Nguyên nhân d phim xác r t th p u m t s nh n xét v i nh n xét c ng quát c v i phân Ví d xét câu nh n xét v m t b sau: This film should be brilliant It sounds like a great plot, the actors are first grade, and the supporting cast is good as well, and Stallone is attempting to deliver a good performance However, it can't hold up n có s d ng nhi u t ng tích c l i m t nh n xét tiêu c c 29 : Rút trích thơng tin h u ích t ph n h i c m tv n nhi i dùng m ng xã h i ng nghiên c u m i n theo c m xúc Vi c xây d ng m t b phân l p có kh lo i thu c nhi u mi n khác m t v ng ti p c n c id c quan tâm g tài s d ng k thu t nh n d ng t khoá phân lo l p mi n (domain- c xây d ng m t b phân l p cho d li u thu c nhi u mi n khác Các k t qu cc Xây d tài g m có: c b phân l p cho d li u thu c nhi u mi n d li u xác c a b phân l i m t s cơng trình nghiên c u khác Tìm hi u áp d ng k thu t nh n d ng t khoá phân lo (domain-independent keywords) d a tr ng s DeltaTFIDF thành cơng t ng tình c m c a n nâng cao hi u qu c phân n theo c m xúc xu t ch m i d ng ng d ng v x lý d li c y u t c a m ng xã h Facebook, +1 c ch n thơng a xác c a b phân l p ng phát tri n ti p theo c b phân l n theo c m xúc cho k t qu c vi c k t h p thêm thông tin v t xã h phát hi n i tr ng s TFIDF Ch lo c l p mi n c l p mi n ph thu c mi n Cho th y vi c s d ng tr ng s DeltaTFIDF phân lo phân lo i t tài ng d ng thêm y u t c a m ng xác c a b phân l p Ngoài ra, n có th ng c áp d ng cho ngơn ng khác, c th ti ng Vi t 30 [1] John Blitzer, Mark Dredze, Fernando Pereira (2007) Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification , Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 440-447 [2] Danushka Bollegala, David Weir, John Carroll (2011) Sources to Construct a Sentiment Sensitive Thesaurus for Cross-Domain Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Volume 1, pages 132-141 [3] Pimwadee Chaovalit, Lina Zhou (2005) compa Proceedings of the Proceedings of the 38th Annual Hawaii International Conference on System Sciences, Volume 04, pages 112.3 [4] Shoushan Li and Chengqing Zong (2008), classification Multi-domain sentiment Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers, pages 257-260 [5] Justin Martineau and Tim Finin (2009) Space for Sentiment Analysis Delta TFIDF: An Improved Feature Proceedings of the Third AAAI Internatonal Conference on Weblogs and Social Media [6] Jin-Cheon Na, Haiyang Sui, Christopher Khoo, Syin Chan, and Yunyun Zhou (2004) Effectiveness of simple linguistic processing in automatic sentiment classification of product reviews In Conference of the International Society for Knowledge Organization, pages 49 54 [7] David L Olson, Dursun Delen (2008) Advanced Data Mining , Springer Publishing Company [8] Sinno Jialin Pan, Xiaochuan Ni, Jian-Tao Sun, Qiang Yang, Zheng Chen (2010) Cross-domain sentiment 31 classification via spectral feature alignment Proceedings of the 19th international conference on World wide web, pages 751-760 [9] Bo Pang and Lillian Lee (2008) Foundations and Trends in Information Retrieval, Volume Issue 1-2, pages 1- 135 [10] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan (2002), Proceedings of the ACL-02 conference on Empirical methods in natural language processing, Volume 10, pages 79-86 [11] Georgios Paltoglou, Stephane Gobron, Marcin Skowron, Mike Thelwall, Daniel Thalmannb (2010) Proceedings of ENGAGE 2010, pages 13-25 [12] Georgios Paltoglou, Mike Thelwall (2010), A study of information retrieval Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, p.1386-1395 [13] Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll, Manfred Stede (2011) - Computational Linguistics, Volume 37 Issue 2, pages 267-307 [14] Peter D Turney Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 417-424 (2002) [15] Chih-Chung Chang and Chih-Jen Lin (2011), LIBSVM: A library for support vector machines ACM Transactions on Intelligent Systems and Technology, Volume Issue Ph n m m có s n t i http://www.csie.ntu.edu.tw/~cjlin/libsvm [16] Kristina Toutanova, Dan Klein, Christopher Manning, and Yoram Singer (2003), -Rich Part-of-Speech Tagging with a Cyclic Dependency Proceedings of the 2003 Conference of the North American 32 Chapter of the Association for Computational Linguistics on Human Language Technology, Volume 1, pages 173-180 Ph n m m có s n t i http://nlp.stanford.edu/software/tagger.shtml [17] The Apache Software Foundation Lucene Java Documentation http://lucene.apache.org/core/3_6_0/index.html Ph n m m có s n t i http://archive.apache.org/dist/lucene/java/ 33 23/02/1987 ong 09/2005 - 04/2010: Sinh viên Bách Khoa, HQG Tp HCM Tr 09/2010 Bách Khoa, Tr HQG Tp HCM Q TRÌNH CƠNG TÁC 34 ... phân chia d m không gian nhi u chi u vào l p phân ho ch khác m m u ch m b o cho margin (l ), kho ng cách t n phân ho ch l n nh t Ví d v i toán phân lo i hai l p: c m không gian, m m thu c vào... cách xây d ng b phân l p v xác c phân lo n, c phân lo i theo ch d phân lo i theo c u c ch ng minh qua m t s cơng trình c a Pang et al [10], Paltoglou Thelwall [12], 14 áp d ng SVM vào toán phân. .. tính này, b phân l p hu n luy c k t qu t t c có th t c hai mi n d li u K t qu phân lo i c a gi i thu t SCL ph thu c nhi u vào cách ch n pivot m m r ng c a gi i thu c phân lo c áp d ng vào n theo