Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
2,23 MB
Nội dung
B GIÁO D C VÀ ĐÀO T O TR NG Đ I H C DÂN L P H I PHÒNG -o0o TÌM HI U V SUPPORT VECTOR MACHINE CHO BÀI TOÁN PHÂN L P QUAN ĐI M Đ ÁN T T NGHI P Đ I H C H CHÍNH QUY Ngành: Cơng Ngh Thơng Tin Sinh viên th c hi n: Ph m Văn S n Giáo viên h ng d n: Ths Nguy n Th Xuơn H Mã s sinh viên: 120704 H I PHÒNG 12/2012 ng M CL C M C L C L I C M N M Đ U CH NG 1: TỊM HI U V SUPPORT VECTOR MACHINE 1.1 PHÁT BI U BÀI TOÁN 1.1.1 Trình bày tóm tắt v phân l p d li u 1.1.2 T i l i s d ng thu t toán SVM phân l p d li u 1.2 THU T TOÁN SVM 10 1.2.1 Gi i thi u 10 1.2.2 Đ nh nghĩa 10 1.2.3 ụ t ng c a ph 1.2.4 N i dung ph ng pháp 10 ng pháp 11 1.2.4.1 C s lý thuy t 11 1.2.4.2 Bài toán phân l p v i SVM 12 1.2.4.3 Bài toán nhi u phân l p v i SVM 13 1.2.4.4 Các b CH c c a ph ng pháp SVM 14 NG 2: BÀI TOÁN PHỂN L P QUAN ĐI M 15 2.1 S KI N (Facts) VÀ QUAN ĐI M (Opinions) 15 2.2 NHU C U V THỌNG TIN QUAN ĐI M VÀ NH N XÉT 15 2.3 MÁY TÌM KI M QUAN ĐI M / NH N XÉT 17 2.4 L CH S C A PHÂN TệCH QUAN ĐI M VÀ KHAI THÁC QUAN ĐI M 18 2.5 XU H NG NGHIÊN C U G N ĐỂY 19 2.5.1 Xác đ nh c m t , quan m 19 2.5.2 S d ng tính t phó t 20 2.5.3 S d ng đ ng t 21 2.5.4 Xác đ nh chi u h ng, c m t , quan m 22 2.6 NHI M V C A PHỂN TệCH QUAN ĐI M 22 2.7 BÀI TOÁN PHÂN L P QUAN ĐI M 22 2.7.1 Phân c c quan m m c đ phân c c 23 2.7.2 Nhi m v c a toán phân l p quan m 24 2.7.3 Xây d ng mơ hình phân l p đ phân lo i tài li u 25 CH NG III: CH 3.1 D NG TRỊNH TH C NGHI M 26 LI U TH 3.2 CÔNG C S NGHI M 26 D NG 26 3.2.1 Công c sinh SRIML 26 3.2.2 Ngơn ng l p trình java 27 3.2.3 Công c phân l p d li u SVMLight 28 3.3 K t qu th c nghi m 29 K T LU N 34 TÀI LI U THAM KH O 35 L IC M Tr N c h t, em xin chân thành c m n Tr ng Đ i h c Dân L p H i Phịng Các Th y, Cơ Khoa Công ngh Thông tin đƣ t o u ki n thu n l i cho em su t trình h c t p làm lu n văn t t nghi p Em xin bày t lịng bi t n sơu sắc c a đ i v i Cô Nguy n Th Xuơn H ng, ng nƠy Cô đƣ đ nh h i đƣ t n tình h ng d n em th c hi n lu n văn t t nghi p ng cho lu n văn, đƣ giúp sinh viên có m t mơi tr thu t đ có th trao đổi Ủ t ng, ki n th c đƣ thu th p đ ng h c c qua đ c sách, t p chí, tài li u, qua tìm hi u gi ng, nh qua m ng Inernet, đặc bi t Cô đƣ cho phép sinh viên đ c ti p c n v i kho tài li u t ng đ i đ y đ , có tính c p nh t cao mà đƣ dƠy công s u t m Em xin c m n Th y, Cơ đƣ quan tơm góp Ủ vƠ nh n xét quý báu cho b n đ án c a em Xin c m n b n đƣ chia sẻ góp ý cho tơi q trình hồn thành lu n văn Hải Phịng, ngày… tháng… năm…… Sinh viên Ph m Văn Sơn M Đ U Trong th i đ i hi n nay, s phát tri n nh vũ bƣo c a công ngh thông tin (CNTT) đƣ kéo theo s phát tri n c a nhi u lĩnh v c khác Có th nói, CNTT lƠm thay đổi hình hài c a n n kinh t th gi i, giúp nhân lo i b c nh ng b c v ng đ u tiên đ ng c a kinh t tri th c, th ng m i n t Ngày nay, ng i khơng cịn ph i v t v nh c nhằn công vi c thu th p d li u đƣ có tr th đắc l c h th ng máy tính m ng truy n s li u tri n khai quy mơ tồn c u Tuy nhiên, s phát tri n v t b c c a CNTT đƣ lƠm tăng s l ng giao d ch thông tin m ng Internet m t cách đáng k , đặc bi t lƠ th n t , tin t c n t , Theo s li u th ng kê t Brođer et (2008) c sau kho ng đ n 10 tháng l ng thơng tin l i t ng g p đơi, bên c nh t c đ thay đổi thông tin c c kỳ nhanh Ho t đ ng c a lĩnh v c đặt ph i x lý m t kh i l ng thông tin đ s M t yêu c u l n đặt đ i v i ch ng ta tổ ch c, tìm ki m thông tin m t cách hi u qu nh t phân lo i thông tin m t nh ng gi i pháp h p lý cho yêu c u nƠy Nh ng v i m t kh i l ng thơng tin q l n vƠ địi h i ph i x lý nhanh vi c phân lo i th công lƠ u không t ng H ng gi i quy t xây d ng gi i pháp cho phép thu t toán hóa vƠ ch ng trình hóa máy tính đ có th t đ ng phân lo i thơng tin Trong đ tài t t nghi p đ i h c Tr ng Đ i H c Dân L p H i Phòng, em th c hi n đ tài “TÌM HI U V SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN L P QUAN ĐI M” Lý chọn đ tài V n đ phân l p d đoán lƠ khơu r t quan tr ng h c máy khai phá d li u, phát hi n trí th c Kỹ thu t Support Vector Machines (SVM) đ c đánh giá công c m nh tinh vi nh t hi n cho nh ng toán phân l p phi n Nhi u nh ng ng d ng đƣ vƠ đ c xây d ng d a kỹ thu t SVM r t hi u qu Mục đícể, đối tượng ph m vi nghiên cứu Trong khuôn khổ lu n văn s nghiên c u ph n toán phân l p quan m, c s lý thuy t c a ph ng pháp SVM v n đ liên quan Phân tích nh ng gi i pháp cho phép m r ng c i ti n đ nâng cao hi u qu ng d ng c a SVM Đ a kỹ thu t m vào SVM cho phép phân chia không gian d li u m t cách t t h n, nhằm lo i b nh ng vùng không đ c phân l p SVM thông th ng Trình bƠy h ng áp d ng kỹ thu t SVM nh nh ng c i ti n, m r ng c a vào gi i quy t m t s toán ng d ng th c ti n Trình bày tổng quan v toán phân l p quan m c th toán phân l p phân c c đ phân chia tài li u ch a quan m tích c c hay tiêu c c Tìm hi u d li u quan m vi t ch c c tài li u s d ng SVM ng trình th nghi m phân l p phan Ý nỂểĩa kểoa ểọc thực tiễn SVM m t ph ng pháp phân l p hi n đ i hi u qu , nắm ph ng pháp s t o n n t ng giúp vi c phát tri n gi i pháp phân lo i d đoán , xơy d ng đ c nh ng ng d ng quan tr ng th c t ng d ng phân l p SVM cho toán phân l p quan m lƠ bƠi toán đƣ vƠ đ c nghiên c u phát tri n r ng rƣi vƠ có Ủ nghĩa c v h c thu t l n ng d ng th c t N i ếunỂ luận văn bao Ểồm Chương 2: Tìm hiểu Support Vector Machine Chương 2: Bài tốn phân lớp quan điểm Chương 3: Chương trình thực nghiệm Phần Kết Luận Phần tài liệu tham khảo CH NG 1: TỊM HI U V SUPPORT VECTOR MACHINE 1.1 PHÁT BI U BÀI TOÁN Support Vector Machines (SVM) kỹ thu t m i đ i v i vi c phân l p d li u, lƠ ph ng pháp h c s d ng không gian gi thuy t hàm n tính khơng gian đặc tr ng nhi u chi u, d a lý thuy t t i u vƠ lỦ thuy t th ng kê Trong kỹ thu t SVM không gian d li u nh p ban đ u s đ c ánh x vào không gian đặc tr ng vƠ không gian đặc tr ng nƠy mặt siêu phẳng phân chia t i u s đ c xác đ nh Ta có t p S g m e m u h c S = {(x1,y1), (x2,y2), (x3,y3)ầ ( xe,ye)} v i m t vect đ u vào n chi u xi ∈ R (X x Y)e thu c l p I l p II (t ng ng nhãn y i = đ i v i l p I v y i = - đ i v i l p II) M t t p m u h c đ c g i n t m th ng n u t t c nhãn Đ i v i d li u phân chia n tính, có th xác đ nh đ phẳng f(x) mà có th chia t p d li u Khí đó, v i m i siêu phẳng nh n đ có: f(x)≥ n u đ u vào x thu c l p d c siêu c ta ng, vƠ f(x)< n u x thu c l p âm n f(x) = w.x +b = wi xi + b j yi f(xi) = yi (w.xi + b) ≥ , i=1,….,l w vector pháp n n chi u b giá tr ng ỡng Vector pháp n w xác đ nh chi u c a siêu phẳng f(x), giá tr ng ỡng b xác đ nh kho ng cách gi a siêu phẳng g c Hình 1: Phân tách theo siêu phẳng (w,b) không gian chiều tập mẫu Siêu phẳng có kho ng cách v i d li u g n nh t l n nh t (t c có biên l n nh t) đ c g i siêu phẳng t i u Hình 2: Siêu phẳng tối ưu M c đích đặt đơy lƠ tìm đ c m t ng ỡng (w,b) phân chia t p m u vào l p có nhãn (l p I) -1 (l p II) nêu v i kho ng cách l n nh t 1.1.1 Trình bƠy tóm tắt v phơn l p d li u - Phân l p d li u m t kỹ thu t khai phá d li u đ rãi nh t vƠ đ c nghiên c u m r ng hi n - M c đích: Đ d đoán nh ng nhãn phân l p cho b d li u m u m i c s d ng r ng Đầu vào: Một tập mẫu liệu huấn luyện,với nhãn phân lớp cho mẫu liệu Đầu ra: Bộ phân lớp dựa tập huấn luyện,hoặc nhãn phân lớp Phân l p d li u d a t p hu n luy n giá tr m t thu c tính phân l p vƠ dùng đ xác đ nh l p cho d li u m i Kỹ thu t phân l p d li u đ c ti n hành bao g m b c: Bước 1: Xây dựng mơ hình từ tập huấn luyện Bước 2: Sử dụng mơ hình – kiểm tra tính đắn mơ hình dùng để phân lớp liệu Bư c Xây dựng mô hình - M i b /m u d li u đ c phân vào m t l p đ - L p c a m t b /m u d li u đ nhãn l p c xác đ nh tr c xác đ nh b i thu c tính gán - T p b /m u d li u hu n luy n - t p hu n luy n - đ đ xây d ng mơ hình - c c dùng Mơ hình đ c bi u di n b i lu t phân l p,các quy t đ nh công th c tốn h c Hình 2.3: Ví dụ xây dựng mơ hình Bư c 2: Sử dụng mơ hình - Phân l p cho nh ng đ i t - Đánh giá đ xác c a mơ hình L p bi t tr k t qu thu đ ng m i ch a đ c phân l p c c a m t m u/b d li u đem ki m tra đ c so sánh v i c t mơ hình T l xác ph n trăm m u/b d li u đ b i mơ hình s l n ki m tra c phân l p Hình 2.4: Sử dụng mơ hình 1.1.2 T i l i s d ng thu t toán SVM phơn l p d li u SVM r t hi u qu đ gi i quy t tốn d li u có s chi u l n ( nh c a d li u bi u di n gene, protein, t bào) SVM gi i quy t v n đ overfitting r t t t (d li u có nhi u tách d i nhóm d li u hu n luy n ít) LƠ ph ng pháp phơn l p nhanh Có hi u su t tổng h p t t hi u su t tính tốn cao d đốn đ nh h ng c a t t c tính t danh sách t quan m đ c rút cách tìm ki m qua c m l ỡng c c đ tìm li u t đ ng nghĩa hay trái nghĩa có danh sách kh i đ u hay không Khi đ nh h ng c a tính t đ c d đốn, s đ c bổ sung vào danh sách kh i đ u có th đ c s d ng đ xác đ nh đ nh h ng c a tính t khác Trong ph ng pháp nƠy, danh sách kh i đ u s d n tăng lên s đ nh h ng c a tính t đ c nh n d ng, ng ng gia tăng, t c qui mô c a danh sách kh i đ u trùng v i qui mô c a danh sách t ch quan m, t t c đ nh h ng c a tính t đƣ đ c nh n bi t trình k t thúc Nh ng t quan m th ng t p trung ch y phó t v y nh n d ng xác đ c nhi u hai lo i t h th ng cƠng có đ xác cao 2.5.3 S d ng đ ng t Các tính t phó t đóng m t vai trị quan tr ng vi c phân tích quan m lo i t có l i th vi c nh n bi t đ nh h ng rút t ch quan m nghiên c u hi n Tuy nhiên, lo i t khác, ví d nh đ ng t đ c s d ng đ di n t c m xúc hay ý ki n vi t Nasukawa Yi (2003) xem xét bên c nh tính t phó t , đ ng t có th di n t quan m h th ng đánh giá quan m c a h H phân lo i đ ng t có liên quan đ n quan m thành lo i Lo i th nh t tr c ti p th hi n quan m tích c c hay tiêu c c, theo lý gi i c a h “beat” “X beats Y” Lo i th hai không th hi n quan m tr c ti p nh ng d n đ n nh ng quan m , gi ng nh “is” “X is good” H s d a mơ hình Markov (HMM) (Manning and Schutze, 1999) phân tích cú pháp nơng d a lu t (Neff et al., 2003) cho b c ti n x lỦ Sau h phân tích tính ph thu c v mặt cú pháp gi a c m t tìm ki m c m t có m t t ch quan m mà bổ nghĩa đ c bổ nghĩa b i m t thu t ng ch th 21 2.5.4 Xác đ nh chi u h ng, c m t , quan m Trong phơn tích quan m, xu h ng c a nh ng t , c m t tr c ti p th hi n quan m, c m xúc c a ng i vi t bƠi Ph ng pháp đ nh n bi t xu h ng quan m c a nh ng t , c m t ch c m nghĩ d a th ng kê d a t v ng 2.6 NHI M V C A PHỂN TệCH QUAN ĐI M Phơn tích quan nhiên Có hai h : (Sentiment Extraction) (Sentiment Classification : bao g m nhi m v là: - - positive, ) negative - 2.7 BÀI TOÁN PHỂN L P QUAN ĐI M Phân l p q trình "nhóm” đ i t ng "gi ng” vào "m t l p” d a đặc tr ng d li u c a chúng Tuy nhiên, phân l p m t ho t đ ng ti m ẩn t ng i nh n d ng th gi i th c, đóng vai trị quan tr ng lƠm c s đ a d báo, quy t đ nh Phân l p cách mô t l p giúp cho tri th c đ c đ nh d ng vƠ l u tr Khi nghiên c u m t đ i t ng, hi n t ng, ch có th d a vào m t s h u h n đặc tr ng c a chúng Nói cách khác, ta ch xem xét bi u di n c a đ i t ng, hi n t ng m t không gian h u h n chi u, m i chi u ng v i m t đặc tr ng đ c l a ch n Khi đó, phơn l p d li u tr thành phân ho ch t p d li u thành t p theo m t tiêu chuẩn nh n d ng đ c Nhi m v : - 22 Phân l p câu/tài li u ch a quan c(positive) hay tiêu c c (negative (neutral) Theo Bo Pang Lillian Lee (2002) phân l p câu/tài li u ch quan m khơng có s nh n bi t c a m i t / c m t ch quan m H s d ng h c máy có giám sát đ phân lo i nh ng nh n xét v phim nh Không c n ph i phân l p t hay c m t ch quan m, h rút nh ng đặc m khác c a quan m s d ng thu t tốn Nạve Bayes (NB), Maximum Entropy (ME) Support Vector Machine (SVM) đ phân l p quan m Ph 7% đ n 82, 9% ng pháp nƠy đ t đ xác t 78, Input: (polarity) ) Output: v ti p c n ng Phân l p tài li u theo h ng quan m th t s v n đ thách th c khó khăn lĩnh v x lý ngơn ng lƠ b n ch t ph c t p c a ngôn ng c a ng i, đặc bi t s đa nghĩa vƠ nh p nhằng nghĩa c a ngôn ng S nh p nhằng rõ ràng s nh h ng đ n đ xác b phân l p c a m t m c đ nh t đ nh M t khía c nh thách th c c a v n đ nƠy d ng nh lƠ phơn bi t v i vi c phân lo i ch đ theo truy n th ng lƠ nh ng ch đ đ c nh n d ng b i nh ng t khóa đ ng m t mình, quan m có th di n t m t cách tinh t h n Ví d cơu sau: “Làm để ngồi xem hết phim ?”khơng ch a Ủ có nghĩa nh t mƠ rõ rƠng lƠ nghĩa tiêu c c Theo đó, quan m d ng nh đòi h i s hi u bi t nhi u h n, tinh t h n 2.7.1 Phơn c c quan m vƠ m c đ phơn c c - : positive/negative/neutral : Like/ dislike/ So so - p/ thumbs down :like to win/ unlike to win Liberal/conservative / bad new 23 : / : “This laptop is great” ” => VD: “The stock prise rose” ” ” : Rating inference (ordinal regression ,ầ : positive, negative, neutral positive negative neutral ) Theo neutral negative negative 10% 2.7.2 Nhi m v c a bƠi toán phơn l p quan m Bài toán phân l p quan m đ c bi t đ n nh lƠ bƠi toán phơn l p tài li u v i m c tiêu phân lo i tài li u theo đ nh h ng quan m Đƣ có r t nhi u ti p c n khác đ c nghiên c u đ gi i quy t cho lo i toán nƠy Đ th c hi n, v c b n có th chia thành hai nhi m v nh sau: - Trích đặc trưng nhằm khai thác thông tin quan điểm để phục vụ mục đích phân loại tài liệu theo định hướng ngữ nghĩa - Xây dựng mơ hình để phân lớp tài liệu 24 2.7.3 Xơy d ng mơ hình phơn l p đ phơn lo i tƠi li u Trong phơn tích quan m, xu h ng c a nh ng t , c m t tr c ti p th hi n quan m, c m xúc c a ng i vi t bƠi Ph ng pháp đ nh n bi t xu h ng quan m c a nh ng t , c m t ch c m nghĩ lƠ d a th ng kê d a t v ng V i nhi m v phân l p tài li u, đƣ có r t nhi u ph ng pháp h c máy th ng kê đ c s d ng cho m c đích nƠy, nh lƠ: Naive Bayes, phân lo i Maximum Entropy, h c máy giám sát SVM, quy t đ nh,ầ Thuật toán gồm bước: Bư c 1: Xác định n-gram, đặc trưng lọc qua toàn tập liệu Bư c 2: Tính tốn tần số xuất n-gram tích cực, tiêu cực tính trọng số n-gram Bư c 3: Chọn n-gram thỏa mãn ngưỡng có trọng số cao loại bỏ bigram khơng có ý nghĩa cho việc phân loại Bư c 4: Tính tốn độ xác q trình huấn luyện phân lớp 25 CH 3.1 D NG III: CH LI U TH NG TRỊNH TH C NGHI M NGHI M Trong đ án này, s d ng d li u t nh ng vi t v đánh giá b phim g m 700 nh n xét tích c c 700 nh n xét tiêu c c D li u nƠy đ c cung c p b i tác gi Lillian Lee (http://www.cs.cornell.edu/people/pabo/moviereview-data/) Các d li u nƠy đƣ d c lo i b ch s đánh giá vƠ rút thông tin nguyên văn t tài li u g c đ nh d ng HTML, x lý d u ch m câu nh m c c a t v ng riêng bi t Chúng t p trung vào nh ng đặc tr ng d a nh ng t đ n cặp t 3.2 CÔNG C S D NG 3.2.1 Công c sinh SRIML SRILM b công c đ xây d ng áp d ng mơ hình ngôn ng th ng kê , ch y u lƠ đ s d ng nh n d ng ti ng nói, gắn thẻ th ng kê phân khúc, d ch máy th ng kê B công c nƠy đ c phát tri n b i “Phịng thí nghi m nghiên c u công ngh gi ng nói SRI” t năm 1995, có th ch y n n t ng Linux nh Windows SRILM bao g m thành ph n sau: M t t p h p th vi n C++ giúp cƠi đặt mơ hình ngơn ng , h tr c u trúc d li u ch c ti n ích nh M t t p h p ch ng trình th c thi th c hi n nhi m v xây d ng mơ hình ngơn ng , đƠo t o th nghi m mô hình ngơn ng d li u, gắn thẻ phơn chia văn b n, B công c SRILM có r t nhi u ch ng ta s d ng ch ng trình Ngram ng trình con, đ xây d ng mơ hình ngơn 26 Ch ng trình Ngram th ng kê t n s xu t hi n c a c m Ngram K t qu c a vi c th ng kê đ c ghi l i vào m t t p s d ng chúng đ xây d ng mơ hình ngơn ng K t qu c a vi c th ng kê đ c ghi l i theo đ nh d ng sau: ngram ậcount ậordern -interpolate -text -lm Trong đó: order n: thi t l p đ dài l n nh t c a c m Ngram s th ng kê n Giá tr mặc đ nh n u không thi t l p tham s n = interpolaten: v i n nh n giá tr 1, 2, 3, 4, 5, 6, 7, 8, Tính tốn t n s c a c m Ngram có đ dài n cách n i suy t c m Ngram có đ dài nh h n text: File d li u c n th ng kê t n s c m Ngram T p văn b n có th ch a m i câu m t dòng Kí hi u k t thúc bắt đ u dòng m i s đ c t đ ng thêm vào n u t p đ u vƠo ch a có Các dịng tr ng t p nƠy b lo i b lm: xây d ng mơ hình ngơn ng truy h i t t n s v a th ng kê, sau ghi l i vào t p fileketqua theo đ nh d ng 3.2.2 Ngơn ng l p trình java Java m t ngơn ng l p trình d ng l p trình h ng đ i t ng (OOP) Khác v i ph n l n ngôn ng l p trình thơng th ng, thay biên d ch mã ngu n thành mã máy thông d ch mã ngu n ch y, Java đ c thi t k đ biên d ch mã ngu n thƠnh bytecode, bytecode sau s đ c mơi tr ng th c thi (runtime environment) ch y Bằng cách nƠy, Java th ng ch y nhanh h n nh ng ngơn ng l p trình thơng d ch khác nh Python, Perl, PHP,ầ t Cú pháp Java đ c vay m n nhi u t C & C++ nh ng có cú pháp h ng đ n gi n h n vƠ tính x lý c p th p h n 27 ng đ i M t s đặc m b t c a java - Máy o java - Thông d ch -Đ cl pn n -H ng đ i t ng Đa nhi m, đa lu ng 3.2.3 Công c phơn l p d li u SVMLight đ SVMThorste c phát tri n b i Joachims nh sau: Các tính c a ch ng trình - T i u hóa thu t toán nhanh - Gi i quy t nhanh v n đ phân lo i h i quy đ i v i k t qu đ u đa bi n - H tr ph ng pháp nh n d ng m u SVM-light bao g m thành ph n chính: - SVMTlearn - SVMTagger - SVMTeval - SVMClassicfy: ki m th k t qu Th c hi n: : svm-learn [-option] train_file model_file 28 : train_file - Tên train_file model_file: - - ) 3.3 K t qu th c nghi m Các b c th c hi n Bư c 1: s d ng công c N-gram đ sinh file d li u ch a N-gram c a tài li u ch a quan m đơy, s d ng uni-gram (1-gram) Bigram (2-gram) Bư c 2: T t p d li u nƠy, tr th c n qua m t s b c đ c s d ng đ hu n luy n ki m c l c b đặc tr ng không t t B c th nh t, l c b t vô nghĩa (stop word), ký t đặc bi t nh {! , ? , / , @ # , “, } B c ti p theo l c b đặc tr ng theo t n s Nh ng đặc tr ng có t n s xu t hi n d li u hu n luy n th p h n m t giá tr nƠo (đ i v i unigram s nh h n vƠ bigram lƠ nh h n 7) s b lo i b B sau đƣ gán tr ng s cho t ng đặc tr ng 29 c cu i đ c th c hi n Bư c 3: Gán nhãn cho m i N-gram t p d li u hu n luy n đ l y thông tin phân lo i: nh n xét ch a quan m tích c c đ nh n xét ch a quan m tiêu c c đ c gán nhãn 1, c gán nhãn -1 ch n Đ th c hi n phân l p tài li u quan m, chia t p d li u thành hai t p t p hu n luy n (train) t p ki m th (test) T p hu n luy n g m có 550 nh n xét tích c c 550 nh n xét tiêu c c T p ki m th (test) g m có 150 nh n xét tích c c 150 nh n xét tiêu c c K t qu th c hi n phân l p Support Vector Machine v i đặc tr ng Unigram vƠ Bigram nh sau: Đặc tr ng Uni-gram Bi-gram Đ xác (Precision) 91,38 % 56,49% Đ ph n h i (Recall) 91,54% 58% Ch ng trình trích đặc tr ng n-gram t o d li u cho phân l p SVM đ phân l p bình lu n tích c c hay tiêu c c 30 1: Giao di n c a ch ng trình 3.2: M file d li u đ u vào 31 3.3: Hi n th d li u dùng đ ch y Get Pos Data 3.4: D li u cho phân l p SVM 32 3.5: Hình nh ch y L nh SVM mơi tr 33 ng DOS Lu n văn h xem xét đ K T LU N ng t i m c tiêu phân l p d li u đ t đ xác cao, đƣ c t t c m c tiêu nh ph n gi i thi u nh ng th i gian có h n, nên m t s v n đ v n ch a hoƠn ch nh Tuy nhiên, lu n văn đ t đ c m t s k t qu : Nghiên c u vƠ trình bƠy c s c a lý thuy t c a ph đ qu Trình bƠy ph ng pháp SVM Đơy lƠ m t ph c nghiên c u nhi u nh t th i gian qua ng pháp h c máy ng pháp phơn l p hi u qu Phân tích nh ng gi i pháp cho phép m r ng c i ti n đ nâng cao hi u ng d ng c a SVM: CƠi đặt đ c m t s công c giúp đỡ cho vi c xây d ng mơ hình ngơn ng nh : chuẩn hóa văn b n, tách t ngơn ng Java CƠi đặt đ c ch ng trình đ trích đặc tr ng vƠ t o d li u cho phân l p SVM Tìm ki m s d ng b d li u phân l p tài li u ch a quan m CƠi đặt ch y thành công b mã ngu n m Srilm môi tr ng Linux S d ng b công c mã ngu n m SRILM đ xây d ng mơ hình ngôn ng cho d li u đ u vào Do th i gian có h n, nên hi n t i lu n văn m i ch nghiên c u đ c trích đặc tr ng n-gram t bình lu n s d ng phân l p SVM đ phân l p bình lu n tích c c hay tiêu c c Trong th i gian t i, s ti p t c nghiên c u trích đặc tr ng khác cho bƠi tốn nƠy vƠ ph ng pháp phơn l p th ng kê khác 34 TÀI LI U THAM KH O Ths Nguy n Th Xuơn H m t số h ng vƠ Ths Lê Th y v “phơn tích quan m ng ti p c n” H i ngh khoa học l n th nh t, 2012, tr ĐHDL H i Phòng Nghiên c u thu t toán phân l p nh phân ng d ng cho bào toán Protein Folding ậ Nguy n Quang Ph c ậ Tr ng Đ i học Khoa học t nhiên TPHCM Bo Pang and Lillian Lee Shivakumar Vaithyanathan Thumbs up Sentiment Classification using Machine Learning Techniques http://en.wikipedia.org/wiki/Support_vector_machine http://www.cs.cornell.edu http://svmlight.joachims.org/ ftp://ftp.cs.cornell.edu/pub/smart/english.stop http://www.speech.sri.com/projects/srilm/download.html 35 ng ... c phân vào l p Đ xác đ nh hàm phân l p d a ph ng pháp SVM, ta s ti n hành tìm hai siêu phẳng song song cho kho ng cách y gi a chúng l n nh t có th đ phân tách hai l p nƠy lƠm hai phía HƠm phơn... p h p k t qu tìm ki m cho m sinh m t danh sách thu c tính s n phẩm (ch t l h t đ nh, ) ” m t song song c a " “ nh ng khía c nh nh t đ nh (Das Chen Tong, 2001) ” ”và ”bi u th m t lĩnh v c nghiên