1. Trang chủ
  2. » Luận Văn - Báo Cáo

tìm hiểu về support vector machine cho bài toán phân lớp quan điểm- đồ án tốt nghiệp

36 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 2,23 MB

Nội dung

B GIÁO D C VÀ ĐÀO T O TR NG Đ I H C DÂN L P H I PHÒNG -o0o TÌM HI U V SUPPORT VECTOR MACHINE CHO BÀI TOÁN PHÂN L P QUAN ĐI M Đ ÁN T T NGHI P Đ I H C H CHÍNH QUY Ngành: Cơng Ngh Thơng Tin Sinh viên th c hi n: Ph m Văn S n Giáo viên h ng d n: Ths Nguy n Th Xuơn H Mã s sinh viên: 120704 H I PHÒNG 12/2012 ng M CL C M C L C L I C M N M Đ U CH NG 1: TỊM HI U V SUPPORT VECTOR MACHINE 1.1 PHÁT BI U BÀI TOÁN 1.1.1 Trình bày tóm tắt v phân l p d li u 1.1.2 T i l i s d ng thu t toán SVM phân l p d li u 1.2 THU T TOÁN SVM 10 1.2.1 Gi i thi u 10 1.2.2 Đ nh nghĩa 10 1.2.3 ụ t ng c a ph 1.2.4 N i dung ph ng pháp 10 ng pháp 11 1.2.4.1 C s lý thuy t 11 1.2.4.2 Bài toán phân l p v i SVM 12 1.2.4.3 Bài toán nhi u phân l p v i SVM 13 1.2.4.4 Các b CH c c a ph ng pháp SVM 14 NG 2: BÀI TOÁN PHỂN L P QUAN ĐI M 15 2.1 S KI N (Facts) VÀ QUAN ĐI M (Opinions) 15 2.2 NHU C U V THỌNG TIN QUAN ĐI M VÀ NH N XÉT 15 2.3 MÁY TÌM KI M QUAN ĐI M / NH N XÉT 17 2.4 L CH S C A PHÂN TệCH QUAN ĐI M VÀ KHAI THÁC QUAN ĐI M 18 2.5 XU H NG NGHIÊN C U G N ĐỂY 19 2.5.1 Xác đ nh c m t , quan m 19 2.5.2 S d ng tính t phó t 20 2.5.3 S d ng đ ng t 21 2.5.4 Xác đ nh chi u h ng, c m t , quan m 22 2.6 NHI M V C A PHỂN TệCH QUAN ĐI M 22 2.7 BÀI TOÁN PHÂN L P QUAN ĐI M 22 2.7.1 Phân c c quan m m c đ phân c c 23 2.7.2 Nhi m v c a toán phân l p quan m 24 2.7.3 Xây d ng mơ hình phân l p đ phân lo i tài li u 25 CH NG III: CH 3.1 D NG TRỊNH TH C NGHI M 26 LI U TH 3.2 CÔNG C S NGHI M 26 D NG 26 3.2.1 Công c sinh SRIML 26 3.2.2 Ngơn ng l p trình java 27 3.2.3 Công c phân l p d li u SVMLight 28 3.3 K t qu th c nghi m 29 K T LU N 34 TÀI LI U THAM KH O 35 L IC M Tr N c h t, em xin chân thành c m n Tr ng Đ i h c Dân L p H i Phịng Các Th y, Cơ Khoa Công ngh Thông tin đƣ t o u ki n thu n l i cho em su t trình h c t p làm lu n văn t t nghi p Em xin bày t lịng bi t n sơu sắc c a đ i v i Cô Nguy n Th Xuơn H ng, ng nƠy Cô đƣ đ nh h i đƣ t n tình h ng d n em th c hi n lu n văn t t nghi p ng cho lu n văn, đƣ giúp sinh viên có m t mơi tr thu t đ có th trao đổi Ủ t ng, ki n th c đƣ thu th p đ ng h c c qua đ c sách, t p chí, tài li u, qua tìm hi u gi ng, nh qua m ng Inernet, đặc bi t Cô đƣ cho phép sinh viên đ c ti p c n v i kho tài li u t ng đ i đ y đ , có tính c p nh t cao mà đƣ dƠy công s u t m Em xin c m n Th y, Cơ đƣ quan tơm góp Ủ vƠ nh n xét quý báu cho b n đ án c a em Xin c m n b n đƣ chia sẻ góp ý cho tơi q trình hồn thành lu n văn Hải Phịng, ngày… tháng… năm…… Sinh viên Ph m Văn Sơn M Đ U Trong th i đ i hi n nay, s phát tri n nh vũ bƣo c a công ngh thông tin (CNTT) đƣ kéo theo s phát tri n c a nhi u lĩnh v c khác Có th nói, CNTT lƠm thay đổi hình hài c a n n kinh t th gi i, giúp nhân lo i b c nh ng b c v ng đ u tiên đ ng c a kinh t tri th c, th ng m i n t Ngày nay, ng i khơng cịn ph i v t v nh c nhằn công vi c thu th p d li u đƣ có tr th đắc l c h th ng máy tính m ng truy n s li u tri n khai quy mơ tồn c u Tuy nhiên, s phát tri n v t b c c a CNTT đƣ lƠm tăng s l ng giao d ch thông tin m ng Internet m t cách đáng k , đặc bi t lƠ th n t , tin t c n t , Theo s li u th ng kê t Brođer et (2008) c sau kho ng đ n 10 tháng l ng thơng tin l i t ng g p đơi, bên c nh t c đ thay đổi thông tin c c kỳ nhanh Ho t đ ng c a lĩnh v c đặt ph i x lý m t kh i l ng thông tin đ s M t yêu c u l n đặt đ i v i ch ng ta tổ ch c, tìm ki m thông tin m t cách hi u qu nh t phân lo i thông tin m t nh ng gi i pháp h p lý cho yêu c u nƠy Nh ng v i m t kh i l ng thơng tin q l n vƠ địi h i ph i x lý nhanh vi c phân lo i th công lƠ u không t ng H ng gi i quy t xây d ng gi i pháp cho phép thu t toán hóa vƠ ch ng trình hóa máy tính đ có th t đ ng phân lo i thơng tin Trong đ tài t t nghi p đ i h c Tr ng Đ i H c Dân L p H i Phòng, em th c hi n đ tài “TÌM HI U V SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN L P QUAN ĐI M” Lý chọn đ tài V n đ phân l p d đoán lƠ khơu r t quan tr ng h c máy khai phá d li u, phát hi n trí th c Kỹ thu t Support Vector Machines (SVM) đ c đánh giá công c m nh tinh vi nh t hi n cho nh ng toán phân l p phi n Nhi u nh ng ng d ng đƣ vƠ đ c xây d ng d a kỹ thu t SVM r t hi u qu Mục đícể, đối tượng ph m vi nghiên cứu Trong khuôn khổ lu n văn s nghiên c u ph n toán phân l p quan m, c s lý thuy t c a ph ng pháp SVM v n đ liên quan Phân tích nh ng gi i pháp cho phép m r ng c i ti n đ nâng cao hi u qu ng d ng c a SVM Đ a kỹ thu t m vào SVM cho phép phân chia không gian d li u m t cách t t h n, nhằm lo i b nh ng vùng không đ c phân l p SVM thông th ng Trình bƠy h ng áp d ng kỹ thu t SVM nh nh ng c i ti n, m r ng c a vào gi i quy t m t s toán ng d ng th c ti n Trình bày tổng quan v toán phân l p quan m c th toán phân l p phân c c đ phân chia tài li u ch a quan m tích c c hay tiêu c c Tìm hi u d li u quan m vi t ch c c tài li u s d ng SVM ng trình th nghi m phân l p phan Ý nỂểĩa kểoa ểọc thực tiễn SVM m t ph ng pháp phân l p hi n đ i hi u qu , nắm ph ng pháp s t o n n t ng giúp vi c phát tri n gi i pháp phân lo i d đoán , xơy d ng đ c nh ng ng d ng quan tr ng th c t ng d ng phân l p SVM cho toán phân l p quan m lƠ bƠi toán đƣ vƠ đ c nghiên c u phát tri n r ng rƣi vƠ có Ủ nghĩa c v h c thu t l n ng d ng th c t N i ếunỂ luận văn bao Ểồm Chương 2: Tìm hiểu Support Vector Machine Chương 2: Bài tốn phân lớp quan điểm Chương 3: Chương trình thực nghiệm Phần Kết Luận Phần tài liệu tham khảo CH NG 1: TỊM HI U V SUPPORT VECTOR MACHINE 1.1 PHÁT BI U BÀI TOÁN Support Vector Machines (SVM) kỹ thu t m i đ i v i vi c phân l p d li u, lƠ ph ng pháp h c s d ng không gian gi thuy t hàm n tính khơng gian đặc tr ng nhi u chi u, d a lý thuy t t i u vƠ lỦ thuy t th ng kê Trong kỹ thu t SVM không gian d li u nh p ban đ u s đ c ánh x vào không gian đặc tr ng vƠ không gian đặc tr ng nƠy mặt siêu phẳng phân chia t i u s đ c xác đ nh Ta có t p S g m e m u h c S = {(x1,y1), (x2,y2), (x3,y3)ầ ( xe,ye)} v i m t vect đ u vào n chi u xi ∈ R (X x Y)e thu c l p I l p II (t ng ng nhãn y i = đ i v i l p I v y i = - đ i v i l p II) M t t p m u h c đ c g i n t m th ng n u t t c nhãn Đ i v i d li u phân chia n tính, có th xác đ nh đ phẳng f(x) mà có th chia t p d li u Khí đó, v i m i siêu phẳng nh n đ có: f(x)≥ n u đ u vào x thu c l p d c siêu c ta ng, vƠ f(x)< n u x thu c l p âm n f(x) = w.x +b = wi xi + b j yi f(xi) = yi (w.xi + b) ≥ , i=1,….,l w vector pháp n n chi u b giá tr ng ỡng Vector pháp n w xác đ nh chi u c a siêu phẳng f(x), giá tr ng ỡng b xác đ nh kho ng cách gi a siêu phẳng g c Hình 1: Phân tách theo siêu phẳng (w,b) không gian chiều tập mẫu Siêu phẳng có kho ng cách v i d li u g n nh t l n nh t (t c có biên l n nh t) đ c g i siêu phẳng t i u Hình 2: Siêu phẳng tối ưu M c đích đặt đơy lƠ tìm đ c m t ng ỡng (w,b) phân chia t p m u vào l p có nhãn (l p I) -1 (l p II) nêu v i kho ng cách l n nh t 1.1.1 Trình bƠy tóm tắt v phơn l p d li u - Phân l p d li u m t kỹ thu t khai phá d li u đ rãi nh t vƠ đ c nghiên c u m r ng hi n - M c đích: Đ d đoán nh ng nhãn phân l p cho b d li u m u m i c s d ng r ng Đầu vào: Một tập mẫu liệu huấn luyện,với nhãn phân lớp cho mẫu liệu Đầu ra: Bộ phân lớp dựa tập huấn luyện,hoặc nhãn phân lớp Phân l p d li u d a t p hu n luy n giá tr m t thu c tính phân l p vƠ dùng đ xác đ nh l p cho d li u m i Kỹ thu t phân l p d li u đ c ti n hành bao g m b c: Bước 1: Xây dựng mơ hình từ tập huấn luyện Bước 2: Sử dụng mơ hình – kiểm tra tính đắn mơ hình dùng để phân lớp liệu Bư c Xây dựng mô hình - M i b /m u d li u đ c phân vào m t l p đ - L p c a m t b /m u d li u đ nhãn l p c xác đ nh tr c xác đ nh b i thu c tính gán - T p b /m u d li u hu n luy n - t p hu n luy n - đ đ xây d ng mơ hình - c c dùng Mơ hình đ c bi u di n b i lu t phân l p,các quy t đ nh công th c tốn h c Hình 2.3: Ví dụ xây dựng mơ hình Bư c 2: Sử dụng mơ hình - Phân l p cho nh ng đ i t - Đánh giá đ xác c a mơ hình L p bi t tr k t qu thu đ ng m i ch a đ c phân l p c c a m t m u/b d li u đem ki m tra đ c so sánh v i c t mơ hình T l xác ph n trăm m u/b d li u đ b i mơ hình s l n ki m tra c phân l p Hình 2.4: Sử dụng mơ hình 1.1.2 T i l i s d ng thu t toán SVM phơn l p d li u  SVM r t hi u qu đ gi i quy t tốn d li u có s chi u l n ( nh c a d li u bi u di n gene, protein, t bào)  SVM gi i quy t v n đ overfitting r t t t (d li u có nhi u tách d i nhóm d li u hu n luy n ít)  LƠ ph ng pháp phơn l p nhanh  Có hi u su t tổng h p t t hi u su t tính tốn cao d đốn đ nh h ng c a t t c tính t danh sách t quan m đ c rút cách tìm ki m qua c m l ỡng c c đ tìm li u t đ ng nghĩa hay trái nghĩa có danh sách kh i đ u hay không Khi đ nh h ng c a tính t đ c d đốn, s đ c bổ sung vào danh sách kh i đ u có th đ c s d ng đ xác đ nh đ nh h ng c a tính t khác Trong ph ng pháp nƠy, danh sách kh i đ u s d n tăng lên s đ nh h ng c a tính t đ c nh n d ng, ng ng gia tăng, t c qui mô c a danh sách kh i đ u trùng v i qui mô c a danh sách t ch quan m, t t c đ nh h ng c a tính t đƣ đ c nh n bi t trình k t thúc Nh ng t quan m th ng t p trung ch y phó t v y nh n d ng xác đ c nhi u hai lo i t h th ng cƠng có đ xác cao 2.5.3 S d ng đ ng t Các tính t phó t đóng m t vai trị quan tr ng vi c phân tích quan m lo i t có l i th vi c nh n bi t đ nh h ng rút t ch quan m nghiên c u hi n Tuy nhiên, lo i t khác, ví d nh đ ng t đ c s d ng đ di n t c m xúc hay ý ki n vi t Nasukawa Yi (2003) xem xét bên c nh tính t phó t , đ ng t có th di n t quan m h th ng đánh giá quan m c a h H phân lo i đ ng t có liên quan đ n quan m thành lo i Lo i th nh t tr c ti p th hi n quan m tích c c hay tiêu c c, theo lý gi i c a h “beat” “X beats Y” Lo i th hai không th hi n quan m tr c ti p nh ng d n đ n nh ng quan m , gi ng nh “is” “X is good” H s d a mơ hình Markov (HMM) (Manning and Schutze, 1999) phân tích cú pháp nơng d a lu t (Neff et al., 2003) cho b c ti n x lỦ Sau h phân tích tính ph thu c v mặt cú pháp gi a c m t tìm ki m c m t có m t t ch quan m mà bổ nghĩa đ c bổ nghĩa b i m t thu t ng ch th 21 2.5.4 Xác đ nh chi u h ng, c m t , quan m Trong phơn tích quan m, xu h ng c a nh ng t , c m t tr c ti p th hi n quan m, c m xúc c a ng i vi t bƠi Ph ng pháp đ nh n bi t xu h ng quan m c a nh ng t , c m t ch c m nghĩ d a th ng kê d a t v ng 2.6 NHI M V C A PHỂN TệCH QUAN ĐI M Phơn tích quan nhiên Có hai h : (Sentiment Extraction) (Sentiment Classification : bao g m nhi m v là: - - positive, ) negative - 2.7 BÀI TOÁN PHỂN L P QUAN ĐI M Phân l p q trình "nhóm” đ i t ng "gi ng” vào "m t l p” d a đặc tr ng d li u c a chúng Tuy nhiên, phân l p m t ho t đ ng ti m ẩn t ng i nh n d ng th gi i th c, đóng vai trị quan tr ng lƠm c s đ a d báo, quy t đ nh Phân l p cách mô t l p giúp cho tri th c đ c đ nh d ng vƠ l u tr Khi nghiên c u m t đ i t ng, hi n t ng, ch có th d a vào m t s h u h n đặc tr ng c a chúng Nói cách khác, ta ch xem xét bi u di n c a đ i t ng, hi n t ng m t không gian h u h n chi u, m i chi u ng v i m t đặc tr ng đ c l a ch n Khi đó, phơn l p d li u tr thành phân ho ch t p d li u thành t p theo m t tiêu chuẩn nh n d ng đ c Nhi m v : - 22 Phân l p câu/tài li u ch a quan c(positive) hay tiêu c c (negative (neutral) Theo Bo Pang Lillian Lee (2002) phân l p câu/tài li u ch quan m khơng có s nh n bi t c a m i t / c m t ch quan m H s d ng h c máy có giám sát đ phân lo i nh ng nh n xét v phim nh Không c n ph i phân l p t hay c m t ch quan m, h rút nh ng đặc m khác c a quan m s d ng thu t tốn Nạve Bayes (NB), Maximum Entropy (ME) Support Vector Machine (SVM) đ phân l p quan m Ph 7% đ n 82, 9% ng pháp nƠy đ t đ xác t 78, Input: (polarity) ) Output: v ti p c n ng Phân l p tài li u theo h ng quan m th t s v n đ thách th c khó khăn lĩnh v x lý ngơn ng lƠ b n ch t ph c t p c a ngôn ng c a ng i, đặc bi t s đa nghĩa vƠ nh p nhằng nghĩa c a ngôn ng S nh p nhằng rõ ràng s nh h ng đ n đ xác b phân l p c a m t m c đ nh t đ nh M t khía c nh thách th c c a v n đ nƠy d ng nh lƠ phơn bi t v i vi c phân lo i ch đ theo truy n th ng lƠ nh ng ch đ đ c nh n d ng b i nh ng t khóa đ ng m t mình, quan m có th di n t m t cách tinh t h n Ví d cơu sau: “Làm để ngồi xem hết phim ?”khơng ch a Ủ có nghĩa nh t mƠ rõ rƠng lƠ nghĩa tiêu c c Theo đó, quan m d ng nh đòi h i s hi u bi t nhi u h n, tinh t h n 2.7.1 Phơn c c quan m vƠ m c đ phơn c c - : positive/negative/neutral : Like/ dislike/ So so - p/ thumbs down :like to win/ unlike to win Liberal/conservative / bad new 23 : / : “This laptop is great” ” => VD: “The stock prise rose” ” ” : Rating inference (ordinal regression ,ầ : positive, negative, neutral positive negative neutral ) Theo neutral negative negative 10% 2.7.2 Nhi m v c a bƠi toán phơn l p quan m Bài toán phân l p quan m đ c bi t đ n nh lƠ bƠi toán phơn l p tài li u v i m c tiêu phân lo i tài li u theo đ nh h ng quan m Đƣ có r t nhi u ti p c n khác đ c nghiên c u đ gi i quy t cho lo i toán nƠy Đ th c hi n, v c b n có th chia thành hai nhi m v nh sau: - Trích đặc trưng nhằm khai thác thông tin quan điểm để phục vụ mục đích phân loại tài liệu theo định hướng ngữ nghĩa - Xây dựng mơ hình để phân lớp tài liệu 24 2.7.3 Xơy d ng mơ hình phơn l p đ phơn lo i tƠi li u Trong phơn tích quan m, xu h ng c a nh ng t , c m t tr c ti p th hi n quan m, c m xúc c a ng i vi t bƠi Ph ng pháp đ nh n bi t xu h ng quan m c a nh ng t , c m t ch c m nghĩ lƠ d a th ng kê d a t v ng V i nhi m v phân l p tài li u, đƣ có r t nhi u ph ng pháp h c máy th ng kê đ c s d ng cho m c đích nƠy, nh lƠ: Naive Bayes, phân lo i Maximum Entropy, h c máy giám sát SVM, quy t đ nh,ầ Thuật toán gồm bước: Bư c 1: Xác định n-gram, đặc trưng lọc qua toàn tập liệu Bư c 2: Tính tốn tần số xuất n-gram tích cực, tiêu cực tính trọng số n-gram Bư c 3: Chọn n-gram thỏa mãn ngưỡng có trọng số cao loại bỏ bigram khơng có ý nghĩa cho việc phân loại Bư c 4: Tính tốn độ xác q trình huấn luyện phân lớp 25 CH 3.1 D NG III: CH LI U TH NG TRỊNH TH C NGHI M NGHI M Trong đ án này, s d ng d li u t nh ng vi t v đánh giá b phim g m 700 nh n xét tích c c 700 nh n xét tiêu c c D li u nƠy đ c cung c p b i tác gi Lillian Lee (http://www.cs.cornell.edu/people/pabo/moviereview-data/) Các d li u nƠy đƣ d c lo i b ch s đánh giá vƠ rút thông tin nguyên văn t tài li u g c đ nh d ng HTML, x lý d u ch m câu nh m c c a t v ng riêng bi t Chúng t p trung vào nh ng đặc tr ng d a nh ng t đ n cặp t 3.2 CÔNG C S D NG 3.2.1 Công c sinh SRIML SRILM b công c đ xây d ng áp d ng mơ hình ngôn ng th ng kê , ch y u lƠ đ s d ng nh n d ng ti ng nói, gắn thẻ th ng kê phân khúc, d ch máy th ng kê B công c nƠy đ c phát tri n b i “Phịng thí nghi m nghiên c u công ngh gi ng nói SRI” t năm 1995, có th ch y n n t ng Linux nh Windows SRILM bao g m thành ph n sau: M t t p h p th vi n C++ giúp cƠi đặt mơ hình ngơn ng , h tr c u trúc d li u ch c ti n ích nh M t t p h p ch ng trình th c thi th c hi n nhi m v xây d ng mơ hình ngơn ng , đƠo t o th nghi m mô hình ngơn ng d li u, gắn thẻ phơn chia văn b n, B công c SRILM có r t nhi u ch ng ta s d ng ch ng trình Ngram ng trình con, đ xây d ng mơ hình ngơn 26 Ch ng trình Ngram th ng kê t n s xu t hi n c a c m Ngram K t qu c a vi c th ng kê đ c ghi l i vào m t t p s d ng chúng đ xây d ng mơ hình ngơn ng K t qu c a vi c th ng kê đ c ghi l i theo đ nh d ng sau: ngram ậcount ậordern -interpolate -text -lm Trong đó: order n: thi t l p đ dài l n nh t c a c m Ngram s th ng kê n Giá tr mặc đ nh n u không thi t l p tham s n = interpolaten: v i n nh n giá tr 1, 2, 3, 4, 5, 6, 7, 8, Tính tốn t n s c a c m Ngram có đ dài n cách n i suy t c m Ngram có đ dài nh h n text: File d li u c n th ng kê t n s c m Ngram T p văn b n có th ch a m i câu m t dòng Kí hi u k t thúc bắt đ u dòng m i s đ c t đ ng thêm vào n u t p đ u vƠo ch a có Các dịng tr ng t p nƠy b lo i b lm: xây d ng mơ hình ngơn ng truy h i t t n s v a th ng kê, sau ghi l i vào t p fileketqua theo đ nh d ng 3.2.2 Ngơn ng l p trình java Java m t ngơn ng l p trình d ng l p trình h ng đ i t ng (OOP) Khác v i ph n l n ngôn ng l p trình thơng th ng, thay biên d ch mã ngu n thành mã máy thông d ch mã ngu n ch y, Java đ c thi t k đ biên d ch mã ngu n thƠnh bytecode, bytecode sau s đ c mơi tr ng th c thi (runtime environment) ch y Bằng cách nƠy, Java th ng ch y nhanh h n nh ng ngơn ng l p trình thơng d ch khác nh Python, Perl, PHP,ầ t Cú pháp Java đ c vay m n nhi u t C & C++ nh ng có cú pháp h ng đ n gi n h n vƠ tính x lý c p th p h n 27 ng đ i M t s đặc m b t c a java - Máy o java - Thông d ch -Đ cl pn n -H ng đ i t ng Đa nhi m, đa lu ng 3.2.3 Công c phơn l p d li u SVMLight đ SVMThorste c phát tri n b i Joachims nh sau: Các tính c a ch ng trình - T i u hóa thu t toán nhanh - Gi i quy t nhanh v n đ phân lo i h i quy đ i v i k t qu đ u đa bi n - H tr ph ng pháp nh n d ng m u SVM-light bao g m thành ph n chính: - SVMTlearn - SVMTagger - SVMTeval - SVMClassicfy: ki m th k t qu Th c hi n: : svm-learn [-option] train_file model_file 28 : train_file - Tên train_file model_file: - - ) 3.3 K t qu th c nghi m Các b c th c hi n Bư c 1: s d ng công c N-gram đ sinh file d li u ch a N-gram c a tài li u ch a quan m đơy, s d ng uni-gram (1-gram) Bigram (2-gram) Bư c 2: T t p d li u nƠy, tr th c n qua m t s b c đ c s d ng đ hu n luy n ki m c l c b đặc tr ng không t t B c th nh t, l c b t vô nghĩa (stop word), ký t đặc bi t nh {! , ? , / , @ # , “, } B c ti p theo l c b đặc tr ng theo t n s Nh ng đặc tr ng có t n s xu t hi n d li u hu n luy n th p h n m t giá tr nƠo (đ i v i unigram s nh h n vƠ bigram lƠ nh h n 7) s b lo i b B sau đƣ gán tr ng s cho t ng đặc tr ng 29 c cu i đ c th c hi n Bư c 3: Gán nhãn cho m i N-gram t p d li u hu n luy n đ l y thông tin phân lo i: nh n xét ch a quan m tích c c đ nh n xét ch a quan m tiêu c c đ c gán nhãn 1, c gán nhãn -1 ch n Đ th c hi n phân l p tài li u quan m, chia t p d li u thành hai t p t p hu n luy n (train) t p ki m th (test) T p hu n luy n g m có 550 nh n xét tích c c 550 nh n xét tiêu c c T p ki m th (test) g m có 150 nh n xét tích c c 150 nh n xét tiêu c c K t qu th c hi n phân l p Support Vector Machine v i đặc tr ng Unigram vƠ Bigram nh sau: Đặc tr ng Uni-gram Bi-gram Đ xác (Precision) 91,38 % 56,49% Đ ph n h i (Recall) 91,54% 58% Ch ng trình trích đặc tr ng n-gram t o d li u cho phân l p SVM đ phân l p bình lu n tích c c hay tiêu c c 30 1: Giao di n c a ch ng trình 3.2: M file d li u đ u vào 31 3.3: Hi n th d li u dùng đ ch y Get Pos Data 3.4: D li u cho phân l p SVM 32 3.5: Hình nh ch y L nh SVM mơi tr 33 ng DOS Lu n văn h xem xét đ K T LU N ng t i m c tiêu phân l p d li u đ t đ xác cao, đƣ c t t c m c tiêu nh ph n gi i thi u nh ng th i gian có h n, nên m t s v n đ v n ch a hoƠn ch nh Tuy nhiên, lu n văn đ t đ c m t s k t qu : Nghiên c u vƠ trình bƠy c s c a lý thuy t c a ph đ qu Trình bƠy ph ng pháp SVM Đơy lƠ m t ph c nghiên c u nhi u nh t th i gian qua ng pháp h c máy ng pháp phơn l p hi u qu Phân tích nh ng gi i pháp cho phép m r ng c i ti n đ nâng cao hi u ng d ng c a SVM: CƠi đặt đ c m t s công c giúp đỡ cho vi c xây d ng mơ hình ngơn ng nh : chuẩn hóa văn b n, tách t ngơn ng Java CƠi đặt đ c ch ng trình đ trích đặc tr ng vƠ t o d li u cho phân l p SVM Tìm ki m s d ng b d li u phân l p tài li u ch a quan m CƠi đặt ch y thành công b mã ngu n m Srilm môi tr ng Linux S d ng b công c mã ngu n m SRILM đ xây d ng mơ hình ngôn ng cho d li u đ u vào Do th i gian có h n, nên hi n t i lu n văn m i ch nghiên c u đ c trích đặc tr ng n-gram t bình lu n s d ng phân l p SVM đ phân l p bình lu n tích c c hay tiêu c c Trong th i gian t i, s ti p t c nghiên c u trích đặc tr ng khác cho bƠi tốn nƠy vƠ ph ng pháp phơn l p th ng kê khác 34 TÀI LI U THAM KH O Ths Nguy n Th Xuơn H m t số h ng vƠ Ths Lê Th y v “phơn tích quan m ng ti p c n” H i ngh khoa học l n th nh t, 2012, tr ĐHDL H i Phòng Nghiên c u thu t toán phân l p nh phân ng d ng cho bào toán Protein Folding ậ Nguy n Quang Ph c ậ Tr ng Đ i học Khoa học t nhiên TPHCM Bo Pang and Lillian Lee Shivakumar Vaithyanathan Thumbs up Sentiment Classification using Machine Learning Techniques http://en.wikipedia.org/wiki/Support_vector_machine http://www.cs.cornell.edu http://svmlight.joachims.org/ ftp://ftp.cs.cornell.edu/pub/smart/english.stop http://www.speech.sri.com/projects/srilm/download.html 35 ng ... c phân vào l p Đ xác đ nh hàm phân l p d a ph ng pháp SVM, ta s ti n hành tìm hai siêu phẳng song song cho kho ng cách y gi a chúng l n nh t có th đ phân tách hai l p nƠy lƠm hai phía HƠm phơn... p h p k t qu tìm ki m cho m sinh m t danh sách thu c tính s n phẩm (ch t l h t đ nh, ) ” m t song song c a " “ nh ng khía c nh nh t đ nh (Das Chen Tong, 2001) ” ”và ”bi u th m t lĩnh v c nghiên

Ngày đăng: 12/12/2022, 10:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w