Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 89 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
89
Dung lượng
1,8 MB
Nội dung
HUTECH B GIÁO DC VÀ ÀO TO TRNG I HC K THUT CÔNG NGH KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH PHN MM LUN VN TT NGHIP TÌM HIU V PHÂN LOI VN BN VÀ XÂY DNG CHNG TRÌNH NG DNG Sinh viên thc hin: 1. H tên: PHAN THANH BÌNH MSSV: 10102019 2. H tên: LÊ BCH V MSSV: 10102218 TP. H CHÍ MINH NM HC: 2005-2006 HUTECH B GIÁO DC VÀ ÀO TO TRNG I HC K THUT CÔNG NGH KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH PHN MM LUN VN TT NGHIP TÌM HIU V PHÂN LOI VN BN VÀ XÂY DNG CHNG TRÌNH NG DNG Sinh viên thc hin: 1. H tên: PHAN THANH BÌNH MSSV: 10102019 2. H tên: LÊ BCH V MSSV: 10102218 Ging viên hng dn: Ths. NGUYN CHÁNH THÀNH TP.HCM, THÁNG 1 NM 2006 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 1 LI NÓI U Ngày nay, vi s phát trin ca công ngh thông tin, thì s lng thông tin cng bùng n nhanh chóng. Các thông tin tn ti di nhiu hình thc khác nhau nh: các trang web, th đin t, c s d liu… Do đó công vic tìm kim thông tin theo ni dung nào đó cng tr nên khó khn. T thc tin này nhu cu phân loi các thông tin đã xut hin t rt sm. Nhng nu dùng con ngi đ phân loi các thông tin thì s mt rt nhiu công sc và tin bc. Cho nên ngi ta đã tìm ra nhiu phng pháp phân loi vn bn t đng giúp gim gánh nng cho con ngi. HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 2 TÓM TT NI DUNG Trong lun vn này chúng tôi s trình bày v các phng pháp phân loi vn bn và hin thc gii thut K-Nearest Neightbour (K-NN). ây là gii thut không quá phc tp nhng có đ chính xác khá cao. Các phn trong lun vn s đc trình bày nh sau: Chng 1: Chng này s trình bày v nhu cu thc tin ca vic phân loi vn bn và các ng dng thc t ca các ph ng pháp phân loi vn bn t đng. Chng này s cho ta thy s cn thit ca vic phân loi vn bn t đng trong thi đi ngày nay. Chng 2: Chng này trình bày v các c s lý thuyt liên quan đn quá trình phân loi vn bn t đng. Cung cp các kin thc rt quan trng dùng đ cài đt và kim tra hiu qu ca các phng pháp phân loi t đng. Chng 3: Chng này trình bày tng quan mt s phng pháp phân loi vn bn t đng nh: Gii thut Rocchio, Gii thut K-Nearest Neighbour, Naïve Bayes, Gii thut cây quyt đnh, Gii thut mng neuron, Gii thut Support Vector Machine. Chng 4: Chng này s trình bày bng thit k và cài đt chng trình phân loi vn bn t đng theo phng pháp K-Nearest Neighbour. Sau đó chúng tôi s trình bày các kt qu đt đc sau khi chy th nghim chng trình nh đ chính xác, tc đ ca chng trình. minh ha cho vic ng dng phng pháp phân loi vn bn t đng, chúng tôi có cài đt các module crawler dùng đ rút trích vn bn trên mng máy tính, module index dùng đ lp ch mc các vn bn đã phân loi và mt trang web tìm kim. Chng 5: Chng này s trình bày các tho lun và rút ra các kt lun và kt qu đi chiu vi mc tiêu đ ra. Cui cùng là đnh hng phát trin ca đ tài. HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 3 LI CM N Li cám n đu tiên chúng tôi xin gi đn Thc s Nguyn Chánh Thành. Thy đã tn tình hng dn và đnh hng cho chúng tôi t đ án c s, đ án chuyên ngành và nay là lun vn tt nghip. Chúng tôi xin chúc thy luôn vui v hnh phúc và luôn nhit tình ch bo cho các sinh viên. Tip theo chúng tôi xin cám n các anh ch trong công ty Thng mi c phn HPT chi nhánh thng mi TP-HCM đã nhit tình giúp đ và to điu kin cho chúng tôi tìm kim vn bn và d liu kim chng chng trình. Cui cùng xin cám n đn các bn thân hc cùng khóa 01- TH đã quan tâm đng viên c húng tôi trong quá trình thc hin đ tài này. HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 4 MC LC LI NÓI U 1 TÓM TT NI DUNG 2 LI CM N 3 MC LC 4 DANH MC HÌNH 9 DANH MC BNG 11 Chng 1 12 PHÁT BIU VN 12 1.1. Gii thiu 12 1.1.1. ng c thúc đy vic phân loi vn bn t đng 13 1.1.2. Mt s ng dng ca vic phân loi vn bn theo ch đ 14 1.2. Ni dung đ tài 15 1.3. ng dng m rng - Lp ch mc và tìm kim ca Lucene 16 1.3.1. Gii thiu Lucene 16 1.3.2. C s nn tng ca Lucene 18 1.3.3. Mc đích, chc nng, công dng 18 1.3.4. To ch mc và tìm kim 19 Chng 2 20 C S LÝ THUYT PHN LOI VN BN 20 2.1. Biu din vn bn 20 2.1.1. Phng pháp Boolean 23 2.1.2. Phng pháp tn sut t (work frequency) 24 2.1.3. Phng pháp tf-idf (frequency x inverse document frequency) 24 2.1.4. Phng pháp tfc (Term Frequency Component) 25 2.1.5. Phng pháp ltc (Log Term Component) 25 2.1.6. Phng pháp Entropy 26 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 5 2.2. Rút gn danh sách t 26 2.2.1. Phng pháp ngng tn xut ca vn bn. 27 2.2.2. Phng pháp đ li thông tin 27 2.2.3. Phng pháp thông tin tng h 28 2.2.4. Phng pháp đ mnh ca t 28 2.2.5. Phng pháp thng kê 2 χ 29 2.3. Tp vn bn dùng đ phân loi 30 2.3.1. Gii thiu 30 2.3.2. Tp Reuters 30 2.3.3. Tp 20-newsgroup 33 2.4. ánh giá đ chính ca vic phân loi vn bn 34 2.4.1. Thông s precision. 35 2.4.2. Thông s recall 35 2.4.3. Thông s f (f-score) 35 2.4.4. Thông s accuracy 36 2.4.5. Thông s error 36 Chng 3 37 CÁC GII THUT PHÂN LOI VN BN 37 3.1. Gii thut Rocchio 37 3.1.1. Gii thiu 37 3.1.2. Giai đon hun luyn 38 3.1.3. Giai đon phân loi 39 3.1.4. ánh giá gii thut 40 3.2. Gii thut K-Nearest Neighbour 41 3.2.1. Gii thiu 41 3.2.2. Giai đon hun luyn 42 3.2.3. Giai đon phân loi 43 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 6 3.2.4. ánh giá gii thut 44 3.3. Gii thut Naïve Bayes 45 3.3.1. Gii thiu 45 3.3.2. Giai đon hun luyn 46 3.3.3 Giai đon phân loi 46 3.3.4. ánh giá gii thut 47 3.4. Gii thut cây quyt đnh 47 3.4.1. Cây quyt đnh 47 3.4.2. Entropy và đ li thông tin. 49 3.4.3. Ct nhánh cây quyt đnh. 49 3.4.4. Nhn xét 50 3.5. Gii thut mng Neuron (Neural Network) 50 3.5.1. Gii thut 50 3.5.2. ánh giá gii thut 53 3.6. Gii thut Support Vector Machine 54 3.6.1. Các mt phân cách (Hyperplanes) 54 3.6.2. Gii thut Support Vector Machine. 55 3.6.3. Nhân xét. 56 3.7. Chn gii thut 57 Chng 4 58 THIT K VÀ HIN THC CHNG TRÌNH PHÂN LOI VN BN 58 4.1. Quá trình xây dng gii thut K-Nearest Neighbour 58 4.1.1. Xây dng t đin (danh sách t khóa) 58 4.1.2. Giai đon hun luyn 58 4.1.3. Giai đon phân loi 59 4.2. S đ usecase 60 4.3. S đ tun t ca vài nghip v chính 61 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 7 4.3.1. Hun luyn vn bn 61 4.3.2. Phân loi vn bn 62 4.3.3. ánh giá kt qu phân loi 63 4.3.4. Trích rút d liu trên mng 65 4.3.5. Lp ch mc 66 4.3.6. Tìm kim 67 4.4. S đ lp 68 4.4.1. Pakage textcategory.reader 68 4.4.2. Package textcategory.analysis 69 4.4.3. Package textcategory.training 70 4.4.4. Package textcategory.category 72 4.4.5. Package store. 72 4.4.6. Package crawler 73 4.4.7. Package index 74 4.4.8. Package util 74 4.5. Thit k c s d liu 75 4.6. Thit k giao din 76 4.6.1. Màn hình chính ca chng trình 76 4.6.2. Màn hình to loi vn bn 76 4.6.3. Màn hình hun luyn chng trình 77 4.6.4. Màn hình phân loi d liu 77 4.6.5. Màn hình kt qu phân loi 78 4.6.6. Màn hình to ch mc (reverted index) 78 4.6.7. Màn hình trích rút d liu trên mng 79 4.6.8. Trang ch tìm kim theo ch đ 79 4.6.9. Trang tìm kim theo ch đ 80 4.7. Kt qu đt đc 80 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 8 Chng 5 83 ÁNH GIÁ VÀ HNG PHÁT TRIN 83 5.1. ánh giá 83 5.1.1. Kt qu đt đc 83 5.1.2. Các hn ch ca đ tài 84 5.2. Hng phát trin ca đ tài 84 PH LC 86 1. T đin gii thích các thut ng 86 2. Các mã ngun m đc s dng trong lun vn 87 3. Tài liu tham kho 87 [...]... ình bày là phân lo - m tiêu c k 1.1.1 vi Phân lo b c H U TE N tham gia vào vi này r C H Th à th phân lo chuyên gia, vì v ân lo vi hi Th th SVTH: Phan Thanh Bình & Lê B Trang 13 GVHD: Th.s Nguy Lu 1.1.2 M hân lo ch a Phân lo dùng các h b t theo ngôn ng b Phân lo C hia các thông tin nh N thì s lo c kh s H U TE quan c n C H theo ch chính xác c Tìm ki Vi nh tri ph nên các c giúp không gian tìm ki Ngoài... Lucene không quá ph t xây d H U TE tìm ki Ta có th ình bên trên, nh SVTH: Phan Thanh Bình & Lê B , giúp x ình sau: Trang 16 GVHD: Th.s Nguy H U TE C H Lu Hình 1 Mô hình ki n trúc c a Lucene M s m th Lucene Wiki , và tìm ki (http://wiki.apache.org/jakarta- lucene/PoweredBy) v LARM, và jSearch V c h ho và tìm ki SVTH: Phan Thanh Bình & Lê B Trang 17 GVHD: Th.s Nguy Lu 1.3.2 Lucene là s và s cho phép m Software... j j 1 và 2 max w max 2 w, c j SVTH: Phan Thanh Bình & Lê B Trang 29 GVHD: Th.s Nguy Lu 2.3 T nb 2.3.1 Gi Các t luy T máy h sau này v C H T h T lo i sau khi xây d H U TE 2.3.2 T T ti - 21578, do nhóm Reuter xây d cho m Lewis và Peter Schoemaker vào 1996 v quát chu b SGML (Standard Generalized Markup Language) nh s các t lo làm gi Lewis và Schoemaker tìm th ng l ngh t ngôn ng các K -m ã -21578 và lo... magazine, Epiphany, và m Doug Cutting, m (tìm ki và công c t ki -Twin và hi H U TE gi C H 1.3.3 M text-search là ki Searchable email : M thêm vào nh t Online documentation search: m Searchable Webpages: M CD, Web - t Web hay máy ch xây d Website search: M Website c SVTH: Phan Thanh Bình & Lê B Trang 18 GVHD: Th.s Nguy Lu Content search: M b ã trong m ( Open Document dialog) Version control và content management:... Nguy Lu Content search: M b ã trong m ( Open Document dialog) Version control và content management: m b có th , hay phiên b nh d T Lucene tìm ki l b -T tích n tên/giá tr H U TE Fields c C H 1.3.4 T - Tìm ki vào m dùng m IndexSearcher câu truy v QueryParser c xây d và tr h tr score cho m SVTH: Phan Thanh Bình & Lê B Trang 19 GVHD: Th.s Nguy Lu LÝ THUY T PH N LO N 2.1 Bi H ác t d t C H chuy D Lo Chuy... Lê B Trang 14 GVHD: Th.s Nguy Lu d Phân lo Ch g phân lo -T - Phân ph - Chuy 1.2 N Trong lu – Nearest ahoo, … tu algorithm), m óm gi structure and H U TE Các ch C H nay có r trí tu chúng giao nhau r còn l b thu toàn khác nhau nên vi m trên thì vi Tóm l toàn có th h th SVTH: Phan Thanh Bình & Lê B Trang 15 GVHD: Th.s Nguy Lu 1.3 -L 1.3.1 Gi Lucene là b t (indexing) và tìm ki ho viên r các d g b Lucene... 53 C H Hình 9 Mô hình lan truy 54 Hình 11 Các tr 55 Hình 12 Bi 55 56 Hình 14 Ví d 59 H U TE Hình 13 Mô t Hình 15 S mô t Hình 16 S Hình 17 S quá trình phân lo Hình 18 S Hình 19 S trình Hình 20 S Hình 21 S 60 61 62 64 65 66 m ki 67 Hình 22 Package reader 68 Hình 23 Pakage analysis 69 Hình 24 Pakage... 11 GVHD: Th.s Nguy Lu PHÁT BI U V 1.1 Gi Lu nt ã liên t t h ngh C H Phân lo b x này, là m X thu H U TE dung và trong nhi NLP: Natural Language Processing) là l cho vi cho các câu l nó thu hút r t Text to Speech) Nhân d Speech Recognition) Sinh ra ngôn ng Natural Language Generation) Máy d Machine Translation) Tr Question Answering) Tìm ki (Information Retrieval) Trích rút thông tin (Information Extraction)... Lê B Trang 23 GVHD: Th.s Nguy Lu f ij f ij 1 0 wij 2.1.2 Ph 0 0 áp t w ij b w ij 2.1.3 f ij Ph áp tf-idf (frequency x inverse document hi m và t xu Thi w ij H U TE Kh C H frequency) g pháp này b ij s ij v -idf: tf ij * log 2 N df i Ta có: tf ij f ij max( f ij ) và idf i log 2 N df i SVTH: Phan Thanh Bình & Lê B Trang 24 GVHD: Th.s Nguy Lu - tf ij : là s ong df i t - idf i : là ngh s Suy ra công th wij... ] including conducting appraisals, in connection with the acquisitions Reuter ENDDOC b Phân nhóm các t SVTH: Phan Thanh Bình & Lê B Trang 32 GVHD: Th.s Nguy Lu Ví d Quy t Chúng ta không s ho Quy t C H ít nh Quy t n chia các t H U TE hu B ng 3 Th ng kê m t s ch 2.3.3 T T trong t p Reuters -newsgroup -newsgroup c phân lo -newsgroup không h nhiên t SVTH: Phan Thanh Bình & Lê B Trang 33 GVHD: Th.s Nguy . quá trình hun luyn chng trình 61 Hình 17. S đ tun t ca quá trình phân loi vn bn 62 Hình 18. S đ tun t ca quá trình đánh giá kt qu phân loi 64 Hình 19. S đ tun t ca quá trình. DC VÀ ÀO TO TRNG I HC K THUT CÔNG NGH KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH PHN MM LUN VN TT NGHIP TÌM HIU V PHÂN LOI VN BN VÀ XÂY DNG CHNG TRÌNH. index dùng đ lp ch mc các vn bn đã phân loi và mt trang web tìm kim. Chng 5: Chng này s trình bày các tho lun và rút ra các kt lun và kt qu đi chiu vi mc tiêu đ ra.