Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
1,43 MB
Nội dung
B GIÁO DC VÀ ÀO TO TRƯ NG NG I HC LC HNG *** TRN NGC PHÚC PHÂN LOI NI DUNG TÀI LIU WEB LUN VĂN THC SĨ CÔNG NGH THÔNG TIN ng Nai, 2012 B GIÁO DC VÀ ÀO TO TRƯ NG NG I HC LC HNG *** TRN NGC PHÚC PHÂN LOI NI DUNG TÀI LIU WEB Chuyên ngành: CÔNG NGH THÔNG TIN Mã s: 60.48.02.01 LUN VĂN THC SĨ CÔNG NGH THÔNG TIN NGƯ I HƯ NG NG DN KHOA HC TS PHM TRN VŨ ng Nai, 2012 i L I CAM OAN Tôi xin cam oan ây cơng trình nghiên cu ca bn thân Các s liu, kt qu trình bày lun văn trung thc Nhng tư liu ư c s dng lun văn có ngun gc trích dn rõ ràng, y Hc viên Trn Ngc Phúc ii L I CM Ơ N Tơi xin bày t lịng bit ơ n sâu sc n TS Phm Trn Vũ ã hư ng ng dn nhit tình, tn tâm sut q trình tơi thc hin lun văn Tôi xin chân thành cm ơ n Quý thy cô Khoa Công ngh thông tin trư ng ng i hc Lc Hng ã to iu kin thun l i cho sut th i gian hc tp nghiên cu ti trư ng ng Tôi xin chân thành cm ơ n Q thy ngồi trư ng ng ã tn tâm dy bo tơi sut q trình hc t p giúp tơi tơi q trình nghiên cu Xin chân thành cm ơ n nh ng ngư i thân gia ình, anh ch em, bn bè, ng nghip ã giúp , ng viên tơi q trình thc hin hoàn thành lun văn ng Nai, ngày 10 tháng năm 2012 Hc viên Trn Ngc Phúc iii MC LC LI CAM OAN i LI CM ƠN ii MC LC iii DANH MC HÌNH vi DANH MC BNG vii DANH MC CÁC T VI VIT TT viii M U 1 CHƯƠNG 1: TNG QUAN V PHÂN LOI TÀI LIU 4 1.1 Tng quan v phân loi tài liu 4 1.1.1 Gi i thiu v bài toán phân loi 4 1.1.2 Tng quan 5 1.2 Quy trình phân lo i v ă n b n CHƯƠNG 2: MT S K THUT TRONG PHÂN LOI VĂN BN 9 2.1 X lý văn bn 9 2.1.1 c im ca t trong ting vit 9 2.1.2 Tách t 9 2.1.2.1 Phươ nngg pháp Maximum Matching: Forward / Backward 10 2.1.2.2 Phươ ng ng pháp Transformation – based Learning (TBL) 11 2.1.2.3 Mơ hình tách t bng WFST mng Neural N eural .11 2.1.2.4 Phươ ng ng pháp tách tách t ting Vit da thng kê t Internet thut gii di truyn 13 2.1.2.5 Loi b t dng 13 2.1.3 c trưng văn bn 13 2.2 Biu din văn bn 15 2.2.1 Mơ hình logic 15 2.2.2 Mơ hình phân tích cú pháp 17 2.2.3 Mơ hình khơng gian vector 17 2.2.3.1 Mơ hình boolean 19 2.2.3.2 Mơ hình tn sut 20 2.3 tươ ng ng ng 22 2.3.1 Khái nim tươ ng ng ng 22 iv 2.3.2 tươ ng ng ng 23 2.3.3 Các phươ ng ng pháp tính tươ ng ng ng 23 2.3.3.1 Phươ ng ng pháp tính tươ ng ng ng s dng o Cosine 24 2.3.3.2 Phươ ng ng pháp tính tươ ng ng ng da vào o khong cách Euclide 2.3.3.3 Ph ươ ng ng pháp tính tươ ng ng ng da vào o khong cách 25 Manhattan 25 2.4 Các phươ ng ng pháp phân loi văn bn 26 2.4.1 Phươ ng ng pháp pháp Naïve Bayes (NB) 26 2.4.2 Phươ ng ng pháp Support Vector Machine (SVM) 28 2.4.3 Phươ ng ng pháp K-Nearest Neighbor (KNN) 29 2.4.4 Phươ ng ng pháp Linear Least Square Fit (LLSF) 30 2.4.5 Phươ ng ng pháp Centroid – based vector 31 2.4.6 Kt lun 32 CHƯƠNG 3: CHƯƠNG TRÌNH TH NGHI NGHIM 34 3.1 Quy trình thc hin 34 3.1.1 X lý d liu 34 3.1.1.1 Tách t ting Vit 34 3.1.1.2 Loi b t dng, t tm thư ng ng 36 3.1.2 Xây dng b d liu tp c trưng phc v cho phân loi 41 3.1.2.1 Gi i thiu mơ hình phân tích ch n .41 3.1.2.2 Mơ hình Latent Dirichlet Allocation 42 3.1.3 Phân loi văn bn s dng tn sut ch 45 3.1.4 Phân loi văn bn s dng h s Cosine 45 3.2 Kt qu thc nghim 47 3.2.1 Môi trư ng ng thc nghim 47 3.2.1.1 Môi trư ng ng 47 3.2.1.2 Công c 47 3.2.1.3 D liu 48 3.2.2 Kt qu thc nghim 48 3.2.2.1 Tin x lý văn bn 49 3.2.2.2 Tìm c trưng cho tng th loi 51 3.2.2.3 Phân loi văn bn 59 v PHN KT LUN 62 TÀI LIU THAM KHO vi DANH MC HÌNH Hình 1.1 Quy trình phân loi văn bn 8 Hình 2.1: Biu din vector văn bn không gian chiu 18 Hình 2.2: Mơ hình SVM 28 Hình 3.1: Quy trình tách t 35 Hình 3.2: Ca s trư t v i kích c size size = chuyn ng dc theo d liu 39 Hình 3.3: Tài liu v i K ch n 43 Hình 3.4: Ư c lư ng ng tham s cho tp d liu .43 Hình 3.5: Suy lun ch cho tin tc thu thp t vnexpress.net vnexpress.net 45 Hình 3.6: Văn bn tách thành t 50 Hình 3.7: Gán nhãn t loi cho t 51 Hình 3.8: Suy lun v i th loi kinh doanh 52 Hình Hình 3.9: 3.10:Topic Topiccócótt l l cao thuccthth lo i kinhdoanh doanh v i 1000 tin tin 52 53 caothu loikinh Hình 3.11: Topic có t l cao thuc th loi kinh doanh v i 1500 tin tin 53 Hình 3.12: Topic có t l cao thuc th loi kinh doanh v i 2000 tin tin 53 Hình 3.13: Biu t l s lư ng ng tin tc hc máy th loi kinh k inh doanh 54 Hình 3.14: Biu tươ ng ng ng s lư ng ng hc máy ca th loi kinh doanh 55 Hình 3.15: Các tp c trưng liên kt v i 61 vii DANH MC BNG Bng 2.1: Biu din văn bn mơ hình Logic 15 Bng 2.2: Biu din văn bn mơ hình Vector 18 Bng 2.3: Biu din văn bn mơ hình Boolean 19 Bng 3.1: Ng cnh vic chn c trưng v i Maxent CRFs 40 Bng 3.2: Kt qu gán nhãn t loi ca JvnTagger 41 Bng 3.3: Môi trư ng ng thc nghim 47 Bng 3.4: Công c mã ngun m ss dng 47 Bng 3.5: 30/100 c trưng sau mi ln suy lun 54 Bng 3.6: 25/100 c trưng ca th loi kinh doanh 56 Bng 3.7: 25/100 c trưng ca th loi 57 Bng 3.8: Kt qu phân loi dùng tn sut ch và h s Cosine 59 Bng 3.9: Kt qu phân loi h thng so v i báo 60 viii DANH MC CÁC T VI VIT TT T vi vit tt CRFs Ý ngh ĩ a Conditional Random Fields IDF Inverse Document Frequency KNN K-Nearest Neighbor LDA Latent Drichlet Allocation LLSF Linear Least Square Fit Maxent Maximum Entropy MM Maximum Matching NB pLSA Naïve Bayes Probabilistic Probabilis tic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation - based Learning TF WFST Term Frequency Weighted Finit State Transducer 51 Hình 3.7: Gán nhãn t loi cho t Loi b các t không danh t k t h p v i loi b t dng thu ư c i_dân làng quc_t thăng_long cu_giy hà_ni c trưng:"ting_ng ngư i_dân vũng máu cnh chic ting bch xung_quanh ngư i bà_c nhà hin_trư ng ng v tai_nn nn_nhân _th_thư tui nhà con_gái tng chung_cư tng hàng_xóm thư tng thư ng ng chung_cư bà_c v_vic v _ch _chng ngư i con_gái nn_nhân" 3.2.2.2 Tìm c trư ng ng cho t ng ng th loi Hơ n 2000 tin thc thu thp ư c s dng cho vic hc máy nhm tìm c trưng ti ưu nht cho tng th loi Tin hành suy lun ch các th loi Kt qu thu ư c ca mt s ch : - Ch kinh doanh: file tassign, hin th dng (word : topic): 52 Hình 3.8: Suy lun v i th loi kinh doanh Nhn thy xut hin topic chim t l cao > 48% toàn b th loi kinh doanh, topic cao th hai topic 73 chim khong 3% Hình 3.9: Topic có t l cao thuc th loi kinh doanh Tip tc ưa vào hc máy v i s lư ng ng tin nhiu hơ n (1000 tin) S lư ng ng t ch t ăng nhiu, các ch còn li t ăng s lư ng ng khơng áng k 53 Hình 3.10: Topic có t l cao thuc th loi kinh doanh v i 1000 tin Tip tc ưa vào hc máy v i s lư ng ng 1500 tin, s lư ng ng t ch ch 8 tăng áng k, ch khác s lư ng ng t tăng không áng k v i lư ng ng t ch ch 8 Hình 3.11: Topic có t l cao thuc th loi kinh doanh v i 1500 tin Hc v i 2000 tin, ư c kt qu : Hình 3.12: Topic có t l cao thuc th loi kinh doanh v i 2000 tin 54 70 60 50 40 Topic cao 30 Topic cao thứ 2 20 10 500 tin 1000 tin 1500 tin 2000 tin Hình 3.13: Biu t l s lư ng ng tin tc hc máy th loi kinh doanh Nhn thy, v i th loi kinh doanh hc ln lư t v i 500, 1000, 1500, 2000 tin s lư ng ng t tăng nhiu u ch ch 8, các các ch còn li tăng rt Như vy có hc thêm xác sut s lư ng ng t tăng nhiu ch ch s 8 Khng nh t trong ch 8 c trưng ca th loi kinh doanh Bng 3.5: 30/100 c trưng sau mi ln suy lun 500 tin 1000 tin 1500 tin 2000 tin ngân_hàng tin doanh_nghip nhà_nư c chính_sách n cơng_ty ngân_hàng tin doanh_nghip cơng_ty nhà_nư c hàng chính_sách ngân_hàng doanh_nghip tin mc công_ty usd th_trư ng ng ngân_hàng doanh_nghip mc tin công_ty usd nhà_nư c c_phn lãi_sut n mc nhà_nư c n th_trư ng ng hàng 55 hàng mc th tp_hcm usd th_trư ng ng lãi_sut hà_ni hàng chính_sách lãi_sut thu kinh_t lãi_sut n thu chính_ph à_nng hot_ng tín_dng ơ n_v n_v tài_sn nhân_viên th_trư ng ng thu khách_hàng c_phn hot_ng xăng tín_dng nhân_viên tp_hcm vietcombank tin_t hà_ni lư ng ng kinh_t khách_hàng nư c hot_ng lươ ng ng c_phn chính_ph chính_sách nư c hot_ng lươ ng ng khách_hàng tài_chính hà_ni chính_ph c_phn khách sim lư ng ng chi_nhánh ming nư c thu_thu_nhp cơng_thươ ng ng khách nư c nhà_băng tài_sn tài_chính lãnh_o th ơ n_v n_v tín_dng xăng_du tp_hcm tài_chính thu_nhp nhân_viên chuyên_gia vietcombank vit_nam lư ng ng tín_dng tp_ồn tp_hcm thu_nhp nhà_băng d_án 100 Tỉ lệ tương đồng so với 2000 tin 90 80 70 60 50 40 30 20 10 500 tin 1000 tin 1500 tin Hình 3.14: Biu tươ nngg ng s lư ng ng hc máy ca th loi kinh doanh 56 Mt s c trưng ca th loi kinh doanh, hin th dư i dng t trng s ca t ó: Bng 3.6: 25/100 c trưng ca th loi kinh doanh ngân_hàng doanh_nghip mc tin công_ty usd nhà_nư c th_trư ng ng hàng 0.022099737098371555 0.017216884188108458 0.009575357317244747 0.00940983687960871 0.00896844904591261 0.0084718877330045 0.008140846857732425 0.007147724231916203 0.006513229220978059 kinh_t lãi_sut n thu chính_sách nư c hot_ng lươ ng ng khách_hàng 0.006127014866493973 0.005547693334767843 0.0051338922406777504 0.004830438105011683 0.00477526462579967 0.003920075698013478 0.0038097287395894536 0.003671795041559423 0.003589034822741404 tài_chính hà_ni chính_ph c_phn vit_nam lư ng ng tín_dng 0.003395927645499361 0.0033407541662873485 0.003120060249439299 0.0030648867702272866 0.002954539811803262 0.0028993663325912497 0.0027614326345612185 Các th loi li tươ ng ng t, sau mi ln hc t l các t tp trung vào topic tăng lên áng k, dung topic ó làm c trưng tng th loi Các c trưng ca th loi thu ư c: c: 57 Bng 3.7: 25/100 c trưng ca th loi i sng bác_s ĩ Khoa hc khu Ơ tơ - xe máy xe bnh_vin tui bnh_nhân bnh gia_ ình em bé cháu lồi mơi_trư ng ng cơng_nghip nư c xây_dng vit_nam hot_ng thành_ph chic thu ng_cơ mu ôtô hãng h_thng km phiên_bn sn_ph m tp_hcm tình_trng thai trư ng_h ng_h p y_t v _ch _chng mt khoa ca ch a phòng chic crơ ng ss ngư i_dân i_dân trái_t vùng ng_vt năng_lư ng ng bin in rác nhà_máy nhà_khoa_hc mt_tr i nhóm khu_vc mã_lc cá_nhân thu_nhp cơng_sut usd lít lexus mc màu mm th_thao sang tiêu_chun ng ư ng nhiên_liu Pháp lut công_an cnh_sát Th gi i Th thao nư c trung_quc gii trn tu in huy tnh máy_bay tri u_tiên ch_tch i cu_th bóng 58 cơ _quan _quan v qun xe tin hành_vi iu_tra thanh_niên ma_túy giao_thơng xã ti_phm hình_s tàu chic m tên_la philippines v ht_nhân chuyn khu_vc tin quan_chc hi_quân hot_ng mùa chelsea vô_ch vòng chung_kt champions_league sân bàn hng barca liverpool châu bayern phư ng ng tài_sn ư ng ng lc_lư ng ng thành_ph cán_b tp_hcm v_tinh iran l i bình_như ng ng indonesia bc_kinh núi cup i_tuyn bóng_á tin_v chc im ngoi_hng Văn hóa phim din_viên khán_gi ca_s ĩ in_nh o_din êm b tui váy Vi tính Xã hi máy xe sn_phm màn_hình máy_tính chip thit_b hãng inch in_thoi tay ôtô ư ng ng thu chic giao_thông cá_nhân xe_máy tp_hcm hàng ca_khúc tình_yêu u_tiên camera ngư i_dân i_dân hà_ni 59 cuc_thi nam chic chươ ng_trình ng_trình vai thí_sinh bui n vit_nam giám_kho ngơi_sao tài_t hoa_hu tc_ apple b_nh nh dịng d_liu laptop model phone usd video samsung th_trư ng ng khu_vc thành_ph thu_nhp cu phươ ng_ti ng_tin nư c chiu tai_nn v nguyên_nhân th i_gian i_gian lc_lư ng ng qun 3.2.2.3 Phân loi văn bn V i 10 b d liu thuc 10 th loi thu thp t Vnexpress.net m i nht (theo úng th loi báo in t Vnxpress.net ưa ra) ưa vào h thng phân loi v i phươ ng ng pháp: s dng t n sut ch s dng h s Cosine Ly th loi t trang Vnexpress.net làm chun, kt qu phân loi so v i chun: Bng 3.8: Kt qu phân loi dùng tn sut ch và h s Cosine Th loi Dùng tn sut H s Cosine i sng 65 73 Khoa hc 58 66 Kinh doanh 82 89 Ơ tơ – xe máy 89 90 Pháp lut 81 81 Th gi i 70 66 Th thao 88 91 60 Văn hóa 91 89 Vi tính 80 86 Xã hi 50 40 Trung bình 75,4% 77,1% Xét toàn h thng, kt qu phân loi dùng h s Cosine tt hơ n dùng tn sut ch Chn phươ ng ng pháp dùng h s Cosine làm phươ ng ng pháp cho h thng phân loi, tip tc xét chi tit tng th loi cho kt qu khác so v i báo ã ưa Thu ư c kt qu: Bng 3.9: Kt qu phân loi h thng so v i báo Th loi i sng Khoa hc Kinh doanh Ơ tơ – xe máy Pháp lut Th gi i Th thao Văn hóa Vi tính Xã hi Tng S tài liu sai so v i báo 27 34 11 10 19 34 11 14 60 229 Báo ư a sai H thng sai 18 21 22 4 32 129 13 5 11 12 28 100 Như v y, s d ng h s Cosine tính tươ ng ng ng phân loi văn bn s cho kt qu tt hơ n s dng tn sut ch trên tồn b d liu Kt qu phân loi t chính xác so v i d liu mu 77,1%, s 22,9% cịn li d liu mu ưa sai 12,9% h thng phân loi sai 10%, như 61 vy, t l trung bình chính xác ca h thng t 90% Kt qu 90% kh quan, tp c tr ưng d liu có dng liên kt v i nhau, th, có nhiu kh năng mt tài liu văn bn có th thuc th loi, hai th hoc nhiu th lo i, h thng s gán tài liu vào th lo i có h s cao nht Biu di n tp c trưng như sau: Đời sống Văn hóa Pháp luật Xã hội … Hình 3.15: Các tp c trưng liên kt v i 62 PHN KT LUN Kt qu t ư c ca lun văn Lun v ăn ti n hành nghiên cu gii quyt toán phân loi v ăn b n ting Vit da vào c trưng Bài toán nn tng cho nhiu ng dng quan trng thc t như lc thư spam, rút trích văn bn, h thơng khuyn cáo ngư i dùng, … Phươ ng ng pháp gii quyt c a lun v ăn t p trung vào q trình phân tích c trưng văn bn cho c d liu hc máy d liu cn phân loi da vào nghiên cu v ch n, biu din văn bn dư i dng vector Xây dng ư c b d liu c trưng cho tng th loi ng ng ánh giá phân loi ưa s dng o tươ ng Mt mơ hình phân loi ư c ưa t các bư c tin x lý cho t i ưa giá tr cui t k t qu kh quan, cho thy tính úng n ca vi c l a chn như kt h p phươ ng ng pháp Tuy bư c u t mt s kt qu kh quan, vn tn ti mt s vn cn khc phc: + Mt văn bn u vào cn phân loi sau trình cho k t thuc vào mt th loi nht + H n ch s l ư ng ng cht lư ng ng ca kho d liu tin tc nh hư ng ng n cht lư ng ng phân loi ca h thng + Cn xác nh giá tr chun mt văn bn thuc vào hoc nhiu th loi, hoc không thuc th loi Hư ng ng phát trin ca lun văn Phát trin m rrng mơ hình phân loi văn bn cho văn bn khác văn bn dng tin tc Ci tin quy trình x lý tăng tc cho h thng TÀI LIU THAM KHO Ting Vit: d ng khái nim m trong bi u di n v ăn d [1] Nguyn Vit Cư ng ng (2006), “S bn áp d ng vào toán phân l p văn bn”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng t ư v n Website cho máy tìm ki m d [2] Nguyn Song Hà (2009), “ H th ng ư v trên khai phá Query log”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng pháp phân cm tài liu Web áp [3] Nguyn Th Thu Hng (2007), “Phươ ng d ng vào máy tìm ki m”, lun văn cao hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng ng [4] Hoàng Minh Hin (2008), “ t ươ ươ ng d ng tóm t t v ăn bn”, ng nghĩ a gi a hai câu n ng g lun v ăn t t nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni [5] JVnTagger-Manual, Công c gán nhãn t loi ting Vit da Conditional Random Fields Maximum Entropy [6] Nguyn Th Thùy Linh (2006), “Phân l p tài liu Web c l p ngôn ng ”, ”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni r ng thông tin ng c cnh phiên duyt [7] Uông Huy Long (2010), “Gii pháp m r Web ngư i dùng nh m nâng cao ch t lư ng ng t ư ng t ư ư v n h th ng ư v n tin t c ”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni loi hư ng ng ti p cn [8] Trn Th Oanh (2008), “ Mơ hình tách t , gán nhãn t lo tích h p cho ti ng ng Vit ”, ”, Quc gia Hà Ni lun v ăn cao hc, trư ng ng i hc Công Ngh, i hc ng câu truy v n v i [9] Nguyn Hu Phươ ng ng (2009), “Qung cáo tr c tuy n h ư ng s giúp giúp ca phân tích ch n k thut tính hng”, lun v ăn t t nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng [10] Nguyn Th Quang, “Phát tri n thut toán gom cm văn bn HTML ng d ng”. [11] Trình Quc Sơ n, n, “Phân loi văn bn”, khóa lun mơn Datamining tr xây d n [12] Nguyn Phươ ng ng Thái, “Phát tri n b công c h tr xây ng g kho ng liliu cho phân tích văn bn ti ng ng Vit ”, ”, lun văn cao hc, trư ng ng i hc Khoa hc t nhiên [13] Nguyn Cm Tú (2008), “ Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents”, lun văn cao hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni [14] Trn Mai Vũ (2009), “Tóm t t văn bn d a vào trích xu t câu”, lun văn cao hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni [15] Nguyn Th Hi Yn (2007), “Phân l p bán giám sát ng d ng thut ng toán SVM vào phân l p trang Web”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni Ting Anh: [16] Arturo Montejo-Rasez (2005), “ Automatic Text Categorization of document in the High Energy Physics domain”, [17] Fabrizio Sebastiani, “Text thesis Categorization”, Dipartimento di Matematica Pura e Applicata, Universit`a di Padova [18] Hiroya Takamura (2003), “Clustering Approaches to Text Categorization”, Doctor’s thesis, Department of Information Processing, Graduate School of Information Science, Nara Institute of Science and Technology [19] Rong Hu (2011) “ Active Learning for Text Classification”, Doctoral Thesis, Dublin Institute of Technology [20] T Hofmann (1999), “Probabilistic Latent Semantic Analysis”, To appear in: Uncertainity in Articial Intelligence, UAI'99, Stockholm [21] Thorsten Joachims, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, University Dortmund [22] Tong Zhang and Frank J Oles, “Text Categorization Based on Regularized Linear Classifiacation Methods ”, Mathematical Sciences Department IBM [23] Tran Vu Pham, Le Nguyen Thach (2011) , “Social-Aware Similarity Computation for Recommender Systems”, Document Proceedings of the 2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing [24] Tran Vu Pham (2011), “ Dynamic Distributed Scientific Networks”, Profile Representation and Matching in in Journal of Science and Technology Development, Vol 14, No K2 Internet: [25] Cơng c phân tích ch n, http://jgibblda.sourceforge.net/ [26] H tách t ting Vit, http://vlsp.vietlp.org:8080/demo/?page=resources [27] Thông tin chi tit: tài http://vpct.gov.vn/News.aspx?ctl=projectdetail&ID=29 – d án, ... I HC LC HNG *** TRN NGC PHÚC PHÂN LOI NI DUNG TÀI LIU WEB Chuyên ngành: CÔNG NGH THÔNG TIN Mã s: 60.48.02.01 LUN VĂN THC SĨ CÔNG NGH THÔNG TIN NGƯ I HƯ NG NG DN KHOA HC TS... trình phân loi văn bn - Hin thc quy trình phân loi văn bn B cc trình bày ca lun văn Chươ ng ng 1: Gi i thiu tng quan v bài toán phân l p văn bn ưa quy trình phân l p văn bn... • ? ?tài ? ?Phân l p tài liu Web c l p ngôn ng ” [6] ca Nguyn Th Thùy Linh, ngành Công ngh? ?thông tin, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni năm 2006 tài nghiên