PHÂN LOẠI NỘI DUNG TÀI LIỆU WEB LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

75 31 0
PHÂN LOẠI NỘI DUNG TÀI LIỆU WEB  LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

    B GIÁO DC VÀ ÀO TO TRƯ NG NG I HC LC HNG *** TRN NGC PHÚC PHÂN LOI NI DUNG TÀI LIU WEB LUN VĂN THC SĨ CÔNG NGH THÔNG TIN ng Nai, 2012     B GIÁO DC VÀ ÀO TO TRƯ NG NG I HC LC HNG *** TRN NGC PHÚC PHÂN LOI NI DUNG TÀI LIU WEB Chuyên ngành: CÔNG NGH THÔNG TIN Mã s: 60.48.02.01 LUN VĂN THC SĨ CÔNG NGH THÔNG TIN NGƯ I HƯ NG NG DN KHOA HC TS PHM TRN VŨ  ng Nai, 2012    i L I CAM OAN  Tôi xin cam oan ây cơng trình nghiên cu ca bn thân Các s  liu, kt qu trình bày lun văn trung thc Nhng tư liu ư c s  dng lun văn có ngun gc trích dn rõ ràng, y  Hc viên Trn Ngc Phúc   ii L I CM Ơ N  Tơi xin bày t lịng bit ơ n sâu sc n TS Phm Trn Vũ ã hư ng ng dn nhit tình, tn tâm sut q trình tơi thc hin lun văn Tôi xin chân thành cm ơ n Quý thy cô Khoa Công ngh thông tin trư ng ng i hc Lc Hng ã to iu kin thun l i cho sut th i gian hc tp nghiên cu ti trư ng ng Tôi xin chân thành cm ơ n Q thy ngồi trư ng ng ã tn tâm dy bo tơi sut q trình hc t p giúp   tơi  tơi q trình nghiên cu Xin chân thành cm ơ n nh ng ngư i thân gia  ình, anh ch em, bn bè, ng nghip ã giúp  , ng viên tơi q trình thc hin hoàn thành lun văn  ng Nai, ngày 10 tháng năm 2012 Hc viên Trn Ngc Phúc   iii MC LC LI CAM OAN i  LI CM ƠN ii  MC LC iii  DANH MC HÌNH vi  DANH MC BNG vii  DANH MC CÁC T  VI  VIT TT viii  M U 1  CHƯƠNG 1: TNG QUAN V PHÂN LOI TÀI LIU 4  1.1 Tng quan v phân loi tài liu 4  1.1.1 Gi i thiu v bài toán phân loi 4  1.1.2 Tng quan 5    1.2 Quy trình phân lo  i v ă n b  n CHƯƠNG 2: MT S K THUT TRONG PHÂN LOI VĂN BN 9  2.1 X lý văn bn 9  2.1.1 c im ca t trong ting vit 9  2.1.2 Tách t  9  2.1.2.1 Phươ nngg pháp Maximum Matching: Forward / Backward 10  2.1.2.2 Phươ ng ng pháp Transformation – based Learning (TBL) 11  2.1.2.3 Mơ hình tách t bng WFST mng Neural N eural .11  2.1.2.4 Phươ ng ng pháp tách tách t ting Vit da thng kê t Internet thut gii di truyn 13  2.1.2.5 Loi b t dng 13  2.1.3 c trưng văn bn 13  2.2 Biu din văn bn 15  2.2.1 Mơ hình logic 15  2.2.2 Mơ hình phân tích cú pháp 17  2.2.3 Mơ hình khơng gian vector 17   2.2.3.1 Mơ hình boolean 19  2.2.3.2 Mơ hình tn sut 20  2.3  tươ ng ng ng 22  2.3.1 Khái nim  tươ ng ng ng 22    iv 2.3.2  tươ ng ng ng 23  2.3.3 Các phươ ng ng pháp tính  tươ ng ng ng 23  2.3.3.1 Phươ ng ng pháp tính  tươ ng ng ng s dng  o Cosine 24  2.3.3.2 Phươ ng ng pháp tính  tươ ng ng ng da vào  o khong cách   Euclide 2.3.3.3 Ph ươ ng ng pháp tính  tươ ng ng ng da vào  o khong cách 25 Manhattan 25  2.4 Các phươ ng ng pháp phân loi văn bn 26  2.4.1 Phươ ng ng pháp pháp Naïve Bayes (NB) 26   2.4.2 Phươ ng ng pháp Support Vector Machine (SVM) 28  2.4.3 Phươ ng ng pháp K-Nearest Neighbor (KNN) 29  2.4.4 Phươ ng ng pháp Linear Least Square Fit (LLSF) 30  2.4.5 Phươ ng ng pháp Centroid – based vector 31  2.4.6 Kt lun 32  CHƯƠNG 3: CHƯƠNG TRÌNH TH  NGHI  NGHIM 34  3.1 Quy trình thc hin 34  3.1.1 X lý d liu 34  3.1.1.1 Tách t ting Vit 34  3.1.1.2 Loi b t dng, t tm thư ng ng 36  3.1.2 Xây dng b d liu tp c trưng phc v cho phân loi 41  3.1.2.1 Gi i thiu mơ hình phân tích ch  n .41  3.1.2.2 Mơ hình Latent Dirichlet Allocation 42  3.1.3 Phân loi văn bn s dng tn sut ch  45  3.1.4 Phân loi văn bn s dng h s Cosine 45  3.2 Kt qu thc nghim 47  3.2.1 Môi trư ng ng thc nghim 47  3.2.1.1 Môi trư ng ng 47  3.2.1.2 Công c  47  3.2.1.3 D liu 48  3.2.2 Kt qu thc nghim 48  3.2.2.1 Tin x lý văn bn 49  3.2.2.2 Tìm c trưng cho tng th loi 51  3.2.2.3 Phân loi văn bn 59    v PHN KT LUN 62  TÀI LIU THAM KHO    vi DANH MC HÌNH Hình 1.1 Quy trình phân loi văn bn 8  Hình 2.1: Biu din vector văn bn không gian chiu 18  Hình 2.2: Mơ hình SVM 28  Hình 3.1: Quy trình tách t  35  Hình 3.2: Ca s trư t v i kích c  size  size = chuyn ng dc theo d liu 39  Hình 3.3: Tài liu v i K ch  n 43  Hình 3.4: Ư c lư ng ng tham s cho tp d liu .43  Hình 3.5: Suy lun ch  cho tin tc thu thp t vnexpress.net vnexpress.net 45  Hình 3.6: Văn bn tách thành t 50  Hình 3.7: Gán nhãn t loi cho t 51  Hình 3.8: Suy lun v i th loi kinh doanh 52    Hình Hình 3.9: 3.10:Topic Topiccócótt l l cao thuccthth lo i kinhdoanh doanh v i 1000 tin tin 52 53   caothu  loikinh Hình 3.11: Topic có t l cao thuc th loi kinh doanh v i 1500 tin tin 53  Hình 3.12: Topic có t l cao thuc th loi kinh doanh v i 2000 tin tin 53  Hình 3.13: Biu  t l s lư ng ng tin tc hc máy th loi kinh k inh doanh 54  Hình 3.14: Biu   tươ ng ng ng s lư ng ng hc máy ca th loi kinh doanh 55  Hình 3.15: Các tp c trưng liên kt v i 61    vii DANH MC BNG Bng 2.1: Biu din văn bn mơ hình Logic 15  Bng 2.2: Biu din văn bn mơ hình Vector 18  Bng 2.3: Biu din văn bn mơ hình Boolean 19  Bng 3.1: Ng cnh vic chn c trưng v i Maxent CRFs 40  Bng 3.2: Kt qu gán nhãn t loi ca JvnTagger 41  Bng 3.3: Môi trư ng ng thc nghim 47  Bng 3.4: Công c mã ngun m   ss dng 47  Bng 3.5: 30/100 c trưng sau mi ln suy lun 54  Bng 3.6: 25/100 c trưng ca th loi kinh doanh 56  Bng 3.7: 25/100 c trưng ca th loi 57  Bng 3.8: Kt qu phân loi dùng tn sut ch  và h s Cosine 59  Bng 3.9: Kt qu phân loi h thng so v i báo 60    viii DANH MC CÁC T  VI  VIT TT T  vi  vit tt CRFs Ý ngh ĩ a Conditional Random Fields IDF Inverse Document Frequency KNN K-Nearest Neighbor LDA Latent Drichlet Allocation LLSF Linear Least Square Fit Maxent Maximum Entropy MM Maximum Matching NB pLSA Naïve Bayes Probabilistic Probabilis tic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation - based Learning TF WFST Term Frequency Weighted Finit State Transducer   51 Hình 3.7: Gán nhãn t loi cho t Loi b các t không danh t k t h p v i loi b t dng thu ư c i_dân làng quc_t  thăng_long cu_giy hà_ni c trưng:"ting_ng ngư i_dân vũng máu cnh chic ting bch xung_quanh ngư i bà_c nhà hin_trư ng ng v tai_nn nn_nhân _th_thư tui nhà con_gái tng chung_cư tng hàng_xóm thư tng thư ng ng chung_cư bà_c v_vic v _ch _chng ngư i con_gái nn_nhân" 3.2.2.2 Tìm c trư ng ng cho t ng ng th loi Hơ n 2000 tin thc thu thp ư c s dng cho vic hc máy nhm tìm c trưng ti ưu nht cho tng th loi Tin hành suy lun ch  các th loi Kt qu thu ư c ca mt s ch : - Ch  kinh doanh: file tassign, hin th dng (word : topic):   52 Hình 3.8: Suy lun v i th loi kinh doanh Nhn thy xut hin topic chim t  l cao > 48% toàn b   th  loi kinh doanh, topic cao th  hai topic 73 chim khong 3% Hình 3.9: Topic có t l cao thuc th loi kinh doanh Tip tc ưa vào hc máy v i s  lư ng ng tin nhiu hơ n (1000 tin) S  lư ng ng t      ch    t ăng nhiu,   các   ch   còn li t ăng s   lư ng ng khơng áng k   53 Hình 3.10: Topic có t l cao thuc th loi kinh doanh v i 1000 tin Tip tc ưa vào hc máy v i s lư ng ng 1500 tin, s lư ng ng t   ch  ch   8 tăng áng k, ch  khác s lư ng ng t tăng không áng k v i lư ng ng t    ch  ch  8 Hình 3.11: Topic có t l cao thuc th loi kinh doanh v i 1500 tin Hc v i 2000 tin, ư c kt qu : Hình 3.12: Topic có t l cao thuc th loi kinh doanh v i 2000 tin   54 70 60 50 40 Topic cao 30 Topic cao thứ 2 20 10 500 tin 1000 tin 1500 tin 2000 tin Hình 3.13: Biu  t l s lư ng ng tin tc hc máy th loi kinh doanh Nhn thy, v i th  loi kinh doanh hc ln lư t v i 500, 1000, 1500, 2000 tin s lư ng ng t tăng nhiu u   ch  ch  8,   các  các ch   còn li tăng rt Như  vy có hc thêm xác sut s  lư ng ng t  tăng nhiu   ch  ch   s 8 Khng nh t trong ch  8 c trưng ca th  loi kinh doanh Bng 3.5: 30/100 c trưng sau mi ln suy lun 500 tin 1000 tin 1500 tin 2000 tin ngân_hàng tin doanh_nghip nhà_nư c chính_sách n   cơng_ty ngân_hàng tin doanh_nghip cơng_ty nhà_nư c hàng chính_sách ngân_hàng doanh_nghip tin mc công_ty usd th_trư ng ng ngân_hàng doanh_nghip mc tin công_ty usd nhà_nư c c_phn lãi_sut n   mc nhà_nư c n   th_trư ng ng hàng   55 hàng mc th  tp_hcm usd th_trư ng ng lãi_sut hà_ni hàng chính_sách lãi_sut thu  kinh_t  lãi_sut n   thu  chính_ph  à_nng hot_ng tín_dng ơ n_v n_v  tài_sn nhân_viên th_trư ng ng thu  khách_hàng c_phn hot_ng xăng tín_dng nhân_viên tp_hcm vietcombank tin_t  hà_ni lư ng ng kinh_t  khách_hàng nư c hot_ng lươ ng ng c_phn chính_ph  chính_sách nư c hot_ng lươ ng ng khách_hàng tài_chính hà_ni chính_ph  c_phn khách sim lư ng ng chi_nhánh ming nư c thu_thu_nhp cơng_thươ ng ng khách nư c nhà_băng tài_sn tài_chính lãnh_o th  ơ n_v n_v  tín_dng xăng_du tp_hcm tài_chính thu_nhp nhân_viên chuyên_gia vietcombank vit_nam lư ng ng tín_dng tp_ồn tp_hcm thu_nhp nhà_băng d_án 100 Tỉ lệ tương đồng so với 2000 tin 90 80 70 󰀹󰀱󰀬󰀸󰀴󰀥 󰀹󰀶󰀬󰀸󰀴󰀥 󰀸󰀴󰀬󰀱󰀵󰀥 60 50 40 30 20 10 500 tin 1000 tin 1500 tin Hình 3.14: Biu   tươ nngg ng s lư ng ng hc máy ca th loi kinh doanh   56 Mt s  c trưng ca th  loi kinh doanh, hin th  dư i dng t  trng s ca t ó:  Bng 3.6: 25/100 c trưng ca th loi kinh doanh ngân_hàng doanh_nghip mc tin công_ty usd nhà_nư c th_trư ng ng hàng 0.022099737098371555 0.017216884188108458 0.009575357317244747 0.00940983687960871 0.00896844904591261 0.0084718877330045 0.008140846857732425 0.007147724231916203 0.006513229220978059 kinh_t  lãi_sut n   thu  chính_sách nư c hot_ng lươ ng ng khách_hàng 0.006127014866493973 0.005547693334767843 0.0051338922406777504 0.004830438105011683 0.00477526462579967 0.003920075698013478 0.0038097287395894536 0.003671795041559423 0.003589034822741404 tài_chính hà_ni chính_ph  c_phn vit_nam lư ng ng tín_dng 0.003395927645499361 0.0033407541662873485 0.003120060249439299 0.0030648867702272866 0.002954539811803262 0.0028993663325912497 0.0027614326345612185 Các th loi li tươ ng ng t, sau mi ln hc t l  các t tp trung vào topic tăng lên áng k, dung topic ó làm c trưng tng th loi Các c trưng ca th loi thu ư c: c:   57 Bng 3.7: 25/100 c trưng ca th loi  i sng bác_s ĩ   Khoa hc khu Ơ tơ - xe máy xe bnh_vin tui bnh_nhân bnh gia_ ình em bé cháu lồi mơi_trư ng ng cơng_nghip nư c xây_dng vit_nam hot_ng thành_ph  chic thu  ng_cơ   mu ôtô hãng h_thng km phiên_bn sn_ph m     tp_hcm tình_trng thai trư ng_h ng_h p y_t  v _ch _chng mt khoa ca ch  a phòng chic crơ ng ss   ngư i_dân i_dân trái_t vùng ng_vt năng_lư ng ng bin in rác nhà_máy nhà_khoa_hc mt_tr i nhóm khu_vc mã_lc cá_nhân thu_nhp cơng_sut usd lít lexus mc màu mm th_thao sang tiêu_chun ng ư ng nhiên_liu Pháp lut công_an cnh_sát Th gi i Th thao nư c trung_quc gii trn tu in huy tnh máy_bay tri u_tiên ch_tch  i   cu_th bóng   58 cơ _quan _quan v  qun xe tin hành_vi iu_tra thanh_niên ma_túy giao_thơng xã ti_phm hình_s  tàu chic m  tên_la philippines v  ht_nhân chuyn khu_vc tin quan_chc hi_quân hot_ng mùa chelsea vô_ch vòng chung_kt champions_league sân bàn hng barca liverpool châu bayern phư ng ng tài_sn ư ng ng lc_lư ng ng thành_ph  cán_b  tp_hcm v_tinh iran l i bình_như ng ng indonesia bc_kinh núi cup i_tuyn bóng_á tin_v  chc im ngoi_hng Văn hóa phim din_viên khán_gi  ca_s ĩ   in_nh o_din êm b  tui váy Vi tính Xã hi máy xe sn_phm màn_hình máy_tính chip thit_b  hãng inch in_thoi tay ôtô ư ng ng thu  chic giao_thông cá_nhân xe_máy tp_hcm hàng ca_khúc tình_yêu u_tiên camera ngư i_dân i_dân hà_ni   59 cuc_thi nam chic chươ ng_trình ng_trình vai thí_sinh bui n  vit_nam giám_kho ngơi_sao tài_t  hoa_hu tc_  apple b_nh   nh dịng d_liu laptop model phone usd video samsung th_trư ng ng khu_vc thành_ph  thu_nhp cu phươ ng_ti ng_tin nư c chiu tai_nn v  nguyên_nhân th i_gian i_gian lc_lư ng ng qun 3.2.2.3 Phân loi văn bn V i 10 b d liu thuc 10 th loi thu thp t Vnexpress.net m i nht (theo úng th  loi báo in t  Vnxpress.net ưa ra) ưa vào h  thng phân loi v i phươ ng ng pháp: s  dng t n sut ch    s  dng h  s Cosine Ly th loi t trang Vnexpress.net làm chun, kt qu phân loi so v i chun: Bng 3.8: Kt qu phân loi dùng tn sut ch  và h s Cosine Th loi Dùng tn sut H s Cosine  i sng 65 73 Khoa hc 58 66 Kinh doanh 82 89 Ơ tơ – xe máy 89 90 Pháp lut 81 81 Th gi i 70 66 Th thao 88 91   60 Văn hóa 91 89 Vi tính 80 86 Xã hi 50 40 Trung bình 75,4% 77,1% Xét toàn h thng, kt qu phân loi dùng h s   Cosine tt hơ n dùng tn sut ch  Chn phươ ng ng pháp dùng h s Cosine làm phươ ng ng pháp cho h  thng phân loi, tip tc xét chi tit tng th loi cho kt qu khác so v i báo ã ưa Thu ư c kt qu: Bng 3.9: Kt qu phân loi h thng so v i báo Th loi  i sng Khoa hc Kinh doanh Ơ tơ – xe máy Pháp lut Th gi i Th thao Văn hóa Vi tính Xã hi Tng S tài liu sai so v i báo 27 34 11 10 19 34 11 14 60 229 Báo ư a sai H thng sai 18 21 22 4 32 129 13 5 11 12 28 100 Như v y, s d ng h s  Cosine  tính  tươ ng ng ng phân loi văn bn s cho kt qu tt hơ n s dng tn sut ch   trên tồn b d liu Kt qu phân loi t  chính xác so v i d liu mu 77,1%, s 22,9% cịn li d  liu mu ưa sai 12,9% h   thng phân loi sai 10%, như    61 vy, t  l trung bình  chính xác ca h  thng t 90% Kt qu 90% kh  quan, tp c tr ưng d liu có dng liên kt v i nhau, th, có nhiu kh năng mt tài liu văn bn có th thuc th loi, hai th hoc nhiu th lo i, h thng s  gán tài liu vào th lo i có h s  cao nht Biu di n tp c trưng như sau: Đời sống Văn hóa Pháp luật Xã hội … Hình 3.15: Các tp c trưng liên kt v i   62 PHN KT LUN Kt qu t ư c ca lun văn Lun v ăn ti n hành nghiên cu gii quyt toán phân loi v ăn b n ting Vit da vào c trưng Bài toán nn tng cho nhiu ng dng quan trng thc t như lc thư spam, rút trích văn bn, h thơng khuyn cáo ngư i dùng, … Phươ ng ng pháp gii quyt c a lun v ăn t p trung vào q trình phân tích c trưng văn bn cho c  d  liu hc máy d  liu cn phân loi da vào nghiên cu v ch  n, biu din văn bn dư i dng vector Xây dng ư c b d liu c trưng cho tng th loi ng ng  ánh giá phân loi ưa s dng  o tươ ng Mt mơ hình phân loi ư c ưa t các bư c tin x lý cho t i ưa giá tr  cui t k t qu kh  quan, cho thy tính úng n ca vi c l a chn như kt h p phươ ng ng pháp Tuy bư c u t mt s kt qu kh quan, vn tn ti mt s vn  cn khc phc: + Mt văn bn u vào cn phân loi sau trình cho k t thuc vào mt th loi nht + H n ch s  l ư ng ng cht lư ng ng ca kho d liu tin tc nh hư ng ng n cht lư ng ng phân loi ca h thng + Cn xác nh giá tr  chun   mt văn bn thuc vào hoc nhiu th  loi, hoc không thuc th loi Hư ng ng phát trin ca lun văn Phát trin m   rrng mơ hình phân loi văn bn cho văn bn khác văn bn dng tin tc Ci tin quy trình x lý  tăng tc cho h thng     TÀI LIU THAM KHO Ting Vit: d ng khái nim m   trong   bi u di  n v ăn   d  [1] Nguyn Vit Cư ng ng (2006), “S   bn áp d ng vào toán phân l    p văn bn”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng t ư    v n Website cho máy tìm ki  m d   [2] Nguyn Song Hà (2009), “ H  th ng ư v   trên khai phá Query log”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng pháp phân cm tài liu Web áp [3] Nguyn Th Thu Hng (2007), “Phươ ng d ng vào máy tìm ki m”, lun văn cao hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng ng [4] Hoàng Minh Hin (2008), “   t ươ  ươ ng d ng tóm t    t v ăn bn”, ng   nghĩ a gi a hai câu  n ng g lun v ăn t t nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni [5] JVnTagger-Manual, Công c  gán nhãn t  loi ting Vit da Conditional Random Fields Maximum Entropy [6] Nguyn Th Thùy Linh (2006), “Phân l  p tài liu Web c l p ngôn ng ”, ”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni  r ng thông tin ng  c  cnh phiên duyt [7] Uông Huy Long (2010), “Gii pháp m  r  Web ngư i dùng nh m nâng cao ch t lư ng ng t ư  ng t ư  ư  v n h  th ng ư  v n tin t   c  ”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni loi hư ng ng ti   p cn [8] Trn Th Oanh (2008), “ Mơ hình tách t    ,  gán nhãn t     lo tích h   p cho ti  ng ng Vit ”, ”, Quc gia Hà Ni lun v ăn cao hc, trư ng ng i hc Công Ngh, i hc     ng câu truy v n v  i [9] Nguyn Hu Phươ ng ng (2009), “Qung cáo tr    c tuy n h ư ng s  giúp   giúp    ca phân tích ch      n k     thut tính hng”, lun v ăn t t nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni ng [10] Nguyn Th Quang, “Phát tri n thut toán gom cm văn bn HTML  ng d ng”.  [11] Trình Quc Sơ n, n, “Phân loi văn bn”, khóa lun mơn Datamining  tr      xây d   n [12] Nguyn Phươ ng ng Thái, “Phát tri n b  công c h  tr   xây ng   g kho ng   liliu cho phân tích văn bn ti ng ng Vit ”, ”, lun văn cao hc, trư ng ng i hc Khoa hc t  nhiên [13] Nguyn Cm Tú (2008), “ Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents”, lun văn cao hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni [14] Trn Mai Vũ (2009), “Tóm t   t văn bn d    a vào trích xu t câu”, lun văn cao hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni [15] Nguyn Th  Hi Yn (2007), “Phân l  p bán giám sát ng d ng thut  ng toán SVM vào phân l   p trang Web”, lun văn tt nghip i hc, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni Ting Anh: [16] Arturo Montejo-Rasez (2005), “ Automatic Text Categorization of document in the High Energy Physics domain”, [17] Fabrizio Sebastiani, “Text thesis Categorization”, Dipartimento di Matematica Pura e Applicata, Universit`a di Padova [18] Hiroya Takamura (2003), “Clustering Approaches to Text Categorization”, Doctor’s thesis, Department of Information Processing, Graduate School of Information Science, Nara Institute of Science and Technology [19] Rong Hu (2011) “ Active Learning for Text Classification”, Doctoral Thesis, Dublin Institute of Technology     [20] T Hofmann (1999), “Probabilistic Latent Semantic Analysis”, To appear in: Uncertainity in Articial Intelligence, UAI'99, Stockholm [21] Thorsten Joachims, “Text Categorization with Support Vector Machines:  Learning with Many Relevant Features”, University Dortmund [22] Tong Zhang and Frank J Oles, “Text Categorization Based on Regularized  Linear Classifiacation Methods ”, Mathematical Sciences Department IBM [23] Tran Vu Pham, Le Nguyen Thach (2011) , “Social-Aware Similarity Computation for Recommender Systems”, Document Proceedings of the 2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing [24] Tran Vu Pham (2011),  “ Dynamic  Distributed Scientific Networks”, Profile Representation and Matching in in Journal of Science and Technology Development, Vol 14, No K2 Internet: [25] Cơng c phân tích ch  n, http://jgibblda.sourceforge.net/   [26] H tách t ting Vit, http://vlsp.vietlp.org:8080/demo/?page=resources   [27] Thông tin chi tit:   tài http://vpct.gov.vn/News.aspx?ctl=projectdetail&ID=29   – d  án, ... I HC LC HNG *** TRN NGC PHÚC PHÂN LOI NI DUNG TÀI LIU WEB Chuyên ngành: CÔNG NGH THÔNG TIN Mã s: 60.48.02.01 LUN VĂN THC SĨ CÔNG NGH THÔNG TIN NGƯ I HƯ NG NG DN KHOA HC TS... trình phân loi văn bn - Hin thc quy trình phân loi văn bn   B cc trình bày ca lun văn Chươ ng ng 1: Gi i thiu tng quan v bài toán phân l p văn bn ưa quy trình phân l p văn bn...   •  ? ?tài ? ?Phân l  p tài liu Web c l p ngôn ng ” [6] ca Nguyn Th Thùy Linh, ngành Công ngh? ?thông tin, trư ng ng i hc Công Ngh, i hc Quc gia Hà Ni năm 2006   tài nghiên

Ngày đăng: 06/08/2020, 12:19

Tài liệu cùng người dùng

Tài liệu liên quan