Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
1,89 MB
Nội dung
I M U I.1 Dn nhp Vic tỡm kim thụng tin khoa hc thc hin cỏc cụng vic liờn quan n nghiờn cu l nhu cu thng xuyờn, khụng th thiu i vi nhng ngi lm nghiờn cu khoa hc, c bit l cỏc nghiờn cu viờn (NCV) Cỏc NCV tr thỡ thiu kinh nghim tỡm kim v xỏc nh cỏc thụng tin hu ớch liờn quan Trong khi, cỏc NCV cú kinh nghim thỡ phi ng u vi quỏ ti thụng tin giỳp h d dng hn vic tip cn cỏc thụng tin hc thut hu ớch liờn quan, h khuyn ngh lnh vc hc thut l gii phỏp ang c quan tõm nghiờn cu nhng nm gn õy Cỏc bi toỏn khuyn ngh thụng tin hc thut ph bin nh: khuyn ngh bi bỏo, cng tỏc, gi bi, v.v cng nh cỏc cỏch tip cn truyn thng cho h khuyn ngh l lc da trờn thụng tin lý lch (Demographic Filtering), lc da trờn ni dung CB (Content-Based), lc cng tỏc CF (Collaborative Filtering ), lai (Hybrid) phi ng u vi mt s khú khn, thỏch thc nh: d liu ln, cha cú d liu chun (benchmark) cho ỏnh giỏ thc nghim, chớnh xỏc cha cao, ng lnh (cold-start), cha cú phng phỏp phự hp ỏnh giỏ cht lng khuyn ngh Xu hng tip cn phỏt trin cỏc phng phỏp mi cho h khuyn ngh ú l: phõn tớch mng xó hi, khai thỏc thụng tin ng cnh v cỏc phng phỏp lai [23] Trờn thc t, s thớch v quyt nh ca ngi thng chu nh hng bi nhng ngi cú quan h Cỏc NCV thng cn li khuyờn t bn bố, ng nghip, thy cụ a nhng quyt nh quan trng liờn quan n cỏc cụng vic nghiờn cu Do ú, lun ỏn chn tip cn phõn tớch mng xó hi (cú xem xột yu t thi gian) kt hp mt s thụng tin khỏc, nhm gii quyt nhng hn ch ca mt s phng phỏp ph bin, ng dng khuyn ngh thụng tin hc thut I.2 Mc tiờu, ni dung ca lun ỏn Mc tiờu chớnh: nõng cao kt qu khuyn ngh thụng tin hc thut da trờn tip cn phõn tớch mng xó hi Ni dung thc hin: (1) Xõy dng v lm giu kho d liu hc thut (2) Xõy dng mụ hỡnh mng xó hi hc thut (3) Khai thỏc mng xó hi hc thut Phỏt trin mt s phng phỏp khuyn ngh ng dng vo bi toỏn: o Khuyn ngh cng tỏc o Khuyn ngh bi bỏo khoa hc liờn quan I.3 Cỏc úng gúp chớnh ca lun ỏn (1) xut mụ hỡnh mng xó hi hc thut ASN (Academic Social Network) nhn din t kho d liu bi bỏo khoa hc [CT.6] (2) Bi toỏn khuyn ngh cng tỏc cho NCV i vi NCV cú quan h ng tỏc gi: xut cỏc phng phỏp phõn tớch xu hng cng tỏc mng xó hi hc thut ASN khuyn ngh cỏc cng tỏc viờn tim nng Cỏc phng phỏp xut bao gm: MPRS, MPRS+, RSS+ [CT.1, CT.4] i vi NCV cha cú quan h ng tỏc gi: xut c trng khuyn ngh nhng mi quan h cng tỏc tt, cht lng [CT.3] xut phng phỏp ỏnh giỏ cht lng cng tỏc c khuyn ngh [CT.3] (3) Bi toỏn khuyn ngh bi bỏo khoa hc: phỏt trin phng phỏp khuyn ngh bi bỏo khoa hc cho NCV da trờn vic khai thỏc mng trớch dn, quan h lũng tin mụ hỡnh ASN [CT.2, CT.8, CT.11] (4) Xõy dng kho d liu hc thut hn triu bi bỏo v h thng tỡm kim thụng tin khoa hc CSPubGuru (www.cspubguru.com) [CT.5, CT.7, CT.9, CT.10, CT.14] Lun ỏn ó tin hnh trin khai nhiu th nghim trờn cỏc d liu cú kớch thc ln Kt qu t c ó chng minh c (bng thc nghim) tip cn v hiu qu ca cỏc phng phỏp ci tin, xut so vi cỏc phng phỏp ph bin hin liờn quan n cỏc bi toỏn khuyn ngh thụng tin hc thut I.4 B cc ca lun ỏn Lun ỏn bao gm 153 trang (khụng tớnh phn ph lc), 12 bng, 29 hỡnh v (khụng tớnh bng v hỡnh v phn ph lc), phn m u v cỏc chng mc: Phn m u; Chng 1: H khuyn ngh: nhng phng phỏp tip cn ph bin v xu hng; Chng 2: Xỏc nh v mụ hỡnh húa mng xó hi hc thut; Chng 3: Khai thỏc mng xó hi hc thut phỏt trin cỏc phng phỏp khuyn ngh cng tỏc; Chng 4: Khai thỏc mng xó hi hc thut phỏt trin cỏc phng phỏp khuyn ngh bi bỏo khoa hc; Kt lun v Hng phỏt trin Phn ti liu tham kho gm 130 ti liu (bi bỏo hi tho v quc t) Ngoi ra, Lun ỏn cũn cú Ph lc A, B b sung cỏc thụng tin chi tit cho phng phỏp xõy dng, cu trỳc v ngun d liu bi bỏo khoa hc ó thu thp II NI DUNG LUN N Chng - H khuyn ngh: nhng phng phỏp tip cn ph bin v xu hng 1.1 Gii thiu: chng ny s trung phõn tớch u im, hn ch ca cỏc phng phỏp khuyn ngh truyn thng T ú dn n tip cn ca lun ỏn da trờn phõn tớch mng xó hi hc thut gii quyt cỏc bi toỏn khuyn ngh lnh vc hc thut 1.2 Khỏi nim H khuyn ngh H khuyn ngh, ting anh l Recommender Systems hoc Recommendation System, l nhng h thng c thit k hng ngi dựng n nhng i tng quan tõm, yờu thớch, lng thụng tin quỏ ln vt quỏ kh nng x lý ca ngi dựng [25, 99] Theo Ricci v cng s [100], h khuyn ngh l nhng cụng c phn mm, k thut cung cp nhng xut cỏc i tng cú th hu ớch vi ngi dựng Nhng xut liờn quan n quyt nh ca ngi dựng nh: sn phm no nờn mua, bi hỏt no nờn nghe, hay tin tc no nờn c 1.3 Phỏt biu bi toỏn khuyn ngh nh ngha 1.1: Khụng gian ngi dựng [57] Khụng gian ngi dựng l tt c nhng ngi dựng m h thng quan sỏt c, thc hin cỏc phõn tớch, khuyn ngh Ký hiu l U, U = {u1, u2, u3, , un} nh ngha 1.2: Khụng gian i tng khuyn ngh [57] Khụng gian i tng khuyn ngh l tt c nhng i tng s c khuyn ngh cho ngi dựng Tựy vo ng dng c th, cỏc i tng khuyn ngh cú th l sỏch, bỏo, phim nh, a im, nh hng, khỏch sn, ngi, v.v Ký hiu l P, P = {p1, p2, p3, , pm} nh ngha 1.3: Hm hu ớch [5] Hm hu ớch f l ỏnh x f: U x P R, dựng c lng mc hu ớch ca pP vi uU Vi R l cú th t cỏc s nguyờn hoc thc mt khong nht nh Phỏt biu bi toỏn khuyn ngh Cho trc, U = {u1, u2, u3, , un}: khụng gian ngi dựng P = {p1, p2, p3, , pm}: khụng gian i tng khuyn ngh Mc ớch ca h khuyn ngh l i tỡm hm hu ớch f, c lng giỏ tr ca f(u,p) (vi uU, pP) Giỏ tr ca f(u,p) giỳp tiờn oỏn u s thớch p nhiu hay ớt, hay p hu ớch i vi u nh th no i vi mi ngi dựng uU, h khuyn ngh cn chn TopN i tng pP hu ớch nht i vi ngi dựng u khuyn ngh, PTopN = , (vi TopN DU>G2H C, C ẹ = (ệK ệKẹ ) ệK ệKẹ Trong ú, wr: vector biu din s thớch nghiờn cu ca r 3.4.1.2 Quan h gia cỏc c quan Gi thuyt: nhng mi quan h mi tim nng thng xut phỏt t cỏc c quan cú quan h cng tỏc mnh 18 ệ 8< , 8_sD2W>( 8, ẹ = tCWĩG 8, ẹ = ệ(8< , 8(c (8, 8) D C< = +x( ở28U_ỡ,Y^2>ợ_78"9(C, {C< }) = I = ệQI da dc edf 9,Hẫ8^^(C< , Cọ , >< ) ú(d D a vdc ) 78>Y^ẫ8^^(C< , >I ) da d ed 9,Hẫ2>Y>28U(C< , Cọ , >< ) = ú(dc vdf ) D a c 78>Y^ẫ2>Y>28U(C< , >I ) ệdKgỗd C< , Cọ , >I = ệQI + - KR ử'ụgdố'K Kc ệQ'ờgdố'K C< , Cg , >I ệQI ẫ8ừ,>8C C< NumCitation(ri,rj,ti): s ln ri trớch dn rj nm ti - TotalCitation(ri, t0): Tng s trớch dn ca ri tớnh t t0 n hin ti (tc) - NumColl (ri, rj, ti): s ln m ri ng tỏc gi vi rj nm ti - TotalColl(ri, t0): tng s cng tỏc ca ri tớnh t nm t0 Bc 4: Tớnh mc lũng tin ca ri vi bi bỏo pj t thi im t0, wtrust(ri, pj, t0) riR, pjP ệdKgỗd C< , "ọ , >I = MAX Kỹ ụgdố'Kỗ((ộ ) ệdKgỗd C< , C# , >I (vi aj A: cỏc tỏc gi ca bi bỏo pj) Bc 5: Kt hp lũng tin vi xu hng nghiờn cu ca NCV Lp riR, pjP - f(ri,pj,t0) = ệdKgỗd C< , "ọ , >I + G2Hử (C< , "ọ ) - Chn TopN cỏc pjP cú f(ri,pj,t0) ln nht khuyn ngh phc tp: O(|R||P|l) (l: s tỏc gi trung bỡnh ca mt bi bỏo) 4.5 Thc nghim, ỏnh giỏ 4.5.1 Tp d liu v thit lp thc nghim S dng d liu CSPubGuru tin hnh thc nghim (https://sites.google.com/site/tinhuynhuit/dataset) Tng t cỏc nghiờn cu liờn quan khỏc, lun ỏn chia d liu theo cỏc khong thi gian l quỏ kh (trc 2006) v tng lai [2006-2008] D liu quỏ kh phõn tớch, 24 khuyn ngh D liu tng lai lm GroundTruth ỏnh giỏ chớnh xỏc khuyn ngh 1000 NCV v bi bỏo ca h trc 2006 d liu u vo GroundTruth: cỏc bi bỏo 1000 NCV ny trớch dn t 2006 n 2008 (52.254 bi) 4.5.2 Phng phỏp ỏnh giỏ kt qu khuyn ngh TopN nhng i tng tim nng tr v t h thng s c dựng ỏnh giỏ chớnh xỏc ca phng phỏp khuyn ngh Nu tng lai, NCV cú trớch dn bi bỏo c h thng khuyn ngh cho h thỡ xem nh khuyn ngh ỳng, ngc li l sai (hỡnh 4.1) Cỏc o ỏnh giỏ c dựng ph bin cỏc nghiờn cu hin u cú ngun gc t lnh vc truy thụng tin (IR) Tng t cỏc nghiờn cu ca Sugiyama v Kan [111, 112, 113], chỳng tụi trung phõn tớch kt qu thc nghim vi o NDCG [58], MRR [123] Hỡnh 4.1 Minh cỏch tớnh chớnh xỏc khuyn ngh bi bỏo 4.5.3 Kt qu thc nghim Bng 4.1 Túm tt so sỏnh, ỏnh giỏ cỏc phng phỏp khuyn ngh bi bỏo Phng phỏp Khuyn ngh (CF-kNN, k=40) CB CB+R+C, Thj = 0.8 CB-Recent CBTrendTrust o ỏnh giỏ NDCG@5 NDCG@10 0.0357 0.0330 0.2945 0.2334 0.2877 0.2282 0.3577 0.2735 0.3610 0.2778 25 MRR 0.0934 0.5128 0.4985 0.6142 0.6164 4.5.4 Nhn nh Tip cn CF cho thy khụng phi l tip cn phự hp cho bi toỏn khuyn ngh bi bỏo liờn quan, tip cn CB l tip cn phự hp m cỏc nghiờn cu hin ang dựng cho bi toỏn ny Khai thỏc yu t xu hng mụ hỡnh hoỏ s thớch NCV ó ci tin ỏng k chớnh xỏc khuyn ngh Kt hp ni dung v quan h lũng tin gúp phn ci tin chớnh xỏc khuyn ngh bi bỏo, nhng cha ỏng k (Tip tc nghiờn cu) III KT LUN Cỏc kt qu t c Nhm h tr cỏc NCV d dng hn vic tỡm kim, khai thỏc cỏc thụng tin hc thut, lun ỏn ó trung nghiờn cu v phỏt trin cỏc phng phỏp khuyn ngh da trờn tip cn phõn tớch mng xó hi cho hai bi toỏn chớnh: (1) Khuyn ngh cng tỏc; (2) Khuyn ngh bi bỏo khoa hc Sau quỏ trỡnh nghiờn cu thc hin, lun ỏn ó t c mt s kt qu cú ý ngha khoa hc nh sau: (1) Kho sỏt, phõn tớch, ỏnh giỏ cỏc cỏch tip cn cho h khuyn ngh v cỏc nghiờn cu liờn quan n khuyn ngh thụng tin hc thut (2) xut mụ hỡnh húa cỏc mng xó hi hc thut nhn din c t kho d liu hc thut, mụ hỡnh ASN [CT.6] (3) Bi toỏn khuyn ngh cng tỏc cho NCV: i vi NCVcú quan h ng tỏc gi: xut, ci tin cỏc phng phỏp phõn tớch xu hng cng tỏc mng xó hi hc thut ASN khuyn ngh cỏc cng tỏc viờn tim nng Cỏc phng phỏp xut bao gm: MPRS, MPRS+, RSS+ [CT.1, CT.4] i vi NCV cha cú quan h ng tỏc gi: xut c trng khuyn ngh nhng mi quan h cng tỏc tt, cht lng [CT.3] xut phng phỏp ỏnh giỏ cht lng cng tỏc [CT.3] 26 (4) Bi toỏn khuyn ngh bi bỏo khoa hc: phỏt trin phng phỏp khuyn ngh bi bỏo khoa hc cho NCV da trờn vic khai thỏc mng trớch dn, quan h lũng tin mụ hỡnh ASN [CT.2, CT.8] (5) Xõy dng kho d liu hn triu bi bỏo khoa hc v trin khai th nghim h thng tỡm kim thụng tin khoa hc CSPubGuru (www.cspubguru.com) [CT.5, CT.7, CT.9, CT.10, CT.14] Giỏ tr thc tin ca lun ỏn ng dng cỏc phng phỏp khai thỏc mng xó hi hc thut ASN vo cỏc bi toỏn khuyn ngh lnh vc hc thut, h tr cng ng lm nghiờn cu khoa hc Mt s bi toỏn ng dng ó c th nghim nh: khuyn ngh cng tỏc, khuyn ngh bi bỏo liờn quan, khuyn ngh hi tho, gi bi Kt qu nghiờn cu ca lun ỏn v h khuyn ngh cú th ỏp dng cho nhiu lnh vc khỏc Vic nghiờn cu, phỏt trin cỏc phng phỏp, h khuyn ngh, gii phỏp thụng minh giỳp ngi dựng d dng hn vic tỡm kim thụng tin liờn quan l mt ln, cũn nhiu khú khn, thỏch thc ó v ang thu hỳt nhiu nghiờn cu ca cng ng khoa hc trờn khp th gii Nhng kt qu t c bc u giỳp nghiờn cu sinh cú c nn tng tri thc bc vo lnh vc nghiờn cu tim nng ny Trong quỏ trỡnh thc hin lun ỏn, nghiờn cu sinh cng tham gia mt s hat ng khoa hc khỏc nh: Hp tỏc vi nhúm nghiờn cu i hc Arkansas, USA phỏt trin cỏc phng phỏp khuyn ngh gi bi da trờn tip cn phõn tớch mng xó hi [CT.12, CT.13] Ch trỡ cỏc ti nghiờn cu khoa hc: ti cp HQG TpHCM loi C, 2011 (nghim thu loi tt); ti c s, 2013 (nghim thu loi khỏ); ti cp HQG loi C, 2014-2015 (ó hon thnh bỏo cỏo gia k); ti c s 2015 (ang thc hin) 27 CC CễNG TRèNH CễNG B Tp chuyờn ngnh [CT 1] Tin Huynh, Kiem Hoang New Methods for Calculating Trend - Based [CT 2] Vertex Similarity for Collaboration Recommendation Journal of Computer Science and Cybernetics (Tp Tin hc v iu khin hc Vin KH&CN Vit Nam), vol.29, No.4, pages 338-350, 2013 Hunh Ngc Tớn, Hong Kim Khai thỏc xu hng s thớch v quan h lũng tin phỏt trin phng phỏp khuyn ngh bi bỏo khoa hc Chuyờn san Cỏc cụng trỡnh nghiờn cu, phỏt trin v ng dng Cụng ngh thụng tin v Truyn thụng - Tp Cụng ngh Thụng tin v Truyn thụng, Tp V-1, S 13 (33), trang 67-78, 06-2015 Hi tho chuyờn ngnh [CT 3] Tin Huynh, Atsuhiro Takasu, Tomonari Masada, Kiem Hoang [CT 4] [CT 5] [CT 6] [CT 7] Collaborator Recommendation for Isolated Researchers In Proceedings of the 28th IEEE International Conference on Advanced Information Networking and Applications (AINA-2014), pages 639644, Victoria, Canada, May 13-16, 2014 Tin Huynh, Kiem Hoang, Dao Lam Trend Based Vertex Similarity for Academic Collaboration Recommendation In Proceedings of 5th International Conference on Computational Collective Intelligence Technologies and Applications (ICCCI 2013), pages 11-20, Craiova, Romani, September 11-13, 2013 Tin Huynh, Kiem Hoang, Tien Do, Duc Huynh Vietnamese Author Name Disambiguation for Integrating Publications from Heterogeneous Sources In Proceedings of the 5th Asian conference on Intelligent Information and Database Systems (ACIIDS 2013), pages 226-235, Kuala Lumpur, Malaysia, March 18-20, 2013 Tin Huynh, Kiem Hoang Modeling Collaborative Knowledge of Publishing Activities for Research Recommendation In Proceedings of the 4th International Conference on Computational Collective Intelligent Technologies and Applications (ICCCI 2012), pages 41-50, Ho Chi Minh City, Vietnam, November 28-30, 2012 Tin Huynh, Hiep Luong, and Kiem Hoang Integrating bibliographical data of computer science publications from online digital libraries In Proceedings of the 4th Asian conference on Intelligent Information and Database Systems (ACIIDS'12), pages 226-235, Kaohsiung, Taiwan, March 19-21, 2012 28 [CT 8] [CT 9] [CT 10] [CT 11] [CT 12] [CT 13] [CT 14] Tin Huynh, Kiem Hoang, Loc Do, Huong Tran, Hiep Luong, Susan Gauch Scientific Publication Recommendations Based on Collaborative Citation Networks In Proceedings of the 2012 International Conference on Collaboration Technologies and Systems (CTS 2012), pages 316-321, Denver, Colorado, USA, May 21-25, 2012 Tin Huynh, Kiem Hoang GATE framework based metadata extraction from scientific papers In Proceedings of the International Conference on Education and Management Technology (ICEMT 2010), page 188 191, Cairo, Egypt, November 02-04, 2010 Hung Nghiep Tran, Tin Huynh, Tien Do Author Name Disambiguation by Using Deep Neural Network In Proceedings of the 6th Asian conference on Intelligent Information and Database Systems (ACIIDS'14), pages 123-132, Bangkok, Thailand, April 7-9, 2014 Hung Nghiep Tran, Tin Huynh, Kiem Hoang A Potential Approach to Overcome Data Limitation in Scientific Publication Recommendation In Proceedings of the seventh international conference on knowledge and systems engineering (KSE-2015), TpHCM, Vietnam, Oct 8-10, 2015 Hiep Luong, Tin Huynh, Susan Gauch, Loc Do, and Kiem Hoang Publication venue recommendation using author network's publication history In Proceedings of the 4th Asian conference on Intelligent Information and Database Systems, Kaohsiung, Taiwan, March 2012 (ACIIDS'12), pages 426-435, Kaohsiung, Taiwan, March 19-21, 2012 Hiep Luong, Tin Huynh, Susan Gauch, Kiem Hoang Exploiting Social Networks for Publication Venue Recommendations In Proceedings of the 4th International Conference on Knowledge Discovery and Information Retrieval (KDIR 2012), pages 239- 245, Barcelona, Spain, October 4-7, 2012 Tien Do, Dao Lam, Tin Huynh A Framework for integrating bibliographical data of computer science publications 2014 International Conference on Computing, Management and Telecommunications (ComManTel 2014), pages 245-250, Da Nang, Vietnam, April 27-29, 2014 29