1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng công cụ tổng hợp tin tức tiếng việt và ứng dụng

243 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

’Y BAN NHÂN DÂN THÀNH PH» H« CHÍ MINH S– KHOA H≈C CƠNG NGHõ ĐI H≈C QU»C GIA THÀNH PH» H« CHÍ MINH TR◊ÕNG ĐI H≈C KHOA H≈C T‹ NHIÊN CH◊ÃNG TRÌNH KHOA H≈C VÀ CƠNG NGHõ CáP THÀNH PH» BÁO CÁO T NG H—P KịT Q NHIõM V÷ NGHIÊN CŸU KHOA H≈C VÀ CƠNG NGHõ XÂY D‹NG CƠNG C÷ T NG H—P TIN TŸC TIịNG VIõT VÀ ŸNG D÷NG NGHIÊM QU»C MINH THÀNH PH» H« CHÍ MINH THÁNG 5/2018 ’Y BAN NHÂN DÂN THÀNH PH» H« CHÍ MINH S– KHOA H≈C CƠNG NGHõ ĐI H≈C QU»C GIA THÀNH PH» H« CHÍ MINH TR◊ÕNG ĐI H≈C KHOA H≈C T‹ NHIÊN CH◊ÃNG TRÌNH KHOA H≈C VÀ CÔNG NGHõ CáP THÀNH PH» BÁO CÁO T NG H—P KịT Q NHIõM V÷ NGHIÊN CŸU KHOA H≈C VÀ CƠNG NGHõ XÂY D‹NG CƠNG C÷ T NG H—P TIN TC TIũNG VIừT V NG DữNG Ch nhiêm nhiêm v Nghiêm QuËc Minh CÏ quan qu£n l˛ CÏ quan chı trỡ nhiêm v (k tờn v úng dòu) TRếNG ẹI H≈C CÀNG HOÀ Xà HÀI CH’ NGHûA VIõT NAM KHOA HC T NHIấN - ẻc lp - Tá - H§nh phúc ———————– ĐI H≈C QU»C GIA TP.HCM ———————– Tp.HCM, ngày tháng n´m 2018 BÁO CÁO TH»NG KÊ KòT QUÉ TH‹C HIõN NHIõM V÷ NGHIÊN CŸU KH&CN I THƠNG TIN CHUNG Nhiêm v XY DNG CễNG Cữ TNG HP TIN TC TIũNG VIừT V NG DữNG ã Thuẻc lổnh vác: CNTT Ch nhiêm ti ã H v tên: NGHIÊM QU»C MINH • N´m sinh: 1984 GiĨi tính: Nam • HÂc v‡: Ti∏n sỉ Chun ngành: Tin hÂc • N´m §t hÂc v‡: 2014 • Ch˘c vˆ: Gi£ng viên • Tên cÏ quan ang cơng tác: tr˜Ìng Qc gia Tp HCM ã Đi hc Khoa hc Tá nhiờn, ‡a chø cÏ quan: 227 Nguyπn V´n C¯, Qu™n 5, Tp HCM i H ã iên thoĐi cẽ quan: (08) 38353193; (08) 62884499 • Fax: (08) 38350096 • • ‡a chø nhà riêng: E18 Nam Long Gị Ơ Mơi, Ph˜Ìng Phỳ Thun, Qun 7, Tp HCM iên thoĐi: 0978-611-846 ã Email: nqminh@fit.hcmus.edu.vn CÏ quan chı trì ∑ tài • Tên cÏ quan chı trì ∑ tài: tr˜Ìng Qc gia Tp HCM ã Đi hc Khoa hc Tá nhiờn, H iên thoĐi: (08) 38353193; (08) 62884499 ã Fax: (08) 38350096 • Website: www.hcmus.edu.vn • ‡a chø: 227 Nguyπn V´n C¯, Qun 5, Tp HCM ã Sậ ti khoÊn: 3713.0.1056908.00000 tĐi Kho bĐc Nh nểc Qun 5, Tp.HCM ã Mó quan hª ngân sách: 1056908 II TÌNH HÌNH TH‹C HIõN Thèi gian thác hiên nhiêm v 24 thỏng (t 05/2016 ∏n 05/2018) ii Kinh phí • Kinh phí ˜Ịc duyêt: 725 triêu ng (100% ngõn sỏch khoa hc) ã Kinh phí ã cßp (theo H sË: 15/2016/H -SKHCN, ngày 23/05/2016) – Ịt 1: 360 triªu Áng – Ịt 2: 290 triêu ng ã Kinh phớ cũn lĐi (còp sau nghiªm thu ∑ tài) – Ịt 3: 75 triªu Áng S˚ dˆng kinh phí TT NỴi dung khoÊn chi Tin cụng lao ẻng trác tip Chi mua v™t t˜, nguyên, nhiên, v™t liªu Chi s˚a ch˙a, mua s≠m tài s£n cË ‡nh Chi hỴi th£o khoa hÂc, cơng tỏc phớ v ngoi nểc phc v hoĐt ẻng nghiên c˘u Chi tr£ d‡ch vˆ thuê phˆc vˆ hoĐt ẻng nghiờn cu Chi iu tra, khÊo sỏt thu thp sậ liêu Chi phũng phâm, thụng tin liờn lĐc, in òn phc v hoĐt ẻng nghiờn cu Chi hp hẻi ng tá ỏnh giỏ kt quÊ thác hiên nhiªm vˆ KH&CN Chi qu£n l˛ chung nhiªm vˆ KH&CN nhăm Êm bÊo yờu cảu quÊn l trin khai thác hiên nhiêm v KH&CN iii K hoĐch Thác t 599,357 599,357 0 0 0 0 0 5,000 4,998 8,350 5,350 54,700 54,700 10 Chi khác có liên quan tr¸c ti∏p ∏n tri∫n khai th¸c hiên nhiêm v KH&CN Tng cẻng: 57,593 11,480 725,000 675,885 Các v´n b£n hành q trình th¸c hiªn ∑ tài TT SË, thÌi gian ban hành v´n b£n SË 850/Q -SKHCN, ngày 14/10/2015 SË 223/Q -SKHCN, ngày 29/4/2016 SË 15/2016/H -SKHCN, ngày 23/5/2016 SË 56/TB-SKHCN, ngày 21/4/2016 Tên bÊn Quyt nh v viêc thnh lp Hẻi ng xét duyªt ∑ tài nghiên c˘u khoa hÂc Quy∏t ‡nh v∑ viªc phê duyªt ∑ tài nghiên c˘u khoa hÂc v phỏt trin cụng nghê Hềp ng thác hiên nhiêm vˆ nghiên c˘u khoa hÂc cơng nghª Thơng báo còp kinh phớ nghiờn cu KHCN cho ti, dá ỏn Khoa hc v Cụng nghê Ngy 25/7/2017 Thâm tra quy∏t tốn ∑ tài, d¸ án n´m 2016 SË 385/SKHCN-QLKH, Thụng bỏo v viêc nẻp bỏo cỏo nghiêm thu ngy 28/2/2018 ∑ tài quy∏t tốn kinh phí Ịt Quyt nh v viêc thnh lp Hẻi ng khoa Sậ 689/Q /KHTB-KH, hc ỏnh giỏ, nghiêm thu còp cẽ s ∑ tài ngày 2/5/2018 NCKH cßp S KHCN TP.HCM SË Thụng bỏo v viêc gia hĐn thèi gian thác 1062/SKHCN-QLKH, hiªn nhiªm vˆ nghiên c˘u khoa hÂc cơng ngày 15/5/2018 nghª Ngày 1/6/2018 SË 429/Q -SKHCN, 10 ngày 18/5/2018 Thâm tra quyt toỏn ti, dá ỏn nm 2017 Quyt nh v viêc thnh lp Hẻi ng nghiêm thu ∑ tài nghiên c˘u khoa hÂc iv Cá nhân tham gia thác hiên nhiêm v TT H tờn (thuyt minh) H tờn (tham gia thác hiên) TS Nghiờm QuËc Minh TS Nghiêm QuËc Minh PGS TS inh i∑n PGS TS inh i∑n TS Nguyπn L˜u Thùy Ngân TS Nguyπn Th‡ HÁng Nhung TS Nguyπn L˜u Thùy Ngân TS Nguyπn Th‡ HÁng Nhung ThS V´n Chí Nam ThS V´n Chí Nam ThS Tr¶n Th‡ ThÊo Nhi ThS Trản Th ThÊo Nhi Nẻi dung tham gia chớnh Ch nhiêm nhiêm v, ph trỏch chung tòt c£ nỴi dung, nghiên c˘u v∑ tóm t≠t a v´n b£n tóm t≠t a v´n b£n Thành viên chính, xõy dáng ng liêu phc v nghiờn cu, ỏnh giỏ k∏t qu£ Thành viên chính, nghiên c˘u kỉ thu™t nén câu Thành viên chính, nghiên c˘u kỉ thu™t gỴp câu Thành viên chính, nghiên c˘u kỉ thu™t tóm t≠t a v´n b£n Th˜ kí khoa hÂc, nghiên c˘u v∑ tóm t≠t a v´n b£n v S£n ph©m ch yu Đt ềc Ng liêu túm tt, cụng c tng hềp tin tc, o tĐo thĐc sổ Ng liêu tóm t≠t Bài báo nén câu, cơng cˆ nén câu Bài báo gỴp câu, cơng cˆ gỴp câu Bài báo tóm t≠t a v´n b£n, cơng cˆ tóm t≠t a bÊn Ng liêu túm tt, tĐp túm tt a v´n b£n Tóm t≠t nỴi dung, cơng viêc ch yu TT Cỏc nẻi dung, cụng viêc ch yu Thèi gian dá toỏn xuòt ph˜Ïng pháp nén câu phù hỊp cho ti∏ng Viªt, gÁm 9/2016 (1) Bài báo khoa hÂc v∑ nén 5/2017 (8 câu, (2) Công cˆ nén câu, (3) tháng) Ÿng dˆng web nộn cõu xuòt phẽng phỏp trẻn cõu t nhi∑u câu chı ∑ cho tr˜Óc, chuy∫n thành cõu nhòt, ngn hẽn m vđn gi ềc cỏc ˛ diπn t£ câu cho tr˜Óc, gÁm (1) Cơng cˆ trỴn câu, (2) Bài báo khoa hÂc v∑ trẻn cõu (3) ng dng web trẻn cõu xuòt ph˜Ïng pháp tóm t≠t a v´n b£n phù hỊp cho ti∏ng Viªt, gÁm (1) Cơng cˆ tóm t≠t a v´n b£n ti∏ng Viªt, (2) K∏t qu£ th˚ nghiªm ánh giá trờn bẻ ng liêu chuân ềc nhúm xõy dáng, (3) Bài báo khoa hÂc v∑ tóm t≠t a v´n b£n, (4) Ÿng dˆng web tóm t≠t a v´n b£n ThÌi gian thác t 5-9/2016, 1-5/2017 (8 thỏng) Ngèi thác hiên Nghiêm QuËc Minh, Nguyπn L˜u Thu˝ Ngân, Tr¶n Th‡ Th£o Nhi 9/2016 5/2017 (8 tháng) 5-9/2016, 1-5/2017 (8 tháng) Nghiêm QuËc Minh, Nguyπn Th‡ HÁng Nhung 9/2016 5/2017 (8 tháng) 5-9/2016, 1-5/2017 (8 tháng) Nghiêm QuËc Minh, V´n Chí Nam vi TĐo mẻt bẻ ng liêu chuân ∫ ánh giá hª thËng tóm t≠t a v´n bÊn ting Viêt, gm (1) Xõy dáng mẻt bẻ ng liêu chuân cho túm tt a bÊn, (2) Dáa vo bẻ ng liêu chuân ny ỏnh giỏ phẽng pháp tóm t≠t ∑ xt so sánh vĨi phẽng phỏp khỏc trờn ting Viêt, (3) Bi tĐp khoa hÂc v∑ ng˙ liªu tóm t≠t a v´n b£n Xõy dáng mẻt thậng tá ẻng tng hềp thụng tin ti∏ng Viªt, gÁm (1) Cơng cˆ tìm ki∏m v´n b£n: tìm tin t˘c Internet thu th™p v∑ máy chı, (2) Cơng cˆ gom nhóm v´n b£n: v´n b£n mỴt chı ∑ s≥ ˜Ịc gom nhóm l§i vĨi nhau, (3) T§o ˘ng dˆng tá ẻng tng hềp thụng tin ting Viêt trờn nn web 5-9/2016, 5-11/2017 (10 tháng) Nghiêm QuËc Minh, inh i∑n, V´n Chí Nam, Tr¶n Th‡ Th£o Nhi 9-12/2016, 3-12/2017 5-12/2017 (9 tháng) (10 tháng) Nghiêm QuËc Minh, V´n Chí Nam 5-9/2016, 5-8/2017 (7 tháng) vii Ki∫m ‡nh hª thËng hồn thiªn báo cáo, gÁm (1) Tri∫n khai ki∫m ‡nh hª thËng 11/2017 tóm t≠t a v´n b£n ti∏ng Viªt, 5/2018 (6 hª thËng tÍng hỊp thơng tin tháng) ti∏ng Viªt, (2) Hồn thiªn báo cáo báo khoa hÂc 11/2017 5/2018 (6 tháng) Nghiêm QuËc Minh, Tr¶n Th‡ Th£o Nhi III SÉN PHâM KH&CN C’A NHIừM Vữ SÊn phâm KH&CN ó tĐo a DĐng 1: cỏc sÊn phâm mm Sậ Chứ tiờu lềng chòt lềng TT Tờn sÊn phâm Bẻ ng liêu tóm t≠t a v´n b£n (gÁm 300 cˆm v´n b£n, mÈi cˆm có b£n tóm t≠t) Ỵ Áng thu™n gi˙a nh˙ng ng˜Ìi gán nhãn Cơng cˆ nén câu Ỵ o ROUGE Cơng cˆ gỴp câu ẻ o ROUGE viii Theo k hoĐch ẻ ng thu™n 70% ROUGE 0.7 ROUGE2 0.65 Th¸c t Đt ềc ẻ ng thun tẽng ậi ẽn k = 0.55 ROUGE-1 = 0.7 ROUGE-1 = 0.77 ROUGE-2 = 0.7 1.3.5 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 Nghiên c˘u kæ thut ỏnh giỏ kt quÊ tá ẻng - Ch nhiêm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 Ti∏n hành thớ nghiêm, th nghiêm, thác nghiêm, khÊo 1.4 nghiêm, ch tĐo, sÊn xuòt; nghiờn cu, hon thiên quy trỡnh cụng nghª 1.4.1 Th˚ nghiªm nén câu báo cáo - cơng - Chı nhiªm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 1.4.2 Th nghiêm gẻp cõu cụng - Ch nhiêm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 Chı nhiªm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 1.4.3 Th˚ nghiêm túm tt a bÊn xuòt giÊi phỏp, ki∏n ngh‡, sáng ch∏, gi£i pháp h˙u ích, s£n ph©m, 1.6 ch phâm, mụ hỡnh, òn phâm khoa hc v ∑ xt khác 40 cơng báo cáo - 1.6.1 Vi∏t báo v∑ nén câu Chı nhiªm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 Chı nhiªm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 Chı nhiªm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 Chı nhiªm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 Th˜ k˛ khoa hÂc 22 0.49 12,397 22 0.49 12,397 22 0.49 12,397 22 0.49 12,397 1.6.2 Vi∏t báo v∑ gỴp câu 1.6.3 Vi∏t báo v∑ tóm t≠t a v´n b£n 1.6.4 Vi∏t t§p chí v∑ tóm t≠t a v´n b£n 1.6.5 Vi∏t ch˜Ïng trình nén câu (web) Thành viên 1.6.6 Vi∏t ch˜Ïng trình gỴp câu (web) Thành viên 1.6.7 Vi∏t ch˜Ïng trình tóm t≠t a v´n b£n (web) Thành viên báo cáo 1.7 TÍng k∏t, ánh giá - Chı nhiªm ∑ tài 22 0.79 19,987 Thành viên 22 0.49 12,397 41 Th˜ k˛ khoa hÂc 22 0.49 12,397 Mua v™t t˜, nguyên, nhiên, v™t liªu - Chi s˚a ch˙a, mua s≠m tài s£n cË ‡nh - Chi HỴi th£o Khoa hÂc, cơng tác phớ v ngoi nểc phc v hoĐt ẻng nghiờn c˘u - Chi v´n phịng ph©m, thơng tin liên lĐc, in òn 5,000 7.1 In òn ti liêu 5,000 Chi hp hẻi ng tá ỏnh giỏ kt quÊ thác hiên nhêm v KH&CN 8,350 hẻi ng 8.1 Hẻi ng nghiêm thu cẽ s 8,350 Ch tch hẻi Áng ng˜Ìi 1,000 1,000 Ph£n biªn ng˜Ìi 850 1,700 Phó chı t‡ch hỴi Áng; thành viên hỴi Áng ng˜Ìi 750 4,500 Th˜ k˛ hành ng˜Ìi 150 150 ng˜Ìi 10 100 1,000 §i bi∫u ˜Ịc mÌi tham dá Chi quÊn l nhiêm v KH&CN 54,700 9.1 Chi qu£n l˛ phí cÏ quan chı trì 35,000 Qu£n l˛ chung ( iªn, n˜Ĩc, i∑u hành, ti∑n cơng phõn b ậi vểi 9.1.2 cỏc hoĐt ẻng giỏn tip quỏ trỡnh quÊn l nhiêm v); Ph còp Th k˛ hành 35,000 9.2 Chi qu£n l˛ phí cÏ quan qu£n l˛ n´m 3,000 9.3 Chi HỴi Áng xột duyêt 6,000 13,700 9.3.1 Ch tch hẻi ng ngèi 42 2,000 2,000 Phˆ lˆc A Báo giá tham kh£o Ph¶n d˜Ĩi ây trình bày chi phí liên quan ∏n viªc cơng bË cơng trình nghiên c˘u khoa hÂc, bao gÁm (1) hỴi ngh‡ phí (2) phí ´ng t§p chí Thơng tin tham kh£o ˜Ịc ˜a dáa vo hẻi ngh phớ ca hẻi ngh KSE nm 2015 v phớ ng bi ca tĐp IEICE hiên tĐi 44 Hỡnh A.1: Hẻi ngh phớ ca hẻi ngh KSE (IEEE) n´m 2015 Hình A.2: Phí ´ng t§p chí cıa t§p chí IEICE (ISI) 45 TÀI LIõU THAM KHÉO [1] Palakorn Achananuparp, Xiaohua Hu, and Xiajiong Shen “The Evaluation of Sentence Similarity Measures” In: Proceedings of the 10th International Conference on Data Warehousing and Knowledge Discovery DaWaK ’08 Berlin, Heidelberg: Springer-Verlag, Jan 2008, pp 305–316 ISBN: 978-3-540-85835-5 URL: http://dx.doi.org/ 10.1007/978-3-540-85836-2_29 [2] Regina Barzilay “Information Fusion for Multidocument Summarization: Paraphrasing and Generation” AAI3088294 PhD thesis New York, NY, USA, 2003 [3] Regina Barzilay and Kathleen R McKeown “Sentence fusion for multidocument news summarization” In: Computational Linguistics 31.3, 2005, pp 297–328 [4] Regina Barzilay, Kathleen R McKeown, and Michael Elhadad “Information Fusion in the Context of Multi-Document Summarization” In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics College Park, Maryland, USA: Association for Computational Linguistics, June 1999, pp 550–557 DOI: 10.3115/ 1034678.1034760 URL: http://www.aclweb.org/anthology/ P99-1071 [5] Regina Barzilay, Kathleen R McKeown, and Michael Elhadad “Information Fusion in the Context of Multi-Document Summarization” In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics College Park, Maryland, USA: Association for Computational Linguistics, June 1999, pp 550–557 DOI: 10.3115/ 1034678.1034760 URL: http://www.aclweb.org/anthology/ P99-1071 46 [6] Florian Boudin and Emmanuel Morin “Keyphrase Extraction for Nbest Reranking in Multi-Sentence Compression” In: Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Atlanta, Georgia: Association for Computational Linguistics, June 2013, pp 298–305 URL: http : / / www aclweb org / anthology / N13 1030 [7] Jaime Carbonell and Jade Goldstein “The Use of MMR, Diversitybased Reranking for Reordering Documents and Producing Summaries” In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 1998, pp 335–336 URL: http : / / doi acm org / 10 1145 / 290941 291025 [8] Yllias Chali and Shafiq R Joty “Answering complex questions using query-focused summarization technique” In: Tools with Artificial Intelligence, 2008 ICTAI’08 20th IEEE International Conference on Vol IEEE 2008, pp 131–134 [9] James Clarke and Mirella Lapata “Global Inference for Sentence Compression An Integer Linear Programming Approach” In: Journal of Artificial Intelligence Research 31, 2008, pp 399–429 URL: http : //jamesclarke.net/media/papers/clarke-lapata-jair2008 pdf [10] Trevor Anthony Cohn and Mirella Lapata “Sentence compression as tree transduction” In: Journal of Artificial Intelligence Research, 2009, pp 637–674 [11] John M Conroy, Judith D Schlesinger, Dianne P O’leary, and Jade Goldstein “Back to basics: CLASSY 2006” In: Proceedings of DUC 6, 2006, pp 48–57 47 [12] Harold P Edmundson “New methods in automatic extracting” In: Journal of the ACM (JACM) 16.2, 1969, pp 264–285 [13] Jason Eisner “Three New Probabilistic Models for Dependency Parsing: An Exploration” In: 16th International Conference on Computational Linguistics, Proceedings of the Conference, COLING 1996, Center for Sprogteknologi, Copenhagen, Denmark, August 5-9, 1996 1996, pp 340–345 URL: http://aclweb.org/anthology/C961058 [14] Micha Elsner and Deepak Santhanam “Learning to Fuse Disparate Sentences” In: Proceedings of the Workshop on Monolingual TextTo-Text Generation Portland, Oregon: Association for Computational Linguistics, June 2011, pp 54–63 URL: http://www.aclweb.org/ anthology/W11-1607 [15] Katja Filippova “Multi-Sentence Compression: Finding Shortest Paths in Word Graphs” In: Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010) Beijing, China: Coling 2010 Organizing Committee, Aug 2010, pp 322–330 URL: http: //www.aclweb.org/anthology/C10-1037 [16] Katja Filippova and Michael Strube “Dependency tree based sentence compression” In: Proceedings of the Fifth International Natural Language Generation Conference Association for Computational Linguistics 2008, pp 25–32 [17] Katja Filippova and Michael Strube “Sentence Fusion via Dependency Graph Compression” In: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing Honolulu, Hawaii: Association for Computational Linguistics, Oct 2008, pp 177–185 URL : http://www.aclweb.org/anthology/D08-1019 48 [18] Nguyen Thi Thu Ha and Nguyen Huu Quynh “Concatenate the Most Likelihood Substring for GeneratingVietnamese Sentence Reduction” In: IACSIT International Journal of Engineering and Technology 3.3, 2011, pp 203–207 URL: http://www.ijetch.org/papers/225G982.pdf [19] Kai Hong and Ani Nenkova “Improving the Estimation of Word Importance for News Multi-Document Summarization” In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, EACL 2014, April 26-30, 2014, Gothenburg, Sweden 2014, pp 712–721 URL: http : / / aclweb org / anthology/E/E14/E14-1075.pdf [20] Vo Thanh Hung, Phan Thi Tuoi, and Quan Thanh Tho “Combination of statistical and language processing methods in news summarization: A case study for Vietnamese news” In: The Second International Conference on Digital Enterprise and Information Systems (DEIS2013) The Society of Digital Information and Wireless Communication 2013, pp 119–128 [21] Hongyan Jing and Kathleen R McKeown “Cut and Paste Based Text Summarization” In: Proceedings of the 1st North American Chapter of the Association for Computational Linguistics Conference NAACL 2000 Stroudsburg, PA, USA: Association for Computational Linguistics, 2000, pp 178–185 URL: http://dl.acm.org/citation.cfm? id=974305.974329 [22] Emiel Krahmer, Erwin Marsi, and Paul van Pelt “Query-based sentence fusion is better defined and leads to more preferred results than generic sentence fusion” In: Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers Association for Computational Linguistics 2008, pp 193–196 49 [23] Fei Liu and Yang Liu “Using spoken utterance compression for meeting summarization: A pilot study” In: 2010 IEEE Spoken Language Technology Workshop, SLT 2010, Berkeley, California, USA, December 12-15, 2010 2010, pp 37–42 URL: http://dx.doi.org/10 1109/SLT.2010.5700819 [24] Annie Louis and Ani Nenkova “Automatically assessing machine summary content without a gold standard” In: Computational Linguistics 39.2, 2013, pp 267–300 [25] Hans Peter Luhn “The automatic creation of literature abstracts” In: IBM Journal of research and development 2.2, 1958, pp 159–165 [26] An-Vinh Luong, Nhi-Thao Tran, Van-Giau Ung, and Minh-Quoc Nghiem “Word Graph-Based Multi-Sentence Compression: Re-ranking Candidates Using Frequent Words” In: Proceedings of the Seventh International Conference On Knowledge And Systems Engineering 2015 [27] Inderjeet Mani, Barbara Gates, and Eric Bloedorn “Improving summaries by revising them” In: Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics Association for Computational Linguistics 1999, pp 558– 565 [28] Kathleen McKeown, Sara Rosenthal, Kapil Thadani, and Coleman Moore “Time-Efficient Creation of an Accurate Sentence Fusion Corpus” In: Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics Los Angeles, California: Association for Computational Linguistics, June 2010, pp 317–320 URL: http://www.aclweb.org/ anthology/N10-1044 [29] Yashar Mehdad, Giuseppe Carenini, Frank Tompa, and Raymond T NG “Abstractive Meeting Summarization with Entailment and Fu50 sion” In: Proceedings of the 14th European Workshop on Natural Language Generation Sofia, Bulgaria: Association for Computational Linguistics, Aug 2013, pp 136–146 URL: http : / / www aclweb org/anthology/W13-2117 [30] Rada Mihalcea and Paul Tarau “TextRank: Bringing Order into Texts” In: Proceedings of EMNLP 2004 Association for Computational Linguistics, 2004, pp 404–411 [31] Marie-Francine Moens, Caroline Uyttendaele, and Jos Dumortier “Abstracting of Legal Cases: The Potential of Clustering Based on the Selection of Representative Objects” In: Journal of the American Society for Information Science 50.2, 1999, p 151 ISSN: 0002-8231 URL: http://www.editlib.org/p/87466 [32] Hidetsugu Nanba and Manabu Okumura “Producing more readable extracts by revising them” In: Proceedings of the 18th conference on Computational linguistics-Volume Association for Computational Linguistics 2000, pp 1071–1075 [33] Ani Nenkova and Kathleen McKeown “Automatic Summarization” In: Foundations and Trends R in Information Retrieval 5.2–3, 2011, pp 103–233 ISSN: 1554-0669 DOI: 10 1561 / 1500000015 URL: http://dx.doi.org/10.1561/1500000015 [34] Ani Nenkova and Kathleen McKeown “References to named entities: a corpus study” In: Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology Association for Computational Linguistics 2003, pp 70–72 [35] Minh Le Nguyen and Susumu Horiguchi “A sentence reduction using syntax control” In: Proceedings of the Sixth International Workshop on Information Retrieval with Asian Languages, 2003, Sappro, Japan, 51 July , 2003 2003, pp 146–152 URL: http://doi.acm.org/10 1145/1118935.1118954 [36] Minh Le Nguyen, Susumu Horiguchi, Akira Shimazu, and Bao Tu Ho “Example-based sentence reduction using the Hidden Markov Model” In: ACM Transactions on Asian Language Information Processing 3.2, 2004, pp 146–158 [37] Tu-Anh Nguyen-Hoang, Khai Nguyen, and Quang-Vinh Tran “TSGVi: a graph-based summarization system for Vietnamese documents” In: Journal of Ambient Intelligence and Humanized Computing 3.4, 2012, pp 305–313 [38] Tadashi Nomoto “Discriminative sentence compression with conditional random fields” In: Information processing & management 43.6, 2007, pp 1571–1587 [39] Jahna C Otterbacher, Dragomir R Radev, and Airong Luo “Revisions That Improve Cohesion in Multi-document Summaries: A Preliminary Study” In: Proceedings of the ACL-02 Workshop on Automatic Summarization - Volume Association for Computational Linguistics, 2002, pp 27–36 DOI: 10.3115/1118162.1118166 URL: http://dx.doi.org/10.3115/1118162.1118166 [40] Xian Qian and Yang Liu “Fast Joint Compression and Summarization via Graph Cuts” In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013, 18-21 October 2013, Grand Hyatt Seattle, Seattle, Washington, USA, A meeting of SIGDAT, a Special Interest Group of the ACL 2013, pp 1492–1502 URL : http://aclweb.org/anthology/D/D13/D13-1156.pdf [41] Xian Qian and Yang Liu “Polynomial Time Joint Structural Inference for Sentence Compression” In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014, June 52 22-27, 2014, Baltimore, MD, USA, Volume 2: Short Papers 2014, pp 327–332 URL: http://aclweb.org/anthology/P/P14/P142054.pdf [42] Gerard Salton and Christopher Buckley “Term-weighting approaches in automatic text retrieval” In: Information processing & management 24.5, 1988, pp 513–523 [43] Karen Sparck Jones “A statistical interpretation of term specificity and its application in retrieval” In: Journal of documentation 28.1, 1972, pp 11–21 [44] Kapil Thadani and Kathleen McKeown “Sentence Compression with Joint Structural Inference” In: Proceedings of the Seventeenth Conference on Computational Natural Language Learning, CoNLL 2013, Sofia, Bulgaria, August 8-9, 2013 2013, pp 65–74 URL: http : / / aclweb.org/anthology/W/W13/W13-3508.pdf [45] Kapil Thadani and Kathleen McKeown “Supervised Sentence Fusion with Single-Stage Inference” In: Proceedings of the Sixth International Joint Conference on Natural Language Processing Nagoya, Japan: Asian Federation of Natural Language Processing, Oct 2013, pp 1410– 1418 URL: http://www.aclweb.org/anthology/I13-1198 [46] Kapil Thadani and Kathleen McKeown “Towards Strict Sentence Intersection: Decoding and Evaluation Strategies” In: Proceedings of the Workshop on Monolingual Text-To-Text Generation Portland, Oregon: Association for Computational Linguistics, June 2011, pp 43–53 URL : http://www.aclweb.org/anthology/W11-1606 [47] Le Ha Thanh, Thang Huynh Quyet, and Mai Luong Chi “A Primary Study on Summarization of Documents in Vietnamese” In: Proceeding of the First International Congress of the International Federation for Systems Research 2005, pp 14–17 53 [48] Ha Nguyen Thi Thu and Dung Vu Thi Ngoc “Improve Bayesian Network to Generating Vietnamese Sentence Reduction” In: IERI Procedia 10, 2014, pp 190–195 DOI: 10.1016/j.ieri.2014.09.076 [49] Nhi-Thao Tran, Van-Giau Ung, An-Vinh Luong, Minh-Quoc Nghiem, and Ngan Nguyen “Improving Vietnamese Sentence Compression by Segmenting Meaning Chunks” In: Proceedings of the Seventh International Conference On Knowledge And Systems Engineering 2015 [50] Van-Giau Ung, An-Vinh Luong, Nhi-Thao Tran, and Minh-Quoc Nghiem “Combination of Features for Vietnamese News Multi-Document Summarization” In: Proceedings of the Seventh International Conference On Knowledge And Systems Engineering 2015 [51] Xiaojun Wan and Jianguo Xiao “CollabRank: Towards a Collaborative Approach to Single-Document Keyphrase Extraction” In: Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008) Manchester, UK: Coling 2008 Organizing Committee, Aug 2008, pp 969–976 URL: http://www.aclweb.org/ anthology/C08-1122 [52] David Zajic, Bonnie J Dorr, Jimmy Lin, and Richard Schwartz “Multicandidate reduction: Sentence compression as a tool for document summarization tasks” In: Information Processing and Management Special Issue on Summarization 2007, p 43 54

Ngày đăng: 05/10/2023, 20:26

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w