1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt đa văn bản tiếng việt

66 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 3,49 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Tóm tắt đa văn tiếng Việt CAO MẠNH HẢI hai.cmcb190206@sis.hust.edu.vn Ngành Khoa học máy tính Giảng viên hướng dẫn: PGS.TS Lê Thanh Hương ———————– Chữ ký GVHD Viện: Công nghệ thông tin Truyền thông HÀ NỘI, 12/2021 123doc Mang Ln thay h■■ng l■im■i s■ cam tr■ h■u m■t k■t nghi■m t■im■t s■ cáwebsite nhân mang kho m■ith■ kinh m■ l■i d■n vi■n nh■ng cho doanh ■■u kh■ng ng■■i quy■n chia t■ th■c dùng, l■ s■l■i v■i hi■n t■t công h■n mua ngh■a nh■t 2.000.000 ngh■ báncho tài v■ hi■n ng■■i li■u c■a tài th■ hàng li■u dùng hi■n ■■u ■ thìt■t Khi ■■i, s■p Vi■t c■ khách b■n t■i, l■nh Nam ngh■a online hàng v■c: Táctr■ khơng v■ tài phong thành c■a khác chun c■a thành tíngì d■ng, hàng so nghi■p, viên v■i tri■u cơng c■a b■n hồn nhà ngh■ 123doc g■c bán h■o, thơng B■n hàng ■■ n■p có tin, l■i cao th■ ti■n ngo■i chuy■n tính phóng vào ng■, Khách trách tài giao to,kho■n nhi■m thu sang nh■ c■a ■■i ■■n hàng tùy123doc, v■i v■ ý cót■ng qu■n th■b■n d■ ng■■i lýChào dàng s■ dùng ■■■c m■ng tra c■u M■c h■■ng b■n tàitiêu li■u ■■n nh■ng hàng m■t v■i■■u quy■n cách 123doc c■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc Link h■■ng phát thu■n l■i event cam s■ nh■n xác m■t tr■ t■ h■u k■t s■ thú nghi■m t■i th■c ýxác n■m t■■ng m■t d■ng v■, s■ nh■n s■ website mang event kho m■i ■■■c ■■i, t■o tLink t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P g■i vi■n xác nh■ng cho ■■u ■■ng ti■n v■ th■c h■ kh■ng ng■■i NH■N ■ã ■■a quy■n th■ng thi■t chia t■ng s■ ki■m dùng, l■ ch■ CÁC s■ ■■■c th■c s■ l■i b■■c v■i ti■n email chuy■n ■I■U t■t công h■n mua 123doc g■i online kh■ng nh■t b■n 2.000.000 v■ ngh■ bán KHO■N sang b■ng cho ■■a ■ã tài ■■nh hi■n ■■ng ng■■i li■u ph■n ch■ tài TH■A tài v■ th■ li■u hàng t■o email li■u thông ky, dùng tríhi■n THU■N hi■u c■ c■a b■n ■■u ■b■n tin t■t h■i Khi ■■i, qu■ vui Vi■t xác c■ ■ã khách gia lòng b■n nh■t, minh l■nh ■■ng Nam t■ng Chào ■■ng online hàng uy tài v■c: l■nh thu Tác m■ng ky, tín kho■n tr■ nh■p nh■p khơng b■n tài phong v■c cao thành b■n vui email nh■t tài email online oLink khác chuyên ■■n li■u lòng thành tínb■n Mong c■a xác cho d■ng, ■■ng v■i so nghi■p, viên th■c kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng nh■p c■a c■ doanh s■ b■n vàcác hoàn mang ■■■c ngh■ 123doc click email ký g■c online thành v■i h■o, Chúng vào l■i thông B■n g■i c■a 123doc.netLink CH■P cho viên linkí Tính ■■ v■ n■p có tơi tin, c■ng c■a cao ■■a th■ ■■n cung NH■N ti■n ngo■i tính website phóng ■■ng ch■ th■i click vào c■p CÁC ng■, Khách trách xác email tài ■i■m D■ch vào xã to,kho■n ■I■U th■c nhi■m h■i thu linkông l■nh b■n tháng V■ nh■ m■t s■ KHO■N c■a ■ã v■c (nh■ ■■i hàng ■■■c tin tùy ngu■n 5/2014; ■■ng 123doc, tài v■i xác ■■■c ý có li■u TH■A g■i t■ng minh th■ tài ky, 123doc v■ mô nguyên b■n b■n d■ ng■■i THU■N tài kinh ■■a t■ dàng kho■n s■ vui v■■t d■■i doanh tri dùng ■■■c ch■ lòng tra th■c m■c email ■ây) email c■u ■■ng Chào online M■c h■■ng quý 100.000 cho tài b■n b■n m■ng tiêu báu, nh■p li■u Tính b■n, ■ã nh■ng ■ã hàng phong m■t l■■t ■■n email ■■ng b■n tùy ■■ng ■■u quy■n cách truy thu■c ■■n th■i phú, c■a ký ky, c■a c■p v■i ■i■m v■i ■a l■i b■n vào 123doc.net m■i 123doc.netLink d■ng, 123doc.net! sau xác, vui tháng vàngày, n■p click lòng “■i■u nhanh giàu 5/2014; ti■n s■ vào ■■ng tr■ giá Kho■n Chúng chóng h■u linkc■a thành tr■ xác 123doc nh■p 2.000.000 website ■■ng th■c Th■a th■ website cung email v■■t s■ vi■n th■i Thu■n ■■■c c■p c■a thành mong m■c tài D■ch v■ li■u g■i viên 100.000 mu■n S■ online v■ V■ ■■ng D■ng click ■■a t■o (nh■ l■■t l■n ký, D■ch ■i■u vào ch■ nh■t ■■■c truy l■t link email ki■n V■” vào c■p Vi■t 123doc môtop sau cho b■n m■i Nam, t■200 ■ây d■■i cho ngày, ■ã cung các (sau ■■ng g■i ■ây) s■ website c■p users ■ây h■u ky, cho nh■ng ■■■c có b■n 2.000.000 b■n, ph■ thêm vui tài bi■n tùy g■i lòng thu li■u thu■c t■t thành nh■t nh■p ■■c ■■ng T■i vào t■i viên khơng t■ng Chính nh■p Vi■t ■■ng th■i “■i■u th■ Nam, email v■y ■i■m, ký, tìm t■ Kho■n c■a l■t 123doc.net th■y l■chúng vào tìm Th■a top ki■m tơi th■ 200 click Thu■n cóthu■c ■■i tr■■ng th■ vào nh■m website c■p v■ top link ngo■i S■ 3nh■t ■áp 123doc Google D■ng ph■ tr■ ■KTTSDDV ■ng 123doc.net bi■n ■ã D■ch Nh■n nhu g■i nh■t c■u V■” ■■■c theo t■i chia sau Vi■t quy■t danh ■ây s■ Nam, tài (sau hi■u li■u t■ ■ây ch■t l■c■ng ■■■c tìm l■■ng ki■m ■■ng g■i thu■c t■t bình ki■m T■i ch■n top ti■n t■ng Google online th■i website ■i■m, Nh■n ki■m chúng ■■■c ti■ntơi online danh có th■ hi■u hi■u c■p qu■ nh■t c■ng ■KTTSDDV uy ■■ng tín nh■t bình ch■n theo quy■t website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho ■■nh thay ng■■i ph■n tài TH■A vìv■ li■u m■i thơng dùng tríTHU■N hi■u m■t c■atin Khi qu■ cá xác khách nhân nh■t, minh Chào kinh hàng uy tài l■nh m■ng doanh tín kho■n tr■ v■c cao thành b■n t■ email nh■t tàith■c ■■n li■u thành b■n Mong hi■n v■i viên kinh ■ã 123doc 123doc.net! mu■n ngh■a ■■ng c■a doanh mang 123doc v■ kýonline c■a v■i Chúng l■ivà 123doc.netLink cho Tính n■p tơi c■ng ■■n cung ti■n s■p ■■ng th■i vào c■p t■i, xác tài ■i■m D■ch xã ngh■a kho■n th■c h■itháng V■ m■t s■ v■ c■a (nh■ ■■■c c■a ngu■n 5/2014; 123doc, ■■■c c■a g■i tài 123doc hàng v■ mô nguyên b■n■■a t■ tri■u s■ v■■t d■■i tri ■■■c ch■ nhà th■c m■c ■ây) email bán h■■ng quý 100.000 cho hàng b■n báu, b■n, nh■ng l■i ■ã phong l■■t chuy■n tùy ■■ng quy■n truy thu■c phú, ky, c■p giao ■a l■i b■n vào m■i sang d■ng, sau vuingày, n■p ■■n lòng “■i■u giàu ti■n s■ ■■ng v■ giá Kho■n h■u qu■n tr■ nh■p 2.000.000 website ■■ng Th■a lý hoàn email th■i Thu■n h■o, c■a thành mong v■ ■■ viên mu■n S■ cao ■■ng D■ng tính click t■otrách ký, D■ch ■i■u vàol■t link nhi■m ki■n V■” vào 123doc top sau cho ■■i 200 ■ây cho v■i ■ãcác (sau g■i t■ng website users ■ây ng■■i ■■■c cóph■ dùng thêm bi■n g■i thu M■c t■t nh■t nh■p T■i tiêu t■i t■ng hàng Chính Vi■tth■i ■■u Nam, v■y ■i■m, c■a t■123doc.net l■ 123doc.net chúng tìm ki■m tơiracó tr■ thu■c ■■i th■ thành nh■m c■p topth■ 3nh■t ■áp Google vi■n ■KTTSDDV ■ng tàiNh■n nhu li■uc■u online ■■■c theo chia l■n quy■t danh s■nh■t tài hi■u li■u Vi■t ch■t Nam, c■ng l■■ng cung ■■ng c■p bình ki■m nh■ng ch■n ti■ntài online website li■u ■■cki■m khơng ti■n th■ online tìm th■y hi■utrên qu■th■ tr■■ng uy tín nh■t ngo■i tr■ 123doc.net Ln Th■a Xu■t Sau Nhi■u 123doc Mang thayh■n h■■ng phát thu■n l■i event m■i cam s■ nh■n m■t tr■ t■ h■u m■t k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ cá nh■n website nhân mang event kho m■i ■■i, t■o t■ th■ kinh m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho doanh ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■t■ng ki■m th■c dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n hi■n chuy■n ■I■U t■t công h■n mua 123doc online kh■ng ngh■a nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh v■ hi■n ng■■i li■u ph■n c■a tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ thìtin t■t h■i Khi ■■i, qu■ s■p Vi■t xác c■ khách gia b■n t■i, nh■t, minh l■nh Nam t■ng Chào ngh■a online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng v■ tài phong v■c cao thành b■n c■a email nh■t tài online khác chuyên ■■n c■a li■u thành tínb■n Mong cho d■ng, hàng v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n tri■u cơng ■■ng c■a c■ doanh b■n hồn nhà mang ngh■ 123doc ký g■c online thành bán v■i h■o, Chúng l■i thơng B■n hàng 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng l■i c■a cao th■ ■■n cung ti■n ngo■i chuy■n tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch giao xã to,kho■n th■c nhi■m h■i thu sang tháng V■ nh■ m■t s■ c■a (nh■ ■■i ■■n hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i v■ ■■■c ý cóg■i t■ng qu■n th■ tài 123doc v■ mô nguyên b■n d■ ng■■i lý, ■■a t■ dàng s■ công v■■t d■■i tri dùng ■■■c ch■ tra th■c ngh■ m■c ■ây) email c■u M■c h■■ng quý hi■n 100.000 cho tài b■n tiêu báu, li■u b■n, th■ nh■ng ■ã hàng phong m■t l■■t hi■n tùy ■■ng ■■u quy■n cách truy thu■c ■■i, phú, ky, c■a c■p ■a b■n l■i b■n vào 123doc.net m■i d■ng, sau online xác, vuingày, n■p lịng “■i■u nhanh giàu khơng ti■n s■ ■■ng tr■ giá Kho■n chóng h■u khác thành tr■ nh■p 2.000.000 website ■■ng Th■a gìth■ so email vi■n th■i v■i Thu■n c■a thành b■n mong tài v■ li■u g■c viên mu■n S■ online B■n ■■ng D■ng click t■o l■n cóký, D■ch ■i■u vào th■ nh■t l■t link phóng ki■n V■” vào Vi■t 123doc top sau cho to, Nam, 200 thu ■ây cho ■ã cung nh■ các (sau g■iwebsite tùy c■p users ■ây ý.nh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Chia m■t u■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau tri■n phát h■n member s■ h■■ng phát khai thu■n l■i event s■ cam nh■n câu t■ m■t tr■ t■ event h■u ýk■t s■ chuy■n thú nghi■m t■i ýkhông t■■ng xác n■m t■■ng m■t d■ng v■, khuy■n s■ nh■n website mang m■y event t■o kho thành m■i ■■i, t■o t■ c■ng th■ n■i m■ l■i c■ng ki■m ■■ng d■n công 123doc CH■P th■ vi■n b■t nh■ng cho ■■ng ■■u ■■ng ti■n n■p h■ c■a kh■ng ng■■i NH■N ■ã quy■n th■ng 123doc thi■t chia ki■m v■i c■ng t■ng ki■m dùng, l■ CÁC s■ nh■ng th■c ti■n s■ l■i b■■c ■■ng v■i ti■n -và ki■m chuy■n ■I■U t■t công online h■n mua 123doc online ■u kh■ng 123doc nh■t 5■ãi 2.000.000 ngh■ bán KHO■N tri■u b■ng sang b■ng cho c■c tài ■■nh ■ã hi■n ch■ tài ng■■i li■u ph■n k■ tài TH■A xu■t li■u tài v■ v■i th■ li■u h■p hàng t■o li■u thông s■c dùng trí hi■u 7hi■n THU■N hi■u d■n tài c■ c■a ■■u ■■■ng li■u! tin qu■ t■t h■i Khi ■■i, qu■ ■■ng Vi■t xác c■ khách gia nh■t, Nghe b■n nh■t, minh l■nh Nam t■ng Chào b■online có uy hàng danh l■ uy tài v■c: l■nh thu Tác v■ tín m■ng nhé, tín kho■n tr■ sách cao nh■p khó khơng tài phong v■c cao tr■■c thành b■n nh■t tin Top email nh■t tài online khác nh■ng chuyên ■■n li■u tiên thành danh tín Mong b■n Mong cho d■ng, v■i ■ây so thu nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n cao công ■■ng c■a c■ doanh b■n nh■t mang tìm hồn mang ngh■ 123doc s■ ký g■c hi■u online thành tháng v■i l■i hoàn h■o, Chúng l■i thơng B■n thơng cho 123doc.netLink cho viên t■o tồn Tính ■■ n■p có c■ng tơi tin, c■ng tin c■ c■a cao th■ ■■n cung ti■n ngo■i v■ h■i ■■ng tính website phóng ■■ng Khách th■i vào c■p xác gia ng■, Khách trách xác xã tài t■ng ■i■m mà D■ch xã to, hàng h■i kho■n th■c nhi■m h■i BQT thu thu m■t tháng V■ có nh■ m■t s■ nh■p 123doc c■a th■ (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, d■ v■i online ■■■c ý có ■ã dàng tài g■i t■ng th■ tài thu 123doc nguyên cho v■ mô nguyên b■n tra d■ ng■■i th■p t■t ■■a t■ c■u dàng s■ v■■t tri d■■i c■ ■■■c tri dùng ■■■c ch■ tài th■c tra th■c m■c li■u ■ây) email c■u sau thành quý M■c h■■ng quý m■t 100.000 cho ■■t tài báu, b■n tiêu báu, viên li■u cách b■n, t■ng nh■ng phong ■ã hàng phong c■a m■t l■■t tùy ■■ng k■t ■■u website phú, quy■n cách truy thu■c phú, doanh xác, ky, c■a c■p ■a ■a nhanh l■i b■n vào d■ng, thu 123doc.net m■i d■ng, sau xác, vui tháng chóng ngày, n■p giàu lịng “■i■u nhanh giàu 11 ti■n giá s■ ■■ng tr■ giá uy Kho■n chóng h■u tr■ tín thành tr■ nh■p ■■ng cao 2.000.000 website ■■ng Th■a th■ nh■t email th■i vi■n th■i Thu■n Mong mong c■a thành mong tài v■ li■u mu■n mu■n viên mu■n S■ online ■■ng D■ng mang t■o click t■o l■n ■i■u ký, D■ch ■i■u vào l■i nh■t l■t cho link ki■n ki■n V■” vào Vi■t c■ng 123doc cho top sau cho Nam, ■■ng cho 200 ■ây cho ■ã cung các (sau g■i xãusers website h■i c■p users ■ây m■t nh■ng có ■■■c cóph■ thêm ngu■n thêm tài bi■n g■i thu thu li■u tài t■t nh■p nh■t nh■p ngun ■■c T■it■i Chính khơng t■ng Chính Vi■t tri th■c th■i vìth■ Nam, vìv■y v■y q ■i■m, tìm 123doc.net t■123doc.net báu, th■y l■chúng tìm phong ki■m tơi th■ phú, có ■■i thu■c ■■i tr■■ng th■ ■Sau nh■m nh■m c■p top ngo■i h■n ■áp 3nh■t ■áp Google m■t ■ng tr■ ■KTTSDDV ■ng 123doc.net n■m nhu Nh■n nhuc■u rac■u ■■i, ■■■c chia theo chia 123doc s■ quy■t danh s■tàitài hi■u li■u ■ã li■u t■ng ch■t ch■t c■ng b■■c l■■ng l■■ng ■■ng kh■ng vàvàki■m bình ki■m ■■nh ch■n ti■n ti■n v■ online online tríwebsite c■a ki■m ti■nl■nh online v■c hi■u tài li■u qu■và vàkinh uy tín doanh nh■t.online Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p không tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i c■p thay ng■, Khách trách xác ■i■m D■ch xã to, th■c nhi■m m■i h■i thutháng V■ nh■ m■t s■(nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; cáv■i nhân ■■■c ý cóg■i t■ng th■ tài 123doc kinh v■ mơ ngun d■ ng■■i doanh ■■a t■ dàng v■■t d■■i tri dùng ch■ t■ tra th■c m■c ■ây) th■c email c■u M■c quý 100.000 cho tài hi■n b■n tiêu báu, li■u b■n, ngh■a ■ã hàng phong m■t l■■t tùy ■■ng ■■u cách truy v■ thu■c phú, ky, c■a c■a c■p ■a b■n vào 123doc.net m■i d■ng, xác, vuingày, lòng “■i■u nhanh giàu s■p s■ ■■ng tr■ giá t■i, Kho■n chóng h■u thành tr■ ngh■a nh■p 2.000.000 ■■ng Th■a th■ email v■vi■n th■i Thu■n c■a c■a thành mong tài c■a v■ li■u viên hàng mu■n S■ online ■■ng D■ng tri■u click t■o l■n ký, D■ch ■i■u vào nhà nh■t l■t link bán ki■n V■” vào Vi■t 123doc hàng top sau cho Nam, 200 l■i ■ây cho ■ã chuy■n cung các (sau g■iwebsite c■p users ■ây giao nh■ng ■■■c cósang ph■ thêm tài bi■n g■i ■■n thu li■u t■t nh■t v■ nh■p ■■c T■i qu■n t■i không t■ng Chính Vi■t lý th■i quy■n th■ Nam, v■y ■i■m, tìm l■i t■123doc.net th■y l■ sau chúng tìm n■p ki■m tơi th■ ti■n racóthu■c ■■i tr■■ng th■nh■m c■p website top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc ——————————————— BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Cao Mạnh Hải Đề tài luận văn: Tóm tắt đa văn tiếng Việt Chuyên ngành: Khoa học liệu Mã số SV: CB190206 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 24/12/2021 với nội dung sau: • Bổ sung sở lý thuyết cho ngôn ngữ tiếng Việt tiếng Anh • Bổ sung ý nghĩa thực tiễn cho đề tài • Sửa lỗi tả Hà Nội, ngày Giáo viên hướng dẫn tháng năm Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep ĐỀ TÀI LUẬN VĂN Thông tin học viên Họ tên học viên: Cao Mạnh Hải Mã học viên: CB190206 Điện thoại liên lạc: 0981245088 Email: hai.cmcb190206@sis.hust.edu.vn Lớp: Khoa học liệu (KH) Khóa: CH2019B Luận văn tốt nghiệp thực tại: Trường Đại học Bách khoa Hà Nội Thời gian làm Luận văn tốt nghiệp: Từ ngày 01/02/2020 đến 08/12/2021 Mục đích nội dung Luận văn tốt nghiệp Tìm hiểu kỹ thuật Xử lý ngôn ngữ tự nhiên kiến thức Học máy Học sâu từ áp dụng cho tốn Tóm tắt đa văn tiếng Việt Kết hợp với việc tìm hiểu phương pháp tóm tắt văn truyền thống từ đưa cách kết hợp để cải thiện độ xác cho toán Các nhiệm vụ cụ thể Luận văn tốt nghiệp - Tìm hiểu lý thuyết Xử lý ngôn ngữ tự nhiên, Học máy Học sâu - Tìm hiểu cách tiền xử lý liệu phương pháp véc tơ hóa liệu - Tìm hiểu phương pháp tóm tắt văn nghiên cứu - Tìm hiểu cách đánh giá độ xác cho tốn Tóm tắt văn - Đề xuất mơ hình kết hợp phương pháp để cải thiện độ xác tốn - Thử nghiệm đánh giá kết phương pháp tìm hiểu - Kết luận hướng phát triển Lời cam đoan học viên: Tôi – Cao Mạnh Hải – cam kết Luận văn tốt nghiệp công trình nghiên cứu thân tơi hướng dẫn PGS.TS Lê Thanh Hương Các kết nêu Luận văn tốt nghiệp trung thực, chép tồn văn cơng trình khác Hà Nội, ngày tháng năm Tác giả Luận văn tốt nghiệp Xác nhận giáo viên hướng dẫn mức độ hoàn thành Luận văn tốt nghiệp cho phép bảo vệ: Hà Nội, ngày tháng năm Giáo viên hướng dẫn PGS.TS Lê Thanh Hương luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến Thầy, Cô giáo viện Công nghệ thông tin Truyền thông truyền tải không kiến thức, kỹ mà nhiệt huyết để em vững tâm suốt thời gian học tập Em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Lê Thanh Hương bảo tận tình để em hồn thành Luận văn Ngoài ra, em xin gửi lời cảm ơn đến Viện nghiên cứu trí tuệ nhân tạo VinAI tạo điều kiện, mơi trường sáng tạo cho em hồn thành tốt nhiệm vụ Luận văn giao Cuối cùng, em xin gửi lời cảm ơn đến gia đình, người bạn ln ủng hộ em q trình hồn thiện Luận văn HỌC VIÊN luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP Mục tiêu khuôn khổ Luận văn tốt nghiệp giải tốn tóm tắt đa văn sử dụng kỹ thuật tóm lược cho ngơn ngữ tiếng Việt Qua trình tìm hiểu với hướng dẫn tận tình PGS TS Lê Thanh Hương, kết thu luận văn khả quan Báo cáo trình bày vấn đề tìm hiểu trình thực Luận văn tốt nghiệp Kết Luận văn tốt nghiệp thử nghiệm phương pháp liệu "Duc2007" cho mơ hình tóm tắt đa văn trích rút đưa kết để so sánh chất lượng phương pháp khác giới Ngồi ra, mơ hình tóm tắt đa văn tóm lược đề xuất cho liệu tiếng Việt kết thử nghiệm cho thấy chất lượng mơ hình đề xuất khả quan liệu tác giả Trần Mai Vũ Nội dung Luận văn tốt nghiệp trình bày phương pháp để giải vấn đề trích rút thông tin quan trọng tập văn sau tóm tắt lại câu từ hồn toàn Chi tiết Báo cáo luận văn tốt nghiệp trình bày vấn đề sau: - Chương 1: Mở đầu: đặt vấn đề, giới thiệu tốn tóm tắt văn - Chương 2: Cơ sở lý thuyết: trình bày kiến thức vận dụng luận văn tốt nghiệp - Chương 3: Hướng tiếp cận mơ hình đề xuất: trình bày hướng tiếp cận đề xuất mơ hình cho tốn tóm tắt đa văn theo hướng tóm lược - Chương 4: Cài đặt, thử nghiệm đánh giá: trình bày liệu thử nghiệm đưa kết phương pháp liệu thử nghiệm - Chương 5: Kết luận hướng phát triển: trình bày đóng góp, khó khăn Luận văn tốt nghiệp Từ đưa hướng phát triển cho luận văn tốt nghiệp HỌC VIÊN luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Mục lục Mở 1.1 1.2 1.3 1.4 đầu Đặt vấn đề Bài tốn tóm tắt văn Ý nghĩa thực tiễn đề tài Định hướng 1.4.1 Các nghiên cứu liên quan theo hướng trích rút 1.4.2 Các nghiên cứu liên quan theo hướng tóm lược 1.4.3 Phương pháp sử dụng đề tài 1 4 5 Cơ sở lý thuyết 2.1 Lý thuyết ngôn ngữ 2.1.1 Tiếng Anh 2.1.2 Tiếng Việt 2.2 Mơ hình véc tơ hóa liệu 2.2.1 Mơ hình túi từ 2.2.2 Mơ hình túi từ sử dụng lược đồ trọng số TF-IDF 2.2.3 Nhúng từ 2.3 Phương pháp đánh giá 2.3.1 Độ đo Rouge 2.3.2 Một số biến thể độ đo Rouge 2.4 Cơ sở lý thuyết cho mơ hình tóm tắt đa văn trích rút 2.4.1 K-means 2.4.2 LexRank 2.4.3 Maximal Marginal Relevance (MMR) 2.4.4 Phương pháp sử dụng độ trung tâm 2.5 Cơ sở lý thuyết cho tốn tóm tắt đơn văn tóm lược 2.5.1 Mạng nơron hồi quy (Recurrent Neural Network - RNN) 2.5.2 Long Short Term Memory (LSTM - Bộ nhớ dài-ngắn hạn) 2.5.3 Mơ hình Sequence to Sequence 2.5.4 Cơ chế Attention 2.5.5 Cơ chế Pointing/Copying 2.5.6 Beam Search 7 10 10 11 12 15 15 16 16 16 19 19 20 21 21 22 25 26 28 30 31 31 32 32 33 Hướng tiếp cận mơ hình đề xuất 3.1 Mơ hình đề xuất 3.2 Mơ hình tóm tắt đa văn theo hướng trích rút 3.2.1 Hướng tiếp cận cho mơ hình tóm tắt đa văn 3.2.2 K-means sử dụng vị trí tương đối trích rút i luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep 35 36 37 38 38 39 41 Cài đặt, thử nghiệm đánh giá 4.1 Công cụ môi trường cài đặt 4.2 Chuẩn bị liệu 4.2.1 Bộ liệu Duc2007 4.2.2 Bộ liệu Báo 4.2.3 Bộ liệu tác giả Trần Mai Vũ 4.2.4 Bộ liệu Vims 4.3 Tiền xử lý liệu đánh giá mô hình tóm tắt 4.4 Đánh giá chất lượng mơ hình 4.4.1 Kết mơ hình tóm tắt đa văn trích rút tập liệu Duc2007 4.4.2 Kết mơ tính tóm tắt đa trích rút liệu tiếng Việt 4.4.3 Kết mơ hình tóm tắt đơn văn tóm lược liệu Báo 4.4.4 Kết mơ hình tóm tắt đa văn tóm lược liệu 200 clusters 44 44 44 44 45 45 46 46 47 3.3 3.4 3.2.3 K-means kết hợp vị trí câu tài liệu 3.2.4 K-means kết hợp MMR Position 3.2.5 K-means kết hợp Centroid-based, MMR Position Mơ hình tóm tắt đơn văn theo hướng tóm lược 3.3.1 Hướng tiếp cận cho mơ hình tóm tắt đơn văn tóm lược 3.3.2 Tận dụng đặc trưng từ tài liệu đầu vào Quy trình huấn luyện mơ hình tóm tắt đa văn theo hướng tóm lược 47 49 49 50 Kết luận hướng phát triển 53 5.1 Kết luận 53 5.2 Hướng phát triển 54 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Danh sách bảng 4.1 4.2 4.3 4.4 4.5 4.6 Kết Kết Kết Kết Kết Kết quả quả quả của của của mơ hình tóm tắt đa văn trích rút với bốn kịch bản[19] mơ hình tóm tắt trích rút so với phương pháp sở[19] số phương pháp giới[19] mơ hình tóm tắt đa trích rút tập 200 clusters Vims mơ hình tóm tắt đơn tóm lược tập Báo mơ hình tóm tắt đa văn tóm lược tập 200 clusters 48 48 49 49 50 50 iii luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Danh sách hình vẽ 1.1 Phương pháp sử dụng đề tài 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 Bag of Words[17] Bag of Word với trọng số tf-idf[17] Mơ hình CBOW với từ ngữ cảnh[29] Kiến trúc CBOW[29] Kiến trúc Skip-Gram[29] Một đơn vị RNN[26] Cấu trúc Cell LSTM Forget gate LSTM[23] Input gate LSTM[23] Cell state LSTM[23] Output gate LSTM[23] Mơ hình seq2seq (SOS EOS token bắt đầu kết thúc)[20] LSTM hai chiều[14] Mơ hình seq2seq dựa chế attention[20] Mô hình sử dụng chế pointer[13] Giải thuật Beam Search[28] 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Mơ hình tóm tắt đa văn tóm lược Mơ hình sở cho tốn tóm tắt đa trích rút[19] Mơ hình tóm tắt đa văn sử dụng K-means[19] Biểu diễn véc tơ câu sử dụng Word2Vec[17] Mơ hình tóm tắt đa văn sử dụng K-means kết hợp Position[19] Mơ hình tóm tắt đa trích rút sử dụng K-means kết hợp MMR Position[19] Mơ hình tóm tắt sử dụng K-means kết hợp Centroid-based, MMR Position[19] Mơ hình tóm tắt đơn văn tóm lược sở Mơ hình tóm tắt đơn văn tóm lược Quy trình đầy đủ cho tốn tóm tắt đa văn tóm lược Quy trình huấn luyện mơ hình tóm tắt đơn văn tóm lược ban đầu Quy trình huấn luyện lại mơ hình tóm tắt đơn văn tóm lược Quy trình đánh giá tồn mơ hình tóm tắt đa văn tóm lược 3.8 3.9 3.10 3.11 3.12 3.13 11 12 13 14 14 21 22 23 23 24 24 25 26 27 29 30 32 33 34 34 35 36 38 39 40 41 41 42 43 iv luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Chương Mở đầu Dữ liệu mạng ngày tăng với tốc độ chóng mặt theo thời gian Lượng liệu lớn trở nên khó kiểm sốt gây khó khăn cho người tìm đọc thơng tin mạng Mọi người có xu hướng tìm đọc thơng tin ngắn giữ ý Nhưng với việc liệu ngày gia tăng, việc người tự tạo tóm tắt bất khả thi Vì vậy, việc tạo mơ hình tóm tắt văn tự động vấn đề cấp thiết cộng đồng nghiên cứu xử lý ngơn ngữ tự nhiên 1.1 Đặt vấn đề Tóm tắt văn hướng nghiên cứu nhiều nhà nghiên cứu quan tâm kết mơ hình tóm tắt văn tương đối khả quan Cùng với đó, phát triển phần cứng ngày mạnh mẽ kết hợp với lượng liệu tăng lên phút làm cho việc giải toán theo hướng tiếp cận máy học trở nên dễ dàng Đặc biệt với tốn tóm tắt đa văn tóm lược mà việc huấn luyện mơ hình đủ tốt địi hỏi lượng lớn liệu yêu cầu tốc độ tính tốn nhanh Vì lý đó, tốn tóm tắt đa văn theo hướng tóm lược quan tâm cộng đồng học thuật tồn giới Song song với đó, hướng nghiên cứu tốn tóm tắt văn Việt Nam cịn ít, đặc biệt tốn tóm tắt đa văn tóm lược Thấy lợi ích thực trạng nghiên cứu Việt Nam, em định thực việc tìm hiểu xây dựng chương trình Tóm tắt đa văn tóm lược với ngơn ngữ tiếng Việt 1.2 Bài tốn tóm tắt văn Tóm tắt văn tốn phức tạp triển khai để biến tập hợp tài liệu thành tài liệu mà chứa nội dung từ tập tài liệu gốc Cùng với đó, tạo tóm tắt ngắn nắm bắt thơng tin quan trọng (các) tài liệu gốc không đủ, tóm tắt cần phải tóm tắt lại theo cú pháp, đảm bảo tính trơi chảy trình tự thời gian tài liệu độc lập Bài tốn tóm tắt văn thường biết đến với hai hướng chính: • Tóm tắt văn trích rút luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep × |valign | + × |valign | Ở đây, |.| 27 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep đại diện cho chiều véc tơ "general" "concat" sử dụng phổ biến tóm tắt văn (trong phạm vi luận văn tốt nghiệp mình, mơ hình sử dụng "concat") Một nhược điểm phương thức "dot" yêu cầu hej hdt có chiều Với phân phối attention, ta xác định véc tơ ngữ cảnh phía nguồn cho từ mục tiêu như: P e e hj zte = Jj−1 αtj Cùng với trạng thái ẩn decoder hdt , ta tính trạng thái ẩn attention:  ˜ d = Wz z e ⊕ hd + bz h t t t Cuối cùng, phân phối từ vựng tính tốn sau:   d ˜ Pvocab,t = sof tmax Wd2v ht + bd2v Khi t > 1, trạng thái ẩn decoder hdt+1 cập nhật:   ˜d hdt+1 = LST M hdt , Eyt ⊕ h t ˜ d Trong đó, E token đầu vào; đầu vào kết hợp Eyt h t 2.5.5 Cơ chế Pointing/Copying Cơ chế pointing/copying (cơ chế chép) đại diện cho lớp hướng tiếp cận mà sinh token mục tiêu cách chép trực tiếp từ chuỗi đầu vào dựa trọng số attention chúng Nó áp dụng cách tự nhiên vào tóm tắt văn theo hướng tóm lược tóm tắt tài liệu đầu vào chia sẻ tập từ vựng chung Một khía cạnh quan trọng có khả việc giải vấn đề liên quan đến từ không tồn tập từ vựng ban đầu (OOV) Một vài nghiên cứu cho thấy hiệu suất tăng lên sau kết hợp chế pointing/copying vào tảng Seq2seq 28 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Hình 2.15: Mơ hình sử dụng chế pointer[13] Pointer Softmax Kiến trúc pointer softmax bao gồm ba thành phần bản: short-list softmax, location softmax switching network Tại bước giải mã t, short-list softmax Pvocab,t tính tốn theo:   ˜ t + bd2v Pvocab,t = sof tmax Wd2v h Short-list softmax sử dụng để dự đoán token mục tiêu tập từ vựng Location softmax cung cấp vị trí token mà chép từ tài liệu nguồn x tới mục tiêu yt dựa trọng số attention αte Với hai thành phần này, mạng chuyển đổi (switching network) thiết kế để định nên dự đoán token từ tập từ vựng nên chép token từ tài liệu nguồn token khơng nằm tập từ vựng (OOV token) Switching network Multilayer Perceptron (MLP) với hàm kích hoạt sigmoid, mà ước lượng xác suất pgen,t việc tạo token từ tập từ vựng dựa véc tơ ngữ cảnh zte trạng thái ẩn hdt với:  pgen,t = σ Ws,z Zte + Ws,h hdt + bs hàm kích hoạt sigmoid Xác Trong đó, pgen,t scalar σ (a) = 1+exp(−a) suất cuối việc tạo token mục tiêu yt đưa cách kết hợp véc tơ pgen,t Pvocab,t (1 − pgen,t ) αte Chú ý w từ khơng có tập từ điển ban đầu Pvocab (w) = 0; tương tự w khơng xuất văn nguồn αte = Switching Generator-Pointer Tương tự switching network pointer softmax, switching generator-pointer trang bị "bộ chuyển đổi" (switch), mà định nên sinh token từ tập từ vựng chép từ tài liệu nguồn bước giải mã Switch mơ hình hóa cách rõ ràng sau: 29 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep pgen,t = σ Ws,z zte + Ws,h hdt + Ws,E Eyt−1 + bs  Nếu chuyển đổi bật, decoder tạo word từ tập từ vựng với phân phối Pvocab,t Mặt khác, decoder sinh pointer dựa phân phối attention αte , pj = e , pj vị trí token tài liệu nguồn Khi pointer argmaxj∈{1,2, ,J} αtj kích hoạt, việc nhúng pointed token Exj sử dụng đầu vào cho bước decode 2.5.6 Beam Search Trong trình sinh tóm tắt mới, decoder nhận đầu vào kết sinh bước trước (với bước đầu tiên, decoder nhận đầu vào kết sinh từ encoder) Q trình cải thiện cách sử dụng Beam Search để giúp việc tìm kiếm chuỗi đầu tốt Tại bước decoding: thay lựa chọn từ có phân bố xác suất cao giải thuật Beam Search lựa chọn beam size (kích thước tìm kiếm) từ với phân bố xác suất cao để làm đầu vào cho bước decoding Quá trình lặp lại gặp ký hiệu kết thúc "", đó, tóm tắt có trung bình xác suất cao chọn làm đầu tóm tắt cuối Ví du, với beam size=5 (hình 2.16), bước decoding ta giữ lại từ có phân bố xác suất cao Hình 2.16: Giải thuật Beam Search[28] 30 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Chương Hướng tiếp cận mơ hình đề xuất Bài tốn tóm tắt đa văn theo hướng tóm lược gặp phải vấn đề khó khăn khơng có lượng liệu chuẩn đủ lớn để huấn luyện mơ hình học sâu tiêu chuẩn Vấn đề không cộng đồng nghiên cứu Việt Nam gặp phải liệu tiếng Việt mà cịn khó khăn toàn nhà nghiên cứu khác giới Việc khan liệu cho tốn tóm tắt đa văn xảy trình tạo liệu địi hỏi cơng sức lớn từ người có kinh nghiệm thực tế chứng minh chưa tồn liệu đủ lớn cho tốn tóm tắt đa văn theo hướng tóm lược Chính vậy, chương này, em đề xuất mơ hình để giải khó khăn việc khan liệu 3.1 Mơ hình đề xuất Nhận thấy liệu cho tốn tóm tắt đa văn theo hướng tóm lược tiếng Việt có vài với số lượng tài liệu Tuy nhiên, tập liệu cho tốn tóm tắt đơn văn tóm lược lại có nhiều với số lượng tài liệu đủ lớn cho mơ hình học sâu Với thực tế này, việc xây dựng mơ hình cho tốn tóm tắt đa văn tóm lược khơng khả thi, việc xây dựng mơ hình cho tóm tắt đơn văn tóm lược lại tương đối khả quan Nhận thức tính khả thi này, em định chia nhỏ tốn thành hai mơ đun, thay trực tiếp xây dựng mơ hình lớn cho tốn tóm tắt đa văn tóm lược em chia nhỏ thành hai mơ đun Mơ hình đề xuất cho tốn tóm tắt đa văn tóm lược (hình 3.1) kết hợp từ hai mơ hình tóm tắt văn mà em trình bày mục 3.2 3.3: Từ hình 3.1, mơ hình mơ tả theo luồng đây: • Bước 1: tập văn đầu vào gộp thành văn • Bước 2: văn tiền xử lý để loại bỏ nhiễu • Bước 3: véc tơ hóa văn đầu vào thành véc tơ câu để máy tính hiểu • Bước 4: cho véc tơ câu thu qua mơ hình tóm tắt đa văn hướng trích rút để thu tóm tắt trích rút (chi tiết trình bày mục 3.2) 31 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep • Bước 5: tóm tắt trích rút tiếp tục cho qua mơ hình tóm tắt đơn văn hướng tóm lược để thu tóm tắt tóm lược cuối (chi tiết trình bày mục 3.3) Hình 3.1: Mơ hình tóm tắt đa văn tóm lược 3.2 Mơ hình tóm tắt đa văn theo hướng trích rút Bài tốn tóm tắt đa trích rút tiến hành chọn câu quan trọng để tạo tóm tắt ngắn bao gồm nội dung tập tài liệu đầu vào Ngồi ra, với đặc điểm tốn tóm tắt đa văn đề cập chương 1, mục tiêu mơ hình tóm tắt đa trích rút phạm vi luận văn cần tránh chồng chéo thông tin tài liệu đầu vào với Cùng với đó, độ dài tóm tắt đầu vấn đề giải phần 3.2.1 Hướng tiếp cận cho mơ hình tóm tắt đa văn trích rút Để giải tốn tóm tắt đa văn theo hướng trích rút, có hai hướng tiếp cận thường cộng đồng nghiên cứu sử dụng là: • Hướng tiếp cận thứ nhất: tiến hành tóm tắt tài liệu cách độc lập, sau tóm tắt đầu kết hợp lại với để thu tóm tắt cuối • Hướng tiếp cận thứ hai: biến tập tài liệu đầu vào thành tài liệu cách nối tài liệu đầu vào lại với Sau đó, tốn tóm tắt đa văn trở thành tốn tóm tắt đơn văn Các tài liệu đầu vào với thông tin khác khó nắm bắt thực cách tiếp cận Trong kết hợp tài liệu với giải 32 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep nhược điểm Với lý này, mơ hình cho tốn tóm tắt đa trích rút phạm vi luận văn sử dụng cách tiếp cận thứ hai Trong phạm vi luận văn này, ý tưởng chung hệ thống tóm tắt đa văn trích rút mơ hình đơn giản sau: Hình 3.2: Mơ hình sở cho tốn tóm tắt đa trích rút[19] Từ hình 3.2, ta có: • Phần đầu tiên: biến liệu đầu vào thành véc tơ đặc trưng (trích chọn đặc trưng) + Bước một: tài liệu đầu vào tạo cách nối tài liệu đầu vào lại với + Bước hai: loại bỏ ký tự đặc biệt, lấy gốc từ (cho tiếng Anh), tách từ (cho tiếng Việt), tách câu, Biến câu tách thành véc tơ đặc trưng • Phần thứ hai: tập véc tơ câu lấy làm đầu vào cho mơ hình tóm tắt đa văn trích rút để tạo nên tóm tắt Chi tiết phần thứ hai mơ hình em trình bày phần 3.2.2 K-means sử dụng vị trí tương đối Như trình bày mục 3.2.1, đầu vào mơ hình tóm tắt đa văn trích rút tập véc tơ câu Với giả định câu tập tài liệu mang thơng tin tương tự với Với ý tưởng này, rõ ràng câu phân cụm cho cụm chứa câu "tương đồng" với Mặt khác, tập liệu cho toán tóm tắt đa văn hạn chế mặt số lượng, việc áp dụng mơ hình học khơng giám sát lựa chọn khả quan Từ lý này, em áp dụng K-means cho việc phân cụm câu đầu vào K-means phương pháp phân cụm đơn giản cho hiệu suất tốt nhất, đặc biệt K-means thuật tốn học khơng giám sát nên phù hợp cho toán 33 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Hình 3.3: Mơ hình tóm tắt đa văn sử dụng K-means[19] Để hiểu rõ đầu vào mơ hình tóm tắt văn bản, bước đầu ta xem xét cách để biểu diễn câu dạng véc tơ Đầu tiên, câu tách thành từ, từ biểu diễn véc tơ qua mơ hình Word2Vec Nhớ lại phần sở lý thuyết Word2Vec, Word2Vec giúp biểu diễn từ dạng véc tơ biểu diễn câu Do đó, để sử dụng Word2Vec cho việc véc tơ hóa câu đầu vào, em sử dụng kỹ thuật cộng tổng véc tơ từ câu để thu véc tơ coi đại diện cho câu với số chiều khơng thay đổi Hình 3.4 ví dụ cho kỹ thuật này: Hình 3.4: Biểu diễn véc tơ câu sử dụng Word2Vec[17] Nhờ vào khoảng cách câu đến trung tâm cụm chứa câu ta dễ dàng xếp hạng độ quan trọng câu cụm Cùng với đó, 34 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep cụm bao gồm câu tương tự với nhau, nên việc lựa chọn câu đại diện quan trọng để tránh chồng chéo thơng tin Với lập luận ta xác định số cụm khởi tạo ban đầu cho thuật tốn K-means nên số lượng câu có tóm tắt Nhiệm vụ ta cần xử lý việc xếp lại câu chọn từ cụm để đưa vào tóm tắt cuối Cách phổ biến hay sử dụng cách tận dụng vị trí tương đối để xếp hạng câu trước đưa vào tóm tắt Như vậy, với câu xếp hạng cao đưa vào tóm tắt trước Mặt khác, để xếp hạng thứ tự ưu tiên thêm câu vào tóm tắt, em sử dụng vị trí tương đối Trong đó, thứ tự ưu tiên tập câu xếp theo độ tăng dần vị trí tương đối Vị trí tương đối câu tính vị trí trung bình cụm chứa câu Xét ví dụ: câu có vị trí tương đối tập câu ban đầu 3, 10 = thuộc vào cụm Khi đó, vị trí trung bình cụm tính sau: 3+8+10 3.2.3 K-means kết hợp vị trí câu tài liệu Có hạn chế cách tiếp cận sử dụng phân cụm K-means vị trí tương đối trình bày mục 3.2.2 Hạn chế thể qua việc vị trí tương đối sử dụng khơng thể vị trí câu tài liệu chứa Như cách khắc phục triệt để vấn đề sử dụng vị trí câu tài liệu chứa (Position) Mơ hình thể hình 3.5 Hình 3.5: Mơ hình tóm tắt đa văn sử dụng K-means kết hợp Position[19] Qua khảo sát thực tế tập liệu sử dụng, em thấy đa phần tài liệu viết theo cách thức diễn dịch Tức phần chủ đề đứng đầu tài liệu, câu lại tài liệu giúp triển khai rõ ràng ý nghĩa câu chủ đề Với đặc điểm này, câu xếp hạng theo thứ tự tăng dần trọng số Positon Hay nói cách khác, câu nằm phần đầu tài liệu đầu vào có khả cao chọn để đưa vào tóm tắt 35 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Cùng với đó, đặc trưng Position giúp tóm tắt đầu có trình tự thời gian hợp lý Vì tài liệu có nhiều câu chọn để đưa vào tóm tắt rõ ràng câu đưa vào tóm tắt theo thứ tự tài liệu gốc 3.2.4 K-means kết hợp MMR Position Như đề cập mục 3.2.2, sử dụng phân cụm K-means cho tốn tóm tắt rõ ràng ta cần cố định số lượng cụm khởi tạo ban đầu để lựa chọn xác số câu cho tóm tắt Nhưng vậy, với số lượng cụm nhỏ thường làm cho kết phân cụm K-means bị hạn chế mà số lượng cụm nhỏ câu cụm có điểm khác bị nhóm chung vào cụm Từ rõ ràng ta cần tăng số lượng cụm lên để giải vấn đề Mặt khác, số lượng cụm tăng lên ta phải đối mặt với toán khác nên lựa chọn câu từ cụm Để tránh chồng chéo thơng tin việc loại bỏ câu tương tự với câu lựa chọn để đưa vào tóm tắt cách đơn giản Với lợi phương pháp MMR trình bày mục 2.3.4, em định lựa chọn phương pháp MMR nhằm giải hạn chế Như vậy, mơ hình cho tốn tóm tắt đa văn trích rút biểu diễn lại qua hình 3.6: Hình 3.6: Mơ hình tóm tắt đa trích rút sử dụng K-means kết hợp MMR Position[19] Để sử dụng phương pháp MMR cho tốn tóm tắt văn thay tốn trích rút thơng tin ta cần định nghĩa lại chút cách tính trọng số việc xếp hạng câu Cơng thức MMR sửa đổi tính tốn sau:    def M M R = Arg max λ Sim1 (Di , Q) − (1 − λ) max Sim2 (Di , Dj ) Di ∈C\{S,Q} Dj ∈S Trong đó: 36 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep • C : tập câu ứng viên • Q : câu tốt lấy từ tập C • S : câu đưa vào tóm tắt • Sim1 , Sim2 : cơng thức tính tốn độ tương đồng hai câu, với: P tfw,u tfw,v (idfw ) Sim1 (u, v) = Sim2 (u, v) = √w∈v P w∈u (tfw,u idfw ) Với: + u, v hai câu cần tính độ tương đồng + tfw,u tần suất xuất từ w + idfw độ quan từ w • λ : tham số Bài tốn tóm tắt sử dụng MMR: • Bước một: lựa chọn câu có Position nhỏ để đưa vào tóm tắt loại bỏ câu khỏi tập ứng viên • Bước hai: tính trọng số sử dụng cơng thức MMR sửa đổi cho câu cịn lại • Bước ba: xếp hạng câu dựa vào trọng số MMR tính từ bước hai, câu tốt đưa vào tóm tắt đồng thời loại bỏ câu tập ứng viên • Bước bốn: lặp lại bước hai bước ba hội tụ Các câu sau xếp lại dựa đặc trưng Position trình bày mục 3.2.3 Như vây, tóm tắt cải thiện sau khắc phục hạn chế với số lượng cụm nhỏ khởi tạo thuật toán K-means 3.2.5 K-means kết hợp Centroid-based, MMR Position Nhận thấy đa phần tài liệu ln bao gồm câu mang chí không mang thông tin quan trọng câu dẫn dắt, câu mở đầu, Do đó, tốn tóm tắt văn ta nên tránh chọn câu từ cụm Vây nên em đề xuất việc kết hợp thêm độ trung tâm câu vào mơ hình tóm tắt văn nhằm khắc phục hạn chế Trong phạm vi luận văn này, em sử dụng phương pháp Centroid-based (đã trình bày mục 2.3.4) để loại bỏ câu mà chứa thơng tin Hình 3.7 thể mơ hình tóm tắt văn trích rút kếp hợp thêm phương pháp tận dụng độ trung tâm Trong phạm vi luận văn này, em áp dụng mơ hình BoW với lược đồ trọng số tf-idf để véc tơ hóa liệu làm đầu vào cho phương pháp Centroid-based Như em trình bày mục 2.3.4, từ coi trung tâm trọng số tf-idf cao ngưỡng định cho trước Như vậy, câu coi trung tâm (hay có trọng số cao) cấu thành nhiều từ trung tâm Từ ý tưởng này, em nhận thấy dựa vào độ trung tâm câu để xác định xem câu mang nhiều, câu mang thơng tin mà ta muốn đưa vào tóm tắt 37 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep Bằng cách sử dụng số MMR đặc trưng Position cho tập câu lựa chọn từ phương pháp tận dụng độ chúng tâm ta thu tóm tắt cuối Bằng cách kết hợp phương pháp lại với nhau, tóm tắt đa trích rút đầu tránh chống chéo thông tin, loại bỏ câu mang thơng tin xếp theo trình tự thời gian Đây mơ hình cuối mà em đề xuất cho tốn tóm tắt đa văn trích rút phạm vi luận văn Hình 3.7: Mơ hình tóm tắt sử dụng K-means kết hợp Centroid-based, MMR Position[19] 3.3 Mơ hình tóm tắt đơn văn theo hướng tóm lược Những năm gần đây, với phát triển mạnh mẽ mô hình học sâu, tốn tóm tắt đơn văn tóm lược có cải thiện đáng kể chất lượng tóm tắt đầu 3.3.1 Hướng tiếp cận cho mơ hình tóm tắt đơn văn tóm lược Trong năm gần đây, tảng chung cho việc giải vấn đề liên quan đến tốn tóm tắt văn sử dụng mạng nơ ron sâu mà bao gồm hai thành phần: encoder có nhiệm vụ đọc vào chuỗi liệu đầu vào; decoder sử dụng đầu sinh từ encoder để tạo chuỗi đầu cuối Các tảng biết đến với tên gọi Seq2seq (đã trình bày chương 2) Từ sở lý thuyết trình bày chương 2, tốn tóm tắt đơn văn tóm lược hiểu sau (hình 3.8 dựa theo hình vẽ cơng bố nhóm tác giả Yaser Keneshloo[18]): văn đầu vào chia nhỏ thành token xi , token đưa vào encoder, tạo chuỗi trạng thái ẩn hei Tại bước t, 38 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep decoder nhận vào word embedding từ trước (trong q trình huấn luyện, từ trước tóm tắt tham chiếu; thời điểm thử nghiệm, từ trước sinh từ decoder) Hình 3.8: Mơ hình tóm tắt đơn văn tóm lược sở Phương pháp sử dụng rộng rãi để đào tạo decoder cho việc sinh chuỗi gọi teacher forcing[41], phương pháp cực tiểu hóa lỗi maximum-likelihood bước decode Định nghĩa y = {y1 , y2 , , yT } chuỗi đầu ground-truth cho chuỗi đầu vào cho x Mục tiêu việc huấn luyện maximum-likelihood việc cực tiểu hóa theo hàm lỗi cross-entropy (CE), cơng thức tính sau:  P LCE = − Tt=1 logπθ yt |yt−1 , sdt , cdt−1 , X Khi mơ hình huấn luyện với hàm mục tiêu trên, mơ hình sinh chuỗi sau: yˆt biểu thị hành động (đầu ra) thực mơ hình điều kiện t Sau đó, hành động sinh bởi:  yˆt0 = argmaxπθ y|yˆt , sdt0 y Trong đó, sd trạng thái ẩn sinh từ decoder Như trình bày chương 2, mơ hình tóm tắt đơn văn sử dụng chế Attention để buộc mơ hình ý vào từ quan trọng tài liệu đầu vào Cùng với đó, mơ hình sử dụng chế pointing để khắc phục tình trạng OOV (những từ tài liệu khơng có tập từ điển) nhằm cải thiện hiệu suất mơ hình tóm tắt 3.3.2 Tận dụng đặc trưng từ tài liệu đầu vào Đặc trưng vị trí Với văn đầu vào x = (x1 , x2 , , xJ ) gồm n câu, ta biểu diễn văn lại sau x = (x11 , x21 , , xmi , , xJn ), đó, i số câu; n tổng số câu; 39 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep xji từ thứ j câu thứ i Từ đó, véc tơ đặc trưng Position biểu diễn sau: xposition = (1, 1, , i, , n) Như trình bày mục 3.2.3, câu đứng đầu văn thường chứa nhiều thơng tin câu nằm phía cuối văn Với đặc trưng Position, phân phối attention tính tốn lại sau: T setj = (valign ) tanh(Walign (hej ⊕hdt )+balign ) xposition Đặc trưng độ quan trọng từ (tf-idf) Với văn đầu vào x = (x1 , x2 , , xJ ), véc tơ đặc trưng độ quan trọng từ biểu diễn lại sau: xtf idf = (tf idf (x1 ) , tf idf (x2 ) , , tf idf (xJ )) (tf-idf tính theo chương 2) Phân phối attention tính toán lại sau: setj = (valign ) T tanh(Walign (hej ⊕hdt )+balign )(xtf idf ) xposition Như mô hình cho tốn tóm tắt đơn văn tóm lược thể qua hình 3.9: Hình 3.9: Mơ hình tóm tắt đơn văn tóm lược 40 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep 3.4 Quy trình huấn luyện mơ hình tóm tắt đa văn theo hướng tóm lược Để có nhìn rõ ràng tồn quy trình huấn luyện cho tốn tóm tắt đa văn tóm lược, hình vẽ mơ tả chi tiết trình huấn luyện phạm vi luận văn: Hình 3.10: Quy trình đầy đủ cho tốn tóm tắt đa văn tóm lược Để hiểu rõ luồng quy trình này, ta vào chi tiết quy trình nhỏ quy trình lớn Bước một: huấn luyện mơ hình tóm tắt đơn văn tóm lược ban đầu (pretrain model) Hình 3.11: Quy trình huấn luyện mơ hình tóm tắt đơn văn tóm lược ban đầu Tập liệu Báo sử dụng làm đầu vào để huấn luyện mơ hình tóm tắt đơn văn tiếng Việt để thu pretrain model Trong đó, Báo tập liệu cho 41 luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep an to nghiep docx 123docz luan van hay luan van tot nghiep

Ngày đăng: 03/06/2023, 13:11

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w