Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
2,18 MB
Nội dung
M ă U B i c nh nghiên c u Trong k nguyên s m ng Internet phát tri n m nh m nh hi n nay, tài nguyên internet nh trang web, đánh giá c a ng i dùng, tin t c, blog, m ng xư h i, nh ng ngu n d li u v n b n to l n Bên c nh đó, có m t kh i l ng n i dung v n b n phong phú khác kho l u tr nh báo tin t c, ti u thuy t, sách, v n b n pháp lu t, tài li u y sinh, báo khoa h c, Các n i dung v n b n t ng lên theo c p s nhân hàng ngày Do đó, ng i dùng m t r t nhi u th i gian đ tìm ki m thơng tin mà mong mu n K t qu ng i dùng th m chí khơng th đ c hi u h t đ c t t c n i dung v n b n k t qu tìm ki m Có nhi u thông tin b l p l i ho c không quan tr ng v n b n k t qu tìm ki m Do đó, vi c tóm t t đ ng ngu n v n b n tr nên c p thi t quan tr ng h n r t nhi u Tóm t t v n b n th cơng m t nhi m v t n tiêu t n nhi u th i gian công s c c a ng i Trên th c t , ng i c ng r t khó tóm t t th công v i l ng d li u v n b n kh ng l [1] gi i quy t v n đ này, ph ng pháp tóm t t v n b n t đ ng đ c quan tâm nghiên c u đ phát tri n h th ng tóm t t v n b n t đ ng M c tiêu c a h th ng tóm t t v n b n t đ ng t o b n tóm t t bao g m ý c a m t v n b n ho c nhi u v n b n đ u vào thơng tin l p l i nh t [2,3] Các h th ng tóm t t v n b n t đ ng sinh b n tóm t t giúp ng i dùng n m đ c nh ng m c a v n b n g c mà không c n ph i đ c toàn b v n b n Ng i dùng s đ c h ng l i t b n tóm t t đ c sinh t đ ng, ti t ki m đ c nhi u th i gian công s c Các h th ng tóm t t v n b n t đ ng hi n có th đ c chia thành hai lo i tóm t t đ n v n b n tóm t t đa v n b n Tóm t t đ n v n b n sinh b n tóm t t t m t v n b n đ u vào, tóm t t đa v n b n sinh b n tóm t t t m t t p v n b n đ u vào Các h th ng tóm t t v n b n t đ ng đ c phát tri n b ng vi c áp d ng m t ph ng pháp ti p c n ch y u tóm t t v n b n h ng trích rút tóm t t v n b n h ng tóm l c Tóm t t v n b n h ng trích rút: Là ph ng pháp l a ch n nh ng câu quan tr ng nh t m t v n b n ngu n (ho c m t t p v n b n ngu n) s d ng câu đ sinh b n tóm t t Ph ng pháp bao g m nhi m v x lý nh : T o m t bi u di n thích h p cho v n b n đ u vào, cho m câu, trích rút câu có m cao Các h th ng tóm t t v n b n h ng trích rút có th chia thành ph ng pháp ch y u sau: Ph ng pháp d a th ng kê Ph ng pháp d a khái ni m Ph ng pháp d a ch đ Ph ng pháp d a tr ng tâm hay phân c m câu Ph ng pháp d a đ th Ph ng pháp d a ng ngh a Ph ng pháp d a h c máy Ph ng pháp d a h c sâu Các h th ng tóm t t h ng trích rút có u m th c thi đ n gi n, nhanh cho đ xác cao ph ng pháp th c hi n trích rút tr c ti p câu đ ng i đ c có th đ c b n tóm t t v i thu t ng xác có v n b n g c Tuy nhiên, ph ng pháp c n có nh ng h n ch c n c n quan tâm nh : V n đ d th a thông tin m t s câu tóm t t, câu đ c trích rút có th dài h n m c trung bình, v n đ xung đ t v th i gian tốn tóm t t đa v n b n b n tóm t t trích rút đ c ch n t nhi u v n b n đ u vào khác nhau, thi u ng ngh a tính liên k t câu tóm t t liên k t khơng xác gi a câu Tóm t t v n b n h ng tóm l c: Ph ng pháp ti p c n bi u di n v n b n đ u vào d ng trung gian, sau sinh b n tóm t t v i t câu khác v i câu v n b n ngu n [28] Các h th ng tóm t t h ng tóm l c sinh b n tóm t t b ng cách hi u khái ni m v n b n đ u vào s d ng ph ng pháp x lý ngơn ng t nhiên, sau di n gi i v n b n đ di n đ t khái ni m v i s t h n s d ng ngôn ng rõ ràng [29,30] M t h th ng tóm t t tóm l c có th bao g m nhi m v x lý sau: Bi u di n ng ngh a v n b n s d ng k thu t sinh ngôn ng t nhiên đ sinh b n tóm t t g n v i b n tóm t t c a ng i t o [31] Các nghiên c u theo ph ng pháp ti p c n có th chia thành lo i sau: Ph ng pháp d a c u trúc Ph ng pháp d a ng ngh a Ph ng pháp d a h c sâu u m c a ph ng pháp tóm t t h ng tóm l c sinh b n tóm t t t t h n v i t có th khơng có v n b n g c b ng cách s d ng bi u di n d a di n gi i, nén B n tóm t t đ c sinh g n v i b n tóm t t th công c a ng i h n Tuy nhiên, vi c sinh m t b n tóm t t tóm l c có ch t l ng t t r t khó kh n Các h th ng tóm t t tóm l c có ch t l ng t t r t khó phát tri n h th ng yêu c u s d ng k thu t sinh ngôn ng t nhiên mà k thu t v n m t l nh v c đ c nghiên c u phát tri n hi n H u h t b n tóm t t tóm l c đ u g p ph i v n đ l p t không x lý đ c v n đ thi u t b t v ng m t cách thích h p Ngồi ra, m t ph ng pháp ti p c n khác tóm t t v n b n d a k thu t nén câu [44,45] c ng đư đ t đ c nh ng k t qu nh t đ nh Tuy nhiên, mơ hình tóm t t v n b n s d ng k thu t nén câu yêu c u chi phí cao Bên c nh đó, ch t l ng c a b n tóm t t t o ph thu c r t nhi u vào ch t l ng c a k thu t nén câu đ c s d ng i v i ti ng Vi t, tính ph c t p đ c thù riêng c a ngơn ng nên nghiên c u v tóm t t v n b n ti ng Vi t h n ch H u h t nghiên c u đ tài t t nghi p đ i h c, lu n v n th c s , ti n s đ tài nghiên c u khoa h c c p tr ng, c p b [49,50,51] Các nghiên c u đ c công b d i hình th c báo khoa h c cho tóm t t v n b n ti ng Vi t cịn [52,53,54,55,56] Các nghiên c u ph n l n d a h ng trích rút cho tốn tóm t t đ n v n b n ch y u d a vào đ c tr ng c a câu nh t n su t t , v trí câu, t tiêu đ , đ t ng t , đ ch n câu quan tr ng theo t l trích rút nên ch t l ng v n b n tóm t t ch a cao Bên c nh đó, ch a có kho ng li u đ l n đ c cơng b th c ph c v cho tóm t t v n b n ti ng Vi t nên h u h t th nghi m đ u d a kho ng li u t xây d ng nên vi c đánh giá k t qu c a nghiên c u c ng c n đ c xem xét k l ng Nh v y, có th nh n th y h th ng tóm t t v n b n t đ ng nhi u h n ch , nh ng h n ch làm phát sinh nh ng thách th c c n gi i quy t đ ng th i m h ng nghiên c u m i cho tốn tóm t t v n b n, là: Thách th c liên quan đ n tóm t t đa v n b n: Tóm t t đa v n b n toán ph c t p v i nhi u v n đ c n gi i quy t nh d th a thông tin, trình t th i gian s p x p l i câu Thách th c liên quan đ n ngôn ng đ c h tr tóm t t: H u h t h th ng tóm t t v n b n t đ ng đ u t p trung vào tóm t t v n b n ti ng Anh i v i ngơn ng khác, nghiên c u cịn h n ch ch t l ng c a h th ng tóm t t v n b n t đ ng hi n có c ng c n đ c c i thi n Do đó, c n ph i phát tri n c i ti n h th ng tóm t t cho ngơn ng không ph i ti ng Anh Thách th c liên quan đ n ph ng pháp tóm t t v n b n: H u h t nghiên c u hi n đ u t p trung vào ph ng pháp tóm t t h ng trích rút, c n nghiên c u đ xu t c i thi n h th ng tóm t t d a ph ng pháp tóm t t h ng tóm l c ph ng pháp tóm t t h n h p Thách th c liên quan đ n đ c tr ng th ng kê ngôn ng : C n phát hi n thêm m i đ c tr ng th ng kê ngôn ng cho t , câu cho h th ng đ có th trích xu t ng ngh a câu t v n b n ngu n Bên c nh đó, v n đ x lý tr ng s thích h p cho đ c tr ng m i c ng m t v n đ quan tr ng quy t đ nh ch t l ng c a b n tóm t t cu i Thách th c liên quan đ n vi c s d ng k thu t h c sâu v n đ thi u d li u th nghi m cho mơ hình: Do mơ hình h c sâu th ng có ki n trúc ph c t p, kh i l ng x lý tính tốn l n nên h th ng tóm t t c ng đòi h i tài nguyên l n đ th c thi Bên c nh đó, mơ hình h c sâu u c u l ng d li u hu n luy n l n đ đ m b o ch t l ng c a b n tóm t t đ u nh ng th c t hi n d li u khan hi m (ho c n u có c ng không đ l n) đ hu n luy n mơ hình ây m t thách th c nghiên c u quan tr ng xây d ng h th ng tóm t t v n b n t đ ng s d ng k thu t hi n đ i v i m t l ng d li u hu n luy n nh Thách th c liên quan đ n ch t l ng c a b n tóm t t sinh ra: B n tóm t t c n đ t đ c s cân b ng gi a kh n ng đ c, t l nén ch t l ng tóm t t t t Do đó, c n ph i c i thi n ch t l ng b n tóm t t v ng ngh a t không rõ ngh a, t đ ng ngh a ho c t nhi u ngh a gây Thách th c liên quan đ n ph ng pháp đánh giá b n tóm t t t o ra: ánh giá b n tóm t t (t đ ng ho c th công) m t nhi m v khó kh n, khó kh n vi c xác đ nh s d ng m t đ đo tiêu chu n có đ tin c y cao đ đánh giá b n tóm t t đ c sinh t h th ng tóm t t v n b n t đ ng Do đó, c n có ph ng pháp đánh giá t đ ng b n tóm t t h th ng tóm t t sinh H u h t nghiên c u đư c g ng phát tri n m i c i ti n ph ng pháp tóm t t v n b n hi n có nh m t o h th ng tóm t t v n b n hi u qu Các ph ng pháp tóm t t v n b n th ng trích rút ho c tóm l c áp d ng cho tóm t t đ n v n b n tóm t t đa v n b n Do đó, vi c nghiên c u, phát tri n mơ hình tóm t t v n b n hi u qu r t c n thi t có ý ngh a to l n 2.ăă ng l căthúcăđ y T b i c nh nghiên c u đư phân tích trên, nghiên c u sinh nh n th y tốn tóm t t v n b n t đ ng đóng m t vai trị quan tr ng x lý ngơn ng t nhiên c ng nh khai phá d li u v n b n đ t nhi u thách th c cho vi c phát tri n ph ng pháp tóm t t v n b n hi u qu M c dù, hàng n m nhà nghiên c u đư đ xu t phát tri n đ c m t s gi i pháp m i ho c c i ti n gi i pháp hi n có đ nâng cao hi u qu đ xác cho mơ hình tóm t t v n b n nh ng b n tóm t t đ c sinh c a mơ hình v n khác xa so v i b n tóm t t ng i t o M t nguyên nhân d li u th nghi m cho mơ hình tóm t t c a tốn tóm t t v n b n V n đ thi u d li u hay d li u b nhi u làm cho hi u qu tóm t t c a mơ hình tóm t t ch a cao Bên c nh đó, v n đ bi u di n d li u v n b n đ u vào c ng đóng vai trị quan tr ng quy t đ nh hi u qu c a mơ hình tóm t t M t lý khác có vai trị quan tr ng không ph n l n nghiên c u v tóm t t v n b n hi n đ c th c hi n cho tóm t t v n b n ti ng Anh, nghiên c u v tốn tóm t t v n b n ti ng Vi t cịn khiêm t n Do đó, vi c nghiên c u phát tri n mơ hình tóm t t v n b n hi u qu áp d ng cho tóm t t v n b n ti ng Anh ti ng Vi t có ý ngh a to l n, nh t b i c nh k thu t h c máy, mơ hình h c sâu k thu t hi n đ i khác đ c phát tri n m nh nh hi n Chính nh ng lý đó, đ tài “Nghiên c u, phát tri n m t s ph ng pháp tóm t t v n b n s d ng k thu t h c sâu” đ c đ t h t s c c p thi t có tính ng d ng cao th c ti n 3.ă iăt ng ph m vi nghiên c u i t ng nghiên c u: Các đ c tr ng c a v n b n Các b d li u th nghi m cho tóm t t đ n v n b n, tóm t t đa v n b n ti ng Anh ti ng Vi t Các mơ hình tóm t t đ n v n b n, tóm t t đa v n b n ti ng Anh ti ng Vi t Các k thu t áp d ng tóm t t v n b n nh : Các ph ng pháp véc t hóa v n b n, k thu t h c máy, h c sâu, mơ hình đ c hu n luy n tr c, c ch ý, k thu t tìm ki m, ph ng pháp lo i b thông tin trùng l p Các ph ng pháp đánh giá đ xác c a v n b n tóm t t Ph m vi nghiên c u: xu t mơ hình tóm t t đ n v n b n h ng trích rút xu t mơ hình tóm t t đ n v n b n h ng tóm l c xu t mơ hình tóm t t đa v n b n h ng trích rút xu t mơ hình tóm t t đa v n b n h ng tóm l c Các mơ hình tóm t t v n b n đ xu t đ u đ c áp d ng cho tóm t t v n b n ti ng Anh ti ng Vi t M c tiêu nghiên c u Lu n án nghiên c u đ xu t mơ hình tóm t t đ n v n b n, tóm t t đa v n b n cho tóm t t v n b n ti ng Anh ti ng Vi t C th : Nghiên c u đ xu t đ c tr ng quan tr ng s d ng cho mơ hình tóm t t v n b n Nghiên c u k thu t h c máy, h c sâu, mơ hình đ c hu n luy n tr c đ véc t hóa v n b n cho mơ hình tóm t t v n b n xu t mơ hình tóm t t đ n v n b n h ng trích rút, h ng tóm l c áp d ng tóm t t cho tóm t t v n b n ti ng Anh ti ng Vi t xu t mơ hình tóm t t đa v n b n h ng trích rút cho tóm t t v n b n ti ng Anh ti ng Vi t xu t mơ hình tóm t t đa v n b n h ng tóm l c cho tóm t t v n b n ti ng Anh ti ng Vi t s d ng mơ hình tóm t t đ n v n b n đ c hu n luy n tr c 5.ăPh ngăphápănghiênăc u Thu th p, chu n b d li u th nghi m cho mơ hình tóm t t v n b n ti ng Anh ti ng Vi t Nghiên c u h ng ti p c n tóm t t v n b n ti ng Anh ti ng Vi t liên quan, t p trung vào h ng ti p c n hi n đ i Phân tích u m, nh c m c a ph ng pháp tóm t t hi n t i đ đ xu t mơ hình tóm t t v n b n ti ng Anh ti ng Vi t hi u qu Nghiên c u l a ch n ph ng pháp đánh giá hi u qu c a mơ hình tóm t t v n b n Cài đ t th nghi m m t s ph ng pháp tóm t t v n b n hi n có, mơ hình tóm t t đ xu t b d li u th nghi m ánh giá so sánh k t qu th nghi m c a mô hình đ đ xu t mơ hình tóm t t hi u qu N i dung nghiên c u Nghiên c u k thu t h c máy, h c sâu s d ng đ phát tri n mơ hình tóm t t v n b n Nghiên c u đ xu t thêm m i đ c tr ng quan tr ng c a v n b n cho mơ hình tóm t t v n b n Nghiên c u đ xu t mơ hình tóm t t đ n v n b n h ng trích rút, h ng tóm l c hi u qu cho tóm t t v n b n ti ng Anh ti ng Vi t Nghiên c u đ xu t mơ hình tóm t t đa v n b n h ng trích rút, h ng tóm l c hi u qu cho tóm t t v n b n ti ng Anh ti ng Vi t 7.ăÝăngh aăkhoaăh c ýăngh aăth c ti n Ý ngh a khoa h c: Nghiên c u chuyên sâu v k thu t h c máy, h c sâu, đ c tr ng c a v n b n đ đ xu t phát tri n mơ hình tóm t t v n b n hi u qu cho ti ng Anh ti ng Vi t Ý ngh a th c ti n: xu t đ c tr ng quan tr ng c a v n b n s d ng cho mơ hình tóm t t v n b n xu t mơ hình tóm t t v n b n hi u qu cho tóm t t v n b n ti ng Anh ti ng Vi t Các mơ hình đ xu t m i có th s d ng đ xây d ng h th ng ph n m m tóm t t hi u qu đáp ng t t yêu c u th c ti n Ngoài ra, h ng ti p c n tinh ch nh mơ hình tóm t t đ n v n b n đ c hu n luy n tr c b ng vi c hu n luy n ti p mơ hình tóm t t đ n v n b n b d li u th nghi m c a tóm t t đa v n b n nghiên c u sinh đ xu t có th m m t h ng m i đ phát tri n mơ hình tóm t t đa v n b n hi u qu u ki n thi u d li u th nghi m Nh ngăđóngăgópăchínhăc a lu n án V i m c tiêu đ t ra, lu n án đư đ t đ c m t s k t qu đóng góp vào vi c nghiên c u phát tri n m r ng h th ng tóm t t v n b n cho ngơn ng ti ng Anh ti ng Vi t Các k t qu có th khái qt là: xu t ba mơ hình tóm t t đ n v n b n h ng trích rút, RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS mBERT-Tiny_seq2seq_DeepQL_ESDS Mơ hình RoPhoBERT_MLP_ESDS s d ng mơ hình t i u c a mơ hình BERT đ c hu n luy n tr c áp d ng cho ngôn ng ti ng Anh ti ng Vi t đ véc t hóa v n b n, mơ hình phân lo i v i m ng Perceptron nhi u l p (MLP), k t h p v i đ c tr ng v trí câu ph ng pháp đ liên quan c n biên t i đa (MMR) đ lo i b thông tin trùng l p l a ch n câu đ a vào b n tóm t t Mơ hình mBERT_CNN_ESDS s d ng mơ hình BERT đ c hu n luy n tr c h tr đa ngôn ng , m ng n ron tích ch p, mơ hình chu i sang chu i (seq2seq), l p m ng n ron k t n i đ y đ (FC) k t h p đ c tr ng tr ng s c a t TF-IDF ph ng pháp MMR đ l a ch n câu đ a vào b n tóm t t Mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS s d ng mơ hình BERT thu nh , BERT đa ngôn ng đ véc t hóa v n b n đ u vào, m ng CNN, seq2seq, l p FC, k t h p k thu t h c t ng c ng ph ng pháp MMR đ l a ch n câu đ a vào b n tóm t t xu t m t mơ hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS Mơ hình s d ng k thu t h c sâu, c ch ý, k thu t lo i b thông tin trùng l p, k t h p đ c tr ng t n su t xu t hi n c a t , v trí câu v n b n đ sinh b n tóm t t tóm l c xu t m t mơ hình tóm t t đa v n b n h ng trích rút Kmeans_Centroid_EMDS Mơ hình th c hi n phân c m t p v n b n s d ng k thu t h c máy phân c m K-means, ph ng pháp d a trung tâm (Centroid-based), MMR đ c tr ng v trí câu đ t o v n b n tóm t t cho t p đa v n b n xu t hai mô hình tóm t t đa v n b n h ng tóm l c, PG_Feature_AMDS Ext_Abs_AMDS-mds-mmr Mơ hình PG_Feature_AMDS s d ng mơ hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS đư đ xu t mơ hình đ c hu n luy n tr c, mơ hình PG_Feature_ASDS đ c tinh ch nh b ng vi c hu n luy n ti p b d li u th nghi m tóm t t đa v n b n t ng ng Mơ hình Ext_Abs_AMDS-mds-mmr s d ng mơ hình h n h p đ c hu n luy n tr c đ c xây d ng d a mơ hình tóm t t đ n v n b n đ c tinh ch nh t mơ hình tóm t t đ n v n b n đư đ xu t Các mơ hình tóm t t đ n v n b n, mơ hình h n h p đ c hu n luy n ti p b d li u th nghi m tóm t t đa v n b n t ng ng đ xây d ng mơ hình tóm t t đa v n b n h ng tóm l c hi u qu Các mơ hình đ xu t phát tri n c a lu n án đ u đ c áp d ng hi u qu cho tóm t t v n b n ti ng Anh ti ng Vi t B c c c a lu n án V i nh ng đóng góp đ c trình bày trên, b c c c a lu n án bao g m: Ph n m đ u, n m ch ng, ph n k t lu n, tài li u tham kh o ph n ph l c C th nh sau: Ph n m đ u: Trình bày nh ng m quan tr ng v b i c nh nghiên c u, đ ng l c thúc đ y, t ng quan v đ i t ng nghiên c u, ph m vi nghiên c u, m c tiêu nghiên c u, ph ng pháp nghiên c u, n i dung nghiên c u, ý ngh a khoa h c ý ngh a th c ti n c a lu n án Nh ng t n t i, thách th c ph ng pháp gi i quy t c a lu n án Ngoài ra, ph n c ng trình bày nh ng đóng góp b c c c a lu n án Ch ng T ng quan v tóm t t v n b n: Ch ng trình bày v n đ t ng quan v tóm t t v n b n x lý ngôn ng t nhiên, m t s ph ng pháp đánh giá v n b n tóm t t t đ ng, ph ng pháp k t h p v n b n c a t p đa v n b n, ph ng pháp tóm t t v n b n h ng trích rút c s , b d li u đ c s d ng đ th nghi m cho mơ hình tóm t t v n b n đ xu t Nh ng ki n th c c s đ phát tri n nghiên c u đ xu t c a lu n án Ch ng Các ki n th c n n t ng: Ch ng trình bày ki n th c n n t ng v k thu t h c sâu c s , mô hình ngơn ng d a h c sâu đ c hu n luy n tr c Ti p theo, ch ng trình bày v k thu t h c t ng c ng Deep Q-Learning, tìm ki m Beam, ph ng pháp MMR lo i b thông tin trùng l p b n tóm t t Nh ng ki n th c n n t ng c s đ phát tri n ph ng pháp tóm t t v n b n đ xu t lu n án Ch ng Phát tri n ph ng pháp tóm t t đ n v n b n h ng trích rút: Ch ng trình bày v tốn tóm t t đ n v n b n h ng trích rút, đ xu t phát tri n ba mơ hình tóm t t đ n v n b n h ng trích rút s d ng k t h p k thu t h c sâu, mơ hình đ c hu n luy n tr c, đ c tr ng c a v n b n ph ng pháp lo i b thông tin trùng l p đ áp d ng tóm t t hi u qu cho v n b n ti ng Anh ti ng Vi t Ch ng Phát tri n ph ng pháp tóm t t đ n v n b n h ng tóm l c: Ch ng gi i thi u v tốn tóm t t đ n v n b n h ng tóm l c, đ xu t phát tri n mơ hình tóm t t đ n v n b n h ng tóm l c s d ng k t h p k thu t h c sâu, c ch x lý trùng l p thông tin, đ c tr ng c a v n b n đ áp d ng hi u qu cho tóm t t h ng tóm l c v n b n ti ng Anh ti ng Vi t Mơ hình tóm t t đ n v n b n s đ c s d ng đ phát tri n mơ hình tóm t t đa v n b n đ xu t c a lu n án Ch ng Phát tri n ph ng pháp tóm t t đa v n b n: Ch ng gi i thi u v tốn tóm t t đa v n b n, đ xu t phát tri n m t mô hình tóm t t đa v n b n h ng trích rút, hai mơ hình tóm t t h ng tóm l c s d ng k thu t h c máy, h c sâu đ c tr ng c a v n b n, c ch x lý thông tin trùng l p áp d ng hi u qu cho tóm t t đa v n b n ti ng Anh ti ng Vi t Hai mơ hình tóm t t đa v n b n h ng tóm l c đ c đ xu t d a mơ hình tóm t t đ n v n b n đư đ xu t đ c hu n luy n tr c Ph n k t lu n: Trình bày k t qu đ t đ c, nh ng khó kh n t n t i h ng phát tri n ti p c a nghiên c u lu n án Ph n ph l c: Trình bày bi u đ bi u di n phân tích b d li u th nghi m n i dung v n b n ngu n c a m u tóm t t th nghi m b d li u t ng ng c a mơ hình tóm t t đ xu t đư trình bày lu n án Lu n án trình bày ph ng pháp tóm t t đ n v n b n h ng trích rút, tóm t t đ n v n b n h ng tóm l c, tóm t t đa v n b n h ng trích rút h ng tóm l c cho tốn tóm t t v n b n Có th nói, n i dung c a lu n án đư đ t đ c m c tiêu đ t Ch ngă1.ăT NGăQUANăV ăTÓMăT TăV NăB N 1.1.ăGi iăthi uăv ătómăt tăv năb n 1.1.1.ăGi iăthi uăbƠiătốnătómăt tăv năb n Tóm t t v n b n trình t o m t b n mơ t ng n g n, súc tích t m t ho c nhi u v n b n g c nh ng v n gi đ c n i dung chính, quan tr ng mà v n b n g c đ c p t i 1.1.2.ăPhơnălo iăbƠiătốnătómăt tăv năb n l Tóm t t đ n v n b n, tóm t t đa v n b n, tóm t t v n b n h c, tóm t t đ n ngơn ng , 1.1.3.ăCácăb Thơng th ng trích rút, tóm t t v n b n h ng tóm căth căhi nătrongătómăt tăv năb n ng g m b c: Phân tích, bi n đ i, sinh v n b n tóm t t 1.1.4.ăM tăs ăđ cătr ngăc aăv năb n V trí câu, TF-IDF, câu trung tâm 1.2.ăM tăs ăph 1.2.1.ăPh ngăphápăd aătrênăđ ăt ánh giá đ t 1.2.2.ăPh ngăphápăđánhăgiáăv năb nătómăt tăt ăđ ng ngăt ăv ăn iădung ng t v n i dung c a v n b n k t qu đ ngăphápăd aătrênăđ ăt c sinh b i h th ng xét ngăquanăphùăh p ánh giá h th ng tóm t t v n b n d a câu truy v n 1.2.3.ăPh ngăphápăROUGE ROUGE đ c s d ng nh m t đ đo tiêu chu n đ đánh giá hi u qu c a h th ng tóm t t v n b n Các đ đo th ng đ c s d ng ph bi n là: đo F1 c a Rouge-N (ký hi u R-N), đ đo F1 c a Rouge-L (ký hi u R-L), đ đo F1 c a Rouge-St (ký hi u R-St), đ đo F1 c a Rouge-SUt (ký hi u R-SUt), đó: th ng N = ÷ 4, t = (giá tr t nh s h n ch đ c tình tr ng t o c p t vô ngh a) Lu n án s d ng đ đo R-1, R-2, R-L, R-S4 R-SU4 đ đánh giá hi u qu c a mơ hình tóm t t v n b n đ xu t 1.3.ăCácăph - Ph - Ph ngăphápăk tăh păv năb nătrongătómăt tăđaăv năb n ng pháp th nh t: K t h p t t c v n b n đ u vào thành m t v n b n nh t tr c ng pháp th hai: Tóm t t t ng đ n v n b n, k t h p l i thành m t b n tóm t t t ng h p 1.4.ăCácăph ngăphápătómăt tăv năb năh ngătríchărútăc ăs PageRank, Textrank, LexRank, Lead-Based 1.5.ăăCácăb ăd ăli uăth ănghi m 1.5.1.ăăCácăb ăd ăli uăv năb năti ngăAnh CNN/Daily Mail, DUC 2001, DUC 2002, DUC 2004, DUC2007 1.5.2.ăCácăb ăd ăli uăv năb năti ngăVi t Baomoi, B d li u 200 c m (g i b d li u Corpus_TMV), ViMs 1.6.ăK tălu năch ngă1 Ch ng trình bày t ng quan v tóm t t v n b n, b d li u th nghi m Các ki n th c c s đ đ xu t phát tri n nghiên c u c a lu n án Ch ngă2.ăCÁCăKI NăTH CăN NăT NG 2.1 Cácăk ăthu tăh căsơuăc ăs 2.1.1 M ngăPerceptron nhi u l p 2.1.2 M ngăn ăronătíchăch p 2.1.2.1 Gi i thi u m ng n ron tích ch p Ki n trúc th ng g m l p: Tích ch p, l p ReLU, l p Pooling, l p FC 2.1.2.2 M ng CNN cho tốn x lý ngơn ng t nhiên Ki n trúc m ng CNN cho tốn x lý ngơn ng t nhiên đ c mô t [85] 2.1.3 M ngăn ăronăh iăquy 2.1.3.1 Mơ hình m ng n ron h i quy RNN [87] mơ hình có nh , có kh n ng nh đ c thơng tin đư tính tốn tr c 2.1.3.2 Hu n luy n m ng n ron h i quy RNN đ c hu n luy n b ng thu t toán lan truy n ng c liên h i (BPTT) [80] 2.1.4 M tăs bi năth ăc aăRNN 2.1.4.1 M ng LSTM Ki n trúc m t t bào nh c a LSTM (LSTM cell) đ c bi u di n hình 2.5 Hình 2.5 Ki n trúc t bào nh LSTM (ngu n:[Internet]) Hình 2.7 Ki n trúc m ng biLSTM [88] Trong hình 2.5: C ng quên ( ft ), c ng vào ( it ), c ng ( ot ) tr ng thái t: u vào: ct 1 , ht 1 , xt ; v i: xt đ u vào tr ng thái , ct 1 , ht 1 đ u c a l p tr c u ra: ct , ht tr ng thái nh , tr ng thái n 2.1.4.2 M ng biLSTM Ki n trúc t ng quan m ng biLSTM đ c bi u di n nh Hình 2.7 2.1.4.3 M ng GRU M ng GRU [89,90] g m t p t bào nh GRU đ c k t n i h i quy 2.1.4.4 M ng biGRU Ki n trúc m ng biGRU [89,90] gi ng nh m ng biLSTM nh ng ch khác m i m ng m ng GRU 2.1.5 Mô hình chu iăsangăchu i c ăb n Mơ hình chu i sang chu i (seq2seq) [93] mơ hình h c sâu g m thành ph n: b mã hóa b gi i mư 2.1.6 C ăch ăchú ý 2.1.7.ăC ăch ăt ăchúăýăvƠămơăhìnhăTransformer 2.1.7.1 C ch t ý C ch t ý (self-attention) giúp cho mô hình n m b t đ c s liên quan gi a t câu 2.1.7.2 Ki n trúc c a Transformer Ki n trúc Transformer [97] g m thành ph n mư hóa gi i mư, s d ng c ch ý mư hóa v trí t chu i C thành ph n mư hóa gi i mư g m nhi u l p x p ch ng 2.2 Các mơ hình ngơnăng ăd aătrênăh căsơuăđ căhu năluy nătr c 2.2.1 Mưăhóaăt 2.2.2.ăPh ngăphápăWord2Vec Word2Vec [99] k t h p mơ hình h c mư hóa t : Skip-Gram [101] CboW [101] 2.2.3 Mơ hình BERT 2.2.3.1 Gi i thi u BERT [102] (Bidirectional Encoder Representations from Transformer) mơ hình bi u di n mã hóa hai chi u d a Transformer Ki n trúc BERT đ c bi u di n nh hình 2.17 d i 2.2.3.2 Ki n trúc BERT Hình 2.17 Ki n trúc mơ hình BERT [102] Hình 2.18 Minh h a bi u di n đ u vào c a BERT [102] Trong Hình 2.17, Ei bi u di n mã hóa t , Trm véc t bi u di n trung gian cho m i t t i m i t ng Transformer, Ti đ u cu i Có mơ hình BERT: BERTBASE, BERTLARGE 2.2.3.3 Bi u di n đ u vào Hình 2.18 bi u di n đ u vào c a BERT: u vào, mã hóa t v ng, mã hóa phân đo n, mã hóa v trí c a t 2.2.3.4 Bi u di n đ u ra: V i m i t đ u vào th i ( i 1, N ), đ u véc t tr ng thái n Ti t 2.2.3.5 BERT đ c hu n luy n tr ng ng c BERT đ c hu n luy n tr c (pre-training BERT) v i nhi m v d đốn khơng giám sát là: Mơ hình d đốn t b che (Masked LM) d đoán câu ti p theo (NSP) 2.2.3.6 Tinh ch nh BERT: óng b ng m t vài l p tr c đó; gi m t c đ h c 2.2.4.ăM tăs ăphiênăb nămơăhìnhăc aăBERT BERT đư ngôn ng [105], RoBERTa [106], PhoBERT [110], mơ hình BERT thu nh [111] 2.3 K ăthu tăh căt ngăc 2.3.1 H c t ng c ngăDeepăQ-Learning ng Q-Learning 2.3.2 Thu t toán h c t ng c ng Q-Learning 2.4.ăTìmăki măBeam 2.5 Ph ngăphápăđ ăliênăquanăc năbiênăt iăđa 2.6 K tălu năch ngă2 Ch ng trình bày v k thu t h c máy, k thu t h c sâu c s , mô hình ngơn ng d a h c sâu đ c hu n luy n tr c Các ki n th c c s n n t ng đ phát tri n nghiên c u đ xu t c a lu n án Ch ngă3.ăPHÁTăTRI NăCÁCăPH NGăPHÁPăTĨMăT Tă H NGăTRÍCHăRÚT 3.1.ăGi iăthi u bƠiătốnăvƠăh NăV NăB Nă ngăti păc n 3.2 Mơ hình tómăt tăđ năv năb năh ngătríchărútăRoPhoBERT_MLP_ESDS 3.2.1 Gi iăthi u mơ hình 3.2.2 Mơ hình tómăt tăv năb năđ ăxu t Hình 3.2 Mơ hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_MLP_ESDS 3.2.2.1 Véc t hóa d li u: S d ng mơ hình t i u c a BERT: RoBERTa, PhoBERT 3.2.2.2 Hu n luy n: H th ng s d ng mơ hình m ng MLP có l p vào, l p n l p 3.2.2.3 Sinh v n b n tóm t t: Ph ng pháp MMR đ xu t v i v trí câu đ lo i b trùng l p 3.2.3 Th ănghi m mơ hình 3.2.3.1 D li u th nghi m: B d li u CNN (ti ng Anh) Baomoi (ti ng Vi t) 3.2.3.2 Ti n x lý d li u 3.2.3.3 Thi t k th nghi m CNN Baomoi R-1 R-2 R-L R-1 R-2 28,9 10,3 19,3 30,1 11,5 20,1 31,36 11,69 28,22 52,509 24,695 Mơ hình R-L Mơ hình (USE_T + MLP) Mơ hình (USE_T + MLP + MMR + V trí câu) Mơ hình (RoBERTa/PhoBERT + MLP) 37,794 Mơ hình (RoBERTa/PhoBERT + MLP + MMR + 32,18 12,31 28,87 52,511 24,696 37,796 V trí câu) B ng 3.3 K t qu th nghi m v i mơ hình xây d ng Ký hi u ‘-’ bi u di n mơ hình mà lu n án không th nghi m t p d li u t ng ng 3.2.4 ánh giá so sánh k t qu CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L LexRank* 22,9 6,6 17,2 38,5 17,0 28,9 TextRank* 26,0 7,3 19,2 44,7 19,2 32,9 LEAD* 29,0 10,7 19,3 46,5 20,3 30,8 Cheng Lapata [125] 28,4 10,0 25,0 LEAD [125] 29,1 11,1 25,9 REFRESH [125] 30,4 11,7 26,9 USE_T + MLP* 28,9 10,3 19,3 USE_T + MLP + MMR + V trí câu* 30,1 11,5 20,1 RoBERTa/PhoBERT+MLP* 31,36 11,69 28,22 52,509 24,695 37,794 RoBERTa/PhoBERT+MLP+MMR+V trí câu 32,18 12,31 28,87 52,511 24,696 37,796 B ng 3.6 So sánh đánh giá k t qu ph ng pháp Ký hi u ‘*’, ‘-’ bi u di n ph ng pháp đ c th nghi m, không đ c th nghi m b d li u t ng ng Ph ng pháp 3.3 Mơ hình tómăt tăđ năv năb năh ngătríchărútămBERT_CNN _ESDS 3.3.1 Gi iăthi uămơăhình 3.3.2 Mơăhìnhătómăt tăv năb năđ ăxu t Hình 3.4 Mơ hình tóm t t v n b n h ng trích rút mBERT_CNN_ESDS 3.3.2.1 Véc t hóa t : S d ng mBERT 3.3.2.2 Mơ hình phân lo i câu: Convolution, k-Max Pooling, Encoder-Decoder, dropout, l p FC’, FC 3.3.2.3 Sinh v n b n tóm t t: lo i b thông tin d th a, s d ng ph ng pháp MMR đ xu t 3.3.3 Th ănghi m mơ hình 3.3.3.1 Các b d li u th nghi m: Ti ng Anh: DUC 2001 [72], DUC 2002 [73], CNN [74]; Ti ng Vi t: Baomoi 3.3.3.2 Ti n x lý d li u 3.3.3.3 Thi t k th nghi m DUC 2001/DUC 2002 R-1 R-2 R-L Laugier c ng s [129] 42,48 16,96 Laugier c ng s [129]* 41,83 16,78 mBERT+CNN+Encoder-Decoder+FC+TF-IDF+MMR 48,29 23,40 43,80 B ng 3.8 K t qu th nghi m c a ph ng pháp b d li u DUC 2001 DUC 2002 Ký hi u ‘*’,‘-’ bi u di n ph ng pháp đ c th nghi m, không đ c th nghi m b d li u t ng ng Ph ng pháp 10 K t qu th nghi m mơ hình đ xu t b d li u ti ng Vi t Baomoi v i k t qu đ đo R-1, R-2 R-L thu đ c l n l t 54,67%, 25,26% 37,48% 3.3.4 ánhăgiáăvà so sánh k tăqu Ph CNN R-1 R-2 22,9 6,6 26,0 7,3 29,0 10,7 28,4 10,0 29,1 11,1 30,4 11,7 31,62 12,01 31,95 12,69 32,54 12,60 ng pháp R-L 17,2 19,2 19,3 25,0 25,9 26,9 28,57 28,76 29,52 R-1 38,5 44,7 46,5 - Baomoi R-2 17,0 19,2 20,3 - R-L 28,9 32,9 30,8 - LexRank* TextRank* LEAD* Cheng Lapata [125] LEAD [125] REFRESH [125] mBERT+CNN+FC+TF_IDF mBERT+CNN+Encoder-Decoder+FC+TF_IDF mBERT+CNN+FC+TF_IDF+MMR mBERT+CNN+Encoder-Decoder+FC+ 32,67 13,04 29,53 54,67 25,26 37,48 TF_IDF+MMR B ng 3.11 So sáng đánh giá k t qu c a ph ng pháp Ký hi u ‘*’, ‘-’ bi u di n ph ng pháp đ c th nghi m, không đ c th nghi m b d li u t ng ng 3.4.ă Mơă hìnhă tómă t tă đ nă v nă b nă h seq2seq_DeepQL_ESDS ngă tríchă rútă mBERT-Tiny_ 3.4.1.ăGi iăthi u mơ hình 3.4.2.ăMơăhìnhătómăt tăv năb năđ ăxu t Hình 3.7 Mơ hình tóm t t v n b n h ng trích rút mBERT-Tiny_seq2seq_DeepQL_ESDS 3.4.2.1 Véc t hóa t : S d ng BERT-Tiny (ti ng Anh), mBERT (ti ng Vi t) 3.4.2.2 Mơ hình phân lo i câu: M ng CNN, mơ hình seq2seq g m b mư hóa v n b n s d ng m ng biGRU [89,90] b trích rút câu s d ng m ng GRU [89,90] v i l p FC 3.4.2.3 Sinh b n tóm t t: S d ng ph ng pháp MMR đ xu t đ lo i b thơng tin d th a 3.4.3.ăHu năluy nămơăhìnhăv iăk ăthu tăh căt ngăc Mơ hình hu n luy n v i k thu t h c t ng c ng ng Deep Q-Learning nh Hình 3.8 11 Hình 3.8 Mơ hình hu n luy n v i k thu t h c t ng c ng Deep Q-Learning 3.4.4.ăTh ănghi mămơăhình 3.4.4.1 D li u th nghi m: B d li u CNN (ti ng Anh) Baomoi (ti ng Vi t) 3.4.4.2 Ti n x lý d li u 3.4.4.3 Thi t k th nghi m CNN R-1 R-2 R-L BERT-Tiny/mBERT + CNN + seq2seq 29,55 11,67 27,12 BERT-Tiny/mBERT + CNN + seq2seq + MMR 30,09 11,95 27,80 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL 30,49 12,22 27,89 BERT-Tiny/mBERT +CNN +seq2seq +DeepQL +MMR 31,36 12,84 28,33 B ng 3.14 K t qu th nghi m c a mơ hình xây d ng Mơ hình R-1 51,17 51,41 51,73 51,95 Baomoi R-2 23,83 24,01 24,10 24,38 R-L 36,54 36,92 37,18 37,56 3.4.5.ă ánhăgiáăvƠăsoăsánhăk tăqu Ph CNN R-1 R-2 22,9 6,6 26,0 7,3 29,0 10,7 28,4 10,0 30,4 11,7 29,55 11,67 30,09 11,95 30,49 12,22 ng pháp Baomoi R-2 17,0 19,2 20,3 23,83 24,01 24,10 R-L R-1 R-L LexRank* 17,2 38,5 28,9 TextRank* 19,2 44,7 32,9 LEAD* 19,3 46,5 30,8 Cheng Lapata (2016) [125] 25,0 REFRESH [124] 26,9 § BERT-Tiny/mBERT + CNN + seq2seq 27,12 51,17 36,54 § BERT-Tiny/mBERT + CNN + seq2seq + MMR 27,80 51,41 36,92 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL§ 27,89 51,73 37,18 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + 31,36 12,84 28,33 51,95 24,38 37,56 MMR§ B ng 3.17 So sánh đánh giá k t qu c a ph ng pháp Ký hi u ‘*’, ‘-’ ‘§' bi u di n ph ng pháp th nghi m, không th nghi m mô hình xây d ng th nghi m b d li u t ng ng 3.5.ăSoăsánhăđánhăgiáăbaămơăhìnhătómăt tăđ năv năb năh ngătríchărútăđ ăxu t Ba mơ hình tóm t t đ n v n b n h ng trích rút đư đ xu t đ c so sánh đánh giá theo hai tiêu chí đ xác th i gian th c hi n b d li u th nghi m cho tóm t t v n b n ti ng Anh ti ng Vi t t ng ng B ng 3.18 d i trình bày k t qu so sánh đánh giá đ xác c a mơ hình đ xu t 12 CNN Baomoi R-1 R-2 R-L R-1 R-2 R-L RoPhoBERT_MLP_ESDS 32,18 12,31 28,87 52,511 24,696 37,796 mBERT_CNN_ESDS 32,67 13,04 29,53 54,67 25,26 37,48 mBERT-Tiny_seq2seq_DeepQL_ESDS 31,36 12,84 28,33 51,95 24,38 37,56 B ng 3.18 So sánh đánh giá đ xác c a mơ hình đ xu t B ng 3.19 d i trình bày k t qu so sánh đánh giá th i gian th c hi n c a mơ hình đ xu t Mơ hình mã hóa S l ng v n b n Ph ng pháp Ngơn ng v nb n trung bình/1 giây RoPhoBERT_MLP_ESDS Ti ng Anh RoBERTa 1,30 mBERT_CNN_ESDS Ti ng Anh mBERT 0,62 mBERT-Tiny_seq2seq_DeepQL_ESDS Ti ng Anh BERT-Tiny 22,1 RoPhoBERT_MLP_ESDS Ti ng Vi t PhoBERT 3,64 mBERT_CNN_ESDS Ti ng Vi t mBERT 2,61 mBERT-Tiny_seq2seq_DeepQL_ESDS Ti ng Vi t mBERT 2,61 mBERT-Tiny_seq2seq_DeepQL_ESDS Ti ng Anh mBERT 0,63 B ng 3.19 So sánh đánh giá th i gian th c hi n c a mơ hình đ xu t Mơ hình 3.6 K tălu năch ngă3 Ch ng đư đ xu t phát tri n ba mơ hình tóm t t đ n v n b n h ng trích rút cho tóm t t v n b n ti ng Anh ti ng Vi t s d ng k thu t h c sâu k t h p v i k thu t hi u qu khác tóm t t v n b n, mơ hình RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS mBERTTiny_seq2seq_DeepQL_ESDS Các k t qu đ t đ c c a ch ng đư đ c cơng b cơng trình [CT3], [CT4] [CT5] 13 Ch ngă4.ăPHÁTăTRI NăPH NGăPHÁPăTÓMăT Tă H NGăTÓMăL C 4.1 Gi iăthi u bƠiătoánăvƠăh NăV NăB Nă ngăti păc n 4.2 Mơ hình tómăt tăc ăs Hình 4.1 Mơ hình tóm t t đ n v n b n h ng tóm l c c s [128] 4.2.1 Ki nătrúcăseq2seq 4.2.2 K ăthu tăchúăý 4.2.3 C ăch ăPointeră- Generator 4.2.4 C ăch ăbaoăph 4.3 Mơăhìnhătómăt tăđ năv năb năh ngătómăl căđ ăxu tăPG_ASDS 4.3.1 Cácăđ cătr ngăđ ăxu tăthêmăm iăchoămơăhình V trí câu (POSI), t n su t xu t hi n c a t 4.3.2 Mơăhìnhătómăt tăđ năv năb năh ngătómăl căđ ăxu tăPG_Feature_ASDS Mơ hình đ xu t v i đ c tr ng thêm m i POSI TF (hình 4.2) Hình 4.2 Mơ hình tóm t t đ n v n b n h 14 ng tóm l c đ xu t PG_Feature_ASDS 4.4 Th ănghi mămơăhình 4.4.1 Các b ăd ăli uăth ănghi m CNN/Daily Mail (ti ng Anh) Baomoi (ti ng Vi t) 4.4.2 Ti năx ălýăd ăli u S d ng th vi n Stanford CoreNLP (ti ng Anh), th vi n UETSegment (ti ng Vi t) 4.4.3 Thi tăk ăth ănghi m B n mơ hình th nghi m g m: (i) Mơ hình 1: Mơ hình seq2seq c b n v i c ch ý [128]; (ii) Mơ hình 2: M ng Pointer - Generator v i c ch Coverage [43]; (iii) Mơ hình 3: H th ng đ xu t d a [43] b sung thêm thơng tin v trí câu; (iv) H th ng đ xu t d a [43] b sung thơng tin v v trí câu t n su t xu t hi n c a t 4.5 ánhăgiáăvƠăsoăsánhăk tăqu CNN/Daily Mail R-1 R-2 R-L Mô hình (seq2seq + attention) [128] 27,21 10,09 24,48 Mơ hình (Pointer-Generator + Coverage) [43] (*) 29,71 12,13 28,05 Mơ hình ((*) + POSI) 31,16 12,66 28,61 Mơ hình ((*) + POSI + TF) 31,89 13,01 29,97 B ng 4.1 Các k t qu th nghi m b d li u CNN/Daily Mail Ký hi u ‘(*)‘ mơ hình c a See c ng s [43] Baomoi Mơ hình R-1 R-2 R-L Mơ hình (seq2seq + attention) [125] 26,68 9,34 16,49 Mơ hình (Pointer-Generator + Coverage) [43] (*) 28,34 11,06 18,55 Mô hình ((*) + POSI) 29,47 11,31 18,85 Mơ hình ((*) + POSI + TF) 30,59 11,53 19,45 B ng 4.2 Các k t qu th nghi m b d li u Baomoi Ký hi u ‘(*)‘ mơ hình c a See c ng s [43] Mơ hình 4.6 K tălu n ch ngă4 Ch ng đư đ xu t phát tri n m t mơ hình tóm t t đ n v n b n h ng tóm l c cho tóm t t ti ng Anh ti ng Vi t (mơ hình PG_Feature_ASDS) s d ng k thu t h c sâu, k thu t hi u qu khác k t h p đ c tr ng c a v n b n cho mơ hình tóm t t K t qu đ t đ c c a ch ng đư đ c cơng b cơng trình [CT2] 15 Ch ngă5.ăPHÁTăTRI NăCÁCăPH NGăPHÁPăTÓMăT Tă AăV NăB N 5.1.Gi iăthi uăbƠiătốn tómăt tăđaăv năb n vƠăh Bài tốn tóm t t đa v n b n h ng trích rút, h 5.2 Mơăhìnhătómăt tăđaăv năb năh ng tóm l ngăti păc n c ngătríchărútăKmeans_Centroid_EMDS 5.2.1 Gi iăthi u mơ hình 5.2.2 CácăthƠnhăph năchínhăc aămơăhình 5.2.2.1 Véc t hóa câu 5.2.2.2 K-means cho toán phân c m 5.2.2.3 Tóm t t v n b n d a trung tâm 5.2.3 Mơăhìnhătómăt tăđaăv năb năđ ăxu t 5.2.3.1 Xây d ng mơ hình tóm t t Mơ hình 1: K-means k t h p v trí t ng đ i c a câu; Mơ hình 2: K-means k t h p v trí câu; Mơ hình 3: K-means k t h p MMR v trí câu; Mơ hình 4: K-means k t h p Centroid-based, MMR v trí câu 5.2.3.2 Mơ hình tóm t t đa v n b n h ng trích rút Kmeans_Centroid_EMDS Mơ hình đ xu t g m mơ đun chính: Trích ch n đ c tr ng mơ hình tóm t t v n b n Hình 5.5 Mơ hình tóm t t đa v n b n h ng trích rút Kmeans_Centroid_EMDS 5.2.4 Th ănghi mămơăhìnhăvƠăk tăqu 5.2.4.1 D li u th nghi m Ti ng Anh: DUC 2007 [75]; ti ng Vi t: Corpus_TMV [76] 5.2.4.2 Cài đ t tham s n_clusters, ndim, , sent, sim len_sum 16 5.2.4.3 Thi t k th nghi m a) Th nghi m mơ hình xây d ng DUC 2007 Corpus_TMV R-1 R-2 R-L R-1 R-2 R-L Mơ hình 37,81 7,30 34,61 67,87 44,58 64,55 Mơ hình 38,11 7,87 34,87 68,01 44,52 64,89 Mơ hình 38,82 8,15 35,53 71,20 46,93 66,97 Mơ hình 40,39 9,53 37,05 73,86 48,42 68,09 B ng 5.2 Các k t qu th nghi m c a mô hình xây d ng hai b d li u b) Th nghi m mơ hình s d ng k thu t phân c m khác Ph ng pháp R-1 R-2 R-L LexRank 37,52 8,14 34,18 LSA 37,92 7,74 35,02 LDA 35,69 6,26 32,71 LSA + Centroid-based + MMR + V trí câu 36,37 6,90 33,50 LDA + Centroid-based + MMR + V trí câu 36,73 7,22 33,58 K-means 37,81 7,30 34,86 K-means + V trí câu 38,11 7,87 34,86 Centroid-based 38,95 9,08 35,50 K-means+ Centroid-based + MMR + V trí câu 40,39 9,53 37,05 B ng 5.3 K t qu th nghi m ph ng pháp tóm t t b d li u DUC 2007 Mơ hình 5.2.5 SoăsánhăvƠăđánhăgiáăk tăqu DUC 2007 Corpus_TMV R-1 R-2 R-L R-1 R-2 R-L Random [142] 32,03 5,43 29,13 Lead [142] 31,45 6,15 26,58 DSDR [142] 39,57 7,44 35,34 PV-DM [143] 39,83 8,51 K-means + Centroid-based + MMR + V trí câu 40,39 9,53 37,05 73,86 48,42 68,09 B ng 5.4 So sánh k t qu c a mơ hình đ xu t v i ph ng pháp khác Ký hi u ‘-’ bi u di n ph ng pháp không đ c th nghi m b d li u t ng ng Ph ng pháp 5.3 Cácămơăhìnhătómăt tăđaăv năb năh v năb năđ căhu năluy nătr c 5.3.1 ngătómăl căd aătrênămơăhìnhătómăt tăđ nă tăv năđ 5.3.2.ăMơăhìnhătómăt tăđaăv năb năh h ngătómăl căđ căhu năluy nătr ngătómăl căd aătrênămơăhìnhătómăt tăđ năv năb nă căPG_Feature_AMDS 5.3.2.1 Gi i thi u mơ hình 5.3.2.2 Các thành ph n c a mơ hình a) Mơ hình tóm t t đ n v n b n h ng tóm l c đ c hu n luy n tr c: S d ng mơ hình đư đ xu t PG_Feature_ASDS ch ng 4, mơ hình đ c xem nh mơ hình tóm t t đ c hu n luy n tr c b) xu t đ c tr ng s d ng cho mơ hình: V trí câu (POSI), t n su t xu t hi n c a t (TF),đi m MMR c) Ph ng pháp PG-MMR: Ph ng pháp PG-MMR [147] 17 Hình 5.6 Minh h a ph ng pháp PG-MMR v i k=2 [147] 5.3.2.3 Mơ hình tóm t t đa v n b n h ng tóm l c đ xu t d a mơ hình tóm t t đ n v n b n đ c hu n luy n tr c PG_Feature_AMDS Hình 5.7 Mơ hình tóm t t đa v n b n h ng tóm l c đ xu t Mơ hình tóm t t đ xu t d a mơ hình: PG_Feature_ASDS đ c hu n luy n tr c b d li u tóm t t đ n v n b n t ng ng mơ hình PG-MMR [147] Mơ hình đ xu t đ c thêm đ c tr ng theo giai đo n TF, POSI m MMR 5.3.2.4 Hu n luy n mơ hình (i) Hu n luy n mơ hình PG_Feature_ASDS, (ii) Hu n luy n ti p mơ hình PG_Feature_ASDS b d li u tóm t t đa v n b n, (iii) ánh giá mơ hình tóm t t đa v n b n h ng tóm l c đ xu t 18 Hình 5.8 Các giai đo n hu n luy n mơ hình tóm t t đa v n b n h ng tóm l c PG_Feature_AMDS 5.3.2.5 Thi t k th nghi m a) Các b d li u th nghi m s d ng mơ hình: Ti ng Anh: CNN/Daily Mail, DUC 2007, DUC 2004; Ti ng Vi t: Baomoi, ViMs, Corpus_TMV b) Ti n x lý d li u c) Hu n luy n mơ hình: Mơ hình đ c hu n luy n s d ng Google Colab d) Các k t qu th nghi m - K t qu th nghi m c a mô hình tóm t t đ n v n b n h ng tóm l c CNN Baomoi Mơ hình R-1 R-2 R-L R-1 R-2 R-L PG_Feature_ASDS 31,89 13,01 29,97 30,59 11,53 19,45 B ng 5.7 K t qu th nghi m c a mơ hình tóm t t PG_Feature_ASDS b d li u CNN Baomoi - K t qu cơng b c a mơ hình tóm t t đa v n b n h ng tóm l c c s [147]: K t qu đ đo R-1, R-2 R-SU4 b d li u DUC 2004 t ng ng 36,88%; 8,73% 12,64% - K t qu th nghi m mơ hình PG_Feature_AMDS s d ng mơ hình PG_Feature_ASDS ch a hu n luy n ti p b DUC 2007 ViMs t ng ng B d li u R-1 R-2 R-L R-S4 R-SU4 DUC 2004 36,56 9,13 18,39 8,17 8,55 Copus_TMV 44,63 27,69 30,87 30,96 32,89 B ng 5.8 K t qu th nghi m mơ hình PG_Feature_AMDS b DUC 2004 Corpus_TMV s d ng mơ hình PG_Feature_ASDS ch a đ c hu n luy n ti p b DUC 2007 b d li u ViMs t ng ng - K t qu th nghi m mơ hình PG_Feature_AMDS s d ng mơ hình tóm t t đ n v n b n PG_Feature_ASDS đư đ c hu n luy n ti p b DUC 2007 b ViMs t ng ng 19 B d li u R-1 R-2 R-L R-S4 R-SU4 DUC 2004 37,71 9,50 19,14 8,39 9,28 Copus_TMV 66,04 39,00 38,81 44,33 45,80 B ng 5.9 K t qu th nghi m mơ hình PG_Feature_AMDS b DUC 2004 Corpus_TMV s d ng mô hình PG_Feature_ASDS đ c hu n luy n ti p b DUC 2007 b ViMs t ng ng 5.3.2.6 ánh giá so sánh k t qu B ng 5.16 k t qu so sánh đánh giá hi u qu c a ph ng pháp DUC 2004 Corpus_TMV Ph ng pháp R-1 R-2 R-SU4 R-1 R-2 R-SU4 SumBasic [147] 29,48 4,25 8,64 KLSumm [147] 31,04 6,03 10,23 LexRank [147] 34,44 7,11 11,19 Centroid [147] 35,49 7,80 12,02 ICSISumm [147] 37,31 9,36 13,12 PG-Original [147] 31,43 6,03 10,01 G-MMR w/ Cosine [147] 36,88 8,73 12,64 PG_Feature_AMDS 37,71 9,50 9,28 66,04 39,00 45,80 B ng 5.12 So sáng đánh giá k t qu c a ph ng pháp Ký hi u ‘-’ bi u di n ph ng pháp không đ c th nghi m b d li u t ng ng 5.3.3 Mơăhìnhătómăt tăđaăv năb năh h năh păđ căhu năluy nătr c ngătómăl căd aătrênămơăhìnhătómăt tăđ năv năb nă 5.3.3.1 Gi i thi u mơ hình 5.3.3.2 Các thành ph n c a mơ hình a) Mơ hình tóm t t đ n v n b n h ng trích rút đ c hu n luy n tr c S d ng mơ hình RoPhoBERT_CNN_ESDS đ c tinh ch nh t mơ hình tóm t t đ n v n b n h ng trích rút mBERT_CNN_ESDS đư đ xu t Ch ng b) Mơ hình tóm t t đ n v n b n h ng tóm l c đ c hu n luy n tr c S d ng mơ hình PG_TF-IDF_ASDS đ c tinh ch nh t mơ hình tóm t t h ng tóm l c PG_Feature_ASDS đư đ xu t Ch ng c) Mơ hình tóm t t đ n v n b n h n h p đ c hu n luy n tr c s d ng cho mơ hình đ xu t Mơ hình pre-trained Ext_Abs_ASDS đ c bi u di n chi ti t hình 5.11 d i Hình 5.11 Mơ hình tóm t t đ n v n b n h n h p Ext_Abs_ASDS 20 5.3.3.3 Xây d ng mơ hình tóm t t đa v n b n h ng tóm l c đ xu t Mơ hình đ c bi u di n chi ti t nh hình 5.13 d i đây, mơ hình đ c tinh ch nh b ng vi c hu n luy n ti p mơ hình Ext_Abs_ASDS b d li u tóm t t đa v n b n t ng ng đ đ c mơ hình tóm t t đa v n b n h ng tóm l c đ xu t Ext_Abs_AMDS-mds-mmr Hình 5.13 Mơ hình tóm t t đa v n b n h ng tóm l c d a mơ hình pre-trained Ext_Abs_ASDS v i ph ng pháp MMR áp d ng t p đa v n b n 5.3.3.4 Mơ hình hu n luy n đ xu t Hình 5.14 Các giai đo n hu n luy n mơ hình tóm t t đa v n b n h mds-mmr 21 ng tóm l c đ xu t Ext_Abs_AMDS- Bao g m giai đo n: (i) Giai đo n 1: Hu n luy n mơ hình RoPhoBERT_CNN_ESDS, PG_TF-IDF_ASDS (ii) Giai đo n 2: Hu n luy n mơ hình h n h p Ext_Abs_ASDS (iii) Giai đo n 3: Hu n luy n ti p mô hình h n h p pre-trained Ext_Abs_ASDS b d li u tóm t t đa v n b n t ng ng (iv) Giai đo n 4: ánh giá mơ hình tóm t t đa v n b n h ng tóm l c đ xu t 5.3.3.5 Th nghi m mơ hình a) D li u th nghi m: Ti ng Anh: CNN/Daily Mail, DUC 2007, DUC 2004; Ti ng Vi t: Baomoi, ViMs, Corpus_TMV b) Ti n x lý d li u c) Hu n luy n mơ hình: Mơ hình đ c hu n luy n s d ng Google Colab d) Thi t k th nghi m - K t qu th nghi m c a mơ hình tóm t t đ n v n b n b CNN/Daily Mail Baomoi CNN/Daily Mail Baomoi Mơ hình tóm t t đ n v n b n R-1 R-2 R-L R-1 R-2 R-L RoPhoBERT_CNN_ESDS 41,27 19,68 38,01 54,82 25,81 37,62 PG_TF-IDF_ASDS 37,01 16,45 33,13 51,39 24,41 36,63 Ext_Abs_ASDS 39,64 18,53 37,11 54,65 25,59 37,18 B ng 5.14 K t qu th nghi m mơ hình tóm t t đ n v n b n b d li u CNN/Daily Mail Baomoi - K t qu th nghi m c a mơ hình đư xây d ng b DUC 2004 Corpus_TMV DUC 2004 Corpus_TMV Mơ hình R-1 R-2 R-L R-1 R-2 R-L Mơ hình (Ext_Abs_AMDS) 38,22 11,19 19,63 60,10 37,61 36,24 Mơ hình (Ext_Abs_AMDS-mmr) 38,34 11,36 19,95 60,21 37,74 36,22 Mơ hình (Ext_Abs_AMDS-mds) 40,47 13,62 21,04 67,53 40,11 43,82 Mơ hình (Ext_Abs_AMDS-mds-mmr) 40,88 13,91 21,05 67,99 40,83 44,05 B ng 5.15 K t qu th nghi m c a mơ hình xây d ng b d li u DUC 2004 Corpus_TMV 5.3.3.6 ánh giá so sánh k t qu B ng 5.18 k t qu so sánh đánh giá hi u qu c a ph ng pháp DUC 2004 Corpus_TMV Ph ng pháp R-1 R-2 R-L R-1 R-2 R-L Extract+Rewrite [147] 28,90 5,33 Opinosis [147] 27,07 5,03 PG-Original [147] 31,43 6,03 PG-MMR w/ SummRec [147] 34,57 7,46 PG-MMR w/ SentAttn [147] 36,52 8,52 G-MMR w/ Cosine [147] 36,88 8,73 PG-MMR w/ BestSum [147] 36,42 9,36 40,47 13,62 21,04 67,53 40,11 43,82 Ext_Abs_AMDS-mds 40,88 13,91 21,05 67,99 40,83 44,05 Ext_Abs_AMDS-mds-mmr B ng 5.18 So sáng đánh giá k t qu c a ph ng pháp Ký hi u ‘-’ bi u di n ph ng pháp không đ c th nghi m b d li u t ng ng 5.4 K tălu năch ngă5 Ch ng đư đ xu t phát tri n m t mơ hình tóm t t đa v n b n h ng trích rút (mơ hình Kmeans_Centroid_EMDS) hai mơ hình tóm t t đa v n b n h ng tóm l c, mơ hình PG_Feature_AMDS Ext_Abs_AMDS-mds-mmr K t qu đ t đ c c a ch ng đư đ c công b cơng trình [CT1] 22 K TăLU N Lu n án đư nghiên c u v tốn tóm t t v n b n x lý ngôn ng t nhiên, k thu t hi n đ i s d ng đ phát tri n mơ hình tóm t t v n b n hi u qu nh k thu t h c máy, h c sâu, mơ hình đ c hu n luy n tr c k t h p đ c tr ng c a v n b n Trên c s đó, lu n án đư đ xu t phát tri n m t s mơ hình tóm t t v n b n h ng trích rút h ng tóm l c cho ti ng Anh ti ng Vi t M c đ hi u qu c a mơ hình đ xu t đ c đánh giá khách quan, đ y đ qua th c nghi m phân tích gi i thích k t qu th c nghi m V i vi c th nghi m b d li u có đ tin c y cao, mơ hình tóm t t v n b n đ xu t c a lu n án đư cho k t qu tóm t t v i đ xác cao, nghiên c u sinh có th b o đ m r ng mơ hình tóm t t v n b n đư đ xu t có hi u qu cao h n kh n ng ng d ng t t h n so v i m t s ph ng pháp tóm t t hi n t i A K t qu đ tăđ c c a lu n án V i b c c c a lu n án g m ch ng, k t qu đ t đ c có th đ c tóm t t nh sau: xu t ba mơ hình tóm t t đ n v n b n h ng trích rút áp d ng cho tóm t t v n b n ti ng Anh ti ng Vi t g m: Mơ hình RoPhoBERT_MLP_ESDS: Mơ hình s d ng mơ hình t i u c a mơ hình pre-trained BERT đ véc t hóa v n b n làm đ u vào cho mơ hình phân lo i s d ng m ng MLP, k t h p v i đ c tr ng v trí câu ph ng pháp MMR đ l a ch n câu đ a vào b n tóm t t Mơ hình mBERT_CNN_ESDS: Mơ hình s d ng mơ hình mBERT đa ngôn ng đ c đào t o tr c, m ng CNN, mơ hình seq2seq, l p FC, k t h p đ c tr ng TF-IDF MMR đ l a ch n câu đ a vào b n tóm t t Mơ hình mBERT-Tiny_seq2seq_DeepQL_ESDS: Mơ hình s d ng mơ hình BERT-Tiny, mBERT đ véc t hóa v n b n ti ng Anh, ti ng Vi t t ng ng làm đ u vào cho mơ hình phân lo i câu s d ng m ng CNN, seq2seq k t h p v i k thu t h c t ng c ng Deep Q-Learning ph ng pháp MMR đ l a ch n câu đ a vào b n tóm t t Mơ hình đ c áp d ng hi u qu u ki n tài nguyên h n ch C mơ hình tóm t t đ n v n b n h ng trích rút đ xu t đ u đ c th nghi m b d li u CNN (ti ng Anh) b d li u Baomoi (ti ng Vi t) cho k t qu cao xu t phát tri n m t mơ hình tóm t t đ n v n b n h ng tóm l c hi u qu s d ng k thu t h c sâu k t h p đ c TF v trí câu (mơ hình PG_Feature_ASDS) Mơ hình đ c th nghi m hai b d li u CNN/Daily Mail (ti ng Anh) b d li u Baomoi (ti ng Vi t) đư cho k t qu t t Mơ hình có th áp d ng hi u qu cho tóm t t v n b n ti ng Anh ti ng Vi t Mô hình c ng đ c s d ng làm mơ hình đ c hu n luy n tr c gi i pháp phát tri n mơ hình tóm t t đa v n b n h ng tóm l c mà lu n án đ xu t xu t phát tri n m t mơ hình tóm t t đa v n b n h ng trích rút s d ng k thu t h c máy, k t h p đ c tr ng v trí câu MMR đ sinh v n b n tóm t t (mơ hình Kmeans_Centroid_EMDS) Mơ hình đ c th nghi m b d li u DUC 2007 (ti ng Anh), Corpus_TMV (ti ng Vi t) cho k t qu t t tóm t t đa v n b n ti ng Anh, ti ng Vi t xu t phát tri n hai mơ hình tóm t t đa v n b n h ng tóm l c cho tóm t t đa v n b n ti ng Anh ti ng Vi t g m: Mơ hình PG_Feature_AMDS: Mơ hình d a mơ hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS đ c hu n luy n tr c Mơ hình PG_Feature_ASDS đ c tinh ch nh b ng vi c hu n luy n ti p mơ hình b d li u th nghi m cho tóm t t đa v n b n t ng ng đ mơ hình đ xu t đ t đ c k t qu t t h n Mơ hình đ xu t PG_Feature_AMDS đ c th nghi m s d ng b d li u DUC 2007, DUC 2004 (ti ng Anh) b d li u ViMs, Corpus_TMV (ti ng Vi t) đư cho k t đáng t t V i k t qu c a mơ hình đ xu t, mơ hình có th m m t h ng ti p c n m i phát tri n mơ hình tóm t t đa v n b n h ng tóm l c hi u qu u ki n khan hi m d li u th nghi m Mơ hình Ext_Abs_AMDS-mds-mmr: Mơ hình d a mơ hình h n h p Ext_Abs_ASDS đ c hu n luy n tr c đ c xây d ng mơ hình tóm t t đ n v n b n RoPhoBERT_CNN_ESDS, PG_TF23 IDF_ASDS Các mơ hình tóm t t đ n v n b n đ c hu n luy n ti p b d li u tóm t t đa v n b n t ng ng đ mô hình tóm t t đ t đ c k t qu t t h n Mơ hình tóm t t đa v n b n h ng tóm l c đ xu t Ext_Abs_AMDS-mds-mmr đ c th nghi m s d ng b d li u DUC 2007, DUC 2004 (ti ng Anh) b d li u ViMs, Corpus_TMV (ti ng Vi t) đư cho đ xác cao K t qu cho th y m t h ng ti p c n hi u qu phát tri n mơ hình tóm t t đa v n b n h ng tóm l c V i mơ hình tóm t t v n b n đư đ xu t c a lu n án, nghiên c u sinh nh n th y r ng mơ hình tóm t t đ xu t đư đáp ng t t yêu c u c a tốn tóm t t v n b n Các mơ hình tóm t t v n b n đ xu t c s đ ti p t c nghiên c u phát tri n mơ hình tóm t t v n b n ti p theo có th tri n khai áp d ng hi u qu cho toán khác x lý ngôn ng t nhiên, ng d ng th c ti n B Nh ngăkhóăkh năvƠăt n t i c a lu n án M c dù đư đ xu t phát tri n đ c m t s mơ hình tóm t t v n b n hi u qu nh ng lu n án đư g p m t s khó kh n m t s t n t i sau: i u ki n c s v t ch t ph c v cho th nghi m mơ hình đ xu t khó kh n D li u th nghi m cho mơ hình tóm t t v n b n, đ c bi t d li u th nghi m cho tóm t t đa v n b n cịn thi u Các mơ hình tóm t t v n b n đ xu t hi n t i m i ch áp d ng đ c cho tóm t t v n b n ti ng Anh ti ng Vi t ph c t p c a mơ hình tóm t t v n b n đư đ xu t v n đ c n xem xét đ c m ph c t p c a mơ hình h c sâu đư s d ng C.ă nhăh ng phát tri n Lu n án đư đ xu t phát tri n m t s mơ hình tóm t t v n b n áp d ng hi u qu cho tóm t t v n b n ti ng Anh ti ng Vi t T k t qu t t c a mô hình đ xu t kinh nghi m phát tri n mơ hình tóm t t v n b n s d ng k thu t h c sâu, nghiên c u sinh nh n th y r ng h ng nghiên c u thích h p đ phát tri n mơ hình tóm t t hi u qu cho tốn tóm t t v n b n Tuy nhiên, mơ hình tóm t t v n b n đ xu t đ c th nghi m b d li u ch a đ l n Trong th i gian t i, nghiên c u sinh s ti p t c h ng nghiên c u v i m t s đ nh h ng sau: ánh giá t ng quan mơ hình đ xu t b d li u khác Phát tri n m r ng mơ hình tóm t t v n b n đ xu t đ có th áp d ng tóm t t cho nhi u ngơn ng khác nh : Ti ng Trung, Nh t, Hàn Qu c, Phát tri n gi i pháp xây d ng b d li u cho tốn tóm t t v n b n Nghiên c u đ xu t gi i pháp tóm t t v n b n u ki n thi u d li u th nghi m Nghiên c u tích h p mơ hình tóm t t v n b n đ xu t cho cơng c tìm ki m, h th ng khai phá d li u v n b n khai phá d li u trang Website Nghiên c u tích h p mơ hình tóm t t v n b n đ xu t đ xây d ng h th ng ph n m m “Th ký o”, “Tr lý o” áp d ng cho bu i h p, xê mi na khoa h c th c t 24 ... n tóm t t c a ng i t o [31] Các nghiên c u theo ph ng pháp ti p c n có th chia thành lo i sau: Ph ng pháp d a c u trúc Ph ng pháp d a ng ngh a Ph ng pháp d a h c sâu u m c a ph ng pháp tóm. .. trích rút, c n nghiên c u đ xu t c i thi n h th ng tóm t t d a ph ng pháp tóm t t h ng tóm l c ph ng pháp tóm t t h n h p Thách th c liên quan đ n đ c tr ng th ng kê ngôn ng : C n phát hi n thêm... đó, c n có ph ng pháp đánh giá t đ ng b n tóm t t h th ng tóm t t sinh H u h t nghiên c u đư c g ng phát tri n m i c i ti n ph ng pháp tóm t t v n b n hi n có nh m t o h th ng tóm t t v n b n