Tóm Tắt Văn Bản Tự Động Dựa Trên Á Kỹ Thuật Phân Tíh Ma Trận.pdf

1 TRƯỜ Ạ Ọ ỘNG Đ I H C BÁCH KHOA HÀ N I VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LUẬN VĂN T TH ỐT NGHIỆP ẠC SĨ CHUYÊN NGÀNH KHOA HỌC MÁ ÍY T NH Tóm tắt văn bả ự độ ựn t ng d a trên các k ma trỹ ậ thu[.]

Trang 1

1

TRƯỜ NG Đ Ạ I H C BÁCH KHOA HÀ N I Ọ Ộ VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN

Tóm tắt văn bả ự độ n t ng d a trên ự các k ỹ thu t ậ phân t ích ma tr ậ n

Học viên : Trầ n Vi t Cư ng ệ ờ

Giáo viên hướng dẫn : PGS.TS Lê Thanh Hương

HÀ NỘI 07 / 2020

Trang 2

C Ộ NG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độ ậ c l p – T – H ự do ạ nh phúc

B ẢN XÁC NHẬN CHỈNH SỬA LUẬ N VĂN TH C SĨ Ạ

H ọ và tên tác giả ậ lu n văn : Trần Việt Cường

Đề tài lu n văn: Tó ậ m tắt văn bản tự động dựa trên c c kỹ thuật phân t ch ma trận.á í

Chuyên ngành: Khoa học máy tính

Mã số SV: CB170304

Tác giả, Ngư i hườ ớng dẫn khoa học và Hộ ồi đ ng chấm luận văn xác nhận tác giả

đã sửa ch a, b sung luữ ổ ận văn theo biên bản h p Họ ội đồng ngày 27/06/2020 v i các ớ

nội dung sau: Đánh số trang, bổ sung trích dẫn tài liệu tham khả , chỉnh sửa lại b a o ì

và chuyên ng nh, nêu rõ sự khác biệt của các phần 2.3, 3.3, và 4.3, chỉnh ửa lạ ềà s i đ

m c ụ cho hợp lý, giải th ch kỹ c k hiệu v công thức trong c c thuật to n mục í cá ý à á á2.1, 3.1, 4.1, ô tm ả và b ổ xung các tập dữ ệ li u, b ổ sung mô tả các đư ng cơ sở ờ(baseline , mô tả ngắn gọn lạ) i các phương pháp được so sánh trong thực nghiệm,

mô ta các bướ ền xửc ti lý v i Tiếng Việt (nớ ếu có)

Hà Nội, ngày 20 tháng 0 năm 2020 7

CHỦ Ị T CH HỘ I Đ Ồ NG

TS Vũ Tuyết Trinh

Trang 3

L ỜI CAM ĐOAN

Tôi xin cam đoan lu n văn vậ ề đề tài “T m t t văn b n tự độó ắ ả ng dựa trên các k ỹthuật phân tích ma tr n” là công trình nghiên c u cá nhân c a tôi trong th i gian ậ ứ ủ ờqua M i sọ ố liệu sử ụ d ng phân tích trong luận văn và k t qu ế ảnghiên cứu là do tôi t ựtìm hi u, phân tích m t cách khách quan, trung thể ộ ực, có nguồn gốc rõ ràng và đã

được công b ớốdư i cá à ác b i b o khoa h c đã ợọ đư c trích d n Tôi xin chịu hoàn toàn ẫtrách nhiệm nếu có s không trung thự ực trong thông tin sử ụ d ng trong công trình nghiên cứu này.”

Hà Nội, ngày 20 tháng 07 năm 2020

Tác giả luận văn

Trang 4

TÓM TẮT NỘI DUNG LUẬN VĂN

Trong suố ịt l ch s , s lư ng thông tin ngày m t nhi u và có quá ít th i gian ử ố ợ ộ ề ờ

đọc thông tin luôn là hai tr ng i l n trong việc tìm kiếm thông tin ở ạ ớ Vì v ậy, xác

định thông tin quan tr ng trong mọ ột văn bản là m t vộ i c ệ vô cùng c n thiầ ết Để giải quyết vấn đề á tqu ải thông tin và dư thừa thông tin, gi p ch ng ta cú ú ó thể xác định nhanh chóng v hiệu quả c thông tin cầ thiế , c kh nhiều c ch tiếp cận đà cá n t ó á á ã được th c hi n, trong đó tóm t t văn bả ự độự ệ ắ n t ng giúp gi i quy t khá tốt vả ế ấn đềnày

Lĩnh vực nghiên cứu về ma trận, các kỹ thuật phân hủy ma trận (matrix decomposition), phân tích ma tr n (matrix factorizaton), phân tích tensor (tensor ậanalysis, tensor decomposition, tensor factorizatoin) là m t trong nhộ ững nền tảng

tốt trong học máy và khai phá dữ liệ , là một trong những ỹ thuật “the state of the u k art”, mang lại k t quế ả ố t t trong nhiều lĩnh vực Ứng dụng các kỹ thuật phân t ch ma í trận trong tóm tắt văn bả ự độn t ng đã có nhi u nghiên cứề u và mang l i k t qu kh ạ ế ả ảquan Lu ận văn này sẽ trình bày các k thu t ma tr n ứng dụng trong tóm tắt văn ỹ ậ ậ

bản đã được nghiên cứu và thử nghiệm

Nội dung luận văn trong các chương:

• Chương 1: Giới thiệu tổng quan về bài toán

• Chương 2: Các vấn đề ề v bài toán tóm tắt văn bả ự độn t ng, các bài toán tóm tắt văn b n chính và các phương pháp tóm t t văn b n đã đưả ắ ả ợc sử

dụng

• Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn bản tự

động, trong đó tập trung vào các k thu t ỹ ậ phân t ch ma tr n không âm í ậNMF (Non-negative matrix factorization) và c ỹ thuậ ồcá k t đ ng phân t ch í

ma trận không âm NMCF (Non negative matrix co factorization) trong

bài to n t m tắt thông tin trên mạng x ộá ó ã h i

• Chương 4: Các thí nghiệm và k t qu ế ả đánh giá c a các phương pháp ủphân tích ma trậ đ đề ấn ã xu t ở chương 3

• Chương 5: Kết luận và hướng phát tri n ể

Trang 5

Hà Nội, ngày 20 tháng 07 năm 2020

Tác giả luận văn

Trang 6

M Ụ C LỤ C

TÓM TẮT NỘI DUNG LUẬN VĂN 4

MỤC LỤ 6C DANH M C HÌNHỤ .9

DANH M C BỤ ẢNG 10

CHƯƠNG 1 GIỚI THI U 11Ệ 1 Bài toán tóm tắt văn bản tự động 11

1.1 Tại sao lại cầ nghiên cn ứu tóm t t văn bắ ản tự độ ng 11

1.2 Định nghĩa tóm t t văn bắ ản tự độ ng 12

1.3 Phân loại tóm t t văn bắ ản tự độ ng 12

2 Phân tích ma trậ 13n 3 Tóm tắ ột n i dung luận văn 14

CHƯƠNG 2 BÀI TOÁN TÓM TẮT VĂN BẢN TỰ ĐỘNG 15

1 Tóm tắt đơn văn bản 15

1.1 Giai đoạn ti n xửề lý d li 15ữ ệu 1.2 Trích ch , trọn ừu tượng nén câu và , dung hợp câu 18

2 Tóm tắt đa văn bản 20

2.1 Giới thi u về tóm tắệ t đa văn bản 20

2.2 Các vấn đề ủ c a tóm tắt đa văn bản 21

3 Tóm tắt di n ti 21ễ ến 4 Tóm tắt thông tin trên m ng xã hội 22ạ 5 Phân loại các phương pháp tóm t t văn bắ ản tự độ ng 22

5.1 Tiếp cận dựa trên c u trúc văn b 22ấ ản 5.2 Tiếp cận dựa trên mô hình không gian vector (Vector space model) 23

5.3 Tiếp cận dựa trên đồ ị th (Graph based) 24

5.4 Các phương pháp dựa trên cấu trúc di n ngôn củễ a văn bản 26

5.5 Tiếp cận dựa trên h c máy (machine learning) 28ọ CHƯƠNG 3 PHÂN TÍCH MA TRẬN CHO TÓM TẮT VĂN BẢN 30

Trang 7

1 Phân tích ma trận không âm (non-negative matrix factorization) 30

1.1 Cơ sở lý thuy t c a NMF ế ủ 30

1.2 Các thuật toán học cho NMF 31

1.3 Ứng dụng NMF trong bài toán tóm tắt văn bản tự động 35

2 Đồng phân tích ma trận không âm (Matrix CoFactorization) NMCF 37

2.1 Cơ sở lý thuy t và ý tư ng của NMCF 38ế ở 2.2 Thuật toán h c cho NMCF.ọ 38

2.3 Ứng d ng NMCF vụ à áo b i to n tóm tắá t thông tin m ng xã h i 39ạ ộ 3 Đồng phân tích ma trận không âm 2 (Matrix Co 2 Factorization) NMC2F 41

3.1 Cơ sở lý thuy t cho NMCế 2F 41

3.2 Thuật toán học cho NMC2F 42

3.3 Ứng dụng NMC2F vào bái toán tóm tắt thông tin mạng xã h ội 43

4 Đồng phân tích ma trận không âm 3 (Matrix Co 3 Factorization) NMC3F 46

4.1 Cơ sở lý thuy t cho NMCế 3F 46

4.2 Thuật toán h c cho NMCọ 3F 47

4.3 Ứng dụng NMC3F vào bái toán tóm tắt thông tin mạng xã h ội 48

CHƯƠNG 4 THÍ NGHIỆM 51

1 Tập dữ ệ li u 51

2 Tiêu chí đánh giá 52

2.1 ROUGE –N (N-gram Co Occurre- nce Statistics ) 52

2.2 ROUGE –L (Longest Common Subsequence) 53

2.3 ROUGE-W (Weighted Longest Common Subsequence) 53

2.4 ROUGE –S (Skip-Bigram Co Occurrence Statistics) 54

-2.5 ROUGE –SU (Extension of ROUGE-S ) 54

3 Kết quả 54

3.1 Đồng phân tích ma trận không âm (Matrix Co Factorization) 54

3.2 Đồng phân tích ma trận không âm 2 (Matrix Co 2 Factoriation) 56

3.3 Đồng phân tích ma trận không âm 3 (Matrix Co 3 Factorization) 60

Trang 8

CHƯƠNG 5 KẾT LUẬN 62

1 Cách tiếp cận ma trận cho tóm tắt văn bản 62

2 Đóng góp của lu n văn 62ậ

3 Hướng nghiên cứu tiêp 62 TÀI LIỆU THAM KHẢO 64

Trang 9

DANH MỤC HÌNH

Hình 1: Một vài trọng số địa phương thông dụng 17

Hình 2: Một vài trọng số toàn cục hay sử ụng 18 d

Hình 3: Tóm tắt văn bản tự động dựa trên trích chọ câu 19n Hình 4: Mô hình của tóm t t đa văn b n 21ắ ả

Hình 5: Giá trị PAGERANK 25Hình 6: Các nhóm phương pháp tóm tắt văn bản tự độ ng 29

Hình 7: Phân tích ma trận không âm 30

Hình 8: Ví dụ ề phân tích ma trận không âm 31 v

Hình 9: Tóm tắt văn bản tự động dựa trên phân tích ma trận không âm NMF 37

Hình 10 So s nh NMF với NMCF 55áHình 11 ROUGE score cho các thuật to NMCF In đậm l giá trị t t án à ố nhất, chữ

nghiêng là á ggi trị ần lớn nhất (chỉ đứng sau giá ltrị ớn nhất) 56Hình 12 Ảnh hưởng của phương pháp chuẩn h a trong NMCF 56ó

Hình 13 So s nh cáá c thuật to n NMá 2CF v NMF cà ổ ể đi n 57

Hình 14 So s nh NMá 2CF với các phương pháp ph c t p hơn 59ứ ạ

Hình 15 Kết quả th nghiệm của thuật to n NM í á 3CF 61Hình 16 Ảnh hưởng của phương pháp chuẩn h a trong NMó 3CF 61

Trang 11

CHƯƠNG 1 GIỚ I THI U Ệ

1 Bài toán tóm tắ t văn b ả n tự độ ng

1.1 Tại sao lại cầ nghiên c n ứ u tóm t t văn b ắ ả n t ự độ ng

cTrong thờ ại đ i internet với sự bùng nổ ủa thông tin, vấn đề chính mà con người ph i đ i m t không còn là vấ ề ề ựả ố ặ n đ v s thi u h t thông tin mà là làm th nào ế ụ ế

để có th xác đ nh, ch n l c ra nh ng thông tin mà mình c n trong l ng thông tin ể ị ọ ọ ữ ầ ượkhổng lồ đư c giợ a tăng hàng ngày trên toàn c u M i m t cá nhân hay tầ ỗ ộ ổ chức đều

phải giải quyết bài toán dư thừa thông tin để có thể ạ ộho t đ ng hi u quệ ả trong th i ờ

đại ngày nay Ví dụ theo th ng ố kê của trang web

trang web được chỉ ụ m c bởi google, h ệthống tìm ki m thông tin ph bi n nh t hiện ế ổ ế ấnay Khái niệm “quá nhiều thông tin giết chết thông tin” đã và đang xảy ra một

cách vô c ng mạnh mẽ Vấn đề ủù c a chúng ta g p ph i hi n nay không ch là s ặ ả ệ ỉ ựthiếu hụt thông tin, mà với lượng thông tin khổng lồ này, làm c ch n o cá à ó th xáể c

định và ch n l c cáọ ọ c thông tin mà mình c n trong lư ng ầ ợ thông tin quá lớn như vậy?

Mặt kh c, nternet tồn tạá i i dưới dạng đa ngôn ngữ, tuy n không c ấ ềó ó v n đ gì nhưng

s ẽgây rất nhiều ó kh khăn cho vi c phân tí d u ệ ch ữ liệ [1]

Để giải quyết vấn đề qu ải thông tin v dư thừa thông tin, gi p ch ng ta c

thể xác định nhanh ch ng vó à hiệu quả các thông tin c n ếầ thi t ó , c nhi u cề ách tiế ận p c

đã đư c th c hi n như: ợ ự ệ

• Tìm kiểm thông tin (information retrieval)

• Trích r t thông tin (information extraction).ú

• Phân cụm văn b n ả (document clustering)

• Biểu di n thông tin tr c quan (visualization) ễ ự

• Các hệ thống ỏi đ p uestion/ nswering System) h á (q a

• Tóm tắt văn bản tự động ( utomatic ext ummarization).a t s

Trang 12

ó, Trong đ tóm tắt văn bản tự động là phương pháp ch đạủ o giúp còn người giải quy t v n đ ế ấ ềtrên C c ưu điểm củá a vi c tóm t t văn b n t ng: ệ ắ ả ự độ

• Tóm tắt l m giảm thờà i gian đọc văn bản

• Khi nghiên cứu văn b n tóả , m t t làm cho vi c ch n l a văn b n m t cách ắ ệ ọ ự ả ộ

d dàễ ng hơn

• Tóm tắt tự động gi úp cải thiện c c chỉ ụá m c trong văn b n ả

• Tóm tắt tự động sẽ có ít “th nh kiế (bias) hơn l so với t m tắt của con à n” à óngười

• Tóm tắt tự động sẽ cho ph p c c ch ng ta ửé á ú x lý các văn bản ột c ch m ánhanh chóng, dễ ng v hiệu quả hơn dà à

1.2 Định nghĩa tóm tắ t văn b ả n tự độ ng

Các định nghĩa vềtóm tắt văn bản tự động

• Định ngh a 1 (Van Dijk) [1]: Ch c năng chính c a tóm t t là ch ĩ ứ ủ ắ ỉ ra, dự

đoán cấu tr c nội dung củú a văn bản

• Định ngh a 2 (Cleveland) [1]: B n tóm t t ph i mang các nội dung quan ĩ ả ắ ả

trọng củ văn bảa n à nó , v th c sự có ể thay thếự th văn b n ả

Trang 13

• Mục đích của tóm tắt: trần thuật, cung cấp, hay đánh giá thông tin Trong

đềtài này tôi ch y u t p trung vào các tóm t t d ng cung c p thông tin ủ ế ậ ắ ạ ấ

• Dạng tóm tắt: Tóm tắt bằng trích chọn (extract) (trích nguyên văn một số

đo n, câu trong văn bạ ản gốc) và tóm t t b ng tr u tư ng (abstract) (t o ắ ằ ừ ợ ạcác câu tóm t t nắ ội dung văn bản, không nhất thiêt có trong văn bản) Trong đề tài này chúng tôi, gi ng như đa ph n các nhà nghiên c u trên ố ầ ứthế ớ gi i, t p trung vào các tóm t t d ng trích chậ ắ ạ ọn Tóm tắ ằng trừu t b

tượng (abstract) là bài toán khó hơn rất nhi u so v i tóm tắt bằng trích ề ớchọn, vì ngoài việc phải giải quyết bài toán tóm tắt văn bản, tóm tắ ằng t btrừu tượng còn phải giải quy t bài toán sinh ngôn ngế ữ (language generation) tự động trên máy tính.Ngoài ra, tó tm ắ ừt tr u tượng cũng rất khó có thể đ nh gi á á ì á, v đ nh giá thế nào là một bả ón t m tắt tốt cũng là

một vấn đề quan trọng c n ph i nghiên c u ầ ả ứ

• S ố lượng tài liệu: Tóm tắt đơn văn bản, đa văn bản (về cùng một chủ đề ) hoặc tóm tắt thông tin trên mạng xã h i ộ Trong nghiên c u nứ ày, tôi chủ

yếu nghiên cứu v o t m tắà ó t thông tin trên m ng xã h i ạ ộ

• Ngữ ả c nh tóm t t: Tóm t t thông tin theo đ nh hư ng c a câu h i c th ắ ắ ị ớ ủ ỏ ụ ểhay không phụ thu c câu hộ ỏi nào Đềtài này tập trung vào giải quyết loại ngữ ả c nh tóm t (không phắt ụ thuộc câu h i) ỏ

2 Phân tích ma trận

dTrong tóm tắt văn bản tự động sử ụng phương pháp trích chọn, m t trong ộ

những mục tiêu chính là lựa chọn những câu t t nh t có thố ấ ể Một thể ện tự hi nhiên

của các câu trong văn bản chính là một vector Như vậy thể hiện tự nhiên c a một ủvăn bản (g m nhi u câu) chính là một ma trận Vì vồ ề ậy, các kỹ thuật phân tích ma trậ ẽn s giúp chúng ta đánh giá đượ ầc t m quan tr ng c a các câu trong ọ ủ văn bản, t ừ

đó có thể trích chọn nh ng câu quan tr ng nh t ữ ọ ấ

Phân tích ma trận có một nền tảng toán họ ốc t t, phù h p v i s gi i thích c a ợ ớ ự ả ủcon người Các k thu t phân tích ma tr n trong h c máy, v i ý nghĩa là h c ra các ỹ ậ ậ ọ ớ ọ

Trang 14

nhân tố ẩ n (latent factor) có ý nghĩa trong khai phá văn bản (text mining), đặc biệt trong việc tóm tắt văn bản tự độ ng là học ra được các chủ đề ẩ n (hidden topic), từ

đó có thể tính tr ng sốọ cho c c câuá dựa trên các ch n này ủ đề ẩ

Phân tích ma trận ứng dụng rất nhiều trong việc khai phá d ữliệu, nhất là khai phá dữ ệ li u văn b n Không những thếả , đã có nhiều nghiên cứu ch ra r ng, r t ỉ ằ ấnhiều phương pháp học máy khá hiệu quả bây giờ đề u đư c đưa v các k thu t ợ ề ỹ ậphân tích ma trận

3 Tóm tắ ộ t n i dung luận văn

n Trong luậ văn này, em sẽ trình bày các kỹ thuật ma trận đã được ứng dụng trong tóm tắt văn bản tự độ ng, các k t quế ả và hư ng nghiên cứu tiếp theo ớ

Nội dung luận văn trong các chương:

• Chương 2: Các vấn đề ề v bài toán tóm tắt văn bản, các bài toán tóm tắt văn bản chính và m t nhómộ các phương pháp tóm tắt văn bản đã đượ ửc s

dụng

• Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn bản tự

động, xoay quay phương pháp phân t ch ma tr n không âm í ậ NMF (Nonnegative matrix factorization) và các biến thể ủ c a nó cho các bài toán

-tóm tắt thông tin trên mạng x ội, cụ thểã h là k ỹ thuậ ồt đ ng phân t ch ma í

trận không âm NMCF (Non-negative matrix co-factorization)

• Chương 4: Các thí nghiệm và k t qu ế ả đánh giá c a các phương pháp ủphân tích ma trận đề ậ c p ở chương 3

• Chương 5: Kết luận và hướng phát tri n.ể

Trang 15

CHƯƠNG 2 BÀI TOÁN TÓM TẮT VĂN BẢ N T Ự ĐỘ NG

lý văn bản Tiền xử lý cho phép tài liệu văn bản được biến đổi thành một đố tượng i

với các tính năng ngôn ng ốữ t i thiểu, chẳng hạn như từvà câu

Tiền xử lý có hai mục tiêu: chuẩn h a từ và giảm ố lượng ừ ựng trong một ó s t vvăn bản C hai ch c năng này là c c k quan tr ng b i vì không gian th hiệ ủả ứ ự ỳ ọ ở ể n c a văn bản đư c gi m đáng kểợ ả và tr nên d dàng quở ễ ản lý Do đó, tiền xử lý là r t c n ấ ầthiết, vì nó cung cấp cho các hệ ống tóm tắth t m t đại diộ ện ngắn gọn, súc tích và

đầy đủ ủ c a văn b n g c Trong nghiên c u c a tôi, tôi có s d ng 2 lo i văn b n ả ố ứ ủ ử ụ ạ ả

Tiếng ệt vVi à Tiếng nh.A

ìTrong điều kiện b nh thường, ti n x lý ề ử văn bản Tiếng nh ồm các giai đoạn A gsau:

• Tách văn bản thành c c đo n, c c câu…á ạ á

• Tách c c đoạn th nh c c từ hoặc cụm từá à á

• Chuẩn hóa t ó ừ (c th s d ng các phương pháp stemming ho c ể ử ụ ặlemmatization) Trong nghiên cứu của tôi sử ụ d ng phương pháp stemming

• Loạ ỏi b các t d ng (stop word) ừ ừ

Với văn bản ếng ệt, tiền xửTi Vi lý gồm c c giai đoạn sau á

• Tách văn bản thành c c đo n, c c câu…á ạ á

• Tách từ (phân t ch những từá đơn và t kép trong văn bản) ừ

Trang 16

• Tách c c đoạn th nh c c từ hoặc cụm từá à á

Tiền xử lý tùy chọn có thể bao gồm các bước sau:

• Nhậ ạn d ng tên các th c th ự ể(NER)

• Khai thá ác c c thuật ngữ và các từ kh óa

Các kỹ thuật stemming v lemmatization, tưởng ch nh l đưa c c từ ới c c à ý í à á v á

biến thể ác nhau trở ề ừ ốkh v t g c Ví d : "ụ going sau khi qua c c k thu t stemming " á ỹ ậhay lemmatization sẽ thà "nh go" Các kỹ thuậ ày rất quan trọng trong việc xử lý t nvăn bản Tiếng Anh, vì nó làm giảm rất lớn không gian từ ủ c a văn b n g c ả ố

Tách từ trong Ti ng Việt ế là gom nhóm các từ đơn liền k thành m t c m t ề ộ ụ ừ

có ý nghĩa Ví dụ: "Cách tách t cho Ti ng Vi t." sau khi tách từ ừ ế ệ thì thành "Cách tách từ cho Ti ng_Việ V ế t " ềhình thức, các từ đơn đư c gom nhóm với nhau bằng ợcách nối với nhau bằng ký tự ạ g ch dư i "_", trong trư ng hợp này là từ ếớ ờ Ti ng_Việt Sau khi th c hi n tách t thì m i tự ệ ừ ỗ ừ (token) trong câu được cách nhau b i mở ột khoảng tr ng, trong ắ trường hợp này như "Ti ng_Viế ệt " thì từ "Tiếng_Việt" cách

đấu b"." i 1 kho ng tr ng Đây là quy ước chung cho tất cở ả ắ ả các ngôn ngữ ủ c a bài toán tách từ trong x lý ngôn ng t ử ữ ự nhiên Việc quy ư c như v y là đớ ậ ể ạ t o thành chuẩn chung và để ễ ử d x lý hơn trong lập trình

cTiền xử lý là một nhiệm vụ khó khăn vì phụ thuộc phần lớn vào ngôn ngữ ủa văn bản Ranh gi i câu, ví d , đướ ụ ợc phân định bở ấi d u ch m câu, b i c nh, vi c s ấ ố ả ệ ử

dụng ba chấm (…) thay đổi đáng k ừể t ngôn ngữ này đến ngôn ngữ khác Hơn nữa, không phải t t cấ ả các ngôn ngữ đề u tách t bừ ằng dấu cách Trong th c tự ế, có những khác biệt đáng kể giữa tách một văn bản viết bằng m t ngôn ngộ ữ phương Tây s ử

dụng ký tự La Tinh và một ngôn ngữ phươn Đông như Trung Quốc, Nhật Bản hay g Hàn Quốc Th m chí lo i bậ ạ ỏ ừ ừ t d ng (stop word) (liên từ, giới từ, vv) cũng không phải là m t nhiệm vụ đơn giản ộ

b Không gian vector (Vector space model)

Vấn đề tiền xử lý dữ liệ , ma trậ u n đ u vào đã đưầ ợc tiền xử lý: loại bỏ các từ

dừng (stopword), sử ụng các kỹ thuật stemming, lemmatization… ới Tiếng Anh, d v

Trang 17

và tách từ ới Tiếng Việ đưa về ộ v t m t văn bản với tập từ điển nhỏ hơn (không gian các từ ẽ s nh hơn) cáỏ c phần nhỏ này đư c g i là “term” M t t p t đi n các t ợ ọ ộ ậ ừ ể ừđượ ậc l p ra (ch nh là tỉ ổng số term kh c nhau trong văn bá ản, và mỗi một term được

đánh s trong v í cố ị tr ủ ậa t p t đi n), và đây chính là m t chi u (chi u term) c a ừ ể ộ ề ề ủkhông gian vector Chiều còn lại chính là số câu có trong văn b n Như v y một ma ả ậ

trận term sentence × được tạo ra

Ma trận đầu v o thường được chuyển đ i, thư ng đưổ ờ ợc gọi l weight functions” Vị í (i,j) của ma tr n thtr ậ ể ệ hi n về ố m i tương quan giữa term và văn b n, ảđược định ngh a b i: ĩ ở

a(i ,j) = L( ,j) * G(i) i

• Với L(i,j) là trọng ố địs a phương (local weight), thể hiện trọng ố ủa s cterm đó trong câu [7]

Hì nh : Một vài trọng ố đị 1 s a phương thông d ụ ng.

• G(i) là trọng ố toàn cục (global weight), thể hiện trọng ố ủa term trong s s cvăn bản [7 ]

Trang 18

Hì nh : Một vài trọng ố toàn cục hay sử ụ 2 s d ng

Trong nghiên c u cứ ủa ch ng tôi, ú chúng tôi sử ụ d ng kế ợt h p chính là TF (Term frequency) và IDF (inverse document frequency)

1.2 Trích ch , tr ọ n ừu tượ , nén câu ng và dung ợ h p câu.

a Tiếp cận bằ ng trích ch n ọ (Extract) :

Tr ch chọ bao gồm việc lựa chọn đơn vị ủa văn b n (câu, phân đoả ạn của câu, đoạn văn ho c đoặ ạn), được coi là có chứa lượng thông tin c n thiế ủầ t c a văn

bản (nội dung thông tin), và các lắp gh p c c é á thành phần m t c ch hộ á ợp lý V ề cơ

bản, t ch chọ là lắp ráp các phầ đã được lấy ra từ ột văn bảrí n n m n gốc, tạo th nh à

một bản t m tắ Mụó t c đích của trích chọ là cung cấp cho một cái nhìn tổng quann

v nề ội dung ủa văn bản gốc [1]c

Các thuật toán để m tắt tự động bằng cách tr ch chọ có thể được phân thành ba loại: bề ặ m t (Surface), trung b nh (Intermediate) và kì ỹ thuật phân tích sâu

(Deep parsing) [1]

Trang 19

Hì nh : Tóm tắ 3 t văn b ả n tự động dựa trên trích chọ câu n

b Tiếp cận bằng trừ u tư ợ ng (Abstract) :

K ỹ thuật trích chọ chỉ đơn thuần n là sao chép các thông tin được coi là quan

trọng nhất củ văn bả để ạa n t o thành một bản tóm t t (ví d , các mắ ụ ệnh đềchính, câu hoặc đo n văn), trong khi trừu tượng liên quan đến viạ ệc diễn giải các phầ ủn c a văn

b nả Nói chung, trừu tượng có thể ạo ra một t m tắ văn bản ố hơn trích chọ , t ó t t t nnhưng các h ệ thống có th ể làm điều này khó khăn hơn r t nhi u ấ ề khi n ph i s cầ ả ử

dụng các công nghệ ử lý ngôn ngữ ự nhiên, mà bản thân nó là mộ x t t lĩnh v c đang ựphát triển Trừu tượng (Abstract) là một trong những mục tiêu cuối cùng tóm tắt văn bản t ự động Hệ thống ạo ra tóm tắt bằng cách trừt u tượng (Abstract) dựa trên

s ựhiểu biết văn bản và tìm cách tạo ra một bản tóm tắ đúng ngữ pháp, ngắn gọn và t

mạch lạc

c Tiếp c ậ n bằ ng nén câu và liên hợp (sentence compression and fusion)

Nén câu và dung hợp câu (Multi sentence fusion) là hai đối tư ng tương đợ ối

-mới trong nghiên cứu tóm tắt văn bản tự độ ng Hai lĩnh vực này cho phép một số

cải tiến được thực hiện, bao gồm cả việc giảm dư thừa và t o ra b n tóm t t tương ạ ả ắ

t b n ự ả tóm tắt của con ngư i, nhưng nờ én câu và dung ợp câu thuộc hai đố h i tượng hoàn toàn khác nhau [1]

• Ý tưởng đằng sau nén câu rất đơn gi n: đả ể lo i bạ ỏ ấ t t cả các thông tin không cần thiết trong một câu trong khi vẫn giữ đư c c u trúc ngợ ấ ữ pháp

Trang 20

của câu Biến ý tưởng này thành một thuật toán, tuy nhiên, hiện nay chưa

có một giải pháp ố cho vấ ềt t n đ này [1]

• Ý tưởng c a Multi-sentence Fusion hoặủ c nén đa câu (Multi sentence compression) phát sinh từ tóm t t đa văn bản: các tài liệu có nhiều hơn ắ

-và s ùựtr ng lặp nhiều, tạo ra dư thừa khi tr ch chọn tạo t m tắ Mục đích í ó t

c n làầ m l giảm sự dư thừa trong khi duy trì các thông tin ần thiế chứa à c t trong một nhóm ngữ nghĩa tương tự câu Barzilay và McKeown gi i ớthiệu ý tưởng này trong vấn đề tóm tắ đa văn bảt n của họ: một bộ câu (trích chọ theo trọng ố) ừ các văn bản khác nhau được hợp nhất và nén n s t

lại tạo ra bản t m tắ [1ó t ]

2 Tóm tắ t đa văn b ả n.

2.1 Giớ i thi u v tóm tắt đa văn bản ệ ề

H ệ thống t m tắó t đa văn b n đư c xem như lả ợ à phần mở ộng của một số ệ r h

thống tóm tắt đơn văn bản, mà trong đó kết quả đầu ra được hợp nhấ ạt t o thành một

bản t m tắ duy nhấ Tuy nhiên khi l m việc với một số nguồn văn bả , hệ thống ó t t à ntóm tắt đa văn bản có một xác suất dư thừa thông tin lớn hơn, thông tin không

mạch lạc và thậm chí mâu thuẫn Một điều quan trọng l dư thừa không chỉà là vấn

đề duy nh t c a tóm t t đa văn b n, mà cò sấ ủ ắ ả n g n k t th i đi m c a các s ki n ự ắ ế ờ ể ủ ự ệđược mô t c ng r t quan tr ng ả ũ ấ ọ

Tóm tắt đa văn bản ần ạo ra các thông tin súc tích và toàn diệ ụ tiêu

của tóm tắ đa văn bả là để đơn giản hóa việc tìm kiếm thông tin và giảm thời gian t n tiếp nh n thông tin ậ bằng cách chỉ quan tâm vào các chủ đề liên quan nhất, toàn diện

nhất, hạn chế truy cập các tập tin ban đầ trong các trường hợ không cần thiết u p

Trang 21

Hì nh Mô hình của tóm tắt đa văn bản 4:

2.2 Các vấ n đ ề ủ c a tóm tắ t đa văn b ả n.

Hầu hết các nghiên cứu về m tắ tó t đa văn bản áp dụng kỹ thuật thống kê cho đơn vị ngôn ng ữ như từ, câu và đoạn văn để ự l a chọn, đánh giá, phân loại và l p ắráp chúng lại Đi u này đưề ợc thực hiện theo một cách tương tự như tóm t t đơn văn ắ

b nả Sau đó, xác định và loại bỏ dư thừa, trong khi c g ng đ giữ ự ắố ắ ể s g n kế ủt c a bản tóm tắt Tuy nhiên, so với tóm tắt đơn văn bản, những khó khăn mới phát sinh

với t m tắó t đa văn bản: phân nhóm tài liệu, thi t k và th c hi n các biế ế ự ệ ện pháp giảm

dư thừa, c n tính đ n th i gian xu t hi n c a văn b n và gi i quyếầ ế ờ ấ ệ ủ ả ả t các văn bản

trùng lặp

óCác vấ ền đ thông tin mâu thuẫn cũng có mặt trong t m tắt đa văn bản Trong thực tế, nhiều tài li u có thệ ể được vi t b i các tác gi có phong cách và cách cế ở ả ấu trúc khác nhau Do đó, thôngtin trái ngược nhau về cùng một sự ệ ki n không phải là

hiếm, không chỉ ậ v y, c cá s ự kiện và ý kiến có thể thay đ i theo thờổ i gian Vì v y ậcác tài liệu trong các giai đoạn khác nhau có thể có nh ng thông tin trái ngư c ữ ợnhau Quản lý mâu thuẫn thông tin vẫn còn là m t vộ ấn đề khó khăn

3 Tóm tắ t di n ti ễ ế n.

Các nhà nghiên cứu đã thực hiện kh ốt tóm tắá t t đa văn bản Thật không may, nhiều hệ ố th ng hi n t không nhệ ại ững t p trung vào vi c thu th p tài li u tĩnh, mà ậ ệ ậ ệcòn c gố ắng để nắm bắt những thay đổi theo thời gian Xây dựng một mô hình thích

hợp cho việc thay đ i đổ ộng ủ thông tin ất khó khăn vì chính nó c a r còn không được

Trang 22

công nhận đ y đ Do đó, nhiầ ủ ệm vụ tóm tắt diễn ti có giá trến ị trong việc theo dõi những thay đổi quan trọng đối v i các thông tin liên quan trong m t th i gian nhớ ộ ờ ất

định K thu t tóm t t di n ti n cũng r t h u ích có đư c thông tin m i ho c ỹ ậ ắ ễ ế ấ ữ để ợ ớ ặ

kiến thức m i b ng cách lo i b thông tin ngoài thớ ằ ạ ỏ ời gian sự ệc ặc các thông vi hotin dư thừa Nó nh m mằ ục đích tạo ra một bản tóm t t b ng cách mô tảắ ằ ph n l n ầ ớnội dung thông tin từ ộ m t tập hợp các tài liệu theo giả đị nh rằng người sử ụ d ng đã

đọc m t t p h p các văn b n trư c ó Đây là lo i tóm t t đã đư c ch ng minh r t ộ ậ ợ ả ớ đ ạ ắ ợ ứ ấ

hữu ích trong việc truy tìm những câu chuyện tin tức, chỉ có nội dung và c p nhậ ật

m i s ớ ẽ được tóm tắt nếu người dùng đã bi t đi u gì đó vế ề ề các văn b n ả

Nhiệm v tóm t t di n ti n đ u tiên là tóm t t m t t p văn b n v m t ch ụ ắ ễ ế ầ ắ ộ ậ ả ề ộ ủ đềnào đó Tiếp theo là t o bảạ n tóm t t c p nhậắ ậ t mà là m t b n tóm tắt theo giả địộ ả nh ngườ ọi đ c đã đọc các t p văn b n trư c đó M c đích củậ ả ớ ụ a vi c tóm t t c p nh t đ ệ ắ ậ ậ ểthông báo cho người đọc những thông tin mớ ề ủ đềi v ch

Tóm tắt diễn tiến có nhiệm vụ ạo ra một bản tóm tắ t t đa văn bản bằng cách xác định các thông tin mới liên quan đến m t ch Mụộ ủ đề c tiêu là để cung cấp cho ngườ ử ụi s d ng, những người trư c đây đã đớ ọc m t s văn b n, s ki n m i trong ộ ố ả ự ệ ớkhi tránh lặp lại các thông tin đã được bao g m trong bồ ản tóm tắt trư c đó Các ớthông tin được trích rút ph i th a mãn: Thông tin này quan trọng trong văn bản tóm ả ỏtắt, và kém quan trọng trong văn bản đã được tóm t t ắ

4 Tóm tắ t thông tin trên m ng xã hội ạ

Một số nhà nghiên cứu đã thực hiện tốt công việc trong tóm tắt văn bản Nhưng với thông tin mạng xã hội th kháì c Người d ng c thể nh luận c c vấn đề, các ù ó bì á

chủ đề vào trong m t bà viết B i vi t vộ i à ế à ủ đềch có liên quan đến nhau Nhiệm vụ

của t m tắt thông tin mó ạng xã hội là tóm tắt thông tin theo định hư ng dư luớ ận (những thông tin mà dư luận quan tâm), và tóm tắt những bình luận của người

dùng, từ đ ó xác định đư c đ nh hư ng dư luận ợ ị ớ

5 Phân loại các phương pháp tóm tắ t văn b ả n t ng ự độ

5.1 Tiếp cận dự a trên c u trúc văn bản ấ

Trang 23

á à d à ú

Là các phương ph p không cần đại diện cho văn bản v chỉ ựa v o cấu tr c văn bản

a Tiếp cận dự a trên v ị trí câu:

• ω( s) = i −1: Điểm s cao cho câu g n v i câu mở đầ ủố ầ ớ u c a văn b n ả [1]

• ω( s) = i : Điểm s cao cho câu g n cu i văn b n ố ầ ố ả [1]

• ω(s) = max[i −1 , (ρ−i+1) −1 ] : Điểm số cao cho câu gần ranh rới của văn

b n ả [1]

• ω(s) = (i−ρ MOD 2) 2 : Điểm số ủ c a câu được mô tả ởi một h m parabol b à

với biến số là v í cịtr ủa n [1] ó

b Tiếp c ậ n dự a vào đ ộ dài c a câu: ủ

• ω(s) = | w1, w2, , wn : S | ố lượng từ trong câu [1]

• ω(s) = | w1| + w2| + + |wn : S ký t | | ố ựtrong c c câu văn [1] á

5.2 Tiếp cận dựa trên mô hình không gian vector (Vector space model)

a Tiếp c ậ n dự a trên t ầ n s ố ừ t ấ xu t hi n trong câu: ệ

• ω( s) = max m ∈clusters(s) {|K(s)| 2 /|m|} :Thuật toán Luhn d a trên c a s các ự ử ổ

t óừkh a (keyword [1])

• ω( s) = Sum( tf i ) : Thuật toán c a Edmundson, đư c tính b ng t ng số ủ ợ ằ ổ

lần xuất hiện của c c từ kh [1]á óa

• ω( s) = | K(s) K(D) : Đượ |/| | c tính b ng t l xu t hi n c a t óằ ỉ ệ ấ ệ ủ ừkh a trong câu

và trong văn bản [1]

• ω( s) = Sum( tf i )/|s| : tầ ố ấn s xu t hi n trung bình c a t ệ ủ ừtrong câu [1]

• ω( s) = Sum(tf i x isf j ) : với isf j = 1 log(n – j / N) với n j là s ố lượng câu mà

chứa từ j(term frequency * inverse sentence frequency )[1]

Trang 24

• Singular value decomposition (SVD): Phân t ch SVD cho ma trí ận văn

• ω(s) = cos(s, T) : Sự tương đồng osin [1] C

c Tiếp cận dựa trên sự tương đồng Jaro-Winkler của ký t ự s và truy vấn Q:

• ω(s) = sim JW (s, Q) .[1]

Phương ph m n y t ếp cận dựa trên sự chồng ch o của c c văn bả Phương

pháp này đánh giá ốkh i lượng thông tin của câu d a trên sự ự tương đ ng của nó với ồ

các câu trong tập văn bả kh c C ch tiếp cận n y dựa trên tưởng: Câu chứa các n á á à ý

n i ộ dung lặp đi lặp lại th không quan trọng: ì

• ω( s) = |s T|/ ∩ min{| , s| |D\s |} : Sự chồng ch o củé a tiêu đề(Overlap) [1]

• ω( s) = |s T|/|S ∩ ∪ D\s| : Sự tương đ ng Jaccard c a tiêu đ .ồ ủ ề[1]

• ω( s) = cos(s, D/s) : Sự tương đ ng cosin ồ (cosin similarity) [1]

5.3 Tiếp c ậ n dự a trên đ ồ th (G ị raph base d ).

Trong mộ ồt đ thị, các yếu tố văn bản (từ hoặc câu) đư c đợ ại diện bởi các nút

và các cạnh nối các thành phần văn bản có liên quan (ngữ nghĩa có liên quan) v i ớnhau

a S ự ph bi ổ ến c ủ a 1 đỉnh sử ụ d ng tầ ố ừ n s t

Trang 25

T ừ được coi l ốt nệu n đượ ạà t ó c đ i diện bởi c c đỉnh m ự phổ biến cao hơn á à s

một ngưỡng nhấ ịt đnh:

• Thuật toán Luhn

• Đồ ị ở ộ th m r ng c a các t l t ó ủ ỉ ệ ừkh a

• Đồ ị ở ộ th m r ng ch ng chéồ o lên nha (overlap).u

• ω(s) = sum(popular/|s|) : sự trong bình phổ biến củ ấ ảa t t c các đỉnh

b Tiếp cận dựa trên PAGERANK

Các gi trị PAGERANK được sử ụng trong c c tần số ừ Từ ngữ được coi lá d á t à

tốt nếu ch ng đượú c đại diện bởi c đỉnh với mộcá t đi m PAGERANK cao hơn ểngưỡng xác định trước:

c Tiếp cận dựa trên sự tương đồng:

• Chồng chéo c a c c củ á ạnh trong tiêu đề và các câu (Overlap)

• S ự tương đồng Jaccard gi a các c nh trong tiêu đ và ữ ạ ề câu (Jaccard similarity)

• S ự chồng chéo (Overlap) giữa c c cạnh trong câu s và tập văn bảá n b ổ

sung D/s

Trang 26

• S ự đồng Jaccard giữa các cạnh trong câu s và tài liệu bổ sung D\s

d Tiếp cận dựa trên textual energy E trong câu S:

• ω(s) = | Sum (E) ; (E = S × | S T ) 2

5.4 Các phương pháp dự a trên c u trúc di n ngôn c a văn bản ấ ễ ủ

Các phương pháp khai thác cấu trúc diễn ngôn chủ ế y u dựa trên phân tích ngữ nghĩa và quan hệ ng ữ nghĩa giữa các t và câu trong văn bừ ản để ừ t đó quy t đ nh ế ị

việc trích ch n các câu cho tóm tọ ắt Hai phương pháp phổ ến nhất thu c lbi ộ ớp phương pháp này là xử ụ d ng xích từ ự v ng (lexcical chain) và sử ụ d ng cây RST (Rhetorical Structure Theory)

a Phương pháp xử ụ d ng xích từ ự v ng (lexcial chain Barzilay & -

Elhadad’97; Silber & McCoy’02):

• Ý tưởng chính c a phương pháp này là s dủ ử ụng xích từ ựng dựa trên vquan điểm nhìn nh n vậ ề văn b n: giữả a các câu có độ quan trọng cao có

s ựliên kết về ặt ngữ nghĩa giữa các từ ựng chính (ví dụ như danh từ m vchính trong chủ ngữ) trong câu Sự liên kết này tạo thành một hay nhiều chuỗi/xích liên kết tr i trong ả toàn văn bản

• Xích từ ự v ng - là một chuỗi từ trong văn bản, trong đó mỗi từ có mối liên hệ ớ v i một hay nhi u tề ừ trư c đó v mớ ề ặt ngữ nghĩa Xích t v ng ừ ự

đượ ử ục s d ng để:

o Xác định ng nghĩa theo ng c nh c a t (Word Sense ữ ữ ả ủ ừ

Disambiguation)

o Xác định c u trúc di n ngôn c a văn b n ấ ễ ủ ả

• Các quan hệ ữ ng nghĩa c a t v ng đư c xác đ nh trư c g m có: ủ ừ ự ợ ị ớ ồ

o Quan hệ đồ ng nghĩa (synonymy) Ví d : dog, puppy ụ

o Quan hệ khái quát (hypernymy) Ví d : dog, animal ụ

o Quan hệ ngư c nghĩa (antonymy) Ví d : dog, cat ợ ụ

Trang 27

o Quan hệ thành phần (meronymy) Ví dụ: dog, leg

• Mỗi xích từ ựng là một chuỗi các từ liên kết theo thứ ự xuất hiện của v t chúng trong văn bản M t xích t v ng đưộ ừ ự ợc dùng để ể bi u diễn (xác l p) ậ

một khái niệm xuất hiện trong văn bản Một danh từ N được đưa vào xích C nếu xác lập được mối quan hệ ng nghĩa gi N và các danh từ đã ữ ữa

có trong C

b Phương pháp RST dựa trên lý thuyết RST về ấu trúc diễn ngôn của văn cbản do Mann và Thompson đưa ra năm 1988 Theo đó các câu trong văn

bản được phân làm hai loại:

• Câu chính (Neucleus): là các câu chuyển tả ội dung thông tin chính của i n

o Quan hệchính ph - ụ(Neucleus Satellite) Hypotactic.- –

o Quan hệ chính chính (Neucleus Satellite) Paratactic.- - –

• Các mối quan h này đư c th hi n thông qua các ch s di n ngôn ệ ợ ể ệ ỉ ố ễ(discourse markers) Ví dụ trong đo n văn b n sau: ạ ả

o “John went to sleep because he was tired.”

• Quan hệ ữ gi a hai câu “John went to sleep” và “he was tired” là quan h ệchính phụ (Hypotactic) trong đó câu th hai gi i thích nguyên nhân xảy ứ ả

ra sự kiện trong câu thứ nhất M c dù các nhà nghiên cặ ứu RST chỉ ra rằng việc xác lập quan hệ ng nghĩa gi a các câu trong văn bảữ ữ n không

phụ thu c vào s có m t c a các chộ ự ặ ủ ỉ ấ d u ễn ngôn, ong trong thdi x ực tế các nghiên cứu ứng dụng RST đều phải giả đị nh sự có mặt này Ví dụ

Trang 28

trong ti ng Anh các chế ỉ ấ d u diễn ngôn được xác lập trư c như: ớ

“however”, “therefore”, “and”, “as a consequence” …

5.5 Tiếp cận dự a trên h c máy (machine learning) ọ

Phương pháp tiếp cận dựa trên ọc máy từ các ập ữ liệu Việc học có thể là

có giám sát (supervised), không giám sát (unsupervised) và n a ử giám sát (semisupervised) Trong phương pháp họ có giám sát, có mc ột bộ các tài liệu và tóm tắt được con ngư i t o [14]ờ ạ ra

-Học có giám sát có khả năng huấn luyện phân loại từng câu của các văn b n ả

vào hai lớ "tóm tắt" hoặc "không tóm tắt" với sự giúp đỡ ủa một tập ữ liệ huấn p c d u luyện D ệữ li u đư c dán nhãn hoặc chú thích cho mục đích họ Một vài phương ợ c.pháp học có giám sát đã đượ ử ục s d ng ]: [1

• Support Vector machine (SVM) (Fattah 2014),

• Naive Bayes classification (Fattah 2014),

• Mathematical Regression (Fattah and Ren 2009),

• Decision trees, Neural networks (Multilayer Perceptron) (Fattah and Ren 2009)

Mặt khác, hệ thống ọ không giám sát không yêu cầu bất kỳ ữ liệu huấn h c d luyện nào Nó tạo ra các b ản tóm tắ ằt b ng cách chỉ truy cập vào các văn bản cần

tóm tắ Nó ố ắng khám phá ra cấu trúc bí ẩn trong dữ liệu không nhãn Do đó, t c gchúng thích hợp cho bất kỳ ữ ệ d li u nào và không cần bất kỳ thay đổi nà ảo c H ệ

thống như vậy áp dụng các nguyên tắc heuristic (heuristic rule) để trích chọn câu phù h p và tợ ạo ra m t b n tóm tắt Mộ ả ột vài kỹ thuậ ọt h c không giám sát[14]:

• Clustering (Yang et al 2014)

• Hidden Markov Model

• Các gi i thu t di truyả ậ ền

K ỹ thuật học bán giám sát yêu cầu dán nhãn và dữ liệu không có nhãn cả hai

để ạ t o ra m t b n tóm t t ộ ả ắ [14]

Trang 29

Hì nh : Các nhóm phương pháp tóm tắ 6 t văn b ả n tự động.

Trang 30

CHƯƠNG 3 PHÂN TÍCH MA TRẬN CHO TÓM TẮ T VĂN B Ả N

1 Phân tích ma trận không âm (non-negative matrix factorization)

1.1 Cơ sở lý thuy t c NMF ế ủ a

Phân tích ma trận không âm (non negative matrix factorization) hay NMF là

-một trong nhóm các thuật toán phân tích đa bi n trong đế ại số tuyến tính Ma trận A

được phân tích thành 2 ma tr n Wậ và vớH i điều kiện là c 3 ma trả ận này đều ch ỉmang các thuộc tính không âm

Hì nh : Phân tích ma trận không âm 7

Ma trận A đư c phân tích thành 2 ma tr n Wợ ậ và : H

A = WH

Với A là một ma trận s ố chiều m × n, W là một ma trận s ố chiề m × k, và H là u một ma trận s ốchiều k × n Bài toán phân tích ma trận được đưa về một bài toán tối

ưu với việc cực tiểu hóa hàm lỗi:

• F là chuẩn Frobenius norm

• Hàm cực tiểu trên là hàm lồi với ma trận W hoặc ma trận H, nhưng không

phải cả hai, r t ấ khó khăn để có được cực trị toàn cục

• Các thành phần chưa biết: m × kcho ma trận W và k × n cho ma trận H

Trang 31

Phép nhân ma trận có thể được thực hiện như tính toán vectơ cột của là tổ hợp A

tuyến tính của các vectơ cột trong W sử dụng hệ số được cung cấp bởi các cột của

H M i ỗ cột của A có thể được tính như sau:

W và Hlà cần thiế ểt đ ạo ra một phân tích ma trận duy nhất t

Hì nh : Ví dụ ề phân tích ma trận không âm 8 v 1.2 Các t ật toán học cho NMF hu

b

Để ắ ầt đ u, chúng ta cần m t s c tính c a v n đ phân tích ma tr n không ộ ố đặ ủ ấ ề ậâm: Gradient c a hàm ủ f (W, H) bao gồm hai phầ đạn o hàm riêng [4]:

Trang 32

T ừ điều kiện Karush-Kuhn Tucker (KKT) tối ưu (W, H) là mộ- t điểm dừng khi và chỉ khi:

Tối ưu hóa phương thức trên cho phân tích ma trận không âm (NMF) cung cấp m t ộchu i ỗ { W k , H k } với k là s ố bước lặp

1.2.1 Thuật toán nhân (Multiplicative)

Một cách tiếp cận đượ ử ục s d ng nhi u nh t đ c c ti u hóa hàm lỗi là phương ề ấ ể ự ểthức cập nhật nhân đơn giản [2,3,4]

Khở ại t o ma tr n Wậ và với các phần t không âm.H ử

Vòng lặp được khở ại t o: v i k ớ = 1,2,…

Thuật toán cần phải được chỉnh sử để đảa m bảo điều kiện:

Thuật toán dừng khi s vòng lố ặp tối đa ã đưđ ợc th a mãn hoặc: ỏ

Điều này tương đương v i: ớ

Trang 33

thỏa mãn ột phần điều kiện KKT Thuậm t toán này đã được chứng minh là hàm lỗi

s ẽ không tăng sau mỗi bướ ặc l p:

u Những người nghiên cứ cho rằng giới hạn của dãy f(W k ; H k ) là một điểm cố

định (ví d ,m t đi m th a mãn các đi u ki n KKT) Tuy nhiên, Gonzales và Zhang ụ ộ ể ỏ ề ệ(2005) ch ra rỉ ằng tuyên bố này là sai Do đó, phương pháp c p nhậậ t nhân này vẫn còn thi u tính tế ối ưu hóa

c

Để có thuật toán tốt hơn, người ta phả ải đ m bảo rằng các thừa số ủa các ma trậ ền đ u dương Hơn nữa, nếu W k

ia = 0 ở ầ ặ l n l p th k, thì sau đó Wứ ia = 0 lặ ạ ởp l i

tất cả sau này vây, ch ng ta cần giữ cho WVì ú k > 0 và H k> 0

Nếu ma trận A có cột hoặc hàng bằng 0, vấn đề chia cho 0 sẽ ảy ra tại các x

bư c tính liên quan đớ ến hàng hay cột đó Một số nghiên c u có đ xuứ ề ất thêm một

s ố dương nhỏ ộ c ng thêm tại mẫu số để đả m bảo vi c phân tích ệ

1.2.2 Alterning non - negative least square

Trong thuật toán nhân, chúng ta đã nh c đắ ến việc hàm lỗi không tăng sau m i ỗ

bướ ặc l p Thuật toán trên là m t trư ng hợộ ờ p đặc bi t v i vi c c nh mộệ ớ ệ ố đị t ma tr n ậ

và cố ắ g ng tối ưu hóa hàm m c tiêu vụ ới ma trận còn lại Cách tiếp c n này là ậphương pháp "block coordinate descent" trong tối ưu hóa khi m t khộ ối đượ ốc t i ưu hóa trong khi các khối còn lại sẽ đư c c ợ ố định Đối với NMF, là trường hợp đơn

giản với hai ối kh W và Khi một khối được cố địH nh, bài toán sẽ ở thành một bài trtoán bình phương tối thi u không âm Thu t toán ALS [4]: ế ậ

• Khở ại t o W và mang các th a s H ừ ố không âm

• Mỗi bước lặp, W và H được cập nhậ thỏa m n điều kiện: t ã

Tiêu đề	Tóm Tắt Văn Bản Tự Động Dựa Trên Các Kỹ Thuật Phân Tích Ma Trận
Tác giả	Trần Việt Cường
Người hướng dẫn	PGS.TS Lê Thanh Hương
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	66
Dung lượng	2,71 MB