Giớithiệuvềtómtắtvănbản
Cácgiaiđoạnvà các thamsốcủa hệ thốngtómtắtvănbản
TheoquanđiểmcủacácnhànghiêncứuTTVBthìbảntómtắt làmộtbảnrútgọncủavănbảngốcthôngquaviệclựachọnvàtổngquáthóacáckháiniệmqu an trọng[34],[48],[35].Hệ thống tóm tắt vănbản tự động được chia thành 3giaiđoạnchính:
Phân tích (Analysisor Interpretation): Phân tích văn bản đầu vào để đưa ranhững mô tả bao gồm các thông tin dùng đế tìm kiếm, đánh giá các đơn vịngữliệuq u a n trọngcũngnhưcácthamsốđầuvàochoviệctómtắt.
Biếnđổ i (Transformation):Lựachọncácthông tintríchchọnđược,biếnđổiđểgiảnlượcvàthốngnhất,kếtquảlàcácđơnvịngữliệuđã đượctómtắt.
Tổng hợp (Synthesis or Realization): Từ các đơn vị ngữ liệu đã tóm tắt,tạovănbảnmới chứanhữngđiểmchính,quantrọngcủavănbảngốc.
Các giaiđoạn của quá trình tóm tắt văn bản chịu ảnh hưởng bởi các thamsố khác nhau như các thamsố đầu vào, đầu ra và các tham số mục đích[37],[35].
Các tham số đầu vào:Các đặc trưng của văn bản đầu vào có thể ảnhhưởngtới kết quảtómtắt theocácyếutốsau:
Cấutrúccủavănbản:Cấutrúclàtổchứccủamộtvănb ả n chotrước như tiêu đề, nội dung, đoạn (paragraph),… Cấu trúc của một văn bảncóthểcungcấprấtnhiềuthôngtinkhitạobảntómtắt.
Kích thước: Kích thước là độ dài của văn bản cho trước tính theo đơnvị thuật ngữ, ví dụ như tài liệu nghiên cứu dài thường đề cập nhiềuchủđề ít thuật ngữ lặp lại trong khi văn bản ngắn chỉ trình bày một chủ đềnhưngchứanhiềuthuậtngữlặplạihơn.
Ngôn ngữ: Ngôn ngữ được sử dụng trong văn bản đầu vào có thể ảnhhưởngtớikết quảtómtắt.Cácthuật toántómtắt cóthểcósửdụnghoặckhôngsửdụngthôngtinngônngữ.
Lĩnh vực: Văn bản đầu vào thường liên quan tới một lĩnh vực cụ thểnào đó Do đó, ngườita có thể sử dụng các tri thức (như kho ngữ liệu)liênq u a n đếnlĩnhvựcđóđểtạorabảntómtắt tốthơn.
Đơn vị: Nếu một bản tóm tắt được tạo thànhtừ một văn bản riêng lẻ thìhệ thống tóm tắt đó được gọi là hệ thống tóm tắt đơn văn bản (single-document) Nếu một bản tóm tắt được tạo thành từ nhiều văn bản liênquantớimộtchủđềriênglẻthì hệthốngtómtắt đógọi làhệthốngtómtắtđavănbản(multi-document).
Các tham số mục đích:Các hệ thống tóm tắt tự động có thể tạo ra cácbảntómtắttổng quátcủamộtvănbảnchotrước,haycóthểtạoracácbảntómtắt cho một tác vụ được định nghĩa trước Các yếu tố sau đây có liên quan tớicácthamsốmụcđíchcủacáchệthốngtómtắt.
Tình huống: Tình huống liên quan tới ngữ cảnh của bản tóm tắt. Môitrường mà ta sẽ sử dụng bản tóm tắt, giả sử như người ta sử dụng bảntómtắtkhinàovànhằmmụcđíchgì,cóthểbiếttrướchoặckhông.
Chủ đề: Nếu ta biết trước mốiquan tâm của người đọc thì ta có thể tạoracácbảntómtắt cóliênquantớichủđềđó.
Mục đích sử dụng: Tham số này quan tâm tới mục đích tạo ra bản tómtắt nhưđểxemquatrướckhiđọctoànbộvănbản,
Tài nguyên: Bảntóm tắt của một văn bản có thể liên quan tới tất cả cáckhái niệm xuất hiện trong văn bản, hoặc có thể liên quan tới các kháiniệm đã chọn trước. Thường thì các hệ thống tóm tắt tổng quát có thểnắm bắt tất cả các kháiniệm trong văn bản Trong các hệ thống tóm tắthướng người dùng như các hệ thống tóm tắt dựa trên truy vấn chẳnghạn,thìbảntómtắtcóthểchứacáckháiniệmliênquantớinhucầucủangười dùng.
Định dạng: Bản tóm tắt khi tạo ra có thể được tổ chứcthành các trường(như sửdụngcácheadingchẳnghạn)hoặccóthểđượctổchứcnhưmộtvănbảnkhôngc ấutrúc(nhưphầntómtắt củamột bàibáo).
Vănphong (style):Một bảntóm tắtcó thểchứanhiềuthôngtin(informative), mang tính ngụ ý (indicative), kết tụ (aggregative) hoặcmang tính chất bình phẩm (critical) Các bản tóm tắt chứa nhiềuthôngtin cho ta thông tin về các khái niệm được nhắc đến trong văn bản đầuvào.Các bảntómtắtmangtínhngụýchỉrõvănbảnđầuvàonóivềcáigì Các bản tóm tắt kết tụ cho ta thông tin bổ sung không có trong vănbản đầu vào Các bản tóm tắt mang tính bình phẩm xem xét lại tínhđúngvàsai củavănbảnđầuvào.
Phânloạicáchệthốngtómtắtvănbản
Như đã trìnhbày ở phần trên, các tham số khác nhau đều ảnh hưởng đếnkết quả tóm tắt văn bản Dovậy chúng ta có thể phân loại các hệ thống tóm tắtvănbảntheocáchướngsau:
- Tóm tắt trích rút (Extract): là một bản tóm tắt bao gồm các đơn vị vănbảnquantrọngnhư câu,đoạn đượctríchrúttừ vănbảngốc[32].
- Tómtắt tómlược(Abstract):tươngtựnhưcáchconngười thựchiệntómtắt,nghĩalàđầutiênphảihiểucáckháiniệmchínhcủamộtvănbản,sauđótạ o rabảntómtắt cóchứacácnộidungkhôngđượcthểhiệntrongvănbản[23].
- Tóm tắt chỉ thị (Indicative): tóm tắt nhằm cung cấpmột chức năng thamkhảođểchọntàiliệuđọcchitiếthơn(ứngdụngtrongtómtắtkếtquảtìmkiếm).Vídụ:
- Tóm tắt đánh giá (Evaluation):tóm tắt nhằm mục đích đánh giá vấn đềchínhcủavănbảngốctheoquanđiểmcủangườiđánhgiá.
- Tóm tắt hướng truy vấn (Query-based): tóm tắt nhằm mục đích đưa rakết quả dựa vào câu truy vấn của người Tóm tắt này thường được sử dụngtrongquátrìnhtìmkiếmthôngtin(informationr e t r e i v a l )
- Tóm tắt trên một miềndữ liệu (Domain): tóm tắt nhắm vào một miền nộidungnàođó,nhưtintứckhủngbố,tintứctàichính…
- Tómtắttrên mộtthểloại(Genre):tómtắtnhắmvàomộtthểloạivănbản nàođó,nhưbáochí,email,web,bàibáo…
- Tóm tắt độc lập (Independent): tóm tắtcho nhiều thể loại và nhiều miềndữliệu.
- Tóm tắt tổng quan (overview): tóm tắtmiêu tả tổng quan tất cả các nộidungnổibật trongvănbảnnguồn.
- Tóm tắt tập trung sự kiện(event): tóm tắt miêu tả một sự kiện cụ thể nàođótrongvănbảnnguồn.
Theosốlượng: Đánh giá dựa trên tác vụ Phân loại văn bản Phục hồi thông tin Trả lời câu hỏi Đánh giá dựa trên nội dung Cosine similarity Unit overlap ROUGE Đánh giá đồng chọn Precision Recall
F-score Đánh giá thủ công
Ngữ pháp Không dư thừa
Tham chiếu chủ đề Sự gắn kết
Các phương pháp đánh giá
- Tóm tắt đơn văn bản: Nếu một bản tóm tắt được tạo thành từ một vănbảnriênglẻthìhệthốngtómtắtđóđượcgọilàhệthốngtómtắtđơnvănbản.
- Tóm tắt đa văn bản: Nếu một bản tóm tắt được tạo thành từ nhiều vănbản liên quan tới một chủ đề riêng lẻ thì hệ thống tóm tắt đó gọi là hệ thốngtómtắt đavănbản.
- Tóm tắt đơn ngôn ngữ: Văn bản nguồn chỉ có một loại ngôn ngữ.
- Tómtắtđ a ngônngữ: Mỗ i v ă n bảnnguồnchỉ cóm ộ t l o ạ i ngônngữ.
Nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ Tùy vào vănbảnnguồnhoặcthamsốmàhệthốngtómtắt trênmộtngônngữđượcchọn.
- Tóm tắt xuyên ngôn ngữ (cross-language): Trong văn bản nguồn chứahai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữliệu mà nhận dạng và tóm tắt cho phù hợp Đây là loại tóm tắt phức tạp nhấttrongbaloạiphânchiatheosốlượngngônngữ.
Cácphươngphápđánhgiátómtắtvănbản
Đánhgiáthủcông
Nhà ngôn ngữ học trực tiếp đánh giá bản tóm tắt dựa vào chất lượng bảnvăn, nghĩa là sử dụng các tham số ngữ pháp, không dư thừa, phân lớp thamchiếu và sự gắn kết để cho điểm bản tóm tắt do hệ thống tạo ra Cách đánh giálà xem xét lỗi ngữ pháp trong bản văn như sai từ, lỗi dấu câu Bản tóm tắt khihệthốngtạorakhôngđượcchứathôngtindưthừavàcácthamchiếutrongbảntóm tắtphải được liên kết rõ ràng với chủ đề của văn bản gốc Độ gắn kết củavăn bản cũng là một tiêu chí quan trọng đểđánh giá bản tóm tắt hệ thống.Tuynhiên, phương phápnày có một số hạn chế như việc chấm điểm do con ngườithực hiện khôngổn định và là phương pháp đánh giá tiêu tốn thời gian và tiềnbạc[23].
Đánhgiáđồngchọn
Phương pháp đánh giá dựa trên đồng chọn chỉ có thể sử dụng với các bảntóm tắt theo hướng trích rút câu Các câu được trích chọn kết nối với nhau, tạonên văn bản tóm tắt, không cần hiệu chỉnh thêm Phương pháp này đánh giágiữa bản tóm tắt do hệ thống trích rút với bản tóm tắt do con người trích rút sửdụngđộđochínhxác(precision),triệuhồi(recall),cácgiátrịf- measure. Độ đo chính xác (precision)[15]:là tỉ số giữa số lượng các câu được cảhệ thốngvàconngườitríchrúttrênsốcáccâuđượchệthốngtríchrút.
(1.1) trongđó:|𝑆𝑀|làsốlượng câu của bản tómtắtdohệthống tríchrút;
|𝑆𝐻∩𝑆𝑀|làsốlượngnhữngcâuđượccả hệ thốngvà conngườitríchrút. Độ đo triệu hồi (recall)[15]:là tỉ số giữa số lượng các câu được trích rútbởi hệ thống trùng với số các câu mà con người trích rút trên số các câu chỉđượclựachọnbởiconngười.
(1.2) trongđó:|𝑆𝑀|làsốlượngcâu củabản tómtắtdohệthốngtrích rút;
|𝑆𝐻∩𝑆𝑀|làsốlượngnhữngcâuđượccả hệ thốngvà conngườitríchrút. Độ đo f-score:là một độ đo kết hợp hai đại lượng precision và recall.Theo truyền thốngthì f-score được định nghĩa là trung bình hàm điều hòa củarecision và recall.Các giá trị f-score nhận giá trị trong đoạn [0, 1], trong đó giátrị tốt nhất là1.
Trongtómtắtvănbản,ngườitacũngthườngdùngcáctrọngsốkhácnhaucho precisionvà recall trong khi tính f-score Giá trị trọng số β là một số thựckhông âm Trọng số lớn hơn 1 nghĩa là precision quan trọng hơn, còn trọng sốnhỏhơn1nghĩalàrecallquantrọnghơn.
(𝛽 2 +1)×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑒𝑐𝑎𝑙𝑙 𝐹−𝑠𝑐𝑜𝑟𝑒𝛽 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 +𝑅𝑒𝑐𝑎𝑙𝑙 (1.4) Các giá trị precision và recall có thể không phù hợp trong một số trườnghợpcủatómtắt vănbản.Ví dụ,từmộtvănbảncó5câu(1,2,3,4,5),tatạorahai bản tóm tắt khác nhau Bản tóm tắt thứ nhất chứa các câu (1, 2, 5) và bảnkiachứacáccâu(1,4,5).Bảntómtắtlýtưởngchứacáccâu(1,2,5).Khiđánhgiá bằng precision và recall, ta có thể quyết định bản tóm tắt đầu tiên tốt hơnbảnthứhai.Nhưngquátrìnhtómtắt cũngcótínhchủquan,nêncóthểbảntómtắtthứhai tốt nhưbảntómtắtđầu. Độ đo Relative utilityđược giới thiệu bởi Radev, Jing và
Budzikowskavào năm 2000[64]để khắc phục vấn đề của phương pháp đánh giá dựa trênprecision và recall đã nêu ở trên Với phương pháp này, bản tóm tắt lý tưởngđượcbiểudiễnvớicáccâugốcvàcácgiátrịRelativeutilitycủachúng.Cácgiá trị Relative utility do con người phán đoán và được dùng để cungcấp thông tinvề tầm quan trọng của một câu nào đó trong văn bản đã cho Ví dụ, một bảntóm tắt lý tưởng cho một văn bản gồm 5 câu được cho trước là (1/5, 2/3, 3/2,4/3, 5/4) Các giá trị Relative utility bao gồm: câu đầu tiên là quan trọng nhất,câu thứ 3 ít quan trọng nhất, và tầm quan trọng của câu thứ 2 và thứ 4 là nhưnhau Do vậykhi hai bản tóm tắt khác nhau cùng chọn (1, 2, 5) và (1, 4, 5) thìthật ra sẽ có chỉ số đánh giá bằng nhau Cũng như vậy cả hai đều có các chỉ sốcaonhấtcóthểnhậnđược,thìnghĩalàhaibảntómtắt đềulàtốiưu.
Đánhgiá dựa trên nộidung
Trong phương pháp đánh giá dựa trên nội dung, bản tóm tắt của hệ thốngđược so sánh với bản tóm tắt lý tưởng bằng cách sử dụng đơn vị so sánh là từvựng Nếu dùng phương pháp này, ta có thể so sánh các bản tóm tắt được tríchrút với các bản tóm tắt lý tưởng ngay cả khi chúng không trùng nhaucâu nào.Với các cách đánh giá dựa trên nội dung, ta sử dụng các độ đo như tính tươngtự cosine, chuỗi con chung dài nhất LCS và các chỉ số ROUGE Phương phápdựatrênnộidungđượcđánhgiálàtốthơnphươngphápdựatrênđồngchọnvìnócóth ểđánhgiá2câukhácnhaunhưngcócùngnộidungthôngtin. Độ tương tự cosine[45]:Trongxử lý ngôn ngữ tự nhiên, công thức tínhtoáncosineđượcsửdụngđểđomứcđộtươngtựgiữahaicâuhoặchai vănbản.Côngthứ tínhđộtươngtự cosineđượcmôtảnhư sau:
PhươngphápđánhgiádựatrênLCS[65]:LCStìmrađộdàicủachuỗicon chung dài nhất giữa văn bảnXvàY, độ dài của chuỗi con chung dài nhấtcànglớnthì2vănbảnX,Ycànggiốngnhau.
𝑒𝑑𝑖𝑡 𝑑𝑖 (𝑋, 𝑌)là khoảngcách biên tập giữaXvàY(là số lượng tối thiểu của việcxóavàchènthêmcầnthiếtđểbiếnđổiXthànhY).
Phương pháp đánh giá BLEU[38]:Ý tưởng chính của BLEU là đánhgiá độ tương tự giữa một bản tóm tắt hệ thống và tập các bản tóm tắt lý tưởngdựa vào trung bình có trọng số của các n-gram (một n-gram là một dãy gồmnký tự (hoặc âm tiết, từ) liên tiếp nhau trong văn bản) trong bảntóm tắt hệ thốngvàtrongtậpcácbảntómtắt lýtưởng.Độđođượctínhtheocôngthức(1.7): trongđó:Count clip (n-gram)làsốn-gramxuấthiệnlớnnhấttrongbảntómtắthệthống và bản tóm tắt lý tưởng;Count(n-gram) là số n-gram trong bản tóm tắthệthống.
Các phương pháp đánh giá tóm tắt truyền thống thường gắn với đánh giáthủcôngdochuyêngiaconngười thựchiệnthôngquamộtsốđộđokhácnhau,chẳng hạn: mức độ súc tích, mức độ liền mạch, ngữ pháp, mức độ dễ đọc vànội dung Tuy nhiên, phương pháp đánh giá kết quả tóm tắt thủ công mất quánhiều công sức và chi phí.Vì thế, đánh giá tóm tắt tự động là một yêu cầu cấpthiết Lin và Hovy đề xuất một phương pháp đánh giá mới gọi là ROUGE(Recall-OrientedUnderstudyforGistingEvaluation)[44],
Count clip ( n-gram) p C Candidates n n-gram C
(1.7) quả tóm tắt tự động cho văn bản tiếng Anh Một cách hình thức, ROUGE-N làmột độ đo đối với các n-gram trong văn bản tóm tắt hệ thống và trong tập cácvănbảntómtắtlýtưởng,đượctínhtheocôngthức(1.8): trong đó:Slà bản tóm tắt hệ thống;RSSlà tập văn bản tóm tắt lý tưởng;Count match (n-gram)là số lượng n-gram đồng xuất hiện lớnnhất giữa văn bảntómtắthệthốngvàtậpvănbảntómtắt lýtưởng;Count(n-gram)làsốlượngn- gramtrongvănbảntómtắtlýtưởng. Đối với bài toán tóm tắt đơn văn bản tiếng Việt, luận án sử dụng độ đoROUGE-N dựa trên số n-gram từ vựng để đánh giá (mô tả chi tiết ở phần thửnghiệmc ủ a từngchương).
Đánhgiádựatrêntácvụ
Phương pháp cuối cùng là đánh giá dựa trên tác vụ Trong phương phápđánhgiánày,cácbảntómtắt đượctạoravới mụcđíchlàsosánhdựatrênhiệunăng của tác vụ đã cho của chúng Đánh giá dựa trên tác vụ có thể dùng cácphương pháp khác nhau để đánh giá hiệu năng của hệ thống tóm tắt Một sốphương pháp trong các phương pháp này là phục hồi thông tin, trả lời câu hỏivàcácphươngphápphâncụmvănbản. Hiệu năng của hệ thống tóm tắt có thể được đo bằng cách sử dụng cácphương pháp phục hồi thông tin Ta so sánh hiệunăng của phương pháp phụchồithôngtinsửdụngtoànbộvănbảnvàhiệunăngcủaphươngphápdùngbảntómtắ tđượctríchrút.Nếuhiệunăngcủaphươngphápphụchồithôngtinkhôngthayđổinhiều,tak ếtluậnhệthốngtómtắtđãthànhcông[65].
Tương tự với phương pháp phục hồi thông tin, các phương pháp trả lờicâu hỏi có thể sử dụng cho đánh giá tóm tắt Ở đây, nếu chỉ đọc bản văn đầuvàohaychỉđọcbảntómtắt,ócphánđoáncủaconngườisẽtrảlờimộtsốcâu
Phân loại văn bản cũng được sử dụng để đánh giá tóm tắt Với mục đíchnày, ta sử dụng các kho ngữ liệu văn bảnđã được gán nhãn Phân loại do conngười làm hoặc phânloại tự động được thực hiện bằng cách sử dụng văn bảngốc,cácbảntómtắttríchrútvà cácbảntómtắtđượctạongẫunhiên.T r o n g khicác kết quả có các văn bản gốc đặt được cận trên, thì các bản tóm tắt tạo bởicách chọn các câu ngẫu nhiên đặt cận dưới Sử dụng các giá trị precision vàrecall,c á c bảntómtắttríchrútcóthểsosánhvớicáckếtquảcủaphươngphápsửdụngcá cvănbảngốchoặccácbảntómtắtđượctạongẫunhiên.
Cáchướngtiếpcậntómtắtvănbảnngoàinước
Cácphươngpháptómtắt tríchrút
Các phương pháp tóm tắt trích rút cố gắng tìm ra các đơn vị quan trọngnhấtcủamộtvănbảnđầuvàovàchọncáccâucóliênquantớicácđơnvịquantrọngnà yđểtạorabảntómtắt. a Cácphươngpháptiênphong
Nghiên cứu đầu tiên về tóm tắt văn bản vào những năm 50 của thế kỷ 20là của Luhn[47]được dựa trên tần suất các từtrong văn bản với quan điểm từxuất hiện thường xuyên là từ quan trọngnhất Câu chứa nhiều từ thường xuyênquantrọnghơncáccâukhácvàđượcchọntrongbảntómtắt.
Sau nghiên cứu của Luhn, các nhà nghiên cứu đề xuất rất nhiều phươngpháp khác dựa trên các đặc trưng đơn giản khác như các từ khóa/cụm từ khóa[75],[29];vịtrícâu[17],[29],[19]. b Cácphươngphápthốngkê
Các phương pháp tóm tắt nổi tiếng nhất dùng thống kê là dựa trên kháiniệmtươngquanvàphânloạiBayes.
Dự án SUMMARIST[34]là một dự án tóm tắt văn bản nổi tiếng dùngphương pháp thống kê Trong dự án này thông tin về khái niệm tương quantríchrúttừ cáctừ điểnvàWordNetđượcdùngcùngvới cácphươngphápxửlý ngôn ngữ tự nhiên Trong phương pháp này, một từ được cho là có xuất hiệnkhi các từ khác có liên quan cũng xuất hiện Ví dụ số các lầnxuất hiện của từ“automobile”đượctănglênnếutađãthấytừ“car”.
Một ứng dụng tóm tắtkhác dựa trên thống kê là của Kupiec[39], trong đóphân loại Bayes được dùng để trích rút câu Trong phương pháp này tác giảdùng một kho ngữliệu các bản văn và các bản tóm tắt để huấn luyện hệ thống.Cácđặctrưngđượcsửdụngtronghệ thốngnàylàtầnsuấtxuấthiệncáctừ,cáctừviếtho a, độdàicâu,vịtrítrongcácđoạnvàc ấutrúccụmtừ. c Cácphươngphápdựatrên kếtnốibảnvăn
Phương pháp này liên quan tới các bài toán tham chiếu tới các phần đãđược đề cập của một văn bản Các phương pháp sử dụng chuỗi từ vựng và LýthuyếtcấutrúctutừRST(RhetoricalStructureTheory).
Phương pháp chuỗi từ vựng là một thuật toán nổi tiếng sử dụng kết nốibản văn Trong phương pháp này, mối tương quan ngữ nghĩa của các từ (tínhđồng nghĩa, tính trái nghĩa,…) được thực hiện bằng cách sử dụng các từ điểnvà WordNet Các chuỗi từ vựng có mối tương quan ngữ nghĩa được xây dựngđượcsửdụng để tríchrútcáccâuquantrọngtrongmộtvănbản[18],[30].
Các phương pháp dựa trên RST để tổ chức các đơn vị bản văn thành cấutrúcdạngcây.Sauđócấutrúcnàyđượcsửdụngđểthựchiệntómtắt[59],[50]. d Cácphươngphápdựatrênđồthị
Phương pháp đồ thị được xây dựng dựa trên các thuật toán HITS[40]vàGoogle’s PageRank[20].Các thuật toán này sau đó được dùng trong tóm tắtvănbản[36].
Trongbàitoántómtắtvănbảndựavàođồthị,cácđỉnhbiểudiễncáccâu,còn các cạnh biểu diễn độ tương tự giữa các câu Các giá trị đo độ tương tựđượctínhtoánbằng cáchsửdụng độtương tựgiữacáctừhoặccáccụmtừ.Cáccâucóđộtươngtựcao nhấtvớicáccâukhácđượcchọnrachobảntómtắtđầuratheotỷlệtómtắt.Điểnhìnhchoh ướngtiếpcậntómtắtvănbảndựatrênđồ
Văn bản gốc vectors Tóm tắt lý tưởng
Kho ngữ liệu thử nghiệm tóm tắt tập luật
Mô hình tóm tắt Tập đặc trưng văn bản
Thuật toán học máy nhãn vector Tập đặc trưng văn bản thịlàhaiphươngphápTextRank[54]vàClusterLexRank[62]. e Cácphươngphápdựavàohọcmáy
Các phương pháp dựa vào học máy cũng được sử dụng cho tóm tắt vănbản với sự hỗ trợ của các tiến bộ trong học máy và xử lý ngôn ngữ tự nhiên.Các phương pháp đầu tiên sử dụng giả thiết các đặc trưng độc lập với nhau.Cácphươngpháppháttriểnsauđólạisửdụnggiảthiếtcácđặctrưngphụthuộclẫnn hau.
Hình1-5Frameworkchungcho hệthống TTVB bằngphươngp h á p h ọ c máy.
Cácthuậttốntĩmtắtdựatrênhọcmáysửdụngcáckỹthuật nhưNạve- Bayes[39],[21],mô hình Markov ẩn HMM[22],các mô hình logarit tuyến tính(Log-linear Models)[60],mạng nơ-ron[71]và giải thuật phỏng sinh học như[25], [31],[42],[51],[67],[72]. f Cácphươngphápđạisố
Trong những năm gần đây, các phương pháp đại số như phân tích ngữnghĩatiềmẩnLSA(LatentSemanticAnalysis)[43],phépnhântửhóamatrận không âm NMF (Non-negativeMatrix Factorization)[46]và khai triển ma trậnnửa rời rạc SDD (Semi-discreteMatrix Decomposition) được sử dụng cho tómtắt văn bản Trong đó, thuật toán LSA nổi tiếng nhất, thuật toán này dựa trênphương pháp phân tích giá trị đơn SVD(Singular Value Decomposition)
[16].TrongthuậttoánLSA,độtươngtựgiữacáccâuvàđộtươngtựgiữacáctừđềuđược tríchrút Không những ứng dụng trong tóm tắt văn bản, thuật toánLSAcònđượcdùngchophâncụmvănbảnvàlọcthôngtin.
Cácphươngpháptómtắttheohướngtómlược
Các phương pháp tóm tắt tóm lược cố gắng để hiểu đầy đủ các văn bảncần tóm tắt, ngay cả các văn bản có chủ đề không rõ ràng Sau đó, tạo ra cáccâu mới cho bản tóm tắt theo tỉ lệ của người dùng yêu cầu Phương pháp nàyrất giống với cách tóm tắt của con người Nhưng vềmặt thực tế, để đạt đượcbiểu diễn của con người rất khó Do đó, các nghiên cứu đã dựa vào các đơn vịđặctrưngnhưtừ,cụmtừ,thànhphầncâuquantrọngđểsinhracáccâumớichotómtắt vănbản.
Theo hướng này có: phương pháp dựa vào các từ hay cụm từ quan trọngđể tạo ra các câu cho bản tóm tắt[24],[66];phương pháp dựa trên kỹ thuật côđọng văn bản[78]; phương pháp dựatrên kỹ thuật rút gọn văn bản, nối hai haynhiều câu thành một câu [63]; phương pháp dựa trên kỹ thuật rút gọn câu đểtạorabảntómtắt[41].
KhongữliệutiêuchuẩnchobàitoántómtắtvănbảntiếngAnh23
Vấnđềcủalĩnhvựctómtắt vănbảntựđộnglàlàmsaođểđánhgiáchínhxác tính chính xác và khách quan các phương pháp tóm tắt văn bản được đềxuất.Đểđánhgiáchínhxácđòihỏiphảicómộtkhongữliệutómtắttiêuchuẩn phù hợp.Đối với tiếng Anh, người ta đã xây dựng được một số kho ngữ liệutómtắttiêuchuẩlớnnhưBBC,CNN,TREC,CAST,DUC[74].Trongcáckhongữ liệu đó, DUC được đánhgiá là kho ngữ liệu lớn, luôn được cập nhật và đãđượcsử dụngrộngrãi.
Từ năm 2001, Viện tiêu chuẩn và côngnghệ NIST đã giới thiệu 7 bộ dữliệu liên quan đến tổng kết văn bản tự động (DUC2001-DUC2007).Các bộsốliệu nàyđược giới thiệu với mục đích đánh giá các phương pháp tóm tắt vănbản tự động Mỗi bộ số liệu giới thiệu được phục vụ cho một mục đích cụ thểkhácnhau.DUC2001đếnDUC2004phụcvụchođánhgiábàitoántómtắtđơnvăn bản DUC2005 đến DUC2007 phục vụ cho đánh giá bài toán tóm tắt đavănbản.
DUC2007chứa45chủđề,mỗichủđề25văn bản.Mỗivănbảnđược10thành viên của NIST tóm tắt tómlược bằng tay và kết quả tóm tắt sẽ được lựachọnngẫu nhiên Hiện nay đã có 32 hệ thống tóm tắt tham gia tóm tắt văn bảntự động cho mỗi chủ đề và sử dụng độ đo ROUGE (phép đo giữa bản tóm tắtcủa hệ thống với bản tóm tắt con người) để đánh giá, xếphạng hiệu quả từngphươngpháp.
Hiệntrạngnghiêncứu tómtắtvăn bản tiếngViệt
ĐặcđiểmtiếngViệt
Tiếng Việt là ngôn ngữ khôngbiến hình từ và âm tiết tính, tức là mỗi mộttiếng (âmtiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết[1].Hai đặc trưng này chi phối toàn bộ tổ chức bên trong của hệ thống ngônngữ Việt, do vậy trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt nói chungvà bài toán tóm tắt tiếng Việt nói riêng chúng ta cần chú ý tới khi xử lý trênmáytính.TiếngViệtcónhữngđặcđiểmcơbảnnhưsau: Đặcđiểm cấutạo: Đơn vị cơ sở để cấu tạo từtiếng Việt là các tiếng hay theo ngữ âm học làcác âm tiết Từ âm tiết,người ta tạo ra các đơn vị từ vựng khác như từ, cụm từ,câu để định danh sự vật, hiện tượng,… chủ yếu nhờ phương thức ghép vàphương thức láy[1] Theo thống kê, trong tiếng Việt có khoảng hơn 6700 âmtiết[4]vàtrongvốntừtiếngViệt80%làcáctừgồm2âmtiếttrởlên.
Vídụ:Từ“tin”làmột từ gồmmộtâmtiết.
Cụmtừ“côngnghệthôngtin”gồm2 từhay 4 âmtiết.
Do đặc điểm như vậy, khoảng trắng (space) không được sử dụng để phânbiệt ranh giới từ nhưcác ngôn ngữ khác (Anh, Pháp, Nga,…) Vì vậy, đối vớitiếng Việt việc xác định ranh giới từ là một thách thức, đặc biệt là xử lý nhậpnhằngvàtừmới.
Vídụ:Hômnay,chúngtôiđóntiếp tân giámđốc nhập nhằng tách từ có thể xảy raở ‘đón tiếp’ và ‘tiếp tân’ Đây là mộttrongnhữngnhậpnhằngthườnggặptrongbàitoántáchtừtiếngViệt.
Vídụ:Ônggià đinhanhquá nhập nhằng về mặt danh từ ‘ông già’ hay động từ ‘già’,như vậy cần phảixét mặtngữcảnhtrongvănbảnđểtáchtừ chođúng.
Theo quan điểm truyềnthống, từ tiếng Việt được chia ra làm hai loại thựctừ và hư từ Trong đó, thực từ có ý nghĩa chân thực, còn hư từ thì không có ýnghĩatừvựngchânthậtmàchỉ làmcôngcụngữ phápđểbiểuhiệncácquanhệngữ pháp khác nhau Tuy nhiên, trong nhiều trường hợp nhiều hư từ vốn bắtnguồntừthựctừvàcùngtồntạisonghànhvớithựctừấy[1].Điềunàygâykhókhăntron gviệcnhậndiệnhưtừ.Xemhaicâuvídụsau:
Từ"cho"trongcâuthứnhấtlàhưtừ,trongcâuthứ2làthựctừ.
Trong bài toán tóm tắt văn bản tiếng Việt,việc nhận biết thực từ và hư từlà bước rất quan trọng bởi vì các phương pháp tóm tắt đều chỉ thực hiện tínhtoándựatrênthựctừcòncáchư từbịloạibỏ.
Thực từ Lớp trung gian Hư từ
“Những từ đồng nghĩa là những từ có nghĩa giống nhau Đó là nhiều từkhác nhau cùng chỉ một sự vật, một đặc tính, một hành động nào đó Đó lànhữngtênkhác nhaucủamộthiệntượng”[11].
Với bài toán tóm tắt văn bản thì từ đồng nghĩa cũng có một ý nghĩa kháquantrọngbởitrongcáccâu,đoạnvăntrongvănbảncócáctừđồngnghĩahoặcgầnnghĩa nhau và việc sử dụng từ đồng nghĩa sẽ làm nâng cao tính chính xáckhisosánhvềđộtươngđồngngữnghĩagiữacácđơnvịvănbản. Đặcđiểmchínhtả:
- Các tiếngđồng âm: như kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như:lýluận,l í luận,kĩthuật,kỹthuật…
- Vịtrídấuthanh:t h e o quyđịnhđánhdấutiếngV i ệ t , d ấ u đượcđặttrên nguyên âm có ưu tiên cao nhất Tuy nhiên, khi viết văn bản nhiều bộ gõ vănbản không tuân thủ theo đúng nguyên tắc trên nên xảy ra hiện tượng dấu đượcđặtởcácvịtríkhácnhau,chẳnghạn:toán,tóan,thuý,thúy…
- Phiên âm tiếng nước ngoài: hiện nay, vẫn còn nhiều tranh cãi giữa việcphiên âm tiếng nước ngoài thành tiếng Việt (Việt hoá), nên tồn tại nhiều cáchviết(giữnguyêngốc tiếngnước ngoài,phiênâmra tiếngViệt),ví dụ:Singapore/Xin−ga−po.
- Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt đượcgiữanốitênriênghaychúthích.
- Kí tự ngắt câu: các kí tự đặc biệt như ““, “;”, “!”, “?”, “…” ngăn cáchgiữacáccâuhoặccácvếcâutrongcâughép.
Hiện nay có nhiều cách mã hoá các kí tự tiếng Việt khácnhau, dẫn tới cónhiềubảngmãkhácnhauđượcsửdụng.Theothốngkê,cótớitrên40bảngmãtiếng Việt khác nhau được sử dụng như loại mã 1 byte TCVN, VNI… và loạimã 2byte Unicode Do đó, việc khai thác tài liệu cũng như xử lý dữ liệu rấtphứctạp.Dovậy,trongcácbàitoánxửlýngônngữtiếngViệt,cácvănbảncầnphảithốn gnhấtvềmột bảngmãchuẩnUnicode.
HiệntrạngnghiêncứuxửlýngônngữtựnhiêntiếngViệt
Hiệnnay,lĩnhvực xửlýngônngữtiếngViệtđãnhậnđượcnhiềusựquantâm của các nhà nghiên cứu.Tuy nhiên, các nghiên cứu chủ yếu đang tập trungvào những vấn đề cơ bản của tiếng Việt như: Xây dựng kho ngữ liệu và côngcụ tách từ tiếngViệt, xây dựng kho ngữ liệu và công cụ gán nhãn tiếng Việt,…Bắt đầu từ năm 2006, nhánh đề tài
“Xử lí văn bản” là một phần của đề tàiKC01.01/06- 10“Nghiên cứupháttriểnmộtsốsảnphẩmthiếtyếuvềxửlítiếngnói và văn bản tiếng Việt”giai đoạn 1 đã được triển khai[79] Cho đến nay,nhánh đề tài này đã thu được một số kết quả bao gồm kho ngữ liệu: từ điển,kho ngữ liệu tách từ, kho ngữ liệu gán nhãn, songngữ Anh – Việt; và các bộcôngcụphụcvụchoxửlývănbản:côngcụtáchtừ,gánnhãntừ loại,phântíchcúpháp…
Tronggiaiđ o ạ n 2,đềtài“Nghiêncứu,xâydựngvàpháttriểnmộtsốtài nguyênvàcôngcụthiếtyếuchoxửlívănbảntiếngViệt”mãsố“KC.01.20/11-15” đã được triển khai và tập trungxây dựng Wordnet tiếng Việt Tuy nhiên,đếnhiệnnaycáccôngbốvềWordnettiếngViệtmớichỉở mứcthửnghiệm.
Ngoàira,còncócácnghiêncứucủacáctácgiảkhácvềtáchtừ,gánnhãntừ loại,trích rút thông tin, tóm tắt văn bản tiếng Việt đã được côngbố và thửnghiệm trên kho ngữ liệu do cá nhân xây dựng Tuy nhiên, rất ít các công cụđượccôngbốchocộngđồngthử nghiệm,đánhgiá.
MộtsốhướngtiếpcậntómtắtvănbảntiếngViệt
Do tính phức tạp và đặc thù riêng của tiếng Việt, số lượng những nghiêncứu về tóm tắt văn bản tiếng Việt so với tiếng Anh vẫn còn ít Phần lớn cácnghiên cứu đó mới chỉ là các nghiên cứu ở mức đề tài tốt nghiệpđại học, luậnvăn thạc sĩ và tiến sĩ, đề tài nghiên cứu Tuy nhiên, các phương pháp hầu hếtchỉ dừng ở mức thử nghiệm mà chưa xây dựng một ứng dụng hoàn chỉnh đểcông bố cho cộngđồng thử nghiệm Mặt khác, do chưa có kho ngữ liệu chuẩnphục vụcho tóm tắt nên hầu hết thử nghiệm của các nghiên cứu đều thực hiệntrên các kho ngữ liệu tự xây dựng Do vậy, việc đánh giá từng phươngpháp cầnphảixemxét một cáchkỹlưỡng.
Hiện nay, hầu hết các nghiên cứu tóm tắt văn bản tiếngViệt đã được côngbố thực hiện theo hướng trích rút, chỉ có một vài nghiên cứu thực hiện theohướng tóm tắt tóm lược Có thể liệtkê một số công trình tiêu biểu theo cáchướngcụthểsau:
Nghiêncứu của Lê Hà Thanh, Huỳnh Quyết Thắng, Lương ChiMai(2005)[76]:dựa vào sự kết hợp tuyến tính của 5 đặc trưng: Từ tiêu đề, vị trícâutrongđoạn,danhtừ,độtươngđồnggiữahaiđoạn,TFxIPF (TermFrequency times InverParagraph Frequency)để tính trọng số câu Nghiên cứunàyđãđềcậpđếnhệsốđặctrưngvàcáchtìmquaquátrìnhthựcnghiệm.
NghiêncứucủaĐỗPhúc,HoàngKiếm(2006)[2]:tríchrút cácýchínhtừvănbảnhỗtrợtạotómtắtvănbảntiếngViệtdựatrênviệcsửdụngcâyhậutốđể pháthiệncácdãy từphổbiếntrongcáccâucủavăn bản,dùng từđiển đểtìmcácdãytừcónghĩa,dùngWordNettiếngViệthoặctừđiểnđểgiảiquyếtvấn đềngữnghĩacủacáctừ.Cuốicùngdùngkỹthuậtgomcụmđểgomcáccáccâutrongvănbản( vector đặctrưngc h o câu)vàhìnhthànhcácvectorđặctrưngcụm,sauđórútracáccâuchứ anhiềuthànhphầncủacácvectorđặctrưngcụm.Nghiênc ứ u củaNguyễnLêMinh,A k i r a Shimazu, X u â n HiếuPhan,Hồ
S V M (Support Vector Machine) dựa trên tập đặc trưng vị trí câu (câu đầu và cuốitrong văn bản là quan trọng), chiều dài câu (ưutiên câu ngắn), từ liên quan tiêuđề,cụmtừgợiý,từxuấthiệnnhiềuđểchọnracâuquantrọng.
NghiêncứucủaNguyễnHoàngTúAnh[7]:biểudiễnvănbảnbằngđồthịvới mỗi đỉnh là một câu, trọng số cạnh là độ tương tự ngữ nghĩa giữa 2 câubằng độ đo Cosin Sử dụng thuật toán PageRank cải tiến cho đồ thị vô hướngđểchọnranhữngcâuquantrọng.
Nghiên cứu của Trương Quốc Định, Nguyễn Quang Dũng[13]: biểudiễnvăn bản bằng đồ thị với mỗi đỉnh là một câu, sử dụng thuật toán PageRank cảitiếnchođồthịvôhướngvớitrọngsốcạnhlàđộtươngtự giữahai câuđượcthửnghiệm bằng 3 độ đo: khoảng cách Jaro, hệ số Jaccard và Cosin Sau khi thửnghiệm,t á c giảchỉrarằngsửdụnghệsốJaccardlàhiệuquảhơncả.
NghiêncứucủanhómNguyễnQuangUy[57]:Sửdụnglậptrìnhditruyềnquatập đặctrưng:v ị t r í đo ạn , vịt r í câ u trongđoạn, độdàicâ u, t ầ n suất t ừ (Content- wordFrequencies)đểxácđịnhnhữngc â u quantrọngnhấtcủavănbảnquaquát rìnhhọcvănbảnmẫuđượctómtắtbằngconngườivớitỉlệ 30%.Đềtài“Nghiêncứumộtsốphươngpháptómtắtvănbảntựđộngtrênmáytính áp dụng cho tiếng Việt”[5]: sử dụng thuật toán PageRank cải tiếnđể tríchrútranhữngcâuquantrọngdựatrênđặctrưngTFxISFvàhệsốnhânchocác từ xuấthiện trong tiêu đề của văn bản Kết quả tóm tắt trên kho ngữ liệu đượctác giả công bố theođộ đo ROUGE-N với các giá trị 1-gram, 2-gram, 3- gram,4-gramđượctrìnhbày trongbảng1-1:
Bảng 1-1 Kết quả thử nghiệm của đề tài “Nghiên cứu một số phương pháptómtắtvănbảntựđộngtrênmáytínhápdụngchotiếngViệt” n-gram 1 2 3 4
Nghiên cứu của Nguyễn Lê Minh, Akira Shimazu, Xuân Hiếu Phan, HồTúBảovàSusumuHoriguchi[55]: sửdụngcâycúphápnhằmrútgọncâutiếngViệt.Tuynhiên,cáchệthốngphântíchcúphápti ếngViệthiệnnaycóđộchínhxácchưacaonêncáchtiếpcậnnàyvẫnchưathựcsựkhảthi. Nghiên cứu của Nguyễn Trọng Phúc và Lê Thanh Hương[10]: sử dụngcấu trúc diễn ngôn trong tóm tắt văn bản tiếng Việt Cấu trúc diễn ngôn là mộtphương tiện cho phép biểu diễn mốiquan hệ diễn ngôn giữa các đoạn văn bản(như quan hệ nguyên nhân – kết quả) Cây cấu trúc diễn ngôn cho phép đánhgiá được tầm quan trọng của các mệnh đề trong câu, các câu trong văn bản.Trêncơsởđócóthểtríchrađượccácmệnhđềvàcáccâuquantrọngtrongvănbảnđểđ ưavàotómtắt.
Nghiên cứu của Nguyễn Thị Thu Hà[9]đề xuất xây dựng hệ thống tómtắtvănbảntiếngViệtdựatrênviệctríchrútcâuvàrút gọncâuvớibốnphươngpháp khác nhau Việc trích rút câu được thực hiện theo hai phương pháp: (i)dựa trên lý thuyết tập mờ và mô hình chủ đề; và (ii) dựa trên lượng thông tinvà độ ngôn ngữ Việc rút gọn câu được thực hiện theo hai cách: (i) xác địnhchuỗiphùhợpvà(ii)kết nối cácchuỗiconphùhợpnhất. Đềtài“Nghiêncứumộtsốphươngpháptómtắtvănbảntựđộngtrênmáytínhápdụng chotiếngViệt”[5]:sửdụngthuậttoánPageRankcảitiếnđểtrích rút ra những câu quan trọng dựa trên đặc trưng TFxISF và hệ số nhân cho cáctừ xuất hiện trong tiêu đề của văn bản Sau đó sử dụng các luật diễn ngôn đểrútgọncâuđãtríchrúttạorabảntómtắttómlượccuốicùng.
TrầnMaiVũ[12]: xâydựnghệthốngtómtắt đavănbảndựatrêntríchrútcâu Để tính độ tương đồng câu, tác giả dựa vào chủ đề ẩn (Latent DirichletAllocation),b á c h khoatoànthưWikipedia,v à đồthịquanhệthựcthể. Đềtài“Nghiêncứumộtsốphươngpháptómtắtvănbảntựđộngtrênmáytính áp dụng cho tiếng Việt”[5]: đề xuất 2 phương pháp tóm tắt đa văn bản ởmức khái quát và ở mức tài liệu Ở mức khái quát, từng văn bản thuộc cùngmột cụm (cluster) sẽ được đưa qua các bộ tóm tắt đơn văn bản để sinh ra vănbản tóm tắt tương ứng Các văn bản tóm tắt sau đó sẽ được kết hợp lại thànhmột văn bản tóm tắt tổng hợp Văn bản này cũng sẽ được đưa qua thành phầntómtắtđơnvănbảnđểsinhravănbảntómtắtcủatoànbộcụm.Ởmứctàiliệu,nhóm tác giả đề xuất phương pháp tiếp cận khai phá quan điểm dựa trên họcmáy(cụthểlàxâydựngcácbộphânlớp).Hệthốngbaogồmnămkhối:
(i)Thuthậpvàtiềnxửlýdữliệu;(ii)Họcbộphânlớpvănbảnchủquan/kháchquan;(iii)H ọ c bộphânlớptíchcực/tiêucực;(iv)Ápdụngcácbộphânlớpđãcó;(v)Tổng hợp quan điểm Phương pháp tiếp cận này dựa vào phần mềm dự báotăng/giảmc h ứ n g khoántừTwitter.
Hiệntrạngkhongữliệuh u ấ n luyệnvàđánhgiáchobàitoántómtắtvă nbảntiếngViệt 31
Cho đến nay, chưa có một kho ngữ liệu huấn luyệnvà đánh giá phục vụchobàitoántómtắtvănbảntiếngViệtđ ư ợ c côngbố.Lýdocóthểlàdođểxâydựng kho ngữ liệu lớn cần một số lượng chuyên gia ngôn ngữ và kinh phí đủlớn Việc thiếu kho ngữ liệu huấn luyện và đánh giá cho bài toán tóm tắt vănbản tiếng Việt là một lý do quan trọng để giải thích việc tại sao đến nay cácnghiêncứutómtắtvănbảntiếngViệtcònít.Mặtkhác,dothiếukhongữliệu huấnluyệnvàđánhgiámà cácphươngpháptómtắtđãđềxuấtcũngchưađượcđánhgiásosánhvớinhau.
ĐặcđiểmcủacácphươngpháptómtắtvănbảntiếngViệt
Với đối tượng nghiên cứu của đề tài là tập trung vào hướng tóm tắt vănbảntheohướngtríchrút.Dovậy,cácphươngpháptómtắttríchrútđãtrìnhbàyởmục1.1 4.3cónhữngđặcđiểmchungnhưsau:
- Các đặc trưng văn bản sử dụng trong các phương pháp hầu hết dựa trêncác đặc trưng văn bản tiếng Anh mà chưa có khảo sát kỹ việc sử dụng các đặctrưng đó trong văn bản tiếng Việt có phù hợp hay không Mặt khác, số lượngđặc trưng được sử dụng trong hầu hết các phương pháp còn chưa nhiều (𝑝[𝐸,𝐷]. Ứngc ử v i ê nDl àm ộ t n g ư ờ i c h i ế n t h ắ n g t i ề m n ă n g k h i v à c h ỉ k h i
Mốiquan hệ“đượcbầu caohơn”𝐺 ượcđộ định nghĩanhưsau:
Tậphợp𝑆={𝑋|∀𝑌≠𝑋:𝑋𝑌∉𝐺}làtậphợpnhữngngườichiếnthắng. Địnhlý1.1[49]:Mốiquan hệ𝐺cótính chấtbắccầu. Địnhlý1.2[49]:Trongmọitrườnghợp,phươngphápSchuzleluônluôntìmđượ cngườichiếnthắng.
BướckhónhấtkhicàiđặtthuậttoánchophươngphápSchulzelàb ư ớ c tính toánđộmạnhcủacácđườngđimạnhnhất.Cóthểsửdụngthuật toánFloyd
[68]đểgiảiquyết vấnđềnày.Cácbướccủathuậttoánđượcmôtảcụthểtrong[49]. Để hiểu rõ hơn về phương pháp Schulze, chúng ta có thể xem ví dụ minhhọaphươngpháptrong[80].
KếtluậnChương 1
(1) Đã nghiên cứu, trình bày tổng quan các giai đoạn và tham số của hệthống tóm tắt văn bản Các phương pháp tiếp cận tóm tắt văn bản trên thế giớitheohaihướng:Tómtắttríchrút(ES)vàtómtắt tómlược(AS).
(2) Đã nghiên cứu,trình bày tổng quan các phương pháp tiếp cận tóm tắtvăn bản tiếng Việt trong những năm gần đây Qua đó phân tích, đánh giá hiệntrạngnghiênc ứ u tómtắtvănbảntiếngViệt.
(3) Đã nghiên cứu, trình bày tổng quan về giải thuật di truyền, giải thuậttốiưuđànkiếnvàphươngphápVotingSchulze.
Việcn g h i ê n c ứ u cácphươngpháptiếpc ậ n tómtắtvănbản,cácphương pháp đánh giá tóm tắt văn bản vàkiến thức cơ sở liên quan là tiền đề để nghiêncứu, xây dựng pháttriển các kỹ thuật tóm tắt văn bản tiếng Việt được trình bàytrongchương2vàchương3.
Văn bản Văn bản Tóm tắt
Theo tứ tự xuất hiện trong văn bản gốc
SẮP XẾP theo trọng số, rút trích theo tỉ lệ
TÍNH TRỌNG SỐ CÂU theo cácđặc trưng
Tách câu, tách từ, loại hư từ
Trong chương này, luận án trình bày việc lựa chọn tập đặc trưng quantrọng cho văn bản tiếng Việt thông qua khảo sát kho ngữ liệu mẫu, qua đó đềxuất cải tiến một số đặc trưng cho phù hợp với văn bản tiếng Việt Trên cơ sởcác đặc trưngnày, luận án đề xuất phương pháp tóm tắt văn bản tiếng Việt dựatrênbộhệsốđặctrưngđượcxácđịnhbằngphươngpháphọcmáysử dụnggiảithuật di truyền và giải thuật tối ưu đànkiến Cuối cùng, luận án trình bày cáckếtquảthửnghiệmv à đánhgiá.
MôhìnhtómtắtvănbảntiếngViệtdựatrênbộhệsốđặctrưng40
Quytrìnhtómtắt vănbảntheohướngtríchrút
Bước1.Tiềnxửlývănbảnđầuvào: táchcâu,táchtừ,gánnhãntừloại,lọcbỏcáchưtừ.
Bước4.Xuấtcáccâuđãtríchrúttheothứ tự xuất hiệntrongvănbảngốc.
Hình2-1QuytrìnhcáchtiếpcậnTTVBdựatrêntríchrútcâu. Đểxác địnhđượctrọngsốcủacâungườita thườngdựatrêncácđặctrưngquan trọng như: vị trícủa câu trong văn bản, các từ quan trọng xuất hiện trongcâu, độ tương tự tiêu đề, [17],[76].Công thức tổng quát để tính trọng số câuthôngquatậpđặctrưngquantrọng: n
Ta cho thể biểu diễn bài toán tóm tắt đơn văn bản tiếng Việt theo hướngtríchrútnhưsau:
𝑘 𝑖, (𝑖= 1,…,𝑛):hệ sốđặctrưng thứi. Địnhnghĩa2.1: Bàitoántómtắtvănbảntheohướngtríchrútsốcâugốccủavănbả ndtheo tỉlệtómtắta