Giới thiệu bài toỏn túm tắt văn bản



POSI

x h h .

Do bộ giải mó sử dụng mạng LSTM để dự đoỏn một từ dựa vào từ trước đú nờn đối với cỏc văn bản dài thỡ thụng tin ở phần đầu văn bản sẽ bị “quờn” dẫn đến nội

112

dung sẽ tập trung ở cuối văn bản. Chớnh vỡ thế, mụ hỡnh sử dụng thờm đặc trưng vị trớ cõu xPOSI và xử lý cập nhật nõng trọng số chỳ ý của cỏc từ của cỏc cõu ở đầu văn bản lờn bằng cỏch chia trọng số chỳ ý của từ cho vị trớ cõu xPOSI tương ứng của nú.

 Đặc trưng tần suất xuất hiện của từ

Với cỏc văn bản cú độ dài khỏc nhau, cú những từ xuất hiện nhiều trong cỏc văn bản dài thay vỡ xuất hiện trong cỏc văn bản ngắn nờn tần suất xuất hiện của từ t

trong văn bản d được tớnh theo cụng thức sau:

 

f t ,d TF( t )

 ; trong đú: t là một từ trong văn bản d, f(t,d) là số lần xuất hiện của

t trong văn bản d, T là tổng số từ trong văn bản.

Với vộc tơ biểu diễn văn bản đầu vào xx11,x21,x31,....,xJ H; trong đú: xjh là từ thứ j ở cõu thứ h, ta xỏc định được vộc tơ biểu diễn TF là:

 ( 11), ( 21), ( 31),...., ( )



TF J H

x TF x TF x TF x TF x . Giỏ trị TF biểu diễn mức độ quan trọng của từ trong văn bản nờn mụ hỡnh sử dụng thờm đặc trưng TF và xử lý cập nhật nõng trọng số của từ lờn bằng cỏch nhõn trọng số chỳ ý của từ với xTF tương ứng để giỳp mụ hỡnh chỳ ý vào cỏc từ quan trọng.

 Độ đo MMR

Điểm MMR thể hiện được độ tương đồng của từ với chủ đề văn bản và tớnh dư thừa thụng tin đối với bản túm tắt hiện cú.

Với vộc tơ biểu diễn văn bản đầu vào xx11,x21,x31,....,xJ H; trong đú: xjh là từ thứ j ở cõu thứ h, vộc tơ biểu diễn MMR được xỏc định là:

 

R  ( 11), ( 21), ( 31),...., ( )

MM J H

x MMR x MMR x MMR x MMR x

Tại thời điểm đỏnh giỏ mụ hỡnh, điểm MMR được đưa vào để tớnh giỏ trị phõn bố chỳ ý.

Như vậy, giỏ trị phõn bố chỳ ý được tớnh lại sau khi thờm 3 đặc trưng mới như sau:

- Trong giai đoạn huấn luyện mụ hỡnh: Tớnh toỏn theo cụng thức (4.25) và cụng thức (4.8) ở trờn.

- Trong giai đoạn đỏnh giỏ mụ hỡnh: Tớnh toỏn theo cụng thức (5.9) dưới đõy và cụng thức (4.8) ở trờn.     ( ) tanh . .    T e d

align align j t align e tj TF MMR POSI v W h h b s x x x (5.9) c) Phương phỏp PG - MMR

Phương phỏp PG – MMR [147] mụ tả khung lặp thực hiện túm tắt đa văn bản dưới dạng một siờu văn bản được kết hợp từ tập cỏc văn bản đầu vào để sinh ra bản túm tắt. Trong mỗi bước lặp, phương phỏp PG - MMR chọn ra k cõu cú điểm cao nhất dựa theo nguyờn tắc của phương phỏp MMR, k cõu này được sử dụng làm đầu vào cho mạng sinh từ - sao chộp từ để sinh ra một cõu túm tắt. Tiếp theo, điểm của cỏc cõu đầu vào được cập nhật lại dựa trờn độ tương đồng với cỏc cõu của văn bản đầu vào (độ quan trọng) và cỏc cõu đó túm tắt trong cỏc bước lặp trước (độ dư thừa). Cõu giống với cõu đó được sinh túm tắt trước đú hơn sẽ nhận điểm thấp hơn. Việc chọn k cõu thụng qua phương phỏp PG - MMR giỳp cho mụ hỡnh sinh từ - sao

113

chộp từ xỏc định được nội dung của cõu nguồn chưa đưa vào bản túm tắt, từ đú giải quyết được vấn đề trựng lặp thụng tin khi túm tắt văn bản dài.

Hỡnh 5.6. Minh họa phương phỏp PG-MMR (k=2) [147]

Để mụ hỡnh sinh từ - sao chộp từ hoạt động hiệu quả khi sử dụng k cõu nguồn chọn được để thực hiện túm tắt mà khụng cần huấn luyện lại mụ hỡnh, cỏc tham số được điều chỉnh trong quỏ trỡnh đỏnh giỏ như sau:

Giỏ trị phõn bố chỳ ý phụ thuộc vào k cõu được chọn: Nếu từ thuộc k cõu được chọn thỡ sẽ được tớnh theo cụng thức (4.8) ở chương 4, trong cỏc trường hợp cũn lại thỡ sẽ bằng 0 như sau: 0,       e tj e tjnew

, nếu từ j k câu được chọn trong các trường hợp còn lại

(5.10) Trong phương phỏp PG-MMR, cỏc cõu khụng được chọn gọi là cỏc cõu bị “tắt”

(“mute”).

Độ tương đồng và độ dư thừa của cõu nguồn trong phương phỏp PG - MMR được tớnh toỏn theo cụng thức (2.44) của phương phỏp MMR đề xuất đó trỡnh bày ở chương 2.

5.3.2.3. Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất

Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất được trỡnh bày chi tiết trong Hỡnh 5.7.

Mụ hỡnh sử dụng phương phỏp MMR để trớch rỳt cỏc cõu đại diện từ siờu văn bản được kết hợp từ tập văn bản nguồn đầu vào và tận dụng mụ hỡnh mó húa - giải mó (ở đõy là mạng Pointer-Generator) để túm tắt cỏc cõu này thành bản túm tắt túm lược và lặp lại cho đến khi đạt ngưỡng xỏc định. Mụ hỡnh đề xuất sử dụng mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước trờn cỏc bộ dữ liệu túm tắt đơn văn bản hướng túm lược tương ứng.

Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất gồm 2 thành phần chớnh: - Mụ hỡnh túm tắt đơn văn bản hướng túm lược PG_Feature_ASDS được huấn luyện trước trờn cỏc bộ dữ liệu túm tắt đơn văn bản hướng túm lược tương ứng đó đề xuất ở chương 4 (gọi là mụ hỡnh pre-trained PG_Feature_ASDS).

- Mụ hỡnh PG-MMR [147] ỏp dụng trong túm tắt đa văn bản: Để tương thớch với mụ hỡnh túm tắt đơn văn bản pre-trained PG_Feature_ASDS, mụ hỡnh PG-

134

 Đề xuất phỏt triển một mụ hỡnh túm tắt đa văn bản hướng trớch rỳt sử dụng cỏc kỹ thuật học mỏy, kết hợp đặc trưng vị trớ cõu và MMR để sinh văn bản túm tắt (mụ hỡnh Kmeans_Centroid_EMDS). Mụ hỡnh được thử nghiệm trờn bộ dữ liệu DUC 2007 (tiếng Anh), Corpus_TMV (tiếng Việt) cho kết quả tốt khi túm tắt đa văn bản tiếng Anh, tiếng Việt.

 Đề xuất phỏt triển hai mụ hỡnh túm tắt đa văn bản hướng túm lược cho túm tắt đa văn bản tiếng Anh và tiếng Việt gồm:

 Mụ hỡnh PG_Feature_AMDS: Mụ hỡnh dựa trờn mụ hỡnh túm tắt đơn văn bản hướng túm lược PG_Feature_ASDS được huấn luyện trước. Mụ hỡnh PG_Feature_ASDS được tinh chỉnh bằng việc huấn luyện tiếp mụ hỡnh trờn cỏc bộ dữ liệu thử nghiệm cho túm tắt đa văn bản tương ứng để mụ hỡnh đề xuất đạt được cỏc kết quả tốt hơn. Mụ hỡnh đề xuất PG_Feature_AMDS được thử nghiệm sử dụng cỏc bộ dữ liệu DUC 2007, DUC 2004 (tiếng Anh) và bộ dữ liệu ViMs, Corpus_TMV (tiếng Việt) đó cho kết đỏng khỏ tốt. Với kết quả của mụ hỡnh đề xuất, mụ hỡnh cú thể mở ra một hướng tiếp cận mới khi phỏt triển cỏc mụ hỡnh túm tắt đa văn bản hướng túm lược hiệu quả trong điều kiện khan hiếm dữ liệu thử nghiệm.

 Mụ hỡnh Ext_Abs_AMDS-mds-mmr: Mụ hỡnh dựa trờn mụ hỡnh hỗn hợp Ext_Abs_ASDS được huấn luyện trước được xõy dựng trờn cỏc mụ hỡnh túm tắt đơn văn bản RoPhoBERT_CNN_ESDS, PG_TF-IDF_ASDS. Cỏc mụ hỡnh túm tắt đơn văn bản này được huấn luyện tiếp trờn cỏc bộ dữ liệu túm tắt đa văn bản tương ứng để mụ hỡnh túm tắt đạt được cỏc kết quả tốt hơn. Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất Ext_Abs_AMDS-mds-mmr được thử nghiệm sử dụng cỏc bộ dữ liệu DUC 2007, DUC 2004 (tiếng Anh) và cỏc bộ dữ liệu ViMs, Corpus_TMV (tiếng Việt) đó cho độ chớnh xỏc cao. Kết quả cho thấy đõy là một hướng tiếp cận hiệu quả khi phỏt triển cỏc mụ hỡnh túm tắt đa văn bản hướng túm lược.

Với cỏc mụ hỡnh túm tắt văn bản đó đề xuất của luận ỏn, nghiờn cứu sinh nhận thấy rằng cỏc mụ hỡnh túm tắt đề xuất đó đỏp ứng tốt cỏc yờu cầu của bài toỏn túm tắt văn bản. Cỏc mụ hỡnh túm tắt văn bản đề xuất này là cơ sở để tiếp tục nghiờn cứu phỏt triển cỏc mụ hỡnh túm tắt văn bản tiếp theo và cú thể triển khai ỏp dụng hiệu quả cho cỏc bài toỏn khỏc trong xử lý ngụn ngữ tự nhiờn, cỏc ứng dụng trong thực tiễn.

B. Những khú khăn và tồn tại của luận ỏn

Mặc dự đó đề xuất phỏt triển được một số mụ hỡnh túm tắt văn bản hiệu quả nhưng luận ỏn đó gặp một số khú khăn và cũn một số tồn tại sau:

 Điều kiện cơ sở vật chất phục vụ cho thử nghiệm cỏc mụ hỡnh đề xuất khú khăn.

 Dữ liệu thử nghiệm cho cỏc mụ hỡnh túm tắt văn bản, đặc biệt là dữ liệu thử nghiệm cho túm tắt đa văn bản cũn thiếu.

 Cỏc mụ hỡnh túm tắt văn bản đề xuất hiện tại mới chỉ ỏp dụng được cho túm tắt văn bản tiếng Anh và tiếng Việt.

 Độ phức tạp của cỏc mụ hỡnh túm tắt văn bản đó đề xuất là vấn đề cần xem xột do đặc điểm phức tạp của cỏc mụ hỡnh học sõu đó sử dụng.

135

C. Định hướng phỏt triển

Luận ỏn đó đề xuất phỏt triển một số mụ hỡnh túm tắt văn bản ỏp dụng hiệu quả cho túm tắt văn bản tiếng Anh và tiếng Việt. Từ cỏc kết quả tốt của cỏc mụ hỡnh đề xuất và kinh nghiệm phỏt triển cỏc mụ hỡnh túm tắt văn bản sử dụng cỏc kỹ thuật học sõu, nghiờn cứu sinh nhận thấy rằng cỏc hướng nghiờn cứu này thớch hợp để phỏt triển cỏc mụ hỡnh túm tắt hiệu quả cho bài toỏn túm tắt văn bản. Tuy nhiờn, cỏc mụ hỡnh túm tắt văn bản đề xuất được thử nghiệm trờn cỏc bộ dữ liệu chưa đủ lớn. Trong thời gian tới, nghiờn cứu sinh sẽ tiếp tục hướng nghiờn cứu với một số định hướng sau:

 Đỏnh giỏ tổng quan cỏc mụ hỡnh đề xuất trờn cỏc bộ dữ liệu khỏc nhau.

 Phỏt triển mở rộng cỏc mụ hỡnh túm tắt văn bản đề xuất để cú thể ỏp dụng túm tắt cho nhiều ngụn ngữ khỏc nhau như: Tiếng Trung, Nhật, Hàn Quốc,...

 Phỏt triển cỏc giải phỏp xõy dựng cỏc bộ dữ liệu cho bài toỏn túm tắt văn bản.  Nghiờn cứu đề xuất cỏc giải phỏp túm tắt văn bản trong điều kiện thiếu dữ liệu thử nghiệm.

 Nghiờn cứu tớch hợp cỏc mụ hỡnh túm tắt văn bản đề xuất cho cỏc cụng cụ tỡm kiếm, cỏc hệ thống khai phỏ dữ liệu văn bản và khai phỏ dữ liệu trang Website.

 Nghiờn cứu tớch hợp cỏc mụ hỡnh túm tắt văn bản đề xuất để xõy dựng hệ thống phần mềm “Thư ký ảo”, “Trợ lý ảo” ỏp dụng cho cỏc buổi họp, xờ mi na khoa học trong thực tế.

136

DANH MỤC CÁC CễNG TRèNH ĐÃ CễNG BỐ

[CT1] Hai Cao Manh, Huong Le Thanh, Tuan Luu Minh (2019), Extractive Multi- document Summarization using K-means, Centroid-based Method, MMR, and Sentence Position. In Proceedings of the Tenth International Symposium on Information and Communication Technology (SoICT 2019), pp. 29-35, ACM (DOI: 10.1145/3368926.3369688).

[CT2] Viet Nguyen Quoc, Huong Le Thanh, Tuan Luu Minh (2020), Abstractive Text Summarization using LSTMs with Rich Features. In International Conference of the Pacific Association for Computational Linguistics (PACLING 2019: Computational Linguistics), pp. 28-40, Springer, Singapore.

[CT3] Minh-Tuan Luu, Thanh-Huong Le, Minh-Tan Hoang (2021), An Effective Deep Learning Approach for Extractive Text Summarization. Indian Journal of Computer Science and Engineering (IJCSE), Vol. 12, No. 2, pp. 434-444, 2021 (DOI: https://doi.org/10.21817/indjcse/2021/v12i2/211202146) (SCOPUS).

[CT4] Tuan Luu Minh, Huong Le Thanh, Tan Hoang Minh (2021), A hybrid model using the pre-trained BERT and deep neural networks with rich feature for extractive text summarzation. Journal of Computer Science and Cybernetics, Vol. 37, No. 2, pp. 123-143, 2021 (DOI: https://doi.org/10.15625/1813- 9663/37/2/15980).

[CT5] Lưu Minh Tuấn, Lờ Thanh Hương, Hoàng Minh Tõn (2021), Một phương phỏp kết hợp cỏc mụ hỡnh học sõu và kỹ thuật học tăng cường hiệu quả cho túm tắt văn bản hướng trớch rỳt. Tạp chớ Khoa học và Cụng nghệ Đại học Thỏi Nguyờn, Tập 226, Số 11, trang 208-215, 2021 (DOI: https://doi.org/10.34238/tnu-jst.4747).

137

TÀI LIỆU THAM KHẢO

[1] Vilca G. C. V. and Cabezudo M. A. S. (2017). A study of abstractive summarization using semantic representations and discourse level information. In Proceedings of the 20th International Conference on Text, Speech, and Dialogue, pp. 482-490.

[2] Mehdi Allahyari, Seyedamin Pouriyeh, Mehdi Assef, Saeid Safaei, Elizabeth D. Trippe, Juan B. Gutierrez, and Krys Kochut (2017). Text Summarization Techniques: A Brief Survey. International Journal of Advanced Computer Science and Applications (IJACSA), Vol. 8, No. 10, pp. 397-405.

[3] Radev D. R., Hovy E., and McKeown K. (2002). Introduction to the special issue on summarization. Computational Linguistics, Vol. 28, No. 4, pp. 399- 408. MIT Press. DOI: 10.1162/089120102762671927.

[4] Ko Y. and Seo J. (2008). An effective sentence-extraction technique using contextual information and statistical approaches for text summarization. Pattern Recognition Letters, Vol. 29, No. 9, pp. 1366–1371. DOI: 10.1016/ j.patrec.2008.02.008.

[5] Afsharizadeh M., Ebrahimpour-Komleh H., and Bagheri A. (2018). Query- oriented text summarization using sentence extraction technique. 2018 4th International Conference on Web Research (ICWR), Tehran, Iran. DOI: 10.1109/ICWR.2018.8387248.

[6] Mark Wasson (1998). Using leading text for news summaries: Evaluation results and implications for commercial summarization applications. In Proceedings of the 17th international conference on Computational linguistics- Vol. 2, pp. 1364-1368.

[7] Miller G. A. (1995). WordNet: A lexical database for English. Communications of the ACM, Vol. 38, No. 11, pp. 39–41.

[8] Sankarasubramaniam Y., Ramanathan K., and Ghosh S. (2014). Text summarization using Wikipedia. Information Processing & Management, Vol. 50, No. 3, pp. 443–461. DOI: 10.1016/j.ipm.2014.02.001.

[9] Wang Y. and Ma J. (2013). A Comprehensive method for text summarization based on latent semantic analysis. In Proceedings of the Natural language processing and Chinese computing, pp. 394–401.

[10] Sahni A. and Palwe S. (2018). Topic Modeling On Online News Extraction. In Proceedings of the Intelligent Computing and Information and Communication, pp. 611-622.

[11] Gunes Erkan and Dragomir R. Radev (2004). LexRank: Graph-based Lexical Centrality as Salience in Text Summarization. Journal of Artificial Intelligence Research, Vol. 22, No. 1, pp 457-479.

[12] Mehta P. And Majumder P. (2018). Effective aggregation of various summarization techniques. Information Processing & Management, Vol. 54, No. 2, pp. 145–158. DOI: 10.1016/j.ipm.2017.11.002.

138

[13] Dragomir R. Radev, Hongyan Jing, Malgorzata Stys, and Daniel Tam (2004).

Centroid-based summarization of multiple documents. Information Processing and Management, Vol. 40, No. 6, pp. 919–938.

[14] Rada Mihalcea and Paul Tarau (2004). TextRank: Bringing Order into Texts. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404-411. Association for Computational Linguistics.

[15] Brin S., and Page L. (1998). The anatomy of a large-scale hypertextual Web search engine. In Proceedings of the seventh international conference on World Wide Web 7, pp. 107–117.

[16] Al-Sabahi K., Zhang Z., Long J., and Alwesabi K. (2018). An enhanced latent semantic analysis approach for Arabic document summarization. Arabian Journal for Science and Engineering, Vol. 43, No. 5. DOI: 10.1007/s13369- 018-3286-z.

[17] Mashechkin I. V., Petrovskiy M. I., Popov D. S., and Tsarev D. V. (2011).

Automatic text summarization using latent semantic analysis. Programming and Computer Software, Vol. 37, No. 6, pp. 299–305. DOI: 10.1134/s0361768811060041.

[18] Alguliyev R. M., Aliguliyev R. M., Isazade N. R., Abdi A., and Idris N. (2019). COSUM: Text summarization based on clustering and optimization. Expert Systems, Vol. 36, No. 1. DOI: 10.1111/exsy.12340 e12340.

[19] John A., and Wilscy M. (2013). Random forest classifier based multi- document summarization system. In Proceedings of the 2013 IEEE Recent Advances in Intelligent Computational Systems (RAICS). DOI: 10.1109/RAICS.2013.6745442.

[20] Shetty K., and Kallimani J. S. (2017). Automatic extractive text summarization using K-means clustering. In Proceedings of the 2017 International Conference on Electrical, Electronics, Communication, Computer, and

Optimization Techniques (ICEECCOT).

DOI: 10.1109/ICEECCOT.2017.8284627.

[21] Kobayashi H., Noguchi M., and Yatsuka T. (2015). Summarization based on embedding distributions. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 1984-1989.

[22] Chen L., and Nguyen M. L. (2019). Sentence selective neural extractive summarization with reinforcement learning. In Proceedings of the 2019 11th International Conference on Knowledge and Systems Engineering (KSE). DOI: 10.1109/KSE.2019.8919490.

[23] Jianpeng Cheng and Mirella Lapata (2016). Neural summarization by extracting sentences and words. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Vol. 1: Long Papers), pp. 484– 494. Association for Computational Linguistics.

[24] Ramesh Nallapati, Feifei Zhai, and Bowen Zhou (2017). Summarunner: A recurrent neural network based sequence model for extractive summarization

139

of documents. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, pp. 3075–3081.

[25] Warule P.D., Sawarkar S.D., Gulati A. (2019). Text Summarization Using Adaptive Neuro-Fuzzy Inference System. Computing and Network Sustainability (Lecture Notes in Networks and Systems), Vol. 75, pp. 315-324. Springer, Singapore. DOI: 10.1007/978-981-13-7150-9_34.

[26] Yao K., Zhang L., Luo T., and Wu Y. (2018). Deep reinforcement learning for extractive document summarization. Neurocomputing, Vol. 284, pp. 52–62. DOI: 10.1016/j.neucom.2018.01.020.

[27] Yousefi-Azar M., and Hamey L. (2017). Text summarization using unsupervised deep learning. Expert Systems with Applications, Vol. 68, pp. 93–105. DOI: 10.1016/j. eswa.2016.10.017.

[28] Bhat I. K., Mohd M., and Hashmy R. (2018). SumItUp: A hybrid single- document text summarizer. Soft computing: Theories and applications: Proceedings of SoCTA 2016, Vol. 1, pp. 619–634. Springer, Singapore.

[29] Al-Abdallah R. Z., and Al-Taani A. T. (2017). Arabic single-document text summarization using particle swarm optimization algorithm. Procedia Computer Science, Vol. 117, pp. 30–37. DOI: 10.1016/j.procs.2017.10.091.

[30] Krishnakumari K., and Sivasankar E. (2018). Scalable Aspect-Based Summarization in the Hadoop Environment. Advances in Intelligent Systems and Computing, vol. 654, pp. 439-449. Springer, Singapore. DOI: 10.1007/978-981-10-6620-7_42.

[31] Chitrakala S., Moratanch N., Ramya B., Revanth Raaj C. G., and Divya B. (2018). Concept-based extractive text summarization using graph modelling and weighted iterative ranking. In Proceedings of International Conference on Emerging research in computing, information, communication and applications: ERCICA 2016, pp. 149–160. Springer, Singapore.

[32] Ganesan K., Zhai C., and Han J. (2010). Opinosis: A graph-based approach to abstractive summarization of highly redundant opinions. In Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010),

Cỏc bộ dữ liệu văn bản tiếng Việt

Cỏc biến thể của RNN