Văn bản được sử dụng để thử nghiệm là bài báo “Generic Topic Segmentation of Document Texts” [21]. Bài báo này bao gồm 1.353 từ với 63 câu được chia làm 5 mục lớn (không tính các phần tiêu đề, tóm tắt, lời cảm ơn và tài liệu tham khảo). Chi tiết về các phần được trình bày trong Bảng 3.
Bảng 3. Cấu trúc văn bản thử nghiệm
Mục Tiêu đề
1 Introduction
2 Research problem
3 Methods
3.1 Content terms and
their distribution 3.2 Lexical chains 3.3 Topic segmentation 3.4 Test corpora 4 Related research 5 Conclusions
làm 8 mục. Trong phần này, luận văn sẽ chỉ giới hạn thử nghiệm bằng phương pháp phân đoạn tuyến tính.
Trong quá trình loại bỏ từ dừng, luận văn sử dụng tập từ dừng trong công cụ TextTiling của MartiHearst có sửa đổi để thêm nhiều từ dừng hơn. Danh sách các từ dừng được sử dụng được liệt kê trong Bảng 4.
Bảng 4. Danh sách từ dừng
said n't 'm a about above across after afterwards again against all almost alone along already also although always am among amongst amoungst amount an and another any anyhow anyone anything anyway anywhere are around as at back be became because become becomes becoming been before beforehand behind being below beside besides between beyond bill both bottom but by call can cannot cant co computer con could couldnt cry de describe detail do done down due during each eg eight either eleven else elsewhere empty enough etc even ever every everyone everything everywhere except few fifteen fify fill find fire first five for former formerly forty found four from front full further get give go had has hasnt have he hence her here hereafter hereby herein hereupon hers herself him himself his how however hundred i ie if in inc indeed interest into is it its itself keep last latter latterly least less ltd made many may me meanwhile might mill mine more moreover most mostly move much must my myself name namely neither never nevertheless next nine no nobody none noone nor not nothing now nowhere of off often on once one only onto or other others otherwise our ours ourselves out over own part per perhaps please put rather re same see seem seemed seeming seems serious several she should show side since sincere six sixty so some somehow someone something sometime sometimes somewhere still such system take ten than that the their them themselves then thence there thereafter thereby therefore therein thereupon these they thick thin third this those though three through throughout thru thus to together too top toward towards twelve twenty two un under until up upon us very via was we well were what whatever when whence whenever where whereafter whereas whereby wherein whereupon wherever whether which while whither who whoever whole whom whose why will with within without would yet you your yours yourself yourselves
Trong quá trình gán nhãn từ loại sử dụng công cụ LT CHUNK, tập các nhãn từ loại được sử dụng là tập nhãn thu gọn được kế thừa từ tập nhãn Penn Treebank (http://www.cis.upenn.edu/~treebank/). Danh sách các nhãn cùng mô tả được trình bày trong Bảng 5 và Bảng 6.
Bảng 5. Tập nhãn từ loại (tập mở) Nhãn từ loại JJ JJR JJS RB RBR RBS NN NNS NNP NNPS VB VBD VBG VBN VBP VBZ FW Nhãn từ loại CD CC DT EX IN LS MD PDT
PRP PRP$ RP TO UH WDT WP WP$ WRB 4.3. Quá trình thử nghiệm
Quá trình thử nghiệm được chia làm hai giai đoạn:
- Giai đoạn 1: Phân đoạn văn bản sử dụng các công cụ jTextTiling và C99 để thu được các đoạn văn bản.
- Giai đoạn 2: Sinh tiêu đề cho từng đoạn văn bản bằng công cụ SUMMA.
Việc sinh tiêu đề cho văn bản được thực hiện cho cả các đoạn văn bản được phân đoạn tự động và các đoạn văn bản được phân sẵn của văn bản gốc.
4.4. Kết quả thử nghiệm
4.4.1. Kết quả phân đoạn văn bản
Kết quả phân đoạn văn bản được trình bày trong Bảng 7 và được biểu diễn trực quan hơn trong Hình 6. Trong Bảng 7 có 3 cột chính, mỗi cột tương ứng với từng cách phân đoạn, trong mỗi cột có 3 cột con gồm số thứ tự của đoạn văn bản, số thứ tự của câu đầu tiên và số thứ tự của câu cuối cùng của văn bản đó.
Bảng 7. Kết quả phân đoạn văn bản
Văn bản gốc
STT Đầu
1 2
3 4 5 6 7 8
Trong Hình 6, dòng đầu tiên là mô hình phân đoạn có sẵn, dòng thứ 2 là mô hình phân đoạn do công cụ C99 sinh ra và dòng thứ 3 là mô hình phân đoạn do công cụ jTextTiling sinh ra. Các dấu “-“ thể hiện cho các câu, các dấu “.” thể hiện vị trí giữa các câu trong cùng một đoạn, còn các dấu “|” thể hiện đường biên phân tách giữa các đoạn.
|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-|-.-.-| |-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-|-.-|-.-.-.-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-| |-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-|
Hình 6. Kết quả phân đoạn văn bản
4.4.2. Kết quả sinh tiêu đề
Các kết quả sinh tiêu đề cho văn bản lần lượt được trình bày trong Bảng 8,
Bảng 9 và Bảng 10.
Bảng 8. Sinh tiêu đề cho phân đoạn gốc
Phần Tiêu đề thực
1 Introduction
2 Research problem
3.1 Content terms and their distribution
3.2 Lexical chains
3.3 Topic segmentation
3.4 Test corpora
4 Related research
Bảng 9. Sinh tiêu đề cho phân đoạn của C99
Phần Tiêu đề
1 Segmentation text
2 Representation subtopics texts
3 Synonyms
4 Terms
5 Information segmentation
6 Step topic
7 Techniques corpora texts evaluation
8 Addition topics
9 Referents
Bảng 10. Sinh tiêu đề cho phân đoạn của jTextTiling
Phần Tiêu đề 1 Segmentation topics 2 Structure text 3 Cues texts 4 Terms 5 Information segmentation
6 Algorithms chains topic
7 Techniques corpora texts evaluation
8 Segmentation terms
4.5. Đánh giá thử nghiệm
Kết quả phân đoạn cho thấy chất lượng phân đoạn tương đối khả quan. Xét một cách trực quan khi quan sát Hình 6, ta thấy các điểm biên thứ 1, 4, 5, 6 hầu như không chệch so với văn bản gốc. Điều này được thể hiện qua độ đo Pk
tương ứng là 10,2% cho jTextTiling và 7,3% cho C99 ( Pk là độ đo lỗi). Tuy nhiên cả hai thuật toán phân đoạn đều thống nhất chia đoạn văn bản thứ 5 “Topic Segmentation” ra làm hai đoạn tách rời với một bên là “segmentation” và một bên là “topic”.
Kết quả sinh tiêu đề đã được một số giáo viên tiếng Anh thuộc Trường Đại học Ngoại ngữ, ĐHQG Hà Nội thẩm định và cho rằng các kết quả đó là
chấp nhận được tuy đôi chỗ còn mang ý nghĩa rất chung chung. Ví dụ như trường hợp sinh tiêu đề cho đoạn thứ 8 của văn bản gốc là “Paper Text” rất vô nghĩa so với “Conclusions”. Tuy nhiên điều này cũng không khó hiểu do cách đặt tiêu đề của văn bản tuân theo cách đặt tiêu đề của các bài báo. Đây là vấn đề thuộc yếu tố văn phong. Với các thuật toán sinh tiêu đề không phụ thuộc miền ứng dụng thì vấn đề này là dễ hiểu.
4.5. Phương hướng cải tiến
Các kết quả thử nghiệm đã chứng minh bài toán xây dựng mục lục văn bản là khả thi và có triển vọng phát triển. Các thuật toán được trình bày trong luận văn tuy còn tương đối đơn giản và hầu hết là dựa trên luật nhưng đã tỏ ra rất hiệu quả trong thử nghiệm. Tuy nhiên ta vẫn có thể tăng cường chất lượng của thuật toán thông qua một số cải tiến sau:
- Đưa thêm các dấu hiệu nhận biết phân đoạn đặc trưng theo từng ngôn ngữ, ví dụ như trong tiếng Anh ta thường có “In this section”, “As already discussed”,… Các yếu tố này mang tính thống kê và do đó có thể thực hiện một mô hình thống kê trên một tập văn bản có sẵn để tìm ra tập các dấu hiệu chuyển chủ đề thông qua ngay câu đầu tiên của mỗi đoạn văn.
- Trong quá trình xây dựng các chuỗi token, nếu sử dụng từ gốc của các token thì khi đó sẽ làm giảm được nhiễu và tăng cường độ chính xác khi đo độ tương tự giữa các chuỗi token do chúng ta có thể xem xét được danh từ và tính từ với cùng một gốc thì tương đương nhau.
- Sử dụng các mô hình học có giám sát hoặc bán giám sát để học từ những dữ liệu có sẵn với các đặc trưng như: danh từ/cụm danh từ ở câu nào, vị trí như thế nào trong câu thì sẽ xuất hiện ở trong tiêu đề. Việc lựa chọn danh sách các từ cho tiêu đề dựa theo một mô hình học với các đặc trưng không liên quan đến bản thân từ sẽ giúp cho việc lựa chọn được những từ quan trọng và từ hiếm, chưa từng xuất hiện trong dữ liệu học.
- Để đảm bảo cú pháp của tiêu đề, cần thiết phải áp dụng một mô hình xác suất sinh để tạo ra một tiêu đề dễ hiểu và quen thuộc. Tuy nhiên, để đảm bảo được sự chính xác thì cần áp dụng mô hình cho các lĩnh vực khác nhau. Việc áp dụng cho từng loại văn bản cụ thể sẽ giúp tăng độ chính xác và chất lượng của mô hình.
4.6. Tóm tắt chương bốn
Trong chương này, luận văn đã trình bày quá trình thử nghiệm xây dựng mục lục cho một văn bản cụ thể nhằm chứng minh tính khả thi và triển vọng của bài toán xây dựng mục lục cho văn bản. Luận văn cũng đã trình bày mô hình trực quan để so sánh sự phân đoạn của các thuật toán. Đồng thời, luận văn cũng đưa ra một số đánh giá của cá nhân và của các chuyên gia về kết quả thử nghiệm và đưa ra một số phương hướng cải tiến giúp tăng cường chất lượng của mô hình. Trong thời gian tiếp theo, tác giả sẽ tiếp tục thử nghiệm và cải tiến các thuật toán trên để đạt được kết quả cao hơn và hướng tới giải quyết triệt để bài toán phân đoạn đa cấp và sinh mục lục cho văn bản được phân đoạn đa cấp.
KẾT LUẬN
Luận văn đã tiến hành nghiên cứu và tìm hiểu bài toán xây dựng mục lục cho văn bản. Đây là một bài toán mới trong lĩnh vực xử lí ngôn ngữ tự nhiên và có liên hệ mật thiết với bài toán tóm tắt văn bản. Phương pháp giải quyết của luận văn là chia quá trình xây dựng mục lục thành hai quá trình nhỏ hơn là phân đoạn văn bản và sinh tiêu đề cho đoạn văn bản. Với mỗi quá trình này, luận văn đã tiến hành nghiên cứu, tìm hiểu và giới thiệu các phương pháp chính để giải quyết vấn đề đồng thời đánh giá ưu điểm cũng như khuyết điểm của các phương pháp. Luận văn đã tiến hành thử nghiệm trên một văn bản khoa học cụ thể để chứng minh tính khả thi của bài toán. Các kết quả thu được tương đối khả quan cho thấy triển vọng phát triển của bài toán.
Luận văn cũng đã đưa ra một số đề xuất về phương án tích hợp hai quá trình để giảm thiểu dư thừa dữ liệu cũng như thời gian tính toán. Thêm vào đó, luận văn cũng đã đề xuất một số cải tiến và hướng phát triển trong thời gian sắp tới để có thể đạt được những kết quả tốt hơn. Một số hướng phát triển tiếp theo của luận văn:
- Triển khai phân đoạn văn bản dựa trên chuỗi từ vựng với sự hỗ trợ từ WordNet.
- Cải tiến và đưa ra mô hình thuật toán mới cho phép phân đoạn văn bản đa cấp.
- Thử nghiệm các mô hình học có giám sát và bán giám sát trong việc sinh tiêu đề cho một văn bản.
- Triển khai thuật toán cải tiến dựa trên [5] để đảm bảo tính hợp lí và chất lượng của mục lục.
Đây là những hướng phát triển đã được nêu ra trong các chương của luận văn và có tính khả thi cao. Việc phát triển bài toán xây dựng mục lục cho văn bản có ý nghĩa lớn đối với các văn bản không có cấu trúc sẵn, trong đó đặc biệt là các văn bản dạng âm thanh.
TÀI LIỆU THAM KHẢO Tiếng Việt
1. Nguyễn Việt Cường, Nguyễn Thị Thuỳ Linh, Phan Xuân Hiếu, Hà Quang Thuỵ (2005), “Bài toán lọc và phân lớp nội dung web tiếng Việt với hướng tiếp cận Entropy cực đại”, Kỉyếu Hội thảo Quốc gia lần thứ8“Một số vấn đề chọn lọc của công nghệ thông tin”, tr. 174-189, Hải Phòng, Việt Nam.
Tiếng Anh
2. Angheluta R., De Busser R.D., Moens M.F. (2002), “The Use of Topic
Segmentation for Automatic Summarization”, In Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, USA.
3. Banko M., Mittal V.O., Witbrock M.J. (2000), “Headline Generation Based on Statistical Translation”, In Proceedings of the 38th Annual Meeting of the Association of Computational Linguistics, Hong Kong.
4. Beeferman D., Berger A., Lafferty J. (1999), “Statistical Models for Text Segmentation”, Machine Learning, 34(1-3), pp. 177-210.
5. Branavan S.R.K., Deshpande P., Barzilay R. (2007), “Generating a Table-of- Contents”, In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 544-551, Prague, Czech Republic.
6. Choi F. (2000), “Advances in domain independent linear text segmentation”,
In Proceedings of NAACL '00, pp. 26-33, Seattle, USA.
7. Church K.W. (1993), “Char align: A Program for Aligning Parallel Texts at the Character Level”, In Proceedings of the 31st Annual Meeting of the Association of Computational Linguistics, pp. 1-8, Ohio, USA.
8. Collins M., Roark B. (2004), “Incremental Parsing with the Perceptron Algorithm”, In Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics, pp. 111-118, Barcelona, Spain.
9. Cuong N.V., Linh N.T.T., Thuy H.Q., Hieu P.X. (2006), “A Maximum Entropy Model for Text Classification”, In Proceeding of International Conference on Internet Information Retrieval 2006, pp. 143-149, Korea. 10. Dorr B., Zajic D., Schwartz R. (2003), “Hedge Trimmer: A parse-and-trim
approach to headline generation”, In Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization, pp. 1-8, Edmonton, Canada.
11. Elhada N., McKeown K.R. (2001), “Towards generating patient specific summaries of medical articles”, In Proceedings of NAACL Workshop on Automatic Summarization, Pittsburgh, PA, USA.
12. Georgescul M., Clark A., Armstrong S. (2006), “An Analysis of Quantitative Aspects in the Evaluation of Thematic Segmentation
Algorithms”, In Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue, pp. 144-151.
13. Givón T. (2001), “Syntax: An Introduction”, John Benjamins Publishing, Amsterdam.
14. Goldstein J. (1999), “Automatic Text Summarization of Multiple Documents”, Thesis Proposal, Carnegie Mellon University.
15. Hearst M.A. (1994), “Multi-paragraph segmentation of expository text”, In Proceedings of the 32nd Annual Meeting of the Association of Computational Linguistics, pp. 9-16, New Mexico, USA.
16. Hearst M.A. (1997), “TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages”, Computational Linguistics, 23(1), pp. 33-64.
17. Jin R., Hauptmann A.G. (2002), “A New Probability Model for Title Generation”, The 19th International Conference on Computational Linguistics, Taiwan.
18. Jones K.S. (2007), “Automatic summarising: The state of the art”,
Information Processing and Management, doi:10.1016/j.ipm.2007.03.009. 19. Luhn H.P. (1958), “The automatic creation of literature abstracts”, IBM
Journal of Research and Development, 2, pp. 159-165.
20. Malioutov I., Barzilay R. (2006), “Minimum Cut Model for Spoken Lecture Segmentation”, In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pp. 25-32, Sydney, Australia.
21. Moens M.F., De Busser R. (2001), "Generic topic segmentation of document texts", In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 418-419, New York, USA.
22. Morris J., Hirst G. (1991), “Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of Text”, Computational