Tựđộngsinhmụclụcchovănbản
Nguyễn Việt Cường
Trường Đại học Công nghệ
Luận văn ThS chuyên ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS TS Hà Quang Thụy
Năm bảo vệ: 2007
Abstract: Giới thiệu bài toán tóm tắt vănbản nói chung và bài toán xây dựng mụclụccho
văn bản nói riêng; Nghiên cứu các phương pháp và thuật toán tiêu biểu sử dụng trong các
phân đoạn và sinh tiêu đề trong quá trình xây dựng mụclụcchovăn bản; Phân tích và đề xuất
phương án tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; Đề
xuất một số hướng cải tiến và trình bày các phương pháp đánh giá; Phần thử nghiệm trình
bày quá trình thử nghiệm cùng các kết quả đạt được, đưa ra những ý kiến phân tích và đánh
giá các kết quả làm tiền đề cho các ý kiến đề xuất
Keywords: Công nghệ thông tin, Soạn thảo văn bản, Tựđộngsinhmụclục
Content
MỞ ĐẦU
Hiện nay, lượng vănbản được số hoá đang tăng lên nhanh chóng và đặc biệt được phổ biến
rộng rãi cùng với sự tăng trưởng của Internet. Các vănbản này thuộc nhiều dạng khác nhau
như vănbản chữ viết, vănbản âm thanh và vănbản hình ảnh. Nguồn thông tin khổng lồ này
vừa mang lại lợi ích giúp con người tiếp cận và khai thác được nhiều thông tin hơn, nhưng
mặt khác cũng gây khó khăn cho công việc lựa chọn và tổng hợp thông tin. Lĩnh vực xử lí
ngôn ngữ tự nhiên (xử lí ngôn ngữ trên máy tính một cách tự động) ra đời nhằm giải quyết
phần nào sự khó khăn này.
Lĩnh vực xử lí ngôn ngữ tự nhiên đã đặt ra hàng loạt bài toán nhằm giải quyết các khó khăn
và trợ giúp con người xử lí vănbản tốt hơn như: tìm kiếm văn bản, phân lớp văn bản, rút trích
thông tin, tóm tắt văn bản, hệ thống hỏi-đáp,… Các hệ thống thông tin trực tuyến như Google,
Yahoo!, MSN,… đã thể hiện được các kết quả nghiên cứu giải quyết các bài toán này. Ví dụ
như máy tìm kiếm Google đảm nhận việc tìm kiếm các vănbản theo yêu cầu của người dùng,
trích ra các đoạn vănbản liên quan đến yêu cầu, tóm tắt lại dựa trên các thông tin đó và hiển
thị cho người dùng lựa chọn. Tuy chất lượng xử lí vănbản chưa đạt được mức độ như con
người nhưng sự lớn mạnh của các cỗ máy tìm kiếm trên đã cho thấy tiềm năng và triển vọng
thực sự của các bài toán trong xử lí ngôn ngữ tự nhiên.
Tóm tắt vănbản là một bài toán trong xử lí ngôn ngữ tự nhiên, đó là “một quá trình thu gọn
văn bản đầu vào thành vănbản tóm tắt thông qua việc cô đọng nội dung bằng cách lựa chọn
và/hoặc tổng hợp những thông tin quan trọng trong vănbản đầu vào” [18]. Trong thời gian
gần đây, tóm tắt vănbản đang nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu trên
thế giới với sự tăng trưởng về số bài báo có liên quan trong các hội nghị DUC
1
2001-2007,
ACL
2
2001-2007,…; sự phát triển của các hệ thống tóm tắt văn bản
3
như MEAD, LexRank,
Text Analyst (Megaputer), Text Analysis (IBM Japan), Microsoft Word,… Rất nhiều bài
toán nhỏ của tóm tắt vănbản đã được đặt ra và giải quyết [18] thông qua các hội nghị và phần
mềm kể trên.
Một trong những vấn đề được quan tâm nghiên cứu gần đây là xây dựng mụclụcchovănbản
một cách tựđộng [2, 5]. Đây là một bài toán tóm tắt văn bản, trong đó các thông tin quan
trọng của tài liệu được định nghĩa là tiêu đề của các đoạn vănbản và được thể hiện dưới dạng
danh sách ở mụclục của văn bản. Cấu trúc mụclục là một cấu trúc phổ biến ở trong các văn
bản dài mà đặc biệt là các cuốn sách, nó giúp người đọc tìm kiếm chủ đề quan tâm và định vị
được vị trí của chủ đề đó trong văn bản. Đối với các vănbản âm thanh, hình ảnh, việc xây
dựng được mụclụcchovănbản là rất cần thiết vì những vănbản dạng này hầu như không có
sẵn mụclục để định vị các phân đoạn thông tin khác nhau [3, 10, 18, 20]. Việc xây dựng mục
lục chovănbản gồm hai bước, bước thứ nhất là phân đoạn văn bản, tức là phân vănbản
thành các đoạn rời rạc, nối tiếp nhau, mỗi đoạn nói về một chủ đề tương đối khác nhau [2, 4,
6, 15, 16, 20] và bước thứ hai là sinh tiêu đề cho các đoạn văn bản, tức là sinh một cụm từ
ngắn thể hiện được chủ đề chính của đoạn văn [3, 10, 17, 28]. Trong [5], các tác giả đã trình
bày và thử nghiệm xây dựng mụclụcchovăn bản, tuy nhiên bài báo mới dừng lại ở việc giải
quyết nửa sau của bài toán xây dựng mụclụcchovăn bản, tức là sinh tiêu đề và xây dựng cấu
trúc mụclục với việc sử dụng cấu trúc phân đoạn sẵn có của văn bản. Hơn thế nữa, mô hình
trong [5] là mô hình học giám sát, đòi hỏi phải có dữ liệu huấn luyện trong khi loại dữ liệu
này rất thiếu đối với bài toán được đề cập.
Với việc lựa chọn đề tài “Tự độngsinh mục lụcchovăn bản”, luận văn này hướng tới việc
tích hợp hai bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lụcchovănbản
một cách tự động. Trong luận văn này, các bài toán của từng bước được nghiên cứu chi tiết;
phương pháp tích hợp hai bước với nhau được đề xuất và tiến hành thử nghiệm thực tế trên
văn bản khoa học. Kết quả thực nghiệm khả quan của luận văn đã cho thấy tính khả thi và
triển vọng của bài toán này. Ngoài ra trong luận văn, tác giả cũng đưa ra những phương
hướng cải tiến cùng cơ sở khoa học của nó để làm tiền đề cho các nghiên cứu tiếp theo.
Ngoài phần mở đầu và kết luận, kết cấu của luận vănbao gồm 4 chương:
1
http://duc.nist.gov/
2
http://www.aclweb.org/
3
http://www.ics.mq.edu.au/~swan/summarization/projects_full.htm
- Chương 1 “Giới thiệu bài toán” sẽ giới thiệu bài toán tóm tắt vănbản nói chung
và bài toán xây dựng mục lụcchovănbản nói riêng; phân tích các công trình có
liên quan và đưa ra các thức giải quyết bài toán của luận văn.
- Chương 2 “Phân đoạn vănbản và sinh tiêu đề” sẽ tiến hành nghiên cứu và trình
bày các phương pháp và thuật toán tiêu biểu được sử dụng trong các bước phân
đoạn và sinh tiêu đề trong quá trình xây dựng mục lụcchovăn bản.
- Chương 3 “Xây dựng mục lụcchovăn bản” sẽ phân tích và đề xuất phương án
tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; đề
xuất một số hướng cải tiến và cơ sở lí luận của các cải tiến đó; và trình bày các
phương pháp đánh giá.
- Chương 4 “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận
văn cùng các kết quả đạt được, đồng thời phân tích và đánh giá các kết quả đó để
làm tiền đề cho các đề xuất cải tiến.
References
Tiếng Việt
1. Nguyễn Việt Cường, Nguyễn Thị Thuỳ Linh, Phan Xuân Hiếu, Hà Quang Thuỵ (2005),
“Bài toán lọc và phân lớp nội dung web tiếng Việt với hướng tiếp cận Entropy cực đại”,
Kỉ yếu Hội thảo Quốc gia lần thứ 8 “Một số vấn đề chọn lọc của công nghệ thông tin”,
tr. 174-189, Hải Phòng, Việt Nam.
Tiếng Anh
2. Angheluta R., De Busser R.D., Moens M.F. (2002), “The Use of Topic Segmentation for
Automatic Summarization”, In Proceedings of the 40
th
Annual Meeting of the
Association of Computational Linguistics, Philadelphia, USA.
3. Banko M., Mittal V.O., Witbrock M.J. (2000), “Headline Generation Based on
Statistical Translation”, In Proceedings of the 38
th
Annual Meeting of the Association of
Computational Linguistics, Hong Kong.
4. Beeferman D., Berger A., Lafferty J. (1999), “Statistical Models for Text Segmentation”,
Machine Learning, 34(1-3), pp. 177-210.
5. Branavan S.R.K., Deshpande P., Barzilay R. (2007), “Generating a Table-of-Contents”,
In Proceedings of the 45
th
Annual Meeting of the Association of Computational
Linguistics, pp. 544-551, Prague, Czech Republic.
6. Choi F. (2000), “Advances in domain independent linear text segmentation”, In
Proceedings of NAACL '00, pp. 26-33, Seattle, USA.
7. Church K.W. (1993), “Char align: A Program for Aligning Parallel Texts at the
Character Level”, In Proceedings of the 31
st
Annual Meeting of the Association of
Computational Linguistics, pp. 1-8, Ohio, USA.
8. Collins M., Roark B. (2004), “Incremental Parsing with the Perceptron Algorithm”, In
Proceedings of the 42
nd
Annual Meeting of the Association of Computational Linguistics,
pp. 111-118, Barcelona, Spain.
9. Cuong N.V., Linh N.T.T., Thuy H.Q., Hieu P.X. (2006), “A Maximum Entropy Model
for Text Classification”, In Proceeding of International Conference on Internet
Information Retrieval 2006, pp. 143-149, Korea.
10. Dorr B., Zajic D., Schwartz R. (2003), “Hedge Trimmer: A parse-and-trim approach to
headline generation”, In Proceedings of the HLT-NAACL 2003 Workshop on Text
Summarization, pp. 1-8, Edmonton, Canada.
11. Elhada N., McKeown K.R. (2001), “Towards generating patient specific summaries of
medical articles”, In Proceedings of NAACL Workshop on Automatic Summarization,
Pittsburgh, PA, USA.
12. Georgescul M., Clark A., Armstrong S. (2006), “An Analysis of Quantitative Aspects in
the Evaluation of Thematic Segmentation Algorithms”, In Proceedings of the 7th
SIGdial Workshop on Discourse and Dialogue, pp. 144-151.
13. Givón T. (2001), “Syntax: An Introduction”, John Benjamins Publishing, Amsterdam.
14. Goldstein J. (1999), “Automatic Text Summarization of Multiple Documents”, Thesis
Proposal, Carnegie Mellon University.
15. Hearst M.A. (1994), “Multi-paragraph segmentation of expository text”, In Proceedings
of the 32
nd
Annual Meeting of the Association of Computational Linguistics, pp. 9-16,
New Mexico, USA.
16. Hearst M.A. (1997), “TextTiling: Segmenting Text into Multi-Paragraph Subtopic
Passages”, Computational Linguistics, 23(1), pp. 33-64.
17. Jin R., Hauptmann A.G. (2002), “A New Probability Model for Title Generation”, The
19
th
International Conference on Computational Linguistics, Taiwan.
18. Jones K.S. (2007), “Automatic summarising: The state of the art”, Information
Processing and Management, doi:10.1016/j.ipm.2007.03.009.
19. Luhn H.P. (1958), “The automatic creation of literature abstracts”, IBM Journal of
Research and Development, 2, pp. 159-165.
20. Malioutov I., Barzilay R. (2006), “Minimum Cut Model for Spoken Lecture
Segmentation”, In Proceedings of the 21
st
International Conference on Computational
Linguistics and 44
th
Annual Meeting of the ACL, pp. 25-32, Sydney, Australia.
21. Moens M.F., De Busser R. (2001), "Generic topic segmentation of document texts", In
Proceedings of the 24th Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval, pp. 418-419, New York, USA.
22. Morris J., Hirst G. (1991), “Lexical Cohesion Computed by Thesaural Relations as an
Indicator of the Structure of Text”, Computational Linguistics, 17(1), pp. 21-48.
23. Pevzner L., Hearst M.A. (2002), “A Critique and Improvement of an Evaluation Metric
for Text Segmentation”, Computational Linguistics, 28 (1), pp. 19-36.
24. Ponte J.M., Croft W.B. (1997), “Text Segmentation by Topic”, In Proceedings of the
First European Conference on Research and Advanced Technology for Digitial
Libraries, pp.120-129.
25. Reynar J.C. (1994), “An automatic method of finding topic boundaries”, In Proceedings
of the 32nd Annual Meeting of the Association for Computational Linguistics, pp. 331-
333.
26. Shi J., Malik J. (2000), “Normalized Cuts and Image Segmentation”, IEEE Transactions
on Pattern Analysis and Machine Intelligence, 22(8) pp. 888-905.
27. Teufel S., Moens M. (2002), “Summarizing Scientific Articles: Experiments with
Relevance and Rhetorical Status”, Computational Linguistics, 28(4), pp. 409-445.
28. Witbrock M.J., Mittal V.O. (1999), “Ultra-Summarization: A statistical Approach to
Generating Highly Condensed Non-Extractive Summaries”, In Proceedings of the 22
nd
International Conference on Research and Development in Information Retrieval
(SIGIR '99), Poster Session, 315-316, USA.
. Tự động sinh mục lục cho văn bản , luận văn này hướng tới việc
tích hợp hai bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản. nghiệm xây dựng mục lục cho văn bản, tuy nhiên bài báo mới dừng lại ở việc giải
quyết nửa sau của bài toán xây dựng mục lục cho văn bản, tức là sinh tiêu đề