bài toán tự động tóm tắt bằng trích rút câu nói chung và các kỹ thuật được sử dụng trong mỗi bước. Từ cái nhìn khái quát về bài toán đó chúng tôi đã chọn 3 phương pháp khác nhau để thực hiện tóm tắt văn bản cho tiếng Việt mà cụ thể là cho các bài báo tin tức. Trong số các phương pháp chúng tôi lựa chọn, phương pháp sử dụng độ đo TF-IDF và kết hợp các phương pháp heuristics không cần một bộ dữ liệu gì đặc biệt. Tuy nhiên, với phương pháp học máy theo mô hình Entropy cực đại thì yêu cầu một bộ dữ liệu huấn luyện đủ lớn gồm tài liệu và bản tóm tắt của nó bằng trích rút câu. Đây thật sự là một thách thức bởi vì bộ dữ liệu này thường được tạo bởi các chuyên gia tóm tắt văn bản. Để giải quyết vấn đề khó khăn đó chúng tôi đã thực hiện hai phương pháp tự động sinh dữ liệu huấn luyện: phương pháp thống kê và mô hình Markov ẩn.
Một vấn đề không thể thiếu được trong các hệ tự động tóm tắt văn bản là giản lược câu. Trong nghiên cứu này do thiếu một cơ sở dữ liệu cần thiết nên chúng tôi chỉ thực hiện việc giản lược câu rất đơn giản là loại bỏ phần chú thích – phần trong dấu ngoặc đơn “()” hoặc “- -“.
Hướng nghiên cứu tiếp theo:
- Xây dựng một bộ từ điển ngữ nghĩa tiếng Việt, có thể là dịch từ WordNet tiếng Anh. Với bộ từ điển đó chúng tôi sẽ sử dụng để tiếp tục nâng cao chất lượng của phương pháp sinh dữ liệu huấn luyện, sử dụng các đặc trưng ngữ nghĩa cho phương pháp học máy.
- Thực hiện các kỹ thuật rút gọn câu phức tạp hơn như loại bỏ ngữ đồng vị,…
TÀI LIỆU THAM KHẢO
[1]. Trần Ngọc Anh, Kỹ thuật mã hóa từ tiếng Việt và ứng dụng kiểm lỗi chính tả từ - cụm từ trong văn bản, Luận văn thạc sỹ, Học viện Kỹ
thuật Quân sự
[2]. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản Tiếng Việt, Khoa Toán – Cơ – Tin học, Đại học Khoa học Tự nhiên Hà Nội, Việt Nam
[3]. Đỗ Phúc, Hoàng Kiếm, Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung, Trung tâm phát triển công nghệ thông tin,
Đại học quốc gia TP. Hồ Chí Minh
[4]. Alexander Budanitsky & Graeme Hirst, Evaluating WordNet-based Measures of Lexical Semantic Relatedness, Department of
Computer Science, Toronto, Ontario, Canada, 2005
[5]. Iason Demiros1,2, Vassilios Antonopoulos1,2, Byron Georgantopoulos3, Yannis Triantafyllou1,2, Stelios Piperidis1,2,
Connectionist Models for Sentence-based Text Extracts, 1Institute for Language and Speech Processing Artemidos 6 & Epidavrou, 151 25, Athens, Greece, 2National Technical University of Athens,
3University of Athens
[6]. Yihong Gong, and Xin Liu, Creating Generic Text Summaries, NEC USA, Inc. C & C Research Laboratories 110 Rio Robles Drive San Jose, CA 95134
[7]. Tsutomu HIRAO and Hideki ISOZAKI and Eisaku MAEDA,
Extracting Important Sentnces with Support Vector Machines, NTT Communication Science Laboratories 2-4, Hikaridai, Seika-cho, Soraku-gun, Kyoto 619-0237 Japan
[8]. Eduard Hovy, Chapter 32: Text Summarization
[9]. Hongyan Jing and Kathleen R. McKeown, The Decomposition of Human-Written Summary Sentences, Department of Computer
Science Columbia University New York, NY 10027, USA
[10]. Hongyan Jing, Using Hidden Markov Modeling o Decompose
Human-Written Summaries, Lucent Technologies, Bell Laboratories
[11]. Wooncheol Jung1, Youngjoong Ko2, and Jungyun Seo1, Automatic
Text Summarization Using Two-Step Sentence Extraction,
1Deparment of Computer Science and Program of Integrated Biotechnology, Sogang University, Sinsu-dong 1, Mapo-gu Seoul, 121-742, Korea, 2Division of Electronics and Computer Engineering, Dong-A University, 840 Hadan 2-dong, Saha-gu, Busan, 604-714, Korea
[12]. Canasai Kruengkrai and Chuleerat Jaruskulchai, Generic Text summarization Using Local and Global Properties of Sentences,
Intelligent Information Retrieval and Database Laboratory Department of Computer Science, Faculty of Science Kasetsart University, Bangkok, Thailand.
[13]. Inderjeet Mani, Recent Deverlopments in text summarization, The Mitre Corporation 11493 Sunset Hills Road, W640 Reston, VA 20190, USA
[14]. Ryan McDonald, A study of Global Inference Algorithms in Multi-
Document summarization, Google Research 76 Ninth Avenue, New
York, NY 10011
[15]. Rada Mihalcea, Text processing,
[16]. Rada Mihalcea, Text properties,
http://www.cs.unt.edu/~rada/CSCE5200
[17]. Rada Mihalcea, IR models: Boolean model,
http://www.cs.unt.edu/~rada/CSCE5200
[18]. Rada Mihalcea, IR models: Vectorial Model,
http://www.cs.unt.edu/~rada/CSCE5200
[19]. Marie-Francine Moens, Roxana Angheluta, Jos Dumortier, Generic
technologies for single- and multi-document summarization,
Interdisciplinary Centre for Law & IT (ICRI), Katholieke Universiteit Leuven, Tiensestraat 41, B-3000 Leuven, Belgium
[20]. Andrew W. Moore, Hidden Markov Models, Scholl of Computer Science Carnegie Mellon University
[21]. Joel Larocca Neto, Alex A. Freitas, and Celso A. A. Kaestner,
Automatic Text Summarization Using a Machine Learning Approach, Pontifical Catholic University of Parana (PUCPR) Rua
Imaculada Conceicao, 1155
[22]. Minh Le Nguyen, Statistical Machine Learning Approaches to
Cross Language Text Summarization, submitted ot Japan Advanced
Institute of Science and Technology in partial fulfillment of the requirements for the degree of Doctor of Philosophy, School of Information Science Japan Advanced Institute of Science and Technology. September 2004.
[23]. Tadashi Nomoto, Bayesian Learning in Text Summarization, National Institute of Japanese Literature 1-16-10 Yutaka Shinagawa Tokyo 142-8585 Japan
[24]. Miles Osborne, Using Maximum Entropy for Sentence Extraction, Division of Informatics University of Edinburgh 2 Buccleuch Place Edinburgh EH8 9LW United Kingdom
[25]. Khosrow Kaikhah, Automatic Text Summarization with Neural
Networks, Computer Science Department, Texas State University,
San Marcos, Texas 78666
[26]. Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and
Selected Application in Speech Recognition
[27]. Dragomir R. Radev – University of Michigan, Eduard Hovy – USC/ISI, Kathleen McKeown – Columbia University, Introduction
to the Special Issue on summarization.
[28]. Dragomir R. Radev, Text summarization, Computational Linguistics And Information Retrieval group University of Michigan
[29]. G. Ravindra1, N. Balakrishnan1, and K.R. Ramakrishnan2, Multi-
document Automatic Text Summarization Using Entropy Estimates,
1Supercomputer Education and Research Center, Institute of Science, Bangalor-560012, India, 2Department of Electrical Engineering, Instiute of Science, Bangalor-560012, India
[30]. Horacio Saggion, Automatic Text Summarization: Past, Present,
and Future, Department of Computer Science University of
Sheffield England, United Kingdom, 2004
[31]. Aaron D. Scriver, Semantic Distance in WordNet: A Simplified and
Improved Measure of Semantic Relatedness, A thesis presented to
the University of Waterloo in fulfilment of the thesis requirement for the degree of Master of Mathematics in Computer Science, 2006