Văn bản được sử dụng để thử nghiệm là bài báo “Generic Topic Segmentation of Document Texts” [21]. Bài báo này bao gồm 1.353 từ với 63 câu được chia làm 5 mục lớn (không tính các phần tiêu đề, tóm tắt, lời cảm ơn và tài liệu tham khảo). Chi tiết về các phần được trình bày trong Bảng 3.
Bảng 3. Cấu trúc văn bản thử nghiệm
Mục Tiêu đề Câu bắt đầu
kết thúc Mô tả
1 Introduction 1 6 Giới thiệu về bài toán phân đoạn văn bản.
2 Research problem 7 16 Giới thiệu vấn đề cần nghiên cứu và nhiệm vụ của bài báo.
3 Methods 17 52 Trình bày các phương pháp sử dụng trong quá trình phân đoạn văn bản. 3.1 Content terms and
their distribution
17 22 Trình bày vấn đề về các khái niệm và sự phân bố của nó ảnh hưởng tới phân đoạn văn bản.
3.2 Lexical chains 23 29 Mô tả về phương pháp sử dụng chuỗi từ vựng để phân đoạn văn bản.
3.3 Topic segmentation 30 45 Trình bày các bước trong thuật toán phân đoạn văn bản mà bài báo trình bày, sử dụng sự phân bố của các khái niệm và chuỗi từ vựng.
3.4 Test corpora 46 52 Trình bày về tập dữ liệu thử nghiệm và sự khó khăn trong việc đánh giá mô hình.
4 Related research 53 60 Giới thiệu một số thuật toán phân đoạn văn bản khác và khiếm khuyết của các thuật toán đó.
5 Conclusions 61 63 Kết luận về bài báo: đóng góp và hướng phát triển.
Văn bản này được chia thành 5 mục lớn với mục số 3 được chia làm 4 mục con, do đó, với cách phân đoạn tuyến tính ta có thể coi văn bản được chia
làm 8 mục. Trong phần này, luận văn sẽ chỉ giới hạn thử nghiệm bằng phương pháp phân đoạn tuyến tính.
Trong quá trình loại bỏ từ dừng, luận văn sử dụng tập từ dừng trong công cụ TextTiling của MartiHearst có sửa đổi để thêm nhiều từ dừng hơn. Danh sách các từ dừng được sử dụng được liệt kê trong Bảng 4.
Bảng 4. Danh sách từ dừng
Trong quá trình gán nhãn từ loại sử dụng công cụ LT CHUNK, tập các nhãn từ loại được sử dụng là tập nhãn thu gọn được kế thừa từ tập nhãn Penn Treebank (http://www.cis.upenn.edu/~treebank/). Danh sách các nhãn cùng mô tả được trình bày trong Bảng 5 và Bảng 6.
