Cấu trúc văn bản thử nghiệm

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tự động sinh mục lục cho văn bản Luận văn ThS. Công nghệ thông tin 60 48 05 (Trang 36 - 37)

Mục Tiêu đề Câu

bắt đầu

Câu

kết thúc Mô tả

1 Introduction 1 6 Giới thiệu về bài toán phân đoạn văn bản.

2 Research problem 7 16 Giới thiệu vấn đề cần nghiên cứu và nhiệm vụ của bài báo.

3 Methods 17 52 Trình bày các phương pháp sử dụng trong quá trình phân đoạn văn bản. 3.1 Content terms and

their distribution

17 22 Trình bày vấn đề về các khái niệm và sự phân bố của nó ảnh hưởng tới phân đoạn văn bản.

3.2 Lexical chains 23 29 Mô tả về phương pháp sử dụng chuỗi từ vựng để phân đoạn văn bản.

3.3 Topic segmentation 30 45 Trình bày các bước trong thuật toán phân đoạn văn bản mà bài báo trình bày, sử dụng sự phân bố của các khái niệm và chuỗi từ vựng.

3.4 Test corpora 46 52 Trình bày về tập dữ liệu thử nghiệm và sự khó khăn trong việc đánh giá mô hình.

4 Related research 53 60 Giới thiệu một số thuật toán phân đoạn văn bản khác và khiếm khuyết của các thuật toán đó.

5 Conclusions 61 63 Kết luận về bài báo: đóng góp và hướng phát triển.

Văn bản này được chia thành 5 mục lớn với mục số 3 được chia làm 4 mục con, do đó, với cách phân đoạn tuyến tính ta có thể coi văn bản được chia

làm 8 mục. Trong phần này, luận văn sẽ chỉ giới hạn thử nghiệm bằng phương pháp phân đoạn tuyến tính.

Trong quá trình loại bỏ từ dừng, luận văn sử dụng tập từ dừng trong công cụ TextTiling của MartiHearst có sửa đổi để thêm nhiều từ dừng hơn. Danh sách các từ dừng được sử dụng được liệt kê trong Bảng 4.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tự động sinh mục lục cho văn bản Luận văn ThS. Công nghệ thông tin 60 48 05 (Trang 36 - 37)

Tải bản đầy đủ (PDF)

(48 trang)