Mô hình hóa văn bản

c. Mô hình tập thô dung sai

4.2.2. Mô hình hóa văn bản

Hình 4.2: Mô hình hóa văn bản

Để tiện cho việc xử lý và hiển thị, văn bản đầu vào được mô hình hóa thành đối tượng clsDocument. Đối tượng clsDocument bao gồm một mảng các đối tượng clsParagraph thể hiện cho các đoạn văn bản. Mỗi đối tượng clsParagraph về phần mình lại gồm mảng các clsSentence - đối tượng mô tả các câu trong đoạn. Một clsSentence bao gồm mảng các chỉ số của term trong câu. Ngoài ra, mỗi đối tượng clsDocument,

Đối tượng văn bản đã được mô hình hóa Văn bản

đã chuẩn hóa

Tách đoạn và câu

Tách thuật ngữ

Xác lập các thông số khác

Danh sách thuật ngữ tiếng Việt

clsParagraph, clsSentence còn chứa các thông tin khác tương ứng như số đoạn trong văn bản, số câu trong đoạn, đoạn này có phải là câu mở đầu hay không, câu này có phải là câu kết thúc hay không… Cuối cùng, các đối tượng này đều có thuộc tính Content để chứa dạng văn bản tương ứng của văn bản, đoạn hay câu. Nói chung, các đối tượng này được hiểu như là văn bản, đoạn văn, câu văn với tất cả các thuộc tính cần thiết.

Việc tách đoạn và câu dựa trên các dấu ngắt đoạn và dấu ngắt câu. Một module chuẩn hóa dấu chấm câu, phân biệt với dấu chấm thập phân, dấu chấm trong địa chỉ web, mail..., cũng được em cài đặt nhằm phân tách câu sao cho chính xác - một vấn đề khá quan trọng trong bài toán tóm tắt văn bản.

Sau khi tách đoạn và câu, mỗi câu sẽ được tách thuật ngữ theo phương pháp em sẽ trình bày dưới đây. Kết quả là một câu sẽ được tách thành mảng các term thuật ngữ dạng chuỗi ký tự hay dạng chỉ số của thuật ngữ trong từ điển. Cuối cùng, danh sách này sẽ được mô hình hóa bởi mô hình không gian vector thưa, với các trọng số của term là số lần xuất hiện của term đó trong văn bản.

Song song với quá trình tách đoạn, câu và vector hóa mảng term này, các thông số khác của đối tượng clsDocument cũng được xác lập. Chú ý rằng câu Title cũng là một câu và được mô hình hóa bởi một đối tượng clsSentence đặc biệt.

Đặc trưng về từ pháp và hình thái

Phân loại bài toán Tóm tắt văn bản