c. Mô hình tập thô dung sai
4.2.2. Mô hình hóa văn bản
Hình 4.2: Mô hình hóa văn bản
Để tiện cho việc xử lý và hiển thị, văn bản đầu vào được mô hình hóa thành đối tượng clsDocument. Đối tượng clsDocument bao gồm một mảng các đối tượng clsParagraph thể hiện cho các đoạn văn bản. Mỗi đối tượng clsParagraph về phần mình lại gồm mảng các clsSentence - đối tượng mô tả các câu trong đoạn. Một clsSentence bao gồm mảng các chỉ số của term trong câu. Ngoài ra, mỗi đối tượng clsDocument,
Đối tượng văn bản đã được mô hình hóa Văn bản
đã chuẩn hóa
Tách đoạn và câu
Tách thuật ngữ
Xác lập các thông số khác
Danh sách thuật ngữ tiếng Việt
clsParagraph, clsSentence còn chứa các thông tin khác tương ứng như số đoạn trong văn bản, số câu trong đoạn, đoạn này có phải là câu mở đầu hay không, câu này có phải là câu kết thúc hay không… Cuối cùng, các đối tượng này đều có thuộc tính Content để chứa dạng văn bản tương ứng của văn bản, đoạn hay câu. Nói chung, các đối tượng này được hiểu như là văn bản, đoạn văn, câu văn với tất cả các thuộc tính cần thiết.
Việc tách đoạn và câu dựa trên các dấu ngắt đoạn và dấu ngắt câu. Một module chuẩn hóa dấu chấm câu, phân biệt với dấu chấm thập phân, dấu chấm trong địa chỉ web, mail..., cũng được em cài đặt nhằm phân tách câu sao cho chính xác - một vấn đề khá quan trọng trong bài toán tóm tắt văn bản.
Sau khi tách đoạn và câu, mỗi câu sẽ được tách thuật ngữ theo phương pháp em sẽ trình bày dưới đây. Kết quả là một câu sẽ được tách thành mảng các term thuật ngữ dạng chuỗi ký tự hay dạng chỉ số của thuật ngữ trong từ điển. Cuối cùng, danh sách này sẽ được mô hình hóa bởi mô hình không gian vector thưa, với các trọng số của term là số lần xuất hiện của term đó trong văn bản.
Song song với quá trình tách đoạn, câu và vector hóa mảng term này, các thông số khác của đối tượng clsDocument cũng được xác lập. Chú ý rằng câu Title cũng là một câu và được mô hình hóa bởi một đối tượng clsSentence đặc biệt.