Mô hình hóa văn bản

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 62 - 63)

c. Mô hình tập thô dung sai

4.2.2.Mô hình hóa văn bản

Hình 4.2: Mô hình hóa văn bản

Để tiện cho việc xử lý và hiển thị, văn bản đầu vào được mô hình hóa thành đối tượng clsDocument. Đối tượng clsDocument bao gồm một mảng các đối tượng clsParagraph thể hiện cho các đoạn văn bản. Mỗi đối tượng clsParagraph về phần mình lại gồm mảng các clsSentence - đối tượng mô tả các câu trong đoạn. Một clsSentence bao gồm mảng các chỉ số của term trong câu. Ngoài ra, mỗi đối tượng clsDocument,

Đối tượng văn bản đã được mô hình hóa Văn bản

đã chuẩn hóa

Tách đoạn và câu

Tách thuật ngữ

Xác lập các thông số khác

Danh sách thuật ngữ tiếng Việt

clsParagraph, clsSentence còn chứa các thông tin khác tương ứng như số đoạn trong văn bản, số câu trong đoạn, đoạn này có phải là câu mở đầu hay không, câu này có phải là câu kết thúc hay không… Cuối cùng, các đối tượng này đều có thuộc tính Content để chứa dạng văn bản tương ứng của văn bản, đoạn hay câu. Nói chung, các đối tượng này được hiểu như là văn bản, đoạn văn, câu văn với tất cả các thuộc tính cần thiết.

Việc tách đoạn và câu dựa trên các dấu ngắt đoạn và dấu ngắt câu. Một module chuẩn hóa dấu chấm câu, phân biệt với dấu chấm thập phân, dấu chấm trong địa chỉ web, mail..., cũng được em cài đặt nhằm phân tách câu sao cho chính xác - một vấn đề khá quan trọng trong bài toán tóm tắt văn bản.

Sau khi tách đoạn và câu, mỗi câu sẽ được tách thuật ngữ theo phương pháp em sẽ trình bày dưới đây. Kết quả là một câu sẽ được tách thành mảng các term thuật ngữ dạng chuỗi ký tự hay dạng chỉ số của thuật ngữ trong từ điển. Cuối cùng, danh sách này sẽ được mô hình hóa bởi mô hình không gian vector thưa, với các trọng số của term là số lần xuất hiện của term đó trong văn bản.

Song song với quá trình tách đoạn, câu và vector hóa mảng term này, các thông số khác của đối tượng clsDocument cũng được xác lập. Chú ý rằng câu Title cũng là một câu và được mô hình hóa bởi một đối tượng clsSentence đặc biệt.

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 62 - 63)