Các đặc trưng của tĩm tắt (Summaried Features)

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 28 - 30)

Đặc trưng của tĩm tắt (SF) là một đặc điểm nào đĩ của một thành phần trong văn bản cho thấy nĩ cĩ giá trị về nội dung cao và cĩ nhiều khả năng được sử dụng để tạo nên TTVB.

Ví dụ trong giải thuật dựa vào tính giá trị trung bình tần suất ở trên, ta chọn những câu cĩ giá trị Avg-TF-ISF cao để đưa vào tĩm tắt. Suy ra Avg-TF-ISF cũng là một đặc trưng của TTVB.

Cĩ rất nhiều đặc trưng tĩm tắt, cĩ thể nêu ra cơ bản một số đặc trưng sau:

Độ dài câu (Sentence Length feature) Đặc trưng này chỉ ra rằng những câu cĩ độ dài quá ngắn (cĩ số từ hoặc số ký tự ngắn hơn một độ dài cho trước nào đĩ) khĩ cĩ thể được sử dụng để tạo Tĩm tắt.

Vị trí câu (Sentence Position feature) Đặc trưng này liên quan tới khả năng câu chứa ý chính cĩ vị trí đặc biệt nào đĩ trong văn bản, hay trong đoạn văn

Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê thuộc văn bản. Ví dụ: Một hoặc hai câu đầu tiên của mỗi văn bản, mỗi đoạn văn cĩ khả năng cao để tạo tĩm tắt. Một vài câu gần cuối cùng của văn bẳn, đoạn văn cũng cĩ giá trị tương tự. Tuy nhiên câu cuối cùng thì khơng bao giờ được sử dụng để tạo tĩm tắt.

Chứa nội dung tiêu đề (Title feature). Nếu câu nào đĩ chứa các thuật ngữ xuất hiện trong tiêu đề thì nĩ cĩ nhiều khả năng được sử dụng để tĩm tắt

Chứa các thuật ngữ đặc biệt (Fixed-phrases feature). Đặc trưng này chỉ ra rằng nếu các câu cĩ chứa các thuật ngữ tĩm lược (Cue phrases) như “tĩm lại”, “tổng quát”, “tổng hợp”,… hoặc các thuật ngữ nhấn mạnh (emphasizer) như “quan trọng”, “riêng biệt”,… thì chúng đều cĩ khả năng rất cao được sử dụng để tạo tĩm tắt.

Từ viết hoa (Uppercase word feature). Từ viết hoa thường là viết tắt cho cho một thuật ngữ dài hoặc một tên riêng nào đĩ. Ví dụ VCB là viết tắt của VietCom Bank. Thực tế cho thấy các câu chứa các định nghĩa viết hoa cũng hay chứa những nội dung quan trọng cĩ thể được sử dụng trong tĩm tắt.

Dựa trên cây nhị phân (Binary Tree). Cây nhị phân được sử dụng để tính độ tương tự giữa các thành phần liền kề nhau trong một văn . Vị trí của một câu trong cây nhị phân xác định độ tương quan về nội dung với các thành phần liền kề nĩ, qua đĩ cĩ thể xác định khả năng nĩ cĩ được sử dụng để tĩm tắt hay khơng

Hình 10: Ví dụ về cây nhị phân

Cịn rất nhiều đặc trưng của văn bản cĩ thể sử dụng để hỗ trợ tĩm tắt. Vấn đề đặt ra ở chỗ kết hợp các đặc trưng này để xây dựng tĩm tắt như thế nào.

Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 28 - 30)

Tải bản đầy đủ (DOC)

(91 trang)
w