Giải thuật áp dụng chuỗi từ vựng để TTVB (Summarization using

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 34 - 35)

Lexical Chains)

Giải thuật này được trình bày đầu tiên bởi Regina Barzilay và Michael Elhadad (Using Lexical Chains for Text Summarization - 1997). Điểm mấu chốt của giải thuật này là xây dựng các chuỗi từ vựng từ văn bản gốc sao cho độ dài các chuỗi này là lớn nhất, sau đĩ ghi điểm và chọn ra các chuỗi mạnh. Tĩm tắt được trích rút từ văn bản gốc bằng cách với mỗi chuỗi mạnh, tìm một câu chứa nội dung liên quan tới chuỗi từ vựng đĩ. Trong giải thuật của mình, Barzilay cĩ đề cập tới việc sử dụng thư viện WordNet (mỗi từ được giải nghĩa theo nhiều hướng sử dụng. Mỗi hướng sử dụng được biểu thị bởi một tập hợp các từ đồng nghĩa. Tập hợp đĩ gọi là synset).

Cụ thể, Barzilay[7] đưa ra giải thuật:

Bước 1: Đọc văn bản và lọc ra một tập hợp các thuật ngữ là các danh từ.

Bước 2: Với mỗi thuật ngữ tìm được ở bước 1 thực hiện:

(a). Dựa vào WordNet tìm xem các chuỗi từ vựng với hướng sử dụng cụ thể đã cĩ cĩ liên quan tới thuật ngữ khơng. Nếu cĩ sang (b), nếu khơng sang (c).

(b). Nếu cĩ nhiều hơn một chuỗi từ vựng đã cĩ liên quan tới thuật ngữ, chọn các liên kết mạnh nhất để đưa thuật ngữ này vào chuỗi từ vựng đĩ. Cập nhật lại chuỗi từ vựng và hướng sử dụng.

(c). Nếu khơng cĩ, thêm một chuỗi từ vựng mới chỉ bao gồm thuật ngữ này và tất cả các hướng sử dụng cĩ thể của nĩ.

Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê

Score(chain) = Length * HI

Bước 4: Chọn ra các chuỗi cĩ điểm cao nhất. Với mỗi chuỗi này, thực hiện tìm và rút trong văn bản câu đầu tiên chứa một thành phần của chuỗi.

Hình 14: Giải thuật TTVB dựa theo chuỗi từ vựng

2.4.2.3 Đánh giá

Trong các nghiên áp dụng chuỗi từ vựng để TTVB sau này đều cĩ áp dụng một số kỹ thuật khác để tăng hiệu quả và giảm tốc độ tính tốn các chuỗi từ vựng. Kết quả của phương pháp này đối với TTVB được đánh giá cao xong khả năng áp dụng đối với bài tốn Tĩm tắt tiếng Việt gặp nhiều hạn chết bởi hai vấn đề:

- Chưa cĩ một thư viện WordNet tiếng Việt.

- Sự phân biệt giữa các danh từ, động từ, trợ từ,… trong ngữ pháp tiếng Việt là rất phức tạp chứ khơng được thực hiện đơn giản như tiếng Anh.

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 34 - 35)