Loại bỏ từ dừng

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 40 - 41)

Cĩ thể quan sát thấy rằng trong các ngơn ngữ tự nhiên, rất nhiều từ được dùng để biểu diễn cấu trúc câu nhưng hầu như khơng mang ý nghĩa về mặt nội dung, chẳng hạn các loại từ: giới từ, liên từ,… Các loại từ này xuất hiện thường xuyên trong các văn bản nhưng khơng hề mang bất cứ một thơng tin nào về nội dung hay chủ đề của văn bản. Việc loại bỏ các từ như vậy cũng đồng nghĩa với việc giảm số chiều của văn bản, những từ đĩ được gọi là từ dừng (stop words).

Từ dừng (Stop Words): là các từ mang ít ý nghĩa trong xử lý văn bản vì nĩ xuất hiện trong hầu hết các văn bản. Ví dụ: Cĩ thể, nếu, vì vậy, sau khi, thì, một số, với lại, quả thật, hầu như ...

Cĩ một số phương pháp để xác định các từ dừng:

 Xây dựng một thuật tốn phát hiện các từ dừng. Trong thuật tốn này cần đưa ra một ngưỡng để phát hiện từ dừng, ví dụ nếu phát hiện thấy một từ xuất hiện trong quá 50% số văn bản thì cĩ thể coi đĩ là từ dừng.

 Sử dụng so sánh với một từ điển từ dừng đã được xây dựng

Loại bỏ từ dừng đơn giản là việc so sánh các từ tìm được với bộ từ điển từ dừng và loại bỏ chúng khỏi văn bản đầu vào.Tuy nhiên, việc loại bỏ từ dừng cũng đĩng vai trị quan trọng trong hệ thống tĩm tắt bởi các yếu tố:

- Làm đơn giản hĩa dữ liệu xử lý, làm giảm độ lớn của các node cũng như độ phức tạp tính tốn của chúng.

- Nĩ tránh được hiện tượng nhiễu dữ liệu (tránh cho các hệ thống đánh giá mức độ quan trọng dựa trên tần suất xuất hiện của từ).

Dưới đây là bảng ví dụ về các từ dừng thường thấy trong văn bản tiếng Việt

Cĩ thể Nếu Vì vậy

Sau khi Thì Nếu khơng

Trước khi Vì thế Loại trừ

Tất cả Cho nên Một số

Những Nhưng Rõ ràng

Phần lớn Bởi Với

Hầu như Là Với lại

Bởi vì Thay vì Cho dù

Từ trong bảng trên được lấy từ Từ điển từ dừng

Cách thức thu thập và xây dựng các từ điển đĩ được tiến hành như sau:

Từ điển từ dừng:

Cách thức thu thâp: Sử dụng tool trích rút trên trang web: http://tratu.soha.vn.

Cách thức tổ chức: Từ điển được lưu dưới dạng file .txt, với mỗi dịng là một từ dừng, mỗi tiếng trong từ cách nhau bởi dấu gạch dưới.

Độ lớn: 571 từ

Với việc loại bỏ từ dừng, ta xây dựng một module so sánh các từ thu được ở bước tách từ với danh sách từ dừng trong từ điển từ dừng. Nếu từ nào xuất hiện trong từ điển từ dừng thì ta loại nĩ ra khỏi văn bản đầu vào.

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 40 - 41)