Phương pháp hai pha

Một phần của tài liệu Tự động sinh mục lục cho văn bản (Trang 27 - 28)

Trong phương pháp này, việc sinh tiêu đề cho văn bản được chia làm hai pha [Witbrock 1999, Hauptmann 2000-2001]:

- Pha 1: Chọn ra các từ có trọng số cao nhất trong văn bản và coi đó là các từ có ý nghĩa nhất trong văn bản. Các trọng số này thông thường

được tính theo TF * IDF mà trong trường hợp này thì là TF do chỉ có một văn bản/đoạn văn bản.

- Pha 2: Các từđược chọn sẽđược sắp xếp lại theo các thức hợp lí nhất. Có 2 cách sắp xếp: cách thứ nhất dựa trên thứ tự nội tại trong văn bản; cách thứ hai là dựa trên thống kê sử dụng mô hình n-gram.

Tuy nhiên phương pháp này tồn tại 2 vấn đề cơ bản liên quan đến cả 2 pha ở trên:

- Pha 1: Các từ loại như giới từ, tính từ, mạo từ thường không mang mấy ý nghĩa trong việc chỉ ra ý chính của văn bản. Do đó các từ này thường phải bị loại đi. Để giải quyết vấn đề này thì ta có thể loại bỏ từ

dừng, sử dụng nhãn từ loại để chỉ giữ lại danh từ, động từ hoặc cụm danh từ, cụm động từ.

- Pha 2: Nếu sử dụng cách sắp xếp dựa trên thứ tự nội tại trong văn bản thì một vấn đề rất dễ nhận ra là cú pháp của tiêu đề được sinh ra sẽ

không được đảm bảo và tất nhiên là sẽ gây hiểu sai nghĩa của văn bản. Còn nếu sử dụng mô hình thống kê để tính xác suất xuất hiện của từ/cụm từ theo mô hình n-gram thì sẽ chỉ chọn được các từ tương đối phổ biến trong các tiêu đề có sẵn để làm tiêu đề mới, còn đối với các tiêu đề hiếm như văn bản nói về một căn bệnh mới với những thuật ngữ mới thì xác suất xuất hiện cho các từ đó sẽ bằng 0 và do đó sẽ

không bao giờđược chọn vào tiêu đề của văn bản.

Phương pháp hai pha tỏ ra có hiệu quả hơn trong việc sinh tiêu đề cho văn bản, tuy nhiên vấn đề gặp phải trong pha thứ hai hiện vẫn chưa có một phương pháp để giải quyết triệt để.

Một phần của tài liệu Tự động sinh mục lục cho văn bản (Trang 27 - 28)