Phương pháp hai pha

Một phần của tài liệu Tự động sinh mục lục cho văn bản luận văn ths công nghệ thông tin 60 48 05 (Trang 26)

Trong phương pháp này, việc sinh tiêu đề cho văn bản được chia làm hai pha [17, 28]:

- Pha 1: Chọn ra các từ có trọng số cao nhất trong văn bản và coi đó là các từ có ý nghĩa nhất trong văn bản. Các trọng số này thông thường được tính theo TF * IDF mà trong trường hợp này thì là TF do chỉ có một văn bản/đoạn văn bản.

- Pha 2: Các từ được chọn sẽ được sắp xếp lại theo cách thức hợp lí nhất. Có 2 cách sắp xếp: cách thứ nhất dựa trên thứ tự nội tại trong văn bản; cách thứ hai là dựa trên thống kê sử dụng mô hình n-gram.

Tuy nhiên phương pháp này tồn tại 2 vấn đề cơ bản liên quan đến cả 2 pha ở trên:

- Pha 1: Các từ loại như giới từ, tính từ, mạo từ thường không mang mấy ý nghĩa trong việc chỉ ra ý chính của văn bản. Do đó các từ này thường phải bị loại đi. Để giải quyết vấn đề này thì ta có thể loại bỏ từ dừng, sử dụng nhãn từ loại để chỉ giữ lại danh từ, động từ hoặc cụm danh từ, cụm động từ.

- Pha 2: Nếu sử dụng cách sắp xếp dựa trên thứ tự nội tại trong văn bản thì một vấn đề rất dễ nhận ra là cú pháp của tiêu đề được sinh ra sẽ không được đảm bảo và tất nhiên là sẽ gây hiểu sai nghĩa của văn bản. Còn nếu sử dụng mô hình thống kê để tính xác suất xuất hiện của từ/cụm từ theo mô hình n-gram thì sẽ chỉ chọn được các từ tương đối phổ biến trong các tiêu đề có sẵn để làm tiêu đề mới, còn đối với các tiêu đề hiếm như văn bản nói về một căn bệnh mới với những thuật ngữ mới thì xác suất xuất hiện cho các từ đó sẽ bằng 0 và do đó sẽ không bao giờ được chọn vào tiêu đề của văn bản.

Phương pháp hai pha tỏ ra có hiệu quả hơn trong việc sinh tiêu đề cho văn bản, tuy nhiên vấn đề gặp phải trong pha thứ hai hiện vẫn chưa có một phương pháp để giải quyết triệt để.

Một phần của tài liệu Tự động sinh mục lục cho văn bản luận văn ths công nghệ thông tin 60 48 05 (Trang 26)

Tải bản đầy đủ (PDF)

(48 trang)