Một số hạn chế trong mô hình giải thuật di truyền lai Hybrid-GA và

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 127 - 128)

hướng khắc phục

Phép toán improver nhằm thay thế một câu tóm tắt hiện tại bởi một câu tóm tắt theo chiến lược thay thế lân cận hướng đến độ đo đúng đắn tốt hơn. Kết quả thực nghiệm trong [38] vẫn còn 3 trong số 30 câu tóm tắt có giá trị T < 0.8 làm giảm đánh giá độ tốt của tập câu tóm tắt. Kết quả này có thể do tập hạng từ lượng hóa chỉ có 5 hạng từ ‘none’, ‘few’, ‘half’, ‘much’, ‘most’, các tập mờ biểu diễn ngữ nghĩa cho 5 hạng từ tạo thành phân hoạch mạnh trên miền tham chiếu nên có thể sinh ra câu tóm tắt giá trị đúng đắn trong lân cận của 0.5.

Kết quả thực nghiệm trong [38] cho thấy vẫn còn 1 trong 30 câu tóm tắt có giá trị T = 0. Tức là phép toán cleaning chưa loại bỏ hết được các câu tóm tắt mà T

TIEU LUAN MOI download : skknchat@gmail.com

119

= 0. Các câu tóm tắt với T = 0 là do không có bản ghi nào trong cơ sở dữ liệu thỏa điều kiện lọc F.

Để khắc phục hạn chế nêu trên, tác giả luận án đề xuất khắc phục như sau:

o Mở rộng tập các hạng từ lượng hóa bằng cách bổ sung thêm hạng từ có tính riêng lớn hơn theo phương pháp xây dựng khung nhận thức ngôn ngữ (Linguistis Frame of Cognition - LFoC) dựa trên phương pháp luận của ĐSGT như trong chương 2. Vì cấu trúc tập mờ biểu diễn ngữ nghĩa cho từ lượng hóa được thiết kết theo thủ tục HA-TFS-MG tại mục 2.5.1 trong chương 2 ở dạng đa thể nên càng tăng mức tính riêng của tập hạng từ lượng hóa càng có cơ hội thu được các câu tóm tắt có giá trị đúng đắn gần với giá trị tối đa 1. Điều này đã được chứng tỏ thông qua các thí nghiệm trong chương 3 về ưu điểm của tập từ lượng hóa khi được mở rộng để thêm nhiều từ có mức tính riêng lớn hơn.

o Chỉ sinh ngẫu nhiên thành phần lọc o(Fq), cấu trúc của thành phần kết luận o(Es). Sau đó dùng chiến lược tham lam để xác định hạng từ ngôn ngữ

trong o(Es) và Q sao cho giá trị đúng đắn T và thứ tự ngữ nghĩa của Q lớn nhất có thể. Chiến lược này được áp dụng hướng đến sinh các câu tóm tắt được ưu thích, tức là làm tăng độ tốt của câu tóm tắt.

o Câu tóm tắt có giá trị T = 0 tương ứng với các câu tóm tắt mà không có bản ghi nào trong cơ sở dữ liệu thỏa điều kiện lọc o(Fq). Do đó, để không xuất hiện các câu tóm tắt như này cần sử dụng độ đo hỗ trợ

supp(o(Fq)) để đánh giá lực lượng các bản ghi thỏa điều kiện lọc o(Fq). Chỉ khi supp(o(Fq)) lớn hơn ngưỡng cho trước thì mới sinh câu tóm tắt mới. Các ý tưởng cải tiến này được triển khai thành thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam. Sau đó, thủ tục này được sử dụng trong mô hình giải thuật di truyền được đề xuất.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 127 - 128)

Tải bản đầy đủ (DOCX)

(157 trang)
w