Trong chương này, luận án đã trình bày một phương pháp trích rút câu tóm tắt dựa trên lý thuyết ĐSGT và các kết quả thí nghiệm chứng tỏ tính khả thi, ưu điểm của phương pháp đã đề xuất. Phương pháp trích rút tóm tắt LSMd Mls tính toán trên các tập mờ là ảnh đẳng cấu của các hạng từ trong khung nhận thức bằng ngôn ngữ LFoC của các thuộc tính trong cơ sở dữ liệu. Đặc điểm này đảm bảo tính đúng đắn khi giải nghĩa nội dung thông tin câu tóm tắt trong ngôn ngữ tự nhiên. Hơn nữa, phương pháp LSMd Mls sinh ra tập câu tóm tắt kết quả có tính mở rộng tương thích với tính mở rộng được của LFoC của các thuộc tính. Tức là, khi mở rộng tập từ vựng của các thuộc tính, tập câu tóm tắt cũng được mở rộng bằng bổ sung thêm các câu tóm tắt chứa các từ vựng mới mà không thay đổi ngữ nghĩa của các câu tóm tắt đã có.
Luận án đã xem xét về mức độ thông tin nhận được thông qua tính riêng của các hạng từ trong cấu tóm tắt và giá trị đúng đắn T của các câu tóm tắt. Từ đó, đề xuất tiêu chuẩn chọn từ lượng hóa trong LFoC của Q để thu được câu tóm tắt có giá trị đúng đắn T lớn nhất có thể và cho nhiều thông tin về tập dữ liệu. Các kết quả thực hiện từ ba thí nghiệm được phân tích để chứng tỏ khả năng ứng dụng và những ưu điểm của phương pháp LSMd Mls đã đề xuất. Thí nghiệm thứ nhất chứng tỏ khi sử dụng các tập từ vựng nói chung, tập từ lượng hóa nói riêng, với số lượng có thể vượt ngoài ngưỡng 7 2, người dùng sẽ có khả năng nhận được các câu tóm tắt có giá trị đúng đắn cao và thể hiện nhiều thông tin về tập dữ liệu. Thí nghiệm thứ hai
TIEU LUAN MOI download : skknchat@gmail.com
108
nhấn mạnh khả năng mở rộng tập câu kết quả tương ứng với việc mở rộng của tập từ vựng. Khi đó, người dùng thu được càng nhiều thông tin về tập dữ liệu thông qua giải nghĩa các câu tóm tắt được bổ sung thêm vào tập kết quả. Thí nghiệm thứ ba cho thấy khả năng khai phá phân phối bằng ngôn ngữ của các nhóm đối tượng mờ đối với các thuộc tính mờ khác của phương pháp đã đề xuất. Đặc biệt, người dùng có thể tăng mức độ tốt của phân phối bằng việc mở rộng tập từ lượng hóa lên các mức tính riêng lớn hơn. Về mặt lý thuyết toán học, phân phối ngôn ngữ bằng từ lượng hóa này có ý nghĩa, giá trị tốt như phân phối số học thông thường.
Nội dung đã trình bày trong chương 3 này là tổng hợp các kết quả đã công bố trong các công trình [CT4, CT6].
TIEU LUAN MOI download : skknchat@gmail.com
109
CHƯƠNG 4. TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM
Bài toán trích rút tóm tắt ở mức tổng quát nhất khi cả ba thành phần Q, F, S
không được xác định trước đòi hỏi nhiều thời gian tính toán. Tuy nhiên, trong kết quả lại có thể đưa ra các tri thức mới thú vị về các đối tượng trong thế giới thực được lưu trữ trong cở sở dữ liệu. Trong chương này, tác giả chỉ ra rằng tập luật kết hợp ngôn ngữ chỉ tương ứng với một tập con các câu tóm tắt có từ lượng hóa. Do đó, lực lượng của tập câu tóm tắt bằng ngôn ngữ lớn hơn nhiều so với lực lượng của tập luật kết hợp ngôn ngữ trích rút từ cùng một cơ sở dữ liệu, cùng một cách phân chia mờ miền tham chiếu của các thuộc tính. Từ đó đặt ra bài toán tìm kiếm một tập con các câu tóm tắt với số lượng hạn chế nhưng đạt giá trị tối đa hàm mục tiêu theo mong muốn của người dùng. Trong chương này, luận án trình bày đề xuất một hàm Random-Greedy-LS dựa trên chiến lược tham lam để trích rút một câu tóm tắt tốt và hướng tới một tập câu đa dạng. Sau đó, hàm Random-Greedy-LS này được sử dụng trong mô hình giải thuật di truyền Greedy-GA để tìm kiếm một tập câu tóm tắt tối ưu dựa trên mục tiêu tối đa độ tốt của các câu và độ đa dạng của tập câu. Kết quả thực nghiệm so sánh với mô hình Hybird-GA trên cơ sở dữ liệu creep đã chứng tỏ hiệu quả của ý tưởng tham lam trong hàm Random-Greedy-LS và việc sử dụng các tập mờ thiết kế bởi thủ tục HA-TFS-MG trong chương 2.