Sốlượng câu tóm tắt được trích rút bởi HA-Apriori-LS-All lớn hơn nhiều lần so với sốlượng luật kết hợp ngôn ngữđược trích rút từcùng cơ sở dữ liệu đó. Khi sốlượng câu tóm tắt trích rút được quá lớn, sẽgây khó khăn cho người sử dụng đọc hiểu và giải nghĩa nội dung các câu tóm tắt để giải quyết các vấn đề trong thực tế. Từđó đặt ra bài toán tìm kiếm một tập con tối ưu chứa một sốlượng ít các câu tóm tắt theo một hàm mục tiêu của người dùng. Đây là một hướng giải thứ hai cho bài toán trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk [12].
Cho trước một cơ sở dữ liệu D = {o1, o2, …, on} trên tập thuộc tính A = {A1,
A2, …, Am}. Mẫu câu tóm tắt tổng quát “Qos that are o(Fq) are o(Es)”, trong đó
thành phần o(Fq) là liên kết của v vị từ ngôn ngữ “o(Aq1) is/has xq1 AND … AND
AND o(Ast) is/has xst”, với v 0, t > 0. Khi v = 0, tức là phần điều kiện lọc o(Fq)
không có, khi đó câu tóm tắt ở dạng đơn giản “Qos are o(Es)”. Ở mức tổng quát khi các thành phần o(Fq) và o(Es) hoàn toàn chưa xác định, có 𝐶𝑛𝑣 (tổ hợp chập v của n) số cách chọn v thuộc tính cho thành phần o(Fq). Với v thuộc tính đã chọn, có |ℱ𝐴𝑞1|. |ℱ𝐴𝑞2| … |ℱ𝐴𝑞𝑣| cách chọn các hạng từ ngôn ngữ cho v thuộc tính. Để đơn
giản, giả sử |ℱ𝐴𝑞1| = |ℱ𝐴𝑞2| = ⋯ = |ℱ𝐴𝑞𝑙| = |ℱ𝐴|. Do đó, có tất cả có 𝐶𝑚𝑣. |ℱ𝐴|𝑣
thành phần o(Fq) khác nhau. Hoàn toàn tương tự, với mỗi thành phần o(Fq) đã xác định, có 𝐶𝑚−𝑣𝑡 . |ℱ𝐴|𝑡 thành phần o(Es) khác nhau. Mỗi thành phần o(Fq) và o(Es) xác
định một thân câu tóm tắt, đồng thời xác định một từlượng hóa Q để tạo thành một câu tóm tắt đầy đủ các thành phần. Vậy, số lượng câu tóm tắt khác nhau là 𝐶𝑚𝑣. 𝐶𝑚−𝑣𝑡 . |ℱ𝐴|𝑣+𝑡.
Xét ví dụ một cơ sở dữ liệu có m = 10 thuộc tính, mỗi khung nhận thức ngôn ngữ của thuộc tính A là ℱ𝐴 có mức tính riêng là 3, gồm có 17 hạng từ ngôn ngữnhư
trong thực nghiệm ởchương 3. Giả sử giới hạn số thuộc tính trong thành phần o(Fq) và o(Es) không quá 2, tức là 0 v 2 và 0 < t 2. Bảng 4.1 thống kê sốlượng câu tóm tắt khác nhau theo số lượng thuộc tính trong từng thành phần o(Fq) và thành phần o(Es). Tổng tất cả sẽ có 108 813 005 câu tóm tắt khác nhau.
Bảng 4.1: Thống kê sốlượng câu tóm tắt theo số thuộc tính trong câu Số thuộc tính trong o(Fq) (v thuộc tính) Số thuộc tính trong o(Es) (t thuộc tính) Số câu tóm tắt 0 1 𝐶100. 𝐶101 . |17|1 = 170 0 2 𝐶100. 𝐶102 . |17|2 = 13005 1 1 𝐶101 . 𝐶91. |17|2 = 26010 1 2 𝐶101 . 𝐶92. |17|3 = 1768680 2 1 𝐶102. 𝐶81. |17|3 = 1768680 2 2 𝐶102. 𝐶82. |17|4 = 105236460
Người dùng không thểđọc hiểu hết tất cả sốlượng câu tóm tắt trích rút từcơ
sở dữ liệu. Hơn nữa, trong tập tất cả các câu tóm tắt sẽ có những câu mà phần thân câu chỉ khác nhau một hạng từ ngôn ngữ, các phần còn lại là giống nhau. Ví dụ cặp
câu “Ít công việc với khoảng cách trung bình có mức lương cao (T = 0.67)” và “Ít
ra bài toán là cần tìm kiếm một tập con các câu tóm tắt từ không gian chứa tất cả
các câu tóm tắt có thể trích rút từcơ sở dữ liệu. Tập câu tóm tắt cần tìm kiếm có số lượng giới hạn, nhưng thể hiện tri thức đa dạng trong cơ sở dữ liệu. Khi xây dựng
được một hàm đánh giá chất lượng tập câu tóm tắt theo mong muốn, cần giải bài toán tìm kiếm một tập câu tóm tắt sao cho hàm đánh giá đạt giá trị cực đại. Giải thuật di truyền là một phương pháp giải tốt cho dạng bài toán này.
Trong phần tiếp theo, luận án sẽ trình bày phương pháp giải bài toán trích rút tập câu tóm tắt tối ưu bằng mô hình giải thuật di truyền.