Thuật toán khai phá luật kết hợp Apriori được đề xuất bởi Agrawal [94] gồm hai giai đoạn: giai đoạn đầu là tìm tập mục thường xuyên thỏa điều kiện
minSupport, giai đoạn sau là sinh tập luật kết hợp thỏa điều kiện minConfident. Trong phần này, luận án trình bày ý tưởng sửa đổi trong giai đoạn 2 của thuật toán Apriori để trích rút các câu tóm tắt mở rộng theo mẫu câu trong (1.3).
Trong giai đoạn 1, ngưỡng minSupport được sử dụng để xác định các tập mục thường xuyên như trong thuật toán Apriori. Trong giai đoạn 2 không sử dụng ngưỡng minConfident, giá trị độ tin cậy sẽ được chuyển đổi tương ứng thành từ định lượng Q trong câu tóm tắt.
Xem xét ví dụ với tập dữ liệu như trong Bảng 1.1, sử dụng các tập mờ cho thuộc tính KHOẢNG CÁCH, LƯƠNG và từ lượng hóa như trong Hình 1.2. Chọn
minSupport = 0.1, xét hai trường hợp sau:
o Trường hợp 1: xét cặp tập mục thường xuyên I1 ={KHOẢNG CÁCH = ‘xa’}, supp(I1) = 0.275 và I2 = { KHOẢNG CÁCH = ‘xa’, LƯƠNG = ‘cao’}, supp(I2) = 0.1383. Tính tỷ lệ supp(I1)/supp(I2) = 0.503. Sử dụng các hàm thuộc tập mờ cho từ lượng hóa Q như trong Hình 1.2, chọn hạng từ Q
= ‘một nửa’ để nhận được câu tóm tắt “Một nửa công việc với khoảng cách
o Trường hợp 2: xét một cặp mục thường xuyên khác là I3 ={KHOẢNG CÁCH = ‘trung bình’}, supp(I3) = 0.45 và I4 = { KHOẢNG CÁCH = ‘trung bình’, LƯƠNG = ‘trung bình’}, supp(I4) = 0.175. Tính tỷ lệ
supp(I4)/supp(I3) = 0.389. Sử dụng các hàm thuộc tập mờ cho từ lượng hóa
Q như trong Hình 1.2, chọn hạng từ Q = ‘một nửa’ để nhận được câu tóm tắt “Một nửa công việc với khoảng cách trung bình có mức lương trung bình” (độ đúng đắn T = một nửa(0.389) = 0.89).
Giả sử trong bài toán sinh luật kết hợp từ dữ liệu trong Bảng 1.1 chọn ngưỡng minConfident = 0.5. Khi đó, từ cặp tập mục thường xuyên trong trường hợp 1 sẽ sinh ra luật kết hợp là “Nếu công việc với khoảng cách xa thì công việc có lương cao” (độ hỗ trợ 0.138, độ tin cậy 0.503). Trong trường hợp 2, sẽ không có luật kết hợp được sinh ra vì độ tin cậy lúc này chỉ là 0.389 nhỏ hơn ngưỡng
minConfident = 0.5.
Thuật toán HA-Apriori-LS-All sửa đổi từ thuật toán Apriori để sinh tập các câu tóm tắt từ cơ sở dữ liệu D được mô tả như sau:
Thuật toán HA-Apriori-LS-All: Trích rút tập tất cả các các câu tóm tắt mà độ hỗ trợ phần thân câu tóm tắt lớn hơn ngưỡng minSupport cho trước.
Đầu vào: Cơ sở dữ liệu D, ngưỡng minSupport, tham số của các cấu trúc ĐSGT cho các thuộc tính.
Đầu ra: Tập các câu tóm tắt.
Các bước thực hiện:
Khởi tạo: Xác định khung nhận thức ngôn ngữ cho các thuộc tính từ bộ tham số của cấu trúc ĐSGT. Sử dụng thủ tục HA-TFS-MG (đề xuất trong chương 2) để sản sinh các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung nhận thức ngôn ngữ của các thuộc tính.
Bước 1: Thực hiện bước 1 của giải thuật Apriori để tìm các tập mục thường xuyên thỏa điều kiện minSupport.
Bước 2: Sinh các câu tóm tắt dạng Qy are S
Với mỗi tập mục thường xuyên I, sản sinh một câu tóm tắt với các thành phần như sau:
o Duyệt tập hạng từ lượng hóa ℱQ, chọn hạng từ Q sao cho 𝑇 = 𝑚𝑎𝑥{𝜇𝑄(𝑠𝑢𝑝𝑝(𝐼)): 𝑄 ∈ ℱ𝑄} (supp(I) là độ hỗ trợ cho tập mục thường xuyên I)
Bước 3: Sinh các câu tóm tắt dạng QFy are S.
Với mỗi cặp mục thường xuyên I1 và I2 thỏa điều kiện I1 I2 , sản sinh một câu tóm tắt với các thành phần như sau:
o Thành phần kết luận S tương ứng là I2 – I1 o Thành phần lọc F tương ứng là I1
o Tính tỷ lệ r = supp(I2)/supp(I1)
o Duyệt tập hạng từ lượng hóa ℱQ, chọn hạng từ Q sao cho 𝑇 = 𝑚𝑎𝑥{𝜇𝑄(𝑟): 𝑄 ∈ ℱ𝑄}
Thuật toán HA-Apriori-LS-All sản sinh tất cả các câu tóm tắt cả hai dạng Q y
are S và Q F y are S mà độ hỗ trợ cho phần thân câu tóm tắt lớn hơn ngưỡng
minSupport. Theo ý nghĩa của độ hỗ trợ, các câu tóm tắt diễn đạt tri thức về một nhóm các đối tượng mang tính phổ biến trong cơ sỡ dữ liệu. Đây là một cách giải bài toán trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk [12].