CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
4.1. Mối liên hệ giữa luật kết hợp ngơn ngữ và câu tóm tắt có từ lượng hóa
4.1.2. Từ thuật toán khai phá luật kết hợp đến thuật tốn trích rút tóm tắt
Thuật toán khai phá luật kết hợp Apriori được đề xuất bởi Agrawal [94] gồm hai giai đoạn: giai đoạn đầu là tìm tập mục thường xuyên thỏa điều kiện
minSupport, giai đoạn sau là sinh tập luật kết hợp thỏa điều kiện minConfident. Trong phần này, luận án trình bày ý tưởng sửa đổi trong giai đoạn 2 của thuật tốn Apriori để trích rút các câu tóm tắt mở rộng theo mẫu câu trong (1.3).
Trong giai đoạn 1, ngưỡng minSupport được sử dụng để xác định các tập mục thường xuyên như trong thuật tốn Apriori. Trong giai đoạn 2 khơng sử dụng ngưỡng minConfident, giá trị độ tin cậy sẽ được chuyển đổi tương ứng thành từ định lượng Q trong câu tóm tắt.
Xem xét ví dụ với tập dữ liệu như trong Bảng 1.1, sử dụng các tập mờ cho thuộc tính KHOẢNG CÁCH, LƯƠNG và từ lượng hóa như trong Hình 1.2. Chọn
minSupport = 0.1, xét hai trường hợp sau:
o Trường hợp 1: xét cặp tập mục thường xuyên I1 ={KHOẢNG CÁCH = ‘xa’}, supp(I1) = 0.275 và I2 = { KHOẢNG CÁCH = ‘xa’, LƯƠNG = ‘cao’}, supp(I2) = 0.1383. Tính tỷ lệ supp(I1)/supp(I2) = 0.503. Sử dụng các hàm thuộc tập mờ cho từ lượng hóa Q như trong Hình 1.2, chọn hạng từ Q
= ‘một nửa’ để nhận được câu tóm tắt “Một nửa cơng việc với khoảng cách
o Trường hợp 2: xét một cặp mục thường xuyên khác là I3 ={KHOẢNG CÁCH = ‘trung bình’}, supp(I3) = 0.45 và I4 = { KHOẢNG CÁCH = ‘trung bình’, LƯƠNG = ‘trung bình’}, supp(I4) = 0.175. Tính tỷ lệ
supp(I4)/supp(I3) = 0.389. Sử dụng các hàm thuộc tập mờ cho từ lượng hóa
Q như trong Hình 1.2, chọn hạng từ Q = ‘một nửa’ để nhận được câu tóm tắt “Một nửa cơng việc với khoảng cách trung bình có mức lương trung bình” (độ đúng đắn T = một nửa(0.389) = 0.89).
Giả sử trong bài toán sinh luật kết hợp từ dữ liệu trong Bảng 1.1 chọn ngưỡng minConfident = 0.5. Khi đó, từ cặp tập mục thường xuyên trong trường hợp 1 sẽ sinh ra luật kết hợp là “Nếu công việc với khoảng cách xa thì cơng việc có lương cao” (độ hỗ trợ 0.138, độ tin cậy 0.503). Trong trường hợp 2, sẽ khơng có luật kết hợp được sinh ra vì độ tin cậy lúc này chỉ là 0.389 nhỏ hơn ngưỡng
minConfident = 0.5.
Thuật toán HA-Apriori-LS-All sửa đổi từ thuật toán Apriori để sinh tập các câu tóm tắt từ cơ sở dữ liệu D được mô tả như sau:
Thuật tốn HA-Apriori-LS-All: Trích rút tập tất cả các các câu tóm tắt mà
độ hỗ trợ phần thân câu tóm tắt lớn hơn ngưỡng minSupport cho trước.
Đầu vào: Cơ sở dữ liệu D, ngưỡng minSupport, tham số của các cấu trúc ĐSGT cho các thuộc tính.
Đầu ra: Tập các câu tóm tắt. Các bước thực hiện:
Khởi tạo: Xác định khung nhận thức ngơn ngữ cho các thuộc tính từ bộ tham số của cấu trúc ĐSGT. Sử dụng thủ tục HA-TFS-MG (đề xuất trong chương 2) để sản sinh các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung nhận thức ngôn ngữ của các thuộc tính.
Bước 1: Thực hiện bước 1 của giải thuật Apriori để tìm các tập mục thường xuyên thỏa điều kiện minSupport.
Bước 2: Sinh các câu tóm tắt dạng Qy are S
Với mỗi tập mục thường xuyên I, sản sinh một câu tóm tắt với các thành phần như sau:
o Duyệt tập hạng từ lượng hóa ℱQ, chọn hạng từ Q sao cho 𝑇 = 𝑚𝑎𝑥{𝜇𝑄(𝑠𝑢𝑝𝑝(𝐼)): 𝑄 ∈ ℱ𝑄} (supp(I) là độ hỗ trợ cho tập mục thường xuyên I)
Bước 3: Sinh các câu tóm tắt dạng QFy are S.
Với mỗi cặp mục thường xuyên I1 và I2 thỏa điều kiện I1 I2 , sản sinh một câu tóm tắt với các thành phần như sau:
o Thành phần kết luận S tương ứng là I2 – I1 o Thành phần lọc F tương ứng là I1
o Tính tỷ lệ r = supp(I2)/supp(I1)
o Duyệt tập hạng từ lượng hóa ℱQ, chọn hạng từ Q sao cho 𝑇 = 𝑚𝑎𝑥{𝜇𝑄(𝑟): 𝑄 ∈ ℱ𝑄}
Thuật toán HA-Apriori-LS-All sản sinh tất cả các câu tóm tắt cả hai dạng Qy
are S và QF y are S mà độ hỗ trợ cho phần thân câu tóm tắt lớn hơn ngưỡng
minSupport. Theo ý nghĩa của độ hỗ trợ, các câu tóm tắt diễn đạt tri thức về một nhóm các đối tượng mang tính phổ biến trong cơ sỡ dữ liệu. Đây là một cách giải bài tốn trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk [12].