CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
3.4. Kết luận chương 3
Trong chương này, luận án đã trình bày một phương pháp trích rút câu tóm tắt dựa trên lý thuyết ĐSGT và các kết quả thí nghiệm chứng tỏ tính khả thi, ưu điểm của phương pháp đã đề xuất. Phương pháp trích rút tóm tắt LSMd Mls tính tốn trên các tập mờ là ảnh đẳng cấu của các hạng từ trong khung nhận thức bằng ngơn ngữ LFoC của các thuộc tính trong cơ sở dữ liệu. Đặc điểm này đảm bảo tính đúng đắn khi giải nghĩa nội dung thơng tin câu tóm tắt trong ngôn ngữ tự nhiên. Hơn nữa, phương pháp LSMd Mls sinh ra tập câu tóm tắt kết quả có tính mở rộng tương thích với tính mở rộng được của LFoC của các thuộc tính. Tức là, khi mở rộng tập từ vựng của các thuộc tính, tập câu tóm tắt cũng được mở rộng bằng bổ sung thêm các câu tóm tắt chứa các từ vựng mới mà khơng thay đổi ngữ nghĩa của các câu tóm tắt đã có.
Luận án đã xem xét về mức độ thơng tin nhận được thơng qua tính riêng của các hạng từ trong cấu tóm tắt và giá trị đúng đắn T của các câu tóm tắt. Từ đó, đề xuất tiêu chuẩn chọn từ lượng hóa trong LFoC của Q để thu được câu tóm tắt có giá trị đúng đắn T lớn nhất có thể và cho nhiều thông tin về tập dữ liệu. Các kết quả thực hiện từ ba thí nghiệm được phân tích để chứng tỏ khả năng ứng dụng và những ưu điểm của phương pháp LSMd Mls đã đề xuất. Thí nghiệm thứ nhất chứng tỏ khi sử dụng các tập từ vựng nói chung, tập từ lượng hóa nói riêng, với số lượng có thể vượt ngồi ngưỡng 7 2, người dùng sẽ có khả năng nhận được các câu tóm tắt có giá trị đúng đắn cao và thể hiện nhiều thông tin về tập dữ liệu. Thí nghiệm thứ hai
nhấn mạnh khả năng mở rộng tập câu kết quả tương ứng với việc mở rộng của tập từ vựng. Khi đó, người dùng thu được càng nhiều thông tin về tập dữ liệu thơng qua giải nghĩa các câu tóm tắt được bổ sung thêm vào tập kết quả. Thí nghiệm thứ ba cho thấy khả năng khai phá phân phối bằng ngơn ngữ của các nhóm đối tượng mờ đối với các thuộc tính mờ khác của phương pháp đã đề xuất. Đặc biệt, người dùng có thể tăng mức độ tốt của phân phối bằng việc mở rộng tập từ lượng hóa lên các mức tính riêng lớn hơn. Về mặt lý thuyết toán học, phân phối ngôn ngữ bằng từ lượng hóa này có ý nghĩa, giá trị tốt như phân phối số học thơng thường.
Nội dung đã trình bày trong chương 3 này là tổng hợp các kết quả đã cơng bố trong các cơng trình [CT4, CT6].
CHƯƠNG 4.TRÍCH RÚT TẬP CÂU TĨM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM
Bài tốn trích rút tóm tắt ở mức tổng quát nhất khi cả ba thành phần Q, F, S
khơng được xác định trước địi hỏi nhiều thời gian tính tốn. Tuy nhiên, trong kết quả lại có thể đưa ra các tri thức mới thú vị về các đối tượng trong thế giới thực được lưu trữ trong cở sở dữ liệu. Trong chương này, tác giả chỉ ra rằng tập luật kết hợp ngôn ngữ chỉ tương ứng với một tập con các câu tóm tắt có từ lượng hóa. Do đó, lực lượng của tập câu tóm tắt bằng ngơn ngữ lớn hơn nhiều so với lực lượng của tập luật kết hợp ngơn ngữ trích rút từ cùng một cơ sở dữ liệu, cùng một cách phân chia mờ miền tham chiếu của các thuộc tính. Từ đó đặt ra bài tốn tìm kiếm một tập con các câu tóm tắt với số lượng hạn chế nhưng đạt giá trị tối đa hàm mục tiêu theo mong muốn của người dùng. Trong chương này, luận án trình bày đề xuất một hàm Random-Greedy-LS dựa trên chiến lược tham lam để trích rút một câu tóm tắt tốt và hướng tới một tập câu đa dạng. Sau đó, hàm Random-Greedy-LS này được sử dụng trong mơ hình giải thuật di truyền Greedy-GA để tìm kiếm một tập câu tóm tắt tối ưu dựa trên mục tiêu tối đa độ tốt của các câu và độ đa dạng của tập câu. Kết quả thực nghiệm so sánh với mơ hình Hybird-GA trên cơ sở dữ liệu creep đã chứng tỏ hiệu quả của ý tưởng tham lam trong hàm Random-Greedy-LS và việc sử dụng các tập mờ thiết kế bởi thủ tục HA-TFS-MG trong chương 2.
4.1.Mối liên hệ giữa luật kết hợp ngơn ngữ và câu tóm tắt có từ lượng hóa
Cho trước một cơ sở dữ liệu D = {o1, o2, …, on} trên tập thuộc tính A = {A1,
A2, …, Am}. Luật kết hợp ngơn ngữ và câu tóm tắt chứa từ lượng hóa là các dạng tri thức khác nhau được trích rút từ cơ sở dữ liệu D. Việc phân chia miền tham chiếu của các thuộc tính bằng các tập mờ là bước tiền xử lý khi giải cả hai bài tốn trích rút luật kết hợp ngơn ngữ và trích rút câu tóm tắt chứa từ lượng hóa. Trong phần này, luận án phân tích liên hệ giữa luật kết hợp ngơn ngữ và câu tóm tắt có từ lượng hóa được trích rút từ cơ sở dữ liệu D. Từ đó, tác giả luận án đưa ra ý tưởng sử dụng một phần giải thuật Apriori trích rút luật kết hợp để có thể trích rút một tập con các câu tóm tắt.
4.1.1.Liên hệ giữa luật kết hợp ngơn ngữ và câu tóm tắt bằng ngơn ngữ
Xét một luật kết hợp ngơn ngữ một điều kiện, một kết luận có dạng như sau:
Nếu Ai = x thì Aj = y (độ hỗ trợ α; độ tin cậy β) (4.1) Trong đó: x và y là các hạng từ ngôn ngữ trong miền hạng từ Dom(Ai) và Dom(Aj) của hai thuộc tính Ai và Aj. Giả sử x, y lần lượt là hàm thuộc của hai tập mờ biểu diễn ngữ nghĩa cho x và y. Độ hỗ trợ α và độ tin cậy β được tính theo cơng thức (4.2) [91-93]. Trong đó, là ký hiệu cho phép giao mờ, thông thường
(o )(o )min((o ),(o )) xiyixiyi = . 1 (o ) (o ) n xiyi i n = = ; 1 1 (o ) (o ) (o ) n xiyi i n xi i = = = (4.2)
Ví dụ xét trong cơ sở dữ liệu về cơng nhân có thuộc tính TUỔI và LƯƠNG. Một luật kết hợp ngơn ngữ được trích rút từ cơ sở dữ liệu là: “Nếu cơng nhân tuổi trẻ thì cơng nhân nhận lươngthấp” ( = 0.4, = 0.9). Trong cơng thức tính độ tin cậy , tử số là lực lượng công nhân thỏa hai điều kiện ‘LƯƠNG = ‘thấp’’ và ‘TUỔI = ‘trẻ’’, mẫu số là lực lượng công nhân thỏa một điều kiện ‘TUỔI = ‘trẻ’’. Do đó, từ giá trị độ tin cậy = 0.9 suy ra rằng tỷ lệ công nhân thỏa ‘LƯƠNG = ‘thấp’’ trong nhóm cơng nhân thỏa điều kiện ‘TUỔI = ‘trẻ’’ là 0.9. Như vậy, luật kết hợp này tương ứng với câu tóm tắt có định lượng rõ là “90% cơng nhân tuổi trẻ nhận
lương thấp”. Khi định lượng 90% được chuyển thành từ lượng hóa ‘hầu hết’ với
’hầu hết’(0.9) = 1, thì câu tóm tắt tương ứng có định lượng bằng ngơn ngữ là “Hầu
hết cơng nhân tuổi trẻ nhận lương thấp” (T = 1.0).
So sánh giữa cơng thức tính giá trị độ tin cậy trong (4.2) với cơng thức tính độ đúng đắn T trong (1.7), chúng ta thấy rằng có mối liên hệ giữa luật kết hợp ngôn ngữ dạng (4.1) với câu tóm tắt dạng (1.3) (QF y are S) như sau: giá trị chính là độ hỗ trợ cho phần thân câu tóm tắt (F y are S); thành phần lọc F tương ứng là điều kiện “Ai = x”; thành phần kết luận S tương ứng là kết luận “Aj = y”. Trong bài tốn trích rút luật kết hợp ngơn ngữ, điều kiện để một luật được đưa vào tập luật kết quả là độ hỗ trợ phải lớn hơn ngưỡng minSupport và độ tin cậy phải lớn hơn ngưỡng minConfidence. Do đó, luật kết hợp ngơn ngữ là dạng biểu diễn tri thức thể
hiện mối liên hệ có tính quy luật giữa các thuộc tính. Các câu tóm tắt mà có từ lượng hóa Q diễn đạt tỷ lệ lớn như ‘nhiều’ hoặc ‘hầu hết’ cũng diễn đạt các tri thức có tính quy luật như luật kết hợp. Do đó, về khía cạnh diễn đạt tri thức trích rút từ cùng một cơ sở dữ liệu, cùng một cách phân hoạch mờ miền tham chiếu các thuộc tính, tập luật kết hợp ngơn ngữ tương ứng với một tập con các câu tóm tắt ngơn ngữ chứa từ lượng hóa. Trong tập các câu tóm tắt, từ lượng hóa Q có thể là bất kỳ từ ngôn ngữ nào để diễn đạt cho một tỷ lệ bất kỳ trong khoảng [0, 1]. Trong thực tế, câu tóm tắt với Q diễn đạt cho một tỷ lệ rất nhỏ như ‘rất ít’, ‘khơng có’ cung cấp những tri thức rất có ý nghĩa. Nghiên cứu của Duraj và cộng sự [66] đã sử dụng các câu tóm tắt với Q {‘very few’, ‘few’} trong hệ thống thông minh để phát hiện các thông tin ngoại lai.
4.1.2.Từ thuật toán khai phá luật kết hợp đến thuật tốn trích rút tóm tắt
Thuật tốn khai phá luật kết hợp Apriori được đề xuất bởi Agrawal [94] gồm hai giai đoạn: giai đoạn đầu là tìm tập mục thường xuyên thỏa điều kiện
minSupport, giai đoạn sau là sinh tập luật kết hợp thỏa điều kiện minConfident. Trong phần này, luận án trình bày ý tưởng sửa đổi trong giai đoạn 2 của thuật tốn Apriori để trích rút các câu tóm tắt mở rộng theo mẫu câu trong (1.3).
Trong giai đoạn 1, ngưỡng minSupport được sử dụng để xác định các tập mục thường xuyên như trong thuật tốn Apriori. Trong giai đoạn 2 khơng sử dụng ngưỡng minConfident, giá trị độ tin cậy sẽ được chuyển đổi tương ứng thành từ định lượng Q trong câu tóm tắt.
Xem xét ví dụ với tập dữ liệu như trong Bảng 1.1, sử dụng các tập mờ cho thuộc tính KHOẢNG CÁCH, LƯƠNG và từ lượng hóa như trong Hình 1.2. Chọn
minSupport = 0.1, xét hai trường hợp sau:
o Trường hợp 1: xét cặp tập mục thường xuyên I1 ={KHOẢNG CÁCH = ‘xa’}, supp(I1) = 0.275 và I2 = { KHOẢNG CÁCH = ‘xa’, LƯƠNG = ‘cao’}, supp(I2) = 0.1383. Tính tỷ lệ supp(I1)/supp(I2) = 0.503. Sử dụng các hàm thuộc tập mờ cho từ lượng hóa Q như trong Hình 1.2, chọn hạng từ Q
= ‘một nửa’ để nhận được câu tóm tắt “Một nửa cơng việc với khoảng cách
o Trường hợp 2: xét một cặp mục thường xuyên khác là I3 ={KHOẢNG CÁCH = ‘trung bình’}, supp(I3) = 0.45 và I4 = { KHOẢNG CÁCH = ‘trung bình’, LƯƠNG = ‘trung bình’}, supp(I4) = 0.175. Tính tỷ lệ
supp(I4)/supp(I3) = 0.389. Sử dụng các hàm thuộc tập mờ cho từ lượng hóa
Q như trong Hình 1.2, chọn hạng từ Q = ‘một nửa’ để nhận được câu tóm tắt “Một nửa công việc với khoảng cách trung bình có mức lương trung bình” (độ đúng đắn T = một nửa(0.389) = 0.89).
Giả sử trong bài toán sinh luật kết hợp từ dữ liệu trong Bảng 1.1 chọn ngưỡng minConfident = 0.5. Khi đó, từ cặp tập mục thường xuyên trong trường hợp 1 sẽ sinh ra luật kết hợp là “Nếu công việc với khoảng cách xa thì cơng việc có lương cao” (độ hỗ trợ 0.138, độ tin cậy 0.503). Trong trường hợp 2, sẽ khơng có luật kết hợp được sinh ra vì độ tin cậy lúc này chỉ là 0.389 nhỏ hơn ngưỡng
minConfident = 0.5.
Thuật toán HA-Apriori-LS-All sửa đổi từ thuật toán Apriori để sinh tập các câu tóm tắt từ cơ sở dữ liệu D được mơ tả như sau:
Thuật tốn HA-Apriori-LS-All: Trích rút tập tất cả các các câu tóm tắt mà
độ hỗ trợ phần thân câu tóm tắt lớn hơn ngưỡng minSupport cho trước.
Đầu vào: Cơ sở dữ liệu D, ngưỡng minSupport, tham số của các cấu trúc ĐSGT cho các thuộc tính.
Đầu ra: Tập các câu tóm tắt. Các bước thực hiện:
Khởi tạo: Xác định khung nhận thức ngơn ngữ cho các thuộc tính từ bộ tham số của cấu trúc ĐSGT. Sử dụng thủ tục HA-TFS-MG (đề xuất trong chương 2) để sản sinh các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung nhận thức ngôn ngữ của các thuộc tính.
Bước 1: Thực hiện bước 1 của giải thuật Apriori để tìm các tập mục thường xuyên thỏa điều kiện minSupport.
Bước 2: Sinh các câu tóm tắt dạng Qy are S
Với mỗi tập mục thường xuyên I, sản sinh một câu tóm tắt với các thành phần như sau:
o Duyệt tập hạng từ lượng hóa ℱQ, chọn hạng từ Q sao cho 𝑇 = 𝑚𝑎𝑥{𝜇𝑄(𝑠𝑢𝑝𝑝(𝐼)): 𝑄 ∈ ℱ𝑄} (supp(I) là độ hỗ trợ cho tập mục thường xuyên I)
Bước 3: Sinh các câu tóm tắt dạng QFy are S.
Với mỗi cặp mục thường xuyên I1 và I2 thỏa điều kiện I1 I2 , sản sinh một câu tóm tắt với các thành phần như sau:
o Thành phần kết luận S tương ứng là I2 – I1 o Thành phần lọc F tương ứng là I1
o Tính tỷ lệ r = supp(I2)/supp(I1)
o Duyệt tập hạng từ lượng hóa ℱQ, chọn hạng từ Q sao cho 𝑇 = 𝑚𝑎𝑥{𝜇𝑄(𝑟): 𝑄 ∈ ℱ𝑄}
Thuật toán HA-Apriori-LS-All sản sinh tất cả các câu tóm tắt cả hai dạng Qy
are S và QF y are S mà độ hỗ trợ cho phần thân câu tóm tắt lớn hơn ngưỡng
minSupport. Theo ý nghĩa của độ hỗ trợ, các câu tóm tắt diễn đạt tri thức về một nhóm các đối tượng mang tính phổ biến trong cơ sỡ dữ liệu. Đây là một cách giải bài tốn trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk [12].
4.2.Bài tốn trích rút tập con câu tóm tắt tối ưu
Số lượng câu tóm tắt được trích rút bởi HA-Apriori-LS-All lớn hơn nhiều lần so với số lượng luật kết hợp ngơn ngữ được trích rút từ cùng cơ sở dữ liệu đó. Khi số lượng câu tóm tắt trích rút được q lớn, sẽ gây khó khăn cho người sử dụng đọc hiểu và giải nghĩa nội dung các câu tóm tắt để giải quyết các vấn đề trong thực tế. Từ đó đặt ra bài tốn tìm kiếm một tập con tối ưu chứa một số lượng ít các câu tóm tắt theo một hàm mục tiêu của người dùng. Đây là một hướng giải thứ hai cho bài tốn trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk [12].
Cho trước một cơ sở dữ liệu D = {o1, o2, …, on} trên tập thuộc tính A = {A1,
A2, …, Am}. Mẫu câu tóm tắt tổng quát “Qos that are o(Fq) are o(Es)”, trong đó thành phần o(Fq) là liên kết của v vị từ ngôn ngữ “o(Aq1) is/has xq1 AND … AND
AND o(Ast) is/has xst”, với v 0, t > 0. Khi v = 0, tức là phần điều kiện lọc o(Fq) khơng có, khi đó câu tóm tắt ở dạng đơn giản “Qos are o(Es)”. Ở mức tổng quát khi các thành phần o(Fq) và o(Es) hồn tồn chưa xác định, có 𝐶𝑛𝑣 (tổ hợp chập v của n) số cách chọn v thuộc tính cho thành phần o(Fq). Với v thuộc tính đã chọn, có |ℱ𝐴𝑞1|. |ℱ𝐴𝑞2| … |ℱ𝐴𝑞𝑣| cách chọn các hạng từ ngôn ngữ cho v thuộc tính. Để đơn giản, giả sử |ℱ𝐴𝑞1| = |ℱ𝐴𝑞2| = ⋯ = |ℱ𝐴𝑞𝑙| = |ℱ𝐴|. Do đó, có tất cả có 𝐶𝑚𝑣. |ℱ𝐴|𝑣 thành phần o(Fq) khác nhau. Hoàn toàn tương tự, với mỗi thành phần o(Fq) đã xác định, có 𝐶𝑚−𝑣𝑡 . |ℱ𝐴|𝑡 thành phần o(Es) khác nhau. Mỗi thành phần o(Fq) và o(Es) xác định một thân câu tóm tắt, đồng thời xác định một từ lượng hóa Q để tạo thành một câu tóm tắt đầy đủ các thành phần. Vậy, số lượng câu tóm tắt khác nhau là 𝐶𝑚𝑣. 𝐶𝑚−𝑣𝑡 . |ℱ𝐴|𝑣+𝑡.
Xét ví dụ một cơ sở dữ liệu có m = 10 thuộc tính, mỗi khung nhận thức ngơn ngữ của thuộc tính A là ℱ𝐴 có mức tính riêng là 3, gồm có 17 hạng từ ngơn ngữ như trong thực nghiệm ở chương 3. Giả sử giới hạn số thuộc tính trong thành phần o(Fq) và o(Es) khơng q 2, tức là 0 v 2 và 0 < t 2. Bảng 4.1 thống kê số lượng câu tóm tắt khác nhau theo số lượng thuộc tính trong từng thành phần o(Fq) và thành phần o(Es). Tổng tất cả sẽ có 108 813 005 câu tóm tắt khác nhau.
Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu Số thuộc tính trong o(Fq) (v thuộc tính) Số thuộc tính trong o(Es) (t thuộc tính) Số câu tóm tắt 0 1 𝐶100. 𝐶101 . |17|1 = 170 0 2 𝐶100. 𝐶102 . |17|2 = 13005 1 1 𝐶101 . 𝐶91. |17|2 = 26010