Bài viết trình bày một phương pháp mới để sinh ra các tóm tắt bằng ngôn ngữ mà ngữ nghĩa dựa trên cấu trúc Đại số gia tử. So với cách tiếp cận dựa trên lí thuyết mờ, cách tiếp cận dựa trên Đại số gia tử hạn chế được sự mất thông tin và làm giảm độ sai lệch trong tóm tắt dữ liệu.
JOURNAL OF SCIENCE OF HNUE Natural Sci 2015, Vol 60, No 4, pp 71-79 This paper is available online at http://stdb.hnue.edu.vn DOI: 10.18173/2354-1059.2015-00010 ỨNG DỤNG ĐẠI SỐ GIA TỬ TRONG TĨM TẮT DỮ LIỆU BẰNG NGƠN NGỮ Phạm Thị Lan Hồ Cẩm Hà Khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt Tóm tắt liệu ngôn ngữ (linguistic database summarization) khả mà hệ thống thông tin hướng đến Kacprzyk cộng đạt nhiều kết nghiên cứu tốn tóm tắt liệu Yager đề (1982) dựa lí thuyết mờ Zadeh Trong báo này, trình bày phương pháp để sinh tóm tắt ngơn ngữ mà ngữ nghĩa dựa cấu trúc Đại số gia tử So với cách tiếp cận dựa lí thuyết mờ, cách tiếp cận dựa Đại số gia tử hạn chế thông tin làm giảm độ sai lệch tóm tắt liệu Từ khóa: Tóm tắt liệu, đại số gia tử, định lượng ngôn ngữ Mở đầu Dữ liệu người thu thập nhiều dạng: dạng số, dạng phi số (từ ngữ, hình ảnh, âm ) Tuy nhiên, hầu hết tình huống, đưa định dựa thông tin diễn đạt ngôn ngữ Các câu tóm tắt liệu ngơn ngữ rút từ sở liệu dạng tri thức Do đó, tóm tắt liệu ngôn ngữ sở quan trọng hệ thống hỗ trợ định, điều khiển tự động Một tóm tắt liệu theo Yager (1982) định nghĩa [1] gồm có thành phần: tóm tắt S, định lượng thỏa đáng Q, độ tin cậy T Dựa khái niệm protoform Zadeh, tác giả Kacprzyk, Zadrozny [2] đưa hai dạng tổng quát cho tóm tắt sau: Dạng 1: Q y are S Ví dụ: Hầu hết (Q) cơng nhân (y) lương cao (S) Dạng 2: Q B y are S Ví dụ: Hầu hết (Q) công nhân (y) trẻ (B) lương cao (S) Với y có nghĩa ghi, B điều kiện lọc Các nghiên cứu tóm tắt liệu [1-4] dựa lí thuyết tập mờ Khi đó, ngữ nghĩa hạng từ S, B, Q diễn đạt tập mờ, độ tin cậy T tính tốn dựa giá trị hàm thuộc công thức (1) (2) [5] Cơng thức (3) tính độ thỏa mãn (matching degree) ghi R điều kiện AT = F V (AT thuộc tính, FV hạng từ, ví dụ Tuổi = trẻ ) Cơng thức (4) tính độ phù hợp (matching degree) ghi R với truy vấn “Q số N điều kiện thỏa mãn” [3] 1 n truth(Q y are S ) Q S yi n i 1 (1) n B yi S yi i 1 truth (Q B y are S ) Q n B yi i 1 md AT FV , R FV R AT 1 N md Q Cli 1, , N , R Q md Cli , R n i 1 (2) (3) (4) Ngày nhận bài: 13/4/2015 Ngày nhận đăng: 22/5/2015 Tác giả liên lạc: Phạm Thị Lan, địa e-mail: ptlan@hnue.edu.vn 71 Phạm Thị Lan Hồ Cẩm Hà Trước hết, hạng từ xác định theo cơng thức (1) (2) (hạng từ có độ tin cậy cao chọn đưa vào câu tóm tắt) chưa diễn đạt ngữ nghĩa tóm tắt liệu so với thực tế Xét ví dụ sau Ví dụ 1.1 Cơ sở liệu gồm có 20 ghi, số người độ thuộc tuổi vào hạng từ trẻ Bảng Ta cần đánh giá tỉ lệ người trẻ so với tổng số người sở liệu Đây dạng tóm tắt theo kiểu biết S, cần xác định Q Giả sử hạng từ biểu diễn giá trị cho thuộc tính Tuổi trẻ, trung niên, già, hạng từ biểu diễn cho Q ít, khoảng nửa, hầu hết với tập mờ biểu diễn cho chúng Hình Bảng Thống kê số lượng công nhân theo tuổi 5 5 Số người Tuổi 20 22 29 45 Độ thuộc 0.9 0.8 0.5 1.2 1.0 0.8 0.6 0.4 0.2 0 (a) Trung nien Tre 10 20 30 50 40 Gia 60 70 80 90 (b) Hình (a) Hàm thuộc biểu diễn ngữ nghĩa hạng từ ít, khoảng nửa, hầu hết (b) Hàm thuộc biểu diễn ngữ nghĩa hạng từ trẻ, trung niên, già n Đặt TBC S yi , công thức (1) trở thành T truth Q y are S Q TBC n i 1 Áp dụng cho liệu Bảng I, ta có: TBC 20 0.9 0.8 0.5 trỴ yi 0.55 20 20 i 1 Dựa vào Error! Reference source not found.(b), ta có ước lượng sau: T1 mét Ýt 0.55 , T2 kho¶ng mét nưa 0.55 0.8 , T3 hÇu hÕt 0.55 0.1 Như với cách tiếp cận Kacprzyk [2] dựa lý thuyết mờ, câu tóm tắt chọn “Khoảng nửa số người có tuổi trẻ” có độ tin cậy T = 0.8 cao Nhưng nhìn vào Bảng 1, ta thấy câu tóm tắt khơng phù hợp, mà “Hầu hết số người có tuổi trẻ” kết luận độ tin cậy câu thấp (T = 0.1) Trong trường hợp khác, giá trị biểu thức với hoành độ giao điểm G hai hàm thuộc hầu hết khoảng nửa có hai hạng từ định lượng khác với độ tin cậy độ tin cậy thấp Theo quan điểm logic mờ, để khắc phục điều cần thêm vào hạng từ nhiều với thứ tự mặt ngữ nghĩa khoảng nửa ≤ nhiều ≤ hầu hết (hàm thuộc biểu diễn nét đứt Hình 2) Khi đó, hạng từ chọn cho câu kết luận Q = nhiều với độ tin cậy cao T = 0.95 Tuy nhiên, cách làm khơng tránh có nhiều hạng từ độ tin cậy ngữ nghĩa định lượng chúng khác (phát sinh giao điểm H Hình mà "Khá nhiều" (trẻ) khác với "khoảng nửa" (trẻ)) Như vậy, cơng thức (1), (2) đưa hạng từ Q khơng hợp lí 72 Ứng dụng đại số gia tử tóm tắt liệu ngơn ngữ Hình Bổ sung thêm hạng từ “khá nhiều” Mặt khác, cịn có điểm khơng hợp lí truy vấn sử dụng công thức (4), (5) Trong trích rút câu tóm tắt, truy vấn liệu giai đoạn có vai trị định đến độ tin cậy Theo [2, 4] độ phù hợp ghi R lớn giá trị ngưỡng R đưa vào kết truy vấn Trong N công thức (4), giá trị md Cli , R (trung bình cộng độ phù hợp N điều kiện) dẫn đến N i 1 kết sai lệch Cho liệu Bảng 2, hai điều kiện truy vấn xem xét “Tuổi = trẻ ”; "Lương = cao" Nếu truy vấn hai điều kiện với định lượng Q = tất (nghĩa truy vấn ghi thỏa đồng thời hai điều kiện) hai ghi có độ phù hợp (0.4) với câu truy vấn Rõ ràng điều khơng hợp lí ghi thứ không thỏa điều kiện "Lương = cao" Việc lấy trung bình cộng độ phù hợp ghi với điều kiện che giấu không phù hợp với điều kiện Bảng Độ thuộc thuộc tính Tuổi Lương hai ghi R1 R2 vào hạng từ tương ứng trẻ cao trẻ(tuổi) cao(lương) R1 R2 0.8 0.4 0.4 Nhằm khắc phục hạn chế tóm tắt liệu, chúng tơi chọn cách tiếp cận ứng dụng Đại số gia tử hai giai đoạn truy vấn chọn hạng từ Q cho toán Đại số gia tử (ĐSGT) Nguyễn Cát Hồ W.Wechler đề xuất năm 1990 Đây cấu trúc đại số cho miền giá trị hạng từ mà ngữ nghĩa xác định dựa thứ tự miền hạng từ [6] ĐSGT trang bị công thức để dễ dàng tính tốn định lượng mờ độ đo mờ, khoảng mờ, ánh xạ định lượng ngữ nghĩa dựa tham số với số lượng nhỏ dễ dàng xác định dựa tri thức thông thường người Ưu điểm bật ĐSGT tính tốn, ánh xạ ln ln bảo tồn quan hệ thứ tự ngữ nghĩa Trong báo này, thuật ngữ "tóm tắt liệu ngôn ngữ" viết tắt LDS (Linguistic database summarization) Nội dung nghiên cứu 2.1 Đại số gia tử Trong phần này, khái niệm đại số gia tử định lượng ngữ nghĩa đại số gia tử tóm tắt theo [6] 2.1.1 Các khái niệm Cho X biến ngôn ngữ Dom(X ) tập chứa tất hạng từ tập giá trị biến X Tập X = Dom(X ) coi cấu trúc đại số AX = (X, G, C, H, ), đó: 73 Phạm Thị Lan Hồ Cẩm Hà - (X, ) cấu trúc dựa thứ tự, quan hệ thứ tự sinh từ ngữ nghĩa vốn có hạng từ biến X - G = {c, c+} tập phần tử sinh, c+ coi hạng từ nguyên thủy dương, c- hạng từ nguyên thủy âm Ta có c- c+ Ví dụ: chậm nhanh, nhiều - C = {0, W, 1} tập phần tử thỏa mãn c- W c+ 1, hai phần tử coi hạng từ nhỏ nhất, lớn cấu trúc (X, ), W phần tử trung bình Ví dụ: có nghĩa chậm, W có nghĩa trung bình, có nghĩa nhanh - HI = H {I} với H tập gia tử biến X I gia tử nhân tạo mang nghĩa phần tử đơn vị, tức Ix = x Tập H gồm gia tử dương H+ gia tử âm H- Các gia tử dương làm tăng ngữ nghĩa hạng từ mà tác động, cịn gia tử âm làm giảm ngữ nghĩa hạng từ Giả sử H = {h0, h-1, , h-q} H+ = {h0, h1, , hp}, với h-1