Bài tốn trích rút tập con câu tóm tắt tối ưu

Một phần của tài liệu Luận án tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 117 - 119)

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ

4.2. Bài tốn trích rút tập con câu tóm tắt tối ưu

Số lượng câu tóm tắt được trích rút bởi HA-Apriori-LS-All lớn hơn nhiều lần so với số lượng luật kết hợp ngơn ngữ được trích rút từ cùng cơ sở dữ liệu đó. Khi số lượng câu tóm tắt trích rút được q lớn, sẽ gây khó khăn cho người sử dụng đọc hiểu và giải nghĩa nội dung các câu tóm tắt để giải quyết các vấn đề trong thực tế. Từ đó đặt ra bài tốn tìm kiếm một tập con tối ưu chứa một số lượng ít các câu tóm tắt theo một hàm mục tiêu của người dùng. Đây là một hướng giải thứ hai cho bài tốn trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk [12].

Cho trước một cơ sở dữ liệu D = {o1, o2, …, on} trên tập thuộc tính A = {A1,

A2, …, Am}. Mẫu câu tóm tắt tổng quát “Qos that are o(Fq) are o(Es)”, trong đó thành phần o(Fq) là liên kết của v vị từ ngôn ngữ “o(Aq1) is/has xq1 AND … AND

AND o(Ast) is/has xst”, với v  0, t > 0. Khi v = 0, tức là phần điều kiện lọc o(Fq) khơng có, khi đó câu tóm tắt ở dạng đơn giản “Qos are o(Es)”. Ở mức tổng quát khi các thành phần o(Fq) và o(Es) hồn tồn chưa xác định, có 𝐶𝑛𝑣 (tổ hợp chập v của n) số cách chọn v thuộc tính cho thành phần o(Fq). Với v thuộc tính đã chọn, có |ℱ𝐴𝑞1|. |ℱ𝐴𝑞2| … |ℱ𝐴𝑞𝑣| cách chọn các hạng từ ngôn ngữ cho v thuộc tính. Để đơn giản, giả sử |ℱ𝐴𝑞1| = |ℱ𝐴𝑞2| = ⋯ = |ℱ𝐴𝑞𝑙| = |ℱ𝐴|. Do đó, có tất cả có 𝐶𝑚𝑣. |ℱ𝐴|𝑣 thành phần o(Fq) khác nhau. Hồn tồn tương tự, với mỗi thành phần o(Fq) đã xác định, có 𝐶𝑚−𝑣𝑡 . |ℱ𝐴|𝑡 thành phần o(Es) khác nhau. Mỗi thành phần o(Fq) và o(Es) xác định một thân câu tóm tắt, đồng thời xác định một từ lượng hóa Q để tạo thành một câu tóm tắt đầy đủ các thành phần. Vậy, số lượng câu tóm tắt khác nhau là 𝐶𝑚𝑣. 𝐶𝑚−𝑣𝑡 . |ℱ𝐴|𝑣+𝑡.

Xét ví dụ một cơ sở dữ liệu có m = 10 thuộc tính, mỗi khung nhận thức ngơn ngữ của thuộc tính A là ℱ𝐴 có mức tính riêng là 3, gồm có 17 hạng từ ngơn ngữ như trong thực nghiệm ở chương 3. Giả sử giới hạn số thuộc tính trong thành phần o(Fq) và o(Es) không quá 2, tức là 0 v 2 và 0 < t 2. Bảng 4.1 thống kê số lượng câu tóm tắt khác nhau theo số lượng thuộc tính trong từng thành phần o(Fq) và thành phần o(Es). Tổng tất cả sẽ có 108 813 005 câu tóm tắt khác nhau.

Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu Số thuộc tính trong o(Fq) (v thuộc tính) Số thuộc tính trong o(Es) (t thuộc tính) Số câu tóm tắt 0 1 𝐶100. 𝐶101 . |17|1 = 170 0 2 𝐶100. 𝐶102 . |17|2 = 13005 1 1 𝐶101 . 𝐶91. |17|2 = 26010 1 2 𝐶101 . 𝐶92. |17|3 = 1768680 2 1 𝐶102. 𝐶81. |17|3 = 1768680 2 2 𝐶102. 𝐶82. |17|4 = 105236460

Người dùng không thể đọc hiểu hết tất cả số lượng câu tóm tắt trích rút từ cơ sở dữ liệu. Hơn nữa, trong tập tất cả các câu tóm tắt sẽ có những câu mà phần thân câu chỉ khác nhau một hạng từ ngơn ngữ, các phần cịn lại là giống nhau. Ví dụ cặp câu “Ít cơng việc với khoảng cách trung bình có mức lương cao (T = 0.67)” và “Ít

ra bài tốn là cần tìm kiếm một tập con các câu tóm tắt từ khơng gian chứa tất cả các câu tóm tắt có thể trích rút từ cơ sở dữ liệu. Tập câu tóm tắt cần tìm kiếm có số lượng giới hạn, nhưng thể hiện tri thức đa dạng trong cơ sở dữ liệu. Khi xây dựng được một hàm đánh giá chất lượng tập câu tóm tắt theo mong muốn, cần giải bài tốn tìm kiếm một tập câu tóm tắt sao cho hàm đánh giá đạt giá trị cực đại. Giải thuật di truyền là một phương pháp giải tốt cho dạng bài toán này.

Trong phần tiếp theo, luận án sẽ trình bày phương pháp giải bài tốn trích rút tập câu tóm tắt tối ưu bằng mơ hình giải thuật di truyền.

Một phần của tài liệu Luận án tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 117 - 119)

Tải bản đầy đủ (PDF)

(148 trang)