Bài toán trích rút tập con câu tóm tắt tối ưu

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 121 - 123)

Số lượng câu tóm tắt được trích rút bởi HA-Apriori-LS-All lớn hơn nhiều lần so với số lượng luật kết hợp ngôn ngữ được trích rút từ cùng cơ sở dữ liệu đó. Khi số lượng câu tóm tắt trích rút được quá lớn, sẽ gây khó khăn cho người sử dụng đọc hiểu và giải nghĩa nội dung các câu tóm tắt để giải quyết các vấn đề trong thực tế. Từ đó đặt ra bài toán tìm kiếm một tập con tối ưu chứa một số lượng ít các câu tóm tắt theo một hàm mục tiêu của người dùng. Đây là một hướng giải thứ hai cho bài toán trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk [12].

Cho trước một cơ sở dữ liệu D = {o1, o2, …, on} trên tập thuộc tính A = {A1, A2, …, Am}. Mẫu câu tóm tắt tổng quát “Qos that are o(Fq) are o(Es)”, trong đóthành phần o(Fq) là liên kết của v vị từ ngôn ngữ “o(Aq1) is/has xq1 AND … AND o(Aqv) is/has xqv”, o(Es) là liên kết của t vị từ ngôn ngữ “o(As1) is/has xs1 AND …

TIEU LUAN MOI download : skknchat@gmail.com

114

AND o(Ast) is/has xst”, với v 0, t > 0. Khi v = 0, tức là phần điều kiện lọc o(Fq) không có, khi đó câu tóm tắt ở dạng đơn giản

Qos are o(Es)”. Ở mức tổng quát khi các thành phần o(Fq) và o(Es) hoàn toàn chưa xác định, có (tổ hợp chập v của n) số cách chọn v thuộc tính cho thành phần o(Fq). Với v thuộc tính đã chọn, có |ℱ 1|. |ℱ 2| … |ℱ | cách chọn các hạng từ ngôn ngữ cho v thuộc tính. Để đơn giản, giả sử |ℱ 1| = |ℱ 2| = ⋯ = |ℱ | = |ℱ |. Do đó, có tất cả có . |ℱ | thành phần o(Fq) khác

nhau. Hoàn toàn tương tự, với mỗi thành phần o(Fq) đã xác định, có − . |ℱ | thành phần o(Es) khác nhau. Mỗi thành phần

o(Fq) và o(Es) xác định một thân câu tóm tắt, đồng thời xác định một từ lượng hóa Q để tạo thành một câu tóm tắt đầy đủ các thành phần. Vậy, số lượng câu tóm tắt khác nhau là

. − . |ℱ | + .

Xét ví dụ một cơ sở dữ liệu có m = 10 thuộc tính, mỗi khung nhận thức ngôn ngữ của thuộc tính A là ℱ có mức tính riêng là 3, gồm có 17 hạng từ ngôn ngữ như trong thực nghiệm ở chương 3. Giả sử giới hạn số thuộc tính trong thành phần o(Fq) và o(Es) không quá 2, tức là 0 v 2 và 0 < t 2.

Bảng 4.1 thống kê số lượng câu tóm tắt khác nhau theo số lượng thuộc tính trong từng thành phần

o(Fq) và thành phần o(Es). Tổng tất cả sẽ có 108 813 005 câu tóm tắt khác nhau.

Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu

Số thuộc tính trong o(Fq) (v thuộc tính) 0 0 1 1 2 2 Người dùng không thể đọc hiểu hết tất cả số lượng câu tóm tắt trích rút từ cơ

sở dữ liệu. Hơn nữa, trong tập tất cả các câu tóm tắt sẽ có những câu mà phần thân câu chỉ khác nhau một hạng từ ngôn ngữ, các phần còn lại là giống nhau. Ví dụ cặp câu “Ít công việc với khoảng cách trung bình có mức lương cao (T = 0.67)” và “Ít

TIEU LUAN MOI download : skknchat@gmail.com

115

ra bài toán là cần tìm kiếm một tập con các câu tóm tắt từ không gian chứa tất cả các câu tóm tắt có thể trích rút từ cơ sở dữ liệu. Tập câu tóm tắt cần tìm kiếm có số lượng giới hạn, nhưng thể hiện tri thức đa dạng trong cơ sở dữ liệu. Khi xây dựng được một hàm đánh giá chất lượng tập câu tóm tắt theo mong muốn, cần giải bài toán tìm kiếm một tập câu tóm tắt sao cho hàm đánh giá đạt giá trị cực đại. Giải thuật di truyền là một phương pháp giải tốt cho dạng bài toán này.

Trong phần tiếp theo, luận án sẽ trình bày phương pháp giải bài toán trích rút tập câu tóm tắt tối ưu bằng mô hình giải thuật di truyền.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 121 - 123)

Tải bản đầy đủ (DOCX)

(157 trang)
w