Hàm đánh giá độ thích nghi

Một phần của tài liệu Luận án Tiến sĩ Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 119 - 121)

Donis-Diaz và cộng sự [38] đánh giá một tập câu tóm tắt tối ưu dựa trên độ

tốt (goodness) và độ đa dạng (deversity). Độ tốt của một câu tóm tắt được đánh giá

theo công thức (4.3). Độ tốt của một tập câu tóm tắt Gd được tính bằng trung bình cộng độ tốt của các câu tóm tắt trong tập câu như trong công thức (4.4) (l là số lượng câu tóm tắt trong tập câu).

𝐺𝑛 = 𝑇 ∙ 𝑆𝑡(𝑄) (4.3)

𝐺𝑑 = ∑𝑙𝑖=1𝐺𝑛𝑖

𝑙 (4.4)

Trong đó: T là độ đo đúng đắn, St(Q) là trọng số của từ lượng hóa Q được gán sẵn dựa trên đánh giá mức độ ưa thích của các từ lượng hóa. Trong nghiên cứu

0.75, St(‘half’) = 0.20, St(‘some’) = 0.15, St(‘few’) = 0.05. Như vậy, từ lượng hóa diễn đạt cho tỷ lệ càng lớn thì trọng số càng lớn.

Độ đa dạng của một tập câu tóm tắt được tính bằng công thức (4.5). Trong

đó, C là số lớp khi thực hiện phân cụm tập câu tóm tắt, l là số lượng câu trong tập câu tóm tắt.

𝐷𝑒 =𝐶𝑙 (4.5)

Giá trị C là số cụm khi thực hiện phân cụm tập câu tóm tắt dựa trên hàm tính

độtương tựLnhư sau:

𝐿(𝑝1, 𝑝2) = {𝑌𝑒𝑠 𝑖𝑓 ∑𝑚 𝐻(𝑝1𝑘, 𝑝2𝑘)

𝑘=0 < 2

𝑁𝑜 𝑖𝑛 𝑜𝑡ℎ𝑒𝑟 𝑐𝑎𝑠𝑒 (4.6) Hai câu tóm tắt p1 và p2 trích rút từcơ sở dữ liệu gồm có m thuộc tính được biểu diễn bởi vectơ số gồm (m + 1) thành phần. Thành phần p10 và p20 là chỉ số của hạng từ lượng hóa Q trong Dom(Q), các thành phần p1i, p2i lần lượt là chỉ số của hạng từ trong Dom(Ai) của vectơ biểu diễn câu tóm tắt p1, p2 (Dom(Ai) – miền hạng từ của thuộc tính Ai). Nếu thuộc tính Ai không có trong câu tóm tắt thì thành phần thứitrong vectơ biểu diễn câu tóm tắt nhận giá trị 0. Khi kết quả của hàm L(p1, p2)

là ‘yes’ tức là hai câu tóm tắt p1và p2 là tương tựnhau. Trong đó, hàm H(p1k, p2k)

được tính theo công thức (4.7) để so sánh thành phần thứk trong hai vectơ có khác

biệt nhau không. Thành phần thứk khác biệt nhau (giá trị hàm H(p1k, p2k) = 1) khi: (1) p1k = 0 và p2k 0; p1k 0 và p2k = 0 (thuộc tính Akchỉ có trong một câu tóm tắt, không có trong câu tóm tắt còn lại); (2) thuộc tính Ak cùng có trong cả hai câu tóm tắt, nhưng hai chỉ số hạng từ có sự khác biệt. Hai chỉ số của hạng từ trong cùng

Dom(Ak) được coi là khác biệt khi chúng ở hai vị trí trong thứ tự sắp xếp ngữnghĩa tăng dần cách nhau lớn hơn 20% sốlượng từ trong Dom(Ak). Ví dụ: Nếu Dom(Ak)= {’very low’, ‘low’, ‘little low’, ‘medium’, ‘little high’, ‘high’, ‘very high’}, hạng từ ‘low’ ở vị trí 2 và hạng từ ‘medium’ ở vị trí 4 có khoảng cách là |2 − 4| > 20%*7 =

1.4. Do đó, hai từ‘low’và ‘medium’ được coi là khác biệt. Trong khi, hạng từ‘little low’ và ‘medium’ lần lượt ở vị trí 3 và 4, ta có |3 - 4| < 20%*7 = 1.4, nên hai hạng từ‘little low’ và ‘medium’ được coi là không khác biệt.

𝐻(𝑝1𝑘, 𝑝2𝑘) = { 1 𝑖𝑓 |𝑝1𝑘− 𝑝2𝑘| > 𝑟𝑜𝑢𝑛𝑑 (20% ∗ 𝑠𝑖𝑧𝑒 (𝐷𝑜𝑚(𝐴𝑘)) 𝑜𝑟 𝑖𝑓 𝑝1𝑘 = 0 𝑎𝑛𝑑 𝑝2𝑘 ≠ 0 𝑜𝑟 𝑖𝑓 𝑝1𝑘 ≠ 0 𝑎𝑛𝑑 𝑝2𝑘= 0 0 𝑖𝑛 𝑜𝑡ℎ𝑒𝑟 𝑐𝑎𝑠𝑒 (4.7)

Hàm thích nghi Fit cho một cá thể, tương ứng với một tập câu tóm tắt, là tổng hợp của 2 độđo: độ tốt của một tập câu tóm tắt Gdvà độđa dạng De theo công thức gộp nhập như sau:

𝐹𝑖𝑡 = 𝑚𝑔𝐺𝑑 + 𝑚𝑑𝐷𝑒 (4.8)

Trong đó mg, md lần lượt là trọng số của 2 độđo GdDe thỏa điều kiện mg

+ md = 1. Các tác giả trong [38] đã chọn mg = 0.7, md = 0.3, tức là độ tốt của tập các câu tóm tắt được gán trọng số gấp hơn 2 lần độ phong phú của toàn tập câu tóm tắt.

Một phần của tài liệu Luận án Tiến sĩ Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 119 - 121)

Tải bản đầy đủ (PDF)

(148 trang)