Hàm đánh giá độ thích nghi

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 119 - 121)

Donis-Diaz và cộng sự [38] đánh giá một tập câu tóm tắt tối ưu dựa trên độ tốt (goodness) và độ đa dạng (deversity). Độ tốt của một câu tóm tắt được đánh giá theo công thức (4.3). Độ tốt của một tập câu tóm tắt Gd được tính bằng trung bình cộng độ tốt của các câu tóm tắt trong tập câu như trong công thức (4.4) (l là số lượng câu tóm tắt trong tập câu).

𝐺𝑛 = 𝑇 ∙ 𝑆𝑡(𝑄) (4.3)

𝐺𝑑 = ∑𝑙𝑖=1𝐺𝑛𝑖

𝑙 (4.4)

Trong đó: T là độ đo đúng đắn, St(Q) là trọng số của từ lượng hóa Q được gán sẵn dựa trên đánh giá mức độ ưa thích của các từ lượng hóa. Trong nghiên cứu [38], năm từ lượng hóa được gán trọng số lần lượt là St(‘most’) = 1, St(‘much’) =

0.75, St(‘half’) = 0.20, St(‘some’) = 0.15, St(‘few’) = 0.05. Như vậy, từ lượng hóa diễn đạt cho tỷ lệ càng lớn thì trọng số càng lớn.

Độ đa dạng của một tập câu tóm tắt được tính bằng công thức (4.5). Trong đó, C là số lớp khi thực hiện phân cụm tập câu tóm tắt, l là số lượng câu trong tập câu tóm tắt.

𝐷𝑒 =𝐶

𝑙 (4.5)

Giá trị C là số cụm khi thực hiện phân cụm tập câu tóm tắt dựa trên hàm tính độ tương tự L như sau:

𝐿(𝑝1, 𝑝2) = {𝑌𝑒𝑠 𝑖𝑓 ∑𝑚𝑘=0𝐻(𝑝1𝑘, 𝑝2𝑘) < 2

𝑁𝑜 𝑖𝑛 𝑜𝑡ℎ𝑒𝑟 𝑐𝑎𝑠𝑒 (4.6) Hai câu tóm tắt p1 và p2 trích rút từ cơ sở dữ liệu gồm có m thuộc tính được biểu diễn bởi vectơ số gồm (m + 1) thành phần. Thành phần p10 và p20 là chỉ số của hạng từ lượng hóa Q trong Dom(Q), các thành phần p1i, p2i lần lượt là chỉ số của hạng từ trong Dom(Ai) của vectơ biểu diễn câu tóm tắt p1, p2 (Dom(Ai) – miền hạng từ của thuộc tính Ai). Nếu thuộc tính Ai không có trong câu tóm tắt thì thành phần thứ i trong vectơ biểu diễn câu tóm tắt nhận giá trị 0. Khi kết quả của hàm L(p1, p2) là ‘yes’ tức là hai câu tóm tắt p1và p2 là tương tự nhau. Trong đó, hàm H(p1k, p2k) được tính theo công thức (4.7) để so sánh thành phần thứ k trong hai vectơ có khác biệt nhau không. Thành phần thứ k khác biệt nhau (giá trị hàm H(p1k, p2k) = 1) khi: (1) p1k = 0 và p2k 0; p1k 0 và p2k = 0 (thuộc tính Akchỉ có trong một câu tóm tắt, không có trong câu tóm tắt còn lại); (2) thuộc tính Ak cùng có trong cả hai câu tóm tắt, nhưng hai chỉ số hạng từ có sự khác biệt. Hai chỉ số của hạng từ trong cùng

Dom(Ak) được coi là khác biệt khi chúng ở hai vị trí trong thứ tự sắp xếp ngữ nghĩa tăng dần cách nhau lớn hơn 20% số lượng từ trong Dom(Ak). Ví dụ: Nếu Dom(Ak)= {’very low’, ‘low’, ‘little low’, ‘medium’, ‘little high’, ‘high’, ‘very high’}, hạng từ ‘low’ ở vị trí 2 và hạng từ ‘medium’ ở vị trí 4 có khoảng cách là |2 − 4| > 20%*7 = 1.4. Do đó, hai từ ‘low’ và ‘medium’ được coi là khác biệt. Trong khi, hạng từ ‘little low’ và ‘medium’ lần lượt ở vị trí 3 và 4, ta có |3 - 4| < 20%*7 = 1.4, nên hai hạng từ ‘little low’ và ‘medium’ được coi là không khác biệt.

𝐻(𝑝1𝑘, 𝑝2𝑘) = { 1 𝑖𝑓 |𝑝1𝑘− 𝑝2𝑘| > 𝑟𝑜𝑢𝑛𝑑 (20% ∗ 𝑠𝑖𝑧𝑒 (𝐷𝑜𝑚(𝐴𝑘)) 𝑜𝑟 𝑖𝑓 𝑝1𝑘 = 0 𝑎𝑛𝑑 𝑝2𝑘 ≠ 0 𝑜𝑟 𝑖𝑓 𝑝1𝑘 ≠ 0 𝑎𝑛𝑑 𝑝2𝑘= 0 0 𝑖𝑛 𝑜𝑡ℎ𝑒𝑟 𝑐𝑎𝑠𝑒 (4.7)

Hàm thích nghi Fit cho một cá thể, tương ứng với một tập câu tóm tắt, là tổng hợp của 2 độ đo: độ tốt của một tập câu tóm tắt Gd và độ đa dạng De theo công thức gộp nhập như sau:

𝐹𝑖𝑡 = 𝑚𝑔𝐺𝑑 + 𝑚𝑑𝐷𝑒 (4.8)

Trong đó mg, md lần lượt là trọng số của 2 độ đo GdDe thỏa điều kiện mg

+ md = 1. Các tác giả trong [38] đã chọn mg = 0.7, md = 0.3, tức là độ tốt của tập các câu tóm tắt được gán trọng số gấp hơn 2 lần độ phong phú của toàn tập câu tóm tắt.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 119 - 121)

Tải bản đầy đủ (PDF)

(148 trang)