Phương pháp trích rút tri thức ngôn ngữ dựa trên lý thuyết tập mờ đã được phát triển và chứng tỏ hiệu quảtrong lĩnh vực khai phá dữ liệu bởi nó làm cho máy tính có khả năng biểu diễn và lập luận dựa trên tri thức [2]. Để đánh giá hiệu quả
của các phương pháp này cần dựa trên các tiêu chí, độ đo định lượng được theo từng mục tiêu khi áp dụng vào giải các bài toán cụ thể.
Xem xét với hai bài toán phân lớp và hồi quy được giải bằng phương pháp sử
dụng hệ suy diễn dựa trên luật mờ. Việc xác định khung nhận thức bằng các tập mờ
(Frame of Cognition – FoC) (tức là xác định các tập mờ và thực hiện gán nhãn ngôn ngữ cho chúng) cho các miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu
Các luật mờ này được sử dụng trong một hệ suy diễn để thực hiện phân lớp hoặc lập luận. Hiệu quả của phương pháp được đánh giá dựa trên các độ đo được tính bằng các công thức toán học và kết quả là giá trị số nên dễdàng trong đánh giá, so sánh hiệu quả giữa phương pháp. Ví dụ, khi giải bài toán phân lớp, hiệu quả được đánh
giá bằng tỷ lệ phân lớp đúng trên tổng số mẫu; đối với bài toán hồi quy, hiệu quả được đánh giá bằng sai khác bình phương của giá trị đoán nhận. Như vậy, các nhãn gán cho các tập mờ có thể là các chuỗi ký hiệu không có nghĩa như A11, A12, A21; các tập mờ cũng được điều chỉnh sao cho hướng đến mục tiêu tối đa tỷ lệ phân lớp
đúng hoặc tối thiểu sai khác khi suy đoán giá trị thực … Sau đó, người dùng có nhu cầu muốn đọc tường minh các luật trong hệ suy diễn. Nên đã có các nghiên cứu về
tính giải nghĩa của các luật, trong đó đưa ra các điều kiện khi thiết kế tập mờ và gán nhãn ngôn ngữ có nghĩa, hạn chế số lượng thuộc tính trong một luật và số lượng luật trong tập luật. Tuy nhiên, đánh giá hiệu quả bằng độđo tính theo công thức vẫn là quan trọng nhất.
Khi nghiên cứu bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ, tác giả nhận thấy có điểm khác biệt lớn với bài toán phân lớp, hồi quy trong
cách đánh giá hiệu quả của phương pháp trích rút tóm tắt. Đầu ra của quá trình trích rút tóm tắt bằng ngôn ngữ là các câu diễn đạt các tri thức ẩn dấu trong tập dữ liệu.
Người sử dụng giải nghĩa các câu tóm tắt để hiểu tri thức và sử dụng nó để đưa ra
các quyết định giải quyết vấn đề trong thực tế. Tức là con người giải nghĩa câu tóm
tắt dựa trên ngữ nghĩa của các hạng từ trong câu. Ví dụ câu tóm tắt “Most young
employees have high salary” được giải nghĩa dựa trên ngữ nghĩa của các hạng từ ‘most’, ‘young’, ‘high’. Bởi vậy, một cách hợp lý hơn khi đánh giá hiệu quả của việc áp dụng phương pháp trích rút tóm tắt là cần đảm bảo người dùng giải nghĩa
câu tóm tắt sẽ hiểu đúng nội dung thông tin, tri thức ẩn dấu trong tập dữ liệu. Một câu hỏi đặt ra là làm sao đảm bảo câu tóm tắt được trích rút bởi một thuật toán
tương tác trên các tập mờ diễn đạt đúng nội dung thông tin, tri thức của tập dữ liệu. Các tập mờ được gán cho các hạng từđể diễn đạt ngữ nghĩa của các hạng từtương ứng, chúng được coi là ngữ nghĩa tính toán của các hạng từ. Tuy nhiên, theo cách tiếp cận của lý thuyết tập mờ, các hạng từđược gán cho các tập mờ chỉđóng vai trò
quan hệ giữa các tập mờ chứ không phải dựa trên ngữnghĩa vốn có của các hạng từ được gán cho chúng. Do đó, thiếu sựđảm bảo các tập mờ biểu diễn đúng ngữnghĩa
vốn có của các hạng từ được gán bởi cộng đồng khi sử dụng chúng trong thực tế.
Điều này có thể dẫn đến người dùng giải nghĩa nội dung câu tóm tắt không đúng với thực tế vềcác đối tượng được lưu trữ trong kho dữ liệu.
Các nghiên cứu trích rút tóm tắt dựa trên lý thuyết tập mờ chỉ thiết kế số lượng cốđịnh các tập mờ cho các hạng từ giới hạn trong khoảng 7 2. Vì sốlượng giới hạn này nên tập hạng từ thường chỉ chứa những hạng từ có ngữ nghĩa rộng (tính khái quát lớn hay tính mờ lớn). Ví dụ, trong nghiên cứu trích rút tóm tắt về
bệnh nhân [42], các tác giả chỉ sử dụng năm hạng từ trong miền hạng từ của thuộc
tính “heart rate” với thứ tự ngữnghĩa tăng dần là ‘very low’, ‘low’, ‘medium’, ‘high’ và ‘very high’. Trong nghiên cứu [38], các tác giả sử dụng bẩy hạng từ cho các thuộc tính chỉ tỷ lệ các chất hóa học lần lượt là ‘very low’, ‘low’, ‘medium–low’, ‘medium’, ‘medium–high’, ‘high’ và ‘very high’; 9 hạng từ cho thuộc tính creep lần
lượt là ‘very low’, ‘low’, ‘medium–low’, ‘medium’, ‘medium–high’, ‘high’, ‘very high’, ‘extra high’ và ‘ideal’. Nghiên cứu của Kacprzyk và Zadrożny [12] nêu quan
điểm các câu tóm tắt chứa các từ có tính mờ lớn như “Almost all winter days the temperature is rather cold” dù có giá trị đúng đắn T lớn nhưng lại không hữu ích.
Do đó, khi đặt giới hạn sốlượng từnhư trong các nghiên cứu đã cócũng đồng nghĩa
giới hạn tập tri thức hữu ích khi trích rút tóm tắt từ tập dữ liệu. Hơn nữa, tính mở
rộng của tập từ vựng, tính mở rộng tri thức diễn đạt bằng ngôn ngữ trong quá trình khai phá dữ liệu là yêu cầu thực tế. Chúng ta dễdàng tìm được trên Internet các câu chứa các hạng từcó tính đặc tả lớn (các từ in nghiêng trong các câu sau), ví dụnhư:
“Homeopathy employs very, very dilute amounts of natural substances from plants,
animals, and minerals, to stimulate the sick person’s body to overcome his or her
own illness.”, “Very little high-quality evidence to support most medications for
children with autism spectrum disorders”, “If a sick person takes that same
substance into his body in very, very, very dilute amounts, then that form of the substance can cure those same symptoms.”. Do đó, việc khảo sát tập hạng từ có số lượng từ lớn hơn và chứa nhiều hạng từcó tính đặc tả lớn (tính riêng lớn hay ít mờ hơn) là cần thiết trong khi giải bài toán trích rút tóm tắt bằng ngôn ngữ.
Qua phân tích nêu trên cho thấy vai trò cực kỳ quan trọng của việc xây dựng khung nhận thức bằng các tập mờ cho miền hạng từ của thuộc tính trong bài toán trích rút tóm tắt bằng ngôn ngữ. Vì nó không những đóng vai trò quyết định đến tập câu tóm tắt kết quả mà còn tác động trực tiếp đến vấn đề đảm bảo giải nghĩa đúng đắn nội dung thông tin câu tóm tắt. Các phần tiếp theo, luận án sẽ trình bày cơ sở
toán học để đưa ra điều kiện cho việc thực hiện mờ hóa miền tham chiếu bằng một tập các tập mờđảm bảo tính giải nghĩa và tính mở rộng được.