ngữ dựa trên lý thuyết tập mờ
Phương pháp trích rút tri thức ngôn ngữ dựa trên lý thuyết tập mờ đã được phát triển và chứng tỏ hiệu quả trong lĩnh vực khai phá dữ liệu bởi nó làm cho máy tính có khả năng biểu diễn và lập luận dựa trên tri thức [2]. Để đánh giá hiệu quả của các phương pháp này cần dựa trên các tiêu chí, độ đo định lượng được theo từng mục tiêu khi áp dụng vào giải các bài toán cụ thể.
Xem xét với hai bài toán phân lớp và hồi quy được giải bằng phương pháp sử dụng hệ suy diễn dựa trên luật mờ. Việc xác định khung nhận thức bằng các tập mờ (Frame of Cognition – FoC) (tức là xác định các tập mờ và thực hiện gán nhãn ngôn ngữ cho chúng) cho các miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu đóng vai trò quan trọng. Các nhãn ngôn ngữ này được sử dụng trong các luật mờ.
Các luật mờ này được sử dụng trong một hệ suy diễn để thực hiện phân lớp hoặc lập luận. Hiệu quả của phương pháp được đánh giá dựa trên các độ đo được tính bằng các công thức toán học và kết quả là giá trị số nên dễ dàng trong đánh giá, so sánh hiệu quả giữa phương pháp. Ví dụ, khi giải bài toán phân lớp, hiệu quả được đánh giá bằng tỷ lệ phân lớp đúng trên tổng số mẫu; đối với bài toán hồi quy, hiệu quả được đánh giá bằng sai khác bình phương của giá trị đoán nhận. Như vậy, các nhãn gán cho các tập mờ có thể là các chuỗi ký hiệu không có nghĩa như A11, A12, A21; các tập mờ cũng được điều chỉnh sao cho hướng đến mục tiêu tối đa tỷ lệ phân lớp đúng hoặc tối thiểu sai khác khi suy đoán giá trị thực … Sau đó, người dùng có nhu cầu muốn đọc tường minh các luật trong hệ suy diễn. Nên đã có các nghiên cứu về tính giải nghĩa của các luật, trong đó đưa ra các điều kiện khi thiết kế tập mờ và gán nhãn ngôn ngữ có nghĩa, hạn chế số lượng thuộc tính trong một luật và số lượng luật trong tập luật. Tuy nhiên, đánh giá hiệu quả bằng độ đo tính theo công thức vẫn là quan trọng nhất.
Khi nghiên cứu bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ, tác giả nhận thấy có điểm khác biệt lớn với bài toán phân lớp, hồi quy trong cách đánh giá hiệu quả của phương pháp trích rút tóm tắt. Đầu ra của quá trình trích rút tóm tắt bằng ngôn ngữ là các câu diễn đạt các tri thức ẩn dấu trong tập dữ liệu. Người sử dụng giải nghĩa các câu tóm tắt để hiểu tri thức và sử dụng nó để đưa ra các quyết định giải quyết vấn đề trong thực tế. Tức là con người giải nghĩa câu tóm tắt dựa trên ngữ nghĩa của các hạng từ trong câu. Ví dụ câu tóm tắt “Most young
employees have high salary” được giải nghĩa dựa trên ngữ nghĩa của các hạng từ ‘most’, ‘young’, ‘high’. Bởi vậy, một cách hợp lý hơn khi đánh giá hiệu quả của việc áp dụng phương pháp trích rút tóm tắt là cần đảm bảo người dùng giải nghĩa câu tóm tắt sẽ hiểu đúng nội dung thông tin, tri thức ẩn dấu trong tập dữ liệu. Một câu hỏi đặt ra là làm sao đảm bảo câu tóm tắt được trích rút bởi một thuật toán tương tác trên các tập mờ diễn đạt đúng nội dung thông tin, tri thức của tập dữ liệu. Các tập mờ được gán cho các hạng từ để diễn đạt ngữ nghĩa của các hạng từ tương ứng, chúng được coi là ngữ nghĩa tính toán của các hạng từ. Tuy nhiên, theo cách tiếp cận của lý thuyết tập mờ, các hạng từ được gán cho các tập mờ chỉ đóng vai trò là nhãn ngôn ngữ, các điều kiện về giải nghĩa được đưa ra dựa trên hình dạng, mối
quan hệ giữa các tập mờ chứ không phải dựa trên ngữ nghĩa vốn có của các hạng từ được gán cho chúng. Do đó, thiếu sự đảm bảo các tập mờ biểu diễn đúng ngữ nghĩa vốn có của các hạng từ được gán bởi cộng đồng khi sử dụng chúng trong thực tế. Điều này có thể dẫn đến người dùng giải nghĩa nội dung câu tóm tắt không đúng với thực tế về các đối tượng được lưu trữ trong kho dữ liệu.
Các nghiên cứu trích rút tóm tắt dựa trên lý thuyết tập mờ chỉ thiết kế số lượng cố định các tập mờ cho các hạng từ giới hạn trong khoảng 7 2. Vì số lượng giới hạn này nên tập hạng từ thường chỉ chứa những hạng từ có ngữ nghĩa rộng (tính khái quát lớn hay tính mờ lớn). Ví dụ, trong nghiên cứu trích rút tóm tắt về bệnh nhân [42], các tác giả chỉ sử dụng năm hạng từ trong miền hạng từ của thuộc tính “heart rate” với thứ tự ngữ nghĩa tăng dần là ‘very low’, ‘low’, ‘medium’, ‘high’ và ‘very high’. Trong nghiên cứu [38], các tác giả sử dụng bẩy hạng từ cho các thuộc tính chỉ tỷ lệ các chất hóa học lần lượt là ‘very low’, ‘low’, ‘medium–low’, ‘medium’, ‘medium–high’, ‘high’ và ‘very high’; 9 hạng từ cho thuộc tính creep lần lượt là ‘very low’, ‘low’, ‘medium–low’, ‘medium’, ‘medium–high’, ‘high’, ‘very high’, ‘extra high’ và ‘ideal’. Nghiên cứu của Kacprzyk và Zadrożny [12] nêu quan điểm các câu tóm tắt chứa các từ có tính mờ lớn như “Almost all winter days the temperature is rather cold” dù có giá trị đúng đắn T lớn nhưng lại không hữu ích. Do đó, khi đặt giới hạn số lượng từ như trong các nghiên cứu đã có cũng đồng nghĩa giới hạn tập tri thức hữu ích khi trích rút tóm tắt từ tập dữ liệu. Hơn nữa, tính mở rộng của tập từ vựng, tính mở rộng tri thức diễn đạt bằng ngôn ngữ trong quá trình khai phá dữ liệu là yêu cầu thực tế. Chúng ta dễ dàng tìm được trên Internet các câu chứa các hạng từ có tính đặc tả lớn (các từ in nghiêng trong các câu sau), ví dụ như: “Homeopathy employs very, very dilute amounts of natural substances from plants, animals, and minerals, to stimulate the sick person’s body to overcome his or her own illness.”, “Very little high-quality evidence to support most medications for children with autism spectrum disorders”, “If a sick person takes that same substance into his body in very, very, very dilute amounts, then that form of the substance can cure those same symptoms.”. Do đó, việc khảo sát tập hạng từ có số lượng từ lớn hơn và chứa nhiều hạng từ có tính đặc tả lớn (tính riêng lớn hay ít mờ hơn) là cần thiết trong khi giải bài toán trích rút tóm tắt bằng ngôn ngữ.
Qua phân tích nêu trên cho thấy vai trò cực kỳ quan trọng của việc xây dựng khung nhận thức bằng các tập mờ cho miền hạng từ của thuộc tính trong bài toán trích rút tóm tắt bằng ngôn ngữ. Vì nó không những đóng vai trò quyết định đến tập câu tóm tắt kết quả mà còn tác động trực tiếp đến vấn đề đảm bảo giải nghĩa đúng đắn nội dung thông tin câu tóm tắt. Các phần tiếp theo, luận án sẽ trình bày cơ sở toán học để đưa ra điều kiện cho việc thực hiện mờ hóa miền tham chiếu bằng một tập các tập mờ đảm bảo tính giải nghĩa và tính mở rộng được.