Cho diễn dịch I là một hệ thống thông tin huấn luyện trong LΣ,Φ1. Gọi Ad ∈ΣC
là một khái niệm đại diện cho “thuộc tính quyết định”, E = hE+, E−ivới E+ = {a | 1Hệ thống thông tin được đề cập ở đây là hệ thống thông tin dựa trên logic mô tả, ký hiệu là I, khác với hệ thống thông tin truyền thống, ký hiệu làIS.
aI ∈AId}và E− ={a |aI ∈(¬AId)}tương ứng là tập các mẫu dương và mẫu âm của
Ad trong I. Giả sử rằng Ad có thể được biểu diễn bởi một khái niệm C trong ngôn ngữ con LΣ†,Φ†, trong đó Σ† ⊆ Σ\ {Ad} và Φ† ⊆ Φ. Vấn đề đặt ra là học khái niệm
C dựa trên các thông tin cơ bản I, E+ và E− trong ngôn ngữ con LΣ†,Φ† sao cho C
phải thỏa mãn các điều kiện sau:
• I |=C(a)với mọi a∈E+, • I |=¬C(a)với mọi a∈E−.
Lưu ý rằng, bài toán học khái niệm trong logic mô tả trong ngữ cảnh này được thực hiện trong giả thiết thế giới đóng. Do đó, I |=¬C(a) tương đồng với I 6|=C(a). Đây chính là bài toán học khái niệm trong logic mô tả với Ngữ cảnh (3) như đã giới thiệu trong phần mở đầu.
Để thực hiện việc học khái niệm trong logic mô tả, chúng ta sử dụng mô phỏng hai chiều để mô hình hóa tính không phân biệt được của các đối tượng. Thông qua tự mô phỏng hai chiều lớn nhất và tính không phân biệt được, chúng ta phân hoạch miền của diễn dịch nhằm tìm kiếm khái niệm phù hợp với định nghĩa của tập các đối tượng cần học.
Với E =hE+, E−i, trong đóE+ là tập chứa các mẫu dương vàE− là tập chứa các mẫu âm cho trước, ta nói rằng tập Y ⊆∆I bịphân chia bởiE nếu tồn tại a∈E+ và
b ∈ E− sao cho {aI, bI} ⊆ Y. Một phân hoạch Y ={Y1, Y2, . . . , Yn} của ∆I được gọi là nhất quán với E nếu với mọi 1≤i≤n,Yi không bị phân chia bởiE.
Vấn đề đặt ra là phân hoạch miền ∆I của diễn dịch I dựa trên các thông tin cơ bản I, E+ và E− trong ngôn ngữ LΣ†,Φ†, trong đó Σ† ⊆ Σ và Φ† ⊆ Φ, để đạt được phân hoạch Y nhất quán với E. Theo Định lý 2.6, nếu khái niệm cần học được xác định trong LΣ†,Φ† bởi một khái niệm C, lúc đó ta có:
• CI phải là hợp của một số lớp tương đương của phân hoạchY, trong đó Ylà kết quả của phép phân hoạch miền ∆I thông qua quan hệ tự mô phỏng hai chiều lớn nhất ∼Σ†,Φ†,I,
• aI ∈CI với mọi a∈E+ và aI 6∈CI với mọi a∈E−.
Nguyen và Sza las đã vận dụng mô phỏng hai chiều để xây dựng phương pháp học khái niệm cho các hệ thống thông tin trong logic mô tả [44]. Ý tưởng chính của phương pháp này là làm mịn miền ∆I của hệ thống thông tin I bằng cách sử dụng
các bộ chọn. Dựa trên ý tưởng đó, phương pháp học khái niệm được mô tả tổng quát như sau:
• Bắt đầu từ phân hoạch {∆I}, chúng ta thực hiện làm mịn phân hoạch này một cách tuần tự cho đến khi đạt được phân hoạch tương ứng với∼Σ†,Φ†,I. Quá trình làm mịn có thể dừng lại sớm hơn khi phân hoạch hiện thời nhất quán vớiE hoặc khi thỏa mãn một số điều kiện cho trước.
• Trong quá trình làm mịn phân hoạch {∆I}, các khối được tạo ra ở tất cả các bước là Y1, Y2, . . . , Yn. Mỗi khối tạo ra được ký hiệu bởi một chỉ số mới bằng cách tăng giá trị của n. Với mỗi 1≤i≤n, ta thiết lập các thông tin sau:
– Yi được đặc trưng bởi một khái niệm Ci sao cho CiI =Yi, – Ghi nhận lại các thông tin về việc Yi bị phân chia bởiE,
– Ghi nhậnLargestContainer[i] :=j để lưu lạij là chỉ số của khối lớn nhấtYj
sao cho Yi ⊆Yj và Yj không bị phân chia bởi E.
• Phân hoạch hiện thời được ký hiệu là Y={Yi1, Yi2, . . . , Yik} ⊆ {Y1, Y2, . . . , Yn}. Như vậy, Y là một tập con của tập tất cả các khối được tạo ra trong quá trình làm mịn.
• Gọi j1, j2, . . . , jh là các chỉ số lấy từ {i1, i2, . . . , ik} sao cho Yjt ⊆ {aI |a ∈E+} với 1≤t ≤h, và đặt{l1, l2, . . . , lp}={LargestContainer[jt]|1≤t≤h}.
• Thiết lập khái niệmC ≡Cl1tCl2t · · · tClp. Chúng ta lấy kết quả trả về làCrs, trong đó Crs là khái niệm tương đương với khái niệm C sau khi đã rút gọn. Trong các phần tiếp theo, chúng tôi sẽ giới thiệu về bộ chọn cơ bản, bộ chọn đơn giản và đề xuất các bộ chọn mở rộng trong LΣ†,Φ† cũng như độ đo gia lượng thông tin được sử dụng trong chiến lược phân chia khối của quá trình làm mịn. Kết hợp với quá trình thực nghiệm, chúng ta có thể đánh giá tính hiệu quả các các loại bộ chọn khác nhau.