Thuật toán học khái niệm trong logic mô tả với Ngữ cảnh (3)

Một phần của tài liệu Học khái niệm cho các hệ thống thông tin dựa trên logic mô tả (Trang 81 - 84)

Thuật toán 3.1 về học khái niệm cho các hệ thống thông tin trong logic mô tả được phát triển dựa trên các nghiên cứu của Nguyen và Sza las [44] với lớp ngôn ngữ logic mô tả lớn hơn, đưa ra các chiến lược, bổ sung bộ chọn, xây dựng và sử dụng các độ đo phù hợp cho quá trình phân hoạch. Trong thuật toán này, quá trình phân hoạch miền của một diễn dịch sử dụng các bộ chọn cơ bản, bộ chọn đơn giản và/hoặc bộ chọn mở rộng như đã đề cập trong các Định nghĩa 3.4, 3.5 và 3.6. Việc quyết định sử dụng các loại bộ chọn nào phụ thuộc vào Bước 2 và 19 của Thuật toán 3.1. Ngoài ra, thuật toán này sử dụng độ đo gia lượng thông tin để tiến hành chọn khối và bộ chọn để phân hoạch thông qua Hàm chooseBlockSelector.

HàmchooseBlockSelectortrong Bước 4 cho phép chọn khối và bộ chọn tốt nhất trong quá trình làm mịn. Hàm này áp dụng độ đo gia lượng thông tin cũng như tính đơn giản của các bộ chọn để xem xét lựa chọn khối và bộ chọn tương ứng cần phân chia trước. Giả sử rằng phân hoạch hiện thời là Y ={Yi1, Yi2, . . . , Yik} và tập các bộ chọn hiện thời là D = {D1, D2, . . . , Dh}. Với mỗi khối Yij ∈ Y (1 ≤ j ≤ k), gọi Sij

là bộ chọn đơn giản nhất được lấy từ tập arg max

Du∈D

{IG(Yij, Du)}. Từ phân hoạch hiện thời, nếu Yij được chọn để phân chia thì Sij chính là bộ chọn dùng để phân chia Yij. Sau khi chọn bộ chọn cho các khối, chúng ta sẽ quyết định khối được phân chia trước là khối Yij mà khi áp dụng bộ chọn Sij để phân chia Yij ta thu được gia lượng thông tin là cực đại. Nghĩa là, ta chọn Yij ∈arg max

Yij∈Y

Function chooseBlockSelector Input : Y, D

Output: Yij, Sijsao cho IG(Yij, Sij) cực đại, trong đóYij ∈Y và Sij ∈D 1 BS :=∅; 2 foreach Yij ∈Ydo 3 foreach Du ∈D do 4 TínhIG(Yij, Du); 5 S:= arg max Du∈D {IG(Yij, Du)};

6 LấySij ∈Ssao cho Sij là khái niệm đơn giản nhất; 7 BS :=BS∪ {

Yij, Sij};

8 ChọnYij, Sij∈BS sao cho IG(Yij, Sij)là cực đại; 9 returnYij, Sij;

Đối với Bước 19, sau khi phân chia khối, chúng ta có được phân hoạch mới. Tiếp đó, các bộ chọn mới sẽ được tạo ra và thêm vào tập các bộ chọn hiện thờiD. Tập này tiếp tục được dùng để làm mịn phân hoạch mới.

Đối với Bước 24, ý nghĩa của tập J là dùng để lưu lại các chỉ số l sao cho Yl là khối lớn nhất không bị phân chia bởi E và Yl ⊆ {aI |a∈E+}

Thuật toán dừng khi phân hoạch đạt được nhất quán với E (khi đó thuật toán trả về kết quả là khái niệm cần học) hoặc không thể phân hoạch thêm được nữa (khi đó thuật toán trả về kết quả thất bại). Tuy nhiên, trong thực tế, các hệ thống thông tin rất đa dạng nên điều kiện “Yi không bị phân chia bởi E” rất khó để đạt được. Vì vậy, chúng ta có thể xấp xỉ điều kiện này với một tỉ lệ phần trăm các mẫu dương trong mỗi khối bằng một tham số r (chẳng hạn như, tham số r có thể thiết lập từ90% trở lên). Tương tự như vậy, điều kiện ∃a ∈ E+ : aI ∈ Yij trong Bước 23 cũng được thiết lập như trên.

Ghi chú 3.3. Ký hiệu F

C được hiểu như sau: • nếu C={C1, C2, . . . , Cp} thì F C=F {C1, C2, . . . , Cp}=C1tC2t · · · tCp, • nếu C=∅ thì F C=F ∅=⊥.

Cây quyết định sinh ra trong quá trình làm mịn phân hoạch có thể sẽ rất lớn và do đó dễ dẫn đến quá tải đối với một số tập dữ liệu huấn luyện. Ngoài ra, một cây quyết định quá lớn cũng ảnh hưởng đến tính chính xác khi phân lớp các đối tượng.

Thuật toán 3.1: Học khái niệm cho hệ thống thông tin trong logic mô tả Input : I, Σ†,Φ†,E =hE−, E+i

Output: Khái niệm C sao cho: • I |=C(a) với mọia∈E+, và • I 6|=C(a) với mọia∈E−.

1 n:= 1; Y1 := ∆I; C1 :=>; Y:={Y1}; D=∅;

2 Tạo và thêm các bộ chọn vàoD; /* Định nghĩa 3.4, 3.5 và/hoặc 3.6 */

3 while (Y không nhất quán với E) do

4 Yij, Sij:=chooseBlockSelector(Y, D); 5 if (Yij không bị phân chia bởi SiIj) then

6 break;

7 s:=n+ 1; t:=n+ 2;n :=n+ 2; 8 Ys:=Yij ∩SiI

j; Cs:=CijuSij; 9 Yt:=Yij ∩(¬Sij)I; Ct:=Cij u ¬Sij; 10 if (Yij không bị phân chia bởi E)then

11 LargestContainer[s] := LargestContainer[ij]; 12 LargestContainer[t] := LargestContainer[ij]; 13 else

14 if (Ys không bị phân chia bởi E) then 15 LargestContainer[s] :=s;

16 if (Yt không bị phân chia bởi E) then 17 LargestContainer[t] := t;

18 Y:=Y∪ {Ys, Yt} \ {Yij};

19 Tạo và thêm các bộ chọn vàoD; /* Định nghĩa 3.4, 3.5 và/hoặc 3.6 */

20 J:=∅; C:=∅;

21 if (Y nhất quán với E) then 22 foreach Yij ∈Ydo 23 if (∃a∈E+ :aI ∈Yij) then 24 J:=J∪ {LargestContainer[ij]}; 25 foreach l∈J do 26 C:=C∪ {Cl}; 27 C:=F C; 28 returnCrs :=simplify (C); 29 else 30 returnfailure;

Hàmsimplify trong Bước 28 có nhiệm vụ giảm kích thước của cây quyết định và độ dài của khái niệm kết quả. Hàm này sử dụng một số kỹ thuật trên cây kết hợp với các tập dữ liệu chứng thực để cắt gảm cây quyết định. Ngoài ra hàm simplify còn sử dụng các kỹ thuật thay thế khái niệm và rút gọn khái niệm khác. Cụ thể như sau:

• Kỹ thuật cắt cây: Kỹ thuật cắt cây cho phép loại bỏ đi các phần của cây có xu hướng làm cho việc phân loại các đối tượng kém chính xác. Kỹ thuật này có thể được thực hiện theo chiến lược trên-xuống hoặc dưới-lên. Chẳng hạn, khi cắt cây theo chiến lược dưới-lên, chúng ta chọn nút lá để loại bỏ sao cho sau khi loại bỏ nút đó độ chính xác trung bình được tăng lên trên tập dữ liệu huấn luyện và tập dữ liệu chứng thực. Lặp lại quá trình này cho đến khi độ chính xác không thể tăng lên được nữa. Mục đích của kỹ thuật cắt cây là giảm kích thước của cây quyết định và làm tăng độ chính xác khi phân loại đối tượng.

• Kỹ thuật thay thế: Khái niệm kết quả sau khi học luôn có dạngC1tC2t· · ·tCp. Trong trường hợp một khái niệm Ci (1≤i≤p)quá phức tạp, chúng ta xem xét thay thế nó bằng một khái niệm đơn giản hơn trong tập các bộ chọn với điều kiện phải đảm bảo là hai khái niệm này có cùng thể hiện đối với hệ thống thông tin đang xem xét. Việc thay thế này chỉ được thực hiện chỉ khi độ chính xác của khái niệm kết quả trên tập dữ liệu chứng thực không bị giảm đi.

• Kỹ thuật rút gọn khái niệm: Khái niệm kết quả sẽ được rút gọn thành một khái niệm tương đương bằng cách vận dụng các luật De Morgan và các luật chuyển đổi tương đương khác.

Một phần của tài liệu Học khái niệm cho các hệ thống thông tin dựa trên logic mô tả (Trang 81 - 84)

Tải bản đầy đủ (PDF)

(121 trang)