Trong thực nghiệm, ngôn ngữ LΣ,Φ được hạn chế trên một lớp các logic mô tả hẹp hơn, trong đó L đại diện cho ALC. Tập ký tự logic mô tả cũng được hạn chế sao cho ΣnA = ΣdR =∅,ΣdA= ΣC (nghĩa làΣ = ΣI∪ΣC∪ΣR, vớiΣR= ΣoR) và tập các đặc trưng của logic mô tả Φ⊆ {I,Q}.
Trong quá trình thực nghiệm chúng tôi gặp phải một số khó khăn đó là không có sẵn các tập dữ liệu mà các đối tượng có liên kết với nhau có thể sử dụng trực tiếp cho bài toán học khái niệm trong logic mô tả với Ngữ cảnh (3). Do đó, chúng tôi phải xây dựng các tập dữ liệu với các nguồn được lấy từ Internet, bao gồm các tập dữ liệu WebKB [57], PokerHand [8] và Family.
Tập dữ liệuWebKB chứa thông tin về các trang Web của 4 khoa Khoa học Máy tính (của các Trường Đại học Cornell, Washington, Wisconsin và Texas) bao gồm thông tin 877 trang web (đối tượng) và 1608 liên kết giữa các trang Web của 1 mối quan hệ (cites). Mỗi đối trong tập dữ liệu được mô tả bằng một véc tơ giá trị 1/0 để chỉ ra việc xuất hiện/không xuất hiện của từ tương ứng trong từ điển (gồm 1703 từ). Mỗi đối tượng được gán vào một trong 5 lớp để chỉ thể loại của trang Web: Course,
F aculty, Student, P roject và Staf f. Chúng tôi sử dụng dữ liệu của 2 khoa để huấn luyện (230 đối tượng) và chứng thực (195 đối tượng). Dữ liệu 2 khoa còn lại (452 đối tượng) được sử dụng để kiểm tra.
Tập dữ liệuFamily chứa thông tin về những người của 5 dòng họ (British Royal, Bush, Roberts, Romanov và Stevens) bao gồm thông tin của 943 người (đối tượng) và 11062 liên kết giữa những người này của 6 mối quan hệ (hasChild, hasSon,
hasDaughter,hasW if e,hasHusband,hasBrother,hasSister). Mỗi đối tượng là một thể hiện của khái niệmM alehoặc khái niệmF emale. Chúng tôi sử dụng dữ liệu của 2 trong 5 dòng họ để huấn luyện (437 đối tượng) và chứng thực (49 đối tượng). Dữ liệu của 3 dòng họ còn lại (457 đối tượng) được sử dụng để kiểm tra.
Tập dữ liệuPokerHandlà một tập con được lấy từ UCI Machine Learning Repos- itory [8]. Tập dữ liệu này chứa thông tin của 2542 tay bài, 12710 quân bài, 119 tính chất của quân bài (tổng cộng có 15371 đối tượng) và 65220 liên kết giữa các đối tượng của 6 mối quan hệ (hasCard,hasRank,hasSuit, sameRank, nextRank,sameSuit). Mục đích của chúng ta là dự đoán các tay bài thuộc lớp nào trong 9 lớp “one pair”, “two pairs”, “three of a kind”, “straight”, “f lush”, “f ull house”, “f our of a kind”,
Bảng 3.1: Kết quả ước lượng trên tập dữ liệu WebKB, PokerHand và Family với 100 khái niệm ngẫu nhiên trong logic mô tả ALCIQ
Avg. Dep. Avg. Len. Avg. Acc. Avg. Pre. Avg. Rec. Avg. F1 Res./Org. Res./Org. [Min;Max] [Min;Max] [Min;Max] [Min;Max]
WebKB dataset Bộ chọn đơn giản 0.82/1.02 6.81/4.41 93.84±13.50 92.09±17.04 92.82±17.32 91.59±16.68 [33.69;100.0] [32.08;100.0] [23.08;100.0] [27.69;100.0] Bộ chọn đơn giản 0.84/1.02 3.40/4.41 94.60±12.20 92.81±15.93 93.14±17.17 92.33±16.17 và mở rộng [33.69;100.0] [32.08;100.0] [23.08;100.0] [27.69;100.0] PokerHand dataset Bộ chọn đơn giản 1.41/2.60 37.02/15.97 97.17±08.61 95.96±14.99 94.95±14.40 94.66±14.64 [50.57;100.0] [01.67;100.0] [01.67;100.0] [01.67;100.0] Bộ chọn đơn giản 1.23/2.60 3.47/15.97 99.44±02.15 98.68±09.08 98.06±09.58 98.18±09.14 và mở rộng [83.25;100.0] [01.67;100.0] [01.67;100.0] [01.67;100.0] Family dataset Bộ chọn đơn giản 2.38/3.34 78.50/18.59 88.50±16.65 90.60±18.57 85.66±22.36 86.09±20.10 [27.91;100.0] [04.55;100.0] [07.69;100.0] [08.70;100.0] Bộ chọn đơn giản 2.29/3.34 10.20/18.59 92.79±14.35 91.99±18.40 91.75±19.82 90.39±19.89 và mở rộng [27.91;100.0] [04.55;100.0] [07.69;100.0] [08.70;100.0]
“straight f lush” và “royal f lush”. Do số lượng tay bài thuộc các lớp “f our of a kind”, “straight f lush” và “royal f lush” quá ít cho nên chúng tôi loại bỏ những lớp này ra khỏi tập dữ liệu. Tập dữ liệu được chia thành 7 tập con. Dữ liệu của 2 trong 7 tập được sử dụng để huấn luyện (1343 đối tượng) và chứng thực (1343 đối tượng). Dữ liệu của 5 tập còn lại được sử dụng để kiểm tra (12685 đối tượng).
Chúng tôi tiến hành cài đặt thuật toán học khái niệm trong logic mô tả với Ngữ cảnh (3) bằng ngôn ngữ lập trình Java (JDK 1.6). Thuật toán này thực hiện trong logic mô tảALCIQvà sử dụng bộ chọn đơn giản, bộ chọn mở rộng cũng như độ đo gia lượng thông tin để quyết định khối và bộ chọn trong quá trình làm mịn phân hoạch.
Chương trình cài đặt được tiến hành thử nghiệm trên ba tập dữ liệu đã đề cập ở trên với 100 khái niệm ngẫu nhiên trong logic mô tả ALCIQ. Với mỗi khái niệm gốc ngẫu nhiên C, tập E+ = {a | aI ∈ CI} được xem là tập các mẫu dương và
E− = {a | aI ∈ ∆I \CI} được xem là tập các mẫu âm, trong đó diễn dịch I là hệ thống thông tin đang xem xét. Những khái niệm này có độ sâu khả năng và độ dài khác nhau. Mỗi khái niệm được kiểm tra với hai trường hợp: (i) chỉ sử dụng bộ chọn đơn giản và (ii) sử dụng cả bộ chọn đơn giản và bộ chọn mở rộng. Bảng 3.1 mô tả tóm tắt kết quả thực nghiệm của thuật toán về:
• độ sâu khả năng (Dep.) trung bình (Avg.) của các khái niệm gốc (Org.), • độ dài (Len.) trung bình của các khái niệm gốc,
• độ sâu khả năng trung bình của các khái niệm kết quả (Res.), • độ dài trung bình của các khái niệm kết quả,
• độ đúng đắn (Acc.), tỉ lệ chính xác (Pre.), tỉ lệ bao phủ (Rec.) và độ đo F1, • độ lệch chuẩn, giá trị nhỏ nhất (Min) và giá trị lớn nhất (Max) của độ đúng
đắn, tỉ lệ chính xác, độ bao phủ và độ đo F1.
Bảng 3.2: Kết quả ước lượng trên tập dữ liệu Family với 5 khái niệm phổ biến trong logic mô tả ALCI
Dep. Len. Avg. Acc. Avg. Pre. Avg. Rec. Avg. F1 Res. Res. [Min;Max] [Min;Max] [Min;Max] [Min;Max]
Khái niệm:Grandparent=∃hasChild.(∃hasChild.>)
Bộ chọn đơn giản 2.00 4.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0] Bộ chọn đơn giản
2.00 4.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 và mở rộng [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0] Khái niệm:Grandf ather=M aleu ∃hasChild.(∃hasChild.>)
Bộ chọn đơn giản 2.00 36.00 95.90±01.39 87.38±06.81 79.15±17.38 81.44±08.35 [94.28;97.67] [80.00;96.43] [57.45;100.0] [72.00;92.31] Bộ chọn đơn giản
2.00 07.00 99.46±00.77 100.0±00.00 95.74±6.02 97.73±03.21 và mở rộng [98.37;100.0] [100.0;100.0] [87.23;100.0] [93.18;100.0] Khái niệm:Grandmother=F emaleu ∃hasChild.(∃hasChild.>)
Bộ chọn đơn giản 2.00 18.00 89.74±01.30 100.0±00.00 15.32±04.47 26.31±06.85 [88.37;91.49] [100.0;100.0] [09.30;20.00] [17.02;33.33] Bộ chọn đơn giản
2.00 07.00 99.91±00.13 100.0±00.00 99.22±01.10 99.61±00.55 và mở rộng [99.73;100.0] [100.0;100.0] [97.67;100.0] [98.82;100.0] Khái niệm:N iece=F emaleu ∃hasChild−.(∃hasBrother.> t ∃hasSister.>)
Bộ chọn đơn giản 3.00 151.00 85.57±09.47 57.92±32.09 64.70±29.35 60.69±31.33 [72.21;93.02] [12.66;83.33] [23.26;87.50] [16.39;83.33] Bộ chọn đơn giản
2.00 11.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 và mở rộng [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0] Khái niệm:N ephew=M aleu ∃hasChild−.(∃hasBrother.> t ∃hasSister.>)
Bộ chọn đơn giản 3.00 178.00 91.40±05.74 77.04±26.30 88.40±01.99 79.82±17.72 [83.38;95.74] [40.22;100.0] [86.05;90.91] [54.81;93.75] Bộ chọn đơn giản
2.00 11.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 và mở rộng [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0]
Như đã thể hiện trong Bảng 3.1, độ đúng đắn, tỉ lệ chính xác, tỉ lệ bao phủ và độ đo F1 của các khái niệm kết quả trong việc phân lớp các đối tượng mới thường rất cao. Điều này chứng tỏ rằng phương pháp học khái niệm dựa trên mô phỏng hai chiều rất hữu ích và việc sử dụng các loại bộ chọn trong quá trình phân hoạch miền hỗ trợ một cách có ý nghĩa cho bài toán học khái niệm.
Bảng 3.3: Kết quả ước lượng trên tập dữ liệu Poker Hand với 6 tập đối tượng trong logic mô tả ALCQ
Dep. Len. Avg. Acc. Avg. Pre. Avg. Rec. Avg. F1 Res. Res. [Min;Max] [Min;Max] [Min;Max] [Min;Max]
One pair
Bộ chọn đơn giản 4.0 109.00 42.57±01.48 16.74±00.87 76.00±4.03 27.44±01.42 [40.71;45.24] [15.64;18.05] [71.67;81.67] [25.67;29.45]
Bộ chọn đơn giản & mở rộng 5.00 15.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0] Two pairs
Bộ chọn đơn giản 4.00 25.00 36.33±00.47 17.16±0.53 90.33±4.14 28.83±00.96 [35.48;36.67] [16.34;17.70] [83.33;95.00] [27.32;29.84]
Bộ chọn đơn giản & mở rộng 5.00 15.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0] Three of a kind
Bộ chọn đơn giản 4.00 48.00 52.52±02.16 20.92±1.01 83.33±01.83 33.43±01.39 [50.71;56.67] [19.75;22.77] [80.00;85.00] [31.68;35.92]
Bộ chọn đơn giản & mở rộng 3.00 11.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0] Straight
Bộ chọn đơn giản 5.00 97.00 81.24±02.01 39.65±04.62 58.33±04.94 47.13±4.41 [80.00;85.24] [36.36;48.72] [53.33;65.00] [43.24;55.07]
Bộ chọn đơn giản & mở rộng 5.00 32.00 98.67±00.68 96.35±03.44 94.33±02.00 95.31±02.35 [97.62;99.52] [90.32;100.0] [91.67;96.67] [91.80;98.31] Flush
Bộ chọn đơn giản 2.00 10.00 94.33±00.80 71.71±02.79 100.0±00.00 83.49±01.92 [92.86;95.24] [66.67;75.00] [100.0;100.0] [80.00;85.71]
Bộ chọn đơn giản & mở rộng 3.00 7.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0] Full house
Bộ chọn đơn giản 4.00 68.00 60.48±03.05 25.95±01.45 94.67±2.45 40.71±01.73 [57.62;64.76] [24.23;28.00] [91.67;98.33] [38.33;43.08]
Bộ chọn đơn giản & mở rộng 2.00 6.00 100.0±00.00 100.0±00.00 100.0±00.00 100.0±00.00 [100.0;100.0] [100.0;100.0] [100.0;100.0] [100.0;100.0]
niệm đặc thù trên các tập dữ liệu Family và PokerHand. Đối với tập dữ liệu Family, 5 khái niệm phổ biến trong logic mô tả ALCI được sử dụng để kiểm tra như sau:
1. Grandparent ≡ ∃hasChild.(∃hasChild.>),
2. Grandf ather ≡M aleu ∃hasChild.(∃hasChild.>), 3. Grandmother ≡F emaleu ∃hasChild.(∃hasChild.>),
4. N ephew≡M aleu ∃hasChild−.(∃hasBrother.> t ∃hasSister.>), 5. N iece≡F emaleu ∃hasChild−.(∃hasBrother.> t ∃hasSister.>).
Đối với tập dữ liệu PokerHand, 6 tập đối tượng tương ứng với 6 khái niệm (lớp) trong logic mô tả ALCQđược sử dụng để kiểm tra bao gồm:
1. “one pair” - trong năm quân bài có đúng một cặp quân bài đồng hạng, 2. “two pairs” - trong năm quân bài có đúng hai cặp quân bài đồng hạng, 3. “three of a kind” - trong năm quân bài có đúng ba quân bài đồng hạng, 4. “straight” - năm quân bài có hạng được sắp tuần tự liên tục,
5. “flush” - năm quân bài có cùng hình dạng,
6. “full house” - trong năm quân bài có một cặp quân bài đồng hạng và ba quân bài khác đồng hạng.
Bảng 3.2 cung cấp kết quả ước lượng trên tập dữ liệu Family với 5 khái niệm phổ biến đã đề cập ở trên. Bảng 3.3 trình bày kết quả ước lượng trên tập dữ liệu PokerHand với 6 lớp như đã mô tả trên đây.
Như vậy, chúng tôi đã thực nghiệm thuật toán trên nhiều phương diện khác nhau từ những khái niệm ngẫu nhiên, những khái niệm đặc thù và những tập đối tượng đại diện cho những khái niệm chưa biết cần phải tìm kiếm. Trên mỗi phương diện như vậy, chúng tôi tiến hành sử dụng bộ chọn đơn giản và sử dụng thêm bộ chọn ngẫu nhiên để xem xét tính hiệu quả của các bộ chọn. Qua quan sát Bảng 3.1, 3.2 và 3.3, chúng ta thấy rõ ràng rằng sử dụng thêm bộ chọn mở rộng có hiệu quả cao hơn trong việc giảm độ dài của khái niệm và cho kết quả phân lớp tốt hơn. Điều này chứng tỏ rằng bộ chọn mở rộng hỗ trợ cho phương pháp học khái niệm dựa trên mô phỏng hai chiều rất hiệu quả.
Tiểu kết Chương 3
Chương này phát triển thuật toán học khái niệm trong logic mô tả với Ngữ cảnh (3) sử dụng mô phỏng hai chiều và các chiến lược phân hoạch miền của hệ thống thông tin trong logic mô tả. Thuật toán học này cùng với những chiến lược phân hoạch được sử dụng đã được kiểm nghiệm trên hai khía cạnh lý thuyết và thực nghiệm. Về khía cạnh lý thuyết, các định lý, bổ đề và hệ quả hỗ trợ cho lập luận của phương pháp đã được trình bày và chứng minh một cách tường minh. Về khía cạnh thực nghiệm, thuật toán và các chiến lược phân hoạch đã được cài đặt và kiểm tra trên các tập dữ liệu với nhiều khái niệm khác nhau. Để quá trình phân hoạch miền đạt hiệu quả cao, ngoài các bộ chọn cơ bản và bộ chọn đơn giản, các bộ chọn mở rộng cũng được sử
dụng trong chương trình cài đặt của thuật toán. Các kết quả thực nghiệm đã chứng tỏ rằng phương pháp đề xuất có ý nghĩa và các bộ chọn mở rộng hỗ trợ rất tốt cho quá trình làm mịn phân hoạch.
Chương 4.
HỌC KHÁI NIỆM CHO CƠ SỞ TRI THỨC TRONG LOGIC MÔ TẢ
4.1. Giới thiệu
Học khái niệm cho hệ thống thông tin trong logic mô tả như đã trình bày ở Chương 3 được thực hiện theo giả thiết thế giới đóng. Bài toán này cho phép học trên một hệ thống thông tin là mô hình cụ thể của cơ sở tri thức không vòng. Trong khi đó, một cơ sở tri thức có thể có nhiều mô hình khác nhau và trong thực tế còn có các cơ sở tri thức nối vòng, gọi chung là cơ sở tri thức. Cơ sở tri thức là nền tảng của các hệ thống ngữ nghĩa nói chung và Web ngữ nghĩa nói riêng. Nó được sử dụng để biểu diễn tri thức cho các hệ thống thông qua các ontology. Việc tìm kiếm thông tin và truy vấn dữ liệu trên các hệ thống ngữ nghĩa về bản chất là áp dụng các dịch vụ suy luận trong logic mô tả dựa trên cơ sở tri thức đã cho. Để một hệ thống ngữ nghĩa hoạt động tốt và thực sự có ý nghĩa thì việc tìm được những khái niệm thiết yếu và xây dựng được định nghĩa cho các khái niệm đó trong các cơ sở tri thức là một vấn đề rất quan trọng. Học khái niệm cho cơ sở tri thức trong logic mô tả nhằm mục đích tìm ra được các khái niệm hữu ích này. Từ đó, dẫn đến quá trình xây dựng ontology nhanh hơn, dễ dàng hơn và phù hợp với thực tế dữ liệu hơn. Hơn nữa, bản thân bài toán học khái niệm khi đứng riêng rẽ cũng có ý nghĩa như bài toán phân hoạch dữ liệu. Với những điểm quan trọng này, bài toán này được nhiều nhà khoa học quan tâm nghiên cứu [4], [17], [32], [35], [15], [16], [36].
Như đã đề cập trong phần mở đầu, các bài toán học khái niệm trong logic mô tả trong chương này được đặt ra một cách chi tiết theo hai ngữ cảnh chính như sau:
• Ngữ cảnh (1): Cho LΣ,Φ là một logic mô tả quyết định được có tính chất mô hình nửa hữu hạn, Ad ∈ ΣC là khái niệm đại diện cho “thuộc tính quyết định” và cơ sở tri thức KB0 =hR,T,A0itrong logic mô tả LΣ,Φ không chứa Ad. Đặt
E =hE+, E−i, trong đóE+vàE−là các tập con không giao nhau củaΣIsao cho cơ sở tri thứcKB=hR,T,AivớiA=A0∪{Ad(a)|a∈E+}∪{¬Ad(a)|a ∈E−} thỏa mãn được. Tập E+ vàE− tương ứng được gọi là tập các mẫu dương và tập các mẫu âm của khái niệm cần học Ad. Học khái niệm C như là một định nghĩa
của Ad trong ngôn ngữ con LΣ†,Φ†, với Σ† ⊆Σ\ {Ad}và Φ†⊆Φ sao cho: 1. KB |=C(a)với mọi a∈E+, và
2. KB |=¬C(a)với mọi a∈E−.
• Ngữ cảnh (2): Ngữ cảnh này tương tự như Ngữ cảnh (1) nhưng với điều kiện thứ hai được thay thế bằng một điều kiện yếu hơn:
1. KB |=C(a)với mọi a∈E+, và 2. KB 6|=C(a)với mọi a∈E−.
Lưu ý rằng, hai bài toán trên được giải quyết theo giả thuyết thế giới mở.
Các thuật toán để giải quyết bài toán học khái niệm trong logic mô tả với Ngữ cảnh (1) và Ngữ cảnh (2) đã được đề xuất bởi các công trình nghiên cứu trước đây chủ yếu dựa trên bao hàm chung nhỏ nhất [10], [11] và toán tử làm mịn [4], [17], [32], [35], [15], [16], [36]. Các thuật toán này đều thao tác chủ yếu trên các logic mô tả đơn giản nhưF L,F L⊥,F L0,ALER,ALN,ALC và chưa đề cập đến các logic mô tả phức tạp hơn ALCN,ALCQ,ALCIQ, SHIF, SHIQ,SHOIN, SHOIQ,SROIQ, . . .
Trong chương này, chúng tôi đề xuất thuật toán BBCL (Bisimulation-Based
Concept Learning for knowledge bases in description logics using the first setting), dual-BBCL (một biến thể của thuật toán BBCL) để giải quyết bài toán học khái niệm cho cơ sở tri thức trong logic mô tả với Ngữ cảnh (1) và thuật toán BBCL2 (Bisimulation-Based Concept Learning for knowledge bases in description logics us- ing the Second setting) để giải quyết bài toán học khái niệm cho cơ sở tri thức trong logic mô tả với Ngữ cảnh (2). Các thuật toán này dựa trên nền tảng của mô phỏng hai chiều trong logic mô tả. Đây là một hướng tiếp cận tiên phong trong sử dụng mô phỏng hai chiều để giải quyết bài toán học khái niệm trong logic mô tả. Ý tưởng cơ bản của các thuật toán này tiến hành làm mịn miền của mô hình để đạt được phân hoạch nhất quán với tập các mẫu dương và tập các mẫu âm, sau đó sử dụng các khái niệm đại diện cho các khối tương ứng trong phân hoạch để tiến hành kiểm tra và xây dựng khái niệm kết quả. So với những thuật toán đã được đề xuất bởi các tác giả khác trong các công trình như đã đề cập ở trên, các thuật toán do chúng tôi đề xuất trong chương này đều có thể áp dụng được cho lớp lớn các logic mô tả giàu ngữ nghĩa hơn (lớp các logic mô tả này đã được giới thiệu trong Mục 1.2.2, Chương 1).