Cây tìm kiếm trong ví dụ về gia đình

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp học quan hệ và học thống kê cho phân lớp dữ liệu đa quan hệ luận văn ths công nghệ thông tin 1 01 10 (Trang 26 - 35)

CHƢƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ

2.2 Cây tìm kiếm trong ví dụ về gia đình

Tìm kiếm trên đồ thị tinh chỉnh thường là tìm kiếm heuristic dựa trên số lượng các mẫu khẳng định và phủ định được phủ bởi các mệnh đề. Vì hệ số nhánh là rất lớn, nên tìm kiếm tham lam là giải thuật tìm kiếm thường được áp dụng. Bên cạnh đĩ tìm kiếm leo đồi và tìm kiếm beam (beam search) cũng là những lựa chọn đáng chú ý.

2.2.3. Khung giải thuật ILP tìm kiếm từ trên xuống cơ bản

Một giải thuật ILP tìm kiếm từ trên xuống cơ bản bao gồm 3 bước chính sau đây:  Tiền xử lý tập huấn luyện

 Xây dựng giả thuyết  Chuẩn hĩa giả thuyết

2.2.3.1 Tiền xử lý tập mẫu huấn luyện

Tiền xử lý làm việc với các giá trị đối số bị thiếu trong tập mẫu huấn luyện và trong trường hợp nếu khơng cĩ các mẫu phủ định, sẽ thực hiện sinh các mẫu phủ định. Cĩ nhiều cách khác nhau để sinh mẫu phủ định, tuy nhiên được sử dụng nhiều nhất là việc sinh mẫu dưới giả thiết thế giới đĩng (closed world assumption). Trong trường hợp này, tất cả các mẫu khơng được gán nhãn là các mẫu khẳng định sẽ được coi là các mẫu phủ định [51]. Phương pháp này chỉ thực sự thích hợp với các miền hữu hạn với tất cả các mẫu khẳng định đã được cho trước. Bên cạnh đĩ cũng cĩ các phương pháp khác dựa trên giả thuyết thế giới đĩng một phần hay mơ hình “near-misses” [34, 35]

2.2.3.2. Xây dựng giả thuyết

Xây dựng giả thuyết dựa trên tập mẫu huấn luyện hiện tại Ecur (khởi tạo là tồn bộ tập mẫu huấn luyện) và giả thuyết hiện tại H (khởi tạo là tập rỗng các mệnh đề). Giải thuật bao gồm hai vịng lặp, được gọi là vịng lặp phủ (covering) và vịng lặp đặc biệt hĩa (specialization). Vịng phủ thực hiện việc xây dựng giả thuyết, cịn vịng lặp đặc biệt hĩa thực hiện việc xây dựng bước xây dựng một mệnh đề.

Vịng lặp phủ dựa trên giải thuật phủ truyền thống như AQ [39, 40] và CN2 [12]. Nĩ bao gồm 3 bước chính:

 Xây dựng một mệnh đề

 Thêm mệnh đề đĩ vào giả thuyết hiện tại, và

 Loại bỏ khỏi tập mẫu huấn luyện hiện tại các mẫu được phủ/ giải thích bởi mệnh đề đĩ

Vịng lặp được thực hiện cho đến khi tất cả các mẫu huấn luyện khẳng định đã được phủ hay giải thích.

Bước chính xây dựng mệnh đề được thực hiện trong vịng lặp đặc biệt hĩa của giải thuật. Xây dựng mệnh đề dựa trên phép tốn tinh chỉnh p trên mệnh đề c = T  Q hiện tại và xây dựng tập các mệnh đề tinh chỉnh từ nĩ p(c) = {c’ | c < c’} bằng cách thêm vào một literal L vào phần thân của c. Mỗi mệnh đề c’ cĩ dạng c’ = T  Q’ với Q’ = Q, L (kết hợp giữa Q và L). Trong tìm kiếm leo đồi trên đồ thị tinh chỉnh, giải thuật luơn luơn giữ mệnh đề tốt nhất và thay thế nĩ bởi tinh chỉnh tốt nhất của nĩ tại mỗi bước đặc biệt hĩa, cho đến khi điều kiện dừng được thỏa mãn. Trong tìm kiếm beam-search, một số mệnh đề “tốt nhất” được lưu trữ thay cho chỉ một mệnh đề tốt nhất.

Sau đây là minh họa cho các bước trong giải thuật tìm kiếm từ trên xuống trong hệ thống ILP. Giả sử đã cho một tập mẫu huấn luyện E (đã qua tiền xử lý), ngơn ngữ mơ tả L, tri thức nền B và giải thuật tìm kiếm sử dụng trên đồ thị tinh chỉnh là tìm kiếm leo đồi. Tập mẫu huấn luyện E bao gồm tập mẫu huấn luyện khẳng định E+ và tập mẫu huấn luyện phủ định E-. Giả thuyết H là tập các mệnh đề c được biểu diễn trong ngơn ngữ L. Mỗi mệnh đề c được xây dựng cĩ dạng T  Q với T là atom p(X1, …, Xn), p là ký hiệu vị từ mục tiêu và Q là kết hợp của các literal L1, … , Lm.

Giải thuật ILP tìm kiếm từ trên xuống cơ bản Khởi tạo Ecur := E

Khởi tạo H:= 

Repeat {vịng lặp phủ}

Khởi tạo mệnh đề c:= T 

repeat {vịng lặp đặc biệt hĩa}

Tìm mệnh đề tinh chỉnh “tốt nhất” cbest  p(c)

Gán c:= cbest

until thỏa mãn điều kiện dừng cần thiết

Thêm c vào H để cĩ giả thuyết mới H’ := H U {c’}

Loại bỏ các mẫu khẳng định được phủ bởi c’ từ Ecur

để cĩ được tập mẫu huấn luyện mới E’cur := Ecur – covers(B,

{c’}, E+

cur).

Gán Ecur:= E’cur, H:= H’.

Until thỏa mãn điều kiện dừng đây đủ. Output: giả thuyết H.

Giải thuật 2.1. Giải thuật ILP tìm kiếm từ trên xuống cơ bản

Hai vịng lặp được điều khiển bởi các điều kiện dừng

 Trong vịng lặp xây dựng mệnh đề, điều kiện dừng cần thiết quyết định khi nào thì dừng việc thêm các literal mới vào mệnh đề

 Trong vịng lặp ngồi, điều kiện dừng đầy đủ (sufficiency stopping criterion) quyết định khi nào thì dừng việc thêm các mệnh đề vào giả thuyết đang xây dựng.

Các điều kiện dừng là khác nhau giữa các trường hợp với dữ liệu hồn hảo (chính xác, khơng nhiễu) và dữ liệu khơng hồn hảo (cĩ nhiễu, …). Với trường hợp dữ liệu hồn hảo, điều kiện dừng cần thiết cần cĩ tính tồn vẹn - cĩ nghĩa mệnh đề khơng phủ một mẫu phủ định nào, và điều kiện dừng đầy đủ cần tính đầy đủ - cĩ nghĩa phải phủ được hết các mẫu khẳng định. Trong trường hợp dữ liệu là khơng hồn hảo, thay vì tồn vẹn và đầy đủ, các điều kiện dừng thơng minh (heuristic stopping criteria) được áp dụng. Các điều kiện này thường được dựa trên số lượng các mẫu khẳng định và phủ định được phủ bởi giả thuyết [18].

2.2.3.3. Chuẩn hĩa giả thuyết

Chuẩn hĩa giả thuyết H nhằm mục đích giảm sự phức tạp của giả thuyết và nâng cao độ chính xác của giả thuyết khi thực hiện phân lớp với các trường hợp chưa biết. Chú ý rằng việc chuẩn hĩa từng mệnh đề cĩ thể được thực hiện ngay sau vịng lặp đặc biệt hĩa (FOIL). Chuẩn hĩa thường bao gồm loại bỏ các literal khơng thích hợp ra khỏi một mệnh đề và loại bỏ các mệnh đề khơng thích hợp ra khỏi giả thuyết. Các định nghĩa về literal khơng thích hợp và mệnh đề khơng thích hợp như sau [18]:

Định nghĩa 2.13. Literal khơng thích hợp Cho c H là một mệnh đề và d là mệnh đề thu được khi loại bỏ một literal L khỏi phần thân của c. Literal L trong mệnh đề c được gọi là khơng thích hợp nếu covers(B, H, E+) covers(B, H {d} \ {c}, E+) và covers(B, H {d} \ {c}, E-) covers(B, H, E-)

Định nghĩa 2.14. Mệnh đề khơng thích hợp Một mệnh đề c H được gọi là khơng thích hợp nếu covers(B, H, E+) covers(B, H \ {c}, E+) và covers(B, H \ {c}, E-)

covers(B, H, E-)

Trong các trường hợp dữ liệu là hồn hảo, các vị từ và mệnh đề khơng thích hợp sẽ bị loại bỏ. Trong các trường hợp ngược lại, một điều kiện đơn giản hĩa heuristic (heuristic simplification criteria) sẽ được sử dụng. Các mệnh đề hay literal được coi là khơng thích hợp dựa trên một hệ số chính xác mong muốn. Một literal trong một mệnh đề c được gọi là khơng thích hợp nếu nĩ cĩ thể bị loại bỏ khỏi c mà khơng làm giảm độ chính xác phân lớp A(c). Một mệnh đề được gọi là khơng thích hợp nếu như loại bỏ nĩ ra khỏi giả thuyết khơng làm giảm độ chính xác của giả thuyết.

Định nghĩa 2.15. Literal khơng thích hợp đối với dữ liệu cĩ nhiễu Giả sử mệnh đề d là mệnh đề thu được khi loại bỏ literal L trong phần thân của mệnh đề c. Khi đĩ L là literal khơng cần thiết nếu như A(c) <= A(d)

Định nghĩa 2.16. Mệnh đề khơng thích hợp đối với dữ liệu cĩ nhiễu Mệnh đề c

H gọi là khơng thích hợp nếu như A(H) <= A(H \ {c})

2.3. Hệ thống FOIL

2.3.1. Giải thuật FOIL

FOIL [51] là một trong các hệ thống ILP tiêu biểu nhất. Khơng gian giả thuyết L trong FOIL được giới hạn trong các mệnh đề khơng cĩ biểu thức hàm: các hằng và hạng tử phức hợp (compound term) khơng được chứa trong mệnh đề. Phần thân của mệnh đề là sự kết hợp của các literal A hoặc phủ định của A với A là atom. Các literal trong phần thân mệnh đề cĩ thể là các ký hiệu vị từ qi từ tri thức nền B, hoặc cĩ thể là ký hiệu vị từ mục tiêu - tương ứng với việc cho phép các mệnh đề đệ quy. Ít nhất một trong các biến trong danh sách các đối số của một literal trong phần thân phải xuất hiện trong phần đầu mệnh đề hoặc trong một trong các mệnh đề trong phần thân bên trái nĩ. FOIL khơng xây dựng các literal gắn một biến với một giá trị hằng.

Các mẫu huấn luyện là các tri thức khơng chứa biểu thức hàm cho trước (cịn cĩ thể gọi là các bản ghi hằng). Tri thức nền B bao gồm các định nghĩa vị từ mở rộng được cho bởi một tập hữu hạn các tri thức nền khơng chứa biểu thức hàm.

Cách tiếp cận cơ bản trong FOIL là tương tự khung giả thuật tìm kiếm từ trên xuống cơ bản đã nêu trong phần 2.2.3. Nĩ bắt đầu với một tập mẫu huấn luyện bao gồm các mẫu khẳng định và phủ định, xây dựng một mệnh đề Horn nhằm “giải thích” được một vài mẫu khẳng định, loại bỏ các mẫu này khỏi tập mẫu huấn luyện, và tiếp tục tìm kiếm mệnh đề tiếp. Khi các mệnh đề giải thích hay phủ được tồn bộ các mẫu khẳng định, chúng được xem xét lại nhằm loại bỏ các mệnh đề dư thừa và được sắp xếp lại sao cho các mệnh đề đệ quy đứng sau các mệnh đề khơng đệ quy.

Trong nhiều trường hợp, giả thuyết hồn hảo thường khơng thể cĩ, đặc biệt là đối với các dữ liệu thực với các thơng tin sai lệch và thiếu sĩt. Để giải quyết vấn đề này, FOIL sử dụng mã hĩa độ dài (encoding-length heuristic) để giới hạn độ

phức tạp của các mệnh đề và chương trình. Tập mệnh đề giả thuyết cuối cùng cĩ thể bao phủ được hấu hết (khơng phải tất cả) các mẫu khẳng định và bao phủ số ít nhất các mẫu phủ định (hơn là khơng bao phủ mẫu nào).

Giải thuật FOIL cũng bao gồm ba bước: tiền xử lý mẫu huấn luyện, xây dựng giả thuyết và hiệu chỉnh giả thuyết.

2.3.1.1. Tiền xử lý mẫu huấn luyện:

Xử lý các tham số thiếu trong mẫu huấn luyện. Nếu khơng cĩ các mẫu phủ định cĩ thể thực hiện việc sinh mẫu phủ định dưới giả thiết thế giới đĩng [51].

2.3.1.2. Xây dựng giả thuyết

Xây dựng giả thuyết dựa trên tập mẫu huấn luyện Ecur và giả thuyết hiện tại H (khởi tạo bằng rỗng). Giải thuật dựa trên hai vịng lặp phủ và đặc biệt hĩa. Vịng lặp phủ thực hiện việc xây dựng giả thuyết và vịng lặp đặc biệt hĩa thực hiện xây dựng mệnh đề.

Vịng lặp phủ thực hiện việc xây dựng giả thuyết theo ba bước. Vịng lặp các bước này được lặp đến khi tất cả các mẫu khẳng định đã được phủ hay giải thích hết

 Xây dựng một mệnh đề

 Thêm mệnh đề vào giả thuyết hiện tại

 Loại bỏ các mẫu huấn luyện khẳng định đã được phủ hay giải thích bởi mệnh đề

FOIL-vịng lặp phủ Khởi tạo Ecur := E

Khởi tạo H:= 

Repeat

Khởi tạo mệnh đề c:= T 

Gọi hàm SpecializationAlgorithm(c, Ecur) để tìm mệnh đề “tốt nhất” cbest

Gán c:= cbest

Tiền xử lý c bằng cách loại bỏ các yếu tố dư thừa để cĩ được c’

Thêm c’ vào H để cĩ giả thuyết mới H’ := H U {c’}

Loại bỏ các mẫu khẳng định được phủ bởi c’ từ Ecur để cĩ

được tập mẫu huấn luyện mới E’cur := Ecur – covers(B, {c’},

E+cur).

Gán Ecur:= E’cur, H:= H’.

Until E+cur =  hay gặp điều kiện dừng. Output: Giả thuyết H

Giải thuật 2.2. Xây dựng giả thuyết trong FOIL

Trong vịng lặp đặc biệt hĩa, giải thuật của hàm SpecializationAlgorithm(c, Ecur) như sau:

FOIL- SpecializationAlgorithm(c, Ecur) Khởi tạo i:=1

Khởi tạo tập mẫu cục bộ Ei = Ecur Khởi tạo mệnh đề hiện tại ci :=c

While Ei <>  hoặc chưa gặp điều kiện dừng

Tìm literal tốt nhất Li để thêm vào phần thân của ci =

T  Q và xây dựng ci+1 := T  Q,Li

Xây dựng lại tập mẫu huấn luyện cục bộ Ei+1 là tập con

của Ei thỏa mãn Li

Gán c:=ci+1 Tăng i

Endwhile.

Output: Mệnh đề c

Giải thuật 2.3. Hàm SpecializationAlgorithm(c, Ecur) trong FOIL

Trong vịng lặp đặc biệt hĩa, FOIL sử dụng tập mẫu cục bộ được khởi tạo ban đầu bằng với tập mẫu hiện tại Ei = Ecur. Khi Ecur bao gồm n phần tử, tập mẫu cục bộ bao gồm các phần tử m-tuples hằng số, với mỗi phần tử là một giá trị được gán m biến trong mệnh đề hiện tại. Gọi Ei là tập mẫu cục bộ thỏa mãn mệnh đề hiện

tại ci = p(X1, X2, ..., Xn)  L1, L2, ... ,Li-1. Gọi ni là số phần tử trong Ei, Ei+là tập các phần tử khẳng định và Ei- là tập mẫu phủ định trong tập Ei và tương ứng cĩ số phần tử là ni+ và ni-.

Tại mỗi bước “tinh lọc”, mệnh đề ci+1 được thu được bằng cách thêm literal Li vào phần thân của mệnh đề ci = p(X1, X2, ..., Xn)  L1, L2, ... ,Li-1, phủ tập phần tử Ei. Literal Li cĩ thể là một atom A dạng qk(Y1, Y2, ..., Ynk) hay Xj = Xs, hoặc dạng phủ định của A. Một vài biến trong số Y1, Y2, ..., Ynk cĩ thể là biến cũ, {OV1, OV2, …. OVold}, đã xuất hiện trong ci, trong khi một số cĩ thể là mới, {NV1, NV2, …. NVnew}, lần đầu được xuất hiện. Tập mẫu Ei+1 được phủ bởi clause ci+1 là tập bản ghi (old + new) ngơi – thỏa mãn L1, L2, ... ,Li nhận giá trị true.

Ví dụ 2.5.

Ta cĩ thể minh họa một ví dụ quá trình thực hiện hàm SpecializationAlgorithm(c, Ecur) như sau

 Tìm kiếm bắt đầu với mệnh đề c1 = daughter(X, Y)  Tập mẫu huấn luyện hiện tại E1 bao gồm tất cả các mẫu huấn luyện bao gồm 2 mẫu khẳng định (ni+ = 2) và 2 mẫu phủ định (ni- = 2). Giả sử literal được chọn là L1 = female(X). Mệnh đề hiện tại c2 = daughter(X, Y) female(X). Tập mẫu

huấn luyện mới E2 sẽ được xây dựng trên các mẫu được phủ bởi c2 bao gồm 2 mẫu khẳng định (ni+ = 2) và 1 mẫu phủ định (ni- = 1).

 Thêm literal thứ hai L2 = parent(Y, X) vào phần thân của mệnh đề c2 để thu được mệnh đề c3 = daughter(X, Y) female(X), parent(Y,X) Tập mẫu huấn

luyện E3 lúc này chỉ cịn bao gồm một mẫu huấn luyện khẳng định. Theo đĩ, mệnh đề c3 thỏa mãn tính nhất quán và được trả lại là đầu ra của giải thuật sinh mệnh đề.

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp học quan hệ và học thống kê cho phân lớp dữ liệu đa quan hệ luận văn ths công nghệ thông tin 1 01 10 (Trang 26 - 35)

Tải bản đầy đủ (PDF)

(89 trang)