Thu ậ t tốn tìm các Positive Clauses

Một phần của tài liệu NGHIÊN cứu THUẬT TOÁN PHÂN LỚPNHỊ PHÂN và ỨNG DỤNG CHOBÀI TOÁN PROTEIN FOLDING” (Trang 59 - 61)

Thuật tốn tìm các Positive Clauses được tĩm tắt như sau:

Input: tập dữ liệu học, gồm các mẫu positive và các mẫu negetive

Output: các Positive Clauses

1) Xác định một ngưỡng khoảng cách Threshold.

2) Chọn ngẫu nhiên N mẫu positive. 3) For i=1 to N Do{

4) Chọn ngẫu nhiên một mẫu positive m trong tập dữ liệu học 5) If mẫu m chưa thuộc vào một Positive Clauses nào then{

6) Tạo ra một Positive Clause K

7) For với mỗi mẫu j của tập dữ liệu học Do{

8) If mẫu j là positve và j chưa thuộc Positive Clause nào Then{ 9) Tính khoảng cách DC cách từ m đến j

THUẬT TỐN PHÂN LỚP ĐIỀU CHỈNH SỰ QUÁ KHỚP VÀ QUÁ KHÁI QUÁT

10) If DC < Threshold Then{

11) Cho j vào Positive Clause K

12) Đánh dấu j đã thuộc vào một Positive Clause 13) } } }

14) Tăng K lên một 15) } }

//Duyệt lại xem cịn mẫu positive nào chưa thuộc bất kỳ một Positive Clauses nào

16) For với mỗi mẫu i của tập dữ liệu học Do{

17) If i là positive và i chưa thuộc bất kỳ Positive Clauses Then{ 18) Tạo ra một Positive Clause K

29) For với mỗi mẫu j của tập dữ liệu học Do{

20) If j là positive và j chưa thuộc một Positive Clauses Then{

21) Tính khoảng cách DC từ i đến j 22) If DC < Threshold Then{

23) Cho j vào Positive Clause K

24) Đánh dấu j đã thuộc vào một Positive Clause 25) } } }

26) Tăng K lên một 27)} }

THUẬT TỐN PHÂN LỚP ĐIỀU CHỈNH SỰ QUÁ KHỚP VÀ QUÁ KHÁI QUÁT

Theo thuật tốn này, tìm được K Positive Clauses. Ban đầu phải chọn một ngưỡng khoảng cách, khoảng cách từ tâm của một Positive Clause đến tất cả các điểm trong nĩ phải nhỏ hơn ngưỡng khoảng cách này. Tiếp theo, chọn ngẫu nhiên N mẫu positive, các mẫu này được dùng làm tâm cho các Positive Clauses. Với mỗi mẫu trong N mẫu positive được chọn làm tâm cho mỗi Positive Clause, xét tất cả các mẫu positive trong tập dữ liệu, nếu mẫu nào cĩ khoảng cách đến tâm nhỏ hơn một ngưỡng khoảng cách cho trước thì xét nĩ thuộc Positive Clauses chứa tâm đĩ. Mỗi mẫu positive chỉ thuộc vào duy nhất một Positive Clause. Sau khi xét hết N mẫu làm tâm cho Positive Clauses mà vẫn cịn mẫu positive trong tập dữ liệu chưa thuộc vào bất kỳ một Positive Clauses thì chọn chính mẫu đĩ làm tâm cho một Positive Clause mới và xác định các mẫu thuộc Positive Clause này. Tương tự như vậy cho đến khi tất cả các mẫu positive đều thuộc về một trong các Positive Clauses. Hình 3-7, cùng một tập dữ liệu với hai ngưỡng khoảng cách khác nhau thì kết quả tìm được các Positive Clauses cũng khác nhau.

Hình 3-7: Một ví dụ Positive Clauses với hai ngưỡng khoảng cách

Một phần của tài liệu NGHIÊN cứu THUẬT TOÁN PHÂN LỚPNHỊ PHÂN và ỨNG DỤNG CHOBÀI TOÁN PROTEIN FOLDING” (Trang 59 - 61)