Cân trên và cân dưới của đối tương có các lân cân trưc tiếp nằm

Một phần của tài liệu Nghiên cứu các phần tử ngoại lai luận văn thạc sĩ máy tính (Trang 55 - 57)

c. Đánh giá độ phức tạp của thuật toán FindAllOutsD và so sánh với thuật toán Nested Loop.

3.3.4 Cân trên và cân dưới của đối tương có các lân cân trưc tiếp nằm

• • • о • I г

trong nhiều vùng.

Ở trên chúng ta đã phân tích tính chặt chẽ của các giới hạn trong định lý 1 và đưa ra hai điều kiện để các giới hạn là chặt. Câu hỏi được đặt ra là

dưới điều kiện nào thì các giới hạn là không chặt? nhìn vào hình 3.5, nếu các đối tượng thuộc NMinpts(p) trong các vùng khác nhau có mật độ khác nhau thì giá trị p có thể là rất lớn, cũng dựa vào hình 3.5 độ lớn giữa LOFMax và LOFMin có thể là rất lớn. Trong trường hợp này các giới hạn cho bởi Định lý 1 làm việc không tốt, xem xét các trường hợp trình bày ở hình 3.1. Với đối tượng 02, bởi vì tất cả các đối tượng thuộc tập các lân cận phụ thuộc tham số Minpts đều nằm trong vùng c2 nên các giới hạn ở Định lý 1 về LOF của 02 được xem là chặt. Ngược lại, các đối tượng thuộc tập các lân cận

phụ thuộc tham số Minpts của Oi (NMinpts(0i)) ở trong cả hai vùng Cl và c2. Trong trường hợp này các giới hạn LOF của Oi không phải là tốt.

Hình 3.5 Cận trên và cận dưới của LOF

Mục đích Định lý 2 dưới đây nhằm đưa ra các giới hạn tốt hơn về LOF của đối tượng p khi các lân cận trực tiếp của p nằm trong nhiều hơn một vùng, về ý nghĩa trực quan của Định lý 2 là khi chúng ta phân hoạch các đối tượng thuộc tập các lân cận phụ thuộc tham số Minpts vào trong một số nhóm, mỗi nhóm đóng góp một tỉ lệ cho LOF của p

Hình 3.6 Minh họa cho định lỷ 2

Việc trình bày ví dụ trong hình 3.6 YỚi Minpts=6, với trường hợp này, có 3 đối tượng thuộc N6(p) nằm trong Ci và 3 đối tượng khác thuộc c2 thì theo định lý 2 LOFMin được xác định bởi (0.5*dlmin+0.5d2min)/(0.5/ilmax+0.5/i2max) với dlmin và d2rnin làn lượt là các khoảng cách đạt được cực tiểu giữa p và các đối tượng thuộc N6(p) ở cả trong Ci và c2 và ilmax và i2Max lần lượt là các khoảng cách đạt được cực đại giữa q và các đối tượng thuộc N6(q) trong Ci và c2. Đe cho đơn giản, trong hình 3.6 không trình bày trường hợp

giới hạn trên cua LOFmax

Định lý 2: Cho p là một đối tượng từ cơ sở dữ liệu, 1 <Minpts< |D| và Ci, c2,... c„

là một phân hoạch của NMinpts(p), nghĩa là NMinpts(p) =CiUC2 ... UCnƯ{p} với QnCj =0, Ci * 0 v ớ i 0<i, j<n, i^j. Hơn nữa đặt ^i=|Ci|/|NMinpts(p)| là phần trăm của các đối tượng trong lân cận của p, chính là các đối tượng nằm trong Ci, các khái niệm direcÍMax, directMin, indirectMax, indirec^Min được định nghĩa tương tự directmax, directmin» indirectmax, indirectnún nhưng được hạn chế trong tập Ci thì LOF của đối tượng p thỏa mãn:

Hệ quả: Neu số lượng của các vùng trong Định lý 2 bằng 1 thì LOFmin và LOFmax cho ở định lý 2 là tương ứng với các giới hạn cho ở định lý 1.

Một phần của tài liệu Nghiên cứu các phần tử ngoại lai luận văn thạc sĩ máy tính (Trang 55 - 57)

Tải bản đầy đủ (DOCX)

(89 trang)
w