Cận trên và cận dưói của yếu tổ ngoại lai cục bộ (LOF)

Một phần của tài liệu Nghiên cứu các phần tử ngoại lai luận văn thạc sĩ máy tính (Trang 50 - 52)

c. Đánh giá độ phức tạp của thuật toán FindAllOutsD và so sánh với thuật toán Nested Loop.

3.3.2 Cận trên và cận dưói của yếu tổ ngoại lai cục bộ (LOF)

Ở phần trước bổ đề 1 đưa ra một tính chất cơ bản của LOF, nghĩa là YỚi các đối tượng nằm sâu trong một vùng thì LOF của chúng gần tới 1, chúng không bị gọi là phần tử ngoại lai cục bộ, còn YỚi các đối tượng nằm sát ngoài vùng hoặc nằm ngoài vùng LOF của chúng sẽ bị chặn. Sau đây tôi trình bày định lý 1 với cận trên và cận dưới của LOF(p) cho đối tượng p bất kỳ. Vì vậy, định lý 1 là tổng quát hóa bổ đề 1 trong không gian hai chiều.

Thứ nhất, định lý 1 áp dụng cho đối tượng p bất kỳ và không hạn chế các đối tượng nằm sâu trong một vùng.

Thứ hai ngay cả những đối tượng nằm sâu trong một vùng thì giới hạn tính chất bởi định lý 1 chặt hơn giới hạn cho bởi bổ đề 1, có nghĩa là ở định

nghĩa trong bổ đề 1 có thể gần tới 0 nhanh hơn. Điều này, chứng tỏ rằng trong bổ đề 1 các giá trị của reach dist max và reach dist min được tính dựa vào việc so sánh các khoảng cách đạt được giữa các cặp đối tượng nằm trong một vùng chứa nhiều đối

tượng. Ngược lại, theo định lý 1 giá trị Min, Max này dựa vào tập các lân cận phụ thuộc tham số Minpts của các đối tượng quan tâm, dẫn đến các giới hạn chặt hơn. Trong phần 3.3 chúng tôi sẽ phân tích chi tiết hơn nữa về tính chặt chẽ của các giới hạn cho Định Lý 1.

Hình 3.3 Minh họa định lý 1 dmin=4*imax =>LOPMinpts(p) > 4

dmax=4*imin =>LOPMinpts(p) ^ 6

Với đối tượng p bất kỳ, ta gọi direct(p) là khoảng cách đạt được cực tiểu giữa p và các đối tượng thuộc NMinpts(p) có nghĩa là: directMin(p)=min {reach_dist(p,q)\q e NMinpts(p) }.

Tương tự, ta đặt directMax(p) tương ứng cho khoảng cách đạt được cực đại, có nghĩa là: directMax(p)=max{reach dist(p,q)\qe NMinpts(p)}

Gọi indirectMin(p) là khoảng cách đạt được cực tiểu giữa các điểm q thuộc NMinpts(p) và các đối tượng thuộc tập các lân cận phụ thuộc tham số

Minpts của đối tượng q. Ta có: indirectMin(p)=min{reach_dist(q,o)\qe NMinpts(p) A oeNMinpts(q)}

Tương tự gọi indirectMax(p) là khoảng cách đạt được cực đại giữa các điểm q

thuộc NMinpts(p) và các đối tượng thuộc tập các lân cận phụ thuộc tham số Minpts

của đối tượng q.

Tiếp theo, chúng ta xem các đối tượng thuộc tập các lân cận phụ thuộc tham số Minpts của p là các lân cận trực tiếp và xem các đối tượng thuộc NMinpts(q) là các lân cận gián tiếp của p khi q là thuộc NMinpts(p)

Tôi xin trình bày một YÍ dụ đơn giản trong hình 3.3 để minh họa các định nghĩa đó. Với đối tượng p nằm cách xa các đối tượng trong vùng c, để đơn giản và dễ hiểu, ta lấy Minpts= 3, giá trị directminCp) được ký hiệu là Dmin ở trong hình, giá trị directMax(p) được ký hiệu là dmax. Vì p ở cách xa với c nên 3_dist của mọi đối tượng q trong c sẽ nhỏ hơn khoảng cách thực giữa p và q, do đó từ định nghĩa 5, khoảng cách đạt được của p và q được xác định bởi khoảng cách thực giữa p và q. Bây giờ trong các đối tượng thuộc N3(p) chúng ta đi tìm các khoảng cách đạt được cực đại và cực tiểu từ các lân cận thuộc N3(p) của chúng, chý ý ở trong hình indirectMin(p) và indirectMax(p) được ký hiệu là iMin và iMax.

Định lý 1: G ọ i p là một đối tượng trong cơ sở dữ liệu D và l<Mỉnpts <\D\. Thì LOF của đối tượngp thỏa mãn

directMin(p)/indirectMax(p ) - LOP(p) <directMax(pyindỉrectMin(p)

Áp dụng với ví dụ trên trong hình 3.3. Giả sử rằng dmin=4*imax và dmax=6*imin thì theo định lý 1 ta 4 < LOF(p) < 6, định lý chỉ đơn giản là hàm của các khoảng cách đạt được trong các lân cận trực tiếp của p và các khoảng cách đạt được của các lân cận gián tiếp của p.

Một phần của tài liệu Nghiên cứu các phần tử ngoại lai luận văn thạc sĩ máy tính (Trang 50 - 52)

Tải bản đầy đủ (DOCX)

(89 trang)
w