c. Đánh giá độ phức tạp của thuật toán FindAllOutsD và so sánh với thuật toán Nested Loop.
3.3.3 Tính chăt chẽ của các cân LOF.
• •
Như trình bày ở trên, định lý 1 đưa ra các cận trên và cận dưới của LOF áp dụng cho đối tượng p bất kỳ. Trong phần này, chúng ta sẽ xem xét chi tiết tính chặt chẽ các cận của LOF. Gọi LOFmax để chỉ giới hạn trên directmax/indirectMm và gọi LOFMin để
chỉ cận dưới directMin/indirectMax thì độ lớn hay là sự sai khác giữa LOFMax và LOFMin như thế nào? Chúng ta sẽ đi nghiên cứu vấn đề này, phần quan trọng trong việc phân tích sau đây là chứng tỏ rằng độ lớn của LOFMax - LOFMin phụ thuộc vào tỉ số của direct/indirect. Điều đó cho chúng ta thấy rằng độ lớn là nhỏ trong một số điều kiện nhưng lại không nhỏ trong các điều kiện khác.
Gọi direct(p) là giá trị trung bình của directMin(p) và directMax(p)- Tương tự, gọi indirect(p) để chỉ giá trị trung bình của indirectMin(p) và indirectMax(p)- Để giảm bớt độ phức tạp trong tính toán thì tham số p được lược bỏ trong các khái niệm (ví dụ direct là viết tắt của direct(p))
H ì n h 3 . 4 C ậ n t r ê n v à c ậ n d ư ớ i c ủ a L O F Giả thiết rằng: (directMax-directMin)/direct=(indirectMax-indirectMin)/indirect
Có nghĩa là, chúng ta giả sử rằng các khoảng cách đạt được trong các lân cận trực tiếp và gián tiếp dao động một lượng như nhau. Với giả thiết này, ta có thể sử dụng tham số p để kiểm soát quá trình dao động. Ở trong hình 3.4 p=x% tương ứng với trường hợp này là directMax=direct(l+x%), direct. Min=direct(l-X%), indirectMax = indirect(l+x%),
indirectMin=indirect(l-x%). Cũng trong hình 3.4 cho thấy, với phần trăm p là tập gồm 1%, 5%, 10%, độ lớn giữa LOFMax và LOFMin sẽ tăng khi p tăng.
Một điều quan trọng hơn, đó là ở hình 3.4 cho thấy rằng với phần trăm p=x% xác định thì độ lớn giữa LOFMax và LOFMin tăng lên cùng với tỉ số direct/indirect, điều đó có nghĩa là mối quan hệ về độ lớn giữa tỉ số (LOFMax - LOFMin)/(direcƯ indirect) là không đổi, hay nói cách khác, dao động tương đối của LOF phụ thuộc vào tỉ số của các khoảng cách đạt được cơ bản và không phụ thuộc vào các giá trị tuyệt đối của chúng, điều này nhấn mạnh tính chất của phần tử ngoại lai.
Trong thực tế để chính xác hơn thì toàn bộ trường hợp đó được mô tả tốt trong không gian 3 chiều với ba chiều là (LOFMax-LOFMin), direct/indirect, và p. ở hình 3.4 đã trình bày các trường họp trong không gian 2 chiều với hai chiều đầu tiên, nhưng hình 3.4 lại không cho biết độ phụ thuộc giữa dao động tương đối của LOF và dao động tương đối của p. Trong hình 3.5 cho thấy đồ thị biểu diễn sự phụ thuộc của ba chiều
là (LOFMax-LOFMin), direcưindirect và p, trên hình cho biết trục y là tỉ số giữa hai chiều (LOFMax-LOFMin) và direct/indirect trong không gian 3 chiều và trục X tương ứng với chiều p. Để hiểu được dạng của đồ thị trong hình 3.5, chúng ta xem xét tỉ số giữa (LOF. Max-LOFMin) / (direct/indirect)
LOFMax —LOFMin indirect direct + direct* p /100 direct -direct* pl 100 direct ! indirect direct indirect - indirect * jơ /100 indirect + indirect* /7/100
_
' l + ^ / Ю О 1 — / > / 1 0 0 ~ | _ А * р ! Ш ~ \ - р ! Ш 1 + р 1 Ш \ \-\pl\00f
Nhìn vào hình 3.5 ở mục kế tiếp chứng tỏ rằng (LOFMax-LOFMin) và direct/indirect chỉ phụ thuộc vào giá trị của p, giá trị của nó tiến đến 00 nếu p tiến tới 100 nhưng nó sẽ rất nhỏ với các giá trị phù hợp. Điều này, cũng chứng tỏ rằng dao động tương đối của LOF là hằng số YỚi một phàn trăm p xác định như là chúng ta đã thấy ở hình 3.4.
Nói tóm lại, nếu dao động của các khoảng cách đạt được trung bình theo tập các lân cận trực tiếp và gián tiếp là nhỏ (tức là p nhỏ) thì định lý 1 đánh giá LOF rất tốt bởi YÌ cận trên và cận dưới của LOF sẽ gần tới nhau. Ta có hai trường hợp quan trọng để điều này luôn đúng
♦ Phần trăm p là rất thấp cho mỗi đối tượng p, nếu dao động của các khoảng cách đạt được là cùng thuần nhất có nghĩa là các đối tượng thuộc tập các lân cận phụ thuộc tham số Minps của p cùng nằm trong một vùng với p, ở trường hợp này, các giá trị directMax, directMin, indirectMax, indirectMin hầu hết là giống nhau, kết quả của LOF gần tới
1. Điều này chứng tỏ phù hợp YỚi kết quả đưa ra trong bổ đề 1.
♦ Lập luận trên có thể được tổng quát hóa với các đối tượng p không nằm sâu trong vùng, nhưng tất cả các đối tượng thuộc tập các lân cận phụ thuộc tham số Minpts thì ở trong cùng một vùng (giống như mô tả ở hình 3.3). Trong trường họp này, mặc dù LOF có thể không gần tới 1 nhưng các giới cận đưa ra bởi Định lý 1 là chặt.