II- ẢNH HƢỞNG CỦA THAM SỐ MinPts
2- Xác Định Miền Của Minpts
Bởi vì, giá trị của LOF có thể tăng lên và giảm xuống. Do đó, trong phần này trình bày các hƣớng dẫn chọn miền giá trị của Minpts. Sử dụng MinptsLB (Minpts Lower Bound) và MinptsUB (Minpts Upper Bound) để chỉ cận trên và cận dƣới của miền.
Đầu tiên, chúng ta xác định giá trị có thể của MinptsLB. Rõ ràng, Minpts có thể nhỏ bằng 2. Tuy nhiên, để loại bỏ các dao động không mong muốn thì Minpts không thể quá nhỏ. Nhƣ ở ví dụ phân bố Gauss trình bày ở hình 9, độ lệch tiêu chuẩn của LOF chỉ ổn định khi Minpts nhỏ nhất là 10. Một ví dụ cuối cùng là chúng ta giả sử rằng chúng ta thay phân bố Gaussian ở hình 9 thành phân bố đều. Suy ra rằng với Minpts nhỏ hơn 10 có một số đối tƣợng mà LOF của chúng lớn hơn 1 rất nhiều. Điều này có thể tính toán đƣợc vì trong phân bố đều
không có đối tƣợng nào đƣợc gán nhƣ là ngoại lai. Do đó, hƣớng dẫn đầu tiên là chúng ta cung cấp cách chọn MinptsLB nên ít nhất là 10 để loại bỏ các giao động không mong muốn.
Hƣớng dẫn thứ hai là chúng ta cung cấp cách chọn MinptsLB dựa trên nhiều quan sát tinh tế. Xem xét một trƣờng hợp đơn giản của một đối tƣợng p và một tập hợp(vùng) C các đối tƣợng. Giả sử đã xác định đƣợc MinptsLB. Nếu C chứa ít hơn MinptsLB đối tƣợng thì tập các lân cận phụ thuộc tham số Minpts của mỗi đối tƣợng trong C sẽ bao gồm cả p và ngƣợc lại. Do đó, bằng cách áp dụng định lý 1. LOF của p và tất cả các đối tƣợng trong C sẽ khá giống nhau. Cho nên không tạo đƣợc sự khác biệt của p với các đối tƣợng khác trong C.
Ngƣợc lại, nếu C chứa nhiều hơn MinptsLB đối tƣợng thì tập các lân cận phụ thuộc tham số Minpts của các đối tƣợng nằm sâu trong C sẽ không chứa p
nhƣng hầu hết các đối tƣợng của C sẽ nằm trong NMinpts(p) . Do đó phụ thuộc vào
khoảng cách giữa p với C và mật độ của C. LOF của p có thể khác với LOF của các đối tƣợng trong C. một nhận xét quan trọng là MinptsLB có thể xem nhƣ là số lƣợng nhỏ nhất của các đối tƣợng trong một vùng ( nhƣ là C ). Vì thế, các đối tƣợng khác ( nhƣ p ) có thể là phần tử ngoại lai cục bộ liên quan tới vùng này.
Giá trị này phụ thuộc vào ứng dụng. Hầu hết các tập dữ liệu mà chúng ta thử nghiệm thì thƣờng chọn từ 10 tới 20 để thực hiện.
Tiếp theo, chúng ta sẽ lựa chọn các giá trị có thể của MinptsUB là giá trị cận trên của miền giá trị Minpts. Giống nhƣ cận dƣới MinptsLB, cận trên có ý nghĩa tƣơng tự. Cho C là một tập hợp vùng của các đối tƣợng “close by” thì MinptsUB có thể xem nhƣ là lực lƣợng lớn nhất của tập C với tất cả các đối tƣợng trong C có khả năng là phần tử ngoại lại.Từ “close by” có nghĩa là các giá trị direct Max,directMin,indirect Max, indirectMin rất giống nhau. Trong trƣờng hợp này, với các giá trị Minpts lớn hơn MinptsUB thì theo định lý 1 yêu cầu rằng LOF của các đối tƣợng trong C là gần tới 1 cho nên chúng ta sẽ cung cấp cách chọn MinptsUB là giá trị lớn nhất của các đối tƣợng gần nhau mà chúng có khả năng là các phần tử ngoại lai cục bộ.
Nhƣ là một ví dụ, chúng ta xem xét lại trƣờng hợp trình bày ở hình 9, nêu lại rằng S1 chứa 10 đối tƣợng, S2 chứa 35 đối tƣợng và S3 chứa 500 đối
tƣợng. Từ các biểu đồ đó , rõ ràng rằng các đối tƣợng trong S3 không bao giờ là
các phần tử ngoại lai, và luôn luôn có giá trị LOF của chúng gần bằng 1. Ngƣợc
lại các đối tƣợng trong S1 có các phần tử ngoại lai lớn với giá trị Minpts =10 tới
35. Các đối tƣợng trong S2là ngoại lai bắt đầu từ Minpts=45. Lý do của hai kết
quả cuối là bắt đầu Minpts=36 thì tập các lân cận phụ thuộc tham số Minpts của
các đối tƣợng trong S2 sẽ bắt đầu bao gồm cả một số đối tƣợng trong S1. Từ lý do
đó, các đối tƣợng trong S1 và S2 thực hiện cách xử lý giống nhau. Bây giờ, với
Minpts = 45 các đối tƣợng trong tập kết hợp các đối tƣợng S1 và S2 bắt đầu có
các đối tƣợng từ S3 cũng là lân cận chung của chúng. Và do đó, bắt đầu có các
phần tử ngoại lai liên quan tới S3, phụ thuộc vào miền áp dụng mà chúng ta muốn
xem xét một nhóm gồm 35 đối tƣợng ( nhƣ S2 ) thành một vùng hay một nhóm
gồm các phần tử gần nhƣ các phần tử ngoại lai cục bộ.
Khi đã xác định đƣợc MinptsLB và MinptsUB, chúng ta có thể tính toán giá trị LOF của mỗi đối tƣợng trong miền này. Chúng ta đƣa ra một đánh giá của việc sắp xếp các đối tƣợng theo giá trị LOF lớn nhất trong miền xác định. Có nghĩa là việc sắp xếp các đối tƣợng dựa vào :
Max {LOFMinpts(p)|MinptsLB≤Minpts≤MinptsUB}
Ngoài cách sắp xếp theo giá trị lớn nhất LOF của mỗi đối tƣợng trong miền giá trị của Minpts, có thể sắp xếp theo giá trị nhỏ nhất hoặc giá trị trung bình. Trƣờng hợp trong hình 9 chứng tỏ rằng việc đƣa ra giá trị nhỏ nhất có thể không phù hợp bởi vì giá trị nhỏ nhất có thể loại bỏ hoàn toàn tính ngoại lai của một đối tƣợng. Sắp xếp theo giá trị trung bình có thể làm giảm đi tính ngoại lai của đối tƣợng. Do đó, sắp xếp theo giá trị lớn nhất để làm nổi bật trƣờng hợp mà đối tƣợng là mang tính ngoại lai nhất.
CHƢƠNG BỐN
TÌM HIỂU KINH NGHIỆM XÂY DỰNG ỨNG DỤNG DATA MINING TRONG THỰC TIỄN
Trong phần này, chúng ta tìm hiểu phƣơng pháp xây dựng ứng dụng Data Mining trong thực tiễn trên cơ sở nghiên cứu kinh nghiệm của một công ty máy tính hàng đầu thế giới IBM.