CHƯƠNG 2. CÁC THUẬT TOÁN TÌM KIẾM PHẦN TỬ NGOẠI LAI
2.4 Xử lý thực nghiệm
Tập dữ liệu của Knorr[6] đưa ra bao gồm 855 đối tượng. Đây là tập dữ liệu thống kê thành tích của các cầu thủ môn Hockey năm 1995-1996. Số liệu thống kê sử dụng các thông tin như : số bàn thắng, khả năng phối hợp của các cầu thủ, thời gian treo giò, số trận đấu mà các cầu thủ tham gia, khả năng ghi bàn,... Cơ sở dữ liệu thực của môn Hockey là khá nhỏ và để thực hiện các bộ test cho các thuật toán trên các tập dữ liệu lớn nằm ở bộ nhớ ngoài, Knorr đã đưa ra các tập dữ liệu tổng hợp có cùng phân bố với các dữ liệu thống kê trong tập dữ liệu môn Hockey. Sau đó, Knorr đã đưa ra các tập dữ liệu 10.000 đến 2 triệu đối tượng để tiến hành thực nghiệm. Mỗi một trang trong tập dữ liệu chứa 13 điểm.
Hình 2.3 Thời gian chạy của CPU+I/O với các tập dữ liệu ba chiều nằm trong bộ nhớ ngoài. Với pct=0.9999.
Tất cả các thực nghiệm mà Knorr đưa ra đã được chạy trên máy Sun MicroSystems UltraSPARC-1với 128 MB bộ nhớ. Thời gian thực hiện bằng tổng thời gian của CPU và thời gian vào ra I/O. Trong trường hợp thời gian CPU vượt qua 2147 giây thì sẽ sử dụng toán tử > để ký hiệu rằng thời gian CPU bị chặn dưới. Mã chương trình mà Knorr đưa ra được viết bởi C và các cách thức hoạt động như sau:
- CS: Là thời gian thực hiện cấu trúc ô nhiều chiều như đã mô tả ở hai thuật toán là FindAllOutsM và FindAllOutsD.
- NL: Là thời gian thực hiện của thuật toán NL. Dung lượng bộ nhớ trong trường hợp NL cũng giống như dung lượng bộ nhớ yêu cầu trong thuật toán CS.
2.4.2 Thay đổi cỡ của tập dữ liệu
Trong hình 2.3 đã trình bày các cỡ dữ liệu khác nhau trong không gian ba chiều với pct=0.9999. Đặc biệt là đồ thị đã biểu diễn được sự phụ thuộc của thời gian CPU+ thời gian I/O vào số lượng các điểm. Ví dụ, CS phải mất
200 2000
1500
1000
ime
NL CS
Số lượng
235.90 giây để tìm tất cả các phần tử ngoại lai DB(pct,Dmin) trong 2 triệu điểm của tập dữ liệu. NL mất 2332.10 giây gấp 9 lần thời gian thực hiện của CS.
Phần trên liên quan tới các tập dữ liệu nằm trên bộ nhớ ngoài, bảng dưới đây sẽ đưa ra các kết quả.
Bảng 2.4: Kết quả với các tập dữ liệu trong không gian ba chiều nằm trong bộ nhớ trong với pct=0.9995.
N CS NL
20000 400000
60000 80000 100000
0.32 0.54 0.74 1.04 1.43
1.02 4.26 9.64 17.58 27.67
Theo thực nghiệm trên thì CS lại có thời gian thực hiện tốt hơn NL.
Cuối cùng, để chứng minh tính hiệu quả của CS với các tập dữ liệu lớn, nằm trên bộ nhớ ngoài(Chỉ xét về cỡ của dữ liệu). Chúng ta thấy rằng ngay cả khi có 100% bộ nhớ cho cả CS và NL thì
CS vẫn thực hiện tốt hơn. Điều này được thể hiện qua bảng dưới đây:
Bảng 2.5:
pct=0.99990 pct=0.99993 pct=0.99996 pct=0.99999
CS(3-D) NL(3-D)
253.90 703.40
230.71 534.65
210.25 367.40
082.90 211.97 CS(4-D)
NL(4-D)
606.56 965.60
550.20 720.23
396.52 477.92
246.79 247.93
Trong không gian 3 chiều, bộ nhớ sử dụng là 47MB cho NL và 9MB cho CS. CS chỉ thực hiện giữa 1.04 đến 1.33 lần đọc toàn bộ tập dữ liệu cho mỗi trường hợp. Trong không gian 4 chiều, bộ nhớ sử dụng là 55 MB cho NL và 21 MB cho CS. CS chỉ thực hiện giữa 1.09 đến 1.44 lần đọc toàn bộ dữ liệu.
2.4.3 Thay đổi giá trị của pct
Mặc dù hình 2.3 đã đưa ra các kết quả với pct=0.9999 nhưng các giá trị p khác cũng cho kết quả tương tự.
Hình 2.4
Hình 2.4 trình bày các hàm phần trăm các ô trắng, hồng, đỏ, và các ô không trắng. theo các giá trị pct. Tổng số các ô trong cấu trúc ô bằng tổng số các ô trắng, các ô đỏ và các ô hồng.
Thời gian xử lý là bé khi hàm phần trăm của các ô hồng và các các ô đỏ là lớn với lý do là khi đó có thể loại bỏ được một số lượng lớn các điểm được xem như là ngoại lai. Rõ ràng sự thành công của các thuật toán dựa vào ô là lớn bởi vì có nhiều ô đỏ và ô hồng tức là có ít ô trắng và bởi vì các ô trắng đòi hỏi thời gian tính toán lớn.
2.4.4 Thay đổi chiều dữ liệu và số lượng ô
Trong phần này Knorr đã đưa ra thực nghiệm cho chúng ta cách thức tác động của số lượng chiều và số lượng các ô tới sự thực hiện các thuật toán.
Như chúng ta đã thấy thời gian thực hiện ở các bảng thực nghiệm trước cho
Phần trămtổng
.9955 .996 .9965 .997 .9975 .998 .9985 .9990 .9995 Các
loại ô:
Trắng Không
thấy thời gian thực hiện của CS là tốt hơn trong các cơ sở dữ liệu lớn trong không gian 3 chiều hoặc 4 chiều.