Khám phá phần tử ngoại lai trong cơ sở dữ liệu

121 22 0
Khám phá phần tử ngoại lai trong cơ sở dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN KHÁM PHÁ PHẦN TỬ NGOẠI LAI TRONG CƠ SỞ DỮ LIỆU Chuyên ngành : Công nghệ thông tin Mã số : 1.01.10 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS Hoàng Xuân Huấn Hà Nội – 2005 MỤC LỤC Trang phụ bìa Lời cảm ơn Mục lục Danh mục từ viết tắt Trang Mở đầu CHƢƠNG 1: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI 1.1 Khám phá tri thức 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu 1.3 Phần tử ngoại lai 1.4 Mối quan hệ phần tử ngoại lai khai thác liệu 1.5 Ứng dụng phần tử ngoại lai CHƢƠNG 2: CÁC THUẬT TỐN TÌM KIẾM PHẦN TỬ NGOẠI LAI DỰA TRÊN KHOẢNG CÁCH 2.1 Định nghĩa phần tử ngoại lai dựa khoảng cách 2.2 Thuật toán Nested-Loop 2.2.1 Tƣ tƣởng thuật tốn 2.2.2 Mơ tả thuật toán NL 2.2.3 Đánh giá độ phức tạp thuật tốn NL 2.3 Thuật tốn đánh giá theo 2.3.1 Các khái niệm tính chất liên quan 10 11 12 12 14 14 14 14 15 16 17 17 2.3.2 Thuật toán FindAllOutsM cho tập liệu nhớ 2.3.2.1 Tƣ tƣởng thuật tốn 2.3.2.2 Mơ tả thuật tốn FindAllOutsM (Find All Outliers in Memory) 2.3.2.3 Đánh giá độ phức tạp thuật tốn khơng gian hai chiều 18 18 19 21 2.3.2.4 Tổng quát cho trƣờng hợp nhiều chiều 2.3.2.5 Đánh giá độ phức tạp khơng gian nhiều chiều 2.3.3 Tìm kiếm phần tử ngoại lai DB(p,D) tập liệu lớn, nhớ ngồi 2.3.3.1 Phân tích tổng qt 23 24 25 25 2.3.3.2 Thuật toán FindAllOutsD cho phần tử ngoại lai nằm 27 nhớ 2.4 Xử lý thực nghiệm 2.4.1 Thiết lập thực nghiệm 2.4.2 Thay đổi cỡ tập liệu 2.4.3 Thay đổi giá trị p 2.4.4 Thay đổi chiều liệu số lƣợng 2.5 Tóm tắt CHƢƠNG 3: TRI THỨC SÂU VỀ PHẦN TỬ NGOẠI LAI 3.1 Các khái niệm độ mạnh phần tử ngoại lai DB 3.2 Các định nghĩa thuật ngữ 3.2.1 Các phần tử ngoại lai mạnh mạnh Top-u 3.2.2 Các phần tử ngoại lai yếu phần tử ngoại lai tầm thƣờng 3.3 Ví dụ minh hoạ -các cầu thủ NHL 3.4 Thuật tốn tìm kiếm phần tử ngoại lai không tầm thƣờng (FindNonTrivialOuts) 3.5 Tóm tắt CHƢƠNG 4: XÁC ĐỊNH THAM SỐ p, D VÀ CÁC PHÉP BIẾN ĐỔI 4.1 Giới thiệu 4.2 Lấy mẫu biến đổi thành dạng xấp xỉ chuẩn 4.2.1 Lấy mẫu biến đổi 4.2.1.1 Lấy mẫu 4.2.1.2 Biến đổi thành dạng xấp xỉ chuẩn 4.2.2 Phép tích phân Monte-Carlo 4.2.3 Các ƣớc lƣợng mạnh đơn biến 4.2.3.1 Shorth 4.2.3.2 MAD 4.2.4 Thuật toán KDD_Outliers 4.3 Các phép biến đổi khơng gian mạnh 4.3.1 Tổng qt hố hàm khoảng cách, phép biến đổi không gian mạnh 4.3.1.1 Các hàm khoảng cách 4.3.1.2 Các phép biến đổi không gian mạnh 4.3.2 Các ƣớc lƣợng nhị biến mạnh: hiệp phƣơng sai hiệp phƣơng sai 31 31 32 33 34 34 36 36 37 39 40 43 46 49 50 50 51 51 51 53 56 58 58 59 61 63 63 63 65 67 mạnh 4.3.3 Bộ ƣớc lƣợng Donoho-Stahel (DSE) 2-D 4.3.3.1 Bộ ƣớc lƣợng Donoho-Stahel (DSE) 2-D 4.3.3.2 Các kết thí nghiệm 2-D 4.3.4 So sánh khác ƣớc lƣợng, thuộc tính 68 68 70 78 DSE 4.3.4.1 So sánh khác ƣớc lƣợng 4.3.4.2 Các thuộc tính DSE 4.3.5 Bộ ƣớc lƣợng Donoho-Stahel k-D 4.3.5.1 Thuật toán Fixed-Angle k-D 4.3.5.2 Thuật toán lấy mẫu phụ (SubSampling) k-D 4.3.5.3 Các thuật toán ngẫu nhiên việc tính tốn DSE k-D 4.3.6 Sự đánh giá thí nghiệm 4.3.6.1 Các tham số bên thuật toán 4.3.6.2 Xác định tỷ lệ cho mức gọi lại (recall) 4.3.6.3 So sánh kích cỡ số mặt cắt(patches) với tỷ lệ xung đột 78 80 83 83 84 86 89 89 93 94 4.4 Tổng kết CHƢƠNG 5: XÁC ĐỊNH CÁC PHẦN TỬ NGOẠI LAI CỤC BỘ DỰAVÀO 95 97 MẬT ĐỘ 5.1 Một số trở ngại cách tiếp cận trƣớc 97 5.2 Định nghĩa phần tử ngoại lai theo cách nhìn địa phƣơng 5.3 Tính chất phần tử ngoại lai cục 5.3.1 LOF đối tƣợng nằm sâu vùng 5.3.2 Cận cận dƣới LOF 5.3.3 Tính chặt chẽ cận LOF 98 101 101 102 104 5.3.4 Cận cận dƣới đối tƣợng có lân cận trực tiếp nằm nhiều vùng 106 5.4 Sự ảnh hƣởng tham số Minpts 5.4.1 Sự phụ thuộc LOF theo Minpts 109 109 5.4.2 Xác định miền Minpts 5.5 Thực nghiệm 5.6 Đánh giá độ phức tạp thuật toán xác định giá trị LOF KẾT LUẬN 110 112 114 116 DANH MỤC TỪ VIẾT TẮT Từ viết tắt Nghĩa từ Box_Cox Tên phép biến đổi thành dạng xấp xỉ chuẩn DB (Distance Based) Dựa khoảng cách DSE (Donoho Stahel) Tên ƣớc lƣợng mạnh đa biến KDD (Know ledgement Discovery Khám phá tri thức sở liệu in Database) LOF (Local Outlier Factor) Yếu tố ngoại lai cục MAD (Median Absolute Deviation) Là tên ƣớc lƣợng mạnh đơn biến NHL (National Hockey League) Liên đồn mơn Hockey quốc gia NL (Nested Loop) Tên thuật toán phát phần tử ngoại lai Shorth (Shortest half) Là tên ƣớc lƣợng mạnh đơn biến MỞ ĐẦU Thế kỷ XXI đƣợc xem kỷ nguyên kinh tế tri thức Các công nghệ khám phá tri thức đƣợc áp dụng rộng rãi nhiều lĩnh vực đem lại thành tựu to lớn Nhƣng công nghệ khám phá tri thức thƣờng nhằm mục đích tìm kiếm, khám phá dạng mẫu thƣờng gặp Chủ yếu tập trung vào hƣớng: Tìm kiếm luật kết hợp, nhận dạng phân lớp mẫu…Còn lĩnh vực khám phá phần tử ngoại lai bƣớc đầu đƣợc quan tâm nghiên cứu Mặc dù đƣợc ứng dụng nhiều lĩnh vực sống: nhƣ phát thẻ bất thƣờng hệ thống ngân hàng, tuyến đƣờng bất ổn không hợp lý giao thông, ứng dụng hệ thống an ninh, dự báo thời tiết, thị trƣờng chứng khoán, lĩnh vực thể thao v.v.v Tuy nhiên, với số lƣợng liệu đƣợc tập trung lƣu trữ sở liệu ngày lớn việc tìm kiếm ngoại lệ phần tử ngoại lai trở nên cấp thiết nhiều Xuất phát từ thực tế đó, luận văn thực nhiệm vụ sau: - Tìm hiểu khái niệm khám phá tri thức (KDD) khai thác liệu (Data mining) - Tìm hiểu khái niệm phần tử ngoại lai theo cách nhìn tồn cục địa phƣơng - Khảo cứu thuật tốn tìm kiếm phần tử ngoại lai liệu lớn, nhiều chiều - Kiểm tra đánh giá thuật tốn liệu thực: tập liệu cầu thủ chơi Hockey Knorr thực tập liệu khách hàng ngân hàng đầu tƣ phát triển BIDV chúng tơi thực Ngồi phần phần mở đầu kết luận, luận văn gồm có năm chương Chƣơng 1, giới thiệu trình khám phá tri thức bao gồm khái niệm: Khai thác liệu(Data mining), Khám phá tri thức, khái niệm phần tử ngoại lai ứng dụng chúng Đồng thời, trình bày ứng dụng sử dụng kỹ thuật khai thác liệu lĩnh vực khác quan hệ phần tử ngoại lai lĩnh vực khai thác liệu Chƣơng giới thiệu định nghĩa phần tử ngoại lai dựa khoảng cách DB(p, D) theo cách nhìn tồn cục Đồng thời trình bày hai thuật tốn khám phá phần tử ngoại lai tập liệu lớn, nhiều chiều: thuật tốn Nested-Loop có độ phức tạp O(kN2)(k chiều N cỡ liệu ), thuật toán đánh giá theo có độ phức tạp tuyến tính với N nhƣng lại lũy thừa chiều liệu: O(mckkk/2+kN), với m số ô, c số Chƣơng chúng tơi trình bày kiến thức sâu phần tử ngoại lai Cung cấp khái niệm độ mạnh yếu phần tử ngoại lai Đƣa thuật tốn tìm tất phần tử ngoại lai DB “mạnh nhất” tập liệu Thuật toán sử dụng chiến lƣợc xén tỉa để tìm phần tử ngoại lai mạnh Nó trả phần tử ngoại lai “yếu” tuỳ theo yêu cầu Chƣơng 4, trình bày phân tích cách tìm giá trị mặc định cho tham số p D, đồng thời giới thiệu phép biến đổi để giúp việc tìm kiếm phần tử ngoại lai DB có ý nghĩa Cơng việc liên quan đến việc biến đổi Box-Cox sang dạng chuẩn tƣơng đối tích phân monte-Carlo.Chúng tơi khám phá vai trị lấy mẫu việc xác định giá trị mặc định p D Tổng qt hố cách tìm kiếm phần tử ngoại lai việc sử dụng biến đổi không gian mạnh Chúng giới thiệu đánh giá Donoho-Stahel (DSE) Trình bày số thuật tốn dùng để tính tốn DSE Trong có thuật tốn Knorr, gọi thuật toán lai - ngẫu nhiên (Hybrid – Random) Trong hầu hết trƣờng hợp, thực tốt thuật tốn DSE khác Chƣơng giới thiệu định nghĩa chặt chẽ phần tử ngoại lai xem xét đối tƣợng tập liệu dựa mật độ theo cách nhìn địa phƣơng Trình bày cấp độ ngoại lai tính chất đối tƣợng Đồng thời kiểm tra chƣơng trình ứng dụng thuật tốn LOF sở liệu thực ngân hàng đầu tƣ phát triển BIDV, sau đƣa ý nghĩa phần tử ngoại lai Cuối trình bày đánh giá độ phức tạp thuật tốn xác định giá trị LOF CHƢƠNG 1: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI Nội dung chƣơng giới thiệu trình khám phá tri thức, khai thác liệu, ứng dụng thực tế có hỗ trợ kỹ thuật khai thác liệu Đồng thời, trình bày khái niệm phần tử ngoại lai quan hệ lĩnh vực khám phá phần tử ngoại lai lĩnh vực khai thác liệu 1.1 Khám phá tri thức Với tiến khoa học kỹ thuật nhu cầu ngƣời ngày tăng tạo nên thời đại bùng nổ thông tin lĩnh vực đời sống Với lƣợng thơng tin “khổng lồ” cần có kỹ thuật khai thác liệu hiệu để lấy thơng tin hữu ích Một số ngơn ngữ truy vấn đƣợc sử dụng nhằm lấy thông tin theo yêu cầu ngƣời sử dụng, nhƣng hầu hết ngôn ngữ lấy đƣợc liệu theo yêu cầu đơn giản Các kiểu liệu đa phƣơng tiện đƣợc số hệ thống sở liệu hỗ trợ nhƣ: Dữ liệu âm thanh, hình ảnh…khơng thể đáp ứng đƣợc u cầu ngƣời sử dụng ngày cao phức tạp Do đó, với nhu cầu tìm kiếm tri thức sở liệu hình thành lĩnh vực mới: Khám phá tri thức sở liệu Khám phá tri thức tồn q trình tìm kiếm tri thức từ liệu, bao gồm bƣớc sau: - Chuẩn bị liệu: Dữ liệu đƣợc tập trung vào sở liệu, kho liệu Dữ liệu chƣa tức có liệu sai sót, khơng phù hợp, nhiễu, liệu không đủ thông tin Do đó, bƣớc liệu đƣợc làm để loại bỏ liệu không phù hợp, liệu khơng liên quan Cơng việc đƣợc tiến hành trƣớc sau phát liệu bị nhiễm bẩn Đồng thời, sau đƣợc làm sạch, liệu đƣợc làm giàu để bổ sung thông tin cần thiết Sau liệu đƣợc biến đổi theo dạng phù hợp để thực trình khai thác liệu - Khai thác liệu: Khai thác liệu bƣớc quan trọng trình khám phá tri thức Bƣớc sử dụng kỹ thuật, phƣơng thức thông minh để xác định mẫu liệu theo yêu cầu Khai thác liệu định nghĩa trình khai thác, khám phá thơng tin hữu ích, chưa biết trước, tiềm ẩn không tầm thường từ tập liệu lớn Khai thác liệu bao gồm: ● Tìm kiếm luật kết hợp: Sử dụng luật đơn giản để biểu diễn tri thức Tìm kiếm quan hệ có ích liệu ● Dự báo: Xác định hàm hồi quy ● Nhận dạng phân lớp mẫu: tìm kiếm, xác định mẫu theo yêu cầu, phân chia mẫu thành lớp nhằm phục vụ cho mục đích sử dụng ● Phát phần tử ngoại lệ : Tìm kiếm xác định đối tƣợng liệu lỗi, bất thƣờng, phần tử ngoại lai Môi trƣờng khám phá tri thức nhằm mục đích hỗ trợ trình khai thác liệu Do đó, hai thuật ngữ “khai thác liệu”(Data Mining) “khám phá tri thức”(Knowledge Discovery) thƣờng đƣợc sử dụng để thay cho - Đánh giá: Bƣớc đánh giá bao gồm đánh giá mẫu biểu diễn tri thức Đánh giá mẫu tìm mẫu quan tâm từ mẫu có bƣớc khai thác liệu Có thể sử dụng ngƣỡng cần thiết để lọc mẫu cần khai thác Biểu diễn tri thức trình cho phép ngƣời sử dụng tƣơng tác với hệ thống nhiệm vụ truy vấn tìm kiếm liệu cụ thể Cung cấp thông tin nhằm mục đích trợ giúp việc tìm kiếm thực khai thác liệu chi tiết dựa liệu đƣợc khai thác Ngoài ra, biểu diễn tri thức cho phép ngƣời sử dụng trình duyệt lƣợc đồ sở liệu kho liệu cấu trúc liệu Hình 2.1 trình bày tổng thể qui trình KDD, khơng bao gồm khai thác liệu mà cịn có bƣớc khác để có đƣợc kết Các bƣớc khai thác liệu thƣờng tiêu tốn thời gian phức tạp qui trình, nhiên bƣớc tiền xử lý hậu xử lý khơng đơn giản tiêu tốn nhiều thời gian so với thuật toán khai thác liệu Chúng thực hầu hết bƣớc hình 2.1 việc tìm kiếm phần tử ngoại lai DB Một số bƣớc tiền xử lý liên quan đến việc tìm giá trị khởi tạo hợp lý cho p D (xem chƣơng 4) Hậu xử lý đƣợc thực chuyên gia Những lựa chọn thích hợp đƣợc thực bƣớc tiền xử lý ngƣời sử dụng máy giảm nhiều thời gian liên quan đến bƣớc khai thác liệu giảm cơng việc thủ công phần hậu xử lý Bằng cách lựa chọn giá trị thích hợp cho p D, quy trình KDD làm cho phần tử ngoại lai có nhiều ý nghĩa ngƣời sử dụng giảm thời gian xác định p D KNOWLEDGE Đánh Giá Biểu Diễn Khai thác Dữ Liệu Các Mẫu Trích Chọn Trích Chọn Biến Đổi Dữ Liệu Làm Sạch Tích Hợp Dữ Liệu Các Cơ Sở Dữ Liệu Các File Bằng Hình 2.1 Qui trình KDD Knowledgement Discovery in Database – Khám phá Tri thức Cơ sở liệu 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu Có nhiều ứng dụng lĩnh vực khác sử dụng kỹ thuật khai thác liệu nhằm hỗ trợ cho mục đích sử dụng Ví dụ: thƣơng mại, công ty hay tổ chức sử dụng kỹ thuật khai thác liệu để tặng khuyễn cho khách hàng dựa vào tần suất truy cập website, kiểu khách hàng, số lƣợng hàng mua lần trƣớc Trong ngân hàng, ngƣời ta sử dụng kỹ thuật khai thác liệu để xác định rủi ro thẻ tín dụng Trong công ty bảo hiểm, sử dụng kỹ thuật khai thác 106 5.5 độ lớn LOFMax LOFMin lớn Trong trƣờng hợp giới hạn cho Định lý làm việc không tốt Xem xét trƣờng hợp trình bày hình 5.1 Với đối tƣợng o2 , tất đối tƣợng thuộc tập lân cận phụ thuộc tham số Minpts nằm vùng C2 nên giới hạn Định lý LOF o2 đƣợc xem chặt Ngƣợc lại, đối tƣợng thuộc tập lân cận phụ thuộc tham số 50 0.0 direct/indirect LOFMin-LOFMax 100 Minpts o1 (NMinpts(o1))ở hai vùng C1 C2 Trong trƣờng hợp giới hạn LOF o1 tốt 10 20 30 40 50 60 70 80 90 100 p(%) Hình 5.5 Định lý dƣới nhằm mục đích đƣa giới hạn tốt LOF đối tƣợng p lân cận trực tiếp p nằm nhiều vùng Ý nghĩa trực quan Định lý phân hoạch đối tƣợng thuộc tập lân cân phụ thuộc tham số Minpts vào số nhóm, nhóm đóng góp tỷ lệ cho LOF p C2 C1 Minpts=6 d1min i1max d2min p I2max Hình 5.6: Minh hoạ Định lý Ví dụ trình bày hình 5.6 với Minpts=6 Trong trƣờng hợp này, có đối tƣợng thuộc N6(p) nằm C1 đối tƣợng khác thuộc C2 theo Định lý LOFMin 107 đƣợc xác định (0.5*d1min+0.5d2min)/(0.5/i1max+0.5/i2max) với d1min d2min lần lƣợt khoảng cách đạt đƣợc cực tiểu p đối tƣợng thuộc N 6(p) C1 C2, i1max i2max lần lƣợt khoảng cách đạt đƣợc cực đại q đối tƣợng thuộc N6(q) C1 C2 Để cho đơn giản, hình 5.6 khơng trình bày trƣờng hợp giới hạn LOFMax Định lý 2: Cho p đối tượng từ sở liệu ,1≤Minpts≤|D| C1, C2,….,Cn phân hoạch NMinpts(p), Nghĩa NMinpts(p)=C1U C2… U CnU {p} với Ci∩Cj=, Ci≠  với 0≤i,j≤n,i ≠j.Hơn nữa, đặt ζi=|Ci|/|NMinpts(p)| phần trăm đối tượng lận cận p, đối tượng nằm C i khái niệm directi Max, directiMin, indirecti Max, indirecti Minđược định nghĩa tương tự direct Max, directMin, , indirect Max, indirectMin hạn chế tập Ci LOF   n i a LOF ( p)   i * direct ( p) i 1 đối tượng p thoả mãn  i 1    n i b LOF ( p)   i * direct max ( p) i 1  i 1  i n indirect i max i n indirect i   ( p)    ( p)  Chứng minh: chứng minh vế trái: oCi reach_dist(p,o)directimin(p)  reach _ dist ( p, o)  1/ ON Minpts ( p ) | N Minpts ( p) | i n direct ( p)       i 1 oCi | N Minpts ( p) |  1 n reach _ dist ( p, o)       i 1 oCi | N Minpts ( p) |  i  n | Ci | direct ( p)      i 1 | N Minpts ( p) |  n  i Hay: lrd ( p)    i direct ( p)  i 1  1 1 n  i    i direct ( p)  i 1  1 1  q €NMinpts(o): reach_dist (o,q) ≤indirectiMax(p) => lrd (o)  i indirect max ( p) Do suy ra: lrd (o) ON Minpts ( p ) lrd ( p )  LOF ( p)  | N Minpts ( p) | n  i indirect ( p ) lrd (o)  n    i max     i direct ( p )      lrd ON Minpts ( p ) lrd ( p)  i 1   i 1 OC i | N Minpts ( p) |     i n  n i    i direct ( p )    i  i 1   i 1 indirect max ( p)  Chứng minh tƣơng tự cho (b) 108 Hệ quả: Nếu số lƣợng vùng Định lý LOF LOFmax cho Định lý tƣơng ứng với giới hạn cho Định lý 5.4 Sự ảnh hƣởng tham số Minpts Trong phần trƣớc xem xét đánh giá tính chất chung LOF với đối tƣợng nằm vùng Đó đối tƣợng có LOF xấp xỉ Với đối tƣợng khác, LOF chúng bị chặn nhƣ hai định lý: Định lý Định lý tùy thuộc vào đối tƣợng thuộc tập lân cận phụ thuộc tham số Minpts nằm hay nhiều vùng Điều quan trọng ý tất kết trƣớc dựa giá trị Minpts xác định Trong phần xem xét vấn đề giá trị Minpts ảnh hƣởng tới giá trị LOF đƣa cách để xác định giá trị Minpts phù hợp cho việc tính tốn LOF 5.4.1 Sự phụ thuộc LOF theo Minpts Với kết phân tích phần trƣớc, có số câu hỏi đƣợc đặt Giá trị LOF thay đổi nhƣ điều chỉnh giá trị Minpts Khi cho dãy tăng giá trị Minpts, có tƣơng ứng chuỗi thay đổi cách đơn điệu LOF hay khơng? Điều có nghĩa LOF có tăng, giảm đơn điệu không ? Không may mắn thực tế LOF không tăng không giảm cách đơn điệu Hình 5.7 trình bày trƣờng hợp đơn giản tất đối tƣợng đƣợc phân bố theo phân bố Gauss Với giá trị Minpts 50 giá trị Min, giá trị Max, giá trị trung bình nhƣ độ lệch tiêu chuẩn LOF đƣợc biểu diễn Xem xét cận LOF ví dụ hình 5.7 Đầu tiên, giá trị Minpts=2, giá trị quy sử dụng khoảng cách thực đối tƣợng định nghĩa Bằng cách tăng dần giá trị Minpts, dao động thực khoảng cách đạt đƣợc giá trị LOF giảm Do đó, có giảm xuống giá trị cực đại LOF Tuy nhiên giá trị Minpts tiếp tục tăng lên giá trị Max LOF dao động lên xuống cuối ổn định tới giá trị Nếu giá trị LOF thay đổi không đơn điệu phân bố tuý nhƣ phân bố Gauss giá trị LOF thay đổi lớn nhiều trƣờng hợp phức tạp Hình 5.8 mơ tả tập liệu khơng gian chiều, có vùng, vùng S1 bao gồm 10 đối tƣợng, S2 bao gồm 35 đối tƣợng,S3 bao gồm 500 đối tƣợng, phía bên phải trình bày biểu đồ cho đối tƣợng vùng Các biểu đồ cho thấy đồ thị LOF thông qua Minpts nằm miền từ 10 tới 50 Trong LOF đối tƣợng S3 ổn định quanh giá trị giá trị LOF đối tƣợng S1 vàS2 lại thay đổi lớn 0.5 1.5 2.5 Cực đại Độ lệch chuẩn giá trị trung bình Cực tiểu Đặc trƣng ngoại lai LOF 109 Minpts 11 16 21 26 31 36 41 46 51 Hình 5.7: Sự biến thiến LOF phân bố Gauss 5.4.2 Xác định miền Minpts Bởi vì, giá trị LOF tăng lên giảm xuống Do đó, phần trình bày hƣớng dẫn chọn miền giá trị Minpts Sử dụng MinptsLB (Minpts Lower Bound) MinptsUB (Minpts Upper Bound) để cận cận dƣới miền Đầu tiên, xác định giá trị MinptsLB Rõ ràng, Minpts nhỏ Tuy nhiên, để loại bỏ dao động không mong muốn Minpts khơng thể q nhỏ Nhƣ ví dụ phân bố Gauss trình bày hình 5.7, độ lệch tiêu chuẩn LOF ổn định Minpts nhỏ 10 Một ví dụ cuối giả sử thay phân bố Gaussian hình 5.7 thành phân bố Suy với Minpts nhỏ 10 có số đối tƣợng mà LOF chúng lớn nhiều Điều tính tốn đƣợc phân bố khơng có đối tƣợng đƣợc gán nhƣ ngoại lai Do đó, hƣớng dẫn cung cấp cách chọn MinptsLB nên 10 để loại bỏ giao động không mong muốn Hƣớng dẫn thứ hai cung cấp cách chọn MinptsLB dựa nhiều quan sát tinh tế Xem xét trƣờng hợp đơn giản đối tƣợng p tập hợp(vùng) C đối tƣợng Giả sử xác định đƣợc MinptsLB Nếu C chứa MinptsLB đối tƣợng tập lân cận phụ thuộc tham số Minpts đối tƣợng C bao gồm p ngƣợc lại Do đó, cách áp dụng định lý LOF p tất đối tƣợng C giống Cho nên không tạo đƣợc khác biệt p với đối tƣợng khác C Ngƣợc lại, C chứa nhiều MinptsLB đối tƣợng tập lân cận phụ thuộc tham số Minpts đối tƣợng nằm sâu C không chứa p nhƣng hầu hết 110 đối tƣợng C nằm NMinpts(p) Do phụ thuộc vào khoảng cách p với C mật độ C LOF p khác với LOF đối tƣợng C nhận xét quan trọng MinptsLB xem nhƣ số lƣợng nhỏ đối tƣợng vùng ( nhƣ C ) Vì thế, đối tƣợng khác ( nhƣ p ) phần tử ngoại cục liên quan tới vùng Giá trị phụ thuộc vào ứng dụng Hầu hết tập liệu mà Knorr thử nghiệm thƣờng chọn từ 10 tới 20 để thực Tiếp theo, lựa chọn giá trị MinptsUB giá trị cận miền giá trị Minpts Giống nhƣ cận dƣới MinptsLB, cận có ý nghĩa tƣơng tự Cho C tập hợp/vùng đối tƣợng “close by” MinptsUB xem nhƣ lực lƣợng lớn tập C với tất đối tƣợng C có khả phần tử ngoại lại.Từ “close by” có nghĩa giá trị direct Max,directMin,indirect Max, indirectMin giống Trong trƣờng hợp này, với giá trị Minpts lớn MinptsUB theo định lý yêu cầu LOF đối tƣợng C gần tới cung cấp cách chọn MinptsUB giá trị lớn đối tƣợng gần mà chúng có khả phần tử ngoại lai cục Nhƣ ví dụ, xem xét lại trƣờng hợp trình bày hình 5.8, nêu lại S1 chứa 10 đối tƣợng, S2 chứa 35 đối tƣợng S3 chứa 500 đối tƣợng Từ biểu đồ , rõ ràng đối tƣợng S3 không phần tử ngoại lai, ln ln có giá trị LOF chúng gần Ngƣợc lại đối tƣợng S1 có phần tử ngoại lai lớn với giá trị Minpts =10 tới 35 Các đối tƣợng S2là ngoại lai Minpts=45 Lý hai kết cuối bắt đầu Minpts=36 tập lân cận phụ thuộc tham số Minpts đối tƣợng S2 bắt đầu bao gồm số đối tƣợng S1 Từ lý đó, đối tƣợng S1 S2 thực cách xử lý giống Bây giờ, với Minpts=45 đối tƣợng tập kết hợp đối tƣợng S1 S2 bắt đầu có đối tƣợng từ S3 lân cận chung chúng Và đó, bắt đầu có phần tử ngoại lai liên quan tới S3, phụ thuộc vào miền áp dụng mà muốn xem xét nhóm gồm 35 đối tƣợng ( nhƣ S2 ) thành vùng hay nhóm gồm phần tử gần nhƣ phần tử ngoại lai cục Khi xác định đƣợc MinptsLB MinptsUB, tính tốn giá trị LOF đối tƣợng miền Chúng ta đƣa đánh giá việc xếp đối tƣợng theo giá trị LOF lớn miền xác định Có nghĩa việc xếp đối tƣợng dựa vào max{LOFMinpts(p)|MinptsLB≤Minpts≤MinptsUB}.Ngoài cách xếp theo giá trị lớn LOF đối tƣợng miền giá trị Minpts, xếp theo giá trị nhỏ giá trị trung bình Trƣờng hợp hình 5.8 chứng 111 tỏ việc đƣa giá trị nhỏ khơng phù hợp giá trị nhỏ loại bỏ hồn tồn tính ngoại lai đối tƣợng Sắp xếp theo giá trị trung bình làm giảm tính ngoại lai đối tƣợng Do đó, xếp theo giá trị lớn để làm bật trƣờng hợp mà đối tƣợng mang tính ngoại lai Điểm S1 S2 Điểm S2 Điểm S3 LOF S1 S3 Minpts(10-50) Minpts(10-50) Minpts(10-50) Hình 5.8 Miền giá trị LOF đối tượng vùng S1, S2 S3 5.5 Thực nghiệm Trong thực nghiệm dƣới đây, tính tốn phần tử ngoại lai cục cho sở liệu ngân hàng đầu tƣ phát triển BIDV Cơ sở liệu có 2873 ghi, gồm thuộc tính số tài khoản, tên khách hàng, số tháng tích luỹ, số dư tài khoản, trình độ khách hàng (Phổ Thông, Trung cấp, cao đẳng, đại học, đại học) Số tiền tích luỹ trung bình khách hàng tháng đƣợc tính qua thơng tin Trong sở liệu trình độ khách hàng đƣợc mã hóa số ngun Cơng việc phát phần tử ngoại lai đƣợc thực tập liệu không gian ba chiều : Số tháng tích luỹ, số tiền tích luỹ trung bình khách hàng tháng, trình độ khách hàng Số tiền tích luỹ trung bình khách hàng tháng đƣợc tính tỷ số số dƣ tài khoản số tháng tích luỹ Nhìn chung, tập hợp liệu phân chia vào sáu vùng tƣơng ứng với trình độ khách hàng Chúng cài đặt thử nghiệm tính giá trị LOF với bảng liệu Các giá trị LOF hình 5.9 đƣợc tính tốn miền Minpts từ 30 tới 50 Danh sách khách hàng đƣợc xếp theo thứ tự giảm 112 dần theo giá trị cực đại LOF khách hàng, giải thích chúng phần tử mong muốn Trong hình 5.9 ngoại lai khách hàng HOANG HUY HA Khách hàng ngƣời có số tháng tích luỹ nhiều 30 tháng, có số dƣ tài khoản 562 triệu Khách hàng có số tiền tích luỹ trung bình tháng lớn Đây phần tử ngoại lai nằm vùng khách hàng có trình độ đại học Khách hàng ngoại lai thứ hai NGUYEN PHUC THE DUC, khách hàng tích luỹ đƣợc 23tháng có số dƣ tài khoản 430triệu phần tử ngoại lai vùng khách hàng có trình độ đại học Tiếp theo khách hàng NGUYEN VAN MINH ngoại lai vùng khách có trình độ đại học có số tiền tích luỹ trung bình tháng cao Phần tử ngoại lai thứ tƣ khách hàng NGUYEN HUONG GIANG có trình độ phổ thơng Khách hàng tích luỹ 12 Hình 5.9 tháng có số dƣ tài khoản 105triệu Khách hàng có có số tiền tích luỹ trung bình tháng cao so với khách hàng có trình độ phổ thơng Đây khách hàng ngoại lai vùng trình độ phổ thơng Phần tử ngoại lai thứ PHAM DUC PHUONG có trình độ cao đẳng Tích luỹ tháng có số dƣ 80.5 triệu Là phần tử ngoại lai vùng trình độ cao đẳng Phần tử ngoại lai thứ PHAM HUU PHUC, tích luỹ đƣợc tháng có số dƣ 52.5triệu Đây khách 113 hàng ngoại lai vùng trình độ trung cấp Tƣơng ta thấy khách hàng ngoại lai vùng liệu tƣơng ứng hình 5.9 Trong hình 5.10 xếp khách hàng theo giá trị cực đại LOF miền giá trị Minpts từ 10 đến 50 Danh sách xếp khách hàng theo thứ tự LOF không thay đổi xếp khách hàng theo LOF miền giá trị Minpts từ 30 đến 50 Tuy nhiên, giá trị cực đại LOF khách hàng ứng với trƣờng hợp Minpts từ 10 đến 50 lớn giá trị cực đại LOF khách hàng trƣờng hợp từ 30 đến 50 Do đó, có số giá trị Minpts từ 10 đến 30 làm cho giá trị LOF khách hàng đạt cực đại Điều chứng tỏ rằng, giá trị LOF đối tƣợng không tăng giảm đơn điệu theo giá trị Minpts Hình 5.10 5.6 Đánh giá độ phức tạp thuật toán xác định giá trị LOF Để tính tốn giá trị LOF miền MinptsLB MinptsUB, với n đối tƣợng sở liệu D Chúng ta phải thực hai bƣớc Bƣớc xác định lân cận MinptsUB-nearest, bƣớc thứ hai tính giá trị LOF Chúng ta lần lƣợt xem xét chi tiết hai bƣớc này: Trong bƣớc đầu lân cận MinptsUB-nearest điểm p đƣợc tìm thấy vùng với khoảng cách chúng tới p Kết bƣớc thực sở liệu M cỡ n*MinptsUB khoảng cách Chú ý cỡ kết tức thời phụ thuộc 114 vào số chiều liệu nguồn Độ phức tạp thời gian O(n*thời gian truy vấn k-nn) Với truy vấn k-nn(k-nearest-neighbor) có nhiều lựa chọn khác nhau: Với liệu có số chiều thấp, sử dụng tiếp cận dựa ô để có đƣợc truy vấn k-nn thời gian hàng số, dẫn đến thời gian chạy O(n) cho việc thực bƣớc Với liệu có số chiều từ trung bình đến trung bình sử dụng số, cho ta độ phức tạp trung bình để có đƣợc truy vấn k-nn O(logn), dẫn đến độ phức tạp cho bƣớc O(n*logn) Với số chiều cao nên sử dụng quét tuần tự, với độ phức tạp O(n), nên dẫn đến độ phức tạp bƣớc O(n2) Trong thực nghiệm chúng ta, sử dụng tập liệu với số chiều cỡ trung bình nên độ phức tạp O(n*logn) Chúng ta thấy việc thực gần nhƣ tuyến tính liệu từ đến chiều nhƣng lại suy biến với tập liệu từ 10 đến 20 chiều Trong bƣớc thứ hai, giá trị LOF đƣợc tính toán việc thực sở liệu M Cơ sở liệu nguồn D không cần cho bƣớc này, sở liệu M có đủ thơng tin để tính tốn giá trị LOF Cơ sở liệu M đƣợc duyệt lần với giá trị Minpts MinptsLB MinptsUB Trong lần duyệt mật độ cục đạt đƣợc đối tƣợng đƣợc tính tốn Trong lần duyệt thứ giá trị LOF cuối đƣợc tính toán ghi file Các giá trị sau đƣợc sử dụng để xếp đối tƣợng theo giá trị lớn LOF nằm MinptsLB MinptsUB Độ phức tạp thời gian bƣớc O(n) 115 KẾT LUẬN Việc tìm kiếm phần tử ngoại lai nhiệm vụ quan trọng lĩnh vực khám phá tri thức sở liệu Luận văn tìm hiểu tổng quan lĩnh vực khám phá tri thức sở liệu, khai thác liệu Đồng thời giới thiệu đánh giá thuật tốn tìm kiếm phần tử ngoại lai sở liệu lớn, nằm nhớ Với phần tử ngoại lai theo cách nhìn tồn cục, luận văn giới thiệu thuật tốn NL thuật tốn đánh giá theo phát phần tử ngoại lai đƣợc thực tập liệu lớn, nhiều chiều, nằm nhớ ngồi Thuật tốn NL thuật tốn phân chia tập liệu thành khối liệu, sử dụng vịng lặp để tính tốn khoảng cách, tìm kiếm phần tử ngoại lai khối Thuật tốn NL có độ phức tạp O(kN2)(k chiều N cỡ liệu ) Tuy nhiên, số lần đọc tập liệu vào nhớ thuật tốn khơng bé n-2 lần đọc nhƣng lại nhỏ n-1 lần đọc với n tổng số khối tập liệu Do đó, thuật toán NL nhiều thời gian đọc liệu Thuật tốn thứ hai đƣợc trình bày thuật tốn đánh giá theo ô, giới thiệu hai phiên thuật tốn Phiên mơ tả thuật toán áp dụng cho tập liệu lớn, nằm nhớ Phiên thứ hai cải tiến phiên thứ để thuật tốn thực đƣợc với sở liệu nằm nhớ ngồi Thuật tốn đánh giá theo ánh xạ đối tƣợng tập liệu vào ô phù hợp, sau đánh giá ô mối quan hệ để tìm kiếm phần tử ngoại lai Thuật toán giảm cách đáng kể cơng việc tính tốn khoảng cách cặp điểm Độ phức tạp thuật toán đánh giá theo tuyến tính với N nhƣng lại lũy thừa chiều liệu: O(m ck kk/2+kN), với m số ô, c số Luận văn thuật toán thực nhiều lần đọc tập liệu từ nhớ vào nhớ Luận văn trình bày thực nghiệm Knorr để chứng tỏ rằng: với tập liệu lớn có số chiều bé thuật tốn đánh giá theo có thời gian thực thuật toán NL Tuy nhiên, với tập liệu có số chiều lớn 4, thuật tốn NL lại có thời gian thuật tốn đánh giá theo thuật tốn đánh giá theo có độ phức tạp lũy thừa với số chiều liệu Ở chƣơng 3, chúng tơi trình bày tri thức sâu phần tử ngoại lai, khám phá khái niệm độ mạnh phần tử ngoại lai, chúng tơi giới thiệu thuật tốn tìm kiếm phần tử ngoại lai mạnh tập liệu Thuật tốn hữu ích việc khai thác phần tử ngoại lai tập liệu lớn, đa chiều mà khó tìm kiếm đƣợc tất phần tử ngoại lai, ngƣời dùng thoả mãn với phần tử ngoại lai mạnh Thực chất, phần tử ngoại lai mạnh có 116 thể đƣợc xem “phần tinh tuý” phần tử ngoại lai Các phần tử ngoại lai yếu phần ý ngƣời dùng Chúng tơi trình bày thuật toán phát tất phần tử ngoại lai không tầm thƣờng (tức mạnh yếu) Chƣơng 4, chúng tơi trình bày cách chọn giá trị tốt cho tham số p D trình tìm kiếm phần tử ngoại lai DB(p,D) Tham số p đơn giản hai tham số, chọn giá trị đủ sát với đơn vị (ví dụ., 0.99995 10 bộ) Tham số D khó ƣớc lƣợng tốt, dựa vào phƣơng pháp thử sai tốn thực tế Đối với D, kỹ thuật lấy mẫu cách khởi tạo giá trị hợp lý Một cách khác sử dụng phép biến đổi Box-Cox thành dạng xấp xỉ chuẩn Phƣơng pháp giúp giảm thay đổi số phần tử ngoại lai đƣợc trả Chúng tơi cố gắng biến đổi thuộc tính thành dạng xấp xỉ chuẩn với ý tƣởng dựng mẫu tập liệu biến đổi phân bố chuẩn tắc đa biến Sau đó, phần tử ngoại lai điểm nhƣ nằm siêu hình cầu bao quanh 99.7% điểm Trong chƣơng nghiên cứu phép biến đổi mạnh quan trọng thao tác dựa khoảng cách việc phát phần tử ngoại lai Các ƣớc lƣợng mạnh tốt ƣớc lƣợng cổ điển nhƣ trung bình hay độ lệch chuẩn Các ƣớc lƣợng mạnh giải thích tỷ lệ, biến, mối quan hệ tƣơng tác tác dụng phần tử ngoại lai Các mạnh khác ƣớc lƣợng mạnh bao gồm: tính ổn đinh, khả tái sử dụng, tính tốn qua mẫu tập liệu lớn Các kết đƣợc trả nhiều thao tác KDD dựa khoảng cách có khuynh hƣớng ý nghĩa không ý tới tỷ lệ, biến, mối quan hệ tƣơng tác phần tử ngoại lai liệu nhỏ Bộ ƣớc lƣợng Donoho-Stahel (DSE) ƣớc lƣợng mạnh đáp ứng đƣợc mặt có hai thuộc tính Ơ-cơ-lit thuộc tính ổn định Chúng ta thấy thao tác khoảng cách thƣờng khơng thích hợp thao tác liệu thơ (và chí liệu chuẩn tắc hố), thực thích hợp với khơng gian biến đổi Vì thế, ngƣời dùng thấy kết trực quan có nghĩa Chúng tơi cung cấp nghiên cứu tình chi tiết để thấy đƣợc khác ƣớc lƣợng mạnh khơng mạnh Sau đó, tập trung vào ƣớc lƣợng Donoho-Stahel Thuật toán Fixed-Angle DSE tốn nhiều thời gian để tính tốn nên chúng tơi xem xét thuật tốn DSE khác: SubSampling, Pure-Random thuật toán mới, Knorr phát triển HybridRandom Sau xem xét vấn đề nhƣ hiệu (đƣợc đo độ xác mức gọi lại) tính hiệu suất (đƣợc đo việc thực thi để có đƣợc tỷ lệ mức gọi lại cho khả mở rộng chiều lẫn kích cỡ tập liệu), chúng tơi kết luận rằng: thuật tốn Hybrid-Random lựa chọn tốt 117 thuật toán DSE trƣờng hợp liên quan đến mức gọi lại Chúng kiểm tra phƣơng pháp nghiệm suy (heuristic) khác thuật tốn Hybrid thấy bán kính hình nón với  = 0.1581 với 1,000 hình nón/mặt cắt hiệu Chƣơng luận văn giới thiệu khái niệm đặc trƣng ngoại lai (LOF ) theo cách nhìn địa phƣơng, khái niệm nắm bắt xác ý nghĩa ngoại lai đối tƣợng tập liệu Với đối tƣợng nằm sâu vùng, giá trị LOF xấp xỉ Với đối tƣợng khác, luận văn trình bày hai định lý xác định cận cận dƣới giá trị LOF liên quan tới việc có không đối tƣợng thuộc tập lân cận phụ thuộc tham số Minpts đến từ nhiều vùng Hơn nữa, trình bày phụ thuộc giá trị LOF vào tham số Minpts, đƣa hƣớng dẫn thực tế cách lựa chọn miền giá trị Minpts Và đƣa đánh giá việc xếp đối tƣợng theo giá trị LOF lớn chúng miền lựa chọn Chúng cài đặt thử nghiệm tính giá trị LOF liệu ngân hàng đầu tƣ phát triển BIDV Kết thực nghiệm giải thích đánh giá chúng tơi triển vọng xác định đầy đủ ý nghĩa phần tử ngoại lai Cuối đƣa đánh giá độ phức tạp thuật toán tính giá trị LOF Hƣớng phát triển đề tài: Thứ phân cụm phần tử ngoại lai:Cho đến nay, phần tử ngoại lai đƣợc báo cáo riêng rẽ không đặc biệt ý tới phần tử ngoại lai mà phân cụm ngoại lai Việc xác minh phân cụm phần tử ngoại lai dẫn đến kiểu khám phá tri thức quan trọng thực tế nhiều phần tử ngoại lai dùng chung đặc điểm tƣơng cung cấp nhìn thấu đáo vào liệu Thứ hai xử lý song song: Khi tìm kiếm phần tử ngoại lai mạnh nhất, nhiều thực thi thuật tốn FindAllOutsD thực song song Một triển khai song song giảm đáng kể tổng thời gian Hơn để giảm bớt tắc nghẽn I/O, khối đĩa lần duyệt tập liệu đƣợc truyền tới nhiều xử lý (giả định rằng, xử lý có riêng nhớ nó) Thứ ba cải tiến cách thực tính tốn giá trị LOF Với hƣớng phát triển quan tâm nghiên cứu cách thực LOF kết hợp với thuật toán phân vùng phân cấp Tức là, thuật tốn cung cấp thơng tin chi tiết phần tử ngoại lai từ vùng liên quan 118 Tài liệu tham khảo [1] Andrews, D., Bickel, P., Hampel, F., Huber, P., Rogers, W., and Turkey, J (1972), Robust estimators of location: Survey and advances, Technical report, Princeton University Press, Princeton, NJ [2] Anton, H and Rorres, C (1994), Elementary Linear Algebra: Applications Versions, John Wiley & Sons, 7th edition [3] Atkinson, A (1983), Diagnotic regression analysis and shifted power transformations, Technometrics, 25(1),pp 23-33 [4] Barnett, V and Lewis T (1994), Outliers in Statiscal Data, John Wiley, 3rd edition [5] Bechmann, N., Kriegel, H.-P., Schneider, R., and Seeger, B (1990), The R*-tree: An efficient and robust access method for points and rectangles, In Proc ACM SIGMOD, pp 322-331 [6] Box, G and Cox, D (1964), An analysis of transformations (with discussion) Journal of the Royal Statiscal Society, Series B (Methodological), 26, pp 211-252 [7] Breunig, M., Kreigel, H.-P., Ng, R., and Sander, J (2000), LOF: Identifying density-based local outliers In Proc SIGMOD, pp 93-104 [8] Burden, R and Faires, J (1993), Numerical Analysis, PWS Publishing [9] Carroll, R (1980), A robust method for testing transformations to achieve approximate normality, Journal of the Royal Statistical Society, Series B (Methodological), 42(1), pp 71-78 [10] Cochran, W (1963), Sampling Techniques, John Wiley & Sons, 2nd edition [11] Cook, R and Wang, P (1983), Transformation and influential cases in regression, Technometrics, 25(4),pp 337-343 [12] Donoho, D (1982), Breakdown properties of multivariate location estimators, PhD qualifying paper, Havard University [13] Draper, N and Smith, H (1996), Applied Regression Analysis, John Wiley & Sons [14] Ester, M., Kriegel, H.-P., Sander, J., and Xu, X (1996), A density-based algorithm for discovering clusters in large spatial databases with noise, In Proc KDD, pp 226-231 [15] Faloutsos, C., Barber, R., Flickner, M., Hafner, j., Niblack, W., Petkovic, D., and Equitz, W (1994), Efficient and effective querying by image content, Journal of Intelligent Information Systems, 3(4), pp 231-262 119 [16] Fisher, R and Yates, F (1957), Statiscal Tables for Biological, Agricultural, and Medical Research, Oliver and Boyd, Edinburgh, 5th edition [17] Guttmann, R (1984), R-trees: A dynamic index structure for spatial searching In Proc ACM SIGMOD, pp 47-57 [18] Hampel, F (1974), The influence curve and its role in robust estimation, Journal of the American Statiscal Association, 69: pp 383-393 [19] Hansen, M., Hurwitz, W., and Mahow, W (1953), Sample Survey Methods and Theory, Volume I: Methods and Applications, John Wiley & Sons [20] Hawkins, D (1980), Identification of Outliers, Chapman and Hall, London [21] Hinneburg, A and Keim, D (1998), An efficient approach to clustering in large multimedia database with noise, In Proc KDD, pp 58-65 [22] Johnon, R and Wichern, D (1982), Applied Multivariate Statistical Analysis, Prentice-Hall [23] Johnon, R and Wichern, D (1992), Applied Multivariate Statistical Analysis, Prentice-Hall, 3rd edition [24] Edwin M.Knorr (2002), Outliers And Datamining: Finding Exceptions in Data, PhD Thesis, University of British Columbia [25] Marona, R and Yohai, V (1995), The behavior of the Stahel-Donoho robust multivariate estimator, Journal of the American Statiscal Association, 90(429),pp 330-341 [26] Martin, R and Zamar, R (1993), Bias robust estimation of scale, The Annals of Statistics, 21(2), pp 991-1017 [27] Ng, R and Han, J (1994), Efficient and effective clustering methods for spatial data mining, In Proc VLDB, pp 144-155 [28] Porkess, R (1991), The HarperCollins Dictionary of Statistics, HarperCollins, New York [29] Rammaswamy, S., Rastogi, R., and Shim, K (2000), Efficient algorithms for mining outliers from large data sets, In Proc SIGMOD, pp 427-438 [30] Rouseeuw, P J and Leroy, A M (1987), Robust Regresion and Outlier Detection, John Wiley & Sons [31] Salton, G and McGill, M (1983), Introduction to Modern Information Retrieval, McGraw-Hill [32] Seidl, T and Kriegel, H.-P (1997), Efficient user adaptable similarity search in large multimedia databases, In Pro.VLDB, pp 506-515 120 [33] Sellis, T., Roussopoulos, N., and Faloutsos, C (1987), The R+-tree: A dynamic index for multi-dimensional objects, In Proc VLDB, pp 507-518 [34] Stahel, W (1981), Breakdown of covariance estimators, Research Report 31, Fachgruppe fur Statistik, ETH, Zurich [35] Wang, W., Yang, j., and Muntz, R (1987), STING: A statiscal information grid approach to spatial data mining, In Proc VLDB, pp 186-195 [36] Weisberg, S (1985), Applied Linear Regression, John Wiley & Sons, 2nd edition

Ngày đăng: 23/09/2020, 21:55

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC TỪ VIẾT TẮT

  • MỞ ĐẦU

  • 1.1 Khám phá tri thức

  • 1.2 Các ứng dụng sử dụng kỹ thuật khai thác dữ liệu.

  • 1.3 Phần tử ngoại lai.

  • 1.4. Mối quan hệ giữa phần tử ngoại lai và khai thác dữ liệu.

  • 1.5 Ứng dụng của các phần tử ngoại lai

  • 2.1 Định nghĩa các phần tử ngoại lai dựa trên khoảng cách

  • 2.2 Thuật toán Nested-Loop.

  • 2.2.1 Tư tưởng thuật toán.

  • 2.2.2 Mô tả thuật toán NL:

  • 2.2.3 Đánh giá độ phức tạp của thuật toán NL.

  • 2.3 Thuật toán đánh giá theo ô.

  • 2.3.1 Các khái niệm và tính chất liên quan.

  • 2.3.2 Thuật toán FindAllOutsM cho các tập dữ liệu trong bộ nhớ chính.

  • 2.4 Xử lý thực nghiệm.

  • 2.4.1 Thiết lập thực nghiệm

  • 2.4.2 Thay đổi cỡ của tập dữ liệu.

  • 2.4.3 Thay đổi giá trị của p.

Tài liệu cùng người dùng

Tài liệu liên quan