Khám phá phần tử ngoại lai trong cơ sở dữ liệu

135 13 0
Khám phá phần tử ngoại lai trong cơ sở dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN KHÁM PHÁ PHẦN TỬ NGOẠI LAI TRONG CƠ SỞ DỮ LIỆU Chuyên ngành : Mã số : Công nghệ thông tin 1.01.10 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS Hoàng Xuân Huấn Hà Nội – 2005 MỤC LỤC Trang phụ bìa Lời cảm ơn Mục lục Danh mục từ viết tắt Mở đầu CHƢƠNG 1: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI 1.1 Khám phá tri thức 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu 1.3 Phần tử ngoại lai 1.4 Mối quan hệ phần tử ngoại lai khai thác liệu 1.5 Ứng dụng phần tử ngoại lai CHƢƠNG 2: CÁC THUẬT TỐN TÌM KIẾM PHẦN TỬ NGOẠI LAI DỰA TRÊN KHOẢNG CÁCH 2.1 Định nghĩa phần tử ngoại lai dựa khoảng cách 2.2 Thuật toán Nested-Loop 2.2.1 Tƣ tƣởng thuật toán 2.2.2 Mơ tả thuật tốn NL 2.2.3 Đánh giá độ phức tạp thuật toán NL 2.3 Thuật toán đánh giá theo 2.3.1 Các khái niệm tính chất liên quan 2.3.2 Thuật toán FindAllOutsM cho tập liệu nhớ 2.3.2.1 Tƣ tƣởng thuật tốn 2.3.2.2 Mơ tả thuật tốn FindAllOutsM (Find All Outliers in Memory 2.3.2.3 Đánh giá độ phức tạp thuật tốn khơng gian hai chiều 2.3.2.4 Tổng quát cho trƣờng hợp nhiều chiều 2.3.2.5 Đánh giá độ phức tạp không gian nhiều chiều 2.3.3 Tìm kiếm phần tử ngoại lai DB(p,D) tập liệu lớn nhớ 2.3.3.1 Phân tích tổng qt 2.3.3.2 Thuật tốn FindAllOutsD cho phần tử ngoại lai nằm tron nhớ 2.4 Xử lý thực nghiệm 2.4.1 Thiết lập thực nghiệm 2.4.2 Thay đổi cỡ tập liệu 2.4.3 Thay đổi giá trị p 2.4.4 Thay đổi chiều liệu số lƣợng 2.5 Tóm tắt CHƢƠNG 3: TRI THỨC SÂU VỀ PHẦN TỬ NGOẠI LAI Các khái niệm độ mạnh phần tử ngoại lai DB Các định nghĩa thuật ngữ 3.2.1 Các phần tử ngoại lai mạnh mạnh Top-u 3.2.2 Các phần tử ngoại lai yếu phần tử ngoại lai tầm thƣờng 3.1 3.2 3.3 Ví dụ minh hoạ -các cầu thủ NHL 3.4 Thuật tốn tìm kiếm phần tử ngoại lai không tầm thƣờn (FindNonTrivialOuts) 3.5 Tóm tắt CHƢƠNG 4: XÁC ĐỊNH THAM SỐ p, D VÀ CÁC PHÉP BIẾN ĐỔI 4.1 Giới thiệu 4.2 Lấy mẫu biến đổi thành dạng xấp xỉ chuẩn 4.2.1 Lấy mẫu biến đổi 4.2.1.1 Lấy mẫu 4.2.1.2 Biến đổi thành dạng xấp xỉ chuẩn 4.2.2 Phép tích phân Monte-Carlo 4.2.3 Các ƣớc lƣợng mạnh đơn biến 4.2.3.1 Shorth 4.2.3.2 MAD 4.2.4 Thuật toán KDD_Outliers 4.3 Các phép biến đổi khơng gian mạnh 4.3.1 Tổng qt hố hàm khoảng cách, phép biến đổi không gian mạnh 4.3.1.1 Các hàm khoảng cách 4.3.1.2 Các phép biến đổi không gian mạnh 4.3.2 Các ƣớc lƣợng nhị biến mạnh: hiệp phƣơng sai hiệp phƣơn mạnh 4.3.3 Bộ ƣớc lƣợng Donoho-Stahel (DSE) 2-D 4.3.3.1 Bộ ƣớc lƣợng Donoho-Stahel (DSE) 2-D 4.3.3.2 Các kết thí nghiệm 2-D 4.3.4 So sánh khác ƣớc lƣợng, thuộc tính DSE 4.3.4.1 So sánh khác ƣớc lƣợng 4.3.4.2 Các thuộc tính DSE 4.3.5 Bộ ƣớc lƣợng Donoho-Stahel k-D 4.3.5.1 Thuật toán Fixed-Angle k-D 4.3.5.2 Thuật toán lấy mẫu phụ (SubSampling) k-D 4.3.5.3 Các thuật toán ngẫu nhiên việc tính tốn DSE k-D 4.3.6 Sự đánh giá thí nghiệm 4.3.6.1 Các tham số bên thuật toán 4.3.6.2 Xác định tỷ lệ cho mức gọi lại (recall) 4.3.6.3 So sánh kích cỡ số mặt cắt(patches) với tỷ lệ xung đột 4.4 Tổng kết CHƢƠNG 5: XÁC ĐỊNH CÁC PHẦN TỬ NGOẠI LAI CỤC BỘ DỰAVÀO MẬT ĐỘ 5.1 Một số trở ngại cách tiếp cận trƣớc 5.2 Định nghĩa phần tử ngoại lai theo cách nhìn địa phƣơng 5.3 Tính chất phần tử ngoại lai cục 5.3.1 LOF đối tƣợng nằm sâu vùng 5.3.2 Cận cận dƣới LOF 5.3.3 Tính chặt chẽ cận LOF 5.3.4 Cận cận dƣới đối tƣợng có lân cận trực tiếp nằm nhiều vùng 5.4 Sự ảnh hƣởng tham số Minpts 5.4.1 Sự phụ thuộc LOF theo Minpts 5.4.2 Xác định miền Minpts 5.5 Thực nghiệm 5.6 Đánh giá độ phức tạp thuật toán xác định giá trị LOF KẾT LUẬN DANH MỤC TỪ VIẾT TẮT Từ viết tắt Box_Cox DB (Distance Based) DSE (Donoho Stahel) KDD (Know ledgement Discovery in Database) LOF (Local Outlier Factor) MAD (Median Absolute Deviation) NHL (National Hockey League) NL (Nested Loop) Shorth (Shortest half) MỞ ĐẦU Thế kỷ XXI đƣợc xem kỷ nguyên kinh tế tri thức Các công nghệ khám phá tri thức đƣợc áp dụng rộng rãi nhiều lĩnh vực đem lại thành tựu to lớn Nhƣng công nghệ khám phá tri thức thƣờng nhằm mục đích tìm kiếm, khám phá dạng mẫu thƣờng gặp Chủ yếu tập trung vào hƣớng: Tìm kiếm luật kết hợp, nhận dạng phân lớp mẫu…Còn lĩnh vực khám phá phần tử ngoại lai bƣớc đầu đƣợc quan tâm nghiên cứu Mặc dù đƣợc ứng dụng nhiều lĩnh vực sống: nhƣ phát thẻ bất thƣờng hệ thống ngân hàng, tuyến đƣờng bất ổn không hợp lý giao thông, ứng dụng hệ thống an ninh, dự báo thời tiết, thị trƣờng chứng khoán, lĩnh vực thể thao v.v.v Tuy nhiên, với số lƣợng liệu đƣợc tập trung lƣu trữ sở liệu ngày lớn việc tìm kiếm ngoại lệ phần tử ngoại lai trở nên cấp thiết nhiều Xuất phát từ thực tế đó, luận văn thực nhiệm vụ sau: - Tìm hiểu khái niệm khám phá tri thức (KDD) khai thác liệu (Data mining) - Tìm hiểu khái niệm phần tử ngoại lai theo cách nhìn tồn cục địa phƣơng - Khảo cứu thuật tốn tìm kiếm phần tử ngoại lai liệu lớn, nhiều chiều - Kiểm tra đánh giá thuật toán liệu thực: tập liệu cầu thủ chơi Hockey Knorr thực tập liệu khách hàng ngân hàng đầu tƣ phát triển BIDV thực Ngoài phần phần mở đầu kết luận, luận văn gồm có năm chương Chƣơng 1, giới thiệu trình khám phá tri thức bao gồm khái niệm: Khai thác liệu(Data mining), Khám phá tri thức, khái niệm phần tử ngoại lai ứng dụng chúng Đồng thời, trình bày ứng dụng sử dụng kỹ thuật khai thác liệu lĩnh vực khác quan hệ phần tử ngoại lai lĩnh vực khai thác liệu Chƣơng giới thiệu định nghĩa phần tử ngoại lai dựa khoảng cách DB(p, D) theo cách nhìn tồn cục Đồng thời trình bày hai thuật toán khám phá phần tử ngoại lai tập liệu lớn, nhiều chiều: thuật tốn Nested-Loop có độ phức tạp O(kN2)(k chiều N cỡ liệu ), thuật tốn đánh giá theo có độ phức tạp tuyến tính với N nhƣng lại lũy thừa chiều liệu: O(mckkk/2+kN), với m số ô, c số Chƣơng chúng tơi trình bày kiến thức sâu phần tử ngoại lai Cung cấp khái niệm độ mạnh yếu phần tử ngoại lai Đƣa thuật tốn tìm tất phần tử ngoại lai DB “mạnh nhất” tập liệu Thuật toán sử dụng chiến lƣợc xén tỉa để tìm phần tử ngoại lai mạnh Nó trả phần tử ngoại lai “yếu” tuỳ theo yêu cầu Chƣơng 4, trình bày phân tích cách tìm giá trị mặc định cho tham số p D, đồng thời giới thiệu phép biến đổi để giúp việc tìm kiếm phần tử ngoại lai DB có ý nghĩa Công việc liên quan đến việc biến đổi Box-Cox sang dạng chuẩn tƣơng đối tích phân monte-Carlo.Chúng tơi khám phá vai trò lấy mẫu việc xác định giá trị mặc định p D Tổng qt hố cách tìm kiếm phần tử ngoại lai việc sử dụng biến đổi không gian mạnh Chúng tơi giới thiệu đánh giá Donoho-Stahel (DSE) Trình bày số thuật tốn dùng để tính tốn DSE Trong có thuật tốn Knorr, gọi thuật toán lai - ngẫu nhiên (Hybrid – Random) Trong hầu hết trƣờng hợp, thực tốt thuật tốn DSE khác Chƣơng chúng tơi giới thiệu định nghĩa chặt chẽ phần tử ngoại lai xem xét đối tƣợng tập liệu dựa mật độ theo cách nhìn địa phƣơng Trình bày cấp độ ngoại lai tính chất đối tƣợng Đồng thời kiểm tra chƣơng trình ứng dụng thuật tốn LOF sở liệu thực ngân hàng đầu tƣ phát triển BIDV, sau đƣa ý nghĩa phần tử ngoại lai Cuối trình bày đánh giá độ phức tạp thuật toán xác định giá trị LOF CHƢƠNG 1: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI Nội dung chƣơng giới thiệu trình khám phá tri thức, khai thác liệu, ứng dụng thực tế có hỗ trợ kỹ thuật khai thác liệu Đồng thời, trình bày khái niệm phần tử ngoại lai quan hệ lĩnh vực khám phá phần tử ngoại lai lĩnh vực khai thác liệu 1.1 Khám phá tri thức Với tiến khoa học kỹ thuật nhu cầu ngƣời ngày tăng tạo nên thời đại bùng nổ thông tin lĩnh vực đời sống Với lƣợng thông tin “khổng lồ” cần có kỹ thuật khai thác liệu hiệu để lấy thông tin hữu ích Một số ngôn ngữ truy vấn đƣợc sử dụng nhằm lấy thông tin theo yêu cầu ngƣời sử dụng, nhƣng hầu hết ngôn ngữ lấy đƣợc liệu theo yêu cầu đơn giản Các kiểu liệu đa phƣơng tiện đƣợc số hệ thống sở liệu hỗ trợ nhƣ: Dữ liệu âm thanh, hình ảnh…khơng thể đáp ứng đƣợc yêu cầu ngƣời sử dụng ngày cao phức tạp Do đó, với nhu cầu tìm kiếm tri thức sở liệu hình thành lĩnh vực mới: Khám phá tri thức sở liệu Khám phá tri thức tồn q trình tìm kiếm tri thức từ liệu, bao gồm bƣớc sau: - Chuẩn bị liệu: Dữ liệu đƣợc tập trung vào sở liệu, kho liệu Dữ liệu chƣa tức có liệu sai sót, khơng phù hợp, nhiễu, liệu khơng đủ thơng tin Do đó, bƣớc liệu đƣợc làm để loại bỏ liệu không phù hợp, liệu không liên quan Cơng việc đƣợc tiến hành trƣớc sau phát liệu bị nhiễm bẩn Đồng thời, sau đƣợc làm sạch, liệu đƣợc làm giàu để bổ sung thông tin cần thiết Sau liệu đƣợc biến đổi theo dạng phù hợp để thực trình khai thác liệu - Khai thác liệu: Khai thác liệu bƣớc quan trọng trình khám phá tri thức Bƣớc sử dụng kỹ thuật, phƣơng thức thông minh để xác định mẫu liệu theo yêu cầu Khai thác liệu định nghĩa q trình khai thác, khám phá thơng tin hữu ích, chưa biết trước, tiềm ẩn khơng tầm thường từ tập liệu lớn Khai thác liệu bao gồm: ● Tìm kiếm luật kết hợp: Sử dụng luật đơn giản để biểu diễn tri thức Tìm kiếm quan hệ có ích liệu ● Dự báo: Xác định hàm hồi quy ● Nhận dạng phân lớp mẫu: tìm kiếm, xác định mẫu theo yêu cầu, phân chia mẫu thành lớp nhằm phục vụ cho mục đích sử dụng ● Phát phần tử ngoại lệ : Tìm kiếm xác định đối tƣợng liệu lỗi, bất thƣờng, phần tử ngoại lai Môi trƣờng khám phá tri thức nhằm mục đích hỗ trợ q trình khai thác liệu Do đó, hai thuật ngữ “khai thác liệu”(Data Mining) “khám phá tri thức”(Knowledge Discovery) thƣờng đƣợc sử dụng để thay cho - Đánh giá: Bƣớc đánh giá bao gồm đánh giá mẫu biểu diễn tri thức Đánh giá mẫu tìm mẫu quan tâm từ mẫu có bƣớc khai thác liệu Có thể sử dụng ngƣỡng cần thiết để lọc mẫu cần khai thác Biểu diễn tri thức trình cho phép ngƣời sử dụng tƣơng tác với hệ thống nhiệm vụ truy vấn tìm kiếm liệu cụ thể Cung cấp thơng tin nhằm mục đích trợ giúp việc tìm kiếm thực khai thác liệu chi tiết dựa liệu đƣợc khai thác Ngoài ra, biểu diễn tri thức cho phép ngƣời sử dụng trình duyệt lƣợc đồ sở liệu kho liệu cấu trúc liệu Hình 2.1 trình bày tổng thể qui trình KDD, khơng bao gồm khai thác liệu mà cịn có bƣớc khác để có đƣợc kết Các bƣớc khai thác liệu thƣờng tiêu tốn thời gian phức tạp qui trình, nhiên bƣớc tiền xử lý hậu xử lý không đơn giản tiêu tốn nhiều thời gian so với thuật tốn khai thác liệu Chúng tơi thực hầu hết bƣớc hình 2.1 việc tìm kiếm phần tử ngoại lai DB Một số bƣớc tiền xử lý liên quan đến việc tìm giá trị khởi tạo hợp lý cho p D (xem chƣơng 4) Hậu xử lý đƣợc thực chuyên gia Những lựa chọn thích hợp đƣợc thực bƣớc tiền xử lý ngƣời sử dụng máy giảm nhiều thời gian liên quan đến bƣớc khai thác liệu giảm cơng việc thủ cơng phần hậu xử lý Bằng cách lựa chọn giá trị thích hợp cho p D, quy trình KDD làm cho phần tử ngoại lai có nhiều ý nghĩa ngƣời sử dụng giảm thời gian xác định p D KNOWLEDGE Đánh Giá Biểu Diễn Khai thác Dữ Liệu Trích Chọn Biến Đổi Dữ Liệu Làm Sạch Tích Hợp Dữ Liệu Hình 2.1 Qui trình KDD Knowledgement Discovery in Database – Khám phá Tri thức Cơ sở liệu 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu Có nhiều ứng dụng lĩnh vực khác sử dụng kỹ thuật khai thác liệu nhằm hỗ trợ cho mục đích sử dụng Ví dụ: thƣơng mại, cơng ty hay tổ chức sử dụng kỹ thuật khai thác liệu để tặng khuyễn cho khách hàng dựa vào tần suất truy cập website, kiểu khách hàng, số lƣợng hàng mua lần trƣớc Trong ngân hàng, ngƣời ta sử dụng kỹ thuật khai thác liệu để xác định rủi ro thẻ tín dụng Trong cơng ty bảo hiểm, sử dụng kỹ thuật khai thác 107 đƣợc xác định (0.5*d1min+0.5d2min)/(0.5/i1max+0.5/i2max) với d1min d2min lần lƣợt khoảng cách đạt đƣợc cực tiểu p đối tƣợng thuộc N 6(p) C1 C2, i1max i2max lần lƣợt khoảng cách đạt đƣợc cực đại q đối tƣợng thuộc N 6(q) C1 C2 Để cho đơn giản, hình 5.6 khơng trình bày trƣờng hợp giới hạn LOFMax Định lý 2: Cho p đối tượng từ sở liệu ,1≤Minpts≤|D| C1, C2,….,Cn phân hoạch NMinpts(p), Nghĩa NMinpts(p)=C1U C2… U CnU {p} với Ci∩Cj=, Ci≠  với 0≤i,j≤n,i ≠j.Hơn nữa, đặt ζi=|Ci|/|NMinpts(p)| phần trăm đối tượng lận cận p, đối tượng nằm Ci khái niệm direct i Max, i direct Min, indirect i Max, indirect i Minđược định nghĩa tương tự direct Max, directMin, , indirect Max, indirectMin hạn chế tập Ci LOF đối tượng p thoả mãn Chứng minh: chứng minh vế trái: oCi reach_dist(p,o)directimin(p) reach _ dist( p, o) ONMin p ts ( p)  1/  direct i n  |N   i1 oCi Minpts  Hay: lrd ( p)   i direct mini  i1  q €N Minpts Do suy ra:  LOF( p)   n   i direct mini  i 1 Chứng minh tƣơng tự cho (b) 108 Hệ quả: Nếu số lƣợng vùng Định lý LOF LOFmax cho Định lý tƣơng ứng với giới hạn cho Định lý 5.4 Sự ảnh hƣởng tham số Minpts Trong phần trƣớc xem xét đánh giá tính chất chung LOF với đối tƣợng nằm vùng Đó đối tƣợng có LOF xấp xỉ Với đối tƣợng khác, LOF chúng bị chặn nhƣ hai định lý: Định lý Định lý tùy thuộc vào đối tƣợng thuộc tập lân cận phụ thuộc tham số Minpts nằm hay nhiều vùng Điều quan trọng ý tất kết trƣớc dựa giá trị Minpts xác định Trong phần xem xét vấn đề giá trị Minpts ảnh hƣởng tới giá trị LOF đƣa cách để xác định giá trị Minpts phù hợp cho việc tính tốn LOF 5.4.1 Sự phụ thuộc LOF theo Minpts Với kết phân tích phần trƣớc, có số câu hỏi đƣợc đặt Giá trị LOF thay đổi nhƣ điều chỉnh giá trị Minpts Khi cho dãy tăng giá trị Minpts, có tƣơng ứng chuỗi thay đổi cách đơn điệu LOF hay khơng? Điều có nghĩa LOF có tăng, giảm đơn điệu khơng ? Không may mắn thực tế LOF không tăng khơng giảm cách đơn điệu Hình 5.7 trình bày trƣờng hợp đơn giản tất đối tƣợng đƣợc phân bố theo phân bố Gauss Với giá trị Minpts 50 giá trị Min, giá trị Max, giá trị trung bình nhƣ độ lệch tiêu chuẩn LOF đƣợc biểu diễn Xem xét cận LOF ví dụ hình 5.7 Đầu tiên, giá trị Minpts=2, giá trị quy sử dụng khoảng cách thực đối tƣợng định nghĩa Bằng cách tăng dần giá trị Minpts, dao động thực khoảng cách đạt đƣợc giá trị LOF giảm Do đó, có giảm xuống giá trị cực đại LOF Tuy nhiên giá trị Minpts tiếp tục tăng lên giá trị Max LOF dao động lên xuống cuối ổn định tới giá trị Nếu giá trị LOF thay đổi không đơn điệu phân bố tuý nhƣ phân bố Gauss giá trị LOF thay đổi lớn nhiều trƣờng hợp phức tạp Hình 5.8 mô tả tập liệu không gian chiều, có vùng, vùng S bao gồm 10 đối tƣợng, S2 bao gồm 35 đối tƣợng,S3 bao gồm 500 đối tƣợng, phía bên phải trình bày biểu đồ cho đối tƣợng vùng Các biểu đồ cho thấy đồ thị LOF thông qua Minpts nằm miền từ 10 tới 50 Trong LOF đối tƣợng S3 ổn định quanh giá trị giá trị LOF đối tƣợng S1 vàS2 lại thay đổi lớn 109 Đặc trƣng ngoại lai LOF Cực đại Độ lệch chuẩn giá trị trung bình Cực tiểu Minpts 16111621263136414651 Hình 5.7: Sự biến thiến LOF phân bố Gauss 5.4.2 Xác định miền Minpts Bởi vì, giá trị LOF tăng lên giảm xuống Do đó, phần trình bày hƣớng dẫn chọn miền giá trị Minpts Sử dụng MinptsLB (Minpts Lower Bound) MinptsUB (Minpts Upper Bound) để cận cận dƣới miền Đầu tiên, xác định giá trị MinptsLB Rõ ràng, Minpts nhỏ Tuy nhiên, để loại bỏ dao động không mong muốn Minpts khơng thể q nhỏ Nhƣ ví dụ phân bố Gauss trình bày hình 5.7, độ lệch tiêu chuẩn LOF ổn định Minpts nhỏ 10 Một ví dụ cuối giả sử thay phân bố Gaussian hình 5.7 thành phân bố Suy với Minpts nhỏ 10 có số đối tƣợng mà LOF chúng lớn nhiều Điều tính tốn đƣợc phân bố khơng có đối tƣợng đƣợc gán nhƣ ngoại lai Do đó, hƣớng dẫn cung cấp cách chọn MinptsLB nên 10 để loại bỏ giao động không mong muốn Hƣớng dẫn thứ hai cung cấp cách chọn MinptsLB dựa nhiều quan sát tinh tế Xem xét trƣờng hợp đơn giản đối tƣợng p tập hợp(vùng) C đối tƣợng Giả sử xác định đƣợc MinptsLB Nếu C chứa MinptsLB đối tƣợng tập lân cận phụ thuộc tham số Minpts đối tƣợng C bao gồm p ngƣợc lại Do đó, cách áp dụng định lý LOF p tất đối tƣợng C giống Cho nên không tạo đƣợc khác biệt p với đối tƣợng khác C Ngƣợc lại, C chứa nhiều MinptsLB đối tƣợng tập lân cận phụ thuộc tham số Minpts đối tƣợng nằm sâu C không chứa p nhƣng hầu hết 110 đối tƣợng C nằm N Minpts(p) Do phụ thuộc vào khoảng cách p với C mật độ C LOF p khác với LOF đối tƣợng C nhận xét quan trọng MinptsLB xem nhƣ số lƣợng nhỏ đối tƣợng vùng ( nhƣ C ) Vì thế, đối tƣợng khác ( nhƣ p ) phần tử ngoại cục liên quan tới vùng Giá trị phụ thuộc vào ứng dụng Hầu hết tập liệu mà Knorr thử nghiệm thƣờng chọn từ 10 tới 20 để thực Tiếp theo, lựa chọn giá trị MinptsUB giá trị cận miền giá trị Minpts Giống nhƣ cận dƣới MinptsLB, cận có ý nghĩa tƣơng tự Cho C tập hợp/vùng đối tƣợng “close by” MinptsUB xem nhƣ lực lƣợng lớn tập C với tất đối tƣợng C có khả phần tử ngoại lại.Từ “close by” có nghĩa giá trị direct Max,directMin,indirect Max, indirectMin giống Trong trƣờng hợp này, với giá trị Minpts lớn MinptsUB theo định lý yêu cầu LOF đối tƣợng C gần tới cung cấp cách chọn MinptsUB giá trị lớn đối tƣợng gần mà chúng có khả phần tử ngoại lai cục Nhƣ ví dụ, xem xét lại trƣờng hợp trình bày hình 5.8, nêu lại S chứa 10 đối tƣợng, S2 chứa 35 đối tƣợng S chứa 500 đối tƣợng Từ biểu đồ , rõ ràng đối tƣợng S không phần tử ngoại lai, ln ln có giá trị LOF chúng gần Ngƣợc lại đối tƣợng S có phần tử ngoại lai lớn với giá trị Minpts =10 tới 35 Các đối tƣợng S 2là ngoại lai Minpts=45 Lý hai kết cuối bắt đầu Minpts=36 tập lân cận phụ thuộc tham số Minpts đối tƣợng S bắt đầu bao gồm số đối tƣợng S1 Từ lý đó, đối tƣợng S S2 thực cách xử lý giống Bây giờ, với Minpts=45 đối tƣợng tập kết hợp đối tƣợng S S2 bắt đầu có đối tƣợng từ S lân cận chung chúng Và đó, bắt đầu có phần tử ngoại lai liên quan tới S 3, phụ thuộc vào miền áp dụng mà muốn xem xét nhóm gồm 35 đối tƣợng ( nhƣ S2 ) thành vùng hay nhóm gồm phần tử gần nhƣ phần tử ngoại lai cục Khi xác định đƣợc MinptsLB MinptsUB, tính tốn giá trị LOF đối tƣợng miền Chúng ta đƣa đánh giá việc xếp đối tƣợng theo giá trị LOF lớn miền xác định Có nghĩa việc xếp đối tƣợng dựa vào max{LOFMinpts(p)|MinptsLB≤Minpts≤MinptsUB}.Ngoài cách xếp theo giá trị lớn LOF đối tƣợng miền giá trị Minpts, xếp theo giá trị nhỏ giá trị trung bình Trƣờng hợp hình 5.8 chứng 111 tỏ việc đƣa giá trị nhỏ khơng phù hợp giá trị nhỏ loại bỏ hồn tồn tính ngoại lai đối tƣợng Sắp xếp theo giá trị trung bình làm giảm tính ngoại lai đối tƣợng Do đó, xếp theo giá trị lớn để làm bật trƣờng hợp mà đối tƣợng mang tính ngoại lai Điểm S1 S2 LOF S1 S3 Minpts(10-50) Hình 5.8 Miền giá trị LOF đối tượng vùng S1, S2 S3 5.5 Thực nghiệm Trong thực nghiệm dƣới đây, chúng tơi tính tốn phần tử ngoại lai cục cho sở liệu ngân hàng đầu tƣ phát triển BIDV Cơ sở liệu có 2873 ghi, gồm thuộc tính số tài khoản, tên khách hàng, số tháng tích luỹ, số dư tài khoản, trình độ khách hàng (Phổ Thông, Trung cấp, cao đẳng, đại học, đại học) Số tiền tích luỹ trung bình khách hàng tháng đƣợc tính qua thơng tin Trong sở liệu trình độ khách hàng đƣợc mã hóa số ngun Cơng việc phát phần tử ngoại lai đƣợc thực tập liệu không gian ba chiều : Số tháng tích luỹ, số tiền tích luỹ trung bình khách hàng tháng, trình độ khách hàng Số tiền tích luỹ trung bình khách hàng tháng đƣợc tính tỷ số số dƣ tài khoản số tháng tích luỹ Nhìn chung, tập hợp liệu phân chia vào sáu vùng tƣơng ứng với trình độ khách hàng Chúng cài đặt thử nghiệm tính giá trị LOF với bảng liệu Các giá trị LOF hình 5.9 đƣợc tính toán miền Minpts từ 30 tới 50 Danh sách khách hàng đƣợc xếp theo thứ tự giảm 112 dần theo giá trị cực đại LOF khách hàng, giải thích chúng phần tử mong muốn Trong hình 5.9 ngoại lai khách hàng HOANG HUY HA Khách hàng ngƣời có số tháng tích luỹ nhiều 30 tháng, có số dƣ tài khoản 562 triệu Khách hàng có số tiền tích luỹ trung bình tháng lớn Đây phần tử ngoại lai nằm vùng khách hàng có trình độ đại học Khách hàng ngoại lai thứ hai NGUYEN PHUC THE DUC, khách hàng tích luỹ đƣợc 23tháng có số dƣ tài khoản 430triệu phần tử ngoại lai vùng khách hàng có trình độ đại học Tiếp theo khách hàng NGUYEN VAN MINH ngoại lai vùng khách có trình độ đại học có số tiền tích luỹ trung bình tháng cao Phần tử ngoại lai thứ tƣ khách hàng NGUYEN HUONG GIANG có trình độ phổ thơng Khách hàng tích luỹ 12 Hình 5.9 tháng có số dƣ tài khoản 105triệu Khách hàng có có số tiền tích luỹ trung bình tháng cao so với khách hàng có trình độ phổ thơng Đây khách hàng ngoại lai vùng trình độ phổ thơng Phần tử ngoại lai thứ PHAM DUC PHUONG có trình độ cao đẳng Tích luỹ tháng có số dƣ 80.5 triệu Là phần tử ngoại lai vùng trình độ cao đẳng Phần tử ngoại lai thứ PHAM HUU PHUC, tích luỹ đƣợc tháng có số dƣ 52.5triệu Đây khách 113 hàng ngoại lai vùng trình độ trung cấp Tƣơng ta thấy khách hàng ngoại lai vùng liệu tƣơng ứng hình 5.9 Trong hình 5.10 xếp khách hàng theo giá trị cực đại LOF miền giá trị Minpts từ 10 đến 50 Danh sách xếp khách hàng theo thứ tự LOF không thay đổi xếp khách hàng theo LOF miền giá trị Minpts từ 30 đến 50 Tuy nhiên, giá trị cực đại LOF khách hàng ứng với trƣờng hợp Minpts từ 10 đến 50 lớn giá trị cực đại LOF khách hàng trƣờng hợp từ 30 đến 50 Do đó, có số giá trị Minpts từ 10 đến 30 làm cho giá trị LOF khách hàng đạt cực đại Điều chứng tỏ rằng, giá trị LOF đối tƣợng không tăng giảm đơn điệu theo giá trị Minpts Hình 5.10 5.6 Đánh giá độ phức tạp thuật toán xác định giá trị LOF Để tính tốn giá trị LOF miền MinptsLB MinptsUB, với n đối tƣợng sở liệu D Chúng ta phải thực hai bƣớc Bƣớc xác định lân cận MinptsUB-nearest, bƣớc thứ hai tính giá trị LOF Chúng ta lần lƣợt xem xét chi tiết hai bƣớc này: Trong bƣớc đầu lân cận MinptsUB-nearest điểm p đƣợc tìm thấy vùng với khoảng cách chúng tới p Kết bƣớc thực sở liệu M cỡ n*MinptsUB khoảng cách Chú ý cỡ kết tức thời phụ thuộc 114 vào số chiều liệu nguồn Độ phức tạp thời gian O(n*thời gian truy vấn k-nn) Với truy vấn k-nn(k-nearest-neighbor) có nhiều lựa chọn khác nhau: Với liệu có số chiều thấp, sử dụng tiếp cận dựa để có đƣợc truy vấn k-nn thời gian hàng số, dẫn đến thời gian chạy O(n) cho việc thực bƣớc Với liệu có số chiều từ trung bình đến trung bình sử dụng số, cho ta độ phức tạp trung bình để có đƣợc truy vấn k-nn O(logn), dẫn đến độ phức tạp cho bƣớc O(n*logn) Với số chiều cao nên sử dụng quét tuần tự, với độ phức tạp O(n), nên dẫn đến độ phức tạp bƣớc O(n 2) Trong thực nghiệm chúng ta, sử dụng tập liệu với số chiều cỡ trung bình nên độ phức tạp O(n*logn) Chúng ta thấy việc thực gần nhƣ tuyến tính liệu từ đến chiều nhƣng lại suy biến với tập liệu từ 10 đến 20 chiều Trong bƣớc thứ hai, giá trị LOF đƣợc tính tốn việc thực sở liệu M Cơ sở liệu nguồn D không cần cho bƣớc này, sở liệu M có đủ thơng tin để tính tốn giá trị LOF Cơ sở liệu M đƣợc duyệt lần với giá trị Minpts MinptsLB MinptsUB Trong lần duyệt mật độ cục đạt đƣợc đối tƣợng đƣợc tính tốn Trong lần duyệt thứ giá trị LOF cuối đƣợc tính tốn ghi file Các giá trị sau đƣợc sử dụng để xếp đối tƣợng theo giá trị lớn LOF nằm MinptsLB MinptsUB Độ phức tạp thời gian bƣớc O(n) 115 KẾT LUẬN Việc tìm kiếm phần tử ngoại lai nhiệm vụ quan trọng lĩnh vực khám phá tri thức sở liệu Luận văn tìm hiểu tổng quan lĩnh vực khám phá tri thức sở liệu, khai thác liệu Đồng thời giới thiệu đánh giá thuật tốn tìm kiếm phần tử ngoại lai sở liệu lớn, nằm nhớ Với phần tử ngoại lai theo cách nhìn tồn cục, luận văn giới thiệu thuật toán NL thuật toán đánh giá theo ô phát phần tử ngoại lai đƣợc thực tập liệu lớn, nhiều chiều, nằm nhớ ngồi Thuật tốn NL thuật toán phân chia tập liệu thành khối liệu, sử dụng vịng lặp để tính tốn khoảng cách, tìm kiếm phần tử ngoại lai khối Thuật tốn NL có độ phức tạp O(kN2)(k chiều N cỡ liệu ) Tuy nhiên, số lần đọc tập liệu vào nhớ thuật tốn khơng bé n-2 lần đọc nhƣng lại nhỏ n-1 lần đọc với n tổng số khối tập liệu Do đó, thuật tốn NL nhiều thời gian đọc liệu Thuật tốn thứ hai đƣợc trình bày thuật tốn đánh giá theo ơ, chúng tơi giới thiệu hai phiên thuật tốn Phiên mơ tả thuật toán áp dụng cho tập liệu lớn, nằm nhớ Phiên thứ hai cải tiến phiên thứ để thuật toán thực đƣợc với sở liệu nằm nhớ ngồi Thuật tốn đánh giá theo ô ánh xạ đối tƣợng tập liệu vào phù hợp, sau đánh giá ô mối quan hệ ô để tìm kiếm phần tử ngoại lai Thuật toán giảm cách đáng kể cơng việc tính tốn khoảng cách cặp điểm Độ phức tạp thuật toán đánh giá theo tuyến tính với N nhƣng lại lũy thừa chiều liệu: O(m ck kk/2+kN), với m số ô, c số Luận văn thuật toán thực nhiều lần đọc tập liệu từ nhớ vào nhớ Luận văn trình bày thực nghiệm Knorr để chứng tỏ rằng: với tập liệu lớn có số chiều bé thuật tốn đánh giá theo có thời gian thực thuật toán NL Tuy nhiên, với tập liệu có số chiều lớn 4, thuật tốn NL lại có thời gian thuật tốn đánh giá theo thuật tốn đánh giá theo ô có độ phức tạp lũy thừa với số chiều liệu Ở chƣơng 3, chúng tơi trình bày tri thức sâu phần tử ngoại lai, khám phá khái niệm độ mạnh phần tử ngoại lai, chúng tơi giới thiệu thuật tốn tìm kiếm phần tử ngoại lai mạnh tập liệu Thuật tốn hữu ích việc khai thác phần tử ngoại lai tập liệu lớn, đa chiều mà khó tìm kiếm đƣợc tất phần tử ngoại lai, ngƣời dùng thoả mãn với phần tử ngoại lai mạnh Thực chất, phần tử ngoại lai mạnh có 116 thể đƣợc xem “phần tinh tuý” phần tử ngoại lai Các phần tử ngoại lai yếu phần ý ngƣời dùng Chúng trình bày thuật tốn phát tất phần tử ngoại lai không tầm thƣờng (tức mạnh yếu) Chƣơng 4, chúng tơi trình bày cách chọn giá trị tốt cho tham số p D trình tìm kiếm phần tử ngoại lai DB(p,D) Tham số p đơn giản hai tham số, chọn giá trị đủ sát với đơn vị (ví dụ., 0.99995 10 bộ) Tham số D khó ƣớc lƣợng tốt, dựa vào phƣơng pháp thử sai tốn thực tế Đối với D, kỹ thuật lấy mẫu cách khởi tạo giá trị hợp lý Một cách khác sử dụng phép biến đổi Box-Cox thành dạng xấp xỉ chuẩn Phƣơng pháp giúp giảm thay đổi số phần tử ngoại lai đƣợc trả Chúng cố gắng biến đổi thuộc tính thành dạng xấp xỉ chuẩn với ý tƣởng dựng mẫu tập liệu biến đổi phân bố chuẩn tắc đa biến Sau đó, phần tử ngoại lai điểm nhƣ nằm ngồi siêu hình cầu bao quanh 99.7% điểm Trong chƣơng nghiên cứu phép biến đổi mạnh quan trọng thao tác dựa khoảng cách việc phát phần tử ngoại lai Các ƣớc lƣợng mạnh tốt ƣớc lƣợng cổ điển nhƣ trung bình hay độ lệch chuẩn Các ƣớc lƣợng mạnh giải thích tỷ lệ, biến, mối quan hệ tƣơng tác tác dụng phần tử ngoại lai Các mạnh khác ƣớc lƣợng mạnh bao gồm: tính ổn đinh, khả tái sử dụng, tính toán qua mẫu tập liệu lớn Các kết đƣợc trả nhiều thao tác KDD dựa khoảng cách có khuynh hƣớng ý nghĩa không ý tới tỷ lệ, biến, mối quan hệ tƣơng tác phần tử ngoại lai liệu nhỏ Bộ ƣớc lƣợng Donoho-Stahel (DSE) ƣớc lƣợng mạnh đáp ứng đƣợc mặt có hai thuộc tính Ơ-cơ-lit thuộc tính ổn định Chúng ta thấy thao tác khoảng cách thƣờng khơng thích hợp thao tác liệu thơ (và chí liệu chuẩn tắc hố), thực thích hợp với khơng gian biến đổi Vì thế, ngƣời dùng thấy kết trực quan có nghĩa Chúng tơi cung cấp nghiên cứu tình chi tiết để thấy đƣợc khác ƣớc lƣợng mạnh không mạnh Sau đó, tập trung vào ƣớc lƣợng Donoho-Stahel Thuật tốn Fixed-Angle DSE tốn nhiều thời gian để tính tốn nên chúng tơi xem xét thuật toán DSE khác: SubSampling, Pure-Random thuật toán mới, Knorr phát triển Hybrid-Random Sau xem xét vấn đề nhƣ hiệu (đƣợc đo độ xác mức gọi lại) tính hiệu suất (đƣợc đo việc thực thi để có đƣợc tỷ lệ mức gọi lại cho khả mở rộng chiều lẫn kích cỡ tập liệu), kết luận rằng: thuật toán Hybrid-Random lựa chọn tốt 117 thuật toán DSE trƣờng hợp liên quan đến mức gọi lại Chúng kiểm tra phƣơng pháp nghiệm suy (heuristic) khác thuật tốn Hybrid thấy bán kính hình nón với  = 0.1581 với 1,000 hình nón/mặt cắt hiệu Chƣơng luận văn giới thiệu khái niệm đặc trƣng ngoại lai (LOF ) theo cách nhìn địa phƣơng, khái niệm nắm bắt xác ý nghĩa ngoại lai đối tƣợng tập liệu Với đối tƣợng nằm sâu vùng, giá trị LOF xấp xỉ Với đối tƣợng khác, luận văn trình bày hai định lý xác định cận cận dƣới giá trị LOF liên quan tới việc có khơng đối tƣợng thuộc tập lân cận phụ thuộc tham số Minpts đến từ nhiều vùng Hơn nữa, trình bày phụ thuộc giá trị LOF vào tham số Minpts, đƣa hƣớng dẫn thực tế cách lựa chọn miền giá trị Minpts Và đƣa đánh giá việc xếp đối tƣợng theo giá trị LOF lớn chúng miền lựa chọn Chúng cài đặt thử nghiệm tính giá trị LOF liệu ngân hàng đầu tƣ phát triển BIDV Kết thực nghiệm giải thích đánh giá chúng tơi triển vọng xác định đầy đủ ý nghĩa phần tử ngoại lai Cuối đƣa đánh giá độ phức tạp thuật tốn tính giá trị LOF Hƣớng phát triển đề tài: Thứ phân cụm phần tử ngoại lai:Cho đến nay, phần tử ngoại lai đƣợc báo cáo riêng rẽ không đặc biệt ý tới phần tử ngoại lai mà phân cụm ngoại lai Việc xác minh phân cụm phần tử ngoại lai dẫn đến kiểu khám phá tri thức quan trọng thực tế nhiều phần tử ngoại lai dùng chung đặc điểm tƣơng cung cấp nhìn thấu đáo vào liệu Thứ hai xử lý song song: Khi tìm kiếm phần tử ngoại lai mạnh nhất, nhiều thực thi thuật tốn FindAllOutsD thực song song Một triển khai song song giảm đáng kể tổng thời gian Hơn để giảm bớt tắc nghẽn I/O, khối đĩa lần duyệt tập liệu đƣợc truyền tới nhiều xử lý (giả định rằng, xử lý có riêng nhớ nó) Thứ ba cải tiến cách thực tính tốn giá trị LOF Với hƣớng phát triển quan tâm nghiên cứu cách thực LOF kết hợp với thuật toán phân vùng phân cấp Tức là, thuật tốn cung cấp thơng tin chi tiết phần tử ngoại lai từ vùng liên quan 118 Tài liệu tham khảo [1] Andrews, D., Bickel, P., Hampel, F., Huber, P., Rogers, W., and Turkey, J (1972), Robust estimators of location: Survey and advances, Technical report, Princeton University Press, Princeton, NJ [2] Anton, H and Rorres, C (1994), Elementary Linear Algebra: Applications Versions, John Wiley & Sons, 7th edition [3] Atkinson, A (1983), Diagnotic regression analysis and shifted power transformations, Technometrics, 25(1),pp 23-33 [4] Barnett, V and Lewis T (1994), Outliers in Statiscal Data, John Wiley, 3rd edition [5] Bechmann, N., Kriegel, H.-P., Schneider, R., and Seeger, B (1990), The R*-tree: An efficient and robust access method for points and rectangles, In Proc ACM SIGMOD, pp 322-331 [6] Box, G and Cox, D (1964), An analysis of transformations (with discussion) Journal of the Royal Statiscal Society, Series B (Methodological), 26, pp 211-252 [7] Breunig, M., Kreigel, H.-P., Ng, R., and Sander, J (2000), LOF: Identifying density-based local outliers In Proc SIGMOD, pp 93-104 [8] Burden, R and Faires, J (1993), Numerical Analysis, PWS Publishing [9] Carroll, R (1980), A robust method for testing transformations to achieve approximate normality, Journal of the Royal Statistical Society, Series B (Methodological), 42(1), pp 71-78 [10] Cochran, W (1963), Sampling Techniques, John Wiley & Sons, 2nd edition [11] Cook, R and Wang, P (1983), Transformation and influential cases in regression, Technometrics, 25(4),pp 337-343 [12] Donoho, D (1982), Breakdown properties of multivariate location estimators, PhD qualifying paper, Havard University [13] Draper, N and Smith, H (1996), Applied Regression Analysis, John Wiley & Sons [14] Ester, M., Kriegel, H.-P., Sander, J., and Xu, X (1996), A density-based algorithm for discovering clusters in large spatial databases with noise, In Proc KDD, pp 226-231 [15] Faloutsos, C., Barber, R., Flickner, M., Hafner, j., Niblack, W., Petkovic, D., and Equitz, W (1994), Efficient and effective querying by image content, Journal of Intelligent Information Systems, 3(4), pp 231-262 119 [16] Fisher, R and Yates, F (1957), Statiscal Tables for Biological, Agricultural, and Medical Research, Oliver and Boyd, Edinburgh, 5th edition [17] Guttmann, R (1984), R-trees: A dynamic index structure for spatial searching In Proc ACM SIGMOD, pp 47-57 [18] Hampel, F (1974), The influence curve and its role in robust estimation, Journal of the American Statiscal Association, 69: pp 383-393 [19] Hansen, M., Hurwitz, W., and Mahow, W (1953), Sample Survey Methods and Theory, Volume I: Methods and Applications, John Wiley & Sons [20] Hawkins, D (1980), Identification of Outliers, Chapman and Hall, London [21] Hinneburg, A and Keim, D (1998), An efficient approach to clustering in large multimedia database with noise, In Proc KDD, pp 58-65 [22] Johnon, R and Wichern, D (1982), Applied Multivariate Statistical Analysis, Prentice-Hall [23] Johnon, R and Wichern, D (1992), Applied Multivariate Statistical Analysis, Prentice-Hall, 3rd edition [24] Edwin M.Knorr (2002), Outliers And Datamining: Finding Exceptions in Data, PhD Thesis, University of British Columbia [25] Marona, R and Yohai, V (1995), The behavior of the Stahel-Donoho robust multivariate estimator, Journal of the American Statiscal Association, 90(429),pp 330-341 [26] Martin, R and Zamar, R (1993), Bias robust estimation of scale, The Annals of Statistics, 21(2), pp 991-1017 [27] Ng, R and Han, J (1994), Efficient and effective clustering methods for spatial data mining, In Proc VLDB, pp 144-155 [28] Porkess, R (1991), The HarperCollins Dictionary of Statistics, HarperCollins, New York [29] Rammaswamy, S., Rastogi, R., and Shim, K (2000), Efficient algorithms for mining outliers from large data sets, In Proc SIGMOD, pp 427-438 [30] Rouseeuw, P J and Leroy, A M (1987), Robust Regresion and Outlier Detection, John Wiley & Sons [31] Salton, G and McGill, M (1983), Introduction to Modern Information Retrieval, McGraw-Hill [32] Seidl, T and Kriegel, H.-P (1997), Efficient user adaptable similarity search in large multimedia databases, In Pro.VLDB, pp 506-515 120 [33] Sellis, T., Roussopoulos, N., and Faloutsos, C (1987), The R+-tree: A dynamic index for multi-dimensional objects, In Proc VLDB, pp 507-518 [34] Stahel, W (1981), Breakdown of covariance estimators, Research Report 31, Fachgruppe fur Statistik, ETH, Zurich [35] Wang, W., Yang, j., and Muntz, R (1987), STING: A statiscal information grid approach to spatial data mining, In Proc VLDB, pp 186-195 [36] Weisberg, S (1985), Applied Linear Regression, John Wiley & Sons, edition nd ... CHƢƠNG 1: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI 1.1 Khám phá tri thức 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu 1.3 Phần tử ngoại lai 1.4 Mối quan hệ phần tử ngoại lai khai... tử ngoại lai tầm thƣờng Bổ đề 4: Nếu P phần tử ngoại lai- j khơng gian Ap P phần tử ngoại lai- j+1, phần tử ngoại lai- j+2,…, phần tử ngoại lai- j+k Chứng minh: chứng minh hệ định nghĩa phần tử ngoại. .. nghĩa phần tử ngoại lai yếu phần tử ngoại lai tầm thƣờng Chúng ta thấy, phần tử ngoại lai yếu chuyển thơng tin tới ngƣời dùng, cịn phần tử ngoại lai tầm thƣờng khơng a Các phần tử ngoại lai yếu phần

Ngày đăng: 11/11/2020, 21:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan