Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
287 KB
Nội dung
1 LÝ DO CHON ĐỀ TÀI Trong sống đại ngày nay, làm để phát thẻ rút tiền bất thường hệ thống ngân hàng, bất thường thị trường chứng khoán,…vv Tuy nhiên, với số lượng liệu tập trung lưu trữ sở liệu ngày lớn việc tìm kiếm phần tử ngoại lai trở nên cần thiết nhiều sống Xuất phát từ yêu cầu thực tế đó, lựa chọn thực luận văn với đề tài “Nghiên cứu phần tử ngoại lai” Tôi hy vọng đề tài với hướng dẫn GS.TS Vũ Đức Thi, góp ý chuyên gia giúp giải số toán thực tế phục vụ cho xã hội ngày phát triển công Công nghiệp hóa Hiện đại hóa đất nước Nội dung luận văn xây dựng chương 2 CHƯƠNG 1: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI Trong chương này, giới thiệu trình khám phá tri thức bao gồm khái niệm: Khám phá tri thức, khai thác liệu, khái niệm phần tử ngoại lai ứng dụng tìm kiếm phần tử ngoại lai thực tiễn Đồng thời trình bày ứng dụng sử dụng khai thác liệu ứng dụng thực tế, khai thác liệu có hỗ trợ kỹ thuật khai thác liệu Ngoài trình bày khái niệm phần tử ngoại lai, mối quan hệ lĩnh vực khai thác liệu lĩnh vực khám phá phần tử ngoại lai ứng dụng phần tử ngoại lai 1.1 Khám phá tri thức Khám phá tri thức toàn trình tìm kiếm tri thức từ liệu, bao gồm bước sau: - Chuẩn bị liệu: Trong bước liệu làm để loại bỏ liệu không liên quan, liệu không phù hợp Sau liệu làm sạch, liệu bổ sung thông tin cần thiết, sau liệu biến đổi theo dạng phù hợp để thực trình khai thác liệu - Khai thác liệu: bước quan trọng trình khám phá tri thức, bước sử dụng kỹ thuật phương thức thông minh để xác định mẫu liệu theo yêu cầu người dùng Khai thác liệu bao gồm: ♦ Tìm kiếm luật kết hợp ♦ Phát phần tử ngoại lệ ♦ Nhận dạng phân lớp mẫu ♦ Dự báo - Đánh giá: Đánh giá mẫu tìm mẫu quan tâm từ mẫu có bước khai thác liệu, sử dụng ngưỡng cần thiết để lọc mẫu cần khai thác 1.2 Những ứng dụng sử dụng kỹ thuật khai thác liệu 3 Có nhiều ứng dụng lĩnh vực khác sử dụng kỹ thuật khai thác liệu nhằm hỗ trợ cho mục đích sử dụng Trong thương mại, tổ chức hay công ty họ sử dụng kỹ thuật khai thác liệu để tặng khuyến cho khách hàng dựa vào tần xuất mua hàng, số lượng hàng mua lần trước hay tần suất truy cập website, kiểu khách hàng Trong công ty bảo hiểm, sử dụng kỹ thuật khai thác liệu để xác định lỗi trường hợp rủi ro xảy Trong ngân hàng, người ta sử dụng kỹ thuật khai thác liệu để xác định rủi ro thường gặp thẻ tín dụng hay lỗi trình giao dịch Các tổ chức chống tội phạm sử dụng kỹ thuật khai thác liệu để tìm kiếm, nhận dạng phát tội phạm… 1.3 Phần tử ngoại lai 1.3.1 Khái niệm phần tử ngoại lai Trong tập liệu thường tồn đối tượng liệu không tuân theo hình thức mô hình liệu chung, đối tượng liệu mà giá trị liệu xem nằm phạm vi không liên quan tới tập liệu lại Những đối tượng có đặc tính gọi phần tử ngoại lai Một phần tử ngoại lai đối tượng liệu số trường hợp sau: Là đối tượng liệu tạo sinh có sai sót Nằm phân bố khác với phân bố tập liệu lại Là đối tượng có giá trị hợp lệ đối tượng mong muốn Tóm lại, phẩn tử ngoại lai đối tượng đủ khác với hầu hết đối tượng lại 1.3.2 Những ứng dụng phần tử ngoại lai Phát thẻ tín dụng giả, theo dõi hoạt động thương mại điện tử, xác định rủi ro thẻ tín dụng, tìm kiếm nhận dạng tội phạm,… Với hệ thống toán điện tử bao gồm ứng dụng thẻ ngân hàng, thẻ thông minh, thẻ điện thoại, thẻ tín dụng, quan tâm tới việc để phát loại thẻ giả, thẻ không hợp lệ hệ thống toán điện tử Một ứng dụng việc phát phần tử ngoại lai ứng dụng để nghiên cứu cổ phiếu, chứng khoán Trong thể thao chuyên nghiệp ông bầu muốn xây dựng cho đội hình mạnh nhất, chi phí dẻ, hợp lý với nguồn tài cố định đội hình tài năng, đa dạng xác định thống kê hiệu suất trình diễn kỹ thuật cầu thủ 1.4 Mối quan hệ phần tử ngoại lai khai thác liệu Trong thực tế, chương trình ứng dụng khai thác liệu thường phải khai thác liệu tập liệu lớn với khối lượng thông tin khổng lồ, không phù hợp với nhớ chính, liệu nằm nhớ Hiện nay, số kỹ thuật phát phần tử ngoại lai nhằm mục đích sau: ♦ Cung cấp số thông tin mối quan hệ phần tử ngoại lai ♦ Cung cấp số giải thích mô tả không gian liệu mà xuất phần tử ngoại lai Cho đến nay, chưa có định nghĩa định nghĩa cách đầy đủ xác phần tử ngoại lai, việc xác định phần tử ngoại lai lĩnh vực khác nhau, ý nghĩa ngoại lai phần tử ngoại lai mang tính chất đặc trưng lĩnh vực áp dụng (có thể nhiễu người lại tín hiệu tốt người khác), nên khó đưa định nghĩa hoàn chỉnh xác phần tử ngoại lai 5 CHƯƠNG 2: MỘT SỐ THUẬT TOÁN TÌM KIẾM PHẦN TỬ NGOẠI LAI DỰA TRÊN KHOẢNG CÁCH Trong chương trình bày khái niệm phần tử ngoại lai theo cách nhìn toàn cục, đồng thời giới thiệu thuật toán Nested Loop hai phiên thuật toán đánh giá theo ô để tìm kiếm phần tử ngoại lai dựa tập liệu nhiều chiều nằm nhớ nằm nhớ Chúng đánh giá độ phức tạp thời gian thuật toán trình bày thực nghiệm với chương trình ứng dụng sử dụng thuật toán Nested Loop sở liệu thực ngân hàng Nông nghiệp Phát triển Nông thôn Agribank đồng thời so sánh thời gian thực tập liệu 2.1 Định nghĩa phần tử ngoại lai dựa khoảng cách Cho N số lượng đối tượng tập liệu T Gọi d hàm khoảng cách cặp đối tượng tập liệu Với đối tượng O, gọi S(o) tập lân cận o bao gồm tất đối tượng q thỏa mãn điều kiện: d(o,q)< D, đó, D tham số đầu vào Có nghĩa là: S(o) = {q€T | d(o,q) ≤ D} S(o) gọi tập hợp lân cận điểm O theo khoảng cách D Định nghĩa: Một đối tượng O tập sở liệu T gọi phần tử ngoại lai dựa khoảng cách DB(p,D) (DB viết tắt từ Distance Based) có p phần trăm đối tượng T mà khoảng cách chúng với O lớn D Điều có nghĩa lực lượng tập hợp S(o) nhỏ (100 - p)% cỡ T Gọi M số lượng lớn đối tượng thuộc S(o) mà đối tượng ngoại lai có Theo định nghĩa phần tử ngoại lai dựa khoảng cách DB(p,D) M=(1 - p)*N Việc tìm kiếm tất phần tử ngoại lai việc tìm kiếm đối tượng thuộc S(o) tất điểm O tập liệu Trong trình tìm kiếm số lượng S(o) lớn M O gọi không ngoại lai Ngược lại sau kết thúc trình tìm kiếm mà lực lượng S(o) ≤ M thông báo O phần tử ngoại lai 2.2 Thuật toán Nested-Loop 2.2.1 Tư tưởng thuật toán Để tìm kiếm tất phần tử ngoại lai dựa khoảng cách DB(p,D) tập liệu lớn, nằm nhớ ngoài, thuật toán Nested Loop chia tập liệu thành khối sử dụng vòng lồng để tìm kiếm 2.2.2 Mô tả thuật toán Nested Loop: Đưa khối điểm liệu từ T vào mảng A (có cỡ b/2% cỡ tập liệu) For (mỗi điểm ti mảng A) do: {counti =0; For (mỗi điểm tj mảng A) do: If (d(ti ,tj )≤D) {counti++; If (counti >M) {ti =không ngoại lai; break;} } } While (những khối chưa so sánh với mảng A) { a Lưu khối vào mảng B (nhưng giữ lại khối mà chưa lưu vào mảng A để tính toán cho lần sau) b For (mỗi điểm ti chưa đánh dấu mảng A) {for (mỗi điểm tj mảng B) If (d(ti,tj) ≤ D) {counti++; if (counti>M) {ti=không ngoại lai; break;} } } } For (mỗi điểm ti chưa đánh dấu mảng A) ti=ngoại lai; Thuật toán kết thúc khối lưu mảng B lưu vào mảng A thời điểm trình tính toán trước đây; ngược lại, đổi vai trò mảng A B quay lại bước 2.2.3 Ước lượng tham số p, D sử dụng phương pháp lấy mẫu Trong thuật toán Nested Loop tìm kiếm phần tử ngoại lai, thấy có hai tham số người dùng cần định nghĩa p D, hai tham số ảnh hưởng lớn đến thời gian thực thuật toán, việc khởi tạo tham số p D không tốt dẫn đến lãng phí thời gian tính toán 2.2.4 Đánh giá độ phức tạp thuật toán Nested Loop Độ phức tạp toàn thuật toán Nested Loop là: O((n2 1) *x *k)=O(N2*k) 2.3 Thuật toán đánh giá theo ô 2.3.1 Các khái niệm tính chất liên quan Với mục tiêu tìm kiếm tất phần tử ngoại lai dựa khoảng cách dựa vào ô, đối tượng tập liệu ánh xạ lượng tử hóa tới ô có cạnh = D/(2 ) Gọi Cx,y ô giao dòng x cột y L1(Cx,y) định nghĩa tầng lân cận thứ ô Cx,y bao gồm ô Cu,v thỏa mãn điều kiện: L1(Cx,y)={Cu,v| u= x±1, v=y±1; Cu,v≠Cx,y} (2.1) Tính chất 1: Bất kỳ cặp đối tượng ô khoảng cách chúng lớn D/2 Tính chất 2: Nếu Cu,v ô thuộc L1(Cx,y) với P∈Cu,v với q∈Cx,y ta có khoảng cách chúng lớn D Tính chất 3: Nếu Cu,v ≠ Cx,y không thuộc L1 L2 ô Cx,y đối tượng P ∈ Cx,y đối tượng q ∈ Cu,v khoảng cách chúng lớn D Tính chất 4: 1) Nếu có M đối tượng Cx,y ngoại lai ô Cx,y 2) Nếu có M đối tượng Cx,y U L1(Cx,y) ngoại lại ô Cx,y 3) Nếu số lượng đối tượng thuộc Cx,y U L1(Cx,y) U L2(Cx,y) không lớn M đối tượng ô Cx,y ngoại lai 2.3.2 Thuật toán FindAllOutsM cho tập liệu nhớ 2.3.2.1 Tư tưởng thuật toán 2.3.2.2 Mô tả thuật toán FindAllOutsM For (q=1;qM) Cw=hồng c Else { Countw3=countw2+ ∑ i∈L ( Cw ) count i ; if(countw3 ≤ M) gán tất đối tượng Cw ngoại lai Else for (P∈Cw) { i countp=countw2; ii for (q ∈ L2(Cw)) if (d(p,q) ≤ D) {counti++; If (counti>M) { P= không ngoại lai; Quay lại bước 5.c.3} } iii P = ngoại lai; } } 2.3.2.3 Đánh giá độ phức tạp thuật toán không gian hai chiều Độ phức tạp thuật toán FindAllOutsM không gian hai chiều O(N+m) 2.3.2.4 Tổng quát cho trường hợp nhiều chiều Trong không gian K chiều, tầng lân cận thứ L1 ô Cx 1, x2, …, xk định nghĩa lại sau: L1(Cx1, x2,…xk)={Cu1, u2,…uk| ui = xi ± ∀1 ≤ i ≤ k ; Cx1, x2,… xk≠Cu1, u2,…uk}; (2.3) 10 Vì vậy, tầng lân cận thứ hai ô Cx 1, x2,…xk không gian K chiều là: L2(Cx1, x2,…xk) = {Cu1, u2, … uk| ui =xi ± [ k ] ∀1 ≤ i ≤ k ; Cu1, u2,… uk ∉ L1(Cx1, x2,…xk); Cx1, x2,…xk ≠ Cu1, u2,… uk}; (2.4) 2.3.2.5 Đánh giá độ phức tạp không gian nhiều chiều Độ phức tạp toàn thuật toán O(m+N) theo lý thuyết O(m ckkk/2+k*N) 2.3.3 Tìm kiếm phần tử ngoại lai DB(p,D) tập liệu lớn, nhớ 2.3.3.1 Phân tích tổng quát Khi thuật toán thực với tập liệu lớn, nằm nhớ mục đích làm giảm tối thiểu số lượng trang đọc vào nhớ số lần đọc toàn liệu, trang khối liệu nhỏ truyền nhớ nhớ Nội dung thuật toán dựa vào ô, có hai bước cần phải đọc trang là: Quá trình ánh xạ ban đầu đối tượng vào ô phù hợp Quá trình tính toán khoảng cách cặp đối tượng 2.3.3.2 Thuật toán FindAllOutsD cho phần tử ngoại lai nằm nhớ a Mô tả thuật toán FindAllOutsD For (q=1; q ≤ m; q++) Countq=0; For (mỗi đối tượng p thuộc T) { a Ánh xạ P tới ô Cq phù hợp không lưu P b Countq++; c Đánh dấu ô Cq ánh xạ tới trang chứa điểm P } For (q=1; q ≤ m; q++) if (Coutnq>M) Cq = đỏ; 11 For (mỗi ô đỏ Cr) C1= hồng; (trong có C1 ô thuộc L1(Cr) chưa gán màu đỏ) For (mỗi ô màu trắng Cw) do: a Countw2 = Countw + ∑ i∈L1(Cw) Counti ; b If (Countw2>M) Cw = hồng; c Else { Countw3 = Countw2 + ∑ i∈L (Cw) Count i ; If (Countw3≤M) Cw = vàng (tức tất điểm ánh xạ tới ô Cw ngoại lai); Else Sumw = Countw2; } For (mỗi trang i chứa điểm trắng điểm vàng) a Đọc trang i; b For (mỗi ô trắng ô vàng Cq có điểm ánh xạ tới trang i) For (mỗi đối tượng p trang i ánh xạ tới Cq) • Lưu P vào Cq • Kountp = Sumq For (mỗi đối tượng p ô trắng Cw) For (mỗi ô trắng ô vàng CL ∈ L2 (Cw)) For (mỗi đối tượng q ∈ CL) if (d(p,q) ≤ D) { Kountp++; If (Kountp>M) đánh dấu p không ngoại lai; xét điểm p tiết theo (goto 7) } For (mỗi đối tượng q ô vàng) thông báo q ngoại lai 12 For (mỗi trang chứa điểm không trắng không vàng ánh xạ tới ô thuộc L2 số ô trắng C) a Đọc trang i b For (mỗi ô Cq ∈ L2 (C) không trắng không vàng có số điểm trang i) For (mỗi đối tượng q trang i ánh xạ tới Cq) For (mỗi ô trắng Cw ∈ L2 (Cq)) For (mỗi đối tượng p ∈ Cw) if ( d(p,q) ≤ D) {Kountp++; if (Kountp>M) đánh dấu p không ngoại lai;} 10 For (mỗi đối tượng p ô trắng) if not (p không ngoại lai) thông báo p ngoại lai b Đánh giá độ phức tạp thuật toán FindAllOutsD so sánh với thuật toán Nested Loop Thuật toán Find AllOutsD có độ phức tạp tuyến tính với N lý giống tương tự giải thích cho thuật toán FindAllOutsM, thuật toán FindAllOutsD tìm kiếm phần tử ngoại lai tập liệu mà không phù hợp với nhớ Tính chất 1: Thuật toán FindAllOutsD yêu cầu nhiều lần đọc toàn tập liệu Tính chất 2: Nếu có tập liệu phân chia vào n =[100/(b/2)] khối logic nhớ trung gian cỡ b% cỡ sở liệu khối logic bao gồm nhiều trang trường hợp chung, tổng số khối yêu cầu đọc thuật toán Nested Loop n+(n-1)*(n-2) Như vậy, số lần đọc tập liệu (n2) lần không nhiều (n-1) lần 13 CHƯƠNG 3: XÁC ĐỊNH CÁC PHẦN TỬ NGOẠI LAI CỤC BỘ DỰA VÀO MẬT ĐỘ Trong chương trình bày định nghĩa lôgic chặt chẽ phần tử ngoại lai xem xét đối tượng tập liệu dựa mật độ theo cách nhìn địa phương, trình bày cấp độ ngoại lai tính chất đối tượng, sau đưa ý nghĩa phần tử ngoại lai cuối trình bày đánh giá độ phức tạp thuật toán xác định giá trị LOF Cụ thể thảo luận số vấn đề có ý nghĩa kết gán đối tượng với cấp độ ngoại lai nó, cấp độ gọi yếu tố ngoại lai cục (Local Outlier Factor - LOF) đối tượng Từ "cục bộ" LOF có nghĩa cấp độ phụ thuộc vào cách cô lập đối tượng lân cận xung quanh đối tượng Cũng chương trình bày phân tích chi tiết yếu tố ngoại lai cục LOF với tính chất liên quan, cách sử dụng tập hợp liệu giới thực giải thích yếu tố ngoại lai cục LOF sử dụng để tìm kiếm phần tử ngoại lai xuất với ý nghĩa đó, mặt khác lại không xác định chúng cách tiếp cận 3.1 Các định nghĩa: Định nghĩa 1: Một phần tử ngoại lai quan sát lệch hướng nhiều với hướng quan sát khác đưa đến nghi ngờ phần tử tạo kỹ thuật khác Định nghĩa 2: Một đối tượng O tập sở liệu T gọi phần tử ngoại lai dựa khoảng cách DB(p,D) có p (percentage) phần trăm đối tượng T mà khoảng cách chúng với O lớn D Điều có nghĩa lực lượng 14 tập hợp {q ∈ T| d(o,q) ≤ D} nhỏ (100-p)% * cỡ T Định nghĩa 3: Khoảng cách phụ thuộc tham số k đối tượng p [7] Với số nguyên dương k bất kỳ, khoảng cách phụ thuộc tham số k đối tượng p ký hiệu k_dist(p) định nghĩa khoảng cách d(o,p) p đối tượng o thuộc T thỏa mãn điều kiện ♦ Có k đối tượng o “∈ T\{p} thỏa mãn d(p,o)” ≤ d(p,o) ♦ Có nhiều k-1 đối tượng o “∈ T\{p} thỏa mãn d(p,o)” < d(p,o) Định nghĩa 4: Tập lân cận phụ thuộc tham số k đối tượng p Tập lân cận phụ thuộc tham số k đối tượng p ký hiệu Nk(p) bao gồm tất đối tượng mà khoảng cách từ chúng đến p không lớn k_dist(p), điều nghĩa N k(p)={q ∈ D| d(p,q) ≤ k_dist(p)} Định nghĩa 5: Khoảng cách đạt đối tượng p đối tượng o Cho k số tự nhiên Khoảng cách đạt đối tượng p đối tượng o định nghĩa là: read_dist k(p,o)= max{k_dist(o), d(o,p)} Định nghĩa 3: Khoảng cách phụ thuộc tham số k đối tượng p [7] Với số nguyên dương k bất kỳ, khoảng cách phụ thuộc tham số k đối tượng p ký hiệu k_dist(p) định nghĩa khoảng cách d(o,p) p đối tượng o thuộc T thỏa mãn điều kiện ♦ Có k đối tượng o “∈ T\{p} thỏa mãn d(p,o)” ≤ d(p,o) ♦ Có nhiều k-1 đối tượng o “∈ T\{p} thỏa mãn d(p,o)” < d(p,o) 15 Định nghĩa 4: Tập lân cận phụ thuộc tham số k đối tượng p Tập lân cận phụ thuộc tham số k đối tượng p ký hiệu Nk(p) bao gồm tất đối tượng mà khoảng cách từ chúng đến p không lớn k_dist(p), điều nghĩa N k(p)={q ∈ D| d(p,q) ≤ k_dist(p)} Định nghĩa 5: Cho k số tự nhiên Khoảng cách đạt đối tượng p đối tượng o định nghĩa là: read_dist k(p,o)= max{k_dist(o), d(o,p)} Định nghĩa 6: Mật độ đạt cục đối tượng p Mật độ đạt cục đối tượng p định nghĩa là: ∑ reach _ dist Minpts ( p, o) O∈N ( p) ird Minpts ( p) = / Minpts Định nghĩa 7: Đặc trưng ngoại lai "cục bộ" đối tượng p [7] Đặc trưng ngoại lai cục đối tượng p định nghĩa LOPMinpts ( p) = ∑ ird Minpts (o) O∈N Minpts ( p ) ird Minpts ( p ) N Minpts ( p) 3.2 Tính chất phần tử ngoại lai cục 3.2.1 Yếu tố ngoại lai cục đối tượng nằm sâu vùng Bổ Đề 1: Cho C tập đối tượng, đặt reach_dist_min khoảng cách đạt cực tiểu đối tượng C, có nghĩa reach_dist_min min{reach_dist(p,q)\p,q∈C} Tương tự reach_dist_max khoảng cách đạt cực đại đối tượng C, ε định nghĩa 16 ε=reach_dist_max / reach_dist_min-1 với p ∈ C mà đối tượng q thuộc tập lân cận phụ thuộc tham số Minpts đối tượng p thuộc C đối tượng q thuộc tập lân cận phụ thuộc tham số Minpts đối tượng p thuộc C, đối tượng o thuộc tập lân cận phụ thuộc tham số Minpts q thuộc C LOF p thỏa mãn điều kiện: 1/(1 + ε) ≤ LOP(p) ≤ (1 + ε) 3.2.2 Cận cận yếu tố ngoại lai cục (LOF) Định lý 1: Gọi p đối tượng sở liệu D ≤ Minpts ≤ |D| Thì LOF đối tượng p thỏa mãn directMin(p)/indirectMax(p ) ≤ LOP(p) ≤ directMax(p)/indirectMin (p) 3.2.3 Tính chặt chẽ cận LOF Tóm lại, dao động khoảng cách đạt trung bình theo tập lân cận trực tiếp gián tiếp nhỏ (tức p nhỏ) định lý đánh giá LOF tốt cận cận LOF gần tới Ta có hai trường hợp quan trọng để điều ♦ Phần trăm p thấp cho đối tượng p, dao động khoảng cách đạt có nghĩa đối tượng thuộc tập lân cận phụ thuộc tham số Minps p nằm vùng với p, trường hợp này, giá trị directMax, directMin, indirectMax, indirectMin hầu hết giống nhau, kết LOF gần tới Điều chứng tỏ phù hợp với kết đưa bổ đề ♦ Lập luận tổng quát hóa với đối tượng p không nằm sâu vùng, tất đối tượng thuộc tập lân cận phụ thuộc tham số Minpts vùng (giống mô tả hình 3.3) Trong trường hợp 17 này, LOF không gần tới giới cận đưa Định lý chặt 3.3.4 Cận cận đối tượng có lân cận trực tiếp nằm nhiều vùng Định lý 2: Cho p đối tượng từ sở liệu, ≤ Minpts ≤ |D| C1, C2, … Cn phân hoạch N Minpts(p), nghĩa NMinpts(p) =CIUC2 … UCnU{p} với Ci ∩ Cj = ∅ , Ci ≠ ∅ với ≤ i, j ≤ n, i ≠ j Hơn đặt ζi=|Ci|/|NMinpts(p)| phần trăm đối tượng lân cận p, đối tượng nằm C i, khái niệm directiMax, directiMin, indirectiMax, indirectiMin định nghĩa tương tự directmax, directmin, indirectmax, indirectmin hạn chế tập Ci LOF đối tượng p thỏa mãn: ζi n n i a LOF ( p) ≥ ∑ ζ i * direct ( p) ∑i =1 i indirect max ( p) i =1 ζi n n i b LOF ( p ) ≤ ∑ ζ i * direct max ( p ) ∑i =1 i indirect ( p ) i =1 3.4 Sự ảnh hưởng tham số Minpts 3.4.1 Sự phụ thuộc LOF theo Minpts Thực tế LOF không tăng không giảm cách đơn điệu, hình 3.7 trình bày trường hợp đơn giản tất đối tượng phân bố theo phân bố Gauss, với giá trị Minpts 50 giá trị Min, giá trị Max, giá trị trung bình độ lệch tiêu chuẩn LOF biểu diễn 3.4.2 Xác định miền Minpts Thực vậy, xác định MinptsLB MinptsUB, tính toán giá trị LOF đối tượng miền đưa đánh giá việc xếp đối tượng theo giá trị LOF lớn miền xác định, có nghĩa việc 18 xếp đối tượng dựa vào max{LOF Minpts(p)|MinptsLB ≤ Minpts ≤ MinptsUB} Ngoài cách xếp theo giá trị lớn LOF đối tượng miền giá trị Minpts, xếp theo giá trị nhỏ giá trị trung bình 3.5 Đánh giá độ phức tạp thuật toán xác định giá trị LOF Khi tính toán giá trị LOF miền MinptsLB MinptsUB, với n đối tượng sở liệu D, phải thực hai bước: Bước thứ xác định lân cận MinptsUBnearest, bước thứ hai tính giá trị LOF Bước thứ xác định lân cận MinptsUB-nearest có độ phức tạp là: O(n*logn) Bước thứ hai tính giá trị LOF có độ phức tạp là: O(n) 19 CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM 4.1 Cấu trúc tệp liệu đầu vào Chương trình sử dụng file Excel để chứa liệu đầu vào Cấu trúc file sau: + Tên file excel: Tùy ý theo quy chuẩn đặt tên file hệ điều hành Windows + Gồm sheet chứa liệu: Sheet1: Chứa liệu toàn ghi, dòng thứ tiêu đề cột có cấu trúc: (MaKH; TenKH; SoTienPheDuyet; SoGocDaThu; SoLaiDaThu) tên cột liệu, dòng ghi chứa liệu xử lý 4.2 Thực chương trình đánh giá kết 4.2.1 Bài toán tham số đầu vào Bài toán: Cài đặt thuật toán Nested Loop tìm kiếm phần tử ngoại lai tập liệu khách hàng ngân hàng • Dữ liệu đầu vào: File excel chứa liệu khách hàng ngân hàng Nông nghiệp Phát triển Nông thôn Agribank • Tham số đầu vào gồm: p: Phần trăm tối thiểu đối tượng tập liệu mà đối tượng không ngoại lai D: khoảng cách ước lượng để tìm kiếm phần tử ngoại lai 4.2.2 Nhập liệu: 20 Bước 1: Chọn tệp liệu đầu vào file Excel chứa liệu khách hàng ngân hàng Nông nghiệp Phát triển Nông thôn Agribank Bước 2: Nạp liệu (Dữ liệu nạp vào nhớ trong) Bước 3: Hiển thị liệu (Hiển thị bảng liệu thông số như: Số thuộc tính; số ghi; kích thước tệp liệu) 4.2.3 Thực thuật toán: Bước 1: Ước lượng tham số p D Bước 2: Nhập số ghi xử lý lúc Bước 3: Thực 4.2.4 Kết thực nghiệm: Bước đầu cài đặt thành công thuật toán Nested_Loop thử nghiệm thuật toán số liệu khách hàng ngân hàng Sau thực thuật toán ta có kết hình 4.8 bao gồm thông tin tìm kiếm phần tử ngoại lai (Số phần tử ngoại lai; thông tin chi tiết phần tử ngoại lai; thời gian xử lý thuật toán cách thức xử lý khối liệu) 4.2.5 Thông tin phần tử ngoại lai tìm sau thực thuật toán 21 Hình 4.9 Phần tử ngoại lai tìm 22 KẾT LUẬN Trên đây, luận văn tìm hiểu tổng quan lĩnh vực khám phá tri thức sở liệu, khai thác liệu, đồng thời giới thiệu đánh giá thuật toán tìm kiếm phần tử ngoại lai sở liệu lớn, nằm nhớ Với phần tử ngoại lai theo cách nhìn toàn cục, luận văn giới thiệu trình bày thuật toán Nested Loop thuật toán đánh giá theo ô nhằm tìm kiếm, phát phần tử ngoại lai thực tập liệu lớn, nhiều chiều, nằm nhớ Thuật toán Nested Loop thuật toán phân chia tập liệu thành khối liệu, sử dụng vòng lặp để tính toán khoảng cách, tìm kiếm phần tử ngoại lai khối, thuật toán Nested Loop có độ phức tạp O(kN2) (với k chiều N cỡ liệu) Tuy nhiên, số lần đọc tập liệu vào nhớ thuật toán không bé n-2 lần đọc lại nhỏ n-1 lần đọc với n tổng số khối tập liệu, thuật toán Nested Loop nhiều thời gian đọc liệu Thuật toán đánh giá theo ô, giới thiệu trình bày hai phiên thuật toán Phiên mô tả thuật toán áp dụng cho tập liệu lớn, nằm nhớ phiên thứ hai cải tiến phiên đầu để thuật toán thực với sở liệu nằm nhớ Thuật toán đánh giá theo ô ánh xạ đối tượng tập liệu vào ô phù hợp, sau đánh giá ô mối quan hệ ô để tìm kiếm phần tử ngoại lai Thuật toán giảm cách đáng kể công việc tính toán khoảng cách cặp điểm độ phức tạp thuật toán đánh giá theo ô tuyến tính với N lại lũy thừa chiều 23 liệu: O(m ck kk/2+kN), (với m số ô, c số) Luận văn thuật toán thực nhiều lần đọc tập liệu từ nhớ vào nhớ Ở chương luận văn giới thiệu khái niệm đặc trưng ngoại lai LOF theo cách nhìn địa phương, khái niệm nắm bắt xác ý nghĩa ngoại lai đối tượng tập liệu, với đối tượng nằm sâu vùng, giá trị LOF xấp xỉ với đối tượng khác, chương luận văn trình bày định lý xác định cận cận giá trị LOF liên quan tới việc có không đối tượng thuộc tập lân cận phụ thuộc tham số Minpts đến từ nhiều vùng Ngoài ra, luận văn trình bày phụ thuộc giá trị LOF vào tham số Minpts đưa hướng dẫn thực tế cách lựa chọn miền giá trị Minpts đưa đánh giá việc xếp đối tượng theo giá trị LOF lớn chúng miền lựa chọn Cuối đưa đánh giá độ phức tạp thuật toán tính giá trị LOF [...]... thực hiện thuật toán ta có kết quả như hình 4.8 bao gồm các thông tin tìm kiếm phần tử ngoại lai (Số phần tử ngoại lai; thông tin chi tiết về phần tử ngoại lai; thời gian xử lý thuật toán và cách thức xử lý từng khối dữ liệu) 4.2.5 Thông tin phần tử ngoại lai tìm được sau khi thực hiện thuật toán 21 Hình 4.9 Phần tử ngoại lai tìm được 22 KẾT LUẬN Trên đây, luận văn đã tìm hiểu tổng quan về lĩnh vực... (n-1) lần 13 CHƯƠNG 3: XÁC ĐỊNH CÁC PHẦN TỬ NGOẠI LAI CỤC BỘ DỰA VÀO MẬT ĐỘ Trong chương này chúng tôi trình bày định nghĩa lôgic và chặt chẽ hơn về phần tử ngoại lai khi xem xét các đối tượng trong tập dữ liệu dựa trên mật độ theo cách nhìn địa phương, tiếp theo là trình bày cấp độ ngoại lai và các tính chất của từng đối tượng, sau đó đưa ra ý nghĩa của các phần tử ngoại lai và cuối cùng chúng tôi trình... khai thác dữ liệu, đồng thời giới thiệu và đánh giá các thuật toán tìm kiếm các phần tử ngoại lai trên cơ sở dữ liệu lớn, nằm trong bộ nhớ ngoài Với các phần tử ngoại lai theo cách nhìn toàn cục, luận văn giới thiệu và trình bày thuật toán Nested Loop và thuật toán đánh giá theo ô nhằm tìm kiếm, phát hiện các phần tử ngoại lai được thực hiện trên các tập dữ liệu lớn, nhiều chiều, nằm trong bộ nhớ ngoài... ta sẽ giải thích rằng yếu tố ngoại lai cục bộ LOF có thể được sử dụng để tìm kiếm các phần tử ngoại lai xuất hiện với một ý nghĩa nào đó, nhưng mặt khác lại không được xác định chúng bằng các cách tiếp cận hiện nay 3.1 Các định nghĩa: Định nghĩa 1: Một phần tử ngoại lai là một sự quan sát lệch hướng rất nhiều với các hướng quan sát khác đưa đến một sự nghi ngờ rằng phần tử đó được tạo ra bởi một kỹ... không ngoại lai; } 10 For (mỗi đối tượng p trong ô trắng) if not (p là không ngoại lai) thông báo p là ngoại lai b Đánh giá độ phức tạp của thuật toán FindAllOutsD và so sánh với thuật toán Nested Loop Thuật toán Find AllOutsD cũng có độ phức tạp tuyến tính với N bởi các lý do giống tương tự như đã giải thích cho thuật toán FindAllOutsM, nhưng thuật toán FindAllOutsD tìm kiếm các phần tử ngoại lai trên các. .. ) N Minpts ( p) 3.2 Tính chất của các phần tử ngoại lai cục bộ 3.2.1 Yếu tố ngoại lai cục bộ của các đối tượng nằm sâu trong một vùng Bổ Đề 1: Cho C là một tập các đối tượng, đặt reach_dist_min là khoảng cách đạt được cực tiểu của các đối tượng trong C, có nghĩa là reach_dist_min min{reach_dist(p,q)\p,q∈C} Tương tự reach_dist_max là khoảng cách đạt được cực đại của các đối tượng trong C, ε được định... giá theo ô ánh xạ các đối tượng của tập dữ liệu vào các ô phù hợp, sau đó đánh giá các ô và mối quan hệ giữa các ô để tìm kiếm các phần tử ngoại lai Thuật toán này giảm một cách đáng kể công việc tính toán khoảng cách giữa các cặp điểm và độ phức tạp của thuật toán đánh giá theo ô là tuyến tính với N nhưng lại lũy thừa đối với chiều của dữ 23 liệu: O(m ck kk/2+kN), (với m là một số các ô, c là một hằng... một cấp độ ngoại lai của nó, cấp độ này được gọi là yếu tố ngoại lai cục bộ (Local Outlier Factor - LOF) của một đối tượng Từ "cục bộ" trong LOF có nghĩa là cấp độ phụ thuộc vào cách cô lập của đối tượng đối với các lân cận xung quanh đối tượng đó Cũng trong chương này chúng tôi sẽ trình bày và phân tích chi tiết yếu tố ngoại lai cục bộ LOF cùng với các tính chất liên quan, bằng cách sử dụng các tập hợp... liệu đầu vào: File excel chứa dữ liệu khách hàng của ngân hàng Nông nghiệp và Phát triển Nông thôn Agribank • Tham số đầu vào gồm: p: Phần trăm tối thiểu các đối tượng trong tập dữ liệu mà các đối tượng không ngoại lai D: khoảng cách ước lượng để tìm kiếm phần tử ngoại lai 4.2.2 Nhập dữ liệu: 20 Bước 1: Chọn tệp dữ liệu đầu vào là file Excel chứa dữ liệu khách hàng của ngân hàng Nông nghiệp và Phát triển... liệu T được gọi là một phần tử ngoại lai dựa trên khoảng cách DB(p,D) nếu có ít nhất p (percentage) phần trăm các đối tượng trong T mà khoảng cách giữa chúng với O lớn hơn D Điều đó có nghĩa là lực lượng của 14 tập hợp {q ∈ T| d(o,q) ≤ D} nhỏ hơn hoặc bằng (100-p)% * cỡ của T Định nghĩa 3: Khoảng cách phụ thuộc tham số k của đối tượng p [7] Với một số nguyên dương k bất kỳ, khoảng cách phụ thuộc tham ... thông tin tìm kiếm phần tử ngoại lai (Số phần tử ngoại lai; thông tin chi tiết phần tử ngoại lai; thời gian xử lý thuật toán cách thức xử lý khối liệu) 4.2.5 Thông tin phần tử ngoại lai tìm sau thực... đến nay, chưa có định nghĩa định nghĩa cách đầy đủ xác phần tử ngoại lai, việc xác định phần tử ngoại lai lĩnh vực khác nhau, ý nghĩa ngoại lai phần tử ngoại lai mang tính chất đặc trưng lĩnh vực... nghĩa hoàn chỉnh xác phần tử ngoại lai 5 CHƯƠNG 2: MỘT SỐ THUẬT TOÁN TÌM KIẾM PHẦN TỬ NGOẠI LAI DỰA TRÊN KHOẢNG CÁCH Trong chương trình bày khái niệm phần tử ngoại lai theo cách nhìn toàn cục,