Nghiên cứu các phần tử ngoại lai trong cơ sở dữ liệu và ứng dụng

60 20 0
Nghiên cứu các phần tử ngoại lai trong cơ sở dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN XUÂN TRƢỜNG NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI TRONG CSDL & ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN – 2014 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN XUÂN TRƢỜNG NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI TRONG CSDL & ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: GS.TS VŨ ĐỨC THI THÁI NGUYÊN – 2014 LỜI CAM ĐOAN Luận văn thạc sỹ nghiên cứu thực dƣới hƣớng dẫn Thầy giáo GS.TS Vũ Đức Thi Để hoàn thành luận văn này, tài liệu liệt kê, cam đoan không chép cơng trình thiết kế tốt nghiệp ngƣời khác Thái Nguyên, ngày 18 tháng 04 năm 2014 Học viên Nguyễn Xuân Trƣờng LỜI CẢM ƠN Trƣớc hết, vô biết ơn sâu sắc đến Thầy giáo GS.TS Vũ Đức Thi, ngƣời thầy trực tiếp dành nhiều thời gian tận tình hƣớng dẫn, cung cấp thông tin, tài liệu quý báu giúp đỡ hồn thành luận văn Sau tơi xin bày tỏ lòng biết ơn đến ngƣời thân, bạn bè, đồng nghiệp quan, ngƣời cổ vũ động viên tơi hồn thành luận văn tốt nghiệp Thái Nguyên, ngày 18 tháng 04 năm 2014 Học viên Nguyễn Xuân Trƣờng MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC THUẬT NGỮ DANH MỤC HÌNH VẼ MỞ ĐẦU CHƢƠNG I: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI 10 1.1 Khám phá tri thức 10 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu 14 1.3 Phần tử ngoại lai 14 1.4 Mối quan hệ phần tử ngoại lai khai thác liệu 18 1.5 Ứng dụng phần tử ngoại lai 19 CHƢƠNG II: CÁC ĐỊNH NGHĨA, THUẬT TỐN TÌM KIẾM CÁC PHẦN TỬ NGOẠI LAI 21 2.1 Các định nghĩa thuật ngữ phần tử ngoại lai 21 2.2 Các thuật tốn tìm kiếm phần tử ngoại lai sở liệu 26 2.2.1 Thuật toán Nested – Loop 26 2.2.2 Thuật tốn tìm kiếm phần tử ngoại lai không tầm thƣờng (FindNonTrivialOuts) 30 2.2.3 Thuật tốn đánh giá theo 33 CHƢƠNG III: CHƢƠNG TRÌNH THỰC NGHIỆM 53 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 59 DANH MỤC THUẬT NGỮ Nghĩa từ Từ viết tắt Box_Cox Tên phép biến đổi thành dạng xấp xỉ chuẩn DB (Distance Based) Dựa theo khoảng cách DSE (Donoho Stahel) Tên ƣớc lƣợng mạnh đa biến KDD (Know ledgement Khám phá tri thức sở liệu Discovery in Database ) LOF ( Local Outlier Factor) Yếu tố ngoại lai cục MAD (Median Absolute Là tên ƣớc lƣợng mạnh đơn biến Deviation) NL ( Nested Loop) Tên thuật toán phát phần tử ngoại lai Shorth ( Shortest half) Là tên ƣớc lƣợng mạnh đơn biến DANH MỤC HÌNH VẼ Hình 1.1: Qui trình KDD Knowledgement Discovery in Database – Khám phá tri thức Cơ sở liệu 11 Hình 2.1: 32 Hình 2.2.a: 39 Hình 2.2.b: 39 Hìn 2.2.c: 40 Hình 2.2.d: 40 MỞ ĐẦU Thế kỷ XXI đƣợc xem kỷ nguyên kinh tế tri thức Các công nghệ khám phá tri thức đƣợc áp dụng rộng rãi nhiều lĩnh vực đem lại thành tựu to lớn Nhƣng công nghệ khám phá tri thức thƣờng nhằm mục đích tìm kiếm, khám phá, dạng mẫu thƣờng gặp Chủ yếu tập trung vào hƣớng: Tìm kiếm luật kết hợp, nhận dạng phân lớp mẫu…Còn lĩnh vực khám phá phần tử ngoại lai bƣớc đầu đƣợc quan tâm nghiên cứu Mặc dù đƣợc ứng dụng nhiều lĩnh vực sống: nhƣ phát thẻ bất thƣờng hệ thống ngân hàng, tuyến đƣờng bất ổn không hợp lý giao thong, ứng dụng hệ thống an ninh, dự báo thời tiết, thị trƣờng chứng khoán, lĩnh vực thể thao Tuy nhiên, với số lƣợng liệu đƣợc tập trung lƣu trữ sở liệu ngày lớn việc tìm kiếm ngoại lệ phần tử ngoại lai trở nên cấp thiết nhiều CHƢƠNG I: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI Nội dung chƣơng giới thiệu trình khám phá tri thức, khai thác liệu ứng dụng thực tế có hỗ trợ kỹ thuật khai thác liệu Đồng thời trình bày khái niệm phần tử ngoại lai mối quan hệ lĩnh vực khám phá phần tử ngoại lai lĩnh vực khai thác liệu 1.1 Khám phá tri thức Với tiến khoa học kỹ thuật nhu cầu ngƣời ngày tăng tạo nên thời đại bùng nổ thông tin lĩnh vực đời sống Với lƣợng thông tin “ khổng lồ” cần có kỹ thuật khai thác liệu hiệu để lấy thơng tin hữu ích Một số ngơn ngữ chuy vấn đƣợc sử dụng nhằm lấy thông tin yêu cầu ngƣời sử dụng, nhƣng hầu hết ngôn ngữ lấy đƣợc liệu theo yêu cầu đơn giản Các kiểu liệu đa phƣơng tiện đƣợc số hệ thống sở liệu hỗ trợ nhƣ: Dữ liệu âm thanh, hình ảnh…khơng thể đáp ứng đƣợc u cầu ngƣời sử dụng ngày cao phức tạp Do đó, với nhu cầu tìm kiếm tri thức sở liệu hình thành lĩnh vực mới: Khám phá tri thức sở liệu Khám phá tri thức tồn q trình tìm kiếm tri thức liệu, bao gồm bƣớc sau: - Chuẩn bị liệu : Dữ liệu đƣợc tập chung vào sở liệu, kho liệu Dữ liệu chƣa tức có liệu sai sót, khơng phù hợp, nhiễu, liệu không đủ thông tin Do đó, bƣớc liệu đƣợc làm để loại bỏ liệu không phù hợp, liệu khơng liên quan Cơng việc đƣợc tiến hành trƣớc sau phát liệu không Đồng thời, sau đƣợc làm sạch, liệu đƣợc làm 10 cách xác nhƣ mơ tả thuật tốn bƣớc 5.c.3 trang đƣợc đọc nhiều lần Một câu hỏi đặt q trình tính tốn khoảng cách cặp đối tƣợng đọc trang lần không Gọi Pages(C) ký hiệu cho tập hợp trang chứa điểm ánh xạ tới C Suy ra, để tính tốn khoảng cách cho đối tƣợng ô trắng Cw, cần đọc trang Pages(Cw) Đồng thời cần đọc trang Pages(L2(Cw))=UCv L2(Cw) Pages(Cv) cần đọc trang chứa điểm ánh xạ tới Cv thuộc L2(Cw) để thực cơng việc tính toán khoảng cách Hơn nữa, muốn bảo đảm trang Pages(L2(Cw)) đọc lần cần đọc trang: - Các trang cần cho Cv than Cv - Những trang sử dụng Cv Cv ô thuộc L2 trắng nhiều ô trắng khác Nói chung bao đóng bắc cầu bao trang tập liệu Nói cách khác : có cách bảo đảm trang đọc nhiều lần trình tính tốn khoảng cách cặp điểm phải có nhớ trung gian cỡ của tập liệu mà xét giat thiết mạnh tập liệu mà xét tập liệu lớn khơng thể lƣu tồn nhớ Tiếp cận thuật toán trƣờng hợp có tập đối tƣợng lựa chọn tập liệu đƣợc lƣu nhớ Tập đƣợc chọn tập tất đối tƣợng ánh xạ vào ô trắng Việc lựa chọn theo cách phần chúng đối tƣợng 46 cần đƣợc tính tốn khoảng cách phần số lƣợng điểm trắng theo định nghĩa chúng bị chặn M Hơn nữa, tất trang phân vào ba lớp: - Lớp I: Bao gồm trang chứa số điểm trắng - Lớp II: Các trang không chứa điểm trắng nhƣng lại chứa đối tƣợng ánh xạ tới ô không trắng mà ô thuộc L2 số ô trắng - Lớp III: Tất trang lại Để làm cực tiểu trang đƣợc đọc Đầu tiên, thuật toán đọc trang thuộc lớp I Sau đó, trang thuộc lớp II Tiếp theo, thuật toán gần nhƣ phải đọc trang lớp I để hoàn thành q trình tính tốn khoảng cách cặp điểm.Các trang lớp III khơng cần thiết cho q trình tính tốn khoảng cách cặp điểm Chú ý việc thực thuật toán phụ thuộc vào số lƣợng trang trắng( Các trang thuộc lớp I) Xem xét ví dụ đơn giản bao gồm 600 trang tập liệu Giả sử từ trang đến 200 trang thuộc lớp I, từ trang 201 đến 400 trang thuộc lớp II, từ 401 đến 600 trang thuộc lớp III Giả sử điểm p ánh xạ tới ô trắng Cw đƣợc lƣu trang i( thuộc lớp I) Để p thực q trình tính tốn khoảng cách p điểm q thuộc trang ánh xạ tới thuộc tính L2(Cw), phân đối tƣợng mà cần làm loại: Các điểm trắng ánh xạ tới ô trắng ánh xạ tới ô trắng thuộc L2 ô Cw Các điểm không trắng q ánh xạ tới ô không trắng thuộc L2 Cw đƣợc lƣu trang j ≥ i 47 Các điểm không trắng q ánh xạ tới ô không trắng thuộc L2 Cw đƣợc lƣu trang j i Với loại đối tƣợng đầu tiên, cặp điểm (p,q) đƣợc giữ nhớ sau 200 trang đầu đƣợc đọc Bởi chúng điểm trắng Do khoảng cách chúng đƣợc tính tốn biến đếm ( biến đếm biến dùng để đếm số lƣợng đối tƣợng tập lân cận điểm p) đƣợc cập nhật sau tất trang thuộc lớp I đƣợc đọc Với loại đối tƣợng thứ hai, khoảng cách cặp đối tƣợng (p,q) đƣợc xử lý trang j đƣợc đọc vào nhớ chính, điểm p nằm nhớ trang j ≤ i Do đó, sau 400 trang đƣợc đọc bao gồm tất trang thuộc lớp I lớp II đối tƣợng loại thứ hai đƣợc kiểm tra Vấn đề liên quan tới đối tƣợng thứ ba Trong trƣờng hợp này, q(đƣợc lƣu trang j) đƣợc đọc vào nhớ điểm p( lƣu trang i) chƣa đƣợc đọc Vì q điểm khơng trắng nên khơng đƣợc lƣu lại p đƣợc lƣu vào điểm q khơng cịn nằm nhớ Do đó, trƣờng hợp địi hỏi phải đọc lại trang j Nhìn chung, tất trang lớp I cần phải đọc lại.Nhƣng rõ ràng có điểm trắng đƣợc lƣu nhớ chính, đótrong trƣờng hợp cần phải đọc lại trang j Nhìn chung, tất trang lớp I cần phải đọc lại Nhƣng rõ ràng có điểm trắng đƣợc lƣu nhớ chính, có đủ nhớ để đọc lại trang thuộc lớp I lần thứ hai Trƣớc trình bầy thức thuật toán đƣa hai vấn đề tổng quát cho ví dụ Thứ nhất, ví dụ giả sử tất trang thuộc lớp I đƣợc đánh số trƣớc trang lớp II trang đƣợc đọc theo thứ tự tăng dần Thứ hai, trang thuộc lớp I phân chia vào hai lớp con: 48 - Lớp I.1 gồm trang không chứa đối tƣợng không trắng mà cần - Lớp I.2 bao gồm trang chứa đối tƣợng không trắng mà cần Theo nhƣ phân tích cần đọc lại lớp I nhƣng theo phân chia cần đọc lại trang thuộc lớp I.2 Để cho đơn giản đánh giá khơng đƣợc mơ tả thuật toán Thuật toán FindAllOutsD cho phần tử ngoại lai nằm nhớ ngồi Tƣ tƣởng thuật tốn Hầu hết cơng việc xử lí bƣớc đầu thuật toán FindAllOutsM Nhƣng bƣớc thuật tốn FindAllOutsD khơng lƣu lại p mà đƣa ý trang lƣu điểm p có chứa điểm ánh xạ tới ô Cq Điều quan trọng cần biết có đối tƣợng trang Trong bƣớc 5.c.2 ô trắng đƣợc tô vàng tất đối tƣợng ô phần tử ngoại lai Các đối tƣợng nhận dạng bƣớc sau chúng đƣợc đọc từ trang chúng bƣớc thuật toán Bƣớc đọc trang chứa điểm trắng điểm vàng Điều tƣơng ứng với việc đọc tất trang thuộc lớp I Những điểm trắng điểm vàng từ trang đƣợc lƣu vào trắng Cw mà chúng ánh xạ tới Cw chứa xác Countw đối tƣợng Countw< M Để chuẩn bị cho q trình tính tốn khoảng cách, bƣớc 6.b.1 khởi tạo biến đếm đối tƣợng thuộc tập lân cận điểm Cw số lƣợng điểm CwUL1(Cw) Trong bƣớc 7, với ô trắng Cw, đếm số lƣợng đối tƣợng tập lân cận đối tƣợng p thuộc Cw cách sử 49 dụng điểm đƣợc đọc lƣu vào ô bƣớc Ngay sau tìm thấy p có M đối tƣợng q trình đếm tập lân cận (S(p)) p, thuật toán dừng lại đánh dấu p không ngoại lai Sau bƣớc này, có số trắng không yêu cầu đọc thêm trang từ tập liệu Do làm giảm số lƣợng trang cần đọc bƣớc Việc đọc trang có đối tƣợng ánh xạ đến ô không trắng không vàng bƣớc cần thiết Điều tƣơng đƣơng với việc đọc tất trang thuộc lớp II đọc lại( số trang ) lớp I Và tiếp tục số lƣợng tập lân cận điểm p ô trắng lại đƣợc đếm cách sử dụng đối tƣợng đƣợc đọc bƣớc Nếu trình đếm mà tập lân cận điểm p vƣợt M ta đánh dấu p khơng ngoại lai Mơ tả thuật tốn FindAllOutsD Thuật tốn FindAllOutsD đƣợc mô tả nhƣ sau: For (q=1;q≤ m; q++) Countq = 0; For( đối tƣợng p thuộc T) {a ánh xạ P tới ô Cq phù hợp nhƣng không lƣu P b Countq++; c Đánh dấu ô Cq ánh xạ tới trang chứa điểm P } For (q=1;q≤m;q++)if(Countq> M) Cq=đỏ; For(mỗi ô đỏ Cr) { C1= hồng;(trong C1 thuộc L1(Cr) chƣa đƣợc gán mầu đỏ) 50 For ( ô mầu trắng Cw) do: a Countw2 = Countw + Counti; b If(Countw2> M) Cw= hồng c Else { Countw3=Countw2 + Counti; If (Countw3< M) Cw= vàng // tức tất điểm ánh xạ tới ô Cw ngoại lai; Else Sumw = Countw2 ; FOR( Mỗi trang i chứa điểm trắng điểm vàng) a Đọc trang i ; b For ( ô trắng ô vàng Cq có điểm ánh xạ tới trang i) For( đối tƣợng p trang i ánh xạ tới Cq) i Lƣu p vào Cq ii Kountp = Sumq For ( đối tƣợng p ô trắng Cw) a for( ô trắng ô vàng CL L2((Cw)) for ( đối tƣợng q CL ) if ( d(p,q) ≤ D) { Kountp ++ ; If (Kountp>M) đánh dấu p ngoại lai ; xét điểm p (go to 7)} 51 For ( đối tƣợng q ô vàng ) thông báo q ngoại lai For (mỗi trang chứa điểm không trắng không vàng ánh xạ tới ô thuộc L2 số ô trắng C ) a Đọc trang i b For (mỗi ô Cq L2(C) khơng trắng khơng vàng có số điểm trang i) 10 For (mỗi đối tƣợng q trang i ánh xạ tới Cq) i.for( ô trắng Cw L2(Cq)) for (mỗi đối tƣợng p (Cw) if ( d(p,q) D) { Kountp ++; if (Kountp>M) đánh dấu p không ngoại lai;} Chƣơng trình bày định nghĩa, thuật tốn tìm kiếm phần tử ngoại lai sở liệu để thể rõ thuật toán xây dựng mơ thuật tốn Nested-Loop phần chƣơng 52 CHƢƠNG III: CHƢƠNG TRÌNH THỰC NGHIỆM Ứng dụng vào tốn tìm kiếm ghi ngoại lai bảng lƣơng tháng cán công nhân viên điện lực TP Thái Nguyên Demo chƣơng trình tìm kiếm phần tử ngoại lai sở liệu thuật toán Nested – Loop Input: Một bảng excel lƣơng cán công nhân viên điện lực TP Thái Nguyên Cơ sở liệu bao gồm trƣờng: + STT: Số thứ tự, mã bảng CSDL lƣơng tháng + PHONG: phịng chun mơn + HoTen: Tên cán + TaiKhoan: Tài khoản ngân hàng + TenTaiKhoanNH: Tên tài khoản ngân hàng + PCCV: Phụ cấp chức vụ 53 + HeSoLuong: hệ số lƣơng + PCTN: Phụ cấp TN + HeSoTNTT: Hệ số TNTT + XepLoai: Xếp loại + SoTien: Số tiền + TruyLinh: Truy Lĩnh + TongCong: Tổng Cộng Cách tính lƣơng: + Nếu xếp loại “A” cách tính lƣơng nhƣ sau: - (HeSoLuong + PCCV + PCTN)* HSTNTT* 1150000 (1150000 lƣơng bản) + Nếu xếp loại “B” cách tính lƣơng nhƣ sau: - (HeSoLuong + PCCV + PCTN)* HSTNTT * 0.75 * 1150000 + Nếu xếp loại “C” cách tính lƣơng nhƣ sau: - (HeSoLuong + PCCV + PCTN)* HSTNTT * 0.5 * 1150000 54 Ứng dụng thuật tốn Nested-Loop tìm phần tử ngoại lai dựa khoảng cách Ơ-cơ-lít ta coi ghi sở liệu vecto chiều nhƣ sau: V(a1,a2,a3,a4,a5) đó: a1: HeSoLuong a2: PCCV a3: PCTN a4: HSTNTT a5: XepLoai Đọc liệu từ CSDL bảng tính excel: Kiểm tra: Tìm kiếm phần tử ngoại lai sở liệu 55 Dựa vào tham số p,D thay đổi sau lần tìm kiếm với CSDL có số lƣợng ghi lớn Đối với CSDL có số lƣợng ghi vừa đủ tham số p,D có tính định đến ghi “đặc biệt” đƣợc tìm thấy Các tham số p,D khởi tạo giá trị ban đầu không tốt nhiều thời gian tìm kiếm, tất ghi ngoại lai (hoặc không ghi ngoại lai) Giá trị p chọn cách dễ dàng hơn, gần với Giá trị D xác định cách lấy mẫu, sử dụng biến đổi thành dạng xấp xỉ chuẩn kết hợp với việc tính toán ƣớc lƣợng khoảng cách Chức đƣa thông tin ghi đặc biệt 56 KẾT LUẬN Việc tìm kiếm phần tử ngoại lai nhiệm vụ quan trọng lĩnh vực khám phá tri thức sở liệu Luận văn tìm hiểu tổng quan lĩnh vực khám phá tri thức sở liệu, khai thác liệu Đồng thời giới thiệu đánh giá thuật toán tìm kiếm phần tử ngoại lai sở liệu lớn, nằm nhớ ngoài.Với phần tử ngoại lai theo cách nhìn tồn cục, luận văn giới thiệu thuật toán Nested - Loop thuật tốn đánh giá theo phát phần tử ngoại lai đƣợc thực tập liệu lớn, nhiều chiều, nằm nhớ ngồi Thuật tốn Nested – Loop thuật toán phân chia tập liệu thành khối liệu, sử dụng vòng lặp để tính tốn khoảng cách, tìm kiếm phần tử ngoại lai khối Thuật tốn NL có độ phức tạp O(kN2) (k chiều N cỡ liệu) Tuy nhiên, số lần đọc tập liệu vào nhớ thuật tốn khơng bé n-2 lần đọc nhƣng lại nhỏ nhỏ n-1 lần đọc với n tổng số khối tập liệu Do đó, thuật tốn NL nhiều thời gian đọc liệu Thuật tốn thứ ba đƣợc trình bầy thuật tốn đánh giá theo ơ, thuật tốn gồm hai phiên cho hai chiều đa chiều Phiên đầu mơ tả thuật tốn áp dụng cho tập liệu lớn, nằm nhớ Phiên thứ hai cải tiến thuật toán thứ để thuật tốn thực với sở liệu nằm nhớ Thuật tốn đánh giá theo ánh xạ đối tƣợng tập liệu vào ô phù hợp, sau đánh giá quan hệ để tìm kiếm phần tử ngoại lai Thuật tốn giảm cách đáng kể cơng việc tính tốn khoảng cách cặp điểm Độ phức tạp thuật tốn đánh giá theo tuyến tính với N nhƣng lại lũy thừa chiều liệu : 57 O( m ck/2 + kN), với m số ô, c số Luân văn thuật toán thực nhiều lần đọc tập liệu từ nhớ vào nhớ Thực nghiệm Knorr chứng tỏ với tập liệu lớn có số chiều nhỏ thuật tốn đánh giá theo có thời gian thực thuật toán Nested – Loop Tuy nhiên, với tập liệu có số chiều lớn 4, thuật tốn Nested – Loop lại có thời gian thuật tốn đánh giá theo thuật tốn đánh giá theo có độ phức tạp lũy thừa liệu Chƣơng cụ thể thuật toán chƣơng trình Demo ứng dụng vào tốn tìm kiếm lỗi bảng lƣơng tháng cán cán công nhân viên điện lực TP Thái Nguyên Hƣớng phát triển đề tài: + Thứ phân cụm phần tử ngoại lai + Thứ hai xử lý song song: Khi tìm kiếm phần tử ngoại lai mạnh nhất, nhiều thực thi thuật tốn FindAllOutsD thực song song Một triển khai song song giảm đáng kể tổng thời gian Hơn giảm bớt tắc nghẽn I/O, khối đĩa lần duyệt tập liệu đƣợc truyền tới nhiều xử lý 58 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Andrew, D , Bickel, P., Hampel, F., Huber, P., Rogers, W., and Turkey, J (1972), Robust estimators of localtion: Survey and advances, Technical report, Princeton Univercity Press, Princeton, NJ [2] Anton, H and Rorres, C (1994), Elementary Linear Algebra: Applixations Versions, John Wiley & Sons, 7th edition [3] Anton, A (1983), Diagnotic regression analysis and shifted power transformations, Technometrics, 25(1), pp.22 -33 [4] Barnett, V and Lewis T.(1994), Outliners in Statiscal Data, Jonh Wiley, 3rd edition [5] Bechmann, N., Kriegel, H-P., Schneider, R., and Seeger, B (1990), The R* - tree: An efficient and robust access method for points and rectangles, In Proc ACMSIGMOD, pp.322-331 [6] Box, G and Cox, D.(1964), An analysis of transformations (with discussion) journal of the Royal Statiscal Society, Series B ( Methoddological), 26, pp 211 – 252 [7] Breuing, M., Kreigel, H – P., Ng, R., and Sander, J (2000), LOF: Identifying density –based local outliners.In Proc SIGMOD, pp 93 – 104 [8] Burden, R and Faires, J (1993), Numerical analysis, PWS Publishing 59 Tiếng Việt [1] Lê Tiến Vƣơng, Nhập môn sở liệu quan hệ, Nhà Xuất Khoa học Kỹ Thuật,1995 [2] Tamer Ozsu M Partrick Valduriez, Nguyên lý hệ sở liệu phân tán, Trần Đức Quang dịch, Nhà xuất Thống kê, 1999 60 ... sử dụng Chú ý P phần tử ngoại lai –j với không gian –j Chúng ta phân biệt phần tử ngoại lai phổ biến phần tử ngoại lai có cấu trúc Các phần tử ngoại lai phổ biến phần tử ngoại lai -1, phần tử ngoại. .. PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI 10 1.1 Khám phá tri thức 10 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu 14 1.3 Phần tử ngoại lai ... khơng ngoại lai Ngƣợc lại sau kết thúc trình tìm kiếm mà lực lƣợng S(o) M thơng báo O phần tử ngoại lai Các khái niệm độ mạnh phần tử ngoại lai DB Định nghĩa 2: Một phần tử ngoại lai –j phần tử ngoại

Ngày đăng: 24/02/2021, 21:47

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan