1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các phần tử ngoại lai trong cơ sở dữ liệu và ứng dụng

77 103 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 2,1 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN XUÂN TRƯỜNG NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI TRONG CSDL & ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN – 2014 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN XUÂN TRƯỜNG NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI TRONG CSDL & ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: GS.TS VŨ ĐỨC THI THÁI NGUYÊN – 2014 LỜI CAM ĐOAN Luận văn thạc sỹ nghiên cứu thực hướng dẫn Thầy giáo GS.TS Vũ Đức Thi Để hoàn thành luận văn này, tài liệu liệt kê, cam đoan không chép cơng trình thiết kế tốt nghiệp người khác Thái Nguyên, ngày 18 tháng 04 năm 2014 Học viên Nguyễn Xuân Trường LỜI CẢM ƠN Trước hết, vô biết ơn sâu sắc đến Thầy giáo GS.TS Vũ Đức Thi, người thầy trực tiếp dành nhiều thời gian tận tình hướng dẫn, cung cấp thơng tin, tài liệu q báu giúp đỡ tơi hồn thành luận văn Sau xin bày tỏ lòng biết ơn đến người thân, bạn bè, đồng nghiệp quan, người cổ vũ động viên tơi hồn thành luận văn tốt nghiệp Thái Nguyên, ngày 18 tháng 04 năm 2014 Học viên Nguyễn Xuân Trường MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC THUẬT NGỮ DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG I: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI 10 1.1 Khám phá tri thức 10 1.2 Các ứng dụng sử dụng kỹ thuật khai thác liệu 14 1.3 Phần tử ngoại lai 14 1.4 Mối quan hệ phần tử ngoại lai khai thác liệu 18 1.5 Ứng dụng phần tử ngoại lai 19 CHƯƠNG II: CÁC ĐỊNH NGHĨA, THUẬT TỐN TÌM KIẾM CÁC PHẦN TỬ NGOẠI LAI 21 2.1 Các định nghĩa thuật ngữ phần tử ngoại lai 21 2.2 Các thuật tốn tìm kiếm phần tử ngoại lai sở liệu 26 2.2.1 Thuật toán Nested – Loop 26 2.2.2 Thuật tốn tìm kiếm phần tử ngoại lai không tầm thường (FindNonTrivialOuts) 30 2.2.3 Thuật toán đánh giá theo ô 33 CHƯƠNG III: CHƯƠNG TRÌNH THỰC NGHIỆM 53 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 59 DANH MỤC THUẬT NGỮ Từ viết tắt Nghĩa từ Box_Cox Tên phép biến đổi thành dạng xấp xỉ chuẩn DB (Distance Based) Dựa theo khoảng cách DSE (Donoho Stahel) Tên ước lượng mạnh đa biến KDD (Know ledgement Khám phá tri thức sở liệu Discovery in Database ) LOF ( Local Outlier Factor) Yếu tố ngoại lai cục MAD (Median Absolute Là tên ước lượng mạnh đơn biến Deviation) NL ( Nested Loop) Tên thuật toán phát phần tử ngoại lai Shorth ( Shortest half) Là tên ước lượng mạnh đơn biến DANH MỤC HÌNH VẼ Hình 1.1: Qui trình KDD Knowledgement Discovery in Database – Khám phá tri thức Cơ sở liệu 11 Hình 2.1: 32 Hình 2.2.a: 39 Hình 2.2.b: 39 Hìn 2.2.c: 40 Hình 2.2.d: 40 MỞ ĐẦU Thế kỷ XXI xem kỷ nguyên kinh tế tri thức Các công nghệ khám phá tri thức áp dụng rộng rãi nhiều lĩnh vực đem lại thành tựu to lớn Nhưng công nghệ khám phá tri thức thường nhằm mục đích tìm kiếm, khám phá, dạng mẫu thường gặp Chủ yếu tập trung vào hướng: Tìm kiếm luật kết hợp, nhận dạng phân lớp mẫu…Còn lĩnh vực khám phá phần tử ngoại lai bước đầu quan tâm nghiên cứu Mặc dù ứng dụng nhiều lĩnh vực sống: phát thẻ bất thường hệ thống ngân hàng, tuyến đường bất ổn không hợp lý giao thong, ứng dụng hệ thống an ninh, dự báo thời tiết, thị trường chứng khoán, lĩnh vực thể thao Tuy nhiên, với số lượng liệu tập trung lưu trữ sở liệu ngày lớn việc tìm kiếm ngoại lệ phần tử ngoại lai trở nên cấp thiết nhiều CHƯƠNG I: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI Nội dung chương giới thiệu trình khám phá tri thức, khai thác liệu ứng dụng thực tế có hỗ trợ kỹ thuật khai thác liệu Đồng thời trình bày khái niệm phần tử ngoại lai mối quan hệ lĩnh vực khám phá phần tử ngoại lai lĩnh vực khai thác liệu 1.1 Khám phá tri thức Với tiến khoa học kỹ thuật nhu cầu người ngày tăng tạo nên thời đại bùng nổ thông tin lĩnh vực đời sống Với lượng thông tin “ khổng lồ” cần có kỹ thuật khai thác liệu hiệu để lấy thông tin hữu ích Một số ngôn ngữ chuy vấn sử dụng nhằm lấy thông tin yêu cầu người sử dụng, hầu hết ngôn ngữ lấy liệu theo yêu cầu đơn giản Các kiểu liệu đa phương tiện số hệ thống sở liệu hỗ trợ như: Dữ liệu âm thanh, hình ảnh…khơng thể đáp ứng yêu cầu người sử dụng ngày cao phức tạp Do đó, với nhu cầu tìm kiếm tri thức sở liệu hình thành lĩnh vực mới: Khám phá tri thức sở liệu Khám phá tri thức tồn q trình tìm kiếm tri thức liệu, bao gồm bước sau: - Chuẩn bị liệu : Dữ liệu tập chung vào sở liệu, kho liệu Dữ liệu chưa tức có liệu sai sót, khơng phù hợp, nhiễu, liệu khơng đủ thơng tin Do đó, bước liệu làm để loại bỏ liệu không phù hợp, liệu không liên quan Công việc tiến hành trước sau phát liệu không Đồng thời, sau làm sạch, liệu làm 10 Các điểm không trắng q ánh xạ tới ô không trắng thuộc L2 Cw lưu trang j i Với loại đối tượng đầu tiên, cặp điểm (p,q) ln giữ nhớ sau 200 trang đầu đọc Bởi chúng điểm trắng Do khoảng cách chúng tính tốn biến đếm ( biến đếm biến dùng để đếm số lượng đối tượng tập lân cận điểm p) cập nhật sau tất trang thuộc lớp I đọc Với loại đối tượng thứ hai, khoảng cách cặp đối tượng (p,q) xử lý trang j đọc vào nhớ chính, điểm p nằm nhớ trang j ≤ i Do đó, sau 400 trang đọc bao gồm tất trang thuộc lớp I lớp II đối tượng loại thứ hai kiểm tra Vấn đề liên quan tới đối tượng thứ ba Trong trường hợp này, q(được lưu trang j) đọc vào nhớ điểm p( lưu trang i) chưa đọc Vì q điểm khơng trắng nên khơng lưu lại p lưu vào điểm q khơng nằm nhớ Do đó, trường hợp đòi hỏi phải đọc lại trang j Nhìn chung, tất trang lớp I cần phải đọc lại.Nhưng rõ ràng có điểm trắng lưu nhớ chính, đótrong trường hợp cần phải đọc lại trang j Nhìn chung, tất trang lớp I cần phải đọc lại Nhưng rõ ràng có điểm trắng lưu nhớ chính, có đủ nhớ để đọc lại trang thuộc lớp I lần thứ hai Trước trình bầy thức thuật tốn đưa hai vấn đề tổng quát cho ví dụ Thứ nhất, ví dụ giả sử tất trang thuộc lớp I đánh số trước trang lớp II trang đọc theo thứ tự tăng dần Thứ hai, trang thuộc lớp I phân chia vào hai lớp con: - Lớp I.1 gồm trang không chứa đối tượng không trắng mà cần - Lớp I.2 bao gồm trang chứa đối tượng không trắng mà cần Theo phân tích cần đọc lại lớp I theo phân chia cần đọc lại trang thuộc lớp I.2 Để cho đơn giản đánh giá khơng mơ tả thuật tốn Thuật tốn FindAllOutsD cho phần tử ngoại lai nằm nhớ ngồi Tư tưởng thuật tốn Hầu hết cơng việc xử lí bước đầu thuật tốn FindAllOutsM Nhưng bước thuật tốn FindAllOutsD khơng lưu lại p mà đưa ý trang lưu điểm p có chứa điểm ánh xạ tới ô Cq Điều quan trọng cần biết có đối tượng trang Trong bước 5.c.2 ô trắng tô vàng tất đối tượng phần tử ngoại lai Các đối tượng nhận dạng bước sau chúng đọc từ trang chúng bước thuật toán Bước đọc trang chứa điểm trắng điểm vàng Điều tương ứng với việc đọc tất trang thuộc lớp I Những điểm trắng điểm vàng từ trang lưu vào ô trắng Cw mà chúng ánh xạ tới Cw chứa xác Countw đối tượng Countw< M Để chuẩn bị cho q trình tính tốn khoảng cách, bước 6.b.1 khởi tạo biến đếm đối tượng thuộc tập lân cận điểm Cw số lượng điểm CwUL1(Cw) Trong bước 7, với ô trắng Cw, đếm số lượng đối tượng tập lân cận đối tượng p thuộc Cw cách sử dụng điểm đọc lưu vào ô bước Ngay sau tìm thấy p có M đối tượng trình đếm tập lân cận (S(p)) p, thuật toán dừng lại đánh dấu p khơng ngoại lai Sau bước này, có số ô trắng không yêu cầu đọc thêm trang từ tập liệu Do làm giảm số lượng trang cần đọc bước Việc đọc trang có đối tượng ánh xạ đến ô không trắng không vàng bước cần thiết Điều tương đương với việc đọc tất trang thuộc lớp II đọc lại( số trang ) lớp I Và tiếp tục số lượng tập lân cận điểm p ô trắng lại đếm cách sử dụng đối tượng đọc bước Nếu trình đếm mà tập lân cận điểm p vượt M ta đánh dấu p không ngoại lai Mô tả thuật tốn FindAllOutsD Thuật tốn FindAllOutsD mơ tả sau: 1.For (q=1;q≤ m; q++) Countq = 0; 2.For( đối tượng p thuộc T) {a ánh xạ P tới ô Cq phù hợp không lưu P b Countq++; c Đánh dấu ô Cq ánh xạ tới trang chứa điểm P } 3.For (q=1;q≤m;q++)if(Countq> M) Cq=đỏ; 4.For(mỗi ô đỏ Cr) { C1= hồng;(trong C1 thuộc L1(Cr) chưa gán mầu đỏ) 5.For ( ô mầu trắng Cw) do: a Countw2 = Countw + b If(Countw2> M) Cw= hồng c Else { Counti; 1.Countw3=Countw2 + Counti; 2.If (Countw3< M) Cw= vàng // tức tất điểm ánh xạ tới ô Cw ngoại lai; 3.Else Sumw = Countw2 ; 6.FOR( Mỗi trang i chứa điểm trắng điểm vàng) a Đọc trang i ; b For ( ô trắng ô vàng Cq có điểm ánh xạ tới trang i) For( đối tượng p trang i ánh xạ tới Cq) i Lưu p vào Cq ii Kountp = Sumq For ( đối tượng p ô trắng Cw) a for( ô trắng ô vàng CL L2((Cw)) for ( đối tượng q CL ) if ( d(p,q) ≤ D) { Kountp ++ ; If (Kountp>M) đánh dấu p ngoại lai ; xét điểm p (go to 7)} 8.For ( đối tượng q ô vàng ) thông báo q ngoại lai 9.For (mỗi trang chứa điểm không trắng không vàng ánh xạ tới ô thuộc L2 số ô trắng C ) a Đọc trang i b For (mỗi ô Cq L2(C) khơng trắng khơng vàng có số điểm trang i) 10 For (mỗi đối tượng q trang i ánh xạ tới Cq) i.for( ô trắng Cw L2(Cq)) for (mỗi đối tượng p (Cw) if ( d(p,q) D) { Kountp ++; if (Kountp>M) đánh dấu p không ngoại lai;} Chương trình bày định nghĩa, thuật tốn tìm kiếm phần tử ngoại lai sở liệu để thể rõ thuật toán xây dựng mơ thuật tốn Nested-Loop phần chương CHƯƠNG III: CHƯƠNG TRÌNH THỰC NGHIỆM Ứng dụng vào tốn tìm kiếm ghi ngoại lai bảng lương tháng cán công nhân viên điện lực TP Thái Nguyên Demo chương trình tìm kiếm phần tử ngoại lai sở liệu thuật toán Nested – Loop Input: Một bảng excel lương cán công nhân viên điện lực TP Thái Nguyên Cơ sở liệu bao gồm trường: + STT: Số thứ tự, mã bảng CSDL lương tháng + PHONG: phòng chun mơn + HoTen: Tên cán + TaiKhoan: Tài khoản ngân hàng + TenTaiKhoanNH: Tên tài khoản ngân hàng + PCCV: Phụ cấp chức vụ + HeSoLuong: hệ số lương + PCTN: Phụ cấp TN + HeSoTNTT: Hệ số TNTT + XepLoai: Xếp loại + SoTien: Số tiền + TruyLinh: Truy Lĩnh + TongCong: Tổng Cộng Cách tính lương: + Nếu xếp loại “A” cách tính lương sau: - (HeSoLuong + PCCV + PCTN)* HSTNTT* 1150000 (1150000 lương bản) + Nếu xếp loại “B” cách tính lương sau: - (HeSoLuong + PCCV + PCTN)* HSTNTT * 0.75 * 1150000 + Nếu xếp loại “C” cách tính lương sau: 1150000 (HeSoLuong + PCCV + PCTN)* HSTNTT * 0.5 * Ứng dụng thuật toán Nested-Loop tìm phần tử ngoại lai dựa khoảng cách Ơ-cơ-lít ta coi ghi sở liệu vecto chiều sau: V(a1,a2,a3,a4,a5) đó: a1: HeSoLuong a2: PCCV a3: PCTN a4: HSTNTT a5: XepLoai Đọc liệu từ CSDL bảng tính excel: Kiểm tra: Tìm kiếm phần tử ngoại lai sở liệu Dựa vào tham số p,D thay đổi sau lần tìm kiếm với CSDL có số lượng ghi lớn Đối với CSDL có số lượng ghi vừa đủ tham số p,D có tính định đến ghi “đặc biệt” tìm thấy Các tham số p,D khởi tạo giá trị ban đầu không tốt nhiều thời gian tìm kiếm, tất ghi ngoại lai (hoặc không ghi ngoại lai) Giá trị p chọn cách dễ dàng hơn, gần với Giá trị D xác định cách lấy mẫu, sử dụng biến đổi thành dạng xấp xỉ chuẩn kết hợp với việc tính tốn ước lượng khoảng cách Chức đưa thông tin ghi đặc biệt KẾT LUẬN Việc tìm kiếm phần tử ngoại lai nhiệm vụ quan trọng lĩnh vực khám phá tri thức sở liệu Luận văn tìm hiểu tổng quan lĩnh vực khám phá tri thức sở liệu, khai thác liệu Đồng thời giới thiệu đánh giá thuật tốn tìm kiếm phần tử ngoại lai sở liệu lớn, nằm nhớ ngoài.Với phần tử ngoại lai theo cách nhìn tồn cục, luận văn giới thiệu thuật toán Nested - Loop thuật toán đánh giá theo ô phát phần tử ngoại lai thực tập liệu lớn, nhiều chiều, nằm nhớ ngồi Thuật tốn Nested – Loop thuật toán phân chia tập liệu thành khối liệu, sử dụng vòng lặp để tính tốn khoảng cách, tìm kiếm phần tử ngoại lai khối Thuật tốn NL có độ phức tạp O(kN ) (k chiều N cỡ liệu) Tuy nhiên, số lần đọc tập liệu vào nhớ thuật tốn khơng bé n-2 lần đọc lại nhỏ nhỏ n-1 lần đọc với n tổng số khối tập liệu Do đó, thuật tốn NL nhiều thời gian đọc liệu Thuật tốn thứ ba trình bầy thuật tốn đánh giá theo ơ, thuật tốn gồm hai phiên cho hai chiều đa chiều Phiên đầu mơ tả thuật tốn áp dụng cho tập liệu lớn, nằm nhớ Phiên thứ hai cải tiến thuật toán thứ để thuật tốn thực với sở liệu nằm nhớ ngồi Thuật tốn đánh giá theo ô ánh xạ đối tượng tập liệu vào phù hợp, sau đánh giá ô quan hệ ô để tìm kiếm phần tử ngoại lai Thuật tốn giảm cách đáng kể cơng việc tính toán khoảng cách cặp điểm Độ phức tạp thuật tốn đánh giá theo tuyến tính với N lại lũy thừa chiều liệu : k/2 O( m c + kN), với m số ô, c số Luân văn thuật toán thực nhiều lần đọc tập liệu từ nhớ vào nhớ Thực nghiệm Knorr chứng tỏ với tập liệu lớn có số chiều nhỏ thuật tốn đánh giá theo có thời gian thực thuật toán Nested – Loop Tuy nhiên, với tập liệu có số chiều lớn 4, thuật tốn Nested – Loop lại có thời gian thuật tốn đánh giá theo thuật tốn đánh giá theo có độ phức tạp lũy thừa liệu Chương cụ thể thuật tốn chương trình Demo ứng dụng vào tốn tìm kiếm lỗi bảng lương tháng cán cán công nhân viên điện lực TP Thái Nguyên Hướng phát triển đề tài: + Thứ phân cụm phần tử ngoại lai + Thứ hai xử lý song song: Khi tìm kiếm phần tử ngoại lai mạnh nhất, nhiều thực thi thuật tốn FindAllOutsD thực song song Một triển khai song song giảm đáng kể tổng thời gian Hơn giảm bớt tắc nghẽn I/O, khối đĩa lần duyệt tập liệu truyền tới nhiều xử lý TÀI LIỆU THAM KHẢO Tiếng Anh [1] Andrew, D , Bickel, P., Hampel, F., Huber, P., Rogers, W., and Turkey, J (1972), Robust estimators of localtion: Survey and advances, Technical report, Princeton Univercity Press, Princeton, NJ [2] Anton, H and Rorres, C (1994), Elementary Linear Algebra: Applixations Versions, John Wiley & Sons, 7th edition [3] Anton, A (1983), Diagnotic regression analysis and shifted power transformations, Technometrics, 25(1), pp.22 -33 [4] Barnet, V and Lewis T.(1994), Outliners in Statiscal Data, Jonh rd Wiley, edition [5] Bechmann, N., Kriegel, H-P., Schneider, R., and Seeger, B (1990), * The R - tree: An efficient and robust access method for points and rectangles, In Proc ACMSIGMOD, pp.322-331 [6] Box, G and Cox, D.(1964), An analysis of transformations (with discussion) journal of the Royal Statiscal Society, Series B ( Methoddological), 26, pp 211 – 252 [7] Breuing, M., Kreigel, H – P., Ng, R., and Sander, J (2000), LOF: Identifying density –based local outliners.In Proc SIGMOD, pp 93 – 104 [8] Burden, R and Faires, J (1993), Numerical analysis, PWS Publishing Tiếng Việt [1] Lê Tiến Vương, Nhập môn sở liệu quan hệ, Nhà Xuất Khoa học Kỹ Thuật,1995 [2] Tamer Ozsu M Partrick Valduriez, Nguyên lý hệ sở liệu phân tán, Trần Đức Quang dịch, Nhà xuất Thống kê, 1999 ... sử dụng Chú ý P phần tử ngoại lai –j với không gian –j Chúng ta phân biệt phần tử ngoại lai phổ biến phần tử ngoại lai có cấu trúc Các phần tử ngoại lai phổ biến phần tử ngoại lai -1, phần tử ngoại. .. O phần tử ngoại lai Các khái niệm độ mạnh phần tử ngoại lai DB Định nghĩa 2: Một phần tử ngoại lai –j phần tử ngoại lai DB(p, D) với j chiều Có nhiều cách để định nghĩa độ mạnh phần tử ngoại lai. .. vùng liệu, thế, 3-D t2 phần tử ngoại lai mạnh (2) Giả sử t1 t2 phần tử ngoại lai –j Nếu t1 phần tử ngoại lai a tổ hợp j thuộc tính t2 phần tử ngoại lai b tổ hợp j thuộc tính a>b ta nói t1 phần tử

Ngày đăng: 20/02/2019, 11:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w