1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu các phần tử ngoại lai

84 288 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 1,7 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI TRẦN VIỆT CƯỜNG NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI TRẦN VIỆT CƯỜNG NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI Chuyên ngành: Khoa học Máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ MÁY TÍNH Người hướng dẫn khoa học: GS.TS Vũ Đức Thi HÀ NỘI, 2015 LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn tới GS.TS Vũ Đức Thi, thầy nhiệt tình hướng dẫn giúp đỡ em trình hoàn thành luận văn Em xin chân thành gửi lời cảm ơn tới thầy cô Viện CNTT thuộc Viện Khoa học Hàn lâm Việt Nam tận tình giảng dạy, bảo giúp đỡ em trình học tập trường thời gian hoàn thành luận văn Em xin chân thành gửi lời cảm ơn tới thầy cô phòng Sau Đại học, khoa CNTT thư viện trường ĐHSPHN2 tận tình giúp đỡ truyền đạt kiến thức quý giá trình học tập trình hoàn thành luận văn LỜI CAM ĐOAN Tôi xin cam đoan tất số liệu kết nghiên cứu luận văn hoàn toàn trung thực không trùng lặp với đề tài khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc Tác giả luận văn Trần Việt Cường MỤC LỤC TRẦN VIỆT CƯỜNG .1 NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI .1 HÀ NỘI, 2015 TRẦN VIỆT CƯỜNG .2 NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI .2 BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Nghĩa tiếng Việt Knowledgement Discovery in Database Khám phá tri thức sở liệu DB Distance Based Dựa khoảng cách LOF Local Outlier Factor Yếu tố ngoại lai cục KDD MỞ ĐẦU Lý chọn đề tài Trong sống đại ngày nay, ngày phải đối mặt với nhiều vấn đề cần giải như: Làm để phát thẻ rút tiền bất thường hệ thống ngân hàng, bất thường thị trường chứng khoán, tuyến đường bất ổn không hợp lý giao thông, ứng dụng hệ thống an ninh, dự báo thời tiết, lĩnh vực thể thao…vv Tuy nhiên, với số lượng liệu tập trung lưu trữ sở liệu ngày lớn việc tìm kiếm phần tử ngoại lai trở nên cần thiết nhiều sống Xuất phát từ yêu cầu ý nghĩa thực tiễn đó, đồng thời mong muốn tìm hiểu nghiên cứu vấn đề này, lựa chọn thực luận văn với đề tài “Nghiên cứu phần tử ngoại lai” Đây lĩnh vực tương đối mới, hy vọng đề tài với hướng dẫn GS.TS Vũ Đức Thi, góp ý chuyên gia giúp giải số toán thực tế phục vụ cho xã hội ngày phát triển công Công nghiệp hóa Hiện đại hóa đất nước Mục đích nghiên cứu - Cung cấp số giải thích mô tả không gian liệu mà xuất phần tử ngoại lai - Cung cấp số thông tin mối quan hệ phần tử ngoại lai - Đưa ứng dụng liên quan đến phần tử ngoại lai nhằm giải vướng mắc thực tế Nhiệm vụ nghiên cứu - Tìm hiểu khái niệm khám phá tri thức khai thác liệu - Tìm hiểu khái niệm phần tử ngoại lai theo cách nhìn địa phương toàn cục - Tìm hiểu thuật toán tìm kiếm phần tử ngoại lai liệu lớn, nhiều chiều - Kiểm tra, đánh giá thuật toán sở liệu thực tập liệu khách hàng Ngân hàng Nông nghiệp Phát triển Nông thôn Agribank Đối tượng phạm vi nghiên cứu - Nghiên cứu phần tử ngoại lai, mối quan hệ phần tử ngoại lai khai thác liệu ứng dụng phần tử ngoại lai - Tìm hiểu thuật toán Nested-Loop, thuật toán đánh giá theo ô đồng thời đánh giá độ phức tạp thuật toán việc tìm kiếm phần tử ngoại lai Phương pháp nghiên cứu - Tham khảo tài liệu có liên quan đến lĩnh vực nghiên cứu phần tử ngoại lai việc khai thác xử lý liệu - Tham khảo ý kiến chuyên gia, thầy hướng dẫn lĩnh vực nghiên cứu - Lập kế hoạch, lên quy trình tiến độ thực đề tài Đóng góp đề tài: - Hệ thống hóa sâu vào vấn đề nghiên cứu - Có thể sử dụng kết nghiên cứu để phát triển thành ứng dụng giải số toán vướng mắc thực tế NỘI DUNG CHƯƠNG 1: KHÁM PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU VÀ PHẦN TỬ NGOẠI LAI Trong chương này, giới thiệu trình khám phá tri thức, khai thác liệu ứng dụng thực tế khai thác liệu có hỗ trợ kỹ thuật khai thác liệu (Data minning) Tiếp theo trình bày khái niệm phần tử ngoại lai, mối quan hệ lĩnh vực khai thác liệu lĩnh vực khám phá phần tử ngoại lai, cuối xin trình bày ứng dụng phần tử ngoại lai 1.1 Khám phá tri thức Hiện nay, với phát triển tiến ngày cao khoa học kỹ thuật, công nghệ thông tin nhu cầu thiết yếu người ngày tăng tạo nên thời đại bùng nổ thông tin lĩnh vực đời sống xã hội Với lượng thông tin ngày nhiều (có thể nói “khổng lồ”) phức tạp cần có kỹ thuật phương pháp khai thác liệu hiệu để lấy thông tin cần thiết cho công việc Việc sử dụng số ngôn ngữ truy vấn nhằm lấy thông tin theo yêu cầu người sử dụng, hầu hết ngôn ngữ lấy liệu theo yêu cầu đơn giản, tầm thường, hay kiểu liệu đa phương tiện hệ thống hỗ trợ như: Dữ liệu âm thanh, hình ảnh,… Nhưng kết đáp ứng yêu cầu người sử dụng ngày cao phức tạp Do đó, nhu cầu tìm kiếm tri thức sở liệu hình thành lĩnh vực Khám phá tri thức sở liệu; Khám phá tri thức toàn trình tìm kiếm tri thức từ liệu, bao gồm bước sau: - Chuẩn bị liệu: Dữ liệu tập trung vào sở liệu, kho lưu trữ liệu Dữ liệu “chưa sạch” tức có liệu không phù hợp, nhiễu, sai xót liệu không đầy đủ thông tin Trong bước liệu làm để loại bỏ liệu không liên quan, liệu không phù hợp, công việc tiến hành trước sau phát liệu “chưa sạch” (bị nhiễm bẩn) Sau liệu làm sạch, liệu bổ sung thông tin cần thiết, sau liệu biến đổi theo dạng phù hợp để thực trình khai thác liệu - Khai thác liệu: Khai thác liệu bước quan trọng trình khám phá tri thức, bước sử dụng kỹ thuật phương thức thông minh để xác định mẫu liệu theo yêu cầu người dùng Khai thác liệu định nghĩa trình khai thác, khám phá thông tin hữu ích, chưa biết trước, tiềm ẩn không tầm thường từ tập liệu lớn Khai thác liệu bao gồm: ♦ Tìm kiếm luật kết hợp: Sử dụng luật đơn giản để biểu diễn tri thức Tìm kiếm mối quan hệ có ích liệu ♦ Phát phần tử ngoại lệ: Tìm kiếm xác định đối tượng liệu lỗi, bất thường phần tử ngoại lai ♦ Nhận dạng phân lớp mẫu: Tìm kiếm, xác định mẫu theo yêu cầu, phân chia mẫu thành lớp nhằm phục vụ cho mục đích sử dụng ♦ Dự báo: Xác định hàm hổi quy Môi trường khám phá tri thức nhằm mục đích hỗ trợ trình khai thác liệu Do đó, hai thuật ngữ “khai thác liệu” (Data Mining) “khám phá tri thức” (Knowledge Discovery) thường sử dụng để thay cho - Đánh giá: Trong bước bao gồm bước nhỏ đánh giá mẫu biểu diễn tri thức Đánh giá mẫu tìm mẫu quan tâm từ mẫu có bước khai thác liệu, sử dụng ngưỡng cần thiết để lọc 68 CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM 4.1 Yêu cầu cài đặt Chương trình “Thuật toán Nested Loop” viết ngôn ngữ C# Visual Studio 2010 sử dụng phiên Net Framewok 4.0 Yêu cầu tối thiểu hệ thống sử dụng chương trình: - Net Framework phiên 4.0 trở lên - Hệ điều hành tối thiểu Windows XP SP2 - Sql Server phiên 2000 trở lên Phiên Net Framework 4.0 hỗ trợ hệ điều hành Windows XP SP3 trở lên, để cài đặt Windows XP SP2, cần cài đặt thêm phần mở rộng Windows Imaging Component (WIC) trước cài đặt Net Framework 4.0 Mã nguồn biên dịch thành tệp thực thi exe môi trường Windows nên cần cài đặt thư viện yêu cầu chạy chương trình 4.1.1 Cấu trúc tệp liệu đầu vào Chương trình sử dụng file Excel để chứa liệu đầu vào Cấu trúc file sau: + Tên file excel: Tùy ý theo quy chuẩn đặt tên file hệ điều hành Windows + Gồm sheet chứa liệu: Sheet1: Chứa liệu toàn ghi, dòng thứ tiêu đề cột có cấu trúc: (MaKH; TenKH; SoTienPheDuyet; SoGocDaThu; SoLaiDaThu) tên cột liệu, dòng ghi chứa liệu xử lý 69 Hình 4.1 Bảng liệu đầu vào excel 4.1.2 Cấu trúc lớp chương trình Mối liên hệ lớp chương trình: Hình 4.2 Mối liên hệ lớp chương trình 70 Chương trình thiết kế bao gồm lớp sau: • ImportData: Thao tác với tệp liệu Excel đưa vào sở liệu SQL Server Ngoài ra, chứa phương thức để đọc liệu từ sở liệu vào nhớ xử lý Hình 4.3 Lớp ImportData chương trình • NestedLoopAlgo: Chứa hai phương thức quan trọng sử dụng thuật toán ProcessSelf đánh dấu phần tử ngoại lai khối ProcessOther kiểm tra với ghi thuộc khối khác Đây lớp thực thi thuật toán Nested Loop Hình 4.4 Lớp NestedLoopAlgo chương trình • SqlHelper: Chịu tránh nhiệm làm việc với sở liệu SqlServer 71 Hình 4.5 Lớp SqlHelper chương trình • NestedLoopMain: Xử lý giao diện chương trình 4.2 Thực chương trình đánh giá kết 4.2.1 Sơ đồ thuật toán Nested Loop a) Bài toán: Cài đặt thuật toán Nested Loop tìm kiếm phần tử ngoại lai tập liệu khách hàng ngân hàng • Dữ liệu đầu vào: File excel chứa liệu khách hàng ngân hàng Nông nghiệp Phát triển Nông thôn Agribank • Tham số đầu vào gồm: p: Phần trăm tối thiểu đối tượng tập liệu mà đối tượng không ngoại lai D: khoảng cách ước lượng để tìm kiếm phần tử ngoại lai 72 b) Thuật toán Nested Loop: Đưa khối T vào mảng A Kết thúc đưa phần tử ngoại lai chưa đánh dấu Đ S i số khối? S j [...]... về phần tử ngoại lai, việc xác định các phần tử ngoại lai trong mỗi lĩnh vực là khác nhau, bởi vì ý nghĩa ngoại lai của các phần tử ngoại lai mang tính chất và đặc trưng của từng lĩnh vực áp dụng (có thể nhiễu của người này nhưng lại là tín hiệu tốt của người khác), nên rất khó có thể đưa ra được một định nghĩa hoàn chỉnh và chính xác về phần tử ngoại lai 17 CHƯƠNG 2: MỘT SỐ THUẬT TOÁN TÌM KIẾM PHẦN... thuật phát hiện phần tử ngoại lai nhằm các mục đích sau: ♦ Cung cấp một số thông tin về mối quan hệ giữa các phần tử ngoại lai ♦ Cung cấp một số giải thích hoặc mô tả về không gian dữ liệu mà trong đó xuất hiện phần tử ngoại lai Và một vấn đề khác chúng tôi cần quan tâm đó là việc liên quan tới ý nghĩa của các phần tử ngoại lai Cho đến nay, chưa có một định nghĩa nào có 16 thể định nghĩa một cách đầy đủ... một định nghĩa nào về phẩn tử ngoại lai nào được chấp nhận rộng rãi, các phần tử ngoại lai thường được xem là các điểm không thỏa mãn mô hình dữ liệu đang xét Việc phần tử ngoại lai có bị loại bỏ hay không còn phụ thuộc vào từng chương trình ứng dụng và quyết định bởi các chuyên gia 1.3.2 Những ứng dụng của phần tử ngoại lai Đối với một số ứng dụng khám phá tri thức, thường các sự kiện hiếm có, khó có... không ngoại lai Ngược lại, sau khi tiến hành tính toán khoảng cách với tất cả các đối tượng thuộc L2(Cx,y) mà sl vẫn nhỏ hơn M thì thông báo P là ngoại lai Ta xét ví dụ về cách chọn cấu trúc ô được trình bày ở hình 2.2.a Các ô đỏ là các ô có số lượng lớn hơn 4 điểm, những ô đó không chứa phần tử ngoại lai Hơn nữa, tất cả các ô liền kề tức là những ô thuộc vào L1 cũng sẽ không chứa phần tử ngoại lai và... cả các tính chất trong phần 2.3.1 được sử dụng để trợ giúp cho việc xác định các phần tử ngoại lai và không ngoại lai trên cơ sở quan hệ ô - ô và hơn nữa trên cơ sở tính toán khoảng cách giữa các cặp đối tượng, điều này làm giảm thời gian thực hiện thuật toán một cách đáng kể bởi vì có thể loại bỏ một cách nhanh chóng số lượng lớn các đối tượng không phải là ngoại lai Đối với các ô không thỏa mãn các. .. PHẦN TỬ NGOẠI LAI DỰA TRÊN KHOẢNG CÁCH Trong chương này chúng tôi sẽ trình bày khái niệm các phần tử ngoại lai theo cách nhìn toàn cục, đồng thời giới thiệu thuật toán Nested Loop và hai phiên bản của thuật toán đánh giá theo ô để tìm kiếm các phần tử ngoại lai dựa trên các tập dữ liệu chính nhiều chiều nằm trong bộ nhớ trong và nằm trong bộ nhớ ngoài Chúng tôi đánh giá độ phức tạp về thời gian của các. .. tượng thuộc S(o) mà một đối tượng ngoại lai có thể có 18 Theo định nghĩa các phần tử ngoại lai dựa trên khoảng cách DB(p,D) thì M=(1 - p)*N Việc tìm kiếm tất cả các phần tử ngoại lai sẽ được bắt đầu từ việc tìm kiếm các đối tượng thuộc S(o) của tất cả các điểm O trong tập dữ liệu Trong quá trình tìm kiếm nếu số lượng của S(o) lớn hơn M thì O được gọi là không ngoại lai Ngược lại sau khi kết thúc quá... màu hồng Hình 2.2.b có thêm 3 ô màu hồng được các hình mũi tên chỉ tới Trong hình 2.2.c, ta thấy có một phần tử ngoại lai khả nghi bởi vì không có điểm nào nằm trong các ô thuộc L1 Hình 2.2.d cho biết rằng phần tử ngoại lai tiềm ẩn đó thực chất là phần tử ngoại lai bởi vì chỉ có 3 điểm nằm trong các ô thuộc vào L2 Trong đó L2 là vùng giới hạn bởi L1 và các đoạn thẳng được gán nhãn L2 (xem hình vẽ)... ra bởi một kỹ thuật khác” [10] Nói cách khác, các đối tượng không cùng một mô hình tạo sinh với tập dữ liệu còn lại được xem là phần tử ngoại lai Các phần tử ngoại lai có thể do lỗi thực hiện hoặc lỗi do phép đo gâp ra Ví dụ việc hiển thị một người có tuổi 1000 có thể là do việc thiết lập mặc định chương trình không giới hạn tuổi dữ liệu Mặt khác, các phần tử ngoại lai có thể là kết quả của quá trình... tập dữ liệu còn lại Những đối tượng có đặc tính như vậy được gọi là phần tử ngoại lai Có nhiều định nghĩa được đưa ra để định nghĩa phần tử ngoại lai như định nghĩa của Barnet và Levis: “Một phẩn tử ngoại lai là một đối tượng xuất hiện không nhất quán với tập dữ liệu còn lại” Với Hawkins thì mô tả định nghĩa trực quan về phần tử ngoại lai có thể là “Một đối tượng mà nó lệch hướng rất 12 nhiều với đối ... o2 gọi phần tử ngoại lai, ngược lại đối tượng C C2 lại ngoại lai Với khái niệm ngoại lai cục hy vọng o o2 phần tử ngoại lai Ngược lại, nội dung khái niệm phần tử ngoại lai dựa khoảng cách có... triển Nông thôn Agribank Đối tượng phạm vi nghiên cứu - Nghiên cứu phần tử ngoại lai, mối quan hệ phần tử ngoại lai khai thác liệu ứng dụng phần tử ngoại lai - Tìm hiểu thuật toán Nested-Loop, thuật... .1 NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI .1 HÀ NỘI, 2015 TRẦN VIỆT CƯỜNG .2 NGHIÊN CỨU CÁC PHẦN TỬ NGOẠI LAI .2 BẢNG KÝ HIỆU CÁC CHỮ

Ngày đăng: 13/04/2016, 09:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w