Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu Ngân hàng đầu tư và phát triển Việt Nam : Luận văn ThS. Công nghệ thông tin: 1.01.10

88 27 0
Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu Ngân hàng đầu tư và phát triển Việt Nam : Luận văn ThS. Công nghệ thông tin: 1.01.10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẾ VINH ÁP DỤNG LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU CHO DỮ LIỆU NGÂN HÀNG ĐẦU TƯ VÀ PHÁT TRIỂN VIỆT NAM Ngành Mã số : CÔNG NGHỆ THÔNG TIN : 1.01.10 LUẬN VĂN THẠC SỸ Người hướng dẫn khoa học: PGS TS NGÔ QUỐC TẠO HÀ NỘI, 2006 Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Ph át triển Việt Nam LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới thầy giáo PGS.TS Ngô Quốc Tạo PGS.TS Vũ Đức Thi - Viện Cơng nghệ thơng tin tận tình bảo hướng dẫn cho thực luận văn Tơi xin bày tỏ lịng biết ơn tới thầy cô thuộc Đại học Công nghệ-Đại học Quốc Gia Hà nội thầy cô Viện Công nghệ thông tin truyền thụ cho kiến thức bổ ích, tạo sở cho việc làm luận văn cho công việc sau Lời cảm ơn cuối xin gửi tới gia đình bè bạn, người ln ủng hộ, giúp đỡ động viên tơi q trình hồn thành nghiên cứu khoa học Học viên thực Nguyễn Thế Vinh Luận văn thạc sĩ Công nghệ Thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam MỤC LỤC MỤC LỤC BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU LỜI MỞ ĐẦU CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1 Khai phá liệu 1.1.1 Tổng quan khai phá liệu 1.1.2 Nhiệm vụ khai phá liệu 1.1.3 Các dạng liệu khai phá 1.1.4 Kiến trúc hệ thống khai phá liệu 10 1.1.5 Quá trình khai phá liệu 10 1.1.6 Các thành phần khai phá liệu 11 1.1.7 Một số phương pháp khai phá liệu 12 1.1.9 Các ứng dụng khai phá liệu 18 1.1.10 Phân loại hệ thống khai phá liệu 18 1.1.11 Những khó khăn việc khai phá liệu 19 2.2 Công nghệ khám phá tri thức (KDD) 20 2.2.1 Khám phá tri thức gì? 20 2.2.2 Vai trò mục tiêu KDD 22 2.2.3 Quá trình phát tri thức 23 CHƯƠNG LUẬT KẾT HỢP 26 2.1 Một số định nghĩa luật luật kết hợp 26 2.2 Tính chất luật kết hợp 28 2.2.1 Tính chất tập mục phổ biến 28 2.2.2 Các tính chất luật kết hợp 28 2.3 Những đặc trƣng luật 29 2.3.1 Khơng gian tìm kiếm 29 2.3.2 Độ hỗ trợ 31 2.4 Những hƣớng tiếp cận 32 CHƯƠNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU THEO PHƯƠNG PHÁP LUẬT KẾT HỢP 35 3.1 Khai phá luật kết hợp boolean đơn chiều đơn mức 35 3.1 Thuật toán Apriori 35 3.1.2 Thuật toán Partition (kỹ thuật BFS giao tập hợp tập mục) 39 3.1.3 Thuật toán FP-Growth (kỹ thuật DFS đếm tần suất xuất tập mục) 47 Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam 3.1.4 Thuật toán Eclat (kỹ thuật DFS giao tập mục) 50 3.2 Khai phá luật kết hợp định lƣợng 51 3.3 Khai phá luật kết hợp trừu tƣợng, đa mức 51 3.4 Luật kết hợp có thuộc tính số hạng mục 53 3.5 Luật kết hợp mờ 56 3.5.1 Luật kết hợp mờ với thuộc tính số đánh trọng số 66 3.5.2 Chuyển luật kết hợp mờ luật kết hợp với thuộc tính số 67 CHƯƠNG ỨNG DỤNG THỬ NGHIỆM 68 4.1 Đặt vấn đề 68 4.2 Mơ hình thử nghiệm 71 4.3 Chƣơng trình thử nghiệm 77 KẾT LUẬN 83 Những vấn đề đƣợc giải luận văn 83 Hƣớng nghiên cứu tƣơng lai 84 TÀI LIỆU THAM KHẢO 85 Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT Bảng từ viết tắt Từ cụm từ Từ tiếng Anh Từ viết tắt Cơ sở liệu Database CSDL Công nghệ thông tin Information Technology CNTT Cở sở tri thức CSTT Khai phá tri thức liệu Knowledge Discovery in Data KDD Khai phá liệu Data Mining KPDL Khám phá tri thức Knowledge Discovery KPTT Ngân hàng Đầu tư Phát triển Bank for Investment and Việt Nam Development of Viet Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN BIDV Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Danh mục hình vẽ Hình 1.1 Kiến trúc hệ thống khai phá liệu 10 Hình 1.2 Quá trình khai phá liệu 11 Hình 1.3 Ví dụ định 13 Hình 2.1 Dàn cho tập I={1,2,3,4} 30 Hình 3.1 Cây FP-Growth đếm mức phổ biến 42 Hình 3.2 Cây điều kiện FP - Tree 42 Hình 3.3 Mức hoạt động giải thuật 43 Hình 3.4 Mô liệu băm 44 Hình 3.5 Cây cấu trúc thân 45 Hình 3.6 Mơ kết hợp đầu thân 46 Hình 4.1 Danh sách file liệu phân hệ tiền gửi 70 Hình 4.2 Trình tự xử lý ứng dụng thử nghiệm 71 Hình 4.3 Dữ liệu hệ thống trước rời rạc mờ hố 75 Hình 4.4 Dữ liệu hệ thống sau rời rạc mờ hoá 76 Hình 4.5 Màn hình giao diện chương trình 77 Hình 4.6 Màn hình giao diện hiển thị liệu gốc 78 Hình 4.7 Màn hình giao diện hiển thị liệu sau rời rạc mờ hoá 78 Hình 4.8 Sự phụ thuộc thời gian xử lý vào fminsupp 79 Hình 4.9 Sự phụ thuộc số lượng tập phổ biến luật tin cậy vào giá trị fminsupp 80 Hình 4.10 Sự phụ thuộc số lượng luật vào độ tin cậy tối thiểu fminconf 80 Hình 11 Sự thay đổi kích thước CSDL tác động tới thời gian thực khai phá 81 Hình 4.12 Sự phụ thuộc số lượng tập phổ biến luật kết hợp vào ngưỡng tập mờ 81 Danh mục bảng biểu Bảng 1: CSDL khám chuẩn đoán bệnh tim 17 bệnh nhân 54 Bảng 2: Rời rạc hố thuộc tính số rời rạc hữu hạn thuộc tính hạng mục 55 Bảng 3: Rời rạc hố thuộc tính số “Lượng cholesterol máu” “Tuổi” 55 Bảng 4: CSDL khám chuẩn đoán bệnh tim mạch 13 bệnh nhân 57 Bảng 5: Bảng ký hiệu sử dụng thuật toán khai phá luật kết hợp mờ 61 Bảng 6: TF -giá trị thuộc tính ghi mờ hố 63 Bảng 7: C1 - tập tất tập thuộc tính có lực lượng 64 Bảng 8: F2 - tập thuộc tính phổ biến có lực lượng 65 Bảng 9: Các luật mờ sinh từ CSDL bảng 66 Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam LỜI MỞ ĐẦU Trong thập kỷ gần đây, với phát triển mạnh mẽ công nghệ điện tử, đời nhớ có dung lượng lớn, xử lý tốc độ cao với hệ thống mạng viễn thông Người ta xây dựng hệ thống thông tin nhằm tự động hoá hoạt động kinh doanh Điều tạo dịng liệu tăng lên khơng ngừng từ giao dịch đơn giản gọi điện thoại, kiểm tra sức khoẻ, sử dụng thẻ tín dụng,v.v ghi vào máy tính Cho đến nay, số trở lên khổng lồ bao gồm sở liệu lớn cỡ gigabytes chí terabytes lưu trữ liệu kinh doanh ví dụ liệu thông tin khách hàng, liệu lịch sử giao dịch, liệu bán hàng, liệu tài khoản, khoản vay, sử dụng vốn,v.v Nhiều hệ quản trị sở liệu (CSDL) mạnh với công cụ phong phú thuận tiện giúp cho người khai thác có hiệu nguồn tài nguyên liệu Cùng với chức khai thác có tính chất tác nghiệp, việc khai thác CSDL phục vụ yêu cầu trợ giúp định ngày có ý nghĩa quan trọng nhu cầu to lớn lĩnh vực hoạt động kinh doanh, quản lý Dữ liệu thu thập liệu ngày nhiều người định quản lý kinh doanh lại cần thơng tin bổ ích, “tri thức” rút từ nguồn liệu nguồn liệu cho việc định Các nhu cầu biết đến từ lâu thực bùng nổ từ thập niên 90 Do năm gần phát triển mạnh mẽ loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin Các hệ trợ giúp định, phương pháp phát tri thức khai phá liệu Trong đó, khai phá liệu phát tri thức trở thành lĩnh vực nghiên cứu sôi động thu hút quan tâm nghiên cứu nhiều chuyên gia lĩnh vực hệ sở liệu, thống kê, chiết xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo v.v Phần lớn kỹ thuật áp dụng lĩnh vực khai phá liệu kế thừa từ lĩnh vực Các toán chủ yếu KPDL phân lớp/dự đoán, phân cụm, khai phá luật kết hợp, khai phá chuỗi,v.v Lĩnh vực điểm hội tụ giao thoa nhiều lĩnh vực khác KPDL ứng dụng thành cơng vào thương mại, tài thị trường chứng khốn, sinh học, y học, giáo dục, viễn thơng,v.v Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam Do KPDL lĩnh vực rộng lớn nên luận văn đề cập đến khía cạnh khai phá liệu luật kết hợp dựa tảng số nghiên cứu thực Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam CHƢƠNG KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1 Khai phá liệu 1.1.1 Tổng quan khai phá liệu Hàng nghìn năm vấn đề tổ chức khai thác liệu vấn đề mà người phải giải Đến vấn đề chưa giải triệt để Các chuyên gia lĩnh vực khác trình hoạt động thu thập khối lượng kiến thức khổng lồ tổ chức sở liệu thành hệ thống để phân tích đưa thông tin cần thiết sở liệu tập hợp vấn đề phức tạp Các hệ thống tồn cách chồng chéo khiến thông tin thừa xảy nhiều vấn đề xử lý số liệu lớn phức tạp Có nghịch lý thu thập thông tin nhanh nhiều việc xử lý thơng tin Cuối kỷ 20, phương pháp phân tích số liệu cách trí tuệ (là phương pháp khai thác thông tin trực tiếp từ liệu thô) thu hút quan tâm nhà khoa học Những thử nghiệm áp dụng nhiều lĩnh vực phân tích thị trường tài chính, ngân hàng, đánh giá khả cho vay, phân tích đánh giá mạo hiểm đầu tư tiến hành nhiều Đây vấn đề đặc biệt khó ta có lượng thơng tin khổng lồ Bài tốn cần giải phân tích số liệu sao? Con người máy tính kết hợp với nào, người làm giao cho máy móc Dự đốn vấn đề tương lai khó quan hiểu giới hạn người giới hạn thiết bị máy móc Theo John Neumal số lượng neural người 1020 bit không sử dụng hết số lượng Một số nhà bác học mô hành vi nhận dạng não (ví dụ mạng Hopfield) cho khả nhận dạng tương tự não người Các mẫu huấn luyện để nhận dạng kích thích vùng xác định trước Người ta tính hệ thống thiết lập từ 1020 Neural ghi nhận 5.1018 mẫu khác 5% số lượng Neural Đây số lượng mẫu lớn mà người nhớ Đó số khổng lồ mà thiết bị điện tử khơng có khả đạt Tuy nhiên, tốc độ Neural sinh học chậm với cơng nghệ tính tốn Vấn đề có lý Neural sinh học tốc độ phản Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam ứng nhỏ Neural nhân tạo lần Từ hai yếu tố số lượng tốc độ Neural ta xác định khả sử dụng hệ thống trí tuệ nhân tạo trình KDD trình khai thác thơng tin từ sở liệu Khơng có chương trình máy tính khoảng thời gian tới mơ tả độ phong phú trí tuệ người Tốt nên hạn chế toán người lĩnh vực tổ chức cơng việc Máy móc tốt tập trung vào việc tìm kiếm tri thức mới(các quy luật ẩn khối liệu khổng lồ) Các hệ thống KDD xác định cách hình tượng tăng tốc cho trí tuệ người Ứng dụng hệ thống KDD yêu cầu phải có nghệ thuật biểu diễn phương pháp tổ chức toán Kết cuối lời giải dựa thông tin thu thập Chìa khóa vấn đề sử dụng KDD khơng phải lựa chọn vài thuật toán KDD biết mà dựa vào việc phân tích liệu tổ hợp phương pháp Ta lấy ví dụ lĩnh vực y tế Đầu kỷ 21, loài người biết 105 triệu trứng bệnh, 105 mẫu thuốc 104 loại bệnh khác Rõ ràng khơng có giúp đỡ KDD việc khám phá tri thức điều khơng thể chuyên gia Chúng ta coi tri thức thơng tin tích hợp bao gồm việc quan hệ chúng mà ta lĩnh hội, khám phá học tập Nói cách khác, tri thức liệu mức trìu tượng hố khái quát cao 1.1.2 Nhiệm vụ khai phá liệu Trong hoạt động sản xuất - kinh doanh - quản lý yếu tốt thành cơng ln gắn liền với việc nắm bắt, thống kê khai thác thông tin hiệu Giờ KPDL trở thành hướng nghiên cứu lĩnh vực khoa học máy tính cơng nghệ tri thức Do coi mục đích q trình KPDL tả dự đốn mà mẫu KPDL phát nhắm vào mục đích Để đạt hai mục đích trên, nhiệm vụ KPDL bao gồm: Phân lớp: việc học hàm ánh xạ (hay phân loại) từ mẫu liệu vào số lớp xác định trước Hồi quy: việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN Áp dụng luật kết hợp cho khai phá liệu cho liệu Ngân hàng Đầu tư Phát triển Việt Nam Sau tham khảo ý kiến chuyên gia lĩnh vực tài ngân hàng nghiên cứu phân tích kỹ liệu hệ thống, xin đề xuất phương pháp rời rạc hoá liệu hàm thuộc sử dụng để mờ hố thuộc tính: TRƢỜNG ACTYPE HÀM THUỘC + Trường F_1 ACTYPE=‟D‟ F= ACTYPE=‟S‟ GHI CHÚ Tên trường: F_1 Kiểu tài khoản tiền gửi: „S‟ = Tiết kiệm „D‟ = Tiền gửi thông thường + Trường F_2 (Quý 1)

Ngày đăng: 23/09/2020, 22:33

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan