Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam

88 592 0
Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẾ VINH ÁP DỤNG LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU CHO DỮ LIỆU NGÂN HÀNG ĐẦU TƯ VÀ PHÁT TRIỂN VIỆT NAM Ngành : CÔNG NGHỆ THÔNG TIN Mã số : 1.01.10 LUẬN VĂN THẠC SỸ Người hướng dẫn khoa học: PGS. TS. NGÔ QUỐC TẠO HÀ NỘI, 2006 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ Thông tin_ Nguyễn Thế Vinh lớp K10T3CN LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới thầy giáo PGS.TS Ngô Quốc Tạo và PGS.TS Vũ Đức Thi - Viện Công nghệ thông tin đã tận tình chỉ bảo và hướng dẫn cho tôi thực hiện luận văn này. Tôi cũng xin bày tỏ lòng biết ơn của mình tới các thầy cô thuộc Đại học Công nghệ-Đại học Quốc Gia Hà nội và các thầy cô Viện Công nghệ thông tin đã truyền thụ cho tôi những kiến thức rất bổ ích, tạo cơ sở cho việc làm luận văn và cho công việc của tôi sau này. Lời cảm ơn cuối cùng tôi xin được gửi tới gia đình và bè bạn, những người luôn ủng hộ, giúp đỡ và động viên tôi trong quá trình hoàn thành nghiên cứu khoa học. Học viên thực hiện Nguyễn Thế Vinh Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 1 MỤC LỤC MỤC LỤC 1 BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT 3 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU 4 LỜI MỞ ĐẦU 5 CHƯƠNG 1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 7 1.1 Khai phá dữ liệu 7 1.1.1 Tổng quan về khai phá dữ liệu 7 1.1.2 Nhiệm vụ chính của khai phá dữ liệu 8 1.1.3 Các dạng dữ liệu có thể khai phá 9 1.1.4 Kiến trúc hệ thống khai phá dữ liệu 10 1.1.5 Quá trình khai phá dữ liệu 10 1.1.6 Các thành phần khai phá dữ liệu 11 1.1.7 Một số phương pháp khai phá dữ liệu 12 1.1.9 Các ứng dụng của khai phá dữ liệu 18 1.1.10 Phân loại các hệ thống khai phá dữ liệu 18 1.1.11 Những khó khăn trong việc khai phá dữ liệu 19 2.2. Công nghệ khám phá tri thức (KDD). 20 2.2.1. Khám phá tri thức là gì? 20 2.2.2. Vai trò và các mục tiêu chính của KDD. 22 2.2.3. Quá trình phát hiện tri thức 23 CHƯƠNG 2 LUẬT KẾT HỢP 26 2.1 Một số định nghĩa về luật và luật kết hợp 26 2.2 Tính chất của luật kết hợp 28 2.2.1 Tính chất của tập mục phổ biến. 28 2.2.2 Các tính chất của luật kết hợp 28 2.3 Những đặc trƣng cơ bản của luật 29 2.3.1 Không gian tìm kiếm 29 2.3.2 Độ hỗ trợ 31 2.4 Những hƣớng tiếp cận chính 32 CHƯƠNG 3 MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU THEO PHƯƠNG PHÁP LUẬT KẾT HỢP 35 3.1 Khai phá luật kết hợp boolean đơn chiều và đơn mức 35 3.1 .1 Thuật toán Apriori 35 3.1.2 Thuật toán Partition (kỹ thuật BFS và giao tập hợp của các tập mục) 39 3.1.3 Thuật toán FP-Growth (kỹ thuật DFS và đếm tần suất xuất hiện tập mục) 47 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 2 3.1.4. Thuật toán Eclat (kỹ thuật DFS và giao tập mục) 50 3.2 Khai phá luật kết hợp định lƣợng 51 3.3 Khai phá luật kết hợp trừu tƣợng, đa mức 51 3.4 Luật kết hợp có thuộc tính số và hạng mục 53 3.5. Luật kết hợp mờ 56 3.5.1 Luật kết hợp mờ với thuộc tính số được đánh trọng số 66 3.5.2 Chuyển luật kết hợp mờ về luật kết hợp với thuộc tính số 67 CHƯƠNG 4 ỨNG DỤNG THỬ NGHIỆM 68 4.1 Đặt vấn đề 68 4.2. Mô hình thử nghiệm 71 4.3. Chƣơng trình thử nghiệm 77 KẾT LUẬN 83 Những vấn đề đã đƣợc giải quyết trong luận văn 83 Hƣớng nghiên cứu trong tƣơng lai 84 TÀI LIỆU THAM KHẢO 85 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 3 BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT Bảng từ viết tắt Từ hoặc cụm từ Từ tiếng Anh Từ viết tắt Cơ sở dữ liệu Database CSDL Công nghệ thông tin Information Technology CNTT Cở sở tri thức CSTT Khai phá tri thức trong dữ liệu Knowledge Discovery in Data KDD Khai phá dữ liệu Data Mining KPDL Khám phá tri thức Knowledge Discovery KPTT Ngân hàng Đầu tư và Phát triển Việt Nam Bank for Investment and Development of Viet Nam BIDV Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 4 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Danh mục hình vẽ Hình 1.1 Kiến trúc hệ thống khai phá dữ liệu 10 Hình 1.2 Quá trình khai phá dữ liệu 11 Hình 1.3 Ví dụ về cây quyết định 13 Hình 2.1 Dàn cho tập I={1,2,3,4} 30 Hình 3.1 Cây FP-Growth đếm mức phổ biến 42 Hình 3.2 Cây điều kiện FP - Tree 42 Hình 3.3 Mức hoạt động của giải thuật 43 Hình 3.4 Mô phỏng dữ liệu cây băm 44 Hình 3.5 Cây cấu trúc thân 45 Hình 3.6 Mô phỏng sự kết hợp đầu và thân 46 Hình 4.1 Danh sách các file dữ liệu của phân hệ tiền gửi 70 Hình 4.2 Trình tự xử lý trong ứng dụng thử nghiệm 71 Hình 4.3 Dữ liệu của hệ thống trước khi rời rạc và mờ hoá 75 Hình 4.4 Dữ liệu của hệ thống sau khi rời rạc và mờ hoá 76 Hình 4.5 Màn hình giao diện chính của chương trình 77 Hình 4.6 Màn hình giao diện hiển thị dữ liệu gốc 78 Hình 4.7 Màn hình giao diện hiển thị dữ liệu sau khi được rời rạc và mờ hoá 78 Hình 4.8 Sự phụ thuộc của thời gian xử lý vào fminsupp 79 Hình 4.9 Sự phụ thuộc của số lượng tập phổ biến và luật tin cậy vào giá trị fminsupp 80 Hình 4.10 Sự phụ thuộc của số lượng luật vào độ tin cậy tối thiểu fminconf 80 Hình 4. 11 Sự thay đổi kích thước CSDL tác động tới thời gian thực hiện khai phá 81 Hình 4.12 Sự phụ thuộc của số lượng tập phổ biến và luật kết hợp vào ngưỡng tập mờ 81 Danh mục bảng biểu Bảng 1: CSDL khám và chuẩn đoán bệnh tim của 17 bệnh nhân 54 Bảng 2: Rời rạc hoá thuộc tính số rời rạc hữu hạn hoặc thuộc tính hạng mục 55 Bảng 3: Rời rạc hoá thuộc tính số “Lượng cholesterol trong máu” và “Tuổi” 55 Bảng 4: CSDL về khám và chuẩn đoán bệnh tim mạch của 13 bệnh nhân 57 Bảng 5: Bảng các ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ 61 Bảng 6: TF -giá trị các thuộc tính tại các bản ghi đã được mờ hoá 63 Bảng 7: C1 - tập tất cả các tập thuộc tính có lực lượng bằng 1 64 Bảng 8: F2 - tập thuộc tính phổ biến có lực lượng bằng 2 65 Bảng 9: Các luật mờ được sinh ra từ CSDL trong bảng 4 66 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 5 LỜI MỞ ĐẦU Trong những thập kỷ gần đây, với sự phát triển mạnh mẽ của công nghệ điện tử, sự ra đời của các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông. Người ta xây dựng các hệ thống thông tin nhằm tự động hoá mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ những giao dịch đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khoẻ, sử dụng thẻ tín dụng,v.v đều được ghi vào trong máy tính. Cho đến nay, con số này đã trở lên khổng lồ bao gồm các cơ sở dữ liệu lớn cỡ gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh ví dụ dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn,v.v Nhiều hệ quản trị cơ sở dữ liệu (CSDL) mạnh với các công cụ phong phú và thuận tiện đã giúp cho con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Cùng với chức năng khai thác có tính chất tác nghiệp, việc khai thác các CSDL phục vụ các yêu cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và là nhu cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. Dữ liệu được thu thập và dữ liệu ngày càng nhiều nhưng người ra quyết định trong quản lý kinh doanh lại cần những thông tin bổ ích, những “tri thức” rút ra từ những nguồn dữ liệu đó hơn là chính những nguồn dữ liệu đó cho việc ra quyết định của mình. Các nhu cầu đó đã được biết đến từ lâu nhưng mới thực sự bùng nổ từ thập niên 90. Do đó những năm gần đây đã phát triển mạnh mẽ một loạt các lĩnh vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin. Các hệ trợ giúp quyết định, các phương pháp phát hiện tri thức và khai phá dữ liệu. Trong đó, khai phá dữ liệu và phát hiện tri thức đã trở thành một lĩnh vực nghiên cứu sôi động thu hút sự quan tâm nghiên cứu của nhiều chuyên gia trong các lĩnh vực như hệ cơ sở dữ liệu, thống kê, chiết xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo .v.v. Phần lớn các kỹ thuật chính được áp dụng trong lĩnh vực khai phá dữ liệu được kế thừa từ các lĩnh vực trên. Các bài toán chủ yếu trong KPDL là phân lớp/dự đoán, phân cụm, khai phá luật kết hợp, khai phá chuỗi,v.v Lĩnh vực này cũng là điểm hội tụ và giao thoa của rất nhiều lĩnh vực khác. KPDL đã và đang được ứng dụng thành công vào thương mại, tài chính và thị trường chứng khoán, sinh học, y học, giáo dục, viễn thông,v.v. Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 6 Do KPDL là một lĩnh vực rộng lớn nên trong luận văn này chỉ đề cập đến khía cạnh khai phá dữ liệu bằng luật kết hợp dựa trên nền tảng của một số nghiên cứu đã được thực hiện. Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 7 CHƢƠNG 1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1 Khai phá dữ liệu 1.1.1 Tổng quan về khai phá dữ liệu Hàng nghìn năm nay vấn đề về tổ chức khai thác dữ liệu là vấn đề mà con người phải giải quyết. Đến nay vấn đề này vẫn chưa giải quyết được triệt để. Các chuyên gia trong lĩnh vực khác nhau trong quá trình hoạt động của mình thu thập được một khối lượng kiến thức khổng lồ nhưng tổ chức cơ sở dữ liệu đó thành một hệ thống để phân tích đưa ra những thông tin cần thiết trên cơ sở dữ liệu đã được tập hợp là một vấn đề rất phức tạp. Các hệ thống tồn tại một cách chồng chéo khiến các thông tin thừa xảy ra nhiều và vấn đề xử lý số liệu lớn và rất phức tạp. Có một nghịch lý là chúng ta thu thập thông tin nhanh hơn rất nhiều việc xử lý thông tin. Cuối thế kỷ 20, phương pháp phân tích số liệu một cách trí tuệ (là phương pháp khai thác thông tin trực tiếp từ dữ liệu thô) đã thu hút được sự quan tâm của các nhà khoa học. Những thử nghiệm đã được áp dụng trong nhiều lĩnh vực như phân tích thị trường tài chính, ngân hàng, đánh giá khả năng cho vay, phân tích đánh giá những mạo hiểm trong đầu tư được tiến hành rất nhiều. Đây là vấn đề đặc biệt khó khi ta có một lượng thông tin khổng lồ. Bài toán cần giải quyết ở đây là phân tích số liệu ra sao? Con người và máy tính sẽ kết hợp với nhau như thế nào, con người sẽ làm những gì và những gì giao cho máy móc. Dự đoán các vấn đề trên trong tương lai là rất khó nhưng quan trong nhất là hiểu được giới hạn con người và giới hạn của các thiết bị máy móc. Theo John Neumal thì số lượng neural của một người là 10 20 bit mặc dù chúng ta không sử dụng hết số lượng này. Một số nhà bác học đã mô phỏng các hành vi nhận dạng của não bộ (ví dụ mạng Hopfield) cho chúng ta khả năng nhận dạng tương tự như não người. Các mẫu đã được huấn luyện để nhận dạng sẽ kích thích ở một vùng đã được xác định trước. Người ta đã tính được rằng nếu một hệ thống được thiết lập từ 10 20 Neural thì ghi nhận được 5.10 18 mẫu khác nhau bằng 5% số lượng Neural. Đây cũng chính là số lượng mẫu lớn nhất mà con người có thể nhớ được. Đó là con số khổng lồ mà thiết bị điện tử không có khả năng đạt được. Tuy nhiên, tốc độ của các Neural sinh học quá chậm do với các công nghệ tính toán hiện nay. Vấn đề này có lý do là ở Neural sinh học tốc độ phản Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 8 ứng nhỏ hơn Neural nhân tạo 8 lần. Từ hai yếu tố số lượng và tốc độ của Neural ta xác định được khả năng sử dụng hệ thống trí tuệ nhân tạo trong quá trình KDD là quá trình khai thác thông tin từ cơ sở dữ liệu. Không có một chương trình máy tính nào hiện nay cũng như trong khoảng thời gian sắp tới có thể mô tả được độ phong phú của trí tuệ con người. Tốt nhất chúng ta nên hạn chế các bài toán của con người trong lĩnh vực tổ chức công việc. Máy móc tốt nhất là tập trung vào việc tìm kiếm tri thức mới(các quy luật ẩn dưới khối dữ liệu khổng lồ). Các hệ thống KDD có thể xác định một cách hình tượng là các bộ tăng tốc cho trí tuệ con người. Ứng dụng của hệ thống KDD yêu cầu phải có nghệ thuật biểu diễn và phương pháp tổ chức các bài toán. Kết quả cuối cùng là lời giải dựa trên những thông tin đã thu thập được. Chìa khóa của vấn đề sử dụng KDD không phải lựa chọn một hoặc vài thuật toán KDD đã biết mà dựa vào việc phân tích dữ liệu bằng tổ hợp các phương pháp. Ta có thể lấy ví dụ trong lĩnh vực y tế. Đầu thế kỷ 21, loài người đã biết được 10 5 triệu trứng bệnh, 10 5 mẫu thuốc. 10 4 các loại bệnh khác nhau. Rõ ràng nếu không có sự giúp đỡ của KDD thì việc khám phá ra tri thức trong đó là điều không thể đối với bất kỳ chuyên gia nào. Chúng ta có thể coi tri thức như thông tin tích hợp bao gồm các sự việc và những quan hệ của chúng mà ta có thể lĩnh hội, khám phá hoặc học tập. Nói một cách khác, tri thức có thể là dữ liệu ở mức trìu tượng hoá và khái quát cao. 1.1.2 Nhiệm vụ chính của khai phá dữ liệu Trong mọi hoạt động sản xuất - kinh doanh - quản lý thì yếu tốt thành công luôn gắn liền với việc nắm bắt, thống kê và khai thác thông tin hiệu quả. Giờ đây KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực khoa học máy tính và công nghệ tri thức. Do đó có thể coi mục đích chính của quá trình KPDL là một tả và dự đoán mà các mẫu KPDL phát hiện được đều nhắm vào mục đích này. Để đạt được hai mục đích chính trên, nhiệm vụ chính của KPDL bao gồm: Phân lớp: là việc học một hàm ánh xạ (hay phân loại) từ một mẫu dữ liệu vào một trong số các lớp đã được xác định trước. Hồi quy: là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực. [...]... K10T3CN 10 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam giá để thăm dò, dự đoán và ước lượng một lượng các thông tin dữ liệu với mục đích phát hiện ra các mẫu tin thích hợp hoặc là các mối quan hệ thuộc tính giữa các yếu tố hay các biến cố và cuối cùng là tích hợp các kết quả thu được bằng cách áp dụng các hệ số mẫu đã xác định cho các phần dữ liệu mới phát. .. Internet do sự ứng dụng rộng rãi của nó Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 9 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam 1.1.4 Kiến trúc hệ thống khai phá dữ liệu KPDL là một bước lớn trong quá trình phát hiện tri thức từ số lượng lớn dữ liệu đã được lưu trữ trong CSDL, kho dữ liệu hoặc các nơi lưu trữ khác Kết quả của bước... tìm ra các chiến lược phát Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 19 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam triển tốt trong tư ng lai Trong những năm gần đây, các công cụ và kỹ thuật được dùng để xử lý các thông tin có cấu trúc (kể cả phi cấu trúc) đã phát triển không ngừng, từ CSDL đến kho dữ liệu và bây giờ là KPDL KPDL... lớp K10T3CN 25 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam CHƢƠNG 2 LUẬT KẾT HỢP 2.1 Một số định nghĩa về luật và luật kết hợp + Định nghĩa hệ luật dẫn : Một modul chương trình xử lý các thông tin của vấn đề đang nằm trong bộ nhớ tạm thời thông qua một CSDL chứa các thông các luật dẫn và bộ phận suy diễn để suy ra thông tin mới Mô hình hệ luật dẫn bao... Nguyễn Thế Vinh lớp K10T3CN 26 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Khai phá luật kết hợp có thể mở rộng để phân tích sự tư ng đương (nhiều chiều) với sự có mặt của các mối tuơng quan của các mục và tập mục Từ đó mở rộng để khai phá các mẫu phổ biến cực đại và các tập mục phổ biến đóng + Định nghĩa về luật kết hợp: Giả sử tập L={l1,l2, ,lm} là... phá: tóm tắt và mô tả, luật kết hợp, phân lớp phân cụm, khai phá chuỗi,…v.v Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 18 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Phân loại dựa trên lĩnh vực được áp dụng: kinh doanh bán lẻ, viễn thông, tin-sinh, y học, tài chính và thị trường chứng khoán, khai phá dữ liệu web,v.v Phân loại.. .Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Phân nhóm: là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các nhóm để mô tả dữ liệu Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau Có nghĩa là dữ liệu có thể vừa thuộc nhóm này vừa thuộc nhóm kia Tóm tắt: liên quan đến các phương pháp tìm kiếm một mô tả cho một tập con dữ liệu Các... tục cho khách tiếp tục vay nữa hay không Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 15 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Có nhiều phương pháp phân lớp, phương pháp nổi tiếng nhất là phương pháp K lân cận Giả sử muốn chia các đối tư ng ban đầu thành K lớp Lựa chọn K trung tâm ngẫu nhiên bất kỳ trong không gian các đối tư ng... Nguyễn Thế Vinh lớp K10T3CN 16 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Mạng neural: là một kỹ thuật phát triển dựa trên cấu trúc toán học với khả năng học trên mô hình hệ thần kinh con người Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện xu hướng quá phức tạp... ) với  Ei + Với mỗi luật kết hợp X=>Y, hệ số hỗ trợ là tỷ số giữa tổng số bản ghi có chứa tập các thuộc tính XY và tổng số phần tử trong CSDL Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN 27 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam + Với mỗi luật kết hợp X=>Y, hệ số tin cậy của luật đó là tỷ số |XY|/|X| trong đó |XY| là tổng . giải quyết trong luận văn 83 Hƣớng nghiên cứu trong tƣơng lai 84 TÀI LIỆU THAM KHẢO 85 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận. lượng bằng 2 65 Bảng 9: Các luật mờ được sinh ra từ CSDL trong bảng 4 66 Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam Luận văn thạc sĩ Công nghệ. công vào thương mại, tài chính và thị trường chứng khoán, sinh học, y học, giáo dục, viễn thông,v.v. Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam

Ngày đăng: 29/06/2015, 20:41

Từ khóa liên quan

Mục lục

  • Trang bìa

  • LỜI CẢM ƠN

  • MỤC LỤC

  • BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT

  • DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC

  • 1.1 Khai phá dữ liệu

  • 1.1.1 Tổng quan về khai phá dữ liệu

  • 1.1.2 Nhiệm vụ chính của khai phá dữ liệu

  • 1.1.3 Các dạng dữ liệu có thể khai phá

  • 1.1.4 Kiến trúc hệ thống khai phá dữ liệu

  • 1.1.5 Quá trình khai phá dữ liệu

  • 1.1.6 Các thành phần khai phá dữ liệu

  • 1.1.7 Một số phương pháp khai phá dữ liệu

  • 1.1.9 Các ứng dụng của khai phá dữ liệu

  • 1.1.10 Phân loại các hệ thống khai phá dữ liệu

  • 1.1.11 Những khó khăn trong việc khai phá dữ liệu

  • 2.2. Công nghệ khám phá tri thức (KDD).

  • 2.2.1. Khám phá tri thức là gì?

Tài liệu cùng người dùng

Tài liệu liên quan