1. Trang chủ
  2. » Tất cả

Khai phá dữ liệu bằng luật kết hợp

86 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,43 MB

Nội dung

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN LỜI NÓI ĐẦU Ngày lĩnh vực khoa học kỹ thuật ngày phát triển mạnh mẽ Đặc biệt nghành khoa học máy tính phát triển, ứng dụng nhiều lĩnh vực khác sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dưng, Nó trở thành phần thiếu sống hàng ngày người.Việc dùng phương tiện tin học để tổ chức khai thác sở liệu phát triển từ năm 60 Đặc biệt năm gần vai trò máy tính việc lưu trữ xử lý thơng tin ngày trở lên quan trọng Bên cạnh thiết bị thu thập liệu tự động tương đối phát triển tạo kho liệu khổng lồ Với phát triển mạnh mẽ công nghệ điện tử tạo nhớ có dung lượng lớn, xử lý tốc độ cao với hệ thống mạng viễn thông, người ta xây dựng hệ thống thơng tin nhằm tự động hố hoạt động kinh doanh Điều tạo dịng liệu tăng lên khơng ngừng ví từ các giao dịch đơn gian điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v.đều ghi vào máy tính Cho tới số trở lên khổng lồ, bao gồm sở liệu, thông tin khách hàng, liệu lịch sử giao dịch, liệu bán hàng, liệu tài khoản vay, sử dụng vốn, Vấn đề đặt làm để sử lý khối lượng thông tin cực lớn để phát tri thưc tiềm ẩn Để làm điều người ta sử dụng trính Phát tri thức sở liệu( Knowledge Discovery in DatabaseKDD) Nhiệm vụ KDD từ liệu sẵn có phải tìm thơng tin tiềm ẩn có giá trị mà trước chưa phát tìm xu hướng phát triển xu hướng tác động lên chúng Các kỹ thuật cho phép ta lấy tri thức từ sở liệu sẵn có gọi kỹ thuật Khai phá liệu( Data Mining) Từ lý chúng em hiểu đề tài Khai phá liệu luật kết hợp Nhằm phân tích liệu sử dụng kỹ thuật để tìm mẫu thơng tin, hoạt động có tính quy tập liệu mà người sử dụng mong muốn, đồng thời để áp dụng vào toán Quản lý bán hàng siêu thị Trong trình làm đồ án để hoàn thành đề tài chúng nhận giúp đỡ bảo tận tình thầy giáo khoa công nghệ thông tin bạn lớp, đặc biệt thầy giáo Trần Hùng Cường Nhưng thời gian có giới hạn lực cịn hạn chế nên khơng tránh khỏi sai sót, chúng em mong nhận góp ý thầy cô bạn Chúng em xin chân thành cảm ơn thầy giáo, cô giáo khoa Công Nghệ Thông Tin tạo điều kiện giúp đỡ chúng em xuốt thời gian làm đồ án học tập trường Chúng em xin chân thành cảm ơn bạn lớp tạo điều kiện cho chúng em hoàn thành tốt luận văn Chúng em xin chân thành cảm ơn! Nhóm sinh viên thực hiện: Phạm Thị Hồn Trần Việt Phương Đơng Lớp CĐ-ĐH-KHMT3-K1 TÓM TẮT ĐỒ ÁN Nội dung đồ án kiến thức khai phá liệu sử dụng luật kết hợp, thuật toán kinh điển trình sử dụng luật kết hợp, cách áp dụng thuật toán Apriori vào phần nhỏ toán Quản lý bán hàng siêu thị Mục đích đồ án là: Phân tích liệu sử dụng kỹ thuật để tìm mẫu thơng tin, hoạt động có tính quy tập liệu mà người sử dụng mong muốn Đưa thuật toán Apriori, thuật toán tìm luật kết hợp khơng phát sinh ứng viên dựa vào cấu trúc FP- Tree, v.v.trong việc sử dụng luật kết hợp để phân tích sở liệu Phân tích sở liệu cài đặt thuật toán Apriori để áp dụng phần nhỏ vào toán Quản lý bán hàng siêu thị Đồ án bao gồm có chương, với nội dung sau: Chương I: Tổng quan khai phá liệu Nội dung chương trình bày bao gồm: Khai phá liệu phát tri thức, trình phát tri thức từ sở liệu, khai phá liệu có lợi ích gì? Các kỹ thuật khai phá liệu, nhiêm vụ khai phá liệu, phương pháp khai phá liệu, ứng dụng khai phá liệu số thách thức đặt cho việc khai phá liệu Chương II: Tập phổ biến luật kết hợp: Nội dung đuợc trình bày bao gồm: Một số khái niệm, tính chất tập phổ biến luật kết hợp, tìm tập phổ biến, số thuật toán luật kết hợp, số ví dụ minh họa thuật tốn Chương III: Cách cài đặt thử nghiệm thuật toán tìm tập phổ biến luật kết hợp: Phân tích sở liệu, trình bày cách cài đặt chương trình khai thác luật kết hợp việc quản lý bán hàng siêu thị Dựa vào kết mà người quản lý bán hàng thị siêu nắm bắt nhóm mặt hàng có liên quan tới nhau, phục vụ cho mục đích quản lý lựa chọn mặt hàng để kinh doanh SUMMARY OF THE PROJECT This project’s content is the knowledge of data mining which uses association rules, the classical algorithms in the proccess of using association rules, how to apply Apriori Algorithms to a small part on Sales Management Problem in supermarket The purposes of this project are: Analysing data and using technique to find out sample informations, actions which have regular nature in data files that users want Bringing out the classical algorithms such as Apriori, the algorithms of finding association rules without arising subsets (candidates) which base on FP- Tree Structure etc in using association rules to analyse any database Analysing database and installing Apriori Algorithms to apply partly to Sales Management Task in supermarket The project has chapters, with main content as follows: Chapter I: Overview of data mining The contents of this chapter which will be presented consist of: Data Mining and Knowledge Discovery in database, the advantages of data mining? Techniques of data mining, main task of data mining, methods of data mining, application of data mining and some challenges which are set up for data mining Chapter II: Frequent- Itemset and Association Rules This chapter’s content includes in: some concepts, basic property of Frequent- Itemset and Association Rules, searching for Frequent6 Itemset, some basic algorithms of Association Rules, some examples which illustrates algorithms Chapter III: How to install and test The Algorithms of finding Frequent Itemset and Association Rules They are: Analysing one database, presenting the way to install program “ Exploiting Frequent Itemset in Sales Management in supermarket” Sales Manager bases on this result to know gather of related product to statisfy the purpose of management and choice products to bussiness MỤC LỤC NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN LỜI NÓI ĐẦU TÓM TẮT ĐỒ ÁN SUMMARY OF THE PROJECT DANH SÁCH HÌNH VẼ ANH SÁCH BẢNG BIỂU 10 DANH SÁCH CÁC TỪ VIẾT TẮT .11 MỞ ĐẦU .12 Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU .13 1.1 Đặt vấn đề 13 1.2 Khai phá liệu phát tri thức 14 1.3 Quá trình phát tri thức từ sở liệu 14 1.3.1 Xác định toán 15 1.3.2 Thu thập tiền xử lý 15 1.3.2.1 Gom liệu .16 1.3.2.2 Chọn lọc liệu .16 1.3.2.3 Làm 16 1.3.2.4 Làm giàu liệu 17 1.3.2.5 Mã hoá liệu 17 1.3.2.6 Đánh giá trình diễn .17 1.3.3 Khai phá liệu 18 1.3.4 Phát biểu đánh giá kết 18 1.3.5 Sử dụng tri thức phát 18 1.4 Khai phá liệu có lợi ích 18 1.5 Các kỹ thuật khai phá liệu 19 1.5.1 Kỹ thuật khai phá liệu mô tả .19 1.5.2 Kỹ thuật khai phá liệu dự đốn 19 1.6 Nhiêm vụ khai phá liệu 19 1.6.1 Phân lớp (Classification) .20 1.6.2 Hồi quy (Regression) .20 1.6.3 Gom nhóm (Clustering) 20 1.6.4 Tổng hợp (Summarization) 20 1.6.5 Mơ hình ràng buộc (Dependency modeling) 20 1.6.6 Dị tìm biến đổi độ lệch (Change and Deviation Dectection) .21 1.7 Các phương pháp khai phá liệu 21 1.7.1 Các thành phần giải thuật khai phá liệu .21 1.7.2 Một số phương pháp khai thác liệu phổ biến 22 1.7.2.1 Phương pháp quy nạp (Induction) 22 1.7.2.2 Cây định luật .22 1.7.2.3 Phát luật kết hợp 22 1.7.2.4 Mạng Neuron 23 1.7.2.5 Giải thuật di truyền 24 1.8 Ứng dụng khai phá liệu 24 1.9 Một số thách thức đặt cho việc khai phá liệu .25 Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 27 2.1 Mở đầu 27 2.2 Các khái niệm 27 2.2.1 Định nghĩa 2.1: Ngữ cảnh khai phá liệu .27 2.2.2 Định nghĩa 2 2: Các kết nối Galois 27 2.2.3 Định nghĩa 2.2.3: Độ hỗ trợ (Support) 27 2.2.4 Định nghĩa 2.4: Độ tin cậy ( Confidence) 28 2.2.5 Định nghĩa 2.2.5: Tập mặt hàng phổ biến .29 2.2.6 Định nghĩa 2.2.6: Luật kết hợp 29 2.3 Tìm tập phổ biến 30 2.3.1 Một số khái niệm 30 2.3.2 Thuật toán Apriori 31 2.4 Tìm luật kết hợp 36 2.4.1 Phát biểu toán khai phá luật kết hợp 36 2.4.2 Phát triển giải pháp hiệu khai thác luật kết hợp .38 2.5 Quy trình khai thác luật kết hợp 40 2.6 Một số thuật toán khác 41 2.6.1 Thuật toán khai phá song song cho luật kết hợp mờ .41 2.6.2 Thuật toán FP-Growth 42 Chương III: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TỐN TÌM TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP .52 3.1 Phát biểu toán 52 3.2 Lựa chọn thuật toán để cài đặt phần mềm 52 3.3 Yêu cầu cài đặt thuật toán 52 3.4 Cơ sở liệu .53 3.4.1 Giao diện sở liệu 53 3.4.2 Bảng danh mục Nhà cung cấp hàng hóa 54 3.4.2 Bảng danh mục Hàng Hoá 55 3.4.4 Bảng danh mục Khách Hàng 56 3.4.5 Bảng danh mục Hoá Đơn 57 3.4.6 Bảng danh mục chi tiết Hoá Đơn 58 3.4.7 Ghi XML .59 3.5 Giao diện chương trình 59 3.6 Kết nối liệu 60 3.7 Thêm dư liệu XML 60 3.8 Kết phân tích 61 3.9 Kết lọc MinSup = 10 61 3.10 Kết lọc MinCon = 40% 62 KẾT LUẬN CHUNG 63 HƯỚNG PHÁT TRIỂN ĐỀ TÀI 64 BẢNG ĐỐI CHIẾU THUẬT NGỮ VIỆT - ANH .65 TÀI LIỆU THAM KHẢO .65 10

Ngày đăng: 14/03/2023, 15:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w