Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

107 1 0
Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Đại học học quốc quốc gia gia Hà Hà nội nội Tr-ờng đại học công Tr-ờng đại học công nghÖ nghÖ Nguyễn Ngọc Long NGUYỄN NGỌC LONG KHAI PHÁ DỮ LIỆU DỮKẾT LIỆU SỬ KHAI DỤNGPHÁ LUẬT HỢP SỬ DỤNG LUẬT KẾT HỢP Ngành: Công Nghệ Thông Tin Mã số: 1.01.10 LUẬN VĂN VĂN THẠC THẠC SỸ SỸ LUẬN HÀ NỘI – 2005 HÀ NỘI – 2005 1.1.1.1.1 Hà nội 03/2004 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đại học quốc gia Hà nội Đại học quốc gia Hà nội Tr-ờng đại học công nghệ Tr-ờng đại häc c«ng nghƯ Nguyễn Ngọc Long NGUYỄN NGỌC LONG KHAIPHÁ PHÁDỮ DỮLIỆU LIỆU KHAI SỬDỤNG DỤNGLUẬT LUẬTKẾT KẾTHỢP HỢP SỬ Ngành: Công Nghệ Thông Tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ LUẬN VĂN THẠC SỸ Người hướng dẫn khoa học: PGS TS Vũ Đức Thi HÀ NỘI – 2005 HÀ NỘI – 2005 1.1.1.1.2 Hà nội 03/2004 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC TÓM TẮT MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ TỔ CHỨC - KHAI THÁC CSDL VÀ PHÁT HIỆN TRI THỨC 10 1.1 Nhu cầu, cách nhìn nhận thực hệ CSDL truyền thống 10 1.2 Các vấn đề hạn chế mục tiêu cần có đƣợc 11 1.3 Tìm kiếm bƣớc phát triển tổ chức khai thác CSDL 11 1.4 Quá trình phát tri thức 15 1.4.1 Phát tri thức 15 1.4.2 Các giai đoạn trình phát tri thức 15 CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 18 2.1 Mục tiêu khai phá liệu 18 2.2 Các trình khai phá liệu 19 2.3 Các công việc khai phá liệu 20 2.4 Kiến trúc hệ thống khai phá liệu 22 2.5 Các thành phần giải thuật khai phá liệu 23 2.6 Các hƣớng tiếp cận kỹ thuật áp dụng 24 2.7 Các ứng dụng khai phá liệu 25 2.8 Một số phƣơng pháp khai phá liệu phổ biến 26 2.8.1 Phƣơng pháp quy nạp (induction) 26 2.8.2 Cây định luật 26 2.8.3 Phát luật kết hợp 28 2.8.4 Phân nhóm phân đoạn (Clasterring and Segmentation) 29 2.8.5 Các phƣơng pháp dựa mẫu 30 2.8.6 Mơ hình phụ thuộc dựa đồ thị xác xuất 30 2.8.7 Mơ hình học quan hệ 30 2.8.8 Khai phá liệu văn 30 2.8.9 Mạng neuron 31 2.8.10 Giải thuật di truyền 32 2.9 Nhìn nhận đánh giá chung 32 CHƢƠNG KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP 35 3.1 Luật kết hợp 35 3.1.1 Bài toán 35 3.1.2 Các khái niệm sở 37 3.1.3 Một số tính chất tập mục phổ biến luật kết hợp 40 3.1.4 Các loại luật kết hợp 43 3.2 Khai phá luật kết hợp đơn chiều, đơn mức, luật kết hợp Boolean 43 3.2.1 Thuật toán Apriori 43 3.2.2 Phát triển thuật toán Apriori 51 3.2.3 Thuật toán sinh luật kết hợp từ tập mục phổ biến 55 3.2.4 Khai phá tập mục phổ biến không sinh ứng cử 59 3.3 Khai phá luật kết hợp định lƣợng 68 3.4 Khai phá luật kết hợp đa mức 70 3.4.1 Luật kết hợp đa mức 70 3.4.2 Các cách tiếp cận khai phá luật kết hợp đa mức 72 3.5 Khai phá luật kết hợp đóng 76 3.5.1 Khắc phục hạn chế thuật toán Apriori 76 Formatted: Font: 20 pt, Bold Formatted: Normal, Centered Formatted: Font: 12 pt, Bold LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.5.2 Tập mục phổ biến đóng 76 3.5.3 Sinh luật 80 3.5.4 Thuật toán Charm 81 CHƢƠNG THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP 87 4.1 Mô tả liệu 87 4.2 Xây dựng chƣơng trình 90 4.3 Kết thu đƣợc 100 KẾT LUẬN 101 TÀI LIỆU THAM KHẢO 103 TÓM TẮT LỜI MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ TỔ CHỨC - KHAI THÁC CSDL VÀ PHÁT HIỆN TRI THỨC 10 1.1 Nhu cầu, cách nhìn nhận thực hệ CSLD truyền thống 10 1.2 Các vấn đề hạn chế mục tiêu cần có đƣợc 11 1.3 Tìm kiếm bƣớc phát triển tổ chức khai thác CSDL 11 1.4 Quá trình phát tri thức 15 1.4.1 Phát tri thức 15 1.4.2 Các giai đoạn trình phát tri thức 15 CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 18 2.1 Mục tiêu khai phá liệu 18 2.2 Các trình khai phá liệu 19 2.3 Các cơng việc khai phá liệu 20 2.4 Kiến trúc hệ thống khai phá liệu 22 2.5 Các thành phần giải thuật khai phá liệu 23 2.6 Các hƣớng tiếp cận kỹ thuật áp dụng 24 2.7 Các ứng dụng khai phá liệu 25 2.8 Một số phƣơng pháp khai phá liệu phổ biến 26 2.8.1 Phƣơng pháp quy nạp (induction) 26 2.8.2 Cây định luật 26 2.8.3 Phát luật kết hợp 28 2.8.4 Phân nhóm phân đoạn (Clasterring and Segmentation) 29 2.8.5 Các phƣơng pháp dựa mẫu 30 2.8.6 Mô hình phụ thuộc dựa đồ thị xác xuất 30 2.8.7 Mơ hình học quan hệ 30 2.8.8 Khai phá liệu văn 30 2.8.9 Mạng neuron 31 2.8.10 Giải thuật di truyền 32 2.9 Nhìn nhận đánh giá chung 32 CHƢƠNG KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP 35 3.1 Luật kết hợp 35 3.1.1 Bài toán 35 3.1.2 Các khái niệm sở 37 3.1.3 Một số tính chất tập mục phổ biến luật kết hợp 40 3.1.4 Các loại luật kết hợp 43 3.2 Khai phá luật kết hợp đơn chiều, đơn mức, luật kết hợp Boolean 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2.1 Thuật toán Apriori 43 3.2.2 Phát triển thuật toán Apriori 51 3.2.3 Thuật toán sinh luật kết hợp từ tập mục phổ biến 55 3.2.4 Khai phá tập mục phổ biến không sinh ứng cử 59 3.3 Khai phá luật kết hợp định lƣợng 68 3.4 Khai phá luật kết hợp đa mức 70 3.4.1 Luật kết hợp đa mức 70 3.4.2 Các cách tiếp cận khai phá luật kết hợp đa mức 72 3.5 Khai phá luật kết hợp đóng 75 3.5.1 Khắc phục hạn chế thuật toán Apriori 75 3.5.2 Tập mục phổ biến đóng 75 3.5.3 Sinh luật 75 3.5.4 Thuật toán Charm 75 CHƢƠNG THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP 75 4.1 Mô tả liệu 75 4.2 Xây dựng chƣơng trình 75 KẾT LUẬN CỦA LUẬN VĂN 75 TÀI LIỆU THAM KHẢO 75 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC KÝ HIỆU VIẾT TẮT Tên viết tắt Tên đầy đủ CSDL Cơ sở liệu DL Dữ liệu DM Data mining HTTT Hệ thống thông tin KDD Knowledge discovery in database OLAP On-Line Analytical Processing LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG MỤC LỤC CÁC HÌNH VẼ Hình 1.1: Kiến trúc kho liệu 13 Hình 1.2 Quá trình phát tri thức 14 Hình 2.1 Mẫu kết với nhiệm vụ phân nhóm 19 Hình 2.2 Kiến trúc hệ thống khai phá liệu 20 Hình 2.3 Quá trình khai phá liệu 21 Hình 2.4 Mơ tả định cho khái niệm chơi tennis 25 Hình 3.1 Cơ sở liệu D 36 Hình 3.2 Độ hỗ trợ mục Hình 3.3 Độ hỗ trợ tập mục 36 36 Hình 3.4 Độ tin cậy luật 36 Hình 3.5 Cơ sở liệu D minh họa cho thuật tốn Apriori 42 Hình 3.6: Q trình thực thuật tốn Apriori với độ hỗ trợ 2/9 (2 lần ) 43 Hình 3.7 Cây băm 48 Hình 3.8: Sơ đồ trình khai phá phân 49 Hình 3.9: CSDL tác vụ D minh họa cho thuật tốn FP-Growth 55 Hình 3.10: Bảng mục phổ biến đƣợc theo thứ tự 56 Hình 3.11: FP-Tree đƣợc xây dựng dần thêm tác vụ T100, T200, T300 56 Hình 3.12: FP-Tree đƣợc xây dựng dần thêm tác vụ T400, T500 57 Hình 3.13: Cây FP-Tree CSDL 57 Hình 3.14: Thực thuật tốn FP-Growth với có chứa đƣờng đơn 60 Hình 3.15 Dữ liệu điều tra dân số 62 Hình 3.16- Mơ tả khái niệm phân cấp mục 65 Hình 3.17 – Khai phá nhiều mức với độ hỗ trợ nhƣ 66 Hình 3.18 – Khai phá nhiều mức với độ hỗ trợ khác 67 Hình 3.19 – Khai phá nhiều mức với giảm độ hỗ trợ, lọc mục đơn 68 Hình 3.20 – Khai phá nhiều mức với giảm độ hỗ trợ, lọc k-mục 68 Hình 3.21: CSDL bán sách minh họa cho tập mục phổ biến đóng 70 Hình 3.22 Các tập mục phổ biến 73 Hình 3.23 Dàn tập đầy đủ cho CSDL hình 3.21 76 Hình 3.24 Thuật tốn Charm theo thứ tự từ điển 77 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI MỞ ĐẦU Sự bùng nổ thông tin yếu tố lớn cho phát triển xã hội Cùng với phát triển vƣợt bậc yêu cầu đòi hỏi ngày cao việc xử lý tìm kiếm thơng tin cho nhanh đạt đƣợc hiệu tối ƣu Cùng với phát triển đó, cơng nghệ phần cứng với xử lý tốc độ cao, ổ cứng, thiết bị băng từ dung lƣợng lớn song hành với phát triển không ngừng thiết bị viễn thông hỗ trợ đắc lực cho công phát triển thông tin Tâm điểm hệ thống khai thác thơng tin phục vụ việc tự động hóa lĩnh vực kinh doanh nhƣ quản lý điều hành định Hiện tƣợng ―bùng nổ thông tin‖ đời hàng loạt hệ quản trị sở liệu mạnh với công cụ phong phú thuận tiện đời giúp ngƣời khai thác hiệu nguồn tài nguyên liệu phức tạp Từ phát triển với tốc độ kinh ngạc HTTT, việc khai phá liệu phục vụ cho yêu cầu trợ giúp định cao hơn, xác nhanh chóng ngày nhiều, có ý nghĩa ngày quan trọng yếu tố định lĩnh vực hoạt động kinh doanh quản lý Những thơng tin bổ ích, ―tri thức‖ thông minh hiệu rút từ nguồn liệu phức tạp rộng lớn trở thành yếu tố sống hoạt động thƣờng ngày tổ chức kinh doanh, quản lý ―Khai phá liệu‖ trở thành trung tâm hàng loạt nghiên cứu thảo luận sơi động nhằm tìm kiếm khám phá đƣợc nhiều cách thức, phƣơng pháp hiệu với mong muốn tìm đƣợc ngày nhiều tri thức mới, quan trọng bổ ích Điểm qua tình hình phát triển thơng tin năm gần đây, ta có loạt lĩnh vực nghiên cứu tổ chức kho liệu (data ware house, information ware house), hệ hỗ trợ định (DSS) , phƣơng pháp phát tri thức phƣơng pháp khai phá liệu (data mining) Xét khía cạnh nhu cầu mức trung bình hay phạm vi nhỏ hẹp, kho liệu giúp khai thác thông tin công cụ truy vấn báo cáo nhƣ đƣợc dùng để hỗ trợ phân tích Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 10 trực tuyến, kiểm định giả thuyết Tuy nhiên điều ngƣời ta thấy thiếu vấn đề tri thức (thông tin thông minh), điều có nghĩa liệu kho liệu đƣợc phân tích cách thơng minh chúng nguồn tài ngun vơ giá Việc tự động phân tích tìm kiếm thơng tin tiềm ẩn có giá trị, chƣa đƣợc phát hiện, xu hƣớng phát triển yếu tố tác động lên chúng từ liệu khổng lồ có sẵn việc thực trình phát tri thức sở liệu (Knowledge Discovery in Database-KDD) Là kết hợp nhiều thành tựu nghiên cứu lĩnh vực đời sông xã hội nhƣ lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, phát tri thức CSDL trình tìm tri thức tiềm ẩn, khơng biết trƣớc tiềm có lợi từ liệu CSDL lớn Bằng cách thức này, KDD có đƣợc tồn diện đầy đủ cách tìm kiếm xử lý thông tin cách tiên tiến hiệu Với nhiều giai đoạn nhiều phƣơng pháp cụ thể, KDD đƣợc tiến hành theo thứ tự có bổ xung hỗ trợ lẫn Vai trò KDD đƣợc đƣa vào hai mảng sau đây: - Xác định, định nghĩa vấn đề, tìm hiểu lĩnh vực ứng dụng, nhiệm vụ … - Tinh lọc tiền xử lý, nhằm tìm mẫu, xu hƣớng có ý nghĩa từ tập liệu Chỉ có mẫu, xu hƣớng đƣợc xem đáng quan tâm (xét theo khía cạnh đó) đƣợc coi tri thức tri thức có ích giúp đạt đƣợc mục đích hệ thống ngƣời dùng Khai phá liệu (Data mining - DM) đƣợc coi nhƣ giai đoạn quan trọng KDD Tiến trình KDD bao gồm bƣớc sau đâyđƣợc : Formatted: Bullets and Numbering Phân lớp/phân cụm liệu Các luật kết hợp Khai phá chuỗi Đánh giá Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 11 Sử dụng tri thức có đƣợc Luận văn khái quát trình bày khái quát số vấn đề phát tri thức, khai phá liệu tập trung trình bàylàm rõ vấn đề khai phá luật kết hợp để khai thác CSDL lớn.: Luận văn gồm chƣơng: Chƣơng 1: Tổng quan tổ chức khai thác CSDL : Phân tích nhìn nhận lại cách thức tổ chức lƣu trữ CSDL truyền thống Từ có nhận xét đánh giá nhu cầu thông tin bƣớc phát triển mtới Trong chƣơng trình bày giai đoạn trình phát tri thức, xem xét tới kiến trúc lƣu trữ CSDL Data warehouse với việc sử dụng cho khai phá liệu - giai đoạn chủ yếu.của trình phát tri thức Chƣơng : Tổng quan khai phá liệu: tổng quan mục tiêu, nhiệm vụ trình khai phá liệu Nêu khái quát vấn đề khai phá liệu, phƣơng pháp, kỹ thuật khai phá liệu chính, phổ biến Chƣơng 3: Khai phá liệu sử dụng luật kết hợp: chƣơng trình bày chi tiết vấn đề yếu khai phá luật kết hợp: tốn xuất phát, mơ hình hình thức, thuật tốn điển hình luật kết hợp giải vấn đề khai phá liệu Chƣơng 4: Thử nghiệm khai phá luật kết hợp Xây dựng ứng dụng ―Tìm hiểu nhu cầu môn học‖ Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 94 Giao diện chƣơng trình: Hình 4.2 Màn hình sau khởi động chương trình Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 95 Thứ tự thực thao tác chƣơng trình nhƣ sau: : Thao tác khởi tạo File CSDL Ta xem xét tới việc đánh giá 46 sinh viên theo kết điều tra nhƣ sau: Hình 4.3 Màn hình Chuẩn bị liệu Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 96 Thực bấm nút chọn File liệu đầu vào (Các File kết đánh giá từ sinh viên đƣợc qt vào máy tính ) Hình 4.4 Màn hình chọn liệu điều tra đựoc Thực thao tác xong sau File liệu đƣợc chọn Tiến hành kiểm tra xem xét với danh sách sinh viên mà chƣơng trình xử lý Tƣơng ứng với sinh viên lựa chọn họ cho mơn học u thích Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 97 Hình 4.5 Màn hình hiển thị liệu điều tra Bƣớc cuối việc thực xuất đƣờng dẫn phù hợp Chọn tên File liệu kết Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 98 Hình 4.6 Màn hình kết xuất liệu Thực việc chọn File liệu vửa kết xuất Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 99 Hình 4.7 Màn hình chọn File kết xuất Nhập vào thông tin độ hỗ trợ cực tiểu, độ tin cậy cực tiểu chọn tệp sở liệu Sau nhấn nút Hình 4.8 Màn hình đọc CSDL Chƣơng trình hiển thị lên thông tin số lƣợng mục, số lƣợng tác vụ, số lƣợng mục phổ biến Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 100 Hình 4.9 Màn hình kết sau đọc liệu vào Bƣớc nhấn vào nút tất tập mục phổ biến thỏa mãn độ tin cậy cực tiểu nhập vào lên grid Tập mục phổ biến nhƣ hình 4.2 sau Một cột grid ghi tên tập mục phổ biến, cột ghi thông tin độ hỗ trợ mục đó, tập mục phổ biến đƣợc giảm dần số lƣợng mục Kết nhƣ sau: Hình 4.10 Màn hình kết xây dựng tập mục phổ biến Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 101 Bƣớc cuối kích vào nút để sinh luật thỏa mãn độ tin cậy cực tiểu từ tập mục phổ biến tìm Grid Tập luật sinh lên luật nhƣ hình 4.2 sau: Hình 4.11 Màn hình kết xây dựng luật Số lƣợng tập mục phổ biến số luật sinh hai textbox nhƣ hình 4.2 Mỗi luật bao gồm phần tiền đề, phần kết luận, hai cột cuối ghi thông tin độ hỗ trợ độ tin cậy luật Thí dụ luật: CN17  CN19, CN08, CN11 có độ hỗ trợ 0.238095 độ tin cậy 0.833333 Trong thí dụ với độ hỗ trợ cực tiểu 0.15 độ tin cậy cực tiểu 0.6 tiến hành khai phá tệp CSC.txt kết tìm đƣợc 118 tập mục phổ biến 233 luật Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 102 Nút lệnh cho phép thực ứng dụng với phiếu điều tra mơn học khác Khi nhấn vào nút chƣơng trình trở trạng thái ban đầu nhƣ hình 4.1 Nút lệnh dùng để hiển thị cách xác đầy đủ kết theo yêu cầu ngƣời sử dụng Chẳng hạn xem môn cụ thể có thứ tự đƣợc chọn vị trí nào, nhóm mơn học đƣợc chọn nhiều v.v Nút lệnh để đóng chƣơng trình Hệ thống chƣơng trình điều tra mơn học đƣợc hồn thành mức thử nghiệm Formatted: Style Heading + 17 pt Justified, Indent: Hanging: 0.5", Right: 0", Numbered + Level: + Numbering Style: 1, 2, 3, … + Start at: + Alignment: Left + Aligned at: 0.25" + Tab after: 0.5" + Indent at: 0.5" với khả điều tra môn học CSDL tùy ý (là lƣợng phiếu điều tra môn học Formatted: Style Body Text + 14 pt Justified, Right: 0" 4.3 Kết thu đƣợc giới hạn yêu cầu ràng buộc cụ thể) Tuy liệu dùng để thử nghiệm chƣa có nhiều chƣa đầy đủ mơn học nhà trƣờng thuộc Đại Học Quốc Gia Hà Nội nhƣng đủ hình thành đƣợc định dạng chung chuẩn hóa theo dạng Template định việc phát phiếu điều tra Trên sở liệu đầu vào, chƣơng trình ln cho đƣợc kết đánh giá có tính thực tế cao dựa số lƣợng môn học đƣợc cung cấp phiếu kết (Đảm bảo đƣợc tính tồn vẹn từ kết phiếu điều tra) Sự phân cấp theo mức mơn học đƣợc u thích nhất; hai mơn học đƣợc sinh viên yêu cầu học nhiều nhất; ba môn học đƣợc sinh viên yêu cầu học nhiều nhất, bốn môn …cho tới mức tối đa số lƣợng mơn học có phiếu đƣợc chọn Mang tính chất thử nghiệm triển khai thuật tốn, chƣơng trình cịn chƣa có giao diện thân thiện nhƣ chƣa định nghĩa đƣợc nhiều báo cáo thống kê mang tính hiệu nhƣ ứng dụng Tuy nhiên, việc áp dụng thuật toán FP-Growth thành công việc xây dựng ứng dụng tiền đề bƣớc đầu để áp dụng triển khai cách hiệu - mang tầm ứng dụng lớn phổ biến Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 103 Phần trình bày kết thu đƣợc từ chƣơng trình ứng dụng đánh giá tác giả kết nhƣ đánh giá phƣơng pháp Formatted: Body Text Char Formatted: Right: 0", Space After: 12 pt thuật toán áp dụng Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 104 KẾT LUẬN CỦA LUẬN VĂN Cần trình bày nội dung: Những làm (đã có) Kết thu đƣợc (chƣa có) Hƣớng phát triển (đã có) Formatted: Font: 19 pt Formatted: Bullets and Numbering Khai phá liệu lĩnh vực cịn mẻ nhƣng hƣớng đắn có nhu cầu ngày lớn nhiều lĩnh vực xã hội Với phát triển mạnh mẽ hệ thống thông tin, sở liệu khổng lồ phát sinh với tốc độ lớn, tri thức thông minh hữu ích tiềm tàng kho liệu đồ sộ cần đƣợc tiếp cận khai phá cách đắn, khoa học hiệu Luận văn trình bày số khía cạnh khai thác thơng tin, vấn đề nhƣ phƣơng pháp khai phá liệu, đặc biệt trình bày chi tiết, làm rõ vấn đề khai phá luật kết hợp: thuật toán kinh điển Apriori, thuật toán FPGrowth hay trình bày giải số vấn đề lý thuyết cách thức khai phá luật kết hợp định lượng, khai phá luật kết hợp đa mức, sở lý thuyết tập đóng thuật toán khai phá hiệu Ứng dụng đƣợc thực dựa thuật tốn FP-Growth, thuật tốn tìm tập mục phổ biến không sinh ứng cử, hiệu nhiều so với thuật toán Apriori nội dung cuối luận văn Đây lLà ứng dụng hữu ích gần với thực tế, đặc biệt với nhu cầu tăng chất lƣợng hiệu đào tạo trƣờng đại học gần với nhu cầu học viên, xã hội Với việc áp dụng kết hợp thuật tốn – có tính khoa học chƣơng trình ứng dụng – có tính thực tế lớn thành công đem lại kết định phƣơng diện kết mở hƣớng việc khai thác liệu Với cách thức nguồn liệu đƣợc khai thác khác hẳn thông thƣờng, hệ thống thực đƣợc coi ứng dụng có tính ―tự động‖ cao nhƣ ―thơng minh‖ từ dự đốn mà đem lại hỗ trợ hoàn toàn với độ tin cậy lớn cho việc định Từ đây, môn học mang tính chất hấp dẫn hiệu với sinh viên đƣợc nhìn nhận cách khách quan, từ tạo điều kiện thúc đẩy thi đua Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 105 Luận văn thạc sỹ đội ngũ giáo viên để chứng minh tính hấp dẫn chuyên ngành mà đào tạo Tuy Ccác đánh giá kết mang lại cho ngƣời dùng chƣơng trình cịn nhiều yếu tố cần phải thân thiện hơn, hiệu nữa, chƣơng trình thực bƣớc mở đầu cho ngành công nghệ – cơng nghệ mang tính tƣơng lai với tính hiệu ƣu việt hồn tồn Qua đóđây, luận vănchúng mong muốn mong đƣợc mở rộng nghiên cứu sang lĩnh vức khác nhƣ khía cạnh CSDL bán hàng, chuẩn đoán bệnh, ngân hàng…nhằm đa dạng hóa hiệu khai phá liệu hình lĩnh vực đời sống xã hội Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 106 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vũ Đức Thi, Cơ sở liệu – Kiến trúc thực hành, Nhà xuất thống kê năm 1997 [2] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động kho liệu, Tạp chí Tin học Điều khiển, Tr 27, 29-32 [3] Nguyễn Thanh Thủy, Khai phá liệu – Kĩ thuật ứng dụng tháng 8-2001 [4] Phan Đình Diệu, Logic hệ tri thức, Hà Nội 1999 Tiếng Anh [5] Alan Rea (1995), Data Mining-An Introduction, The Parallel Computer Centre, The Queen‘s University of Belfast [6] Ashoka Savasere, Edward Omiecinski, and Shamkant B Navathe: Algorithm for Mining Association Rules in Large Database, VLDB 1995: 432-444 [7] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro, System for knowledge discovery in database, Ieee Trans On Knowledge and Data Engineering, vol 5, pp 903-913, 1993 url = http://eiteseer.nj.nec.com/177052.html [8] Jiawei Han and Yongjian Fu, Dynamic Generation and Refinement of Concept Hierachies for Knowledge Discovery in Database KDD Workshop, pp 157-158, 1994, url = http://eiteseer.nj.nec.com/han94dynamic.html [9] Jiawei Han and Micheline Kamber: Data mining: Concepts and Techniques Academic Press 2001 Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 107 [10] J.Han, Y.Cai, and N.Cercone: Data-driven Discovery of Quantitative Rules n Relational Databases IEEE Trans Knowledge and Data Eng., 5:29—40, 1993 url = http://eiteseer.nj.nec.com/agrawal93mining.html [11] R.Agrawal and S.Srikant Fast algorithmsfor mining association rules In Proc 1994 int Conf VLDB, Santiago, Chile, Sept, 1994 url = http://eiteseer.nj.nec.com/article/agrawal94fast.html [12] R: Agrawal, T Imielinski, and A Swami Mining Association Rules Between Sets of Items in Large Databases In Proc 1993 ACMSIGMOD Int Conf Management of Data, Washington, D.C., May 1993 [13] W.J Frawley and G.Piatetsky-Shapiro and C.J.Matheus, Knowledge discovery in databases – an overview, Ai Magazine, vol 13, 1992, url = http://eitetseer.nj.nec.com/frawley192knowledge.html [14] Zaki M., Pathasarathy S., Ogihara M.: New algorithms for fast discovery of association rules, KDDM 1998 [15] Mohammed J.Zaki and Ching-Jui Hsiao: CHARM – An Efficent Algorithm for Closed Association Rule Mining, 2000 [16] M.J.Zaki, S.Parthasarathy, M.Ogihara, and W.Li New Algorithms for fast discovery of association rules In Proceedings of 3rd International Conference on KDD and Data Mining (KDD ‘97), Newport Beach, California, August 1997 [17] R.Agrawal and R.Srikant: Mining quantitative Association Rules in Large Relationals Tables [18] Jochen Hipp, Ulrich Gauntzer, Gholamreze Nakhaeizadeh, Algorithms for Asscociation Rule Mining – Ageneral Survey and Comparision, ACM SGKDD, July 2000 Một số địa Internet [1] www.cs.waikato.ac.nz/ml/weka Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 Luận văn thạc sỹ 108 [2] www.sgi.com/tech/mlc/-25k [3] www.visual-basic-data-mining.net/forum/showForum.aspx [4] www.Dmoz.org/Computers/software/ [5] www.planet-source-code.com/vb/scripts/showcode.asp [6] www.cs.concordia/db/dbdm/dm.html [7] http://citeser.nj.nec.com/agrawa193mining.html Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Ngọc Long NGUYỄN NGỌC LONG KHAIPHÁ PHÁDỮ DỮLIỆU LIỆU KHAI SỬDỤNG DỤNGLUẬT LUẬTKẾT KẾTHỢP HỢP SỬ Ngành: Công Nghệ Thông Tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ LUẬN VĂN THẠC SỸ Người hướng dẫn khoa... dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP 3.1 Luật kết hợp Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu. .. thuật tốn điển hình luật kết hợp giải vấn đề khai phá liệu Chƣơng 4: Thử nghiệm khai phá luật kết hợp Xây dựng ứng dụng ―Tìm hiểu nhu cầu môn học‖ Khai phá liệu sử dụng luật kết hợp LUAN VAN CHAT

Ngày đăng: 05/12/2022, 15:54

Hình ảnh liên quan

BẢNG CÁC Kí HIỆU VIẾT TẮT - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp
BẢNG CÁC Kí HIỆU VIẾT TẮT Xem tại trang 6 của tài liệu.
- Chứa cỏc bảng dữ liệu với cỏc kớch thƣớc lớn. - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

h.

ứa cỏc bảng dữ liệu với cỏc kớch thƣớc lớn Xem tại trang 14 của tài liệu.
Tớnh toỏn độ hỗ trợ cho cỏc tậ p1 mục suy ra bảng độ hỗ trợ: - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

nh.

toỏn độ hỗ trợ cho cỏc tậ p1 mục suy ra bảng độ hỗ trợ: Xem tại trang 40 của tài liệu.
3.1.3. Một số tớnh chất của tập mục phổ biến và luật kết hợp - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

3.1.3..

Một số tớnh chất của tập mục phổ biến và luật kết hợp Xem tại trang 41 của tài liệu.
Bảng 3.4 tớnh độ tin cậy của một số luật kết hợp sinh ra từ cỏc tập mục trong bảng 3.3 - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

Bảng 3.4.

tớnh độ tin cậy của một số luật kết hợp sinh ra từ cỏc tập mục trong bảng 3.3 Xem tại trang 41 của tài liệu.
(nỳt trong). Trong nỳt trong mỗi cụm (bucket) của bảng băm chỉ tới một nỳt khỏc. - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

n.

ỳt trong). Trong nỳt trong mỗi cụm (bucket) của bảng băm chỉ tới một nỳt khỏc Xem tại trang 53 của tài liệu.
Hỡnh 3.10: Bảng cỏc mục phổ biến đó được sắp theo thứ tự  - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

nh.

3.10: Bảng cỏc mục phổ biến đó được sắp theo thứ tự Xem tại trang 62 của tài liệu.
Giả sử bảng trờn cho biết tỏc vụ bỏn hàng của một cửa hàng mỏy tớnh: Cỏc mục bỏn đƣợc trong tỏc vụ cựng định danh tỏc vụ TID - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

i.

ả sử bảng trờn cho biết tỏc vụ bỏn hàng của một cửa hàng mỏy tớnh: Cỏc mục bỏn đƣợc trong tỏc vụ cựng định danh tỏc vụ TID Xem tại trang 72 của tài liệu.
Cỏc mục trong bảng dữ liệu cho ban đầu là mức thấp nhất của khỏi niệm phõn cấp trong hỡnh trờn - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

c.

mục trong bảng dữ liệu cho ban đầu là mức thấp nhất của khỏi niệm phõn cấp trong hỡnh trờn Xem tại trang 72 của tài liệu.
- Bảng thụng tin chi tiết: - Luận văn thạc sĩ VNU UET khai phá dữ liệu sử dụng luật kết hợp

Bảng th.

ụng tin chi tiết: Xem tại trang 88 của tài liệu.

Mục lục

    BẢNG CÁC KÝ HIỆU VIẾT TẮT

    BẢNG MỤC LỤC CÁC HÌNH VẼ

    1.2 Các vấn đề hạn chế và mục tiêu cần có được

    1.3 Tìm kiếm bước phát triển mới trong tổ chức khai thác CSDL

    1.4 Quá trình phát hiện tri thức

    1.4.1 Phát hiện tri thức

    1.4.2 Các giai đoạn của quá trình phát hiện tri thức

    2.2 Các quá trình khai phá dữ liệu

    2.3 Các công việc chính của khai phá dữ liệu

    2.4 Kiến trúc của hệ thống khai phá dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan