Luật kết hợp mờ và ứng dụng đối với một số bài toán dự báo

72 13 0
Luật kết hợp mờ và ứng dụng đối với một số bài toán dự báo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÙI VĂN THẮNG LUẬT KẾT HỢP MỜ VÀ ỨNG DỤNG ĐỐI VỚI MỘT SỐ BÀI TOÁN DỰ BÁO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUN - 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÙI VĂN THẮNG LUẬT KẾT HỢP MỜ VÀ ỨNG DỤNG ĐỐI VỚI MỘT SỐ BÀI TOÁN DỰ BÁO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HƢỚNG DẪN KHOA HỌC: TS VŨ VINH QUANG THÁI NGUYÊN - 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn trực tiếp TS Vũ Vinh Quang Mọi trích dẫn sử dụng báo cáo ghi rõ nguồn tài liệu tham khảo theo qui định Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Thái Ngun, ngày27tháng8năm 2014 Tác giả Bùi Văn Thắng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iii DANH MỤC BẢNG .iv DANH MỤC HÌNH VẼ .v MỞ ĐẦU CHƢƠNG MỘT SỐ KIẾN THỨC CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu 1.1.1 Giới thiệu .3 1.1.2 Khái niệm khai phá liệu 1.2 Một số hƣớng nghiên cứu khai phá liệu 1.2.1 Một số hướng nghiên cứu 1.2.2 Các dạng liệu khai phá 1.3 Nhiệm vụ khai phá liệu 1.3.1 Phân lớp (Classification) .9 1.3.2 Hồi quy (Regression) 1.3.3 Khai phá luật kết hợp (Association rule) 1.3.4 Gom nhóm (Clustering) 1.3.5 Tổng hợp (Summarization) .10 1.3.6 Mơ hình ràng buộc (Dependency modeling) 10 1.3.7 Dị tìm biến đổi độ lệch (Change and Deviation Dectection) 10 1.4 Bài toán khai phá luật kết hợp 10 1.4.1 Bài toán .10 1.4.2 Một số thuật toán 15 1.5 Logic mờ .23 1.5.1 Định nghĩa tập mờ .23 1.5.2 Độ cao, miền xác định miền tin cậy tập mờ 25 1.5.3 Các phép toán logic tập mờ 26 1.5.4 Biến ngôn ngữ giá trị 27 1.6 Kết luận 28 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG KHAI PHÁ LUẬT KẾT HỢP MỜ 30 2.1 Rời rạc hóa thuộc tính dựa vào tập mờ 30 2.1.1 Luật kết hợp với thuộc tính số 30 2.1.2 Các phương pháp rời rạc hóa 30 2.2 Luật kết hợp mờ 33 2.2.1 Rời rạc hóa thuộc tính mờ 33 2.2.2 Luật kết hợp mờ 35 2.3 Thuật toán khai phá luật kết hợp mờ dựa thuật toán Apriori .37 2.4 Khai phá luật kết hợp mờ dựa thuật toán Fp-Growth 40 2.4.1 Thuật toán xây dựng CUFP-Tree 40 2.4.2 Thuật tốn tìm tập phổ biến FP-Growth dựa cậy CUFP-Tree 41 2.5 Ví dụ thử nghiệm 42 2.5.1 Xây dựng CUFP-Tree 42 2.5.2 Thuật tốn tìm tập phổ biến 45 2.6 Kết luận 46 CHƢƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG MƠ HÌNH DỰ BÁO 48 3.1 Mơ hình số tốn dự báo 48 3.1.1 Giới thiệu 48 3.1.2 Một mơ hình dự báo gì? 49 3.1.3 Các kỹ thuật mơ hình hóa dự báo phổ biến .51 3.2 Xây dựng luật kết hợp mờ mô hình dự báo 55 3.3 Một số kết thực nghiệm .55 3.3.1 Môi trường thử nghiệm .55 3.3.2 Kết thử nghiệm với CSDL gồm 20 giao dịch 60 3.3.3 Kết thử nghiệm 61 PHẦN KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iii CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CNTT Công nghệ thông tin CSDL Cơ sở liệu KPDL Khai phá liệu KDD Knowledge Discovery in Databases ItemSet Item Tập mục Mục Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iv DANH MỤC BẢNG Bảng 1.1: Cơ sở liệu giao tác 11 Bảng 1.2: Kết thuật toán Apriori 16 Bảng 1.3: Những biến đổi liệu FP-Growth 19 Bảng 2.1: CSDL thống kế dân số 10 gia đình [21] 31 Bảng 2.2: Rời rạc hóa thuộc tính số rời rạc hữu hạn thuộc tính hạng mục 31 Bảng 2.3: Rời rạc hóa thuộc tính số“Tuổi" 32 Bảng 2.4: Bảng ký hiệu sử dụng thuật toán khai phá luật kết hợp mờ 38 Bảng 2.5: Bảng ký hiệu sử dụng thuật toán 40 Bảng 2.6: Cơ sở liệu mờ 42 Bảng 2.7: Kết sau thực Bước 42 Bảng 2.8: Header_Table 43 Bảng 2.9: CSDL mờ sau cập nhật 43 Bảng 2.10: Tập phổ biến 46 Bảng 3.1: Giao tác ví dụ CSDL FAM95 56 Bảng 3.2: CSDL giao tác Bảng 3.1 sau mờ hóa 57 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ v DANH MỤC HÌNH VẼ Hình 1.1: Q trình khai phá tri thức CSDL Hình 1.2: FP-tree liệu Bảng 1.1 20 Hình 1.3: Thành phần FP-tree 21 Hình 1.4: Hàm thuộc tập kinh điển A 23 Hình 1.5: Hàm thuộc tập mờ B .24 Hình 1.6: Hàm thuộc tập mờ C .24 Hình 1.7: Hàm thuộc F(x) có mức chuyển đổi tuyến tính 25 Hình 1.8: Mơ tả giá trị ngôn ngữ tập mờ 27 Hình 2.1: Hàm thuộc tập mờ“Tuổi_trẻ”,“Tuổi_trung_niên”, và“Tuổi_già" 33 Hình 2.2: Kết xử lý giao dịch 44 Hình 2.3: Kết xử lý giao dịch 45 Hình 2.4: Cây CUFP-TREE 45 Hình 3.1: Hai khách hàng đặc tính đầu vào họ .50 Hình 3.2: Dữ liệu khách hàng gồm đặc tính đầu vào kết đầu cung cấp cho mơ hình dự báo q trình huấn luyện 50 Hình 3.3: Khung nhìn hai chiều siêu phẳng tối ưu chia tách liệu vec tơ hỗ trợ 52 Hình 3.4: Khung nhìn hai chiều kết việc phân cụm tập liệu đầu vào thành hai cụm: hình tam giác màu xanh hình vng màu đỏ 53 Hình 3.5: Mạng nơ-ron hướng thuận với tầng đầu vào, tầng ẩn tầng đầu 54 Hình 3.6: Giao diện chương trình, 20 giao dịch mờ 60 Hình 3.7: Các tập phổ biến tìm 60 Hình 3.8: Luật kết hợp khai phá 61 Hình 3.9: Kết thử nghiệm với hai thuật toán Apriori mờ thuật toán CUFP 61 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Đặt vấn đề Khai phá liệu lĩnh vực nghiên cứu quan trọng lý thuyết sở liệu, có nhiều ứng dụng đời sống xã hội Mục đích nhằm phát thông tin mới, luật từ sở liệu có hay cách tổng quát từ kho liệu Rất nhiều lĩnh vực ứng dụng thực tiễn sử dụng cơng cụ khai phát liệu tìm kiếm tri thức Trong lý thuyết khai phá liệu, khai phá luật kết hợp quan tâm nghiên cứu nhiều giới Một số hướng nghiên cứu chuyên gia công nghệ thông tin tập chung nghiên cứu là: nghiên cứu thiết kế hệ mờ cho ứng dụng cụ thể hệ trợ giúp định, hệ điều khiển dựa hệ tri thức luật, hệ phân loại dựa hệ tri thức luật, hệ phân loại dựa lập luận dựa hệ luật ứng dụng lĩnh vực như: kinh doanh, thị trường chứng khoán dự đoán thị trường, công nghệ sinh học, giáo dục đào tạo,… Một số hƣớng nghiên cứu khai phá liệu - Luật kết hợp nhị phân: Đây hướng nghiên cứu luật kết hợp Thuật toán tiêu biểu Apriori - Luật kết hợp có thuộc tính số thuộc tính hạng mục: Nghiên cứu hệ CSDL có thuộc tính số thuộc tính hạng mục cách rời rạc hóa liệu cho thuộc tính số để chuyển chúng thuộc tính nhị phân - Luật kết hợp mờ: Phương pháp rời rạc hóa liệu có thuộc tính số thuộc tính hạng mục gặp phải vấn đề“điểm biên gãy” Để khắc phục điều này, nhà nghiên cứu đề xuất sử dụng lý thuyết tập mờ xây dựng luật kết hợp dạng mờ - Luật kết hợp có trọng số: Sử dụng phương pháp tính độ hỗ trợ cho tập mục dựa trọng số tập mục Ngồi ra, cịn số hướng nghiên cứu: khai phá luật kết hợp song song, khai phá luật kết hợp nhiều mức, luật kết hợp tiếp cận theo hướng tập thô,… Luận văn tập trung nghiên cứu vào khai phá Luật kết hợp mờ ứng dụng tốn dự báo Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 Hƣớng nghiên cứu đề tài - Nghiên cứu lý thuyết tập mờ - Nghiên cứu khai phá liệu khai phá liệu mờ CSDL Tìm hiểu số thuật tốn khai phá liệu: Apriori mờ, thuật toán FP Growth, thuật toán biểu diễn liệu giao dịch mờ dựa FP-Tree - Cài đặt thử nghiệm số thuật toán khai phá liệu mờ thử nghiệm số liệu.Đánh giá kết sau thử nghiệm Đối tƣợng nghiên cứu - Nghiên cứu phương pháp luận cho phép phát tri thức dạng luật mờ, luật kết hợp mờ, luật mờ với thuộc tính có trọng số,… từ kho liệu - Cơ sở lý thuyết việc nghiên cứu lập luận xấp xỉ dựa lý thuyết tập mờ, phương pháp tính tốn thơng tin mờ, đánh giá phương pháp để lấy định - Ứng dụng luật kết hợp mờ số toán dự báo Kết đạt đƣợc - Tìm hiểu thuật tốn nén liệu giao dịch mờ dựa FP Tree, khai phá tập phổ biến dựa xây dựng Đây hướng nghiên cứu mới, giúp làm giảm thời gian khai phá tập phổ biến nhiều so với thuật toán Apriori mờ - Cài đặt thử nghiệm thuật toán Apriori mờ thuật toán khai phá luật kết hợp mờ dựa thuật toán Fp-Growth - Thử nghiệm hai thuật toán với số liệu, so sánh kết thu sau thử nghiệm Bố cục luận văn Phần mở đầu Chương 1: Một số kiến thức khai phá liệu Chương 2: Khai phá luật kết hợp mờ Chương 3: Ứng dụng khai phá liệu mơ hình dự báo Kết luận Tài liệu tham khảo Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 50 Hình 3.1: Hai khách hàng đặc tính đầu vào họ Giả sử mơ hình dự đốn học tập có giám sát, thể Hình 3.2, tất liệu khách hàng cung cấp cho mơ hình dự báo q trình huấn luyện Đầu vào gồm đặc tính có từ CSDL nhật ký (liên quan đến hài lòng, nhân học, …) cho khách hàng kết liên quan Đầu vào cung cấp thông tin cho mơ hình dự báo biết có hay khơng có ghi liệu đại diện cho khách hàng, người bỏ không bỏ Lý mơ hình học khác biệt, hay mẫu, hai nhóm: khách hàng hài lịng có khách hàng bỏ Hình 3.2: Dữ liệu khách hàng cung cấp cho mơ hình Hình 3.2 cho thấy CSDL nhật ký cung cấp thơng tin đầu vào gồm đặc tính đầu vào kết đầu trình huấn luyện Sau xây dựng mô hình dự báo, cần phải xác nhận tính hợp lệ cho Xác nhận hợp lệ cố gắng trả lời câu hỏi hai mức: “Nó có làm việc khơng?” có, “Nó xác đến mức nào?” Nếu câu trả lời cho câu hỏi rõ ràng “có” câu trả lời cho câu hỏi thứ hai xác cao, biết mơ Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 51 hình làm việc hay khơng tổng qt hóa tốt Khi mơ hình dự báo sẵn sàng cho khai thác, sử dụng Hiện có tiêu chuẩn tên PMML (Ngơn ngữ đánh dấu mơ hình dự báo) cho phép mơ hình dự báo dễ dàng di chuyển hệ thống khác Với PMML, sử dụng ứng dụng IBM SPSS Statistics để xây dựng xác nhận hợp lệ mơ hình dự báo, lưu trữ tệp định dạng kiểu PMML Sau triển khai, sử dụng mơ hình khách hàng bỏ để theo dõi tất hoạt động khách hàng có Một mơ hình dự báo tốt tổng qt hóa tri thức để dự đốn nguy bỏ khách hàng khách hàng mà mơ hình dự báo chưa gặp trước Hình 3.3cho thấy liệu khách hàng cung cấp cho mơ hình để dự đốn tình trạng rời bỏ khách Nếu mơ hình dự đoán nhận thấy nguy khách hàng rời bỏ cao với khách hàng cụ thể, thông tin hỗ trợ cho nhà quản lý đưa định kinh doanh phù hợp để khắc phục nguy Khi mà khách hàng cụ thể lại trở nên hài lòng với sản phẩm dịch vụ bạn, nguy giảm bớt, mơ hình dự đốn khơng cịn đưa dấu hiệu nguy khách hàng bỏ Hình 3.3 Mơ hình dự đốn nguy rời bỏ khách hàng 3.1.3 Các kỹ thuật mơ hình hóa dự báo phổ biến Hiện nay, có nhiều kỹ thuật dự báo để xây dựng mơ hình Các hệ thống nhà cung cấp khác hỗ trợ kỹ thuật khác nhau, môi trường xây dựng mơ hình mã nguồn mở sản phẩm thương mại hỗ trợ nhiều kỹ thuật khác Có số kỹ thuật dành riêng cho lớp toán cụ thể, số khác có tính tổng qt sử dụng cho nhiều lớp ứng dụng khách Ví dụ, máy vec tơ hỗ trợ (Support Vector Machine) nằm loại Một SVM ánh xạ vec tơ liệu đầu vào tới khơng gian có số chiều cao hơn, một“siêu phẳng tối ưu” chia tách liệu xây dựng Có hai siêu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 52 phẳng (hyperplane) song song xây dựng bên siêu phẳng Hình 3.4là ví dụ siêu phẳng tối ưu chia tách hai loại đối tượng (hình tam giác hình vng) Siêu phẳng chia tách tối ưu siêu phẳng làm tăng tối đa khoảng cách hai siêu phẳng song song Khoảng cách hai siêu phẳng lớn mơ hình giả định xác Các điểm liệu nằm hai siêu phẳng song song xác định khoảng cách lớn gọi vec tơ hỗ trợ Hình 3.4: Siêu phẳng tối ưu chia tách đối tượng vec tơ hỗ trợ Các SVM, mạng nơ-ron mơ hình hồi quy logic, kỹ thuật tổng quát mạnh Mặc dù chúng khác mặt toán học tạo kết tương đương Các định kỹ thuật mơ hình hóa dự báo tổng quát bật khả dự báo Vì chúng dễ sử dụng dễ hiểu, nên định kỹ thuật mơ hình hóa dự báo sử dụng phổ biến Các kỹ thuật phân cụm có khả phân cụm liệu đầu vào theo mức độ giống Hình 3.5cho thấy ví dụ liệu đầu vào chia thành hai cụm Trong liệu cụm mơ tả hình tam giác màu xanh cây, liệu cụm thứ hai mơ tả hình vng màu đỏ Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 53 Hình 3.5: Kết cụm tập liệu thành hai cụm Mặc dù kỹ thuật dự báo có ưu nhược điểm khác nhau, độ xác mơ hình phụ thuộc nhiều vào liệu thơ đầu vào đặc tính sử dụng để huấn luyện mơ hình dự báo Như đề cập trên, việc xây dựng mơ hình địi hỏi nhiều việc phân tích liệu xử lý liệu Thông thường, từ hàng trăm trường liệu thô ban đầu, chọn tập trường thực xử lý trước trường trước sử dụng chúng cho mơ hình hóa dự báo Theo cách này, mơ hình dự báo tốt thường phụ thuộc nhiều vào việc xử lý tốt liệu so với kỹ thuật sử dụng để huấn luyện mô hình Điều khơng có nghĩa kỹ thuật dự báo không quan trọng Nếu sử dụng sai kỹ thuật chọn tập tham số đầu vào sai, liệu tốt cho kết dự báo sai Với mạng nơ-ron, dùng với tất hình dạng biểu mẫu Việc lựa chọn cấu trúc mạng quan trọng để xây dựng mơ hình dự báo tốt Như thể Hình 3.6, mạng nơ-rontruyền thẳng (feed-forward) có lớp đầu vào, với số nút số lượng trường đầu, lớp ẩn tầng đầu (trong tốn hồi quy tầng đầu tạo nút đại diện cho trường cần dự báo) Mặc dù tầng đầu vào đầu ra, mạng nơron cấu hình với số lượng tầng ẩn nút ẩn tùy ý, vấn đề chọn cấu trúc mạng nơ-ron nút ẩn, khơng học hàm ánh xạ trường đầu vào đích Nếu có nhiều nút ẩn cấu trúc mạng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 54 phức tạp bị“over fit” Có nghĩa là, học tồn liệu đầu vào, khơng thể dự báo kiện tương lai Hình 3.6: Mạng nơ-ron hướng thuận với tầng đầu vào, tầng ẩn tầng đầu Các kỹ thuật phân cụm địi hỏi cung cấp cho mơ hình phân cụm số lượng cụm trước huấn luyện Trong trường hợp này, số lượng cụm q nhỏ, mơ hình khơng thấy khác biệt quan trọng liệu đầu vào Mặt khác, số lượng cụm lớn, bỏ sót nét tương đồng quan trọng Trong ví dụ thể Hình 3.6số lượng cụm thiết lập ba Một mơ hình dự báo đồng thời sử dụng hỗn hợp kỹ thuật mơ hình hóa khác Tức kết hợp nhiều mơ hình với thành mơ hình dự báo Đầu mơ hình dự báo tổng hợp từ đầu mơ hình đơn lẻ mà chúng kế thừa ưu điểm kỹ thuật khác Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 55 Hình 3.7: Mơ hình dự báo hỗn hợp Hình 3.7 biểu diễn mơ hình dự báo hỗn hợp từ nhiều mơ hình với kỹ thuật khác Đầu tính tốn phép nội suy, max (min) trung bình có trọng số 3.2 Xây dựng luật kết hợp mờ mơ hình dự báo Dự báo lớp toán rộng phức tạp Có thể dự báo vấn đề lĩnh vực kỹ thuật hay lĩnh vực kinh doanh dịch vụ Được sử dụng kết hợp với kỹ thuật khai phá liệu khác, dự báo gồm có việc phân tích xu hướng, phân loại, so khớp mẫu mối quan hệ Bằng cách phân tích kiện cá thể khứ, đưa dự báo kiện tương lai Trong luận văn này, sử dụng kỹ thuật khai phá liệu để thực toán dự báo 3.3 Một số kết thực nghiệm 3.3.1 Môi trƣờng thử nghiệm Dữ liệu thử nghiệm lấy từ CSDL FAM95[21] Một tập tin ASCII bao gồm 63.756 hồ sơ (một ghi cho gia đình), mỗibản ghi có 23 thuộc tính Lựa chọn thuộc tính để thử nghiệm gồm: Age, Hours, IncFam, IncHead, Sex Với Age tuổi người dân, Hours số làm việc tuần, IncFam: thu nhập gia Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 56 đình, IncHead thu nhập người đứng đầu gia đình, Sex giới tính chủ gia đình Các thuộc tính: Age, Hours, IncFam, IncHead thuộc tính mờ, thuộc tính Sex nhận giá trị (nữ) (nam) Số lượng ghi 30000 TID AGE HOURS INCHEAD INCFAM SEX 28 24 24963 24963 54 35 48000 152170 72 15873 20322 52 37 14500 30505 31 36 56060 84145 40 40 34010 34020 52 66918 76249 29 25407 25407 45 32 14680 23680 10 36 56 41354 41373 11 72 14405 27610 12 61 6157 14884 13 43 40 19182 26364 14 25 40 16100 16100 15 36 20 11203 47053 16 27 42 19445 19445 17 23 48 25005 42010 18 48 40 47404 92808 19 45 40 40020 61040 20 29 33 16555 51610 Bảng 3.1: Giao tác ví dụ CSDL FAM95 Ký hiệu: A1: Age_Y, A2: Age_M, A3: Age_O, B1: HOURS_L, B2: HOURS_M, B3: HOURS_H, C1: INCHEAD_L, C2: INCHEAD_M, C3: INCHEAD_H, D1: INCFAM_L, D2: INCFAM_M, D3: INCFAM_H, E1: SEX_M, E2: SEX_FM Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 57 TID 10 11 12 13 14 15 16 17 18 19 20 A1 0.7 0 0.4 0 0.6 0 0 0.8 0 0.6 A2 0.3 0 0.6 0.4 0.5 0 0.7 0.2 0.2 0.5 0.4 A3 B1 B2 B3 C1 C2 D1 D2 D3 E1 0 0 0.5 0.5 1 0 0.2 0.8 0 1 1 0 0 0.73 0.27 1 1 0 0.22 0.78 0 0 0 1 0 0.01 0.9 0.05 0.95 1 0 0 0 1 0 0.08 0.04 0.48 0.52 0.5 0.3 0.7 0 0.57 0.43 0 0.86 0.14 0.86 0.14 1 0 0 0.37 0.63 1 0 0 0 0.3 1 0 0.43 0.57 0 1 0 0.95 0.06 0 0 0 0.29 0.71 0 0.8 0.2 0 0.78 0.22 0 0 0.2 0.8 0.08 0 0.8 0.2 0.8 0 0.26 0.74 0 1 0.5 0 0 1 0.2 0.8 0 0 Bảng 3.2: CSDL giao tác Bảng 3.1 sau mờ hóa CSDL sau mờ hóa lưu trữ dạng file text có dạng sau: A1:0.7, A2:0.3, B1:1, C1:1, D1:0.5, D2:0.5, E1:1 A3:1, B2:1, C2:0.2, C3:0.8, D3:1, E1:1 A3:1, B1:1, C1:1, D1:0.73, D2:0.27, E1:1 A3:1, B2:1, C1:1, D1:0.22, D2:0.78, E1:1 A1:0.4, A2:0.6, B2:1, C3:1, D3:1, E1:1 A2:1, B2:1, C1:0.01, C2:0.9, D1:0.05, D2:0.95, E1:1 A3:1, B1:1, C3:1, D3:1, E1:1 A1:0.6, A2:0.4, B1:1, C1:0.08, C2:0.04, D1:0.48, D2:0.52, E1:1 A2:0.5, A3:0.5, B1:0.3, B2:0.7, C1:1, D1:0.57, D2:0.43, E1:1 A2:1, B3:1, C2:0.86, C3:0.14, D2:0.86, D3:0.14, E1:1 A3:1, B1:1, C1:1, D1:0.37, D2:0.63, E1:1 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ E2 0 0 0 0 0 1 1 0 58 A3:1, B1:1, C1:1, D1:1, E2:1 A2:0.7, A3:0.3, B2:1, C1:1, D1:0.43, D2:0.57, E1:1 A1:1, B2:1, C1:1, D1:0.95, D2:0.06, E2:1 A2:1, B1:1, C1:1, D2:0.29, D3:0.71, E2:1 A1:0.8, A2:0.2, B2:0.8, B3:0.2, C1:1, D1:0.78, D2:0.22, E2:1 A1:1, B2:0.2, B3:0.8, C1:0.08, D2:0.8, D3:0.2, E1:1 A2:0.2, A3:0.8, B2:1, C2:0.26, C3:0.74, D3:1, E1:1 A2:0.5, A3:0.5, B2:1, C2:1, D3:1, E1:1 A1:0.6, A2:0.4, B1:0.2, B2:0.8, C1:1, D3:1, E2:1 Các hàm thuộc cho thuộc tính sau: Hàm thuộc cho thuộc tính Tuổi: Hàm thuộc cho thuộc tính Hours: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 59 Hàm thuộc cho thuộc tính IncFam: Hàm thuộc cho thuộc tính IncHead: Dư liệu sau mờ hóa lưu file text có dạng sau: a:0.8, b:0.92, e:0.721, f:0.718 b:0.9, e: 0.719, f:0.723 c: 0.87, d:0.872 b:0.9, e:0.723, f: 0.51 c: 0.875, d:0.871, e:0.056 a: 0.012, c:0.876, d:0.82 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 60 3.3.2 Kết thử nghiệm với CSDL gồm 20 giao dịch Hình 3.8: Giao diện chương trình, 20 giao dịch mờ Hình 3.9: Các tập phổ biến tìm Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 61 Hình 3.10: Luật kết hợp khai phá 3.3.3 Kết thử nghiệm Thử nghiệm thuật tốn trình bày mục 2.4 2.3bằng ngơn ngữ lập trình C# chạy thử nghiệm máy tính có cấu sau: Intel Core2 Duo CPU T5800 @ 2GHz, RAM 2GB Hình 3.11: Kết thử nghiệm với hai thuật tốn Apriori mờ thuật tốn CUFP Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 62 PHẦN KẾT LUẬN Những vấn đề giải luận văn này: Trong chương một, luận văntrình bày nội dụng khai phá liệu, phát biểu toán khai phá luật kết hợp trình bày số nội dung logic mờ Trong chương hai, luận văntrình bày khai phá luật kết hợp mờ: Rời rạc hóa thuộc tính mờ Trong chương trình bày hai thuật toán khai phá luật kết hợp mờ: Thuật toán dựa thuật toán Apriori, thuật toán thứ hai gọi CUFP cho phép nén liệu giao dịch dưa (dựa thuật toán FP Tree) Với thuật tốn CUFP cho phép thực tìm tập phổ biến nhanh thuật toán thứ Nội dung trọng tâm chương cung cấp cho người đọc nhìn chung lĩnh vực nghiêncứu đề tài Trong chương 3, luận văntrình bày số mơ hình dự báo, ứng dụng luật kết hợp vào toán dự báo Thực cài đặt hai thuật tốn trình bày chương Kết thực nghiệm CSDL FAM95 cho thấy thuật toán CUFP cho kết nhanh thuật toán dựa Apriori Trong trình thực luận văn thời gian trước đó, tơi đãcố gắng tập trung nghiên cứu toán tham khảo nhiều tàiliệu liên quan Tuy nhiên, tồn nhiều hạn chế việc nghiêncứu ứng dụng thuật tốn, cần tiếp tục thử nghiệm với CSDL có kích thước lớn hơn, đầy đủ hơn; Nghiên cứu lýthuyết cải tiến thuật toán để đảm bảo thời gian tính nhanh Rất mong nhận nhữnggóp ý chun mơn cách trình bày luận văn từ thầy giáo, đồng nghiệp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 63 TÀI LIỆU THAM KHẢO [1] Ha Quang Thụy, Phan Xuân Hiếu, Đoan Sơn, Nguyễn Trí Thanh,Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình khai phá dữliệu Web, Nhà xuất giáo dục Việt Nam, 2009 [2] Nguyễn Thanh Thủy, Khai phá liệu, Nhà xuất Kỹthuật ứng dụng, 2001 [3] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami Mining association rules between sets of items in large databases In Proc of theACM SIGMOD Conference on Management of Data, pages 207-216, Washington, D.C., May 1993 [4] Rakesh Agrawal and Ramakrishnan Srikant Fast Algorithms for Mining Association Rules In Proc of the 20th International Conference on Very Large Databases, Santiago, Chile, Sep 1994 [5] Agrawal R., Srikant R,"Fast algorithms for mining association rules”, In Proc 20th Int Conf Very Large Data Bases,VLDB, J B Bocca, M Jarke, and C Zaniolo, Eds Morgan Kaufmann, pp 487-499, 1994 [6] Savesere A., Omiecinski E., Navathe S.,“An efficient algorithm for mining association rules in large databases”, In Proceedings of 20th International Conference on VLDB, pp.432-444, 1995 [7] Alan Rea , Data Mining - An Introduction The Parallel Computer Centre, Nor of The Queen's University of Belfast, 1995 [8] Fayyad, Piatetsky-Shapiro, Smyth , From Data Mining to Knowledge Discovery: An Overiew In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996 [9] Han J., Pei H., Yin Y,“Mining Frequent Patterns without Candidate Generation”, In: Proc Conf on the Management of Data (SIGMOD'00, Dallas, TX) ACM Press, New York, NY, USA, pp.1-12, 2000 [10] Attila Gyenesei A Fuzzy Approach for Mining Quantitative Association Rules Turku Centre for Computer Science, TUCS Technical Reports, No 336, March 2000 [11] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann, 2006 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 64 [12] Gregory Piatetsky-Shapiro,Data MiningCourse (Power Point Version), 2006 [13] R J Miller and Y Yang Association Rules over Interval Data Department of Computer & Information Science, Ohio State University, USA [14] Ramakrishnan Srikant and Rakesh Agrawal Mining Quantitative Association Rules in Large Relational Tables IBM Almaden Research Center, San Jose, CA 95120 [15] Doug Burdick, Manuel Calimlim, and Johannes Gehrke MAFIA: A Maximal Frequent Itemset Algorithmfor Transactional Databases Department of Computer Science, Cornell University [16] Ramakrishnan Srikant and Rakesh Agrawal Mining Quantitative Association Rules in Large Relational Tables IBM Almaden Research Center, San Jose, CA 95120 [17] Jian Pei, Jiawei Han, and Runying Mao CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Intelligent Database Systems Research Lab, School of Computing Science, Simon Fraser University, Burnaby, B.C., Canada [18] DL Olson, Yanhong Li,“Mining Fuzzy Weighted Association Rules”, Proceedings of the 40th Hawaii International Conference on System Sciences, 2007 [19] Chun-Wei Lin, Tzung-Pei Hong, and Wen-Hsiang Lu, Fuzzy Data Mining Based on the Compressed Fuzzy FP-trees, Fuzzy-IEEE 2009, Korea, August 20-24 2009 [20] Chun-Wei Lin, Tzung-Pei Hong, A new mining approach for uncertain databases using CUFP trees, Expert Systems with Applications 39 (2012) 4084–4093 [21] Cơ sở liệu thử nghiệm FAM95 http://kdm.first.flinders.edu.au/IDM/data.html [22] https://www.ibm.com/developerworks/vn/library/data/2013Q1/ba-data-miningtechniques [23] https://www.ibm.com/developerworks/vn/library/12/ba-predictive-analytics2 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... khai phá luật kết hợp song song, khai phá luật kết hợp nhiều mức, luật kết hợp tiếp cận theo hướng tập thô,… Luận văn tập trung nghiên cứu vào khai phá Luật kết hợp mờ ứng dụng toán dự báo Số hóa... rạc hóa thuộc tính mờ 33 2.2.2 Luật kết hợp mờ 35 2.3 Thuật toán khai phá luật kết hợp mờ dựa thuật toán Apriori .37 2.4 Khai phá luật kết hợp mờ dựa thuật toán Fp-Growth ... http://www.lrc-tnu.edu.vn/ 30 CHƢƠNG KHAI PHÁ LUẬT KẾT HỢP MỜ 2.1 Rời rạc hóa thuộc tính dựa vào tập mờ 2.1.1 Luật kết hợp với thuộc tính số Khai phá luật kết hợp với thuộc tính số thuộc tính hạng mục (quantitative

Ngày đăng: 25/02/2021, 08:43

Tài liệu cùng người dùng

Tài liệu liên quan