1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu tập mục thường xuyên và tập kết hợp

72 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 1,5 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  - LÊ VĂN SƠN NGHIÊN CỨU TẬP MỤC THƯỜNG XUYÊN VÀ LUẬT KẾT HỢP LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành : Khoa học máy tính Mã số : 60 48 01 Thái Nguyên, năm 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC Trang MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.2 Các phƣơng pháp khai phá liệu 1.3 Các sở liệu khai phá 1.4 Quá trình khai phá liệu 1.5 Một số ứng dụng khai phá liệu 1.6 Khai phá liệu lĩnh vực có liên quan 1.7 Những khó khăn, thách thức khai phá liệu Chƣơng 2: TẬP MỤC THƢỜNG XUYÊN VÀ LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 12 2.1 Các khái niệm 12 2.1.1 Cơ sở liệu giao tác 12 2.1.2 Tập mục độ hỗ trợ 14 2.1.3 Tập mục thƣờng xuyên (Frequent intemset) 14 2.1.4 Luật kết hợp (Association Rule) 15 2.2 Khai phá tập mục thƣờng xuyên mở rộng 16 2.2.1 Khai phá tập mục thƣờng xuyên 16 2.2.2 Mở rộng toán khai phá tập mục thƣờng xuyên 17 2.3 Khai phá luật kết hợp 18 2.4 Một số tính chất tập mục thƣờng xuyên luật kết hợp 20 2.4.1 Một số tính chất tập mục thƣờng xuyên 20 2.4.2 Một số tính chất luật kết hợp 20 2.5 Một số hƣớng tiếp cận khai phá luật kết hợp 21 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii CHƢƠNG 3: MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP .23 3.1 Mở đầu 23 3.2 Thuật toán APRIORI khai phá tập mục thƣờng xuyên 24 3.3 Khai phá tập mục thƣờng xuyên theo hƣớng tiếp cận không sinh ứng cử 30 3.3.1 Thuật toán tạo FP-tree [4] 31 3.3.2 Duyệt FP-tree để sinh tập mục thƣờng xuyên 40 3.4 Khai phá tập mục cổ phần cao 43 3.5 Thuật toán FSM 47 3.5.1 Cơ sở lý thuyết thuật toán FSM 47 3.5.2 Thuật toán FSM 48 3.6 Thuật toán AFSM 52 3.6.1 Cơ sở lý thuyết thuật toán AFSM 52 3.6.2 Thuật toán AFSM 55 Chƣơng 4: XÂY DỰNG ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO - THỬ NGHIỆM TRÊN CSDL BÁN HÀNG 59 4.1 Đặt toán 59 4.2 Thiết kế modul chƣơng trình giải thuật 59 4.3 Giao diện sử dụng chức chƣơng trình 60 4.4 Đánh giá kết hƣớng phát triển chƣơng trình 63 KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 65 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT Từ cụm từ Từ viết tắt Tiếng Anh Khai phá tri thức KDD Knowledge Discovery in Database Khai phá liệu KPDL Data Mining Cơ sở liệu CSDL Database Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC BẢNG Bảng 2.1: Biểu diễn ngang sở liệu giao tác .15 Bảng 2.2: Biểu diễn dọc sử liệu giao tác 15 Bảng 2.3: Ma trận giao tác sở liệu bảng 2.1 16 Bảng 2.4: Các tập mục thƣờng xuyên CSDL bảng 2.3 với minsup=50% 17 Bảng 2.5: Các luật kết hợp sinh từ tập mục thƣờng xuyên BCE 21 Bảng 3.1: Ký hiệu mơ tả thuật tốn Apriori 26 Bảng 3.2: CSDL minh hoạ thuật toán Apriori 29 Bảng 3.3: Danh sách tập mục thƣờng xuyên CSDL bảng 3.2 31 Bảng 3.4: CSDL giao tác minh hoạ xây dựng FP-tree 35 Bảng 3.5: Thống kê tần xuất mục CSDL .35 Bảng 3.6: CSDL giao tác sau loại bỏ mục không thƣờng xuyên xếp mục theo thứ tự giảm dần tần xuất 37 Bảng 3.7: Cơ sở liệu ví dụ .46 Bảng 3.8: Giá trị lmv cổ phần mục liệu CSDL bảng 3.7 47 Bảng 3.9: Các tập mục cổ phần cao CSDL bảng 3.7 47 Bảng 3.10: Cơ sở liệu minh hoạ thuật toán FSM 52 Bảng 3.11: Giá trị lmv CF với k =1 .52 Bảng 3.12: Giá trị lmv CF với k = 52 Bảng 3.13: Giá trị lmv CF với k = 53 Bảng 3.14: Giá trị lmv CF với k=4 53 Bảng 3.15: Các giá trị lmv hàm tới hạn với k=2 58 Bảng 3.16: Các giá trị lmv hàm tới hạn với k=3 58 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC HÌNH Hình 1.1: Q trình khai phá liệu Hình 1.2: Khai phá liệu lĩnh vực có liên quan 11 Hình 2.1: Phân loại thuật toán khai phá tập mục thƣờng xuyên 19 Hình 3.1: Bảng Header FP-tree CSDL bảng 3.5 36 Hình 3.2: Cây FP-tree sau xét giao tác với TID = T01 37 Hình 3.3: Cây FP-tree sau xét giao tác với TID = T02 37 Hình 3.4: Cây FP-tree sau xét giao tác với TID = T03 38 Hình 3.5: Cây FP-tree sau xét giao tác với TID = T04 38 Hình 3.6: Cây FP-tree sau xét giao tác với TID = T05 39 Hình 3.7: Cây FP-tree sau xét giao tác với TID = T06 39 Hình 3.8: Cây FP-tree sau xét giao tác với TID = T07 40 Hình 3.9: Cây FP-tree sau xét giao tác với TID = T08 40 Hình 3.10: Cây FP-tree sau xét giao tác với TID = T09 41 Hình 3.11: Cây FP-tree CSDL bảng 3.4 .42 Hình 3.12: Khơng gian tìm kiếm tập mục cổ phần cao theo thuật tốn AFSM 59 Hình 4.1: Cửa sổ giao diện chƣơng trình 61 Hình 4.2: Cửa sổ thực nhập CSDL .62 Hình 4.3: Nhập ngƣỡng cổ phần minShare 63 Hình 4.4: Cửa sổ thể bƣớc tìm tập mục cổ phần cao 64 Hình 4.5: Cửa sổ hiển thị kết tìm tập mục cổ phần cao 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Sự phát triển nhanh chóng ứng dụng Cơng nghệ thơng tin Internet vào nhiều lĩnh vực đời sống xã hội nhƣ quản lý kinh tế, quản lý nhân sự, khoa học kỹ thuật…đã mở nhiều hội cho tổ chức, doanh nghiệp việc thu thập xử lý thông tin Hơn công nghệ lƣu trữ, phục hồi liệu phát triển cách nhanh chóng, làm xuất nhiều sở liệu khổng lồ Để khai thác có hiệu nguồn thơng tin từ sở liệu khổng lồ trên, yêu cầu cấp thiết đặt cần phải có kỹ thuật, công cụ để chuyển đổi kho liệu khổng lồ thành tri thức có ích Từ kỹ thuật Khai phá liệu trở thành lĩnh vực đƣợc đặc biệt quan tâm ngành Công nghệ thông tin Khai phá liệu khái niệm đƣợc đời vào năm cuối thập kỷ 1980, q trình khám phá thơng tin ẩn đƣợc tìm thấy sở liệu đƣợc ứng dụng cách rộng rãi nhiều lĩnh vực khác nhƣ: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet…Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn Một nội dung phổ biến khai phá liệu tìm tập mục thƣờng xuyên từ phát luật kết hợp Phƣơng pháp nhằm tìm tập thuộc tính thƣờng xuất đồng thời sở liệu rút luật ảnh hƣởng tập thuộc tính dẫn đến xuất (hoặc tập) thuộc tính khác nhƣ Đồng thời mở rộng khai phá tập mục thƣờng xuyên khai phá tập mục cổ phần cao để đánh giá đƣợc đóng góp tập mục tổng số mục liệu sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Từ lý chọn đề tài “Nghiên cứu tập mục thường xuyên luật kết hợp” Luận văn đƣợc xây dựng dựa số nghiên cứu lĩnh vực khai phá tập mục thƣờng xuyên luật kết hợp năm gần Luận văn đƣợc tổ chức thành 04 chƣơng Chƣơng Tổng quan khai phá liệu Chƣơng Tập mục thƣờng xuyên luật kết hợp khai phá liệu Chƣơng 3: Một số phƣơng pháp khai phá liệu luật kết hợp Chƣơng Xây dựng ứng dụng khai phá tập mục cổ phần cao-ứng dụng thử nghiệm CSDL bán hàng Kết luận Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng 1: TỔNG QUAN VỀ PHÁ DỮ LIỆU 1.1 Khai phá liệu Trong kỷ nguyên bùng nổ công nghệ thông tin, công nghệ lƣu trữ liệu ngày phát triển tạo điều kiện cho việc thu thập, lƣu trữ liệu tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức đƣợc tầm quan trọng việc nắm bắt xử lý thông tin, nhằm giúp chủ doanh nghiệp việc vạch chiến lƣợc kinh doanh, kịp thời mang lại lợi nhuận to lớn Từ khiến tổ chức, doanh nghiệp tạo lƣợng liệu khổng lồ cho riêng Các kho liệu ngày lớn tiềm ẩn nhiều thơng tin có ích Để khai thác có hiệu nguồn thông tin từ kho liệu khổng lồ dẫn tới yêu cầu cấp thiết phải có kỹ thuật công cụ để biến kho liệu khổng lồ thành thông tin cô đọng có ích Kỹ thuật Khai phá liệu (Data mining) đời nhƣ kết tất yếu đáp ứng yêu cầu Khai phá liệu (Data mining) q trình trích xuất thơng tin có giá trị tiềm ẩn bên lƣợng lớn liệu đƣợc lƣu trữ sở liệu, kho liệu Hiện nay, thuật ngữ khai phá liệu ngƣời ta cịn dùng số thuật ngữ khác có ý nghĩa tƣơng tự nhƣ: Khai phá tri thức từ CSDL (Knowledge mining from databases), trích lọc liệu (Knowledge extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều ngƣời coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức CSDL (Knowledge Discovery in Databases –KDD) nhƣ Thực tế khai phá liệu bƣớc thiết yếu q trình khám phá tri thức CSDL Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Theo Giáo sƣ Tom Mitchell [11] định nghĩa KPDL: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tƣơng lai” Tóm lại: Khai phá liệu trình tìm kiếm, phát tri thức tri thức có ích dạng tiềm ẩn sở liệu lớn 1.2 Các phƣơng pháp khai phá liệu Các phƣơng pháp KPDL đƣợc phân chia theo chức hay lớp toán khác [7] nhƣ sau: - Phân lớp dự đoán (classicfication and prediction): Xếp đối tƣợng vào lớp biết trƣớc Ví dụ: Phân lớp bệnh nhân theo liệu hồ sơ bệnh án Hƣớng tiếp cận thƣờng sử dụng kỹ thuật nhƣ học máy (Machine learning), định (Decision tree), mạng nơ ron nhân tạo (Neural network) Với phƣơng pháp cịn đƣợc gọi học có giám sát - Luật kết hợp (Association rules): Là dạng luật biểu diễn tri thức dạng đơn giản Mục tiêu phƣơng pháp phát đƣa mối liên hệ giá trị liệu sở liệu Luật kết hợp đƣợc ứng dụng nhiều lĩnh vực kinh doanh, y học, tin – sinh học, tài chính, thị trƣờng chứng khốn - Khai phá chuỗi theo thời gian (Sequential temporal patterns): Tƣơng tự nhƣ khai phá liệu luật kết hợp nhƣng có thêm tính thứ tự tính thời gian Hƣớng tiếp cận đƣợc ứng dụng nhiều lĩnh vực tài thị trƣờng chứng khốn chúng có tính dự báo cao - Phân cụm phân đoạn (Clusterring and Segmentation): Sắp xếp đối tƣợng theo cụm liệu tự nhiên (số lƣợng tên cụm chƣa đƣợc biết trƣớc) Các đối tƣợng đƣợc gom cụm cho mức độ tƣơng tự đối tƣợng cụm lớn mức độ tƣơng tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 Giá trị lmv tập mục {ACDE} nhỏ min_lmv tập mục ACDE khơng phải tập mục cổ phần cao, giá trị hàm tới hạn CF lớn min_lmv tập mục khơng bị tỉa HS4={}, C4 = {ACDE} RC4 = C4 = {ACDE} - Với k = 5: Nối RC4 với RC4 ta đƣợc C5 = , thuật toán dừng Vậy kết thuật tốn FSM tìm đƣợc tập tập mục cổ phần cao thỏa mãn ngƣỡng cổ phần minShare = 50%: HS = HS1  HS2  HS3  HS4 = {CD, CDE} Nhận xét: - Thuật toán FSM thuật toán hiệu tìm tất tập mục cổ phần cao, có ƣu điểm tƣơng đối dễ hiểu, dễ thực Đây thuật toán tốt để khai phá tập mục thƣờng xuyên - Tuy nhiên thuật toán phải sử dụng hàm tới hạn CF(X) để tỉa tập mục ứng viên nhƣng thực tế số tập mục tập RCk lớn giá trị hàm tới hạn CF(X) cao, chƣa sát với giá trị thực tế tập mục RCk dẫn đến sinh tập mục ứng viên nhiều khơng gian tìm kiếm cịn lớn 3.6 Thuật tốn AFSM Để khắc phục hạn chế thuật toán khai phá tập mục cổ phần cao FSM Năm 2009, Nguyễn Huy Đức đề xuất thuật toán khai phá tập mục cổ phần cao hiệu phát triển từ thuật toán FSM gọi thuật toán AFSM (Advanced Fast Share Measure) [1] 3.6.1 Cơ sở lý thuyết thuật tốn AFSM Ràng buộc cổ phần khơng có tính chất phản đơn điệu nhƣ tập mục thƣờng xuyên, đặc điểm khó khăn tốn khai phá tập mục cổ phần cao Để khắc phục khó khăn [1] đề xuất khái niệm “Giá trị Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 theo giao tác tập mục”, “Tập mục cổ phần theo giao tác cao” đồng thời chứng minh đƣợc tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu(Anti Monotone), sử dụng tính chất Apriori để tỉa tập mục ứng viên Định nghĩa 3.6: Cho tập mục X, dbx tập giao tác chứa X Giá trị theo giao tác (transaction measure value) tập mục X, ký hiệu tmv(X), tổng giá trị tất giao tác chứa tập mục X, tức tmv( X )  Tmv (dbx )   tmv(T ) Tq dbx q Ví dụ xét CSDL bảng 3.7, tmv(A) = tmv(01) + tmv(04) + tmv(05) = + + 12 = 26 Định nghĩa 3.7: Tập mục X đƣợc gọi tập mục theo giao tác cao tmv(X) ≥ min_lmv Trƣờng hợp ngƣợc lại, X đƣợc gọi tập mục cổ phần theo giao tác thấp Ví dụ: Xét CSDL bảng 3.7 với minShare = 30%, min_lmv=14,4 ta có tmv(A) = 26, tmv(ABC) = 6, tập mục A tập mục cổ phần theo giao tác cao tập mục ABC tập mục cổ phần theo giao tác thấp Định lý 3.1: Tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone) Xét hai tập mục X, Y cho Y X, Nếu Y tập mục cổ phần theo giao tác thấp X tập mục cổ phần theo giao tác thấp Ta có Y X nên dbydbx, tmv(Y)=Tmv(dbx)=tmv(X) Nếu Y tập mục cổ phần theo giao tác thấp, tức tmv(Y)

Ngày đăng: 17/05/2021, 23:11

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w