Luận văn thạc sĩ phân tích và tìm hiểu độ trung thành của khách hàng bằng phương pháp phân lớp kết hợp

87 2 0
Luận văn thạc sĩ phân tích và tìm hiểu độ trung thành của khách hàng bằng phương pháp phân lớp kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thuật toán AIS do Agrawal đưa ra năm 1993. Thuật toán này chú trọng khai phá luật kết hợp có dạng X>Y, với Y là tập hợp chỉ bao gồm 1 tính chất (tập hợp 1 phần tử). Thuật toán tìm cách xây dựng dần dần các tập ứng cử viên cho “chức vụ” tập hợp xuất hiện – thường xuyên. Với cách đánh số thứ tự từ điển cho từng tính chất, việc bổ sung phần tử cho tập ứng cử viên tránh được trùng lặp, do vậy tiết kiệm tối đa thời gian tính toán. Thuật toán Apriori do Agrawal đề xuất năm 1994, được Cheung đánh giá mang tính chất lịch sử trong lĩnh vực KPLKH, vì đã vượt xa tầm của các thuật toán quen thuộc trong lĩnh vực này. Thuật toán dựa trên một nhận xét khá đơn giản là bất kỳ tập hợp con nào của tập xuất hiện – thường xuyên cũng là tập xuất hiện – thường xuyên. Do đó, trong quá trình đi tìm các tập ứng cử viên, nó chỉ cần dùng đến các tập ứng cử viên vừa xuất hiện ở bước ngay trước đó, chứ không cần dùng đến tất cả các tập ứng cử viên (cho đến thời điểm đó). Nhờ vậy, bộ nhớ được giải phóng đáng kể. Thuật toán SETM do Houtsma đề nghị năm 1995. Thuật toán này cũng sử dụng kỹ thuật bổ sung dần dần từng phần tử (từ tập hợp 1 phần tử) nhằm tìm kiếm các tập hợp ứng cử viên. Một cải tiến đáng kể là Thuật toán đề nghị lưu lại cả ID của giao dịch cùng với tập hợp ứng cử viên. Agrawal đã chỉ ra, Thuật toán này không những không có phương án quản lý bộ nhớ mà nó còn giả định nhét toàn bộ tập hợp ứng cử viên của bước trước vào bộ nhớ để bước sau tiệnbề sử dụng. Sarawagi đã chỉ ra thuật toán này không hiệu quả. Có nhiều phương pháp khai thác luật phân lớp được phát triển gồm C4.5, ILA và ILA2. Gần đây, một phương pháp phân lớp từ khai thác dữ liệu, gọi là phân lớp dựa trên sự kết hợp (CBA), được đề xuất cho việc khai thác phân lớp dựa trên luật kết hợp (CARs). Trong khai thác luật kết hợp, thuộc tính đích (hoặc thuộc tính lớp) là không được xác định trước. Tuy nhiên, thuộc tính đích phải được xác định trước trong vấn đề phân lớp. Do đó, một số thuật toán cho khai thác luật phân lớp dựa trên khai thác luật kết hợp được đề xuất như:  Phân lớp dựa trên luật kết hợp dự đoán.  Phân lớp dựa trên nhiều luật kết hợp.  Phân lớp dựa trên sự kết hợp.  Phân lớp kết hợp đa lớp.  Phân loại kết hợp dựa trên entropy tối đại.  Dùng cây lớp tương đương. Một số nghiên cứu cho thấy phân loại dựa trên luật kết hợp lớp chính xác hơn các phương pháp truyền thống như C4.5, ILA về cả lý thuyết và kết quả thực nghiệm. Veloso đề xuất phân lớp kết hợp lười. Thuật toán di truyền cũng được áp dụng cho việc khai thác CARs, và một số phương pháp tiếp cận được đề xuất như sau:  Phương pháp tiếp cận dựa trên GA để xây dựng bộ phân loại cho bộ dữ liệu số và áp dụng nó vào dữ liệu giao dịch chứng khoá.  Phương pháp dựa trên GA mà không cần ngưỡng độ hỗ trợ tối thiểu hoặc độ tin cậy tối thiểu.  Ngoài ra, cũng có một số nghiên cứu cải tiến thuật toán khai thác luật phân lớp kết hợp được đề xuất như:  Thuật toán khai thác hiệu quả luật phân lớp kết hợp CARMiner.  Thuật toán cải tiến khai thác luật phân lớp kết hợp dùng sự khác nhau về bộ định danh các đối tượng chứa tập phổ biến.

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học : ……………………………………… (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày … tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM VIỆN ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 20 … NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Giới tính: Ngày, tháng, năm sinh: Nơi sinh: Chuyên ngành: .MSHV: I- Tên đề tài: II- Nhiệm vụ nội dung: III- Ngày giao nhiệm vụ: (Ngày bắt đầu thực LV ghi QĐ giao đề tài) IV- Ngày hoàn thành nhiệm vụ: V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) ii LỜI CÁM ƠN Trải qua trình học tập nghiên cứu Trường Đại học công nghệ TP HCM, em trải nghiệm môi trường đào tạo tốt nhận dạy nhiệt tình thầy, cô Trường Lời đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc đến cô PGS, TS.Nguyễn Thị Thúy Loan, người tận tình bảo, nhắc nhở hướng dẫn em suốt trình học tập thực luận văn Em xin bày tỏ lòng biết ơn sâu sắc đến Cha mẹ người thân gia đình chăm sóc, ni dạy, hỗ trợ, động viên tạo điều kiện thuận lợi cho em suốt thời gian qua đặc biệt thời gian em làm luận văn tốt nghiệp Ngoài ra, em chân thành cảm ơn bạn, anh, chị ủng hộ, giúp đỡ, trao đổi kiến thức, kinh nghiệm động viên thời gian học tập nghiên cứu Em xin chân thành cảm ơn ! Trần Huy Vũ iii MỤC LỤC PHẦN MỞ ĐẦU 1 GIỚI THIỆU MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU CHƯƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khai thác liệu 1.1.1 Khái niệm .5 1.1.2 Các kỹ thuật khai thác liệu 1.1.3 Quá trình khai thác liệu 1.1.4 Nhiêm vụ khai thác liệu 1.1.5 Ứng dụng khai thác liệu 11 1.2 Một số phương pháp khai thác liệu 12 1.2.1 Phương pháp quy nạp 12 1.2.2 Cây định luật .13 1.2.3 Phát luật kết hợp 13 1.2.4 Mạng Neuron .14 1.2.5 Giải thuật di truyền 15 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT .16 2.1 Tổng quan luật kết hợp 16 2.1.1 Giới thiệu 16 2.1.2 Một số hướng tiếp cận khai thác luật kết hợp 16 2.2 Khai thác luật kết hợp 17 2.2.1 Định nghĩa 17 2.2.2 Phát biểu toán khai phá luật kết hợp .18 2.3 Khai thác luật phân lớp 20 2.3.1 Giới thiệu 20 2.3.2 Quá trình phân lớp 21 iv 2.3.3 Một số phương pháp phân lớp 23 2.4 Khai thác luật phân lớp dựa vào luật kết hợp 23 2.4.1 Giới thiệu 23 2.4.2 Bài toán luật phân lớp kết hợp 24 CHƯƠNG 3: PHÁT BIỂU BÀI TOÁN VÀ LUẬT PHÂN LỚP KẾT HỢP .26 3.1 Giới thiệu .26 3.2 Phân lớp dựa vào khai thác luật kết hợp 28 3.2.1 Một số định nghĩa .28 3.2.2 Cấu trúc MECR 29 3.2.3 Thuật toán khai thác hiệu cho CAR-Miner 30 3.2.4 Thuật toán CAR-Miner .32 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ .34 4.1 Môi trường thực nghiệm 34 4.1.1 Tổng quan python 34 4.1.2 Đặc điểm python 35 4.1.3 Các ứng dụng python 36 4.1.4 Một số thư viện lệnh python 37 4.2 Tập liệu thực nghiệm 43 4.2.1 Thông tin tập liệu 43 4.2.2 Tiền xử lý liệu .46 4.2.3 Đánh giá liệu 48 4.3 Kết thực nghiệm 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 TÀI LIỆU THAM KHẢO 66 v DANH MỤC CÁC BẢN Bảng 2.1 Ví dụ CSDL giao dịch 18 Bảng 2.2 Tập mục thường xuyên Minsup = 50% .19 Bảng 2.3 Luật kết hợp sinh từ tập mục phổ biến ABE 20 Bảng 2.4 Một CSDL huấn luyện mẫu 25Y Bảng 3.1 Một CSDL huấn luyện mẫu cho thuật toán Car-Miner 29 Bảng 4.1 Các luật rút tạo từ tập liệu 61 vi DANH MỤC CÁC HÌNH Y Hình 1.1 Q trình khai thác liệu Hình 1.2 Thể sơ đồ khai thác liệu mạng Neuron 15 YHình 2.1.Quá trình Hình 2.2 Quá trình phân lớp 22 Y Hình 3.1 Thuật toán CAR-Miner 33 Hình 3.2 Cây MECR xây dựng từ CSDL bảng 2.1 33

Ngày đăng: 07/06/2023, 16:23

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan