Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
860,96 KB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM PHẠM THỊ KIM PHƯỢNG ỨNG DỤNG THUẬT TOÁN EFIM ĐỂ KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU BÁN HÀNG TẠI SIÊU THỊ CO.OPMART QUẢNG NGÃI Chuyên ngành: Hệ thống thơng tin Mã số: 61.49.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng – Năm 2017 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN Người hướng dẫn khoa học: PGS.TSKH Trần Quốc Chiến Phản biện 1: TS Vũ Thị Thanh Trà Phản biện 2: TS Nguyễn Quang Thanh Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Hệ thống thông tin họp Đại học sư phạm – Đại học Đà Nẵng vào ngày 30 tháng 07 năm 2017 Có thể tìm hiểu luận văn tại: Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, khai phá liệu (Data mining) trở thành hướng nghiên cứu lớn lĩnh vực khoa học máy tính cơng nghệ thơng tin Khai phá liệu q trình khai phá, trích xuất, khai thác sử dụng liệu có giá trị tiềm ẩn từ bên lượng lớn liệu lưu trữ Cơ Sở Dữ Liệu (CSDL), kho liệu, trung tâm liệu… dựa kĩ thuật mạng nơ ron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: Marketing, tài chính, ngân hàng, bảo hiểm, khoa học, y tế, giáo dục, an ninh Khai phá tập mục phổ biến thông thường tập trung chủ yếu vào việc tìm kiếm phát tập mục thường xun CSDL giao tác Mơ hình khai phá tập mục phổ biến có nhiều ứng dụng thực tế có hạn chế, khơng đáp ứng đầy đủ u cầu người sử Chính mà khái niệm đời, khai phá tập mục hữu ích cao (High Utility Itemsets Mining) tức mục có xét đến yếu tố hữu ích (ví dụ: Nhà kinh doanh họ quan tâm đến số lượng, lợi nhuận, doanh thu mặt hàng lần giao dịch) Như vậy, khai phá tập mục hữu ích cao tìm kiếm CSDL giao tác tập mục có giá trị lớn ngưỡng hữu ích tối thiểu cho trước Khai phá tập mục hữu ích cao mở rộng toán khai phá tập mục phổ biến, nhiều tác giả quan tâm với mục đích đánh giá ý nghĩa tập mục khai phá luật kết hợp Thuật toán EFIM thuật toán khai phá tập mục hữu ích cao, thuật tốn có khả khắc phục hạn chế thuật tốn đề xuất trước Siêu thị Co.opMart Quảng Ngãi hệ thống siêu thị bán lẻ Việt Nam trực thuộc Liên hiệp Hợp tác xã Thương mại thành phố Hồ Chí Minh Co.opMart trở thành nơi mua sắm đáng tin cậy người tiêu dùng Quảng Ngãi Siêu thị cung cấp nhiều mặt hàng đảm bảo chất lượng số lượng Tuy nhiên siêu thị có mặt hàng số lượng bán nhiều lợi nhuận mang lại thấp ngược lại có mặt hàng số lượng bán mang lại lợi nhuận cao mà siêu thị chưa xác định nên chưa có chiến lược kinh doanh dẫn đến doanh thu bán hàng thấp Ví dụ: Một ngày siêu thị bán 100 bịch khăn giấy lợi nhuận không cao bán tivi Từ ta áp dụng kỹ thuật khai phá tập mục hữu ích cao để rút thơng tin mặt hàng bán kèm với mang lại giá trị lợi nhuận cao cho siêu thị Coi mặt hàng mục, hóa đơn bán hàng giao tác Ứng với giao tác, mục có giá trị hữu ích nội, số lượng bán mặt hàng hóa đơn, mặt hàng có giá trị lợi nhuận coi giá trị hữu ích ngoại mục Từ lý trên, với hướng dẫn thầy PGS.TSKH Trần Quốc Chiến Tôi chọn hướng nghiên cứu thực đề tài: “Ứng dụng thuật toán EFIM để khai phá tập mục hữu ích cao từ sở liệu bán hàng siêu thị Co.opMart Quảng Ngãi” Mục tiêu nhiệm vụ 2.1 Mục tiêu - Thu thập liệu bán hàng siêu thị Co.opMart Quảng Ngãi - Tìm hiểu thuật tốn EFIM để khai phá tập mục hữu ích cao từ CSDL giao tác - Ứng dụng thuật tốn EFIM để tìm tập mục hữu ích cao từ CSDL bán hàng siêu thị Co.opMart Quảng Ngãi 2.2 Nhiệm vụ - Tìm hiểu khái niệm khai phá liệu khai phá luật kết hợp - Tìm hiểu thuật tốn khai phá tập mục hữu ích cao trước - Tìm hiểu thuật tốn EFIM - Thu nhập liệu từ thực tế, tổng hợp phân tích liệu - Cài đặt thuật tốn EFIM CSDL giao tác rút tập mục hữu ích cao mặt hàng thường bán kèm với mang lại lợi nhuận cao cho siêu thị - So sánh thuật toán EFIM so với thuật toán khác Đối tượng phạm vi nghiên cứu 3.1 Đối tượng - Thuật toán EFIM để khai phá tập mục hữu ích cao - Thông tin liệu bán hàng siêu thị 3.2 Phạm vi nghiên cứu - Nghiên cứu thuật tốn EFIM để khai phá tập mục hữu ích cao từ CSDL giao tác - Số liệu kinh doanh siêu thị Co.opMart Quảng Ngãi thời gian năm 2016 Phương pháp nghiên cứu 4.1 Phương pháp nghiên cứu tài liệu - Tiến hành thu thập nghiên cứu tài liệu có liên quan đến đề tài - Nghiên cứu giải pháp xây dựng cài đặt thuật toán EFIM 4.2 Phương pháp thực nghiệm - Xây dựng sở liệu - Cài đặt thuật toán chạy thử nghiệm liệu giao tác - Nhận xét đánh giá kết thuật toán EFIM với thuật toán khác Ý nghĩa đề tài 5.1 Ý nghĩa khoa học - Cài đặt thuật toán EFIM để rút mặt hàng bán kèm có giá trị lợi nhuận cao làm sở để áp dụng thuật toán khai phá luật kết hợp từ tập mục hữu ích cao - Rút ưu điểm so với thuật toán khác 5.2 Ý nghĩa thực tiễn Từ CSDL bán hàng rút mặt hàng bán kèm mang lại lợi nhuận cao, từ định hướng kinh doanh cho siêu thị Kết dự kiến 6.1 Kết đề tài - Nắm lý thuyết khai phá tập mục hữu ích cao thuật tốn EFIM - Ứng dụng CSDL giao tác bán hàng siêu thị Co.opMart Quảng Ngãi 6.2 Hướng phát triển đề tài - Nghiên cứu thuật toán khai phá tập mục hữu ích cao khác - Nghiên cứu thuật tốn khai phá luật kết hợp từ tập mục hữu ích cao Bố cục luận văn Chương 1: Cơ sở lý thuyết khai phá liệu Chương trình bày sở lý thuyết bao gồm: Tổng quan khai phá liệu, kỹ thuật khai phá tập mục phổ biến luật kết hợp CSDL giao tác Chương 2: Khai phá tập mục hữu ích cao từ sở liệu giao tác Trong chương trình bày khái niệm liên quan đến khai phá tập mục hữu ích cao thuật tốn EFIM CSDL giao tác Chương 3: Cài đặt thuật toán EFIM ứng dụng khai phá liệu bán hàng Chương tập trung vào thuật toán EFIM, thu thập xử lý liệu bán hàng siêu thị Co.opMart Quảng Ngãi, cài đặt thực nghiệm chương trình So sánh thuật toán EFIM với thuật toán khác Cuối cùng, đánh giá, kết luận hướng phát triển đề tài tương lai CHƯƠNG CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lượt khai phá liệu Khai phá liệu thu hút nhiều ý ngành công nghiệp thông tin toàn xã hội năm gần đây, sẵn có lượng lớn liệu cần phải xếp chuyển liệu thành thơng tin kiến thức bổ ích Các thơng tin kiến thức thu được sử dụng cho ứng dụng khác nhau, từ phân tích thị trường, phát gian lận, trì khách hàng, để kiểm soát sản xuất, v.v Khai Phá Dữ Liệu (KPDL) khái niệm xuất vào năm cuối thập niên 80 Nó bao hàm kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn CSDL KPDL có tiềm to lớn việc tạo lợi nhuận đáng kể kinh tế Nói cách khác KPDL q trình khai phá, trích xuất sử dụng liệu có giá trị tiềm ẩn từ bên lượng lớn liệu lưu trữ CSDL, kho liệu… 1.1.2 Quá trình khám phá tri thức từ sở liệu 1.1.3 Các dạng liệu khai phá - Cơ sở liệu quan hệ (Relational Database): Một hệ thống sở liệu, gọi hệ thống quản lý CSDL, bao gồm sưu tập liệu liên quan với nhau, biết đến CSDL tập hợp chương trình phần mềm để quản lý truy cập liệu Các chương trình phần mềm cung cấp chế để xác định cấu trúc CSDL lưu trữ liệu, để xác định quản lý đồng thời, chia sẻ, truy cập liệu phân tán, đảm bảo tính thống an ninh thông tin lưu trữ bất chấp cố hệ thống nỗ lực truy cập trái phép - Cơ sở liệu giao tác (Transaction Database): Là tập hợp ghi giao dịch Khai phá liệu CSDL giao tác tập trung vào khai phá luật kết hợp, tìm mối tương quan mục liệu ghi giao dịch Dạng liệu thường phổ biến lĩnh vực thương mại, ngân hàng, bán hàng,… - Cơ sở liệu đa chiều (Multidimention Structures, Data Warehouses, Data Mart): Các kho liệu tập hợp chọn lọc từ nhiều nguồn liệu khác Dạng liệu chủ yếu phục vụ cho q trình phân tích khai phá tri thức hỗ trợ trình định - Cơ sở liệu quan hệ - hướng đối tượng (Object Relational Databases): Dạng liệu kết hợp hai mơ hình quan hệ hướng đối tượng Dữ liệu ứng dụng viễn thông,… - Dữ liệu không gian thời gian (Spatial, Temporal, and Time-series data): Dạng liệu có tích hợp thuộc tính khơng gian liệu đồ, mạng cáp điện thoại thời gian liệu cước điện thoại, phát hành báo chí - Cơ sở dữ ĐỀ Mục tiêu toán khai phá luật kết hợp phát tập mục phổ biến từ sinh luật kết hợp Trong lĩnh vực kinh doanh, khai phá tập mục phổ biến từ CSDL giao tác tìm tập mục, thường xuất giao tác Tuy nhiên, lợi nhuận theo đơn vị sản phẩm số lượng mua mục chưa đề cập khai phá tập mục phổ biến nên áp dụng vào thực tế chưa cao Ví dụ: Bán viên kim cương lợi nhuận cao nhiều so với bán chai nước Vì vậy, để đáp ứng yêu cầu thực tiễn, nhiều nhà nghiên cứu đưa hướng mở rộng cho tốn khai phá tập mục hữu ích cao, nhằm khám phá tập mục có giá trị hữu ích hay lợi nhuận cao Khai phá tập mục hữu ích cao hướng nghiên cứu quan trọng KPDL năm gần ứng dụng rộng rãi phân tích giỏ hàng, thương mại di động, tiếp thị chéo… 2.2 TỔNG QUAN VỀ TÌNH HÌNH NGHIÊN CỨU KHAI PHÁ TẬP MỤC HỮU ÍCH CAO Khai phá tập mục hữu ích cao phần mở rộng toán khai phá tập mục phổ biến Khai phá tập mục hữu ích cao tìm tất tập mục có giá trị hữu ích lớn ngưỡng hữu ích tối thiểu cho trước (do người dùng qui định) Mục đích khai phá tập mục hữu 12 ích cao làm giảm thiểu kích thước tập ứng viên đơn giản hóa trình tính tốn độ hữu ích tập mục, từ giảm số lượng ứng viên cho tập mục hữu ích cao, giảm thời gian khai phá 2.3 MỘT SỐ ĐỊNH NGHĨA CỦA BÀI TOÁN Định nghĩa 1: Giá trị hữu ích mục (item) ij giao tác Td , ký hiệu u(ij, Td) xác định sau: u(ij, Td) = q(ij, Td) * p(ij) Trong đó: + q(ij, Td) giá trị hữu ích nội + p(ij) giá trị hữu ích ngoại Định nghĩa 2: Giá trị hữu ích tập mục (itemset) X giao tác Td, ký hiệu u(X, Td) tổng giá trị hữu ích tất mục chứa X giao tác Td Định nghĩa 3: Giá trị hữu ích tập mục X CSDL giao tác D, ký hiệu u(X) xác định tổng giá trị hữu ích X tất giao tác chứa X D u( X ) Td D X Td u ( X , Td ) Định nghĩa 4: Một tập mục X gọi tập mục hữu ích cao giá trị hữu ích X lớn ngưỡng hữu ích tối thiểu minutil người dùng quy định u(X) ≥ minutil Ngược lại, X gọi tập mục hữu ích thấp Định nghĩa 5: Bài toán khai phá tập mục hữu ích cao – High Utility Itemset Mining (HUIM) tốn tìm tất tập mục có giá trị 14 mục I’ cấu trúc EUCS (Estimated Utility Co-Occurrence Structure) 2.5 THUẬT TOÁN EFIM 2.5.1 Một số khái niệm - Độ hữu ích giao tác (Transaction Utility) Độ hữu ích giao tác Td, ký hiệu tu(Td) tổng giá trị hữu ích tất mục chứa giao tác tu (Td ) i j Td u (i j , Td ) - Độ hữu ích trọng số giao tác (Transaction Weighted Utilization - TWU) Độ hữu ích trọng số giao tác tập mục X CSDL giao tác D, ký hiệu TWU(X) tổng giá trị hữu ích tất giao tác chứa X D - Các mục mở rộng từ tập mục: Gọi α tập mục, E(α) tập hợp tất mục mở rộng từ tập mục α để tìm kiếm theo chiều sâu, tức là: E(α) = {z | (zI) (z ≻ x), x α} - Giao tác tham chiếu – Projected transaction Tham chiếu giao tác T lên tập mục α ký hiệu α – T định nghĩa sau: α – T = {i | i ∈ T ∧ i ∈ E(α)} - Cơ sở liệu tham chiếu – Projected database 15 Tham chiếu CSDL D lên tập mục α, ký hiệu α – D định sau: α – D = {α – T | (T D) α – T } - Hợp giao tác – Transaction merging Hợp giao tác thay tập giao tác giống T1, T2, … Tm CSDL D giao tác TM = T1 = T2 = … = Tm Việc hợp giao tác giống nhằm giảm kích thước CSDL đạt hiệu khơng cao Vì cần phải hợp giao tác sở liệu tham chiếu - Hợp giao tác tham chiếu - Projected transaction merging Hợp giao tác tham chiếu thay tập giao tác giống T1, T2, … Tm CSDL tham chiếu α – D giao tác TM = T1 = T2 = … = Tm, với số lượng mục (iTM) tổng giá trị hữu ích nội giao tác, tức là: q (i, TM ) m q(i, T k 1 k ) - Thứ tự giao tác - Total order on transactions Gọi ≻T tập giao tác xếp theo thứ tự từ trước sau Xét giao tác: Ta = {i1, i2, , im} Tb = {j1, j2, , jk} Thứ tự xếp giao tác ≻T xác định trường hợp: + Trường hợp 1: Tb ≻Ta hai giao tác Tb, Ta TID Tb lớn TID Ta + Trường hợp 2: Tb ≻T Ta k > m im − x = jk − x với ≤ x < m 16 + Trường hợp 3: Tb ≻T Ta ≤ x < min(m, k) làm cho j k − x ≻ im − x im –y = jk – y với x