1. Trang chủ
  2. » Luận Văn - Báo Cáo

ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun

101 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Sas Jmp Pro 14 Thực Hiện Khai Phá Dữ Liệu Trong Dịch Vụ Bán Hàng Tại Siêu Thị Fatkun
Tác giả Trần Tấn Phát, Trần Trương Trúc Quỳnh
Người hướng dẫn ThS. Nguyễn Thị Trần Lộc
Trường học Trường Đại Học Tài Chính – Marketing
Chuyên ngành Khai Phá Dữ Liệu
Thể loại Đồ Án Môn Học
Năm xuất bản 2024
Thành phố TP. HCM
Định dạng
Số trang 101
Dung lượng 2,31 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (18)
    • 1.1 Lý do hình thành đồ án (18)
    • 1.2 Mục tiêu đồ án (19)
    • 1.3 Dự kiến kết quả đạt được (19)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT (20)
    • 2.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU (20)
      • 2.1.1 Khái niệm (20)
      • 2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh (20)
      • 2.1.3 Quy trình khai phá dữ liệu (21)
    • 2.2 KHO DỮ LIỆU (22)
      • 2.2.1 Kiến trúc luồng dữ liệu (22)
      • 2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI (23)
    • 2.3 CÁC PHƯƠNG PHÁP TRONG KHAI PHÁ DỮ LIỆU (25)
      • 2.3.1 Phương pháp phân lớp (25)
        • 2.3.1.1 Tổng quan phân lớp dữ liệu (25)
        • 2.3.1.2 Phân lớp dữ liệu với cây quyết định (26)
        • 2.3.1.3 Phân lớp dữ liệu với mạng Bayesian (28)
        • 2.3.1.4 Phân lớp dữ liệu với mạng Neural (29)
      • 2.3.2 Phương pháp gom cụm (29)
        • 2.3.2.1 Tổng quan về gom cụm dữ liệu (29)
        • 2.3.2.2 Gom cụm dữ liệu bằng hương pháp phân cấp (30)
        • 2.3.2.3 Gom cụm dữ liệu bằng phương pháp phân hoạch (31)
      • 2.3.3 Phương pháp luật kết hợp (33)
        • 2.3.3.1 Tổng quan khai phá luật kết hợp (33)
        • 2.3.3.2 Phát hiện luật kết hợp (34)
        • 2.3.3.3 Các chiến lược sinh tập thường xuyên (35)
        • 2.3.3.4 Giải thuật Apriori (35)
        • 2.3.3.5 Giải thuật FP – Growth (37)
    • 2.4 GIỚI THIỆU VỀ PHẦN MỀM SAS JMP PRO 14 (38)
      • 2.4.1 Tổng quan về phần mềm SAS JMP Pro 14 (38)
        • 2.4.1.1 Ưu điểm (38)
        • 2.4.1.2 Hạn chế (40)
      • 2.4.2 Cách sử dụng phần mềm (41)
        • 2.4.2.1 Giới thiệu giao diện (41)
        • 2.4.2.2 Cách thức tiến hành các thuật toán (58)
  • CHƯƠNG 3: ỨNG DỤNG PHẦN MỀM SAS JMP PRO 14 (75)
    • 3.1 Thuật toán phân lớp (0)
      • 3.1.1 Quá trình chạy thuật toán (0)
      • 3.1.2 Kết luận (0)
    • 3.2 Thuật toán gom cụm (0)
      • 3.2.1 Quá trình chạy thuật toán (0)
      • 3.2.2 Kết luận (0)
    • 3.3 Thuật toán kết hợp (0)
      • 3.3.1 Quá trình chạy thuật toán (0)
      • 3.3.2 Kết luận (0)
  • CHƯƠNG 4: KẾT LUẬN (0)
    • 4.1 Kết quả đạt được (0)
    • 4.2 Hạn chế (0)
  • TÀI LIỆU THAM KHẢO (101)

Nội dung

Điều này giúp cho quyết định kinh doanh có thể được đưa ra mộtcách chính xác và linh hoạt hơn, từ đó tối ưu hóa các quy trình và chiến lược kinhdoanh.Đề tài "Ứng dụng SAS JMP Pro 14 tron

TỔNG QUAN

Lý do hình thành đồ án

Trong bối cảnh một thị trường bán lẻ đầy cạnh tranh, việc hiểu rõ và phân tích sâu sắc về hành vi mua sắm của khách hàng là chìa khóa để thành công Siêu Thị Fatkun, một trong những địa chỉ mua sắm uy tín và phổ biến, đã nhận ra tầm quan trọng của việc này và quyết định thực hiện một cuộc khảo sát để có thể tổng kết lại thành một bộ dữ liệu phân tích khách hàng để thúc đẩy chiến lược kinh doanh của mình. Đầu tiên, để hiểu được ngữ cảnh của bộ dữ liệu, chúng ta cần nhìn vào đặc điểm của Siêu Thị Fatkun Đây là một siêu thị lớn với vị trí thuận lợi và một loạt các sản phẩm từ thực phẩm đến hàng tiêu dùng hàng ngày Mục tiêu của Fatkun là tăng cường lợi nhuận và sự hài lòng của khách hàng Để đạt được điều này, họ cần hiểu rõ hơn về hành vi mua sắm và thói quen của khách hàng.

Bộ dữ liệu phân tích khách hàng của Siêu Thị Fatkun bao gồm thông tin về bản ghi bán hàng bao gồm cả lợi nhuận của siêu thị , bao gồm thông tin khách hàng, địa chỉ, thông tin sản phẩm, lợi nhuận Dựa trên bộ dữ liệu này, chúng ta có thể phân loại khách hàng thành các nhóm để có thể tìm kiếm khách hàng tiềm năng.

Ngoài ra, siêu thị Fatkun còn mong muốn tìm kiếm tệp khách hàng cá nhân có khả năng sẽ đăng kí trở thành “thành viên” tại siêu thị Do đó, bộ dữ liệu phân tích khách hàng của Fatkun được ra đời thông qua việc thu thập thông tin khách hàng, bao gồm thông tin chi tiết về từng khách hàng cá nhân, từ thông tin cá nhân đến lịch sử mua sắm và các hoạt động trước đó tại siêu thị Dựa trên bộ dữ liệu này, Fatkun có thể phân loại và đánh giá khả năng của từng khách hàng cá nhân khi họ đăng kí trở thành thành viên của siêu thị.

Cuối cùng, một trong những khía cạnh quan trọng nhất trong phân tích hành vi mua sắm tại Fatkun là việc nắm bắt loại sản phẩm mà khách hàng quan tâm và thường xuyên mua sắm Phân tích sâu về loại sản phẩm này không chỉ giúp Fatkun hiểu rõ hơn về sở thích và nhu cầu của khách hàng mà còn giúp cửa hàng tối ưu hóa việc quản lý kho hàng, cung cấp các sản phẩm phù hợp và thiết kế các chiến lược giảm giá và quảng cáo hiệu quả.

Mục tiêu đồ án

- Ứng dụng phần mềm SAS JMP Pro 14 vào để hiểu rõ hơn về hành vi mua sắm của khách hàng.

- Phân tích dữ liệu để xác định các mẫu mua hàng phổ biến của khách hàng tại siêu thị Fatkun.

- Phát triển một mô hình dự đoán để ước lượng doanh số bán hàng tương lai dựa trên các yếu tố như quảng cáo, giảm giá, và các biến số khác.

- Phân loại khách hàng thành các nhóm dựa trên hành vi mua hàng, giúp siêu thịFatkun tùy chỉnh chiến lược tiếp thị và dịch vụ cho từng nhóm khách hàng.

Dự kiến kết quả đạt được

- Hiểu rõ hơn về nhu cầu và mong muốn của khách hàng, từ đó cung cấp các sản phẩm và dịch vụ phù hợp nhất.

- Xác định các mối quan hệ và xu hướng hỗ trợ trong việc tạo ra các chiến lược kinh doanh hiệu quả

- Dự đoán hành vi mua sắm tương lai của khách hàng

CƠ SỞ LÝ THUYẾT

GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU

Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu nhất định để xác định xu hướng, các mẫu và thiết lập các mối liên hệ hữu ích nhằm giải quyết các vấn đề nhờ phân tích dữ liệu Mục tiêu của việc này là cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai, nhằm đưa ra các quyết định được hỗ trợ dữ liệu từ các tập dữ liệu khổng lồ.

Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán.

2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh

Khai phá dữ liệu (data mining) đóng vai trò rất quan trọng trong lĩnh vực kinh doanh và có thể mang lại nhiều lợi ích đáng kể Dưới đây là một số vai trò chính của khai phá dữ liệu trong kinh doanh:

- Dự đoán và phân loại: Khai phá dữ liệu có thể được sử dụng để dự đoán các sự kiện tương lai dựa trên dữ liệu lịch sử Nó cũng có thể được sử dụng để phân loại các mục tiêu, như xác định khách hàng tiềm năng, phân loại sản phẩm, hoặc đánh giá rủi ro tín dụng.

- Tối ưu hóa chiến lược kinh doanh: Phân tích dữ liệu có thể giúp doanh nghiệp tối ưu hóa các quy trình và chiến lược kinh doanh của mình Nó có thể giúp cải thiện hiệu suất hoạt động, tăng cường hiệu quả chi phí, và tối ưu hóa việc quản lý tồn kho.

- Phát triển sản phẩm và dịch vụ: Bằng cách khai thác dữ liệu từ phản hồi của khách hàng và hành vi mua hàng, doanh nghiệp có thể hiểu được nhu cầu của thị trường và phát triển sản phẩm và dịch vụ phù hợp.

- Quản lý mối quan hệ khách hàng: Khai phá dữ liệu có thể giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình, bao gồm hành vi mua hàng, sở thích, và nhu cầu Điều này có thể dẫn đến việc cải thiện dịch vụ khách hàng, tăng cường trung thành và tăng doanh số bán hàng.

- Phát hiện gian lận và rủi ro: Khai phá dữ liệu có thể giúp phát hiện ra các hoạt động gian lận, lạm dụng hoặc rủi ro khác đối với doanh nghiệp Điều này có thể bao gồm phát hiện gian lận tín dụng, gian lận thẻ tín dụng, hoặc phát hiện gian lận bảo hiểm.

2.1.3 Quy trình khai phá dữ liệu

Data Mining là một trong bốn bước của quá trình Khai thác tri thức và 4 bước gồm:

Dữ liệu liên quan cho một ứng dụng phân tích được xác định và tập hợp Dữ liệu có thể được đặt trong các hệ thống nguồn khác nhau, một kho dữ liệu hoặc một bể chứa dữ liệu.

Một kho lưu trữ ngày càng phổ biến trong môi trường dữ liệu lớn chứa hỗn hợp dữ liệu có cấu trúc và không có cấu trúc Nguồn dữ liệu bên ngoài cũng có thể được sử dụng Bất cứ dữ liệu từ nơi nào đến, một nhà khoa học dữ liệu thường chuyển nó đến một kho dữ liệu chính cho các bước còn lại trong quy trình.

Giai đoạn này bao gồm một loạt các bước để chuẩn bị khai phá dữ liệu Nó bắt đầu với việc thăm dò, lập hồ sơ và xử lý trước dữ liệu, sau đó là công việc làm sạch dữ liệu để sửa lỗi và các vấn đề kiểm tra chất lượng dữ liệu khác Việc chuyển đổi dữ liệu cũng được thực hiện để làm cho các tập dữ liệu nhất quán, trừ khi một nhà khoa học dữ liệu đang tìm cách phân tích dữ liệu thô chưa được lọc cho một ứng dụng cụ thể.

Sau khi dữ liệu được chuẩn bị, các nhà khoa học dữ liệu chọn kỹ thuật data mining thích hợp và sau đó triển khai một hoặc nhiều thuật toán để thực hiện khai thác.

Trong các ứng dụng học máy, các thuật toán thường phải được đào tạo trên các tập dữ liệu mẫu để tìm kiếm thông tin đang được tìm kiếm trước khi chúng chạy trên toàn bộ tập dữ liệu.

4 Phân tích và giải thích các dữ liệu

Kết quả của data mining được sử dụng để tạo ra các mô hình phân tích có thể giúp thúc đẩy quá trình ra quyết định và các hành động kinh doanh khác Nhà khoa học dữ liệu hoặc một trong những thành viên khác của nhóm khoa học dữ liệu cũng phải truyền đạt kết quả cho các giám đốc điều hành doanh nghiệp và người dùng,thường thông qua trực quan hóa dữ liệu và sử dụng các kỹ thuật kể chuyện dữ liệu(data storytelling).

KHO DỮ LIỆU

2.2.1 Kiến trúc luồng dữ liệu

Trong kho dữ liệu, kiến trúc luồng dữ liệu là một cấu hình lưu trữ dữ liệu trong hệ thống kho dữ liệu, cùng với việc sắp xếp cách dữ liệu chảy từ hệ thống nguồn thông qua các kho lưu trữ dữ liệu này đến các ứng dụng được người dùng cuối sử dụng Điều này bao gồm cách các luồng dữ liệu được kiểm soát, ghi nhật ký và giám sát, cũng như cơ chế đảm bảo chất lượng của dữ liệu trong kho lưu trữ dữ liệu.

Kiến trúc luồng dữ liệu khác với kiến trúc dữ liệu Kiến trúc dữ liệu là về cách dữ liệu được sắp xếp trong mỗi kho dữ liệu và cách kho dữ liệu được thiết kế để phản ánh các quy trình kinh doanh Hoạt động tạo ra kiến trúc dữ liệu được gọi là mô hình hóa dữ liệu.

Hình 2.1: Kiến trúc luồng dữ liệu hoàn chỉnh

Kiến trúc luồng dữ liệu là một trong những điều đầu tiên bạn cần quyết định khi xây dựng hệ thống kho dữ liệu vì kiến trúc luồng dữ liệu xác định những thành phần nào cần được xây dựng và do đó ảnh hưởng đến kế hoạch và chi phí dự án Kiến trúc luồng dữ liệu cho biết cách dữ liệu chảy qua các kho lưu trữ dữ liệu trong kho dữ liệu

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI

Data warehouse (DW) hay kho dữ liệu là một hệ thống lưu trữ dữ liệu từ nhiều nguồn, nhiều môi trường khác nhau như: phần mềm bán hàng, kế toán, nhân sự hay hệ thống lõi ngân hàng,… giúp tăng cường hiệu suất của các truy vấn cho báo cáo và phân tích.

Data Warehouse hoạt động như một kho lưu trữ trung tâm Dữ liệu đi vào kho dữ liệu từ hệ thống giao dịch và các cơ sở dữ liệu liên quan khác Sau đó, dữ liệu được xử lý, chuyển đổi để người dùng có thể truy cập những dữ liệu này thông qua công cụ Business Intelligence, SQL client hay bảng tính.

Một Data Warehouse thường bao gồm các yếu tố như:

- Một cơ sở dữ liệu quan hệ để lưu trữ và quản lý dữ liệu.

- Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho phân tích.

- Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.

Tại Siêu Thị Fatkun - Các công cụ phân tích khách hàng để trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.

- Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành động bằng cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên quy mô lớn.

Có ba loại ứng dụng kho dữ liệu: xử lý thông tin, xử lý phân tích và khai thác dữ liệu:

Xử lý thông tin hỗ trợ truy vấn, phân tích thống kê cơ bản và báo cáo sử dụng crosstab, bảng, biểu đồ hoặc đồ thị Xu hướng hiện tại trong xử lý thông tin kho dữ liệu là xây dựng các công cụ truy cập dựa trên web có chi phí thấp sau đó được tích hợp với các trình duyệt Web.

Xử lý phân tích hỗ trợ các hoạt động OLAP cơ bản, bao gồm slice-and-dice, drill-down, roll-up, và pivoting Nó thường hoạt động trên dữ liệu lịch sử trong cả hai dạng tóm tắt và chi tiết Sức mạnh chính của xử lý phân tích trực tuyến đối với quá trình xử lý thông tin là phân tích số liệu dữ liệu kho dữ liệu theo chiều sâu.

Khai phá dữ liệu hỗ trợ khám phá kiến thức bằng cách tìm kiếm các mẫu ẩn và các hiệp hội, xây dựng các mô hình phân tích, thực hiện phân loại và dự đoán, và trình bày các kết quả khai thác bằng các công cụ trực quan hóa.

Hình 2.2: ETL cho kho dữ liệu doanh nghiệp

CÁC PHƯƠNG PHÁP TRONG KHAI PHÁ DỮ LIỆU

2.3.1.1 Tổng quan phân lớp dữ liệu

Phân loại dữ liệu là dạng phân tích dữ liệu nhằm rút trích các mô hình mô tảcác lớp dữ liệu hoặc dự đoán xu hướng dữ liệu.

Quá trình gồm hai bước:

- Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng việc phân tích/học tập huấn luyện.

- Bước phân loại (classification): phân loại dữ liệu/đối tượng mới nếu độ chính xác của bộ phân loại được đánh giá là có thể chấp nhận được (acceptable)

2.3.1.2 Phân lớp dữ liệu với cây quyết định

Cây quyết định (decision tree) là một mô hình dùng để phân loại dữ liệu gồm có:

- Node nội: chứa giá trị trên một thuộc tính để cho quá trình thực hiện phép kiểm thử.

- Node lá: chứa nhãn (label) hoặc mô tả của một lớp (class label).

- Nhánh từ một node nội: kết quả của một phép thử trên thuộc tính tương ứng.

Hình 2.3: Ví dụ cây ra quyết định

Giới thiệu một số độ đo:

Trong đó: Info(D): Lượng thông tin cần để phân loại một phần tử D.

- Pi: xác suất để một phần tử bất kỳ trong D thuộc về lớp Ci, với i = 1 m:

Hình 2.5: Xác suất để một phần tử bất kỳ trong D thuộc về lớp Ci

Tại Siêu Thị Fatkun - Gini Index:

2.3.1.3 Phân lớp dữ liệu với mạng Bayesian

Phân loại dữ liệu với mạng Bayes là việc sử dụng phân loại dựa trên xác suất có điều kiện do Bayes tìm ra Công thức xác suất có điều kiện có dạng:

Hình 2.8: Công thức xác suất có điều kiện

2.3.1.4 Phân lớp dữ liệu với mạng Neural Được mô phỏng dựa theo mạng Neural trong não bộ Được xây dựng bằng cách lập lại việc học một tập hợp có trọng số các dự đoán về một lớp các nhãn dựa vào trọng số Thường được hiện thực bằng giải thuật backpropagation Gồm có input layer, một hoặc nhiều layers ẩn, và output layer Dữ liệu được đưa vào input layer, dựa vào trọng số để di chuyển đến các neural thích hợp trong hidden layer và cuối cùng là ra output layer để trả về kết quả.

(Minh họa cho dang tổng quát của mạng Neural)

2.3.2.1 Tổng quan về gom cụm dữ liệu

Gom cụm dữ liệu: Việc nhóm một tập các đối tượng có cùng đặc điểm giống nhau hay gần giống nhau vào cùng một nhóm Các đối tượng trong cùng một cụm tương tự với nhau hơn so với đối tượng ở cụm khác.

Phương pháp gom cụm hỗ trợ giai đoạn tiền xử lý dữ liệu, mô tả sự phân bố dữ liệu/đối tượng, …

Các phương pháp gom cụm tiêu biểu:

- Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí nào đó.

Tại Siêu Thị Fatkun - Phân cấp (hierarchical): phân rư tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó.

- Dựa trên mật độ (density-based): dựa trên connectivity and density functions.

- Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.

- Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất.

2.3.2.2 Gom cụm dữ liệu bằng hương pháp phân cấp

Cây các cụm: dùng biểu diễn phân cấp cụm Với các lá của cây biểu diễn từng đối tượng và các nút trung gian và gốc biểu diễn các cụm.

Tạo cây phân cấp từ trên xuống: Từ cụm lớn nhất chứa tất cả đối tượng Chia thành cụm nhỏ hơn, đến khi có n cụm thỏa mãn điều kiện dừng.

Hình 2.9: Tạo cây phân cấp từ trên xuống

Tạo cây phân cấp từ dưới lên:

- Tạo n nhóm, mỗi nhóm gồm một đối tượng và lập một ma trận khoảng cách cấp n.

- Tìm 2 nhóm u, v có khoảng cách nhỏ nhất.

- Gộp 2 nhóm u,v thành nhóm uv và lập ma trận khoảng cách mới cho uv.

- Lặp lại quá trình đến khi còn 1 nhóm.

2.3.2.3 Gom cụm dữ liệu bằng phương pháp phân hoạch

Với tập dữ liệu chứa n đối tượng, tạo phân hoạch thành tập có k cụm sao cho:

- Mỗi cụm có ít nhất 1 đối tượng.

- Mỗi đối tượng thuộc về 1 cụm duy nhất.

- Tìm phân hoạch có k cụm sao tối ưu hóa các tiêu chuẩn phân hoạc được chọn.

1 Phân hoạch đối tượng thành k cụm ngẫu nhiên.

2 Tính các tâm cho từng cụm trong phân hoạch hiện hành.

3 Gán mỗi đối tượng cho cụm tâm gần nhất.

4 Nếu cụm không có sự thay đổi thì dừng lại, ngược lại quay lại bước 2.

Hình 2.10: Giải thuật toán k-mean (với n = 10, k = 2)

Tại Siêu Thị Fatkun Thuật toán k-medold:

1 Chọn k đối tượng ngẫu nhiên làm tâm của nhóm.

2 Gán từng đối tượng còn lại vào cụm có tâm gần nhất.

3 Chọn ngẫu nhiên 1 đối tượng không là tâm, thay một trong các tâm là nó; nếu nó làm thay đổi các đối tượng trong cụm.

4 Nếu gán tâm mới thì quay lại bước 2, ngược lại thì dừng.

Hình 2.11: Giải thuật toán k-medold (với n = 10, k = 2)

2.3.3 Phương pháp luật kết hợp

2.3.3.1 Tổng quan khai phá luật kết hợp

Bài toán phát hiện luật kết hợp (association rule mining): với một tập hợp các giao dịch cho trước, cần tìm các luật dự đoán khả năng xuất hiện trong một giao dịch của các mục (items) này dựa trên việc xuất hiện của các mục khác.

Các ví dụ của luật kết hợp:

Hình 2.12: Ví dụ của luật kết hợp

Các định nghĩa cơ bản:

- Tập mục (itemset): là một tập hợp gồm một hoặc nhiều mục Tâp mục mức k (k-itemset) có k mục Ví dụ: 3-itemset là {Milk, Bread, Diaper}.

- Luật kết hợp – kí hiệu X -> Y, trong đó X, Y là các tập mục.

- Tổng số hỗ trợ (support count)- kí hiệu σ : là số lần xuất hiện của một tập mục.

Ví dụ: σ({Milk, Bread, Diaper}) = 2.

- Độ hỗ trợ (support)- kí hiệu s: là tỷ lệ các giao dịch chứa cả X và Y đối với tất cả các giao dịch Ví dụ: s({Milk, Diaper, Beer}) = 2/5.

- Độ tin cậy (confidence) – kí hiệu c: là tỷ lệ các giao dịch chứa cả X và Y đối với các giao dịch chứa X Ví dụ: c({Milk, Diaper, Beer}) = 2/3.

Tại Siêu Thị Fatkun - Tập mục thường xuyên (frequent/large itemset): là tập mục mà độ hỗ trợ lớn hơn hoặc bằng một giá trị ngưỡng minsup.

2.3.3.2 Phát hiện luật kết hợp

Với một tập các giao dịch T, mục đích của bài toán phát hiện luật kết hợp là tìm ra tất cả các luật có:

- Độ hỗ trợ s ≥ giá trị ngưỡng minsup, và - Độ tin cậy ≥ giá trị ngưỡng minconf

Cách tiếp cận vét cạn (Brute-force):

- Liệt kê tất cả các luật kết hợp có thể

- Tính toán độ hỗ trợ và độ tin cậy cho mỗi luật.

- Loại bỏ đi các luật có độ hỗ trợ nhỏ hơn minsup hoặc có độ tin cậy nhỏ hơn minconf.

 Phương pháp vét cạn này có chi phí tính toán quá lớn, không áp dụng được trong thực tế.

Các luật sinh ra từ cùng một tập mục sẽ có cùng độ hỗ trợ, nhưng có thể khác về độ tin cậy Do đó, trong quá trình phát hiện luật kết hợp, chúng ta có thể tách riêng 2 yêu cầu về độ hỗ trợ và độ tin cậy

Vậy nên quá trình phát hiện luật kết hợp sẽ phân gồm 2 bước (2 giai đoạn) quan trọng:

- Sinh ra các tập mục thuờng xuyên (frequent/large itemsets): Sinh ra tất cả các tập mục có độ hỗ trợ ≥ minsup

- Sinh ra các luật kết hợp: Từ mỗi tập mục thường xuyên (thu được ở bước trên), sinh ra tất cả các luật có độ tin cậy cao( ≥ minconf)

Tuy vậy, bước sinh ra các tập mục thường xuyên (bước 1) vẫn có chi phí tính toán quá cao.

2.3.3.3 Các chiến lược sinh tập thường xuyên

Dựa vào các phân tích ở mục 2.3.3.4, ta có các chiến lược:

- Giảm bớt số lượng các tập mục cần xét (M): Tìm kiếm (xét) đầy đủ M = 2d.

Sau đó, sử dụng các kỹ thuật cắt tỉa để giảm giá trị M.

- Giảm bớt số lượng các giao dịch cần xét (N): Giảm giá trị N, khi kích thước (số lượng các mục) của tập mục tăng lên.

- Giảm bớt số lượng các so sánh (matchings/comparisons) giữa các tập mục và các giao dịch (N.M ): Sử dụng các cấu trúc dữ liệu phù hợp (hiệu quả) để lưu các tập mục cần xét hoặc các giao dịch Không cần phải so sánh mỗi tập mục với mỗi giao dịch

Từ các chiến lược ta xét 2 giải thuật cơ bản:

- Giải thuật Apriori - Giải thuật FP-Growth.

Quá trình sinh ra luật kết hợp chia làm hai bước Bước đầu tiên là sinh ra các tập thương xuyên Bước thứ hai sinh ra các luật kết hợp Ở mục 2.3.3.3 ta thấy được bước thứ nhất của quá trình rất phức tạp Giải thuật Apriori là một phương pháp làm giảm độ phức tạp ở bước này.

Nguyên tắc của giải thuật Apriori – Loại bỏ dựa trên độ hỗ trợ:

- Nếu một tập mục là thường xuyên, thì tất cả các tập con (subsets) của nó đều là các tập mục thường xuyên

- Nếu một tập mục là không thường xuyên (not frequent) thì tất cả các tập cha(supersets) của nó đều là các tập mục không thường xuyên

Tại Siêu Thị Fatkun Nguyên tắc của giải thuật Apriori dựa trên đặc tính không đơn điệu (anti- monotone) của độ hỗ trợ:

Hình 2.13: đặc tính không đơn điệu

Lược đồ biểu diễn các tập mục cần xét được loại bỏ bớt theo độ hỗ trợ

Hình 2.14: Lược đồ biểu diễn các tập mục cần xét

Các yếu tố ảnh hưởng:

- Lựa chọn giá trị ngưỡng minsup: Giá trị minsup quá thấp sẽ sinh ra nhiều tập mục thường xuyên Điều này sẽ làm tăng số lượng tập mục phải xét

- Số lượng các mục trong cơ sở dữ liệu (các giao dịch): Cần thêm bộ nhớ để lưu giá trị độ hỗ trợ với mỗi mục Nếu số lượng các mục (tập mục mức 1) thường xuyên tăng lên thì chi phí và chi phí I/O (duyệt các giao dịch) cũng tăng.

- Kích thước của cơ sở dữ liệu (các giao dịch): Giải thuật phải duyệt cơ sở dữ liệu nhiều lần, do đó chi phí tính toán của Apriori tăng lên khi số lượng các giao dịch tăng lên.

- Kích thước trung bình của các giao dịch: Khi kích thước (số lượng các mục) trung bình của các giao dịch tăng lên, thì độ dài tối đa của các tập mục thường xuyên cũng tăng.

FP-Growth biểu diễn dữ liệu của các giao dịch bằng một cấu trúc dữ liệu gọi là FP–tree FP-Growth sử dụng cấu trúc FP-tree để xác định trực tiếp các tập mục Thường xuyên

Biểu diễn bằng FP-tree:

- Với mỗi giao dịch, FP-tree xây dựng một đương đi (path) trong cây.

GIỚI THIỆU VỀ PHẦN MỀM SAS JMP PRO 14

2.4.1 Tổng quan về phần mềm SAS JMP Pro 14

Năng lực phân tích dữ liệu vượt trội: JMP Pro 14 sở hữu nhiều công cụ phân tích dữ liệu và thống kê tiên tiến, như:

 Phân tích mô hình hỗn hợp

Nhờ những công cụ này, người dùng có thể giải quyết nhiều bài toán thực tế của nhiều lĩnh vực khác nhau như:

 Khoa học: Phân tích thí nghiệm, mô hình hóa dữ liệu, khám phá mối liên hệ trong dữ liệu.

 Kinh doanh: Phân tích thị trường, dự đoán doanh số, tối ưu hóa quy trình.

 Kỹ thuật: Kiểm soát chất lượng, thiết kế sản phẩm, phân tích độ tin cậy.

 Y tế: Chẩn đoán bệnh, nghiên cứu y học, phân tích dữ liệu sức khỏe.

Giao diện trực quan, dễ thao tác: JMP Pro 14 có giao diện người dùng trực quan, giúp người dùng dễ dàng truy cập và sử dụng các công cụ, tính năng cần thiết.

Các thao tác được thực hiện thông qua menu, hộp thoại và biểu tượng trực quan, giúp người dùng tiết kiệm thời gian và tối ưu hóa hiệu quả làm việc.

Khả năng tùy chỉnh linh hoạt: Người dùng có thể thay đổi giao diện, tạo các phím tắt, và thiết lập các tùy chọn phân tích theo sở thích và yêu cầu công việc.

Khả năng này giúp người dùng tối ưu hóa trải nghiệm sử dụng phần mềm và nâng cao hiệu quả công việc

Dọn dẹp dữ liệu hiệu quả: JMP Pro 14 giúp người dùng dọn dẹp dữ liệu một cách mạng mẽ, người dùng cũng có thể sử dụng nhiều công cụ khác nhau để làm việc này JMP có thể tự động hóa quy trình, giảm thiểu tác động của dữ liệu bẩn, hợp nhất dữ liệu, tham chiếu dữ liệu, kiểm tra dữ liệu, giao diện trực quan và hợp nhất danh mục (Recode).

Hỗ trợ tích hợp đa nền tảng:

 JMP Pro 14 dễ dàng tích hợp với các phần mềm phổ biến như SAS, R vàMicrosoft Excel Tích hợp đa nền tảng giúp người dùng kết hợp dữ liệu từ nhiều nguồn khác nhau và thực hiện phân tích tổng hợp hiệu quả.

 Người dùng có thể dễ dàng chuyển đổi dữ liệu giữa JMP Pro 14 và các phần mềm khác, tiết kiệm thời gian và công sức.

Hệ thống hỗ trợ trực tuyến toàn diện:

 Trang web của JMP cung cấp nhiều tài nguyên hỗ trợ trực tuyến cho người dùng gồm nhiều tài liệu khác nhau như hướng dẫn sử dụng, các bài viết và video hướng dẫn.

 Người dùng còn có thể tham gia diễn đàn cộng đồng của JMp để học hỏi và trao đổi kinh nghiệm với các chuyên gia và nhiều người dùng khác.

 Người dùng có thể dễ dàng truy cập hệ thống hỗ trợ trực tuyến thông qua trang web của JMP hoặc bằng cách liên hệ với bộ phận hỗ trợ khách hàng của JMP.

Mức chi phí khá cao: JMP Pro 14 là phần mềm sử dụng phải trả phí với giá thành tương đối cao Chi phí mua và sử dụng phần mềm có thể hạn chế việc tiếp cận tới các cá nhân hoặc các doanh nghiệp nhỏ có tài chính ở mức trung bình.

Quá trình học tập và sử dụng đòi hỏi phải bỏ ra nhiều thời gian:

 Do sở hữu nhiều tính năng và chức năng, JMP Pro 14 có thể khiến cho người mới tiếp cận ứng dụng gặp trở ngại trong quá trình sử dụng.

 Người dùng cần dành nhiều thời gian để học hỏi cách sử dụng các công cụ và tính năng của phần mềm, cũng như cách thực hiện các phân tích dữ liệu.

Hạn chế về khả năng lập trình:

 So với một số phần mềm khác như R, thì JMP Pro 14 có khả năng lập trình chưa được gọi là mạnh mẽ Mặc dù JMP có ngôn ngữ lập trình riêng (JSL) nhưng không linh hoạt và đa dạng như R.

 Hạn chế về khả năng lập trình có thể khiến cho việc thực hiện các phân tích phức tạp và tự động hóa quy trình trở nên khó khăn hơn.

Khả năng xử lý dữ liệu lớn chưa tối ưu:

 JMP Pro 14 có thể gặp khó khăn khi xử lý các tập dữ liệu có dung lượng lớn hoặc yêu cầu tốc độ xử lý nhanh Ứng dụng này sử dụng kiến trúc 32 – bit, nên có thể sẽ hạn chế khả năng xử lý dữ liệu lớn và phức tạp.

 Bên cạnh đó, việc xử lý các tập dữ liệu lớn có thể đòi hỏi rất nhiều tài nguyên tính toán, bao gồm bộ nhớ và công suất xử lý, điều này có thể là một hạn chế đối với đối tượng người dùng có phần cứng máy tính không mạng mẽ.

Giới hạn về tùy chỉnh: Một số người dùng có thể thấy các tùy chọn tùy chỉnh trong JMP Pro 14 sẽ khá hạn chế so với một số gói phần mềm phân tích thống kê khác, đặc biệt là đối với các phân tích chuyên sâu hoặc phức tạp.

2.4.2 Cách sử dụng phần mềm

2.4.2.1 Giới thiệu giao diện 2.4.2.1.1 Cách cài đặt phần mềm

Bản người dùng thử nghiệm:

1 Truy cập vào trang Download JMP Trial: https://www.jmp.com/en_in/download-jmp-free-trial.html

Hình 2.16: Trang Download JMP Trial

Tại Siêu Thị Fatkun 2 Điền thông tin cá nhân bao gồm:

Hình 2.17: Trang điền thông tin cá nhân

 First name: tên, last name: họ, organization: tên tổ chức.

 Role (vai trò): có 3 vai trò, có thể tùy ý chọn 1 vai trò bất kỳ trong đó.

ỨNG DỤNG PHẦN MỀM SAS JMP PRO 14

Ngày đăng: 05/07/2024, 10:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2]. Nguyễn Thị Thùy Linh, Nghiên Cứu Các Thuật Toán Phân Lớp Dữ Liệu Dựa Trên Cây Quyết Định, Đại Học Quốc Gia Hà Nội Trường Đại Học Công Nghệ Sách, tạp chí
Tiêu đề: Nghiên Cứu Các Thuật Toán Phân Lớp Dữ LiệuDựa Trên Cây Quyết Định
[3]. Nguyễn Hồng Phúc (2018), Kho dữ liệu và khai phá dữ liệu, truy cập tại:https://viblo.asia/p/kho-du-lieu-va-khai-pha-du-lieu-bJzKmX7B59N Sách, tạp chí
Tiêu đề: Kho dữ liệu và khai phá dữ liệu
Tác giả: Nguyễn Hồng Phúc
Năm: 2018
[4]. trungshinji (2021), Tổng quan về phần mềm JMP, tinhte.vn, truy cập tại:https://tinhte.vn/thread/tong-quan-ve-phan-mem-jmp.3385193/ Sách, tạp chí
Tiêu đề: Tổng quan về phần mềm JMP
Tác giả: trungshinji
Năm: 2021
[5]. JMP (2023), K Means Cluster, JMP, truy cập tại:https://www.jmp.com/support/help/en/17.2/index.shtml#page/jmp/k-means-cluster.shtml# Sách, tạp chí
Tiêu đề: K Means Cluster
Tác giả: JMP
Năm: 2023
[6]. JMP (2023), Get Started with JMP, truy cập tại:https://www.jmp.com/support/help/en/17.2/index.shtml#page/jmp/get-started-with-jmp.shtml# Link
[1]. [ThS. Nguyễn Thị Trần Lộc (2024, Slide bài giảng Khai phá dữ liệu, Trường Đại học Tài chính – Marketing Khác

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Kiến trúc luồng dữ liệu hoàn chỉnh - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.1 Kiến trúc luồng dữ liệu hoàn chỉnh (Trang 23)
Hình 2.2: ETL cho kho dữ liệu doanh nghiệp - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.2 ETL cho kho dữ liệu doanh nghiệp (Trang 25)
Hình 2.3: Ví dụ cây ra quyết định - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.3 Ví dụ cây ra quyết định (Trang 26)
Hình 2.9: Tạo cây phân cấp từ trên xuống - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.9 Tạo cây phân cấp từ trên xuống (Trang 30)
Hình 2.10: Giải thuật toán k-mean (với n = 10, k = 2) - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.10 Giải thuật toán k-mean (với n = 10, k = 2) (Trang 31)
Hình 2.11: Giải thuật toán k-medold (với n = 10, k = 2) - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.11 Giải thuật toán k-medold (với n = 10, k = 2) (Trang 32)
Hình 2.13: đặc tính không đơn điệu - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.13 đặc tính không đơn điệu (Trang 36)
Hình 2.15: Ví dụ: Xây dựng FP-tree - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.15 Ví dụ: Xây dựng FP-tree (Trang 38)
Hình 2.19: File mới đã được mở - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.19 File mới đã được mở (Trang 47)
Hình 2.25: Menu Cols - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.25 Menu Cols (Trang 52)
Hình 2.35: Nhấn Go để phần mềm tiến hành chạy thuật toán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.35 Nhấn Go để phần mềm tiến hành chạy thuật toán (Trang 60)
Hình 2.37: Kết quả thuật toán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.37 Kết quả thuật toán (Trang 62)
Hình 2.39: Biểu đồ Biplot - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.39 Biểu đồ Biplot (Trang 63)
Hình 2.40: Biplot 3D - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.40 Biplot 3D (Trang 64)
Hình 2.42: Ma trận Phân tán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.42 Ma trận Phân tán (Trang 65)
Hình 2.41: Parallel Coord Plots - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.41 Parallel Coord Plots (Trang 65)
Hình 2.44: Lựa chọn các thông số - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.44 Lựa chọn các thông số (Trang 67)
Hình 2.45: Kết quả thuật toán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.45 Kết quả thuật toán (Trang 68)
Hình 2.47: Small Tree View - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.47 Small Tree View (Trang 70)
Hình 2.50: Lựa chọn các giá trị - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.50 Lựa chọn các giá trị (Trang 72)
Hình 4.54: Khởi động phương pháp chuyển đổi kiểu dữ liệu - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.54 Khởi động phương pháp chuyển đổi kiểu dữ liệu (Trang 82)
Hình 4.58: Cài đặt các giá trị - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.58 Cài đặt các giá trị (Trang 84)
Hình 4.57: Khởi động chuyển đổi - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.57 Khởi động chuyển đổi (Trang 84)
Hình 4.62: Lựa chọn các biến dự báo - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.62 Lựa chọn các biến dự báo (Trang 87)
Hình 4.63: Kết quả thuật toán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.63 Kết quả thuật toán (Trang 88)
Hình 4.66: Khởi động thuật toán gom cụm - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.66 Khởi động thuật toán gom cụm (Trang 91)
Hình 4.68: Kết quả thuật toán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.68 Kết quả thuật toán (Trang 92)
Hình 4.72: Khởi động thuật toán kết hợp - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.72 Khởi động thuật toán kết hợp (Trang 95)
Hình 4.73: Chọn biến phân loại - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 4.73 Chọn biến phân loại (Trang 96)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w