1. Trang chủ
  2. » Luận Văn - Báo Cáo

ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun

101 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Điều này giúp cho quyết định kinh doanh có thể được đưa ra mộtcách chính xác và linh hoạt hơn, từ đó tối ưu hóa các quy trình và chiến lược kinhdoanh.Đề tài "Ứng dụng SAS JMP Pro 14 tron

Trang 1

TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETINGKHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN MÔN HỌCKHAI PHÁ DỮ LIỆU

TP HCM, THÁNG 4 NĂM 2024

ỨNGDỤNGSAS JMP

PRO 14THỰC

HIỆNKHAIPHÁ DỮ

LIỆUTRONGDỊCH VỤ

Trang 2

BỘ TÀI CHÍNH

TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETINGKHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN MÔN HỌCKHAI PHÁ DỮ LIỆU

TP HCM, THÁNG 4 NĂM 2024

ỨNGDỤNGSAS JMP

PRO 14THỰC

HIỆNKHAIPHÁ DỮ

LIỆUTRONGDỊCH VỤ

Trang 3

Ứng Dụng Sas Jmp Pro 14 Thực Hiện Khai Phá Dữ Liệu Trong Dịch Vụ Bán Hàng Tại Siêu Thị Fatkun

TRÍCH YẾU

Trong thế kỷ 21 đầy cạnh tranh và phát triển của ngành bán lẻ, việc hiểu rõ vàtận dụng dữ liệu là chìa khóa để nâng cao hiệu suất kinh doanh và tăng cường sự hàilòng của khách hàng Trong bối cảnh này, đề tài "Ứng Dụng SAS JMP Pro 14 trongKhai Phá Dữ Liệu Dịch Vụ Bán Hàng tại Siêu Thị Fatkun" trở nên vô cùng cần thiếtvà hấp dẫn Việc sử dụng SAS JMP Pro 14 mang lại cho Siêu Thị Fatkun một công cụmạnh mẽ để khai thác dữ liệu một cách hiệu quả SAS JMP Pro 14 không chỉ cung cấpcác công cụ phân tích dữ liệu nhanh chóng và linh hoạt mà còn cho phép việc hiển thịvà diễn giải kết quả một cách trực quan, giúp cho những quyết định kinh doanh đượcđưa ra dễ dàng và chính xác hơn

Với việc áp dụng công nghệ khai phá dữ liệu vào dịch vụ bán hàng, Siêu ThịFatkun có thể hiểu rõ hơn về nhu cầu và mong muốn của khách hàng Phân tích dữliệu từ các giao dịch mua sắm, hành vi trực tuyến, và phản hồi từ khách hàng sẽ giúpsiêu thị nắm bắt được các xu hướng mua sắm, đánh giá hiệu suất sản phẩm, và thiếtkế các chiến lược bán hàng phù hợp

Ngoài ra, việc sử dụng SAS JMP Pro 14 cũng mang lại lợi ích trong việc tối ưuhóa hoạt động kinh doanh Bằng cách phân tích dữ liệu về tồn kho, doanh số bánhàng, và chi phí, siêu thị có thể tối ưu hóa vị trí sản phẩm, quản lý chuỗi cung ứng, vàđiều chỉnh giá cả để tăng cường lợi nhuận và giảm thiểu lãng phí Việc thực hiện đềtài này cũng góp phần nâng cao sự cạnh tranh của Siêu Thị Fatkun trên thị trường.Bằng việc tận dụng dữ liệu và áp dụng công nghệ khai phá dữ liệu, siêu thị có thể đápứng nhanh chóng và linh hoạt với sự biến đổi của thị trường, từ đó giữ vững và pháttriển vị thế của mình

Tóm lại, việc thực hiện đề tài "Ứng Dụng SAS JMP Pro 14 trong Khai Phá DữLiệu Dịch Vụ Bán Hàng tại Siêu Thị Fatkun" không chỉ là cần thiết mà còn là mộtbước quan trọng để Siêu Thị Fatkun tiến xa hơn trong hành trình cạnh tranh và pháttriển trong ngành bán lẻ hiện đại.

Trang 4

MỤC LỤC

TRÍCH YẾU ii

MỤC LỤC iii

LỜI CẢM ƠN vi

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN 1 vii

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN 2 viii

DANH MỤC TỪ VIẾT TẮT ix

DANH MỤC THUẬT NGỮ ANH – VIỆT x

1.3Dự kiến kết quả đạt được 5

CHƯƠNG 2:CƠ SỞ LÝ THUYẾT 6

2.1GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 6

2.1.1 Khái niệm 6

2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh 6

2.1.3 Quy trình khai phá dữ liệu 7

2.2KHO DỮ LIỆU 8

2.2.1 Kiến trúc luồng dữ liệu 8

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI 9

2.3CÁC PHƯƠNG PHÁP TRONG KHAI PHÁ DỮ LIỆU 11

2.3.1 Phương pháp phân lớp 11

2.3.1.1Tổng quan phân lớp dữ liệu 11

2.3.1.2Phân lớp dữ liệu với cây quyết định 12

iii

Trang 5

2.3.1.3Phân lớp dữ liệu với mạng Bayesian 14

2.3.1.4Phân lớp dữ liệu với mạng Neural 15

2.3.2 Phương pháp gom cụm 15

2.3.2.1Tổng quan về gom cụm dữ liệu 15

2.3.2.2Gom cụm dữ liệu bằng hương pháp phân cấp 16

2.3.2.3Gom cụm dữ liệu bằng phương pháp phân hoạch 17

2.3.3 Phương pháp luật kết hợp 19

2.3.3.1Tổng quan khai phá luật kết hợp 19

2.3.3.2Phát hiện luật kết hợp 20

2.3.3.3Các chiến lược sinh tập thường xuyên 21

2.3.3.4Giải thuật Apriori 21

2.3.3.5Giải thuật FP – Growth 23

2.4GIỚI THIỆU VỀ PHẦN MỀM SAS JMP PRO 14 24

2.4.1 Tổng quan về phần mềm SAS JMP Pro 14 24

2.4.2.1.2 Giới thiệu giao diện phần mềm 32

2.4.2.2Cách thức tiến hành các thuật toán 42

CHƯƠNG 3:ỨNG DỤNG PHẦN MỀM SAS JMP PRO 14 59

3.1Thuật toán phân lớp 69

3.1.1 Quá trình chạy thuật toán 69

3.1.2 Kết luận 73

3.2Thuật toán gom cụm 73

3.2.1 Quá trình chạy thuật toán 73

3.2.2 Kết luận 75

3.3Thuật toán kết hợp 78

3.3.1 Quá trình chạy thuật toán 78

3.3.2 Kết luận 81

Trang 7

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến giảng viên bộ môn Khai phádữ liệu, cô – Nguyễn Thị Trần Lộc người đã hướng dẫn chúng em trong suốt quá trìnhhọc tập Chính nhờ sự tận tình, ân cần giúp đỡ của cô trong các buổi giảng mà chúngem đã có thêm được nhiều kiến thức cơ sở về khai phá dữ liệu Ngoài ra, bộ môn còngiúp chúng em biết thêm nhiều kĩ năng cần được chú trọng Điều đó đã giúp chochúng em trang bị thêm nhiều kiến thức phục vụ công việc trong tương lai.

Trong khi kiến thức thì vô hạn mà bản thân mỗi người luôn tồn tại những hạn chếnhất định Thế nên, trong quá trình trình bày và thực hiện chắc chắn không tránh khỏithiếu sót Chúng emm mong sẽ nhận được những đánh giá và góp ý của cô để bài đồán của chúng em trở nên hoàn thiện hơn.

Cuối cùng, chúng em xin chúc cô sức khỏe dồi dào, luôn thành công trên conđường giảng dạy.

Chúng em xin chân thành cảm ơn!

Sinh viên

Trần Tấn PhátTrần Trương Trúc Quỳnh

Trang 8

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN 1

Trang 9

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN 2

Trang 10

DANH MỤC TỪ VIẾT TẮT

STTKý hiệu chữ viết tắtChữ viết đầy đủ

6 Backpropagation Backward propagation of errors

ix

Trang 11

DANH MỤC THUẬT NGỮ ANH – VIỆT

STTTên tiếng AnhTên tiếng Việt

1 Business Intelligence Kinh doanh thông minh

3 Slice – and - dice Cắt và thu nhỏ dữ liệu

7 Backward propagation of errors Truyền ngược sai số

Trang 12

DANH MỤC CÁC HÌNH ẢNH

Hình 2.1: Kiến trúc luồng dữ liệu hoàn chỉnh 9

Hình 2.2: ETL cho kho dữ liệu doanh nghiệp 11

Hình 2.8: Công thức xác suất có điều kiện 14

Hình 2.9: Tạo cây phân cấp từ trên xuống 16

Hình 2.10: Giải thuật toán k-mean (với n = 10, k = 2) 17

Hình 2.11: Giải thuật toán k-medold (với n = 10, k = 2) 18

Hình 2.12: Ví dụ của luật kết hợp 19

Hình 2.13: đặc tính không đơn điệu 22

Hình 2.14: Lược đồ biểu diễn các tập mục cần xét 22

Hình 2.15: Ví dụ: Xây dựng FP-tree 24

Hình 2.16: Trang Download JMP Trial 27

Hình 2.17: Trang điền thông tin cá nhân 28

Hình 2.18: Cửa sổ phần mềm khi được mở lên 32

Hình 2.19: File mới đã được mở 32

Hình 2.20: Thanh menu công cụ 33

Hình 2.33: Khởi dộng thuật toán gom cụm 42

Hình 2.34: Chọn các thuộc tính bỏ vào Y,Columns 43

Hình 2.35: Nhấn Go để phần mềm tiến hành chạy thuật toán 44

Trang 13

Hình 2.45: Kết quả thuật toán 52

Hình 2.46: Phân chia dữ liệu 53

Hình 2.47: Small Tree View 54

Hình 3.3: Khởi động phương pháp chuyển đổi kiểu dữ liệu 65

Hình 3.4: Chọn phương thức New Column 66

Hình 3.5: Nhấp vào Recode 66

Hình 3.6: Khởi động chuyển đổi 67

Hình 3.7: Cài đặt các giá trị 67

Hình 3.8: Kết quả chuyển đổi 68

Hình 3.9: Kết quả chuyển đổi 68

Hình 3.10: Khởi động thuật toán phân lớp 69

Hình 3.11: Lựa chọn các biến dự báo 70

Hình 3.12: Kết quả thuật toán 71

Hình 3.13: Cây ra quyết định với Split = 18 72

Hình 3.14: Cây ra quyết định bản thu gọn 72

Hình 3.15: Khởi động thuật toán gom cụm 74

Hình 3.16: Nhập các chỉ số 74

Hình 3.17: Kết quả thuật toán 75

Hình 3.18: Cluster Summary 75

Hình 3.19: Cluster Means và Cluster Standard Deviations 76

Hình 3.20: Parallel Coordinate Plot 76

Hình 3.21: Khởi động thuật toán kết hợp 78

Hình 3.22: Chọn biến phân loại 79

Hình 3.23: Chọn biến đại diện cho ID 79

Hình 3.24: Lựa chọn các thông số 80

Hình 3.25: Tập phổ biến 80

Hình 3.26: Danh sách quy tắc 81

Trang 15

DẪN NHẬP

Trong môi trường kinh doanh cạnh tranh ngày nay, việc hiểu và tận dụng dữ liệulà chìa khóa để tối ưu hóa hiệu suất kinh doanh Siêu Thị Fatkun nhận thức rằng, đểtồn tại và phát triển trong môi trường kinh doanh hiện nay, cần phải sử dụng tối đa cácnguồn lực có sẵn, trong đó có dữ liệu Dữ liệu từ các giao dịch mua sắm, hành vi trựctuyến và phản hồi từ khách hàng là những kho báu giúp họ hiểu rõ hơn về nhu cầu vàmong muốn của khách hàng, từ đó tối ưu hóa chiến lược bán hàng và tăng cường sựhài lòng của khách hàng.

Việc áp dụng SAS JMP Pro 14 trong quá trình khai thác dữ liệu đem lại nhiều lợiích đáng kể cho Siêu Thị Fatkun SAS JMP Pro 14 không chỉ giúp cho việc phân tíchdữ liệu trở nên dễ dàng và nhanh chóng mà còn cho phép hiển thị kết quả một cáchtrực quan và dễ hiểu Điều này giúp cho quyết định kinh doanh có thể được đưa ra mộtcách chính xác và linh hoạt hơn, từ đó tối ưu hóa các quy trình và chiến lược kinhdoanh.

Đề tài "Ứng dụng SAS JMP Pro 14 trong Khai Phá Dữ Liệu Dịch Vụ Bán

Hàng tại Siêu Thị Fatkun" không chỉ là một quyết định hợp lý mà còn là bước đi

quan trọng và cần thiết đối với sự phát triển và thăng tiến của Siêu Thị Fatkun trongmôi trường kinh doanh cạnh tranh ngày nay.

 MỤC TIÊU CỦA ĐỒ ÁN

 Ứng dụng phần mềm SAS JMP Pro 14 vào để hiểu rõ hơn về hành vi mua sắm của khách hàng, đánh giá hiệu suất của các chiến lược bán hàng, và tối ưu hóa các quy trình kinh doanh.

 Biết cách làm việc nhóm hiệu quả

 Nắm vững kiến thức về phân tích dữ liệu và quản lý dữ liệu Xây dựng khả năng tự học và nghiên cứu

Trang 16

 PHÂN CÔNG CÔNG VIỆC

Bảng 1 Phân công công việc

STTHọ tên SVCông việc thực hiện

mềm thực hiện khai phá dữ liệu

Cả nhóm

3 Tiến hành phân tích phần mềm và thực hiện thao tác trên phần mềm

Cả nhóm - Trần Trương Trúc Quỳnh giới thiệu giao diện và tính năng của phần mềm- Trần Tấn Phát

hướng dẫn cài đặt phần mềm

4 Lựa chọn bộ dữ liệu để chạy các thuật toán

Cả nhóm - Trần Trương Trúc Quỳnh chọn bộ dữ liệu cho bài toán thứ nhất (gom cụm, phân lớp)

- Trần Tấn Phát chọn bộ dữ liệu cho bài toán thứ hai (kết

Trang 17

hợp)5 Tìm hiểu, phân tích bộ dữ

liệu được chọn

Cả nhóm - Trần Trương Trúc Quỳnh phân tích bộ dữ liệu bài toán thứ nhất

- Trần Tấn Phát phân tích bộ dữ liệu bài toán thứ hai

6 Chạy các thuật toán thử nghiệm trên bộ dữ liệu được chọn

Cả nhóm - Trần Trương Trúc Quỳnh chạy thuật toán gom cụm- Trần Tấn Phát chạy

thuật toán phân lớp và kết hợp

7 Phân tích các thuật toán Cả nhóm - Trần Trương Trúc Quỳnh phân tích thuật toán gom cụm- Trần Tấn Phát phân

tích thuật toán phân lớp và gom cụm8 Trình bày kết quả vào báo

Cả nhóm - Trần Trương Trúc Quỳnh trình bày kếtquả thuật toán gom cụm

- Trần Tấn Phát trình bày kết quả thuật toán phân lớp và kếthợp

Trang 18

CHƯƠNG 1: TỔNG QUAN

1.1 LÝ DO HÌNH THÀNH ĐỒ ÁN

Trong bối cảnh một thị trường bán lẻ đầy cạnh tranh, việc hiểu rõ và phân tíchsâu sắc về hành vi mua sắm của khách hàng là chìa khóa để thành công Siêu ThịFatkun, một trong những địa chỉ mua sắm uy tín và phổ biến, đã nhận ra tầm quantrọng của việc này và quyết định thực hiện một cuộc khảo sát để có thể tổng kết lạithành một bộ dữ liệu phân tích khách hàng để thúc đẩy chiến lược kinh doanh củamình.

Đầu tiên, để hiểu được ngữ cảnh của bộ dữ liệu, chúng ta cần nhìn vào đặc điểmcủa Siêu Thị Fatkun Đây là một siêu thị lớn với vị trí thuận lợi và một loạt các sảnphẩm từ thực phẩm đến hàng tiêu dùng hàng ngày Mục tiêu của Fatkun là tăng cườnglợi nhuận và sự hài lòng của khách hàng Để đạt được điều này, họ cần hiểu rõ hơn vềhành vi mua sắm và thói quen của khách hàng.

Bộ dữ liệu phân tích khách hàng của Siêu Thị Fatkun bao gồm thông tin về bảnghi bán hàng bao gồm cả lợi nhuận của siêu thị , bao gồm thông tin khách hàng, địachỉ, thông tin sản phẩm, lợi nhuận Dựa trên bộ dữ liệu này, chúng ta có thể phân loạikhách hàng thành các nhóm để có thể tìm kiếm khách hàng tiềm năng.

Ngoài ra, siêu thị Fatkun còn mong muốn tìm kiếm tệp khách hàng cá nhân cókhả năng sẽ đăng kí trở thành “thành viên” tại siêu thị Do đó, bộ dữ liệu phân tíchkhách hàng của Fatkun được ra đời thông qua việc thu thập thông tin khách hàng, baogồm thông tin chi tiết về từng khách hàng cá nhân, từ thông tin cá nhân đến lịch sửmua sắm và các hoạt động trước đó tại siêu thị Dựa trên bộ dữ liệu này, Fatkun có thểphân loại và đánh giá khả năng của từng khách hàng cá nhân khi họ đăng kí trở thànhthành viên của siêu thị.

Cuối cùng, một trong những khía cạnh quan trọng nhất trong phân tích hành vimua sắm tại Fatkun là việc nắm bắt loại sản phẩm mà khách hàng quan tâm và thườngxuyên mua sắm Phân tích sâu về loại sản phẩm này không chỉ giúp Fatkun hiểu rõhơn về sở thích và nhu cầu của khách hàng mà còn giúp cửa hàng tối ưu hóa việc quản

Trang 19

lý kho hàng, cung cấp các sản phẩm phù hợp và thiết kế các chiến lược giảm giá vàquảng cáo hiệu quả.

1.3 DỰ KIẾN KẾT QUẢ ĐẠT ĐƯỢC

- Hiểu rõ hơn về nhu cầu và mong muốn của khách hàng, từ đó cung cấp các sảnphẩm và dịch vụ phù hợp nhất.

- Xác định các mối quan hệ và xu hướng hỗ trợ trong việc tạo ra các chiến lượckinh doanh hiệu quả

- Dự đoán hành vi mua sắm tương lai của khách hàng -

Trang 20

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU

2.1.1Khái niệm

Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệunhất định để xác định xu hướng, các mẫu và thiết lập các mối liên hệ hữu ích nhằmgiải quyết các vấn đề nhờ phân tích dữ liệu Mục tiêu của việc này là cho phép cácdoanh nghiệp có thể dự đoán được xu hướng tương lai, nhằm đưa ra các quyết địnhđược hỗ trợ dữ liệu từ các tập dữ liệu khổng lồ.

Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyênsâu cũng như các công nghệ tính toán.

2.1.2Vai trò của khai phá dữ liệu trong kinh doanh

Khai phá dữ liệu (data mining) đóng vai trò rất quan trọng trong lĩnh vực kinhdoanh và có thể mang lại nhiều lợi ích đáng kể Dưới đây là một số vai trò chính củakhai phá dữ liệu trong kinh doanh:

- Dự đoán và phân loại: Khai phá dữ liệu có thể được sử dụng để dự đoán các

sự kiện tương lai dựa trên dữ liệu lịch sử Nó cũng có thể được sử dụng đểphân loại các mục tiêu, như xác định khách hàng tiềm năng, phân loại sảnphẩm, hoặc đánh giá rủi ro tín dụng.

- Tối ưu hóa chiến lược kinh doanh: Phân tích dữ liệu có thể giúp doanh

nghiệp tối ưu hóa các quy trình và chiến lược kinh doanh của mình Nó có thểgiúp cải thiện hiệu suất hoạt động, tăng cường hiệu quả chi phí, và tối ưu hóaviệc quản lý tồn kho.

- Phát triển sản phẩm và dịch vụ: Bằng cách khai thác dữ liệu từ phản hồi của

khách hàng và hành vi mua hàng, doanh nghiệp có thể hiểu được nhu cầu củathị trường và phát triển sản phẩm và dịch vụ phù hợp.

- Quản lý mối quan hệ khách hàng: Khai phá dữ liệu có thể giúp doanh nghiệp

hiểu rõ hơn về khách hàng của mình, bao gồm hành vi mua hàng, sở thích, và

Trang 21

nhu cầu Điều này có thể dẫn đến việc cải thiện dịch vụ khách hàng, tăngcường trung thành và tăng doanh số bán hàng.

- Phát hiện gian lận và rủi ro: Khai phá dữ liệu có thể giúp phát hiện ra các

hoạt động gian lận, lạm dụng hoặc rủi ro khác đối với doanh nghiệp Điều nàycó thể bao gồm phát hiện gian lận tín dụng, gian lận thẻ tín dụng, hoặc pháthiện gian lận bảo hiểm.

2.1.3Quy trình khai phá dữ liệu

Data Mining là một trong bốn bước của quá trình Khai thác tri thức và 4 bướcgồm:

1 Thu thập dữ liệu

Dữ liệu liên quan cho một ứng dụng phân tích được xác định và tập hợp Dữ liệucó thể được đặt trong các hệ thống nguồn khác nhau, một kho dữ liệu hoặc một bểchứa dữ liệu.

Một kho lưu trữ ngày càng phổ biến trong môi trường dữ liệu lớn chứa hỗn hợpdữ liệu có cấu trúc và không có cấu trúc Nguồn dữ liệu bên ngoài cũng có thể được sửdụng Bất cứ dữ liệu từ nơi nào đến, một nhà khoa học dữ liệu thường chuyển nó đếnmột kho dữ liệu chính cho các bước còn lại trong quy trình.

2 Chuẩn bị dữ liệu

Giai đoạn này bao gồm một loạt các bước để chuẩn bị khai phá dữ liệu Nó bắt

đầu với việc thăm dò, lập hồ sơ và xử lý trước dữ liệu, sau đó là công việc làm sạch dữliệu để sửa lỗi và các vấn đề kiểm tra chất lượng dữ liệu khác Việc chuyển đổi dữ liệucũng được thực hiện để làm cho các tập dữ liệu nhất quán, trừ khi một nhà khoa họcdữ liệu đang tìm cách phân tích dữ liệu thô chưa được lọc cho một ứng dụng cụ thể.

Trang 22

3 Khai phá dữ liệu

Sau khi dữ liệu được chuẩn bị, các nhà khoa học dữ liệu chọn kỹ thuật datamining thích hợp và sau đó triển khai một hoặc nhiều thuật toán để thực hiện khai thác.Trong các ứng dụng học máy, các thuật toán thường phải được đào tạo trên cáctập dữ liệu mẫu để tìm kiếm thông tin đang được tìm kiếm trước khi chúng chạy trêntoàn bộ tập dữ liệu.

4 Phân tích và giải thích các dữ liệu

Kết quả của data mining được sử dụng để tạo ra các mô hình phân tích có thểgiúp thúc đẩy quá trình ra quyết định và các hành động kinh doanh khác Nhà khoahọc dữ liệu hoặc một trong những thành viên khác của nhóm khoa học dữ liệu cũngphải truyền đạt kết quả cho các giám đốc điều hành doanh nghiệp và người dùng,thường thông qua trực quan hóa dữ liệu và sử dụng các kỹ thuật kể chuyện dữ liệu(data storytelling).

2.2 KHO DỮ LIỆU

2.2.1Kiến trúc luồng dữ liệu

Trong kho dữ liệu, kiến trúc luồng dữ liệu là một cấu hình lưu trữ dữ liệu tronghệ thống kho dữ liệu, cùng với việc sắp xếp cách dữ liệu chảy từ hệ thống nguồn thôngqua các kho lưu trữ dữ liệu này đến các ứng dụng được người dùng cuối sử dụng Điềunày bao gồm cách các luồng dữ liệu được kiểm soát, ghi nhật ký và giám sát, cũng nhưcơ chế đảm bảo chất lượng của dữ liệu trong kho lưu trữ dữ liệu.

Kiến trúc luồng dữ liệu khác với kiến trúc dữ liệu Kiến trúc dữ liệu là về cách dữliệu được sắp xếp trong mỗi kho dữ liệu và cách kho dữ liệu được thiết kế để phản ánhcác quy trình kinh doanh Hoạt động tạo ra kiến trúc dữ liệu được gọi là mô hình hóadữ liệu.

Trang 23

Hình 2.1: Kiến trúc luồng dữ liệu hoàn chỉnh

Kiến trúc luồng dữ liệu là một trong những điều đầu tiên bạn cần quyết định khixây dựng hệ thống kho dữ liệu vì kiến trúc luồng dữ liệu xác định những thành phầnnào cần được xây dựng và do đó ảnh hưởng đến kế hoạch và chi phí dự án Kiến trúcluồng dữ liệu cho biết cách dữ liệu chảy qua các kho lưu trữ dữ liệu trong kho dữ liệu

2.2.2Kho dữ liệu và khai phá dữ liệu trong BI

Data warehouse (DW) hay kho dữ liệu là một hệ thống lưu trữ dữ liệu từ nhiềunguồn, nhiều môi trường khác nhau như: phần mềm bán hàng, kế toán, nhân sự hay hệthống lõi ngân hàng,… giúp tăng cường hiệu suất của các truy vấn cho báo cáo vàphân tích.

Data Warehouse hoạt động như một kho lưu trữ trung tâm Dữ liệu đi vào kho dữliệu từ hệ thống giao dịch và các cơ sở dữ liệu liên quan khác Sau đó, dữ liệu được xửlý, chuyển đổi để người dùng có thể truy cập những dữ liệu này thông qua công cụBusiness Intelligence, SQL client hay bảng tính.

Một Data Warehouse thường bao gồm các yếu tố như:- Một cơ sở dữ liệu quan hệ để lưu trữ và quản lý dữ liệu.

- Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho phân tích.- Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.

Trang 24

- Các công cụ phân tích khách hàng để trực quan hóa và trình bày dữ liệu chongười dùng doanh nghiệp.

- Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành độngbằng cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc cáctính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trênquy mô lớn.

Có ba loại ứng dụng kho dữ liệu: xử lý thông tin, xử lý phân tích và khai thác dữliệu:

Xử lý thông tin hỗ trợ truy vấn, phân tích thống kê cơ bản và báo cáo sử dụng

crosstab, bảng, biểu đồ hoặc đồ thị Xu hướng hiện tại trong xử lý thông tin kho dữliệu là xây dựng các công cụ truy cập dựa trên web có chi phí thấp sau đó được tíchhợp với các trình duyệt Web.

Xử lý phân tích hỗ trợ các hoạt động OLAP cơ bản, bao gồm slice-and-dice,

drill-down, roll-up, và pivoting Nó thường hoạt động trên dữ liệu lịch sử trong cả haidạng tóm tắt và chi tiết Sức mạnh chính của xử lý phân tích trực tuyến đối với quátrình xử lý thông tin là phân tích số liệu dữ liệu kho dữ liệu theo chiều sâu.

Khai phá dữ liệu hỗ trợ khám phá kiến thức bằng cách tìm kiếm các mẫu ẩn và

các hiệp hội, xây dựng các mô hình phân tích, thực hiện phân loại và dự đoán, và trìnhbày các kết quả khai thác bằng các công cụ trực quan hóa.

Trang 25

Hình 2.2: ETL cho kho dữ liệu doanh nghiệp

2.3 CÁC PHƯƠNG PHÁP TRONG KHAI PHÁ DỮ LIỆU

2.3.1Phương pháp phân lớp

2.3.1.1 Tổng quan phân lớp dữ liệu

Phân loại dữ liệu là dạng phân tích dữ liệu nhằm rút trích các mô hình mô tảcáclớp dữ liệu hoặc dự đoán xu hướng dữ liệu.

Quá trình gồm hai bước:

- Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng việcphân tích/học tập huấn luyện.

- Bước phân loại (classification): phân loại dữ liệu/đối tượng mới nếu độ chínhxác của bộ phân loại được đánh giá là có thể chấp nhận được (acceptable)

Trang 26

2.3.1.2 Phân lớp dữ liệu với cây quyết định

Cây quyết định (decision tree) là một mô hình dùng để phân loại dữ liệu gồm có:- Node nội: chứa giá trị trên một thuộc tính để cho quá trình thực hiện phép

kiểm thử.

- Node lá: chứa nhãn (label) hoặc mô tả của một lớp (class label).

- Nhánh từ một node nội: kết quả của một phép thử trên thuộc tính tương ứng.

Hình 2.3: Ví dụ cây ra quyết định

Trang 27

Giới thiệu một số độ đo:- Information Gain:

Trang 28

- Gini Index:

Hình 2.7: Gini Index

2.3.1.3 Phân lớp dữ liệu với mạng Bayesian

Phân loại dữ liệu với mạng Bayes là việc sử dụng phân loại dựa trên xác suất cóđiều kiện do Bayes tìm ra Công thức xác suất có điều kiện có dạng:

Hình 2.8: Công thức xác suất có điều kiện

Trang 29

2.3.1.4 Phân lớp dữ liệu với mạng Neural

Được mô phỏng dựa theo mạng Neural trong não bộ Được xây dựng bằng cáchlập lại việc học một tập hợp có trọng số các dự đoán về một lớp các nhãn dựa vàotrọng số Thường được hiện thực bằng giải thuật backpropagation Gồm có input layer,một hoặc nhiều layers ẩn, và output layer Dữ liệu được đưa vào input layer, dựa vàotrọng số để di chuyển đến các neural thích hợp trong hidden layer và cuối cùng là raoutput layer để trả về kết quả.

(Minh họa cho dang tổng quát của mạng Neural)

2.3.2Phương pháp gom cụm

2.3.2.1 Tổng quan về gom cụm dữ liệu

Gom cụm dữ liệu: Việc nhóm một tập các đối tượng có cùng đặc điểm giốngnhau hay gần giống nhau vào cùng một nhóm Các đối tượng trong cùng một cụmtương tự với nhau hơn so với đối tượng ở cụm khác.

Phương pháp gom cụm hỗ trợ giai đoạn tiền xử lý dữ liệu, mô tả sự phân bố dữliệu/đối tượng, …

Các phương pháp gom cụm tiêu biểu:

- Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo mộttiêu chí nào đó.

Trang 30

- Phân cấp (hierarchical): phân rư tập dữ liệu/đối tượng có thứ tự phân cấp theomột tiêu chí nào đó.

- Dựa trên mật độ (density-based): dựa trên connectivity and density functions.- Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.- Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi

cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đốitượng nhất.

2.3.2.2 Gom cụm dữ liệu bằng hương pháp phân cấp

Cây các cụm: dùng biểu diễn phân cấp cụm Với các lá của cây biểu diễn từngđối tượng và các nút trung gian và gốc biểu diễn các cụm.

Tạo cây phân cấp từ trên xuống: Từ cụm lớn nhất chứa tất cả đối tượng Chiathành cụm nhỏ hơn, đến khi có n cụm thỏa mãn điều kiện dừng.

Hình 2.9: Tạo cây phân cấp từ trên xuống

Tạo cây phân cấp từ dưới lên:

- Tạo n nhóm, mỗi nhóm gồm một đối tượng và lập một ma trận khoảng cáchcấp n.

- Tìm 2 nhóm u, v có khoảng cách nhỏ nhất.

- Gộp 2 nhóm u,v thành nhóm uv và lập ma trận khoảng cách mới cho uv.

Trang 31

- Lặp lại quá trình đến khi còn 1 nhóm.

2.3.2.3 Gom cụm dữ liệu bằng phương pháp phân hoạch

Với tập dữ liệu chứa n đối tượng, tạo phân hoạch thành tập có k cụm sao cho:- Mỗi cụm có ít nhất 1 đối tượng.

- Mỗi đối tượng thuộc về 1 cụm duy nhất.

- Tìm phân hoạch có k cụm sao tối ưu hóa các tiêu chuẩn phân hoạc được chọn Thuật toán k-mean:

1 Phân hoạch đối tượng thành k cụm ngẫu nhiên.

2 Tính các tâm cho từng cụm trong phân hoạch hiện hành.3 Gán mỗi đối tượng cho cụm tâm gần nhất.

4 Nếu cụm không có sự thay đổi thì dừng lại, ngược lại quay lại bước 2.

Hình 2.10: Giải thuật toán k-mean (với n = 10, k = 2)

Trang 32

Thuật toán k-medold:

1 Chọn k đối tượng ngẫu nhiên làm tâm của nhóm.2 Gán từng đối tượng còn lại vào cụm có tâm gần nhất.

3 Chọn ngẫu nhiên 1 đối tượng không là tâm, thay một trong các tâm là nó;nếu nó làm thay đổi các đối tượng trong cụm.

4 Nếu gán tâm mới thì quay lại bước 2, ngược lại thì dừng.

Hình 2.11: Giải thuật toán k-medold (với n = 10, k = 2)

Trang 33

2.3.3Phương pháp luật kết hợp

2.3.3.1 Tổng quan khai phá luật kết hợp

Bài toán phát hiện luật kết hợp (association rule mining): với một tập hợp cácgiao dịch cho trước, cần tìm các luật dự đoán khả năng xuất hiện trong một giao dịchcủa các mục (items) này dựa trên việc xuất hiện của các mục khác.

Các ví dụ của luật kết hợp:{Diaper} → {Beer}

{Milk, Bread} → {Eggs, Coke}{Beer, Bread} → {Milk}

Hình 2.12: Ví dụ của luật kết hợp

Các định nghĩa cơ bản:

- Tập mục (itemset): là một tập hợp gồm một hoặc nhiều mục Tâp mục mức k(k-itemset) có k mục Ví dụ: 3-itemset là {Milk, Bread, Diaper}.

- Luật kết hợp – kí hiệu X -> Y, trong đó X, Y là các tập mục.

- Tổng số hỗ trợ (support count)- kí hiệu σ : là số lần xuất hiện của một tập mục.Ví dụ: σ({Milk, Bread, Diaper}) = 2.

- Độ hỗ trợ (support)- kí hiệu s: là tỷ lệ các giao dịch chứa cả X và Y đối với tấtcả các giao dịch Ví dụ: s({Milk, Diaper, Beer}) = 2/5.

- Độ tin cậy (confidence) – kí hiệu c: là tỷ lệ các giao dịch chứa cả X và Y đốivới các giao dịch chứa X Ví dụ: c({Milk, Diaper, Beer}) = 2/3.

Trang 34

- Tập mục thường xuyên (frequent/large itemset): là tập mục mà độ hỗ trợ lớnhơn hoặc bằng một giá trị ngưỡng minsup.

- Tính toán độ hỗ trợ và độ tin cậy cho mỗi luật.

- Loại bỏ đi các luật có độ hỗ trợ nhỏ hơn minsup hoặc có độ tin cậy nhỏ hơnminconf.

 Phương pháp vét cạn này có chi phí tính toán quá lớn, không áp dụng đượctrong thực tế.

Các luật sinh ra từ cùng một tập mục sẽ có cùng độ hỗ trợ, nhưng có thể khác vềđộ tin cậy Do đó, trong quá trình phát hiện luật kết hợp, chúng ta có thể tách riêng 2yêu cầu về độ hỗ trợ và độ tin cậy

Vậy nên quá trình phát hiện luật kết hợp sẽ phân gồm 2 bước (2 giai đoạn) quantrọng:

- Sinh ra các tập mục thuờng xuyên (frequent/large itemsets): Sinh ra tất cả cáctập mục có độ hỗ trợ ≥ minsup

- Sinh ra các luật kết hợp: Từ mỗi tập mục thường xuyên (thu được ở bước trên),sinh ra tất cả các luật có độ tin cậy cao( ≥ minconf)

Tuy vậy, bước sinh ra các tập mục thường xuyên (bước 1) vẫn có chi phí tínhtoán quá cao.

Trang 35

2.3.3.3 Các chiến lược sinh tập thường xuyên

Dựa vào các phân tích ở mục 2.3.3.4, ta có các chiến lược:

- Giảm bớt số lượng các tập mục cần xét (M): Tìm kiếm (xét) đầy đủ M = 2d.Sau đó, sử dụng các kỹ thuật cắt tỉa để giảm giá trị M.

- Giảm bớt số lượng các giao dịch cần xét (N): Giảm giá trị N, khi kích thước(số lượng các mục) của tập mục tăng lên.

- Giảm bớt số lượng các so sánh (matchings/comparisons) giữa các tập mục vàcác giao dịch (N.M ): Sử dụng các cấu trúc dữ liệu phù hợp (hiệu quả) để lưucác tập mục cần xét hoặc các giao dịch Không cần phải so sánh mỗi tập mụcvới mỗi giao dịch

Từ các chiến lược ta xét 2 giải thuật cơ bản:- Giải thuật Apriori

- Giải thuật FP-Growth.

2.3.3.4 Giải thuật Apriori

Quá trình sinh ra luật kết hợp chia làm hai bước Bước đầu tiên là sinh ra các tậpthương xuyên Bước thứ hai sinh ra các luật kết hợp Ở mục 2.3.3.3 ta thấy được bướcthứ nhất của quá trình rất phức tạp Giải thuật Apriori là một phương pháp làm giảmđộ phức tạp ở bước này.

Nguyên tắc của giải thuật Apriori – Loại bỏ dựa trên độ hỗ trợ:

- Nếu một tập mục là thường xuyên, thì tất cả các tập con (subsets) của nó đều làcác tập mục thường xuyên

- Nếu một tập mục là không thường xuyên (not frequent) thì tất cả các tập cha(supersets) của nó đều là các tập mục không thường xuyên

Trang 36

Nguyên tắc của giải thuật Apriori dựa trên đặc tính không đơn điệu monotone) của độ hỗ trợ:

(anti-Hình 2.13: đặc tính không đơn điệu

Lược đồ biểu diễn các tập mục cần xét được loại bỏ bớt theo độ hỗ trợ

Hình 2.14: Lược đồ biểu diễn các tập mục cần xét

Trang 37

- Kích thước của cơ sở dữ liệu (các giao dịch): Giải thuật phải duyệt cơ sở dữliệu nhiều lần, do đó chi phí tính toán của Apriori tăng lên khi số lượng cácgiao dịch tăng lên.

- Kích thước trung bình của các giao dịch: Khi kích thước (số lượng các mục)trung bình của các giao dịch tăng lên, thì độ dài tối đa của các tập mục thườngxuyên cũng tăng.

2.3.3.5 Giải thuật FP – Growth

FP-Growth biểu diễn dữ liệu của các giao dịch bằng một cấu trúc dữ liệu gọi làFP–tree FP-Growth sử dụng cấu trúc FP-tree để xác định trực tiếp các tập mụcThường xuyên

Biểu diễn bằng FP-tree:

- Với mỗi giao dịch, FP-tree xây dựng một đương đi (path) trong cây.

- Hai giao dịch có chứa cùng một số mục, thì đường đi của chúng sẽ có phần(đoạn) chung Càng nhiều các đương đi có các phần chung, thì việc biểu diễnbằng FP-tree sẽ càng gọn.

- Nếu kích thước của FP-tree đủ nhỏ có thể lưu trữ trong bộ nhớ làm việc, thìgiải thuật FP-Growth có thể xác định các tập thương xuyên trực tiếp từ FP-treelưu trong bộ nhớ.

Xây dựng FP-tree:

- Ban đầu, FP-tree chỉ chứa duy nhất nút gốc (được biểu diễn bởi ký hiệu null).- Cơ sở dữ liệu các giao dịch được duyệt lần thứ 1, để xác định (tính) độ hỗ trợ

của mỗi mục.

- Các mục không thường xuyên bị loại bỏ

- Các mục thường xuyên được sắp xếp theo thứ tự giảm dần về độ hỗ trợ - Cơ sở dữ liệu các giao dịch được duyệt lần thứ 2, để xậy dựng FP-tree

Trang 38

Ví dụ: Xây dựng FP-tree

Hình 2.15: Ví dụ: Xây dựng FP-tree

Sinh các tập mục thương xuyên:

- FP-Growth sinh các tập mục thương xuyên trực tiếp từ FP-tree từ mức lá đếnmức gốc (bottom-up)

- Vì mỗi giao dịch được biểu diễn bằng một đương đi trong FP -tree, chúng ta cóthể xác định các tập mục trong FPtree, chúng ta có thể xác định các tập mụcthường xuyên kết thúc bởi một mục (vd: E), bằng cách duyệt các đường đichứa mục đó (E).

2.4 GIỚI THIỆU VỀ PHẦN MỀM SAS JMP PRO 14

2.4.1Tổng quan về phần mềm SAS JMP Pro 14

2.4.1.1 Ưu điểm

Năng lực phân tích dữ liệu vượt trội: JMP Pro 14 sở hữu nhiều công cụ phân

tích dữ liệu và thống kê tiên tiến, như: Phân tích hồi quy

 Phân tích đa biến Phân tích thời gian

Trang 39

 Phân tích mô hình hỗn hợp Khai phá dữ liệu

Nhờ những công cụ này, người dùng có thể giải quyết nhiều bài toán thực tế củanhiều lĩnh vực khác nhau như:

 Khoa học: Phân tích thí nghiệm, mô hình hóa dữ liệu, khám phá mối liênhệ trong dữ liệu.

 Kinh doanh: Phân tích thị trường, dự đoán doanh số, tối ưu hóa quy trình. Kỹ thuật: Kiểm soát chất lượng, thiết kế sản phẩm, phân tích độ tin cậy. Y tế: Chẩn đoán bệnh, nghiên cứu y học, phân tích dữ liệu sức khỏe.

Giao diện trực quan, dễ thao tác: JMP Pro 14 có giao diện người dùng trực

quan, giúp người dùng dễ dàng truy cập và sử dụng các công cụ, tính năng cần thiết.Các thao tác được thực hiện thông qua menu, hộp thoại và biểu tượng trực quan, giúpngười dùng tiết kiệm thời gian và tối ưu hóa hiệu quả làm việc.

Khả năng tùy chỉnh linh hoạt: Người dùng có thể thay đổi giao diện, tạo các

phím tắt, và thiết lập các tùy chọn phân tích theo sở thích và yêu cầu công việc.

Khả năng này giúp người dùng tối ưu hóa trải nghiệm sử dụng phần mềm vànâng cao hiệu quả công việc

Dọn dẹp dữ liệu hiệu quả: JMP Pro 14 giúp người dùng dọn dẹp dữ liệu một

cách mạng mẽ, người dùng cũng có thể sử dụng nhiều công cụ khác nhau để làm việcnày JMP có thể tự động hóa quy trình, giảm thiểu tác động của dữ liệu bẩn, hợp nhấtdữ liệu, tham chiếu dữ liệu, kiểm tra dữ liệu, giao diện trực quan và hợp nhất danhmục (Recode).

Hỗ trợ tích hợp đa nền tảng:

 JMP Pro 14 dễ dàng tích hợp với các phần mềm phổ biến như SAS, R vàMicrosoft Excel Tích hợp đa nền tảng giúp người dùng kết hợp dữ liệu từnhiều nguồn khác nhau và thực hiện phân tích tổng hợp hiệu quả.

Trang 40

 Người dùng có thể dễ dàng chuyển đổi dữ liệu giữa JMP Pro 14 và cácphần mềm khác, tiết kiệm thời gian và công sức.

Hệ thống hỗ trợ trực tuyến toàn diện:

 Trang web của JMP cung cấp nhiều tài nguyên hỗ trợ trực tuyến chongười dùng gồm nhiều tài liệu khác nhau như hướng dẫn sử dụng, các bàiviết và video hướng dẫn.

 Người dùng còn có thể tham gia diễn đàn cộng đồng của JMp để học hỏivà trao đổi kinh nghiệm với các chuyên gia và nhiều người dùng khác. Người dùng có thể dễ dàng truy cập hệ thống hỗ trợ trực tuyến thông qua

trang web của JMP hoặc bằng cách liên hệ với bộ phận hỗ trợ khách hàngcủa JMP.

2.4.1.2 Hạn chế

Mức chi phí khá cao: JMP Pro 14 là phần mềm sử dụng phải trả phí với giá

thành tương đối cao Chi phí mua và sử dụng phần mềm có thể hạn chế việc tiếp cậntới các cá nhân hoặc các doanh nghiệp nhỏ có tài chính ở mức trung bình.

Quá trình học tập và sử dụng đòi hỏi phải bỏ ra nhiều thời gian:

 Do sở hữu nhiều tính năng và chức năng, JMP Pro 14 có thể khiến chongười mới tiếp cận ứng dụng gặp trở ngại trong quá trình sử dụng.

 Người dùng cần dành nhiều thời gian để học hỏi cách sử dụng các công cụvà tính năng của phần mềm, cũng như cách thực hiện các phân tích dữliệu.

Hạn chế về khả năng lập trình:

 So với một số phần mềm khác như R, thì JMP Pro 14 có khả năng lậptrình chưa được gọi là mạnh mẽ Mặc dù JMP có ngôn ngữ lập trình riêng(JSL) nhưng không linh hoạt và đa dạng như R.

 Hạn chế về khả năng lập trình có thể khiến cho việc thực hiện các phântích phức tạp và tự động hóa quy trình trở nên khó khăn hơn.

Ngày đăng: 05/07/2024, 10:08

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Kiến trúc luồng dữ liệu hoàn chỉnh - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.1 Kiến trúc luồng dữ liệu hoàn chỉnh (Trang 23)
Hình 2.2: ETL cho kho dữ liệu doanh nghiệp - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.2 ETL cho kho dữ liệu doanh nghiệp (Trang 25)
Hình 2.3: Ví dụ cây ra quyết định - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.3 Ví dụ cây ra quyết định (Trang 26)
Hình 2.9: Tạo cây phân cấp từ trên xuống - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.9 Tạo cây phân cấp từ trên xuống (Trang 30)
Hình 2.10: Giải thuật toán k-mean (với n = 10, k = 2) - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.10 Giải thuật toán k-mean (với n = 10, k = 2) (Trang 31)
Hình 2.11: Giải thuật toán k-medold (với n = 10, k = 2) - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.11 Giải thuật toán k-medold (với n = 10, k = 2) (Trang 32)
Hình 2.13: đặc tính không đơn điệu - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.13 đặc tính không đơn điệu (Trang 36)
Hình 2.15: Ví dụ: Xây dựng FP-tree - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.15 Ví dụ: Xây dựng FP-tree (Trang 38)
Hình 2.19: File mới đã được mở - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.19 File mới đã được mở (Trang 47)
Hình 2.25: Menu Cols - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.25 Menu Cols (Trang 52)
Hình 2.35: Nhấn Go để phần mềm tiến hành chạy thuật toán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.35 Nhấn Go để phần mềm tiến hành chạy thuật toán (Trang 60)
Hình 2.37: Kết quả thuật toán - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.37 Kết quả thuật toán (Trang 62)
Hình 2.39: Biểu đồ Biplot - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.39 Biểu đồ Biplot (Trang 63)
Hình 2.40: Biplot 3D - ứng dụng sas jmp pro 14 thực hiện khai phá dữ liệu trong dịch vụ bán hàng tại siêu thị fatkun
Hình 2.40 Biplot 3D (Trang 64)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w