1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG PHẦN mềm SQL SERVER DATA TOOL THỰC HIỆN KHAI PHÁ dữ LIỆU tại CÔNG TY TNHH FORNIX

77 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Phần Mềm SQL Server Data Tool Thực Hiện Khai Phá Dữ Liệu Tại Công Ty TNHH Fornix
Người hướng dẫn ThS. Nguyễn Thị Trần Lộc
Trường học Trường Đại Học Tài Chính – Marketing
Chuyên ngành Khoa Công Nghệ Thông Tin
Thể loại đồ án môn học
Năm xuất bản 2021
Thành phố TP.HCM
Định dạng
Số trang 77
Dung lượng 4,99 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (13)
    • 1.1. Lí do hình thành đề tài (13)
    • 1.2. Mục tiêu của đồ án (14)
    • 1.3. Dự kiến kết quả đạt được (14)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA HỌC PHẦN (15)
    • 2.1. Giới thiệu về khai phá dữ liệu (15)
      • 2.1.1 Khái niệm (15)
      • 2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh (15)
      • 2.1.3 Quy trình khai phá dữ liệu (15)
    • 2.2. Kho dữ liệu (17)
      • 2.2.1 Kiến trúc luồng dữ liệu (17)
      • 2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI (18)
    • 2.4. Giới thiệu về phần mềm SQL Server Data Tool (21)
      • 2.4.1 Tổng quan về phần mềm SQL Server Data Tool (21)
      • 2.4.2 Cách sử dụng phần mềm (22)
  • CHƯƠNG 3: ỨNG DỤNG PHẦN MỀM SQL SERVER DATA TOOL (35)
    • 3.1. Giới thiệu về bộ dữ liệu được sử dụng (35)
    • 3.2. Giai đoạn tiền xử lý dữ liệu (40)
      • 3.2.1 Tiền xử lý dữ liệu tại bảng khách hàng tiềm năng (40)
      • 3.2.2 Tiền xử lý dữ liệu tại bảng đối tượng chào hàng (41)
    • 3.3. Triển khai thuật toán cây ra quyết định (Decision Tree Algorithm) (42)
      • 3.3.1 Khởi chạy thuật toán cây ra quyết định trên SQL Server Data Tool (42)
      • 3.3.2 Kết quả của thuật toán cây ra quyết định (51)
      • 3.3.3 Kết luận của thuật toán (54)
    • 3.4. Triển khai thuật toán kết hợp (Associate Algorithm) (55)
      • 3.4.1 Khởi chạy thuật toán kết hợp trên SQL Server Data Tool (55)
      • 3.4.2 Kết quả của thuật toán kết hợp (60)
      • 3.4.3 Kết luận của thuật toán (64)
    • 3.5. Triển khai thuật toán phân cụm (Clustering Algorithm) (65)
      • 3.5.1 Khởi chạy thuật toán phân cụm trên SQL Server Data Tool (65)
      • 3.5.2 Kết quả của thuật toán gom cụm (70)
      • 3.5.3 Kết luận của thuật toán (74)
  • CHƯƠNG 4: KẾT LUẬN (75)
    • 4.1. Kết quả đạt được (75)
    • 4.2. Hạn chế (75)
    • 4.3. Hướng phát triển (75)
  • TÀI LIỆU THAM KHẢO (0)

Nội dung

TỔNG QUAN

Lí do hình thành đề tài

Trong những năm gần đây, thế giới và Việt Nam đang trải qua cuộc cách mạng công nghiệp 4.0, với những tiến bộ vượt bậc trong khoa học và kỹ thuật Sự phát triển này đã dẫn đến sự bùng nổ nhanh chóng của cơ sở dữ liệu (CSDL), với ước tính lượng thông tin sẽ gia tăng đáng kể trong thời gian tới.

Trong bối cảnh dữ liệu ngày càng gia tăng, việc khai thác dữ liệu trở nên cần thiết để tìm ra những thông tin quý giá từ cơ sở dữ liệu (CSDL) hiện có Chúng ta đang "chìm" trong CSDL mà chưa biết cách khai thác hiệu quả, dẫn đến việc cần áp dụng các kiến thức mới về khai phá dữ liệu trong thời đại công nghiệp hóa – hiện đại hóa Nhóm chúng tôi đã chọn đề tài “Ứng dụng SQL Server Data Tool vào khai phá dữ liệu bán hàng tại công ty TNHH Fornix” nhằm thực hiện các thuật toán học được để phát hiện những quy luật ẩn trong bộ dữ liệu, từ đó ứng dụng những quy luật này vào hoạt động kinh doanh của công ty.

Mục tiêu của đồ án

 Hiểu được các thuật toán và vận hành các thuật toán đã học vào bộ dữ liệu thực tế

 Hệ thống lại kiến thức đã được học trong môn học Khai phá dữ liệu

Tiếp cận và nghiên cứu phần mềm khai phá dữ liệu từ bộ dữ liệu có sẵn giúp hệ thống hóa các quy luật, từ đó hiểu rõ hơn về dữ liệu Việc áp dụng những quy luật này vào công việc kinh doanh sẽ tối ưu hóa hiệu suất và mang lại kết quả cao nhất.

 Xây dựng, vận hành các thuật toán như: gom cụm, phân lớp, kết hợp

Dự kiến kết quả đạt được

- Hướng dẫn cài đặt công cụ SQL Server Data Tool trên Visual Studio 2017.

- Chạy được thuật toán phân lớp và nêu được kết luận.

- Chạy được thuật toán gom cụm và nêu được kết luận.

- Chạy được thuật toán kết hợp và nêu được kết luận

CƠ SỞ LÝ THUYẾT CỦA HỌC PHẦN

Giới thiệu về khai phá dữ liệu

Khai phá dữ liệu là một bộ kỹ thuật giúp tự động phát hiện và phân tích các mối quan hệ trong một lượng dữ liệu lớn và phức tạp, đồng thời nhận diện các mẫu tiềm ẩn bên trong tập dữ liệu.

2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh

Sự kiếm tìm tri thức trong một lượng dữ liệu lớn là nhu cầu cấp thiết của nhiều doanh nghiệp kinh doanh.

Khai phá dữ liệu đóng vai trò quan trọng trong việc khám phá tri thức mới từ phân tích dữ liệu quá khứ, giúp xây dựng mô hình dự báo cho tương lai Các kết quả từ quá trình này cung cấp cơ sở thiết yếu cho nhà quản lý trong việc ra quyết định, hỗ trợ trong điều hành, xây dựng và phát triển doanh nghiệp Nhờ đó, doanh nghiệp có thêm thông tin trực quan và khoa học để đưa ra quyết định chính xác hơn.

Tăng khả năng cạnh tranh trên thị trường.

2.1.3 Quy trình khai phá dữ liệu

 Định nghĩa các mục tiêu:

Các phân tích khai thác dữ liệu được thực hiện trong các lĩnh vực ứng dụng cụ thể nhằm cung cấp kiến thức hữu ích cho các nhà ra quyết định.

Các chuyên gia cần có trực giác và khả năng để thiết lập các mục tiêu điều tra rõ ràng và có thể đo lường được.

Nếu vấn đề chưa được xác định rõ ràng, sẽ có nguy cơ cản trở các nỗ lực khai thác dữ liệu trong tương lai.

Xác định mục tiêu là rất quan trọng và sẽ được cải thiện thông qua sự hợp tác chặt chẽ giữa các chuyên gia trong lĩnh vực ứng dụng và các nhà phân tích khai thác dữ liệu.

 Thu thập và hợp nhất dữ liệu.

Sau khi xác định các mục tiêu của cuộc điều tra, bước tiếp theo là thu thập dữ liệu từ nhiều nguồn khác nhau, điều này có thể yêu cầu quá trình hợp nhất dữ liệu.

Nguồn dữ liệu có thể đến từ nội bộ, bên ngoài hoặc sự kết hợp của cả hai Tích hợp các nguồn dữ liệu khác nhau giúp làm phong phú thêm thông tin với các tham số mô tả mới, như biến tiếp thị địa lý hoặc danh sách khách hàng tiềm năng chưa có trong hệ thống thông tin của công ty.

Trong nhiều trường hợp, dữ liệu được tổ chức và lưu trữ trong các kho dữ liệu và trung tâm dữ liệu nhằm phục vụ cho phân tích OLAP, cũng như hỗ trợ các hoạt động ra quyết định hiệu quả.

Trong giai đoạn thứ ba của quá trình khai thác dữ liệu, việc phân tích sơ bộ dữ liệu được thực hiện nhằm làm quen với các thông tin hiện có và tiến hành làm sạch dữ liệu.

Bước này giúp loại bỏ nhiễu và dữ liệu không nhất quán, đảm bảo rằng dữ liệu trong kho dữ liệu được xử lý trong quá trình tải để khắc phục mọi sự không nhất quán về cú pháp.

Trong giai đoạn tiếp theo, sự liên quan của các thuộc tính khác nhau được đánh giá liên quan đến các mục tiêu của phân tích.

Các thuộc tính chứng tỏ ít được sử dụng sẽ bị xóa, để làm sạch các thông tin không liên quan từ bộ dữ liệu.

Các thuộc tính mới thu được từ các biến ban đầu thông qua các phép biến đổi thích hợp được đưa vàobộ dữ liệu.

 Mô hình phát triển và xác nhận.

Khi bộ dữ liệu chất lượng cao được xây dựng và làm phong phú với các thuộc tính mới, chúng ta có thể phát triển các mô hình nhận diện và dự đoán hiệu quả.

Việc đào tạo các mô hình thường được thực hiện bằng cách sử dụng mẫu hồ sơ trích từ bộ dữ liệu ban đầu Độ chính xác dự đoán của mỗi mô hình được tạo ra có thể được đánh giá thông qua các phương pháp kiểm tra khác nhau.

Mô hình đã chọn thường sử dụng cỡ mẫu tương đối nhỏ cho tập huấn luyện, mặc dù vẫn đảm bảo ý nghĩa thống kê với vài ngàn quan sát.

Tập kiểm tra (test set) là tập con thứ hai, được sử dụng để đánh giá độ chính xác của các mô hình thay thế trong giai đoạn đào tạo, nhằm xác định mô hình tối ưu cho dự đoán trong tương lai.

 Dự đoán và diễn giải.

Kho dữ liệu

Kho dữ liệu đóng vai trò quan trọng trong việc lưu trữ và quản lý dữ liệu, hỗ trợ phát triển kiến trúc Business Intelligence (BI) và các hệ thống ra quyết định hiệu quả.

A data warehouse is a system that periodically retrieves and consolidates data from various source systems into a dimensional data warehouse or a normalized data store.

Kho dữ liệu thường giữ dữ liệu qua nhiều năm lịch sử và được truy vấn bởi hệ thống BI hoặc các hoạt động phân tích khác

Dữ liệu thường được cập nhật theo đợt, không phải ngay tức khắc lúc một giao dịch xảy ra trong hệ thống nguồn.

2.2.1 Kiến trúc luồng dữ liệu

Kiến trúc dữ liệu liên quan đến cách thức tổ chức dữ liệu trong kho dữ liệu, đồng thời thiết kế lưu trữ dữ liệu sao cho phản ánh chính xác các quy trình kinh doanh Quá trình xây dựng kiến trúc dữ liệu này được gọi là mô hình hóa dữ liệu.

Các kho lưu trữ dữ liệu đóng vai trò quan trọng trong kiến trúc luồng dữ liệu Chúng bao gồm một hoặc nhiều cơ sở dữ liệu hoặc tệp chứa dữ liệu của kho dữ liệu, được tổ chức theo định dạng cụ thể và tham gia vào quy trình của kho dữ liệu.

Based on data format, data stores in a data warehouse can be classified into four types: A stage (STG), a normalized data store (NDS), an operational data store (ODS), and a dimensional data store (DDS).

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI

Có ba loại ứng dụng kho dữ liệu:

 Xử lý thông tin: hỗ trợ truy vấn, phân tích thống kê cơ bản và báo cáo sử dụng crosstab, bảng, biểu đồ hoặc đồ thị.

Xử lý phân tích là quá trình phân tích sâu sắc dữ liệu kho dữ liệu, thường tập trung vào dữ liệu lịch sử và có thể ở cả hai dạng tóm tắt và chi tiết.

Khai thác dữ liệu là quá trình hỗ trợ khám phá kiến thức thông qua việc tìm kiếm các mẫu ẩn và hiệp hội, xây dựng các mô hình phân tích, thực hiện phân loại và dự đoán Kết quả của quá trình này được trình bày bằng các công cụ trực quan hóa, giúp người dùng dễ dàng hiểu và áp dụng thông tin.

OLAM, hay còn gọi là OLAP mining, là sự kết hợp giữa xử lý phân tích trực tuyến (OLAP) và khai thác dữ liệu, nhằm khai thác kiến thức từ dữ liệu trong cơ sở dữ liệu đa chiều Sự chuyển đổi từ On-Line Analytical Processing (OLAP) sang OnLine Analytical Mining (OLAM) mở ra những cơ hội mới trong việc phân tích và hiểu sâu hơn về dữ liệu.

2.3 Các phương pháp trong khai phá dữ liệu

 Phân lớp dữ liệu (Classification)

 Dạng phân tích dữ liệu nhằm rút trích các mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu

 Bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp (classifier) bằng việc phân tích/học tập huấn luyện

 y=f(X) với y là nhãn (phần mô tả) của một lớp (class) và X là dữ liệu/đối tượng

 Bước học: X trong tập huấn luyện, một trị y được cho trước với X X 

 Bước Phân lớp: đánh giá f với (X’, y’) và X’ mọi X trong tập huấn luyện; nếu acceptable thì dùng f để xác định y’’ choX’’(mới)

 Dạng học có giám sát(supervisedlearning)

 Các giải thuật Phân lớp dữ liệu

 Phân lớp với cây quyết định(decisiontree)

 Phân lớp với mạng Bayesian

 Phân lớp với mạng neural

 Phân lớp với k phần tử láng giềng gần nhất(k-nearestneighbor)

 Phân lớp với suy diễn dựa trên tình huống(case-basedreasoning)

 Phân lớp dựa trên tiến hoá gen(geneticalgorithms)

 Phân lớp với lý thuyết tập thô(roughsets)

 Phân lớp với lý thuyết tập mờ(fuzzysets)

2.3.2 Phương pháp luật kết hợp

Phương pháp này nhằm phát hiện và xác định các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Kết quả đầu ra của thuật toán khai phá dữ liệu là tập hợp các luật kết hợp được tìm thấy Quá trình khai phá luật kết hợp được thực hiện qua hai bước.

Để tìm tất cả các tập mục phổ biến, bước đầu tiên là xác định các tập mục này dựa trên mức độ hỗ trợ, đồng thời đảm bảo rằng chúng thỏa mãn tiêu chí về độ hỗ trợ tối thiểu.

• Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có chủ đích, phân tích quyết định, quản lí kinh doanh,

 Quá trình gom nhóm/ cụm dữ liệu/đối tượng vào các lớp/cụm

 Các đối tượng trong cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác

 Vấn đề kiểu dữ liệu/đối tượng được gom cụm

 Các yêu cầu tiêu biểu về việc gom cụm dữ liệu

 Khả năng co giãn về tập dữ liệu(scalability)

 Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes)

 Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape)

 Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain knowledge for input parameters)

 Khả năng xử lý dữ liệu có nhiễu (noisy data)

 Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental clustering and insensitivity to the order of input records)

 Khả năng xử lý dữ liệu đa chiều (high dimensionality)

 Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering)

 Khả diễn và khả dụng (interpretability and usability)

Giới thiệu về phần mềm SQL Server Data Tool

2.4.1 Tổng quan về phần mềm SQL Server Data Tool 2.4.1.1 Ưu điểm

SQL Server Data Tool có những ưu điểm sau:

Người dùng có thể truy cập cơ sở dữ liệu (CSDL) trực tiếp trong Visual Studio mà không cần sử dụng công cụ bổ sung Qua SQL Server Object Explorer, người dùng có khả năng thực hiện các lệnh DDL và thực thi các câu truy vấn một cách dễ dàng.

- Cho phép vận hành CSDL và thao tác chỉnh sửa ngày trên VS

SSDT cho phép người dùng so sánh các đối tượng trong cùng một cơ sở dữ liệu, giúp xác định những điểm khác biệt Tính năng này không chỉ hỗ trợ việc quản lý cơ sở dữ liệu hiệu quả mà còn cung cấp khả năng xuất báo cáo chi tiết về các kết quả đã tìm thấy.

SSDT là công cụ thay thế BIDS, được thiết kế để triển khai, vận hành và khai thác cơ sở dữ liệu (CSDL) thông qua các thuật toán đã được tích hợp sẵn trong ứng dụng.

SQL có giao diện phức tạp và không được trực quan hóa khiến một số người dùng khó truy cập.

Các lập trình viên sử dụng SQL không được toàn quyền kiểm soát cơ sở dữ liệu do các quy tắc nghiệp vụ ẩn Điều này đảm bảo rằng các quy định và chính sách trong tổ chức được tuân thủ, đồng thời bảo vệ tính toàn vẹn và bảo mật của dữ liệu.

Hầu hết các chương trình cơ sở dữ liệu SQL đều đi kèm với các phần mở rộng độc quyền của nhà cung cấp, bên cạnh việc tuân thủ các tiêu chuẩn SQL.

- Giá cả chi phí vận hành của một số phiên bản SQL khiến một số lập trình viên gặp khó khăn khi tiếp cận.

Trong những năm gần đây, SQL đã nổi lên như một trong những ngôn ngữ cơ sở dữ liệu phổ biến nhất toàn cầu Nó đã được công nhận là tiêu chuẩn bởi Tổ chức Tiêu chuẩn hóa Quốc tế và Viện Stands Quốc gia Hoa Kỳ.

- Kiểm soát được những thay đổi trong dữ liệu: Cho phép nhà quản trị CSDL nắm bắt được những thay đổi tỏng quá trình thực hiện các công việc.

- Dễ dàng sửa lỗi: người sử dụng có thể kiểm tra và gỡ lỗi phát sinh trong quá trình vận hành, kiểm soát CSDL bằng các câu lệnh T-SQL.

Việc duy trì cơ sở dữ liệu theo thời gian trở nên dễ dàng hơn nhờ vào SSDT, cho phép người dùng thay đổi mã lệnh T-SQL trong các thủ tục và hàm lưu trữ Người dùng có thể xem lại các thay đổi trước và sau khi thực hiện, đồng thời kiểm tra các đoạn lệnh trước khi phát hành, giúp tiết kiệm thời gian và nâng cao hiệu quả quản lý cơ sở dữ liệu.

- Nguồn tài nguyên rộng lớn với các công cụ và tính năng được phát triển có trong Visual Studio giúp cho việc sử dụng SSDT dễ dàn hơn.

2.4.2 Cách sử dụng phần mềm 2.4.2.1 Giới thiệu về giao diện SQL Server Data Tool

 Giao diện cài đặt công cụ SQL Server Analysis Services

 Cài đặt trên SQL Server Installation Center 64 bit

B1 Khởi chạy SQL Server Installation Center bằng cách tìm kiếm “sql server installer” tại menu của Windows Start

Hình 2-1 Tìm kiếm SQL Server Installation Center trên Start

B2 Tại giao diện SQL Server Installation Center chọn New SQL Server stand – alone installation or add new features to an existing installation

Hình 2-2 Thao tác cài đặt Analysis Services (1)

B3 Sau đó chọn Next, đến Installation Type chọn Add features to an existing instance of SQL Server 2014, sau đó chọn Next

Hình 2-3 Thao tác cài đặt Analysis Services (2)

B4 Sau đó chọn những tính năng cần được thêm: Analysis Services, SQL Server

Data Tool Management Tools – Basic

Hình 2-4 Thao tác cài đặt Analysis Services (3)

B5 Sau đó, chúng ta sẽ chọn chế độ để cài đặt tại Analysic Services Configuration, , và chọn Next để tiến hành cài đặt

Hình 2-5 Thao tác cài đặt Analysic Service (4)

B6 Sau đó sẽ tiến hành cài đặt, và sẽ mất một thời gian ngắn đề cài đặt vào Microsoft SQL Server

Hình 2-6 Tiến hành cài đặt Analysis Services

 Giao diện cài đặt phần mềm SSDT với Visual Studio 2017

 Cài đặt trực tiếp trên Visual Studio Installer

B1 Khởi chạy Visual Studio Installer bằng cách tìm kiếm “installer” tại menu của Windows Start

Hình 2-7 Tìm kiếm Visual Studio từ Windows Start

B2 Sau khi vào được “installer”, chọn phiên bản Visual Studio và tiếp tục tới thẻ “ Modify ”

Hình 2-8 Giao diện chỉnh sửa, bổ sung thêm công cụ trong VS Installer

B3 Lựa chọn “SQL Server Data Tool ” bên trong thẻ “Data storage and processing” trong khung chứa Workloads

Hình 2-9 Giao diện bổ sung thêm SSDT vào VS

B4 Bổ sung các dịch vụ hỗ trợ cho SSDT với các dịch vụ như Analysis Services ,

Integration Services , and Reporting Services tools

Hình 2-10 Giao diện thêm các dịch vụ tiện ích vào SSDT

 Giao diện khởi chạy SQL Server Data Tool treen Visual Studio 2017

Hình 2-11 Màn hình chính của ứng dụng

2.4.2.2 Các thức triển khai phần mềm

Để bắt đầu với Visual Studio 2017, bạn hãy chọn thẻ File trên thanh công cụ, sau đó chọn New → Project hoặc nhấn tổ hợp phím Ctrl + Shift + N.

Hình 2-12 Tạo mới một dữ án để thực hiện

B2 Sau khi tạo thành công một dự án mới, sẽ xuất hiện lên hộp thoại, tại đây chọn

Analysis Services bên cột đầu tiên bên trái và chọn tiếp Analysis Services Multidimensional and Data Mining Project

Hình 2-14 Hộp thoại nhập thông tin cho dự án

B4 Sau khi hoàn thành các bước khởi tạo Project, chúng ta sẽ thấy được một màn hình chính Tiếp theo chọn thẻ Solution Explorer ở phía bên phải màn hình

Hình 2-15 Triển khai dự án mới

To begin, select "Data Source" and right-click to choose "New Data Source." This will open the Data Source Wizard dialog In this dialog, locate and select the option "Create a data source based on an existing or new connection," then choose "New."

Hình 2-16 Hộp thoại tạo kết nối dữ liệu mới

In the Connection Manager dialog, select "Native OLE DB\SQL Server Native Client 11.0" under Provider Next, choose your login method for the database in the "Log on the server" section, opting for either "Windows Authentication" or "SQL Server Authentication." After selecting your connection method, proceed to the "Connect to a database" section to choose the desired database name.

Hình 2-17 Hộp thoại kết nối với CSDL

B7 Sau đó sẽ hiện lên giao diện chính với tên Data Source đã thêm hiện lên cửa sổ Solution Explorer

Hình 2-18 Giao diện màn hình chính sau khi thêm Data Source

ỨNG DỤNG PHẦN MỀM SQL SERVER DATA TOOL

Giới thiệu về bộ dữ liệu được sử dụng

Để áp dụng phần mềm SQL Data Tool trong việc khai thác dữ liệu về nhu cầu mua xe đạp của khách hàng tại Công Ty TNHH FORNIX, chúng tôi đã thống kê nhóm khách hàng mua xe đạp ở các khu vực có đại lý ủy quyền trên toàn cầu Bộ dữ liệu của chúng tôi cung cấp thông tin chi tiết về việc mua xe đạp thể thao và các trang thiết bị kèm theo, đồng thời phân tích số lượng khách hàng có ý định mua xe đạp địa hình dựa trên các yếu tố như khoảng cách đến nơi làm việc, số lượng con cái, tình trạng hôn nhân và giới tính.

Chúng tôi đã thu thập các đơn mua hàng và chi tiết đơn hàng từ những khách hàng đã mua xe đạp cùng với các trang thiết bị kèm theo (nếu có) Bộ dữ liệu của chúng tôi bao gồm nhiều bảng thông tin liên quan.

 Bảng khách hàng tiềm năng (Prospective Buyer)

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

Mã khóa của khách hàng tiềm năng

Mã khóa thay thế của khách hàng tiềm năng

3 FirstName Tên khách hàng Nvarchar

5 Last Name Họ khách hàng Nvarchar

6 BirthDay Ngày tháng năm sinh Datetime

7 MaritalStatus Trình trạng hôn nhân Nchar

9 EmailAddress Địa chỉ Email Nvarchar

10 YearlyIncome Thu nhập hằng năm Money

11 TotalChildren Tổng những đứa trẻ có quan hệ với khách hàng

Số trẻ em tại nhà Tinyint

15 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

17 AddressLine1 Địa chỉ thứ 1 Nvarchar

18 AddressLine2 Địa chỉ thứ 2 Nvarchar

21 PhoneNumber Số điện thoại Nvarchar

22 PostalCode Mã bưu điện Nvarchar

23 Salutation Cách xưng hô Nvarchar

24 Unknown Chưa xác định Int

Bảng 3-3 Bảng mô tả dữ liệu của khách hàng tiềm năng (Prospective Buyer)

 Bảng đối tượng chào hàng (Target Mail)

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Customer Key Mã khóa của khách hàng Int

2 Geography Key Mã loại vùng quốc gia Nvarchar

Mã khóa thay thế của khách hàng

4 FirstName Tên khách hàng Nvarchar

6 Last Name Họ khách hàng Nvarchar

7 BirthDay Ngày tháng năm sinh Datetime

8 MaritalStatus Trình trạng hôn nhân Nchar

12 TotalChildren Tổng những đứa trẻ có quan hệ với khách hàng

Số trẻ em tại nhà Tinyint

16 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

18 AddressLine1 Địa chỉ thứ 1 Nvarchar

19 PhoneNumber Số điện thoại Nvarchar

Ngày mua hàng lần đầu tiên Datetime

Khoảng cách đến nơi làm việc Nvarchar

22 Region Vùng của quốc gia Nvarchar

23 Bike Buyer Quyết định mua xe đạp Nchar

Bảng 3-4 Bảng mô tả dữ liêu của đối tượng chào hàng (Target mail)

 Bảng thông tin đặt hàng

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Order Number Đơn đặt hàng Nchar

2 Customer Key Mã khách hàng Nvarchar

3 Region Vùng quốc gia Nvarchar

4 Income Group Nhóm thu nhập Nvarchar

Bảng 3-5 Bảng mô tả dữ liệu của thông tin đặt hàng (Associate Sequence Orders)

 Bảng chi tiết đơn đặt hàng

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Order Number Đơn đặt hàng Nchar

2 Line number Số thứ tự trong phiếu đặt hàng Nvarchar

3 Model Mẫu sản phẩm Nvarchar

Bảng 3-6 Bảng mô tả dữ liệu của thông tin chi tiết đơn mua hàng (Associate Sequence Line Items)

 Một phần dữ liệu mẫu của từng bảng

- Dữ liệu bảng chi tiết đơn mua hàng:

Hình 3-19 Dữ liệu mẫu của bảng chi tiết đơn mua hàng

- Dữ liệu mẫu bảng đơn mua hàng:

Hình 3-20 Dữ liệu mẫu của bảng đơn mua hàng

- Dữ liệu mẫu bảng đối tượng chào hàng:

Hình 3-21 Dữ liệu mẫu cảu bảng đối tượng chào hàng

- Dữ liệu mẫu của bảng khách hàng tìm năng

Hình 3-22 Dữ liệu mẫu mô tả bảng khách hàng tiềm năng

Giai đoạn tiền xử lý dữ liệu

3.2.1 Tiền xử lý dữ liệu tại bảng khách hàng tiềm năng

Dựa trên bảng dữ liệu mẫu, có nhiều cột chứa giá trị null và không Chúng tôi sẽ áp dụng Filtering Attributes để loại bỏ những thuộc tính không cần thiết, nhằm cải thiện độ chính xác của bộ dữ liệu khách hàng tiềm năng trong quá trình triển khai các thuật toán liên quan Kết quả sau khi lọc sẽ được trình bày trong bảng mô tả dữ liệu khách hàng tiềm năng như Bảng 3-7.

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

Mã khóa của khách hàng tiềm năng

2 FirstName Tên khách hàng Nvarchar

4 Last Name Họ khách hàng Nvarchar

5 BirthDay Ngày tháng năm sinh Datetime

6 MaritalStatus Trình trạng hôn nhân Nchar

8 EmailAddress Địa chỉ Email Nvarchar

9 YearlyIncome Thu nhập hằng năm Money

10 TotalChildren Tổng những đứa trẻ có quan hệ Tinyint

14 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

16 AddressLine1 Địa chỉ thứ 1 Nvarchar

Bảng 3-7 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính

3.2.2 Tiền xử lý dữ liệu tại bảng đối tượng chào hàng

Bảng đối tượng chào hàng có thể chứa các thuộc tính làm nặng bộ dữ liệu, dẫn đến thời gian chạy thuật toán kéo dài và gây ra các quy luật không chính xác so với thực tế của Công ty Điều này gây khó khăn trong việc gửi email đến các đối tượng có nhu cầu mua hàng, từ đó làm giảm doanh thu Để cải thiện tình hình, cần giữ lại các thuộc tính quan trọng như trong Bảng 3-8.

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Customer Key Mã khóa của khách hàng Int

2 FirstName Tên khách hàng Nvarchar

3 Last Name Họ khách hàng Nvarchar

4 BirthDay Ngày tháng năm sinh Datetime

5 MaritalStatus Trình trạng hôn nhân Nchar

7 EmailAddress Địa chỉ Email Nvarchar

8 YearlyIncome Thu nhập hằng năm Money

9 TotalChildren Tổng những đứa trẻ có quan hệ với khách hàng

Số trẻ em tại nhà Tinyint

13 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

15 AddressLine1 Địa chỉ thứ 1 Nvarchar

16 PhoneNumber Số điện thoại Nvarchar

Ngày mua hàng lần đầu tiên Datetime

Khoảng cách đến nơi làm việc Nvarchar

19 Region Vùng của quốc gia Nvarchar

20 Bike Buyer Quyết định mua xe đạp Nchar

Bảng 3-8 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính của bảng đối tượng chào hàng

Triển khai thuật toán cây ra quyết định (Decision Tree Algorithm)

3.3.1 Khởi chạy thuật toán cây ra quyết định trên SQL Server Data Tool Để tiến hành khởi chạy thuật toán, SSDT bắt buộc chúng ta phải khởi tạo khung nhìn dữ liệu nguồn Chúng ta có thể dựa vào khung nhìn dữ liệu nguồn (Data Source View) để tại nên các cấu trúc khai phá dữ liệu hoặc có thể thêm các cột vào bảng, tổng hợp, tính toán các thông tin bên trong bộ dữ liệu.

Sử dụng chế độ khung nhìn dữ liệu nguồn cho phép chúng ta lựa chọn dữ liệu liên quan đến thuật toán, đồng thời thay đổi cấu trúc bảng và chỉnh sửa mối quan hệ giữa các bảng mà không làm thay đổi cấu trúc ban đầu của cơ sở dữ liệu.

 Các thao tác tạo khung nhìn dữ liệu nguồn

Trong khung cửa sổ Solution Explorer, bạn cần nhấp chuột phải vào mục Data Source Views và chọn "New Data Source View" Sau đó, cửa sổ Data Source View Wizard sẽ hiện ra; hãy chọn Data Source mà bạn đã tạo như trong Hình 2-18, rồi nhấn "Next" để tiếp tục.

Hình 3-23 Thao tác khởi tạo Data Source View

Trong hộp thoại "Select Tables and Views", người dùng có thể chọn các thực thể và khung nhìn bằng cách nhấn nút “ > ” để di chuyển đối tượng vào khung "Included Objects" Để tìm kiếm nhanh, có thể sử dụng ô tìm kiếm "Filter" và sau đó nhấn "Next" Để khởi chạy thuật toán “Cây ra quyết định” cho bộ dữ liệu mẫu, nhóm chúng em sẽ lựa chọn các đối tượng có sẵn.

 vTarget Mail (khung nhìn về đối tượng chào hàng)

Bảng về khách hàng tiềm năng trong lĩnh vực xe đạp giúp xác định các yếu tố ảnh hưởng đến quyết định mua xe đạp của khách hàng Thông qua việc phân tích những thuộc tính này, nhân viên bán hàng có thể gửi thư chào hàng đến những khách hàng có nhu cầu thực sự, từ đó tối ưu hóa quy trình bán hàng và tăng cường khả năng tiếp cận với người tiêu dùng.

B3 Sau khi đã lựa chọn xong các đối tượng cần thiết, sẽ hiển thị lên hộp thoại

Completing the Wizard, tại đây chúng ta sẽ thay đổi tên của Data Source View và chọn Finish

Hình 3-24 Tìm kiếm và lựa chọn các đối tượng cần thiết cho quá trình chạy thuật toán

To create a mining structure, navigate to Solution Explorer and select Mining Structures Right-click and choose New Mining Structure When the Select the Definition Method dialog appears, select "From existing relational database or data warehouse" and then click Next.

Hình 3-26 Hộp thoại lựa chọn phương thức để khai báo cấu trúc

Trong hộp thoại "Create the Data Mining Structure", người dùng có thể chọn phương thức khai phá dữ liệu phù hợp Để thực hiện thuật toán cây quyết định, chúng tôi đã chọn Microsoft Decision Trees và nhấn "Next".

Hình 3-27 Lựa chọn thuật toán cần được sử dụng

Hộp thoại Select Data Source View xuất hiện, cho phép chúng ta chọn Data Source View đã được tạo trước đó Sau khi chọn xong, nhấn Next để tiếp tục.

Hình 3-28 Lựa chọn Data Source View cần cho quá trình khai phá

B4 Tại bước này chúng ta, lựa chọn thuộc tính Case tại vTargetMail, và chọn

In the Specify the Training Data dialog box, select the key attribute as Customer Key and the predictable attribute as Biker Buyer Then, input the relevant data accordingly.

 CommuteDistance (Khoảng cách đến nơi làm việc)

 EnglishEducation (Trình độ học vấn)

 HouseOwnerFlag (Số nhà sỡ hữu)

 MaritalStatus (Trình trạng hôn nhân)

 NumberCarsOwned (Số lượng xe sở hữu)

 NumberChildrenAtHome (số lượng trẻ em tại nhà)

 TotalChildren (Tổng số trẻ em trong gia đình)

 YearlyIncome (Thu nhập hằng năm)

Và truyền vào các thuộc tính đầu vào thêm như:

 DateFirstPurchase (Ngày thanh toán đầu tiên)

Hình 3-29 Hộp thoại truyền vào các thuộc tính trên Data Source View

Trong bước B6, người dùng sẽ thấy hộp thoại cho phép lựa chọn giá trị các cột cùng với các loại dữ liệu Tại đây, chúng ta có thể chọn các kiểu dữ liệu phù hợp để chạy thuật toán, hoặc sử dụng tùy chọn Detect để hệ thống tự động điều chỉnh Sau khi hoàn tất, hãy nhấn Next để tiếp tục sang bước tiếp theo.

Hình 3-30 Hộp thoại chỉnh sửa các thuộc tính của CSDL

Select a testing data percentage of 30% and set the maximum number of cases in the testing dataset to 1000, then click Next.

B8 Sau khi nhấn Next ở B7 Tiếp theo sẽ hiện lên hộp thoại Completing the

Wizard tại đây bao gồm 2 khung: Mining Structure Name và Mining Model

Chúng ta sẽ nhập tên cho từng thuộc tính và chọn ô "Allow drill through" để có thể truy cập dữ liệu từ các cấu trúc khác khi cần thiết, sau đó nhấn "Finish" Ngay lập tức, chúng ta sẽ có một Mining Structure với tên đã đặt trong thẻ Mining Structure trong Solution Explorer.

Hình 3-31 Hộp thoai đặt tên cấu trúc khai phá và tên của mẫu khai phá

B9 Nháy đúp vào tên của cấu trúc khai phá đã được đặt ở B8 Sẽ hiển thị lên cửa số

“v Target Mail.dmm” Ở đây có các thẻ chứa thông tin như: Mining Structure,

Mô hình khai thác, Trình xem mô hình khai thác, Biểu đồ độ chính xác khai thác và Dự đoán mô hình khai thác là những yếu tố quan trọng trong quá trình phân tích dữ liệu Khi chọn thẻ Mô hình khai thác, cấu trúc mà chúng ta đã khởi tạo sẽ được hiển thị cùng với các tham số đã truyền vào, dữ liệu khóa và các tham số dự đoán.

Chúng ta phải chuột và chọn Process Mining Structure And All Model Chúng ta sẽ chọn Run , để thực hiện thuật toán.

Hình 3-32 Quá trình lựa chọn và khởi chạy cấu trúc khai phá (1)

Hình 3-33 Quá trình lựa chọn và khởi chạy cấu trúc khai phá (2)

3.3.2 Kết quả của thuật toán cây ra quyết định

Sau khi thực hiện các thao tác khởi chạy trên thuật toán, bạn có thể xem kết quả của quá trình này bằng cách chọn thẻ Mining Model Viewer, nơi hiển thị các thuộc tính liên quan.

 Tree: Bike Buyer (Giá trị dự đoán)

 Background: 1 (Người mua xe) – 0 (Người không mua xe)

Bảng màu xanh dương từ nhạt tới đậm thể hiện tỷ lệ người mua và không mua xe đạp Màu xanh đậm biểu thị tỷ lệ người mua xe cao, trong khi màu xanh nhạt trên các lá cho thấy phần trăm khách hàng không có nhu cầu mua xe Màu hồng đại diện cho số lượng người mua xe.

Triển khai thuật toán kết hợp (Associate Algorithm)

Bộ phận bán hàng của công ty TNHH FORNIX đang nghiên cứu khả năng mua sắm của khách hàng nhằm cải thiện trang web bán hàng Họ muốn tích hợp tính năng gợi ý sản phẩm thường được mua kèm theo, dựa trên dữ liệu từ hệ thống CSDL bán hàng Mục tiêu là thiết kế lại trang web để nhóm các mặt hàng thường xuyên được mua chung, giúp tăng cường trải nghiệm người tiêu dùng và tối ưu hóa doanh thu.

Luật kết hợp cho phép nhận diện các sản phẩm có thể được mua chung tại các đại lý, từ đó giúp cải thiện cách trưng bày hàng hóa và tăng doanh số bán hàng.

3.4.1 Khởi chạy thuật toán kết hợp trên SQL Server Data Tool B1 Tại khung cửa sổ Solution Explorer , phải chuột vào Data Source Views, và chọn New Data Source View Sau đó hiện lên cửa sổ Data Source View Wizard , chọn Data Source đã tạo như Hình 2 -18, tiếp theo chọn Next

Trong hộp thoại "Chọn Bảng và Chế độ xem", hãy chọn các bảng cần thiết và nhấn nút chuyển hướng để di chuyển chúng vào khung "Đối tượng đã bao gồm" Các bảng được chọn sẽ được liệt kê trong phần này.

Sau đó chọn Next , hộp thoại Completing the Wizard hiện lên để cho phép đặt tên cho khung nhìn như hình Hình 3 -25

To initiate the mining structure, right-click on "Mining Structure" and select "New Mining Structure." A dialog box titled "Select the Definition Method" will appear; choose "From existing relational database or data warehouse" and then click "Next," as shown in Figure 3-26.

In the "Create the Data Mining Structure" dialog box, under the question "Which data mining technique do you want to use?", select "Microsoft Association Rule" from the list and then click "Next."

Hình 3-37 Giao diện lựa chọn thuật toán

B5 Tại trang Select Data Source View, chọn data source view mà ta vừa khởi tạo, sau đó chọn Next

B6 Trang Specify Table Types, bên dưới Input Tables:

 vAssocSeqLineItems: Nested (điều kiện lồng) và chọn Next

Hình 3-38 Xác định dư liệu đầu vào cho quá trình chạy thuật toán

Tại trang Specify the Training Data, hãy lựa chọn các giá trị khóa, giá trị đầu vào và giá trị dự đoán tương tự như trong Hình 3-39, sau đó nhấn Next để tiếp tục.

Hình 3-39 Các dữ liệu được đưa vào trong quá trình chạy thuật toán

B8 Tại trang Create testing set , với giá trị mặc định của lựa chọn Percentage of data for testing với giá trị 30, chúng ta thay đổi bằng “0” và chọn Next

Hình 3-40 Lựa chọn giá trị số lượng trường hợp test cho thuật toán

B9 Tiến hành đặt tên của Mining structure name và Mining model name , sau đó chọn Finish , thực hiên với thao tác như Hình 3 -31

B10 Thiết lập các giá trị thuộc tính kèm theo trong cấu trúc với:

Hình 3-41 Thêm các tham số cho thuật toán Association rule

B11 Tiến hành khởi chạy cấu trúc khai phá bằng cách cách nháy đúp chuột vào tên cấu trúc đã tạo (Association.dmm) chọn Process Model

3.4.2 Kết quả của thuật toán kết hợp

Sau khi xử lý các trường hợp bằng thuật toán, chúng ta truy cập vào Mining Model Viewer để xem kết quả của quá trình đã thực hiện Tại đây, có ba thẻ thành phần chính: Rules, Itemsets và Dependency Network.

Tại thẻ này, người dùng có thể điều chỉnh độ hỗ trợ tối thiểu (Minimum Support) và số lượng Itemset tối thiểu (Minimum Itemset Size) Ngoài việc điều chỉnh các tham số của thuật toán, thẻ này cũng cho phép lọc theo tên của các Itemset Mỗi Itemset sẽ bao gồm các thành phần riêng biệt.

 Support: là số lần xuất hiện trong các giao dịch đã xãy ra

Hình 3-42 Thông tin của từng Itemset

Chúng ta có thể xem chi tiết từng mục bằng cách truy cập vào các cấu trúc để lấy thông tin về đơn đặt hàng, nhóm thu nhập, vùng và sản phẩm kèm theo trong quá trình mua hàng.

Hình 3-43 Thông tin chi tiết của từng Item

Tại đây chứa thuộc tính của 3 cột:

 Probability: xác suất mua mặt hàng A và kéo theo mặt hàng B

 Importance: mức độ hữu dụng của quy luật, với mức độ hữu dụng càng cao thì quy luật càng đúng

Quy tắc mô tả sự kết hợp cụ thể giữa các mặt hàng, dựa trên danh sách các luật đã được SSDT tính toán Các luật này được trình bày với xác suất xảy ra được sắp xếp theo thứ tự giảm dần.

Hình 3-44 Các quy luật do luật kết hợp tìm thấy

Chúng ta không chỉ có thể quan sát các quy luật mà còn xem thông tin chi tiết về sản phẩm trong quy luật đó, bao gồm thông tin đơn hàng, phân loại thu nhập và khu vực địa lý Để xem thông tin chi tiết, hãy chọn quy luật mong muốn và nhấn chuột phải chọn "Drill Through" → "Model and Structure Column".

Hình 3-45 Thông tin chi tiết của quy luật được chọn

Không những xem chi tiết bằng Drill Through mà ở SSDT, chúng ta còn có thể xác định thuật toán bằng Microsoft Generic Content Tree Viewer tại Viewer.

Tại giao thức này, chúng ta dễ dàng xác định được được cái quy luật về việc mua hàng bằng cách:

 Kéo thanh trượt đến cuối danh sách Node Caption , tại đây chứa đựng các quy luật và dần trở lên trên chứa đựng cái Item trong Itemset

 Với quy định được mặc định trong SSDT, trong Node Detail phần

NODE_TYPE = 8 (Quy tắc liên kết) và NODE_TYPE = 7 (Tập mục) có vai trò quan trọng trong phân tích dữ liệu mua sắm Mỗi quy tắc được đưa ra sẽ có một NODE_CAPTION để mô tả các sản phẩm ảnh hưởng đến sự lựa chọn sản phẩm khác của khách hàng Trong khi đó, NODE_CAPTION của Itemset lại không có nội dung.

Hình 3-46 Node Detail của một Itemset

Hình 3-47 Node Detail của một Rule

3.4.3 Kết luận của thuật toán

Qua quá trình thực hiện thuật toán, chúng tôi đã rút ra những quy luật về thói quen mua sắm của khách hàng tại cửa hàng và đại lý ủy quyền.

Khi khách hàng đã thêm hàng vào giỏ trong trang mua hàng trực tuyến hoặc khách hàng mua hàng trực tiếp tại cửa hàng thì thường xãy ra:

 Mua bộ chắn bùn (Fender Set – Mountain) → mua thêm khung chai đựng nước (Mountain Bottle Cage)

 Mua bộ dụng cụ vá xe (patch kit) → lốp và săm xe (Road tire tube)

 Mua lốp xe (Touring Tire) → dụng cụ vá xe (Patch Kit)

 Mua đồ thể thao ngắn cho nữ (Women’s Mountain Shorts) → Nón lưỡi trai (Cycling Cap)

 Mua áo Jersey tay dài (Long – Sleeve Logo Jersey) → Nón lưỡi trai (Cycling Cap)

 Mua xe Sport – 100 → mua lốp và săm xe (Road Tire Tube)

 Mua xe Sport – 100 → mua thêm chai đựng nước uống (Water Bottle)

Khi mua xe Mountain – 200, khách hàng nên xem xét mua thêm bộ công cụ vá xe đạp (Patch Kit) để đảm bảo an toàn và tiện lợi trong quá trình sử dụng Các phụ kiện và trang thiết bị thường được mua chung với xe đạp sẽ giúp nâng cao trải nghiệm của người dùng Để hỗ trợ khách hàng, bộ phận bán hàng của công ty sẽ sắp xếp các nhóm sản phẩm thường được mua cùng nhau và cập nhật chúng trên website, giúp khách hàng dễ dàng lựa chọn và mua sắm.

Triển khai thuật toán phân cụm (Clustering Algorithm)

Thông qua thuật toán này, chúng ta có thể xác định các sản phẩm sẽ được nhóm lại trong quá trình giao dịch của công ty và phân loại theo từng khu vực của quốc gia.

3.5.1 Khởi chạy thuật toán phân cụm trên SQL Server Data Tool B1 Để tiến hành khởi chạy thuật toán, công việc đầu tiên của chsung ta là tiến hành tạo mới một Mining Structure (Cấu trúc khai phá) bằng cách phải chuột vào

Mining Structure trong thẻ Solution Explorer và chọn New Mining Structure

Hình 3-48 Khởi tạo một cấu trúc khai phá mới - Clustering by Region.dmm

B2 Tại trang Welcome to the Data Mining Wizard, chọn Next Sau đó tại trang

Select the Definition Method lựa chọn thuộc tính From existing relational database or data warehouse, chọn Next sau đó.

B3 Tiếp đến, tại trang Create the Data Mining Structure, lựa chọn Microsoft

Clustering trong phần drop down list của Which data mining technique do you want to use? Và chọn Next

Trang Select Data Source View xuất hiện, bên dưới Available data source Views, lựa chọn Data Source View tên Orders

Hình 3-49 Hộp thoại chọn lựa cấu trúc khai phá

B4 Tại trang Specify Table Types , chọn Nested cho bảng vAssocSeqLineItems và chọn Case cho bảng vAssocSeqOrders , và chọn Next

Hình 3-50 Hộp thoại xác định từng loại cua các bảng trong Mining Structure

B5 Lựa chọn các thuộc tính khóa, đầu vào dữ liệu và thuộc tính dự đoán cho thuật toán:

Với các kiểu dữ liệu của các thuộc tính như Hình 3 -51

Hình 3-51 Kiểu dữ liệu của các thuộc tính trong các bảng thành phần

B6 Với trang Create Setting Set , lựa chọn giá trị Percentage of data for testing :

To complete the wizard, set the Mining structure name and Mining model name to "Clustering of Region," check the box for "Allow drill through," and then click "Finish."

To begin, select the "Clustering of Region.dmm" option in the Solution Explorer Next, right-click on the created structure, choose "Process Mining Structure and All Model," and then click "Run" in the dialog that appears.

Hình 3-53 Khởi chạy cấu trúc khai phá trên SSDT với thuật toán gom cụm

3.5.2 Kết quả của thuật toán gom cụm

Hình 3-54 Sơ đồ tác động giữa quạn hệ các cụm

Tại thuật toán này, sẽ hiển thị lên từng phân loại kết quả với các thẻ tương ứng như:

State Transition là quá trình hiển thị thông tin dữ liệu liên quan đến các thẻ khác nhau Mặc dù mỗi thẻ thể hiện các dạng biểu diễn dữ liệu khác nhau sau khi chạy thuật toán, tất cả chúng đều có mối liên kết chặt chẽ với nhau.

Các cụm được phân chia độc lập, và khi chỉ số Strongest link giảm, sự liên kết giữa các cụm trở nên lỏng lẻo hơn Điều này có nghĩa là mức độ phụ thuộc giữa cụm A và cụm B rất thấp, chỉ thể hiện rõ ràng khi độ phụ thuộc đạt mức cao.

- Với Shading Variable: hiển thị thông tin nhóm cụm Thông tin tổng quát của cụm bao gồm tất cà các cụm

Trong việc lựa chọn thuộc tính để xác định các cụm, những cụm chứa nhiều dữ liệu lựa chọn trong điều kiện Shading Variable sẽ được đánh dấu bằng màu xanh đậm Ngược lại, các cụm có ít dữ liệu sẽ có màu sắc giảm dần, thể hiện sự khác biệt rõ rệt giữa các mức độ dữ liệu trong từng cụm.

Hình 3-56 Giao diện của thẻ Cluster Profiles

Tại đây chúng ta có thể xem trình tự phổ biến của các thuộc tính trong cụm bằng cách:

Để chọn thuộc tính trong khung hiển thị, hãy truy cập cột Dân số và chọn thuộc tính Model.Samples Điều này sẽ hiển thị một danh sách sản phẩm được sắp xếp theo thứ tự Khi chọn cụm Pacific, danh sách các nhóm sản phẩm sẽ được hiển thị, được sắp xếp theo mức độ phổ biến của từng nhóm.

Hình 3-57 Nhóm các sản phẩm phổ biến trong cụm

- Nhấn vào tab Cluster Characteristics (Đặc điểm cụm) để xem mô hình khai phá của mỗi cụm

- Cột Probability (xác suất) thể hiện khả năng xảy ra của các khoảng giá trị đó trong thực tế của bộ dữ liệu.

Hình 3-58 Thông tin của cụm được thể hiện trong thẻ Cluster Characterisics

Chúng ta có thể phân biệt khả năng và những điểm khác nhau giữa các đối tượng trong hai nhóm phân loại khác nhau, từ đó đưa ra những nhận định chính xác hơn về các đối tượng trong cụm đó.

Hình 3-59 So sánh các cụm với nhau trong thuật toán phân lớp

Bài viết này trình bày xác suất mua các sản phẩm của công ty, bao gồm tên sản phẩm, xác suất mua kèm theo và mối quan hệ giữa các sản phẩm, cũng như xác suất mua chung giữa chúng.

Hình 3-60 Lược đề thể hiện xác suất và mối quan hệ giữa các sản phẩm với nhau

3.5.3 Kết luận của thuật toán

Thuật toán này giúp các nhà quản lý hiểu rõ nhu cầu mua sắm xe đạp và thiết bị của khách hàng, phân tích hành vi mua sắm của nhóm thu nhập thấp và cao theo từng vùng địa lý Từ đó, họ có thể xây dựng chiến lược quảng bá và quảng cáo phù hợp cho các loại xe đạp và trang thiết bị.

Ngày đăng: 23/12/2023, 22:20

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w