ỨNG DỤNG PHẦN mềm SQL SERVER DATA TOOL THỰC HIỆN KHAI PHÁ dữ LIỆU tại CÔNG TY TNHH FORNIX

TỔNG QUAN

Lí do hình thành đề tài

Trong những năm gần đây, thế giới và Việt Nam đang trải qua cuộc cách mạng công nghiệp 4.0, với những tiến bộ vượt bậc trong khoa học và kỹ thuật Sự phát triển này đã dẫn đến sự gia tăng nhanh chóng của cơ sở dữ liệu (CSDL), với tốc độ bùng nổ thông tin được ước tính sẽ tiếp tục tăng nhanh trong tương lai.

Trong bối cảnh dữ liệu ngày càng gia tăng, việc khai thác dữ liệu trở thành một yếu tố quan trọng giúp giải quyết những vấn đề tiềm ẩn trong cơ sở dữ liệu (CSDL) Chúng ta đang phải đối mặt với thách thức là “chìm” trong CSDL mà không biết cách vận dụng hiệu quả Để tìm ra giải pháp tối ưu cho các nhà quản trị CSDL, việc áp dụng các thuật toán khai phá dữ liệu là cần thiết Nhóm chúng tôi đã chọn đề tài “Ứng dụng SQL Server Data Tool vào khai phá dữ liệu bán hàng tại công ty TNHH Fornix” nhằm khám phá các quy luật ẩn trong bộ dữ liệu và ứng dụng những quy luật đó vào hoạt động kinh doanh của công ty.

Mục tiêu của đồ án

 Hiểu được các thuật toán và vận hành các thuật toán đã học vào bộ dữ liệu thực tế

 Hệ thống lại kiến thức đã được học trong môn học Khai phá dữ liệu

Tiếp cận và nghiên cứu phần mềm khai phá dữ liệu từ bộ dữ liệu có sẵn giúp hệ thống hóa các quy luật, từ đó hiểu rõ hơn về bộ dữ liệu Việc áp dụng những quy luật này vào công việc kinh doanh sẽ tối ưu hóa hiệu suất và mang lại kết quả cao nhất.

 Xây dựng, vận hành các thuật toán như: gom cụm, phân lớp, kết hợp

Dự kiến kết quả đạt được

- Hướng dẫn cài đặt công cụ SQL Server Data Tool trên Visual Studio 2017.

- Chạy được thuật toán phân lớp và nêu được kết luận.

- Chạy được thuật toán gom cụm và nêu được kết luận.

- Chạy được thuật toán kết hợp và nêu được kết luận

CƠ SỞ LÝ THUYẾT CỦA HỌC PHẦN

Giới thiệu về khai phá dữ liệu

Khai phá dữ liệu là một tập hợp kỹ thuật nhằm tự động phân tích và phát hiện các mối quan hệ trong một tập dữ liệu lớn và phức tạp, đồng thời tìm ra những mẫu tiềm ẩn trong dữ liệu.

2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh

Sự kiếm tìm tri thức trong một lượng dữ liệu lớn là nhu cầu cấp thiết của nhiều doanh nghiệp kinh doanh.

Khai phá dữ liệu đóng vai trò quan trọng trong việc khám phá tri thức mới từ phân tích dữ liệu quá khứ, giúp xây dựng và biểu diễn mô hình dự báo cho tương lai Kết quả từ quá trình này cung cấp cơ sở vững chắc cho nhà quản lý trong việc ra quyết định, hỗ trợ hiệu quả trong việc điều hành và phát triển doanh nghiệp Nhờ đó, doanh nghiệp có thể đưa ra các quyết định chính xác hơn, từ đó tăng cường khả năng cạnh tranh trên thị trường.

2.1.3 Quy trình khai phá dữ liệu

 Định nghĩa các mục tiêu:

Phân tích khai thác dữ liệu được áp dụng trong các lĩnh vực cụ thể để cung cấp thông tin hữu ích cho các nhà ra quyết định.

Các chuyên gia cần có trực giác và năng lực để thiết lập các mục tiêu điều tra rõ ràng và có thể xác định được.

Nếu vấn đề cần thảo luận không được xác định rõ ràng, điều này có thể cản trở các nỗ lực khai thác dữ liệu trong tương lai.

Xác định các mục tiêu là rất quan trọng và sẽ được cải thiện thông qua sự hợp tác chặt chẽ giữa các chuyên gia ứng dụng và các nhà phân tích dữ liệu.

 Thu thập và hợp nhất dữ liệu.

Sau khi xác định được các mục tiêu của cuộc điều tra, bước tiếp theo là thu thập dữ liệu Dữ liệu này có thể đến từ nhiều nguồn khác nhau, do đó cần phải thực hiện việc hợp nhất để đảm bảo tính chính xác và đầy đủ.

Nguồn dữ liệu có thể đến từ nội bộ, bên ngoài, hoặc kết hợp cả hai Việc tích hợp các nguồn dữ liệu khác nhau là cần thiết để làm phong phú thêm thông tin, bao gồm các tham số mô tả mới như biến tiếp thị địa lý hoặc danh sách tên khách hàng tiềm năng mà hệ thống thông tin của công ty chưa có.

Trong nhiều tình huống, dữ liệu đã được tổ chức trong các kho dữ liệu và trung tâm dữ liệu nhằm phục vụ cho phân tích OLAP, đồng thời hỗ trợ các hoạt động ra quyết định.

Trong giai đoạn thứ ba của quá trình khai thác dữ liệu, việc thực hiện phân tích sơ bộ là cần thiết để làm quen với các thông tin hiện có, đồng thời tiến hành làm sạch dữ liệu.

Bước này sẽ loại bỏ nhiễu và dữ liệu không nhất quán

Dữ liệu trong kho dữ liệu thường được xử lý trong thời gian tải để loại bỏ mọi sự không nhất quán về cú pháp.

Trong giai đoạn tiếp theo, sự liên quan của các thuộc tính khác nhau được đánh giá liên quan đến các mục tiêu của phân tích.

Các thuộc tính chứng tỏ ít được sử dụng sẽ bị xóa, để làm sạch các thông tin không liên quan từ bộ dữ liệu.

Các thuộc tính mới thu được từ các biến ban đầu thông qua các phép biến đổi thích hợp được đưa vàobộ dữ liệu.

 Mô hình phát triển và xác nhận.

Khi bộ dữ liệu chất lượng cao đã được tập hợp và làm phong phú với các thuộc tính mới, việc phát triển các mô hình nhận diện và dự báo trở nên khả thi Thông thường, quá trình đào tạo các mô hình này được thực hiện bằng cách sử dụng một mẫu hồ sơ từ bộ dữ liệu ban đầu Độ chính xác dự đoán của từng mô hình có thể được đánh giá một cách hiệu quả.

Trong nghiên cứu này, 336 mô hình đã được lựa chọn, với cỡ mẫu cho tập huấn luyện thường nhỏ nhưng vẫn có ý nghĩa thống kê Dù chỉ vài ngàn quan sát, các kết quả vẫn đảm bảo tính chính xác và đáng tin cậy từ góc độ thống kê.

Tập kiểm tra, hay còn gọi là test set, đóng vai trò quan trọng trong việc đánh giá độ chính xác của các mô hình đã được phát triển trong giai đoạn đào tạo, nhằm xác định mô hình tối ưu nhất cho dự đoán trong tương lai.

 Dự đoán và diễn giải.

Sau khi hoàn tất quá trình khai thác dữ liệu, mô hình được chọn từ các mô hình đã phát triển cần được triển khai và sử dụng để đạt được các mục tiêu ban đầu đã xác định.

Kho dữ liệu

Kho dữ liệu đóng vai trò then chốt trong việc lưu trữ và quản lý dữ liệu cần thiết, góp phần quan trọng vào việc phát triển kiến trúc Business Intelligence (BI) và các hệ thống hỗ trợ quyết định.

A data warehouse is a system that periodically retrieves and consolidates data from source systems into a dimensional data warehouse or a normalized data store.

Kho dữ liệu thường giữ dữ liệu qua nhiều năm lịch sử và được truy vấn bởi hệ thống BI hoặc các hoạt động phân tích khác

Dữ liệu thường được cập nhật theo đợt, không phải ngay tức khắc lúc một giao dịch xảy ra trong hệ thống nguồn.

2.2.1 Kiến trúc luồng dữ liệu

Kiến trúc dữ liệu liên quan đến cách thức tổ chức và lưu trữ dữ liệu trong kho dữ liệu, nhằm phản ánh chính xác các quy trình kinh doanh Quá trình phát triển kiến trúc dữ liệu được gọi là mô hình hóa dữ liệu.

Các kho lưu trữ dữ liệu đóng vai trò quan trọng trong kiến trúc luồng dữ liệu Chúng bao gồm một hoặc nhiều cơ sở dữ liệu hoặc tệp chứa dữ liệu của kho dữ liệu, được tổ chức theo định dạng cụ thể và tham gia vào các quy trình của kho dữ liệu.

Based on data format, data stores in a data warehouse can be classified into four types: A stage (STG), a normalized data store (NDS), an operational data store (ODS), and a dimensional data store (DDS).

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI

Có ba loại ứng dụng kho dữ liệu:

 Xử lý thông tin: hỗ trợ truy vấn, phân tích thống kê cơ bản và báo cáo sử dụng crosstab, bảng, biểu đồ hoặc đồ thị.

Xử lý phân tích là quá trình phân tích sâu dữ liệu từ kho dữ liệu, thường tập trung vào dữ liệu lịch sử dưới cả hai hình thức tóm tắt và chi tiết.

Khai thác dữ liệu là quá trình hỗ trợ khám phá kiến thức thông qua việc tìm kiếm các mẫu ẩn và hiệp hội trong dữ liệu Nó bao gồm việc xây dựng các mô hình phân tích, thực hiện phân loại và dự đoán, đồng thời trình bày kết quả khai thác bằng các công cụ trực quan hóa hiệu quả.

On-Line Analytical Mining (OLAM) hay còn gọi là khai thác dữ liệu OLAP, là sự kết hợp giữa xử lý phân tích trực tuyến (OLAP) và khai thác dữ liệu, nhằm khai thác kiến thức từ cơ sở dữ liệu đa chiều OLAM mở rộng khả năng của OLAP bằng cách tích hợp các kỹ thuật khai thác dữ liệu, giúp người dùng rút ra thông tin giá trị từ dữ liệu phân tích.

2.3 Các phương pháp trong khai phá dữ liệu

 Phân lớp dữ liệu (Classification)

 Dạng phân tích dữ liệu nhằm rút trích các mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu

 Bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp (classifier) bằng việc phân tích/học tập huấn luyện

 y=f(X) với y là nhãn (phần mô tả) của một lớp (class) và X là dữ liệu/đối tượng

 Bước học: X trong tập huấn luyện, một trị y được cho trước với X X

 Bước Phân lớp: đánh giá f với (X’, y’) và X’ mọi X trong tập huấn luyện; nếu acceptable thì dùng f để xác định y’’ choX’’(mới)

 Dạng học có giám sát(supervisedlearning)

 Các giải thuật Phân lớp dữ liệu

 Phân lớp với cây quyết định(decisiontree)

 Phân lớp với mạng Bayesian

 Phân lớp với mạng neural

 Phân lớp với k phần tử láng giềng gần nhất(k-nearestneighbor)

 Phân lớp với suy diễn dựa trên tình huống(case-basedreasoning)

 Phân lớp dựa trên tiến hoá gen(geneticalgorithms)

 Phân lớp với lý thuyết tập thô(roughsets)

 Phân lớp với lý thuyết tập mờ(fuzzysets)

2.3.2 Phương pháp luật kết hợp

Mục tiêu của phương pháp khai phá dữ liệu là phát hiện các mối liên hệ giữa các giá trị trong cơ sở dữ liệu Kết quả của thuật toán này là tập hợp các luật kết hợp được tìm thấy, và quá trình khai phá luật kết hợp diễn ra qua hai bước.

Để bắt đầu, bước đầu tiên là xác định tất cả các tập mục phổ biến, với mỗi tập mục được đánh giá dựa trên độ hỗ trợ và phải đáp ứng tiêu chí về độ hỗ trợ tối thiểu.

• Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có chủ đích, phân tích quyết định, quản lí kinh doanh,

 Quá trình gom nhóm/ cụm dữ liệu/đối tượng vào các lớp/cụm

 Các đối tượng trong cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác

 Vấn đề kiểu dữ liệu/đối tượng được gom cụm

 Các yêu cầu tiêu biểu về việc gom cụm dữ liệu

 Khả năng co giãn về tập dữ liệu(scalability)

 Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes)

 Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape)

 Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain knowledge for input parameters)

 Khả năng xử lý dữ liệu có nhiễu (noisy data)

 Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental clustering and insensitivity to the order of input records)

 Khả năng xử lý dữ liệu đa chiều (high dimensionality)

 Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering)

 Khả diễn và khả dụng (interpretability and usability)

Giới thiệu về phần mềm SQL Server Data Tool

2.4.1 Tổng quan về phần mềm SQL Server Data Tool

SQL Server Data Tool có những ưu điểm sau:

Người dùng có thể dễ dàng truy cập cơ sở dữ liệu ngay trong Visual Studio mà không cần sử dụng công cụ bổ sung nào khác Thông qua SQL Server Object Explorer, họ có khả năng thực hiện các lệnh DDL và thực thi các câu lệnh truy vấn một cách thuận tiện.

- Cho phép vận hành CSDL và thao tác chỉnh sửa ngày trên VS

SSDT cho phép người dùng so sánh các đối tượng trong cùng một cơ sở dữ liệu, giúp phát hiện các điểm khác biệt Tính năng này cũng hỗ trợ xuất báo cáo chi tiết về những kết quả đã tìm thấy, mang lại tiện ích cho việc quản lý và bảo trì cơ sở dữ liệu.

SSDT là công cụ được phát triển để thay thế BIDS, cung cấp chức năng triển khai, vận hành và khai thác cơ sở dữ liệu (CSDL) thông qua các thuật toán được tích hợp sẵn trong ứng dụng.

SQL có giao diện phức tạp và không được trực quan hóa khiến một số người dùng khó truy cập.

Các lập trình viên sử dụng SQL không được toàn quyền kiểm soát cơ sở dữ liệu do các quy tắc nghiệp vụ ẩn Điều này hạn chế khả năng truy cập và quản lý dữ liệu, đảm bảo rằng các quy định và chính sách được tuân thủ chặt chẽ.

Hầu hết các hệ quản trị cơ sở dữ liệu SQL đều đi kèm với các phần mở rộng độc quyền từ nhà cung cấp, bên cạnh việc tuân thủ các tiêu chuẩn SQL.

- Giá cả chi phí vận hành của một số phiên bản SQL khiến một số lập trình viên gặp khó khăn khi tiếp cận.

Trong những năm gần đây, SQL đã nổi lên như một trong những ngôn ngữ cơ sở dữ liệu phổ biến nhất toàn cầu Nó đã được công nhận là tiêu chuẩn bởi Tổ chức Tiêu chuẩn hóa Quốc tế và Viện Tiêu chuẩn Quốc gia Hoa Kỳ.

- Kiểm soát được những thay đổi trong dữ liệu: Cho phép nhà quản trị CSDL nắm bắt được những thay đổi tỏng quá trình thực hiện các công việc.

- Dễ dàng sửa lỗi: người sử dụng có thể kiểm tra và gỡ lỗi phát sinh trong quá trình vận hành, kiểm soát CSDL bằng các câu lệnh T-SQL.

Việc duy trì cơ sở dữ liệu theo thời gian trở nên dễ dàng hơn với SSDT, cho phép người dùng thay đổi mã lệnh T-SQL trong các thủ tục hoặc hàm được lưu trữ Sau khi thực hiện các thay đổi, người dùng có thể xem lại các đoạn lệnh trước và sau khi thay đổi, đồng thời kiểm tra kỹ lưỡng trước khi phát hành, giúp tiết kiệm thời gian và nâng cao hiệu quả quản lý cơ sở dữ liệu.

- Nguồn tài nguyên rộng lớn với các công cụ và tính năng được phát triển có trong Visual Studio giúp cho việc sử dụng SSDT dễ dàn hơn.

2.4.2 Cách sử dụng phần mềm

2.4.2.1 Giới thiệu về giao diện SQL Server Data Tool

 Giao diện cài đặt công cụ SQL Server Analysis Services

 Cài đặt trên SQL Server Installation Center 64 bit

B1 Khởi chạy SQL Server Installation Center bằng cách tìm kiếm “sql server installer” tại menu của Windows Start

Hình 2-1 Tìm kiếm SQL Server Installation Center trên Start

B2 Tại giao diện SQL Server Installation Center chọn New SQL Server stand – alone installation or add new features to an existing installation

Hình 2-2 Thao tác cài đặt Analysis Services (1)

B3 Sau đó chọn Next, đến Installation Type chọn Add features to an existing instance of SQL Server 2014, sau đó chọn Next

B4 Sau đó chọn những tính năng cần được thêm: Analysis Services, SQL Server

Data Tool Management Tools – Basic

B5 Sau đó, chúng ta sẽ chọn chế độ để cài đặt tại Analysic Services Configuration,, và chọn Next để tiến hành cài đặt

Hình 2-5 Thao tác cài đặt Analysic Service (4)

B6 Sau đó sẽ tiến hành cài đặt, và sẽ mất một thời gian ngắn đề cài đặt vào Microsoft SQL Server

Hình 2-6 Tiến hành cài đặt Analysis Services

 Giao diện cài đặt phần mềm SSDT với Visual Studio 2017

 Cài đặt trực tiếp trên Visual Studio Installer

B1 Khởi chạy Visual Studio Installer bằng cách tìm kiếm “installer” tại menu của Windows Start

Hình 2-7 Tìm kiếm Visual Studio từ Windows Start

B2 Sau khi vào được “installer”, chọn phiên bản Visual Studio và tiếp tục tới thẻ “Modify”

Hình 2-8 Giao diện chỉnh sửa, bổ sung thêm công cụ trong VS Installer

B3 Lựa chọn “SQL Server Data Tool ” bên trong thẻ “Data storage and processing” trong khung chứa Workloads

Hình 2-9 Giao diện bổ sung thêm SSDT vào VS

B4.Bổ sung các dịch vụ hỗ trợ cho SSDT với các dịch vụ như Analysis Services,

Integration Services, and Reporting Services tools

Hình 2-10 Giao diện thêm các dịch vụ tiện ích vào SSDT

 Giao diện khởi chạy SQL Server Data Tool treen Visual Studio 2017

Hình 2-11 Màn hình chính của ứng dụng

2.4.2.2 Các thức triển khai phần mềm

Để bắt đầu với Visual Studio 2017, bạn hãy vào thẻ File trên thanh công cụ, sau đó chọn New → Project hoặc nhấn tổ hợp phím Ctrl + Shift + N.

Hình 2-12 Tạo mới một dữ án để thực hiện

B2 Sau khi tạo thành công một dự án mới, sẽ xuất hiện lên hộp thoại, tại đây chọn

Analysis Services bên cột đầu tiên bên trái và chọn tiếp Analysis Services Multidimensional and Data Mining Project

Hình 2-13 Hộp thoại lựa chọn các công cụ trong Visual Studio

Hình 2-14 Hộp thoại nhập thông tin cho dự án

B4 Sau khi hoàn thành các bước khởi tạo Project, chúng ta sẽ thấy được một màn hình chính Tiếp theo chọn thẻ Solution Explorer ở phía bên phải màn hình

Hình 2-15 Triển khai dự án mới

To begin, select the Data Source option and right-click to choose New Data Source This action will open the Data Source Wizard dialog box In this dialog, locate and select the option "Create a data source based on an existing or new connection," then proceed by selecting New.

Hình 2-16 Hộp thoại tạo kết nối dữ liệu mới

After that, the Connection Manager dialog will appear Under the Provider section, select "Native OLE DB\SQL Server Native Client 11.0." Next, choose your login method for the database in the "Log on to the server" section, either "Windows Authentication" or "SQL Server Authentication." Once you have selected the connection method, proceed to the "Connect to a database" section to choose the database name.

Hình 2-17 Hộp thoại kết nối với CSDL

B7 Sau đó sẽ hiện lên giao diện chính với tên Data Source đã thêm hiện lên cửa sổ Solution Explorer

Hình 2-18 Giao diện màn hình chính sau khi thêm Data Source

ỨNG DỤNG PHẦN MỀM SQL SERVER DATA TOOL

Giới thiệu về bộ dữ liệu được sử dụng

Để áp dụng phần mềm SQL Data Tool trong khai thác dữ liệu, chúng tôi nhằm tìm hiểu quy luật và nhu cầu mua xe đạp của khách hàng tại Công Ty TNHH FORNIX Chúng tôi đã thống kê nhóm khách hàng mua xe đạp theo khu vực có đại lý ủy quyền trên toàn cầu Bộ dữ liệu chứa thông tin liên quan đến việc mua xe đạp thể thao và các trang thiết bị đi kèm, đồng thời thống kê số lượng khách hàng có ý định mua xe đạp địa hình dựa trên các yếu tố như khoảng cách đến nơi làm việc, số con cái trong gia đình, tình trạng hôn nhân và giới tính.

Chúng tôi đã thu thập các đơn mua hàng và thông tin chi tiết về đơn hàng từ những khách hàng đã mua xe đạp cùng với các trang thiết bị đi kèm (nếu có) Bộ dữ liệu của chúng tôi bao gồm nhiều bảng khác nhau.

 Bảng khách hàng tiềm năng (Prospective Buyer)

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

Mã khóa của khách hàng tiềm năng

Mã khóa thay thế của khách hàng tiềm năng

3 FirstName Tên khách hàng Nvarchar

5 Last Name Họ khách hàng Nvarchar

6 BirthDay Ngày tháng năm sinh Datetime

7 MaritalStatus Trình trạng hôn nhân Nchar

9 EmailAddress Địa chỉ Email Nvarchar

10 YearlyIncome Thu nhập hằng năm Money

11 TotalChildren Tổng những đứa trẻ có quan hệ với khách hàng

Số trẻ em tại nhà Tinyint

15 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

17 AddressLine1 Địa chỉ thứ 1 Nvarchar

21 PhoneNumber Số điện thoại Nvarchar

22 PostalCode Mã bưu điện Nvarchar

23 Salutation Cách xưng hô Nvarchar

24 Unknown Chưa xác định Int

Bảng 3-3 Bảng mô tả dữ liệu của khách hàng tiềm năng (Prospective Buyer)

 Bảng đối tượng chào hàng (Target Mail)

1 Customer Key Mã khóa của khách hàng Int

2 Geography Key Mã loại vùng quốc gia Nvarchar

Mã khóa thay thế của khách hàng

Ngày mua hàng lần đầu tiên Datetime

Khoảng cách đến nơi làm việc Nvarchar

22 Region Vùng của quốc gia Nvarchar

23 Bike Buyer Quyết định mua xe đạp Nchar

Bảng 3-4 Bảng mô tả dữ liêu của đối tượng chào hàng (Target mail)

 Bảng thông tin đặt hàng

1 Order Number Đơn đặt hàng Nchar

2 Customer Key Mã khách hàng Nvarchar

3 Region Vùng quốc gia Nvarchar

4 Income Group Nhóm thu nhập Nvarchar

Bảng 3-5 Bảng mô tả dữ liệu của thông tin đặt hàng (Associate Sequence Orders)

 Bảng chi tiết đơn đặt hàng

1 Order Number Đơn đặt hàng Nchar

2 Line number Số thứ tự trong phiếu đặt hàng Nvarchar

3 Model Mẫu sản phẩm Nvarchar

Bảng 3-6 Bảng mô tả dữ liệu của thông tin chi tiết đơn mua hàng (Associate Sequence Line Items)

 Một phần dữ liệu mẫu của từng bảng

- Dữ liệu bảng chi tiết đơn mua hàng:

Hình 3-19 Dữ liệu mẫu của bảng chi tiết đơn mua hàng

- Dữ liệu mẫu bảng đơn mua hàng:

Hình 3-20 Dữ liệu mẫu của bảng đơn mua hàng

- Dữ liệu mẫu bảng đối tượng chào hàng:

Hình 3-21 Dữ liệu mẫu cảu bảng đối tượng chào hàng

- Dữ liệu mẫu của bảng khách hàng tìm năng

Hình 3-22 Dữ liệu mẫu mô tả bảng khách hàng tiềm năng

Giai đoạn tiền xử lý dữ liệu

3.2.1 Tiền xử lý dữ liệu tại bảng khách hàng tiềm năng

Dựa trên bảng dữ liệu mẫu, có nhiều cột chứa giá trị null và không Chúng tôi sẽ sử dụng Filtering Attributes để loại bỏ những thuộc tính không cần thiết, nhằm cải thiện độ chính xác của bộ dữ liệu khách hàng tiềm năng trong quá trình triển khai các thuật toán Sau khi lọc, bảng mô tả dữ liệu khách hàng tiềm năng sẽ được cập nhật như trong Bảng 3-7.

Mã khóa của khách hàng tiềm năng

10 TotalChildren Tổng những đứa trẻ có quan hệ Tinyint

Bảng 3-7 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính

3.2.2 Tiền xử lý dữ liệu tại bảng đối tượng chào hàng

Bảng đối tượng chào hàng có thể chứa những thuộc tính làm nặng dữ liệu, dẫn đến thời gian chạy thuật toán kéo dài Điều này có thể tạo ra các quy luật không chính xác, gây khó khăn trong việc gửi email đến khách hàng tiềm năng, từ đó làm giảm doanh thu Để tối ưu hóa quá trình này, cần giữ lại những thuộc tính quan trọng như đã nêu trong Bảng 3-8.

1 Customer Key Mã khóa của khách hàng Int

Ngày mua hàng lần đầu tiên Datetime

Khoảng cách đến nơi làm việc Nvarchar

19 Region Vùng của quốc gia Nvarchar

20 Bike Buyer Quyết định mua xe đạp Nchar

Bảng 3-8 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính của bảng đối tượng chào hàng

Triển khai thuật toán cây ra quyết định (Decision Tree Algorithm)

3.3.1 Khởi chạy thuật toán cây ra quyết định trên SQL Server Data Tool Để tiến hành khởi chạy thuật toán, SSDT bắt buộc chúng ta phải khởi tạo khung nhìn dữ liệu nguồn Chúng ta có thể dựa vào khung nhìn dữ liệu nguồn (Data Source View) để tại nên các cấu trúc khai phá dữ liệu hoặc có thể thêm các cột vào bảng, tổng hợp, tính toán các thông tin bên trong bộ dữ liệu.

Sử dụng chế độ khung nhìn dữ liệu nguồn cho phép chúng ta lựa chọn dữ liệu phù hợp với thuật toán, đồng thời thay đổi cấu trúc bảng và chỉnh sửa mối quan hệ giữa các bảng mà không làm ảnh hưởng đến cấu trúc ban đầu của cơ sở dữ liệu.

 Các thao tác tạo khung nhìn dữ liệu nguồn

Để tạo một Data Source View mới, trong khung cửa sổ Solution Explorer, bạn cần nhấp chuột phải vào Data Source Views và chọn New Data Source View Sau đó, cửa sổ Data Source View Wizard sẽ xuất hiện, nơi bạn chọn Data Source đã tạo, rồi nhấn Next.

Hình 3-23 Thao tác khởi tạo Data Source View

Sau khi mở hộp thoại Select Tables and Views, người dùng có thể chọn các đối tượng như thực thể và khung nhìn, sau đó sử dụng nút “ > ” để di chuyển đối tượng vào khung Included Objects hoặc “ >> ” để thêm nhiều đối tượng hơn Để tìm kiếm nhanh các đối tượng mong muốn, người dùng có thể nhập tên vào ô tìm kiếm Filter Cuối cùng, nhấn Next để tiếp tục khởi chạy thuật toán “Cây ra quyết định” với các đối tượng đã chọn.

 vTarget Mail (khung nhìn về đối tượng chào hàng)

Bảng về khách hàng tiềm năng nhằm phân tích các yếu tố ảnh hưởng đến quyết định mua xe đạp Qua đó, nhân viên bán hàng có thể tiếp cận và gửi thư chào hàng đến những khách hàng có nhu cầu.

B3 Sau khi đã lựa chọn xong các đối tượng cần thiết, sẽ hiển thị lên hộp thoại

Completing the Wizard, tại đây chúng ta sẽ thay đổi tên của Data Source View và chọn Finish

Hình 3-24 Tìm kiếm và lựa chọn các đối tượng cần thiết cho quá trình chạy thuật toán

 Các thao tác tạo cấu trúc khai phá

In Solution Explorer, navigate to Mining Structures, right-click and select New Mining Structure When the Select the Definition Method dialog appears, choose "From existing relational database or data warehouse," then click Next.

Hình 3-26 Hộp thoại lựa chọn phương thức để khai báo cấu trúc

Trong hộp thoại "Create the Data Mining Structure", chúng ta sẽ chọn phương thức khai phá dữ liệu Để thực hiện thuật toán cây quyết định, chúng tôi đã chọn Microsoft Decision Trees và nhấn Next.

Hình 3-27 Lựa chọn thuật toán cần được sử dụng

Hộp thoại Select Data Source View xuất hiện, cho phép chúng ta lựa chọn Data Source View đã được tạo sẵn Sau khi chọn xong, nhấn Next để tiếp tục.

Hình 3-28 Lựa chọn Data Source View cần cho quá trình khai phá

B4 Tại bước này chúng ta, lựa chọn thuộc tính Case tại vTargetMail, và chọn

In the Specify the Training Data dialog box, select the key attribute as Customer Key and the predictable attribute as Biker Buyer Then, input the relevant data accordingly.

 CommuteDistance (Khoảng cách đến nơi làm việc)

 EnglishEducation (Trình độ học vấn)

 HouseOwnerFlag (Số nhà sỡ hữu)

 MaritalStatus (Trình trạng hôn nhân)

 NumberCarsOwned (Số lượng xe sở hữu)

 NumberChildrenAtHome (số lượng trẻ em tại nhà)

 TotalChildren (Tổng số trẻ em trong gia đình)

 YearlyIncome (Thu nhập hằng năm)

Và truyền vào các thuộc tính đầu vào thêm như:

 DateFirstPurchase (Ngày thanh toán đầu tiên)

Hình 3-29 Hộp thoại truyền vào các thuộc tính trên Data Source View

Trong bước B6, người dùng sẽ thấy hộp thoại cho phép lựa chọn giá trị của các cột và loại dữ liệu Tại đây, có thể chọn các kiểu dữ liệu phù hợp để chạy thuật toán, hoặc sử dụng tùy chọn Detect để hệ thống tự động điều chỉnh Sau khi hoàn tất, nhấn Next để tiếp tục đến bước kế tiếp.

Hình 3-30 Hộp thoại chỉnh sửa các thuộc tính của CSDL

Select a testing data percentage of 30% and set the maximum number of cases in the testing data set to 1000, then click Next.

B8 Sau khi nhấn Next ở B7 Tiếp theo sẽ hiện lên hộp thoại Completing the

Wizard tại đây bao gồm 2 khung: Mining Structure Name và Mining Model

Chúng ta sẽ nhập tên cho từng thuộc tính và đánh dấu ô "Allow drill through" để có thể truy cập thêm dữ liệu từ các cấu trúc khác khi cần Sau khi hoàn tất, chọn "Finish" và ngay lập tức, một Mining Structure với tên đã đặt sẽ xuất hiện trong thẻ Mining Structure của Solution Explorer.

Hình 3-31 Hộp thoai đặt tên cấu trúc khai phá và tên của mẫu khai phá

B9 Nháy đúp vào tên của cấu trúc khai phá đã được đặt ở B8 Sẽ hiển thị lên cửa số

“v Target Mail.dmm” Ở đây có các thẻ chứa thông tin như: Mining Structure,

In the Mining Model section, we can view the structure we created with the input parameters, key data, and prediction parameters To process the Mining Structure and all models, right-click and select the appropriate option Finally, click on Run to execute the algorithm and obtain the results.

Hình 3-32 Quá trình lựa chọn và khởi chạy cấu trúc khai phá (1)

Hình 3-33 Quá trình lựa chọn và khởi chạy cấu trúc khai phá (2)

3.3.2 Kết quả của thuật toán cây ra quyết định

Sau khi hoàn tất các thao tác khởi chạy thuật toán, bạn sẽ có cơ hội xem kết quả của quá trình này bằng cách chọn vào thẻ Mining.

Model Viewer Với các thuộc tính:

 Tree: Bike Buyer (Giá trị dự đoán)

 Background: 1 (Người mua xe) – 0 (Người không mua xe)

Bảng màu xanh dương từ nhạt đến đậm thể hiện tỷ lệ người mua và không mua xe đạp trong cây Màu xanh đậm biểu thị tỷ trọng người mua xe cao, trong khi màu xanh nhạt trên các lá cho thấy phần trăm khách hàng không có nhu cầu mua xe Màu hồng đại diện cho số lượng người mua xe.

Triển khai thuật toán kết hợp (Associate Algorithm)

Bộ phận bán hàng của công ty TNHH FORNIX đang nghiên cứu cách cải thiện trang web bán hàng để gợi ý các sản phẩm thường được mua kèm theo Họ muốn khai thác dữ liệu từ hệ thống CSDL bán hàng để xác định khả năng mua sắm của khách hàng, từ đó thiết kế lại trang web với các nhóm sản phẩm thường xuyên được mua chung Mục tiêu là tối ưu hóa trải nghiệm mua sắm và tăng doanh thu cho công ty.

Luật kết hợp giúp xác định các sản phẩm có thể được mua chung trong quá trình bán hàng tại đại lý Từ đó, các đại lý có thể cải thiện gian hàng của mình, nhằm tăng doanh số trong kinh doanh.

3.4.1 Khởi chạy thuật toán kết hợp trên SQL Server Data Tool

Để tạo một Data Source View mới, trong khung cửa sổ Solution Explorer, bạn cần nhấp chuột phải vào Data Source Views và chọn New Data Source View Sau đó, cửa sổ Data Source View Wizard sẽ xuất hiện, cho phép bạn chọn Data Source đã tạo, như được minh họa trong Hình 2 -18, và sau đó nhấn Next để tiếp tục.

Trong hộp thoại Chọn Bảng và Giao Diện, hãy chọn các bảng cần thiết và nhấn nút chuyển hướng để di chuyển chúng vào khung Đối Tượng Đã Bao Gồm.

Sau đó chọn Next, hộp thoại Completing the Wizard hiện lên để cho phép đặt tên cho khung nhìn như hình Hình 3 -25

To create a mining structure, right-click on "Mining Structure" and select "New Mining Structure." This action will open the "Select the Definition Method" dialog box Choose "From existing relational database or data warehouse" and then click "Next" as shown in Figure 3-26.

In the Create the Data Mining Structure dialog box, select the Microsoft Association Rule from the list of available data mining techniques and then click Next to proceed.

Hình 3-37 Giao diện lựa chọn thuật toán

B5 Tại trang Select Data Source View, chọn data source view mà ta vừa khởi tạo, sau đó chọn Next

B6 Trang Specify Table Types, bên dưới Input Tables:

 vAssocSeqLineItems: Nested (điều kiện lồng) và chọn Next

Hình 3-38 Xác định dư liệu đầu vào cho quá trình chạy thuật toán

Tại trang Specify the Training Data, hãy chọn các giá trị khóa, giá trị đầu vào và giá trị dự đoán tương tự như trong Hình 3-39, sau đó nhấn Next để tiếp tục.

Hình 3-39 Các dữ liệu được đưa vào trong quá trình chạy thuật toán

B8 Tại trang Create testing set, với giá trị mặc định của lựa chọn Percentage of data for testing với giá trị 30, chúng ta thay đổi bằng “0” và chọn Next

Hình 3-40 Lựa chọn giá trị số lượng trường hợp test cho thuật toán

B9 Tiến hành đặt tên của Mining structure name và Mining model name, sau đó chọn Finish, thực hiên với thao tác như Hình 3 -31

B10 Thiết lập các giá trị thuộc tính kèm theo trong cấu trúc với:

Hình 3-41 Thêm các tham số cho thuật toán Association rule

B11 Tiến hành khởi chạy cấu trúc khai phá bằng cách cách nháy đúp chuột vào tên cấu trúc đã tạo (Association.dmm) chọn Process Model

3.4.2 Kết quả của thuật toán kết hợp

Sau khi hoàn tất xử lý các trường hợp của thuật toán, bạn có thể truy cập vào Mining Model Viewer để xem kết quả của quá trình vừa thực hiện Tại đây, có ba thẻ thành phần chính: Rules, giúp bạn hiểu rõ hơn về các quy tắc đã được áp dụng trong mô hình.

Tại thẻ này, người dùng có khả năng điều chỉnh độ hỗ trợ tối thiểu (Minimum Support) và số lượng các Itemset tối thiểu (Minimum Itemset Size) Bên cạnh việc thay đổi các tham số của thuật toán, thẻ này cũng cho phép lọc theo tên của các Itemsets.

Với Mỗi Itemset sẽ gồm có:

 Support: là số lần xuất hiện trong các giao dịch đã xãy ra

Size: số lượng các sản phẩm trong một Itemset

Hình 3-42 Thông tin của từng Itemset

Chúng ta có thể xem chi tiết từng mục bằng cách truy cập vào các cấu trúc để lấy thông tin về đơn đặt hàng, nhóm thu nhập, vùng và sản phẩm liên quan trong quá trình mua hàng.

Hình 3-43 Thông tin chi tiết của từng Item

Tại đây chứa thuộc tính của 3 cột:

 Probability: xác suất mua mặt hàng A và kéo theo mặt hàng B

 Importance: mức độ hữu dụng của quy luật, với mức độ hữu dụng càng cao thì quy luật càng đúng

 Rule: quy tắc mô tả sự kết hợp cụ thể giữa các mặt hàng

Với danh sách các luật đã được SSDT tính toán, và đưa ra với xác suất xảy ra được sắp xếp giảm dần.

Hình 3-44 Các quy luật do luật kết hợp tìm thấy

Chúng ta không chỉ có khả năng xem các quy luật mà còn có thể truy cập thông tin chi tiết về sản phẩm trong những quy luật đó, bao gồm thông tin đơn hàng, phân loại thu nhập và vùng đất nước Để xem thông tin chi tiết, chỉ cần chọn quy luật mong muốn và nhấp chuột phải chọn "Drill Through" → "Model and Structure Column".

Hình 3-45 Thông tin chi tiết của quy luật được chọn

Không những xem chi tiết bằng Drill Through mà ở SSDT, chúng ta còn có thể xác định thuật toán bằng Microsoft Generic Content Tree Viewer tại Viewer.

Tại giao thức này, chúng ta dễ dàng xác định được được cái quy luật về việc mua hàng bằng cách:

 Kéo thanh trượt đến cuối danh sách Node Caption, tại đây chứa đựng các quy luật và dần trở lên trên chứa đựng cái Item trong Itemset

 Với quy định được mặc định trong SSDT, trong Node Detail phần

NODE_TYPE = 8 (Quy tắc liên kết) và NODE_TYPE = 7 (Tập mục) được sử dụng để phân tích mối quan hệ giữa các sản phẩm trong hành vi mua sắm của khách hàng Mỗi quy tắc sẽ có một NODE_CAPTION mô tả các sản phẩm dẫn đến việc mua một sản phẩm khác, trong khi NODE_CAPTION của Itemset sẽ để trống.

Hình 3-46 Node Detail của một Itemset

Hình 3-47 Node Detail của một Rule

3.4.3 Kết luận của thuật toán

Thông qua việc áp dụng thuật toán, chúng tôi đã xác định được các quy luật liên quan đến thói quen mua sắm của khách hàng tại các cửa hàng và đại lý ủy quyền.

Khi khách hàng đã thêm hàng vào giỏ trong trang mua hàng trực tuyến hoặc khách hàng mua hàng trực tiếp tại cửa hàng thì thường xãy ra:

 Mua bộ chắn bùn (Fender Set – Mountain) → mua thêm khung chai đựng nước (Mountain Bottle Cage)

 Mua bộ dụng cụ vá xe (patch kit) → lốp và săm xe (Road tire tube)

 Mua lốp xe (Touring Tire) → dụng cụ vá xe (Patch Kit)

 Mua đồ thể thao ngắn cho nữ (Women’s Mountain Shorts) → Nón lưỡi trai (Cycling Cap)

 Mua áo Jersey tay dài (Long – Sleeve Logo Jersey) → Nón lưỡi trai (Cycling Cap)

 Mua xe Sport – 100 → mua lốp và săm xe (Road Tire Tube)

 Mua xe Sport – 100 → mua thêm chai đựng nước uống (Water Bottle)

 Mua xe Mountain – 200 → mua thêm bộ công cụ vá xe dạp (Patch Kit)

Các phụ kiện, trang thiết bị và xe đạp thường được mua chung, do đó bộ phận bán hàng sẽ tổ chức các nhóm sản phẩm liên quan và cập nhật trên Website Điều này giúp khách hàng dễ dàng lựa chọn và mua sắm các nhóm sản phẩm phù hợp.

Triển khai thuật toán phân cụm (Clustering Algorithm)

Thông qua thuật toán này, chúng ta có khả năng xác định các sản phẩm sẽ được nhóm lại trong quá trình giao dịch của công ty, đồng thời phân loại chúng theo từng vùng địa lý trong quốc gia.

3.5.1 Khởi chạy thuật toán phân cụm trên SQL Server Data Tool

Để khởi chạy thuật toán, bước đầu tiên là tạo mới một Cấu trúc khai phá (Mining Structure) bằng cách nhấn chuột phải vào.

Mining Structure trong thẻ Solution Explorer và chọn New Mining Structure

Hình 3-48 Khởi tạo một cấu trúc khai phá mới - Clustering by Region.dmm

B2 Tại trang Welcome to the Data Mining Wizard, chọn Next Sau đó tại trang

Select the Definition Method lựa chọn thuộc tính From existing relational database or data warehouse, chọn Next sau đó.

B3 Tiếp đến, tại trang Create the Data Mining Structure, lựa chọn Microsoft

Clustering trong phần drop down list của Which data mining technique do you want to use? Và chọn Next

Trang Select Data Source View xuất hiện, bên dưới Available data source Views, lựa chọn Data Source View tên Orders

Hình 3-49 Hộp thoại chọn lựa cấu trúc khai phá

B4 Tại trang Specify Table Types, chọn Nested cho bảng vAssocSeqLineItems và chọn Case cho bảng vAssocSeqOrders, và chọn Next

Hình 3-50 Hộp thoại xác định từng loại cua các bảng trong Mining Structure

B5 Lựa chọn các thuộc tính khóa, đầu vào dữ liệu và thuộc tính dự đoán cho thuật toán:

Với các kiểu dữ liệu của các thuộc tính như Hình 3 -51

Hình 3-51 Kiểu dữ liệu của các thuộc tính trong các bảng thành phần

B6 Với trang Create Setting Set, lựa chọn giá trị Percentage of data for testing:

B7 Trang Completing the Wizard hiện lên, với Mining structure name và Mining model name với tên Clustering of Region và chọn vào ô Allow drill through, sau đó chọn Finish.

First, navigate to the Solution Explorer and select the "Clustering of Region.dmm" option Next, right-click on the created structure, choose "Process Mining Structure and All Model," and then click "Run" in the dialog box that appears.

Hình 3-53 Khởi chạy cấu trúc khai phá trên SSDT với thuật toán gom cụm

3.5.2 Kết quả của thuật toán gom cụm

Hình 3-54 Sơ đồ tác động giữa quạn hệ các cụm

Tại thuật toán này, sẽ hiển thị lên từng phân loại kết quả với các thẻ tương ứng như:

Các thẻ khác nhau hiển thị thông tin dữ liệu liên quan và có mối liên kết chặt chẽ với nhau Mỗi thẻ thể hiện các dạng biểu diễn khác nhau của dữ liệu sau khi áp dụng thuật toán.

Các cụm được phân chia độc lập, với mức độ liên kết giữa chúng giảm khi chỉ số Strongest link thấp Điều này có nghĩa là sự phụ thuộc giữa cụm A và cụm B rất hạn chế, chỉ xuất hiện khi mức độ phụ thuộc cao.

- Với Shading Variable: hiển thị thông tin nhóm cụm Thông tin tổng quát của cụm bao gồm tất cà các cụm

Trong quá trình lựa chọn thuộc tính để xác định các cụm, những cụm chứa nhiều dữ liệu lựa chọn trong điều kiện Shading Variable sẽ được hiển thị bằng màu xanh đậm Ngược lại, các cụm có ít dữ liệu sẽ có màu sắc giảm dần, thể hiện sự khác biệt rõ rệt giữa các mức độ dữ liệu trong các cụm này.

Hình 3-56 Giao diện của thẻ Cluster Profiles

Tại đây chúng ta có thể xem trình tự phổ biến của các thuộc tính trong cụm bằng cách:

Để lựa chọn thuộc tính trong khung hiển thị, bạn cần chọn Model.Samples tại cột Population Điều này sẽ hiển thị một danh sách các sản phẩm được sắp xếp theo thứ tự Khi chọn Pacific Cluster, danh sách các nhóm sản phẩm sẽ được hiển thị, sắp xếp theo mức độ phổ biến của từng nhóm.

Hình 3-57 Nhóm các sản phẩm phổ biến trong cụm

- Nhấn vào tab Cluster Characteristics (Đặc điểm cụm) để xem mô hình khai phá của mỗi cụm

- Cột Probability (xác suất) thể hiện khả năng xảy ra của các khoảng giá trị đó trong thực tế của bộ dữ liệu.

Hình 3-58 Thông tin của cụm được thể hiện trong thẻ Cluster Characterisics

Chúng ta có thể phân biệt khả năng và sự khác biệt giữa các đối tượng trong hai nhóm phân loại khác nhau, từ đó đưa ra nhận định chính xác hơn về các đối tượng trong cụm đó.

Hình 3-59 So sánh các cụm với nhau trong thuật toán phân lớp

Bài viết này trình bày xác suất mua các sản phẩm của công ty, bao gồm tên sản phẩm, xác suất mua từng sản phẩm và mối quan hệ giữa các sản phẩm với nhau, cũng như xác suất mua chung giữa chúng.

Hình 3-60 Lược đề thể hiện xác suất và mối quan hệ giữa các sản phẩm với nhau

3.5.3 Kết luận của thuật toán

Thuật toán này giúp nhà quản lý hiểu rõ nhu cầu mua xe đạp và trang thiết bị của khách hàng, phân tích sự khác biệt trong hành vi tiêu dùng giữa các nhóm thu nhập Khách hàng có thu nhập thấp thường chọn những sản phẩm phù hợp với khả năng tài chính, trong khi nhóm thu nhập cao hơn có xu hướng mua sắm các mặt hàng cao cấp hơn Dựa trên dữ liệu này, các chiến lược quảng bá và quảng cáo xe đạp cùng trang thiết bị có thể được điều chỉnh theo từng vùng địa lý để tối ưu hóa hiệu quả tiếp cận khách hàng.

Tiêu đề	Ứng Dụng Phần Mềm SQL Server Data Tool Thực Hiện Khai Phá Dữ Liệu Tại Công Ty TNHH Fornix
Người hướng dẫn	ThS. Nguyễn Thị Trần Lộc
Trường học	Trường Đại Học Tài Chính – Marketing
Chuyên ngành	Khoa Công Nghệ Thông Tin
Thể loại	Đồ Án Môn Học
Năm xuất bản	2021
Thành phố	TP.HCM

Định dạng
Số trang	77
Dung lượng	4,95 MB