1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) ỨNG DỤNG PHẦN mềm SQL SERVER DATA TOOL THỰC HIỆN KHAI PHÁ dữ LIỆU tại CÔNG TY TNHH FORNIX

77 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Phần Mềm SQL Server Data Tool Thực Hiện Khai Phá Dữ Liệu Tại Công Ty TNHH Fornix
Người hướng dẫn ThS. Nguyễn Thị Trần Lộc
Trường học Trường Đại Học Tài Chính – Marketing
Chuyên ngành Khoa Công Nghệ Thông Tin
Thể loại đồ án môn học
Năm xuất bản 2021
Thành phố TP.HCM
Định dạng
Số trang 77
Dung lượng 4,87 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (13)
    • 1.1. Lí do hình thành đề tài (13)
    • 1.2. Mục tiêu của đồ án (14)
    • 1.3. Dự kiến kết quả đạt được (14)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA HỌC PHẦN (15)
    • 2.1. Giới thiệu về khai phá dữ liệu (15)
      • 2.1.1 Khái niệm (15)
      • 2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh (15)
      • 2.1.3 Quy trình khai phá dữ liệu (15)
    • 2.2. Kho dữ liệu (17)
      • 2.2.1 Kiến trúc luồng dữ liệu (17)
      • 2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI (18)
      • 2.3.2 Phương pháp luật kết hợp (19)
      • 2.3.3 Phương pháp gom cụm (19)
    • 2.4. Giới thiệu về phần mềm SQL Server Data Tool (21)
      • 2.4.1 Tổng quan về phần mềm SQL Server Data Tool (21)
      • 2.4.2 Cách sử dụng phần mềm (22)
  • CHƯƠNG 3: ỨNG DỤNG PHẦN MỀM SQL SERVER DATA TOOL (35)
    • 3.1. Giới thiệu về bộ dữ liệu được sử dụng (35)
    • 3.2. Giai đoạn tiền xử lý dữ liệu (40)
      • 3.2.1 Tiền xử lý dữ liệu tại bảng khách hàng tiềm năng (40)
      • 3.2.2 Tiền xử lý dữ liệu tại bảng đối tượng chào hàng (41)
    • 3.3. Triển khai thuật toán cây ra quyết định (Decision Tree Algorithm) (42)
      • 3.3.1 Khởi chạy thuật toán cây ra quyết định trên SQL Server Data Tool (42)
      • 3.3.2 Kết quả của thuật toán cây ra quyết định (51)
      • 3.3.3 Kết luận của thuật toán (54)
    • 3.4. Triển khai thuật toán kết hợp (Associate Algorithm) (55)
      • 3.4.1 Khởi chạy thuật toán kết hợp trên SQL Server Data Tool (55)
      • 3.4.2 Kết quả của thuật toán kết hợp (60)
      • 3.4.3 Kết luận của thuật toán (64)
    • 3.5. Triển khai thuật toán phân cụm (Clustering Algorithm) (65)
      • 3.5.1 Khởi chạy thuật toán phân cụm trên SQL Server Data Tool (65)
      • 3.5.2 Kết quả của thuật toán gom cụm (70)
      • 3.5.3 Kết luận của thuật toán (74)
  • CHƯƠNG 4: KẾT LUẬN (75)
    • 4.1. Kết quả đạt được (75)
    • 4.2. Hạn chế (75)
    • 4.3. Hướng phát triển (75)
  • TÀI LIỆU THAM KHẢO (77)

Nội dung

TỔNG QUAN

Lí do hình thành đề tài

Khoảng những năm trở lại gần đây, thế giới nói chugn và nước ta nói riêng đang trong cuộc cách mạng công nghiệp 4.0 với những tiến bộ vượt bậc của nền khoa học – kỹ thuật trên tất cả các lĩnh vực Từ đó, dẫn đến việc tăng lên nhanh chóng của CSDL với tốc độ bùng nổ Theo ước tính của các nhà nghiên cứu lượng thông tin sẽ tăng nhanh

248 chóng trong những năm tiếp theo cùng với CSDL có thể tăng lên theo lũy tuyến Nói theo một cách hình ảnh thì chúng ta đang “chìm” trong CSDL nhưng không biết cách vận dụng những CSDL đã có để áp dụng vào các công việc có liên quan Từ đó khai phá dữ liệu đã ra đời, để giải quyết đi những khuất mắt, những phần chìm của CSDL để tìm ra giải pháp, vận hành thông tin sao cho có lợi cho những nhà quản trị CSDL bằng việc khai thác chúng. Để tiếp thu những kiến thức mới về khai phá dữ liệu trong thời đại công nghiệp hóa – hiện đại hóa cũng như là vận hành việc khai phá dữ liệu vào đối tượng thực tế để ra những quy luật bên trong Vì thế, nhóm chúng em xin lựa chọn đề tài “Ứng dụng SQLServer Data Tool vào khai phá dữ liệu bán hàng tại công ty TNHH Fornix” với đề tài này chúng em sẽ thực hiện các thuật toán đã được học khi còn trên lớp để khám phá các quy luật ẩn bên trong bộ dữ liệu và ứng dụng những quy luật đó vào công việc kinh doanh của công ty TNHH Fornix.

Mục tiêu của đồ án

 Hiểu được các thuật toán và vận hành các thuật toán đã học vào bộ dữ liệu thực tế

 Hệ thống lại kiến thức đã được học trong môn học Khai phá dữ liệu

 Tiếp cận, nghiên cứu và vận hành được phần mềm khai phá với bộ dữ liệu có sẵn từ đó hệ thống ra các quy luật và hiểu được bộ dữ liệu từ đó gợi ý, áp dụng những quy luật đó vào công việc kinh doanh để mang lại hiệu suất cao nhất có thể.

 Xây dựng, vận hành các thuật toán như: gom cụm, phân lớp, kết hợp

Dự kiến kết quả đạt được

- Hướng dẫn cài đặt công cụ SQL Server Data Tool trên Visual Studio 2017.

- Chạy được thuật toán phân lớp và nêu được kết luận.

- Chạy được thuật toán gom cụm và nêu được kết luận.

- Chạy được thuật toán kết hợp và nêu được kết luận

CƠ SỞ LÝ THUYẾT CỦA HỌC PHẦN

Giới thiệu về khai phá dữ liệu

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.

2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh

Sự kiếm tìm tri thức trong một lượng dữ liệu lớn là nhu cầu cấp thiết của nhiều doanh nghiệp kinh doanh.

Với vai trò khám phá tri thức mới từ những phân tích trên dữ liệu quá khứ để xây dựng và biểu diễn mô hình dự báo cho tương lai, các kết quả của quá trình khai phá dữ liệu là cơ sở quan trọng hỗ trợ cho nhà quản lý trong việc ra quyết định trong quá trình điều hành, xây dựng và phát triển doanh nghiệp/tổ chức giúp doanh nghiệp sẽ có thêm cơ sở rất trực quan và khoa học để đưa ra các quyết định đúng đắn hơn. Tăng khả năng cạnh tranh trên thị trường.

2.1.3 Quy trình khai phá dữ liệu

 Định nghĩa các mục tiêu:

Các phân tích khai thác dữ liệu được thực hiện trong các lĩnh vực ứng dụng cụ thể và nhằm cung cấp cho các nhà ra quyết định những kiến thức hữu ích.

Các chuyên gia đòi hỏi phải có trực giác và năng lực để xây dựng các mục tiêu điều tra có thể xác định được và xác định rõ ràng.

Nếu vấn đề đang bàn cãi không được xác định và xác định một cách đầy đủ, người ta có thể có nguy cơ cản trở bất kỳ nỗ lực trong tương lai nào trong cáchoạt động khai thác dữ liệu.

Việc xác định các mục tiêu sẽ được lợi từ sự hợp tác chặt chẽ giữa các chuyên gia trong lĩnh vực ứng dụng và các nhà phân tích khai thác dữ liệu.

 Thu thập và hợp nhất dữ liệu.

Khi các mục tiêu của cuộc điều tra đã được xác định, bắt đầu thu thập dữ liệu Dữ liệu có thể đến từ cácnguồn khác nhau và do đó có thể yêu cầu hợp nhất.

Nguồn dữ liệu có thể là nội bộ, bên ngoài hoặc kết hợp cả hai Việc tích hợp các nguồn dữ liệu khác nhau có thể được đề xuất bởi nhu cầu làm phongphú thêm dữ liệu với các tham số mô tả mới, chẳng hạn như các biến về tiếp thị địa lý hoặc với các danh sách tên khách hàng tiềm năng, khách hàng tiềm năng, hiện chưa có trong hệ thống thông tin của công ty.

Trong một số trường hợp, các nguồn dữ liệu đã đượccấu trúc trong các kho dữ liệu và các trung tâm dữ liệu cho các phân tích của OLAP và nói chung là cho các hoạt động hỗ trợ ra quyết định.

Trong giai đoạn thứ ba của quá trình khai thác dữ liệu, một phân tích sơ bộ về dữ liệu được thực hiệnvới mục đích làm quen với các thông tin hiện có và thực hiện việc làm sạch dữ liệu.

Bước này sẽ loại bỏ nhiễu và dữ liệu không nhất quán

Thông thường, dữ liệu được lưu trữ trong kho dữ liệu được xử lý ở thời gian tải theo cách để loại bỏ bất kỳ sự không nhất quán về cú pháp

Trong giai đoạn tiếp theo, sự liên quan của các thuộc tính khác nhau được đánh giá liên quan đến các mục tiêu của phân tích.

Các thuộc tính chứng tỏ ít được sử dụng sẽ bị xóa, để làm sạch các thông tin không liên quan từ bộ dữ liệu.

Các thuộc tính mới thu được từ các biến ban đầu thông qua các phép biến đổi thích hợp được đưa vàobộ dữ liệu.

 Mô hình phát triển và xác nhận.

Một khi bộ dữ liệu chất lượng cao đã được lắp ráp vàcó thể được làm phong phú với các thuộc tính mới được xác định, có thể phát triển các mô hình nhận diện và dự báo. Thông thường việc đào tạo các mô hình được thực hiện bằng cách sử dụng một mẫu các hồ sơ trích ra từ bộ dữ liệu ban đầu. Độ chính xác dự đoán của từng mô hình được tạo ra có thể được đánh giá bằng cách

336 mô hình đã chọn Thông thường cỡ mẫu của tập huấn luyện được chọn là tương đối nhỏ, mặc dù có ý nghĩa thống kê từ quan điểm thống kê, vài ngàn quan sát.

Tập con thứ hai là tập kiểm tra (test set) và được sử dụng để đánh giá độ chính xác của các mô hình thay thế được tạo ra trong giai đoạn đào tạo để xác định mô hình tốt nhất cho dự đoán trong tương lai.

 Dự đoán và diễn giải.

Sau khi kết thúc quá trình khai thác dữ liệu, mô hình được lựa chọn giữa những người tạo ra trong giai đoạn phát triển nên được thực hiện và sử dụng để đạt được các mục tiêu ban đầu được xác định.

Kho dữ liệu

Kho dữ liệu là kho lưu trữ quan trọng nhất cho các dữ liệu sẵn có để phát triển kiến trúc BI và các hệ thống hỗ trợ ra quyết định.

Kho dữ liệu là một hệ thống lấy (retrieve) và hợp nhất (consolidate) dữ liệu theo định kỳ từ các hệ thống nguồn vào một kho dữ liệu có chiều (dimensional) hoặc kho dữ liệu đã chuẩn hóa (normalized data store).

Kho dữ liệu thường giữ dữ liệu qua nhiều năm lịch sử và được truy vấn bởi hệ thống BI hoặc các hoạt động phân tích khác

Dữ liệu thường được cập nhật theo đợt, không phải ngay tức khắc lúc một giao dịch xảy ra trong hệ thống nguồn.

2.2.1 Kiến trúc luồng dữ liệu

Kiến trúc dữ liệu là về cách dữ liệu được sắp xếp trong mỗi kho dữ liệu và cách lưu trữ dữ liệu được thiết kế để phản ánh các quy trình kinh doanh Hoạt động tạo ra kiến trúc dữ liệu được gọi là mô hình hóa dữ liệu.

Các kho lưu trữ dữ liệu (data stores) là những thành phần quan trọng của kiến trúc luồng dữ liệu Data store là một hoặc nhiều cơ sở dữ liệu hoặc tệp chứa dữ liệu của kho dữ liệu (data warehouse), được sắp xếp theo một định dạng cụ thể và tham gia vào các quy trình kho dữ liệu.

Dựa vào định dạng dữ liệu, có thể phân loại data store của kho dữ liệu thành bốn loại: A stage (STG), A normalized data store (NDS), An operational data store (ODS), A dimensional data store (DDS).

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI

Có ba loại ứng dụng kho dữ liệu:

 Xử lý thông tin: hỗ trợ truy vấn, phân tích thống kê cơ bản và báo cáo sử dụng crosstab, bảng, biểu đồ hoặc đồ thị.

 Xử lý phân tích: phân tích số liệu dữ liệu kho dữ liệu theo chiều sâu Nó thường hoạt động trên dữ liệu lịch sử trong cả hai dạng tóm tắt và chi tiết.

 Khai thác dữ liệu: hỗ trợ khám phá kiến thức bằng cách tìm kiếm các mẫu ẩn và các hiệp hội, xây dựng các mô hình phân tích, thực hiện phân loại và dự đoán, và trình bày các kết quả khai thác bằng các công cụ trực quan hóa.

Từ On-Line Analytical Processing (OLAP) đến OnLine Analytical Mining (OLAM) OLAM hay còn gọi là OLAP mining: tích hợp xử lý phân tích trực tuyến (OLAP) với khai thác dữ liệu và kiến thức về khai phá dữ liệu trong cơ sở dữ liệu đa chiều Từ On-Line Analytical Processing (OLAP) đến OnLine Analytical Mining (OLAM).

2.3 Các phương pháp trong khai phá dữ liệu

 Phân lớp dữ liệu (Classification)

 Dạng phân tích dữ liệu nhằm rút trích các mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu

 Bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp (classifier) bằng việc phân tích/học tập huấn luyện

 y=f(X) với y là nhãn (phần mô tả) của một lớp (class) và X là dữ liệu/đối tượng

 Bước học: X trong tập huấn luyện, một trị y được cho trước với X X

 Bước Phân lớp: đánh giá f với (X’, y’) và X’ mọi X trong tập huấn luyện; nếu acceptable thì dùng f để xác định y’’ choX’’(mới)

 Dạng học có giám sát(supervisedlearning)

 Các giải thuật Phân lớp dữ liệu

 Phân lớp với cây quyết định(decisiontree)

 Phân lớp với mạng Bayesian

 Phân lớp với mạng neural

 Phân lớp với k phần tử láng giềng gần nhất(k-nearestneighbor)

 Phân lớp với suy diễn dựa trên tình huống(case-basedreasoning)

 Phân lớp dựa trên tiến hoá gen(geneticalgorithms)

 Phân lớp với lý thuyết tập thô(roughsets)

 Phân lớp với lý thuyết tập mờ(fuzzysets)

2.3.2 Phương pháp luật kết hợp

Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Khai phá luật kết hợp được thực hiện qua 2 bước:

• Bước 1: tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu

• Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có chủ đích, phân tích quyết định, quản lí kinh doanh,

 Quá trình gom nhóm/ cụm dữ liệu/đối tượng vào các lớp/cụm

 Các đối tượng trong cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác

 Vấn đề kiểu dữ liệu/đối tượng được gom cụm

 Các yêu cầu tiêu biểu về việc gom cụm dữ liệu

 Khả năng co giãn về tập dữ liệu(scalability)

 Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes)

 Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape)

 Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain knowledge for input parameters)

 Khả năng xử lý dữ liệu có nhiễu (noisy data)

 Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental clustering and insensitivity to the order of input records)

 Khả năng xử lý dữ liệu đa chiều (high dimensionality)

 Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering)

 Khả diễn và khả dụng (interpretability and usability)

Giới thiệu về phần mềm SQL Server Data Tool

2.4.1 Tổng quan về phần mềm SQL Server Data Tool

SQL Server Data Tool có những ưu điểm sau:

- Cho phép người sử dụng có thể truy cập vào CSDL ngay trong Visual Studio mà không cần phải sử dựng thêm bất cứ công cụ nào khác Tại đây bằng bằng SQL Server Object Explorer, người sử dụng có thể thực hiện các cây lệnh DDL hoặc thực thi các câu lệnh truy vấn.

- Cho phép vận hành CSDL và thao tác chỉnh sửa ngày trên VS

- SSDT cho phép so sánh giữa các đối tượng trong cùng một cơ sở dữ liệu, từ đó tìm ra được điểm khác biệt, và có thể xuất ra báo cáo về kết quả tìm thấy.

- Hơn thế nữa, SSDT là công cụ ra đời để thay thế BIDS với chức năng triển khai, vận hành, khai phá CSDL với những thuật toán đã được xây dựng sẵn bên trong ứng dụng.

SQL có giao diện phức tạp và không được trực quan hóa khiến một số người dùng khó truy cập.

- Không được toàn quyền kiểm soát các lập trình viên sử dụng SQL không có toàn quyền kiểm soát cơ sở dữ liệu do các quy tắc nghiệp vụ ẩn.

- Thực thi hầu hết các chương trình cơ sở dữ liệu SQL đều có phần mở rộng độc quyền riêng của nhà cung cấp bên cạnh các tiêu chuẩn SQL.

- Giá cả chi phí vận hành của một số phiên bản SQL khiến một số lập trình viên gặp khó khăn khi tiếp cận.

Trong những năm qua, SQL đã trở thành một trong những ngôn ngữ cơ sở dữ liệu được sử dụng rộng rãi nhất trên thế giới Nó đã trở thành một tiêu chuẩn cho Tổ chức Tiêu chuẩn hóa Quốc tế và Viện Stands Quốc gia Hoa Kỳ.

- Kiểm soát được những thay đổi trong dữ liệu: Cho phép nhà quản trị CSDL nắm bắt được những thay đổi tỏng quá trình thực hiện các công việc.

- Dễ dàng sửa lỗi: người sử dụng có thể kiểm tra và gỡ lỗi phát sinh trong quá trình vận hành, kiểm soát CSDL bằng các câu lệnh T-SQL.

- Việc duy trì cơ sở dữ liệu theo thời gian sẽ dễ dàng hơn.Thông thường, việc thêm bớt các đối tượng bên trong CSDL sẽ mất rất nhiều thời gian SSDT cho phép người sử dụng thay đổi các đoạn mã lệnh T-SQL trong các thủ tục hoặc hàm được lưu trữ Sau khi thay đổi, người sử dụng có thể xem lại trước và sau khi sự thay đổi diễn ra và kiểm tra trước các đoạn lệnh trước khi phát hành.

- Nguồn tài nguyên rộng lớn với các công cụ và tính năng được phát triển có trong Visual Studio giúp cho việc sử dụng SSDT dễ dàn hơn.

2.4.2 Cách sử dụng phần mềm

2.4.2.1 Giới thiệu về giao diện SQL Server Data Tool

 Giao diện cài đặt công cụ SQL Server Analysis Services

 Cài đặt trên SQL Server Installation Center 64 bit

B1 Khởi chạy SQL Server Installation Center bằng cách tìm kiếm “sql server installer” tại menu của Windows Start

Hình 2-1 Tìm kiếm SQL Server Installation Center trên Start

B2 Tại giao diện SQL Server Installation Center chọn New SQL Server stand – alone installation or add new features to an existing installation

Hình 2-2 Thao tác cài đặt Analysis Services (1)

B3 Sau đó chọn Next, đến Installation Type chọn Add features to an existing instance of SQL Server 2014, sau đó chọn Next

Hình 2-3 Thao tác cài đặt Analysis Services (2)

B4 Sau đó chọn những tính năng cần được thêm: Analysis Services, SQL Server

Data Tool Management Tools – Basic

Hình 2-4 Thao tác cài đặt Analysis Services (3)

B5 Sau đó, chúng ta sẽ chọn chế độ để cài đặt tại Analysic Services Configuration,, và chọn Next để tiến hành cài đặt

Hình 2-5 Thao tác cài đặt Analysic Service (4)

B6 Sau đó sẽ tiến hành cài đặt, và sẽ mất một thời gian ngắn đề cài đặt vào Microsoft SQL Server

Hình 2-6 Tiến hành cài đặt Analysis Services

 Giao diện cài đặt phần mềm SSDT với Visual Studio 2017

 Cài đặt trực tiếp trên Visual Studio Installer

B1 Khởi chạy Visual Studio Installer bằng cách tìm kiếm “installer” tại menu của Windows Start

Hình 2-7 Tìm kiếm Visual Studio từ Windows Start

B2 Sau khi vào được “installer”, chọn phiên bản Visual Studio và tiếp tục tới thẻ “Modify”

Hình 2-8 Giao diện chỉnh sửa, bổ sung thêm công cụ trong VS Installer

B3 Lựa chọn “SQL Server Data Tool ” bên trong thẻ “Data storage and processing” trong khung chứa Workloads

Hình 2-9 Giao diện bổ sung thêm SSDT vào VS

B4.Bổ sung các dịch vụ hỗ trợ cho SSDT với các dịch vụ như Analysis Services,

Integration Services, and Reporting Services tools

Hình 2-10 Giao diện thêm các dịch vụ tiện ích vào SSDT

 Giao diện khởi chạy SQL Server Data Tool treen Visual Studio 2017

Hình 2-11 Màn hình chính của ứng dụng

2.4.2.2 Các thức triển khai phần mềm

B1 Sau khi đã vào được Visual Studio 2017, chúng ta chọn thẻ File trên thanh công cụ, tiếp theo chọn New → Project hoặc có thể nhấn tổ hợp phím Ctrl + Shift + N

Hình 2-12 Tạo mới một dữ án để thực hiện

B2 Sau khi tạo thành công một dự án mới, sẽ xuất hiện lên hộp thoại, tại đây chọn

Analysis Services bên cột đầu tiên bên trái và chọn tiếp Analysis Services Multidimensional and Data Mining Project

Hình 2-13 Hộp thoại lựa chọn các công cụ trong Visual Studio

Hình 2-14 Hộp thoại nhập thông tin cho dự án

B4 Sau khi hoàn thành các bước khởi tạo Project, chúng ta sẽ thấy được một màn hình chính Tiếp theo chọn thẻ Solution Explorer ở phía bên phải màn hình

Hình 2-15 Triển khai dự án mới

B5 Tiếp theo chọn Data Source, phải chuột vào chọn tiếp New Data Source, sau đó sẽ hiện lên hộp thoại Data Source Wizard Trong đó, tìm mục và chọn “Create a data source based on an existing or new connection” và chọn New

Hình 2-16 Hộp thoại tạo kết nối dữ liệu mới

B6 Sau đó, sẽ hiện lên hộp thoại Connection Manager, bên dưới tại Provider chọn “Native OLE DB\SQL Server Native Client 11.0”, theo sau đó chọn phương thức đăng nhập vào CSDL tại khung Log on the server: “Windows Authentication” và “SQL Server Authentication”, sau khi đa chọn được phương thức kết nối sẽ đến DB tại khung Connect to a database, chọn tên CSDL và chọn

Hình 2-17 Hộp thoại kết nối với CSDL

B7 Sau đó sẽ hiện lên giao diện chính với tên Data Source đã thêm hiện lên cửa sổ Solution Explorer

Hình 2-18 Giao diện màn hình chính sau khi thêm Data Source

ỨNG DỤNG PHẦN MỀM SQL SERVER DATA TOOL

Giới thiệu về bộ dữ liệu được sử dụng

Để thực thi việc ứng dụng phần mềm SQL Data Tool vào quá trình khai phá dữ liệu dể tìm ra những quy luật, những hướng nhu cầu về việc mua xe đạp của khách hàng đến với Công Ty TNHH FORNIX, và thống kê nhóm các khách hàng mua xe dạp ở các khu vực mà công ty có đại lý ủy quyền trên phạm vi các châu lục Bộ dữ liệu của chúng em chứng những thông tin về các thông tin liên quan đến việc mua xe đạp thể thao cùng với các trang thiết bị kèm theo và thống kê số lượng khách hàng có ý định mua xep đạp địa hình của công ty với các yếu tố cơ bản như: khoảng cách đến nơi làm việc, số lượng con cái trong gia đình, trình trạng hôn nhân, giới tính của khách hàng,

…, các đơn mua hàng và chi tiết đơn hàng với những khách hàng đã mua xe đạp với các trang thiết bị kèm theo (nếu có) Bộ dữ liệu chúng em bao gồm các bảng:

 Bảng khách hàng tiềm năng (Prospective Buyer)

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

Mã khóa của khách hàng tiềm năng

Mã khóa thay thế của khách hàng tiềm năng

3 FirstName Tên khách hàng Nvarchar

5 Last Name Họ khách hàng Nvarchar

6 BirthDay Ngày tháng năm sinh Datetime

7 MaritalStatus Trình trạng hôn nhân Nchar

9 EmailAddress Địa chỉ Email Nvarchar

10 YearlyIncome Thu nhập hằng năm Money

11 TotalChildren Tổng những đứa trẻ có quan hệ với khách hàng

Số trẻ em tại nhà Tinyint

15 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

17 AddressLine1 Địa chỉ thứ 1 Nvarchar

18 AddressLine2 Địa chỉ thứ 2 Nvarchar

21 PhoneNumber Số điện thoại Nvarchar

22 PostalCode Mã bưu điện Nvarchar

23 Salutation Cách xưng hô Nvarchar

24 Unknown Chưa xác định Int

Bảng 3-3 Bảng mô tả dữ liệu của khách hàng tiềm năng (Prospective Buyer)

 Bảng đối tượng chào hàng (Target Mail)

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Customer Key Mã khóa của khách hàng Int

2 Geography Key Mã loại vùng quốc gia Nvarchar

Mã khóa thay thế của khách hàng

4 FirstName Tên khách hàng Nvarchar

6 Last Name Họ khách hàng Nvarchar

7 BirthDay Ngày tháng năm sinh Datetime

8 MaritalStatus Trình trạng hôn nhân Nchar

12 TotalChildren Tổng những đứa trẻ có quan hệ với khách hàng

Số trẻ em tại nhà Tinyint

16 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

18 AddressLine1 Địa chỉ thứ 1 Nvarchar

19 PhoneNumber Số điện thoại Nvarchar

Ngày mua hàng lần đầu tiên Datetime

Khoảng cách đến nơi làm việc Nvarchar

22 Region Vùng của quốc gia Nvarchar

23 Bike Buyer Quyết định mua xe đạp Nchar

Bảng 3-4 Bảng mô tả dữ liêu của đối tượng chào hàng (Target mail)

 Bảng thông tin đặt hàng

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Order Number Đơn đặt hàng Nchar

2 Customer Key Mã khách hàng Nvarchar

3 Region Vùng quốc gia Nvarchar

4 Income Group Nhóm thu nhập Nvarchar

Bảng 3-5 Bảng mô tả dữ liệu của thông tin đặt hàng (Associate Sequence Orders)

 Bảng chi tiết đơn đặt hàng

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Order Number Đơn đặt hàng Nchar

2 Line number Số thứ tự trong phiếu đặt hàng Nvarchar

3 Model Mẫu sản phẩm Nvarchar

Bảng 3-6 Bảng mô tả dữ liệu của thông tin chi tiết đơn mua hàng (Associate Sequence Line Items)

 Một phần dữ liệu mẫu của từng bảng

- Dữ liệu bảng chi tiết đơn mua hàng:

Hình 3-19 Dữ liệu mẫu của bảng chi tiết đơn mua hàng

- Dữ liệu mẫu bảng đơn mua hàng:

Hình 3-20 Dữ liệu mẫu của bảng đơn mua hàng

- Dữ liệu mẫu bảng đối tượng chào hàng:

Hình 3-21 Dữ liệu mẫu cảu bảng đối tượng chào hàng

- Dữ liệu mẫu của bảng khách hàng tìm năng

Hình 3-22 Dữ liệu mẫu mô tả bảng khách hàng tiềm năng

Giai đoạn tiền xử lý dữ liệu

3.2.1 Tiền xử lý dữ liệu tại bảng khách hàng tiềm năng

Do bảng dữ liệu mẫu này, có nhiều các cột có giả trị null và không Nên chúng em sẽ dùng Filtering Attributes (Chọn các thuộc tính phù hợp với mô hình) để lược bỏ đi những thuộc tính có giá trị null hoặc không Để bộ dữ liệu về khách hàng tiềm năng trở nên chính xác hơn trong quá trình khởi chạy các thuật toán liên quan Với các giá tri được giữ lại sau khi sàn lọc lược bỏ và bảng mô tả dữ liệu khách hàng tiềm năng sẽ như Bảng 3 -7

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

Mã khóa của khách hàng tiềm năng

2 FirstName Tên khách hàng Nvarchar

4 Last Name Họ khách hàng Nvarchar

5 BirthDay Ngày tháng năm sinh Datetime

6 MaritalStatus Trình trạng hôn nhân Nchar

8 EmailAddress Địa chỉ Email Nvarchar

9 YearlyIncome Thu nhập hằng năm Money

10 TotalChildren Tổng những đứa trẻ có quan hệ Tinyint

14 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

16 AddressLine1 Địa chỉ thứ 1 Nvarchar

Bảng 3-7 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính

3.2.2 Tiền xử lý dữ liệu tại bảng đối tượng chào hàng

Với bảng đối tượng chào hàng, có một số các thuộc tính có thể dâu nặng cho bộ dữ liệu và làm cho thời gian chạy các thuật toán diễn ra với thời gian lâu hơn Hoặc có thể đưa ra các quy luật không có tính đúng đắn để áp dụng so với thực tế của Công ty, từ đó gây nên những khó khan trong quá trình gửi email đến các đối tượng có nhu cầu mua hàng, dẫn dến việc tăng doanh thu bị chững lại Với các thuộc tính được giữ lại sẽ như Bảng 3 -8

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Customer Key Mã khóa của khách hàng Int

2 FirstName Tên khách hàng Nvarchar

3 Last Name Họ khách hàng Nvarchar

4 BirthDay Ngày tháng năm sinh Datetime

5 MaritalStatus Trình trạng hôn nhân Nchar

7 EmailAddress Địa chỉ Email Nvarchar

8 YearlyIncome Thu nhập hằng năm Money

9 TotalChildren Tổng những đứa trẻ có quan hệ với khách hàng

Số trẻ em tại nhà Tinyint

13 HouseOwnerFlag Số nhà sở hữu Nchar

Số lượng xe sở hữu Tinyint

15 AddressLine1 Địa chỉ thứ 1 Nvarchar

16 PhoneNumber Số điện thoại Nvarchar

Ngày mua hàng lần đầu tiên Datetime

Khoảng cách đến nơi làm việc Nvarchar

19 Region Vùng của quốc gia Nvarchar

20 Bike Buyer Quyết định mua xe đạp Nchar

Bảng 3-8 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính của bảng đối tượng chào hàng

Triển khai thuật toán cây ra quyết định (Decision Tree Algorithm)

3.3.1 Khởi chạy thuật toán cây ra quyết định trên SQL Server Data Tool Để tiến hành khởi chạy thuật toán, SSDT bắt buộc chúng ta phải khởi tạo khung nhìn dữ liệu nguồn Chúng ta có thể dựa vào khung nhìn dữ liệu nguồn (Data Source View) để tại nên các cấu trúc khai phá dữ liệu hoặc có thể thêm các cột vào bảng, tổng hợp, tính toán các thông tin bên trong bộ dữ liệu.

Bằng cách sử dụng chế dộ khung nhìn dữ liệu nguồn, chúng ta có thể lựa chọn được cái dữ liệu mà liên quan đến thuật toán mình sẽ sử dụng và hơn thế nữa như là thay đổi cấu trúc bảng, chỉnh sửa các mối quan hệ giữa các bảng mà không bị thay đổi cấu trúc ban đầu của CSDL.

 Các thao tác tạo khung nhìn dữ liệu nguồn

B1 Tại khung cửa sổ Solution Explorer, phải chuột vào Data Source Views, và chọn New Data Source View Sau đó hiện lên cửa sổ Data Source View Wizard, chọn Data Source đã tạo như Hình 2 -18, tiếp theo chọn Next

Hình 3-23 Thao tác khởi tạo Data Source View

B2 Sau đó hiện lên hộp thoại Select Tables and Views, tại đây chúng ta có thể lựa chọn các đối tượng – các thực thể, các khung nhìn và chọn vào nút “ > ” để di chuyển một đối tượng qua khung Included Objects, chọn “ >> ” Ngoài ra, chúng ta còn có thể tìm kiếm tên các đối tượng tại ô tìm kiếm Filter để tìm kiếm nhanh các đối tượng mà ta mong muốn Và chọn Next Để phục vụ chon nhu cầu khởi chạy thuật toán “Cây ra quyết định” của bộ dữ liệu mẫu, nhóm chúng em sẽ lựa chọn các đối tượng có sẵn như:

 vTarget Mail (khung nhìn về đối tượng chào hàng)

 ProspectiveBuyer ( Bảng về khách hàng có tiềm năng mua xe đạp) Nhằm tìm kiếm ra các ảnh hưởng của những thuộc tính có tác động đến việc chọn mua hay không chọn mua xe đạp từ đó các nhân viên trong bộ phận bán hàng có thể gửi thư chào hàng đến các khách hàng có nhu cầu mua hàng.

B3 Sau khi đã lựa chọn xong các đối tượng cần thiết, sẽ hiển thị lên hộp thoại

Completing the Wizard, tại đây chúng ta sẽ thay đổi tên của Data Source View và chọn Finish

Hình 3-24 Tìm kiếm và lựa chọn các đối tượng cần thiết cho quá trình chạy thuật toán

 Các thao tác tạo cấu trúc khai phá

B1 Tại Solution Explore, chọn Mining Structures, phải chuột chọn New Mining Structure, hộp thoại Select the Definition Method hiện lên và chọn tiếp “From existing relational database or data warehourse”, và chọn Next

Hình 3-26 Hộp thoại lựa chọn phương thức để khai báo cấu trúc

B2 Hộp thoại Create the Data Mining Structure, tại đây chúng ta lựa chọn phương thức khai phá dữ liệu ở bên đưới Đễ chạy thuật toán cây ra quyết định này, chúng em lựa chọn Mircosoft Decision Trees và chọn Next

Hình 3-27 Lựa chọn thuật toán cần được sử dụng

B3 Hộp thoại Select Data Source View hiện lên, tại đây chúng ta chọn Data Source View mà chúng ta sẽ chọn Data Source View đa tạo từ trước Sau đó chọn Next

Hình 3-28 Lựa chọn Data Source View cần cho quá trình khai phá

B4 Tại bước này chúng ta, lựa chọn thuộc tính Case tại vTargetMail, và chọn

B5 Hiện lên hộp thoại Specify the Training Data và lựa chọn thuộc tính khóa (Key) là Customer Key, và thuộc tính dự đoán (Predictable) là Biker Buyer Sau đó truyền vào các dữ liệu (Input):

 CommuteDistance (Khoảng cách đến nơi làm việc)

 EnglishEducation (Trình độ học vấn)

 HouseOwnerFlag (Số nhà sỡ hữu)

 MaritalStatus (Trình trạng hôn nhân)

 NumberCarsOwned (Số lượng xe sở hữu)

 NumberChildrenAtHome (số lượng trẻ em tại nhà)

 TotalChildren (Tổng số trẻ em trong gia đình)

 YearlyIncome (Thu nhập hằng năm)

Và truyền vào các thuộc tính đầu vào thêm như:

 DateFirstPurchase (Ngày thanh toán đầu tiên)

Hình 3-29 Hộp thoại truyền vào các thuộc tính trên Data Source View

B6 Tiếp theo, hộp thoại lựa chọn các giá trị các cột cùng với các loại dữ liệu, tại đây chúng ta có thể lựa chọn các kiểu dữ liệu – mà có thể chạy ra thuật toán Hoặc có thể chọn Detect để hệ thống tự động chỉnh Và chọn Next để qua bước tiếp theo

Hình 3-30 Hộp thoại chỉnh sửa các thuộc tính của CSDL

B7 Sau đó lựa chọn phần trăm dữ liệu để thực nghiệm (Percentage of data for testing) = 30% và số lượng lớn nhất các trường hợp để thực nghiệm trong bộ dữ liệu (Maximum Number of cases in testing data set) = 1000, sau đó chọn Next

B8 Sau khi nhấn Next ở B7 Tiếp theo sẽ hiện lên hộp thoại Completing the

Wizard tại đây bao gồm 2 khung: Mining Structure Name và Mining Model

Name Chúng ta sẽ điền tên của từng thuộc tính và chọn vào ô Allow drill through để có thể xuyên qua các cấu trúc khác để lấy thêm dữ liệu khi cần thiết, sau đó chọn Finish Ngay sau đó chúng ta đã có một Mining Structure với tên là chúng ta đã đặt ở thẻ Mining Structure trong Solution Explorer

Hình 3-31 Hộp thoai đặt tên cấu trúc khai phá và tên của mẫu khai phá

B9 Nháy đúp vào tên của cấu trúc khai phá đã được đặt ở B8 Sẽ hiển thị lên cửa số

“v Target Mail.dmm” Ở đây có các thẻ chứa thông tin như: Mining Structure,

Mining Model, Mining Model Viewer, Mining Accuracy Chart, Mining Model Prediction Và chúng ta chọn thẻ Mining Model, ở đây sẽ hiển thị lên cấu trúc mà ta đã khởi tạo với các tham số truyền vào, dữ liệu khóa, tham số dự đoán. Chúng ta phải chuột và chọn Process Mining Structure And All Model Chúng ta sẽ chọn Run, để thực hiện thuật toán.

Hình 3-32 Quá trình lựa chọn và khởi chạy cấu trúc khai phá (1)

Hình 3-33 Quá trình lựa chọn và khởi chạy cấu trúc khai phá (2)

3.3.2 Kết quả của thuật toán cây ra quyết định

Sau khi đã thực hiện các thao tác khởi chạy trên thuật toán, tại đây chúng ta sẽ được xem kết quả của quá trình khởi chạy thuật toán Bằng việc chọn vào thẻ Mining

Model Viewer Với các thuộc tính:

 Tree: Bike Buyer (Giá trị dự đoán)

 Background: 1 (Người mua xe) – 0 (Người không mua xe)

Với gam màu xanh dương từ nhạt tới đậm biểu thị tỉ lệ người mua – không mua xe đạp trong cây Màu xanh càng đậm có nghĩa là tỉ trọng ngườin mua xe càng cao và thanh màu xanh nhạt trong từng các lá biểu hiện cho phần trăm các khách hàng không có nhu cầu mua xe và màu hồng ứng với số người mua xe.

Triển khai thuật toán kết hợp (Associate Algorithm)

Bộ phận bán hàng của công ty TNHH FORNIX muốn tìm hiểu về khả năng mua sản phẩm do công ty cung cấp bằng cách cải thiện WebSite của trang bán hàng sao cho có thể gợi ý những mặt hàng mà người mua hay mua kèm theo trong lần mua hàng Một phần của việc cập nhật là bộ phận bán hàng muốn biết khả năng mua sản phẩm này rồi mua thêm sản phẩm khác, dựa trên những số liệu trong hệ thống CSDL bán hàng của công ty Đễ thiết kế lại trang web với các mặt hàng thường được mua chung với nhau thành từng nhóm.

Thông qua luật kết hợp, chúng ta có thể biết được những sản phẩm có thể được mua cùng nhau trong quá trình bán hàng tại các đại lý của công ty từ đó có thể cải thiện được các gian hàng trong đại lý nhằm tang doanh số trong quá trình kinh doanh.

3.4.1 Khởi chạy thuật toán kết hợp trên SQL Server Data Tool

B1 Tại khung cửa sổ Solution Explorer, phải chuột vào Data Source Views, và chọn New Data Source View Sau đó hiện lên cửa sổ Data Source View Wizard, chọn Data Source đã tạo như Hình 2 -18, tiếp theo chọn Next

B2 Tại hộp thoại Select Tables and Views, chọn các bảng và sau đó nhấn nút chuyển hướng để các bảng được chọn di chuyển qua khung Included Objects Các bảng bao gồm:

Sau đó chọn Next, hộp thoại Completing the Wizard hiện lên để cho phép đặt tên cho khung nhìn như hình Hình 3 -25

B3 Khởi tạo cấu trúc khai phá, bằng cách phải chuột vào Mining Structure và chọn New Mining Structure Sau đó, hiện lên hộp thoại Select the Definition Method, chọn Form existing relational database or data warehouse và chọn Next như hình Hình 3 -26

B4 Hộp thoại Create the Data Mining Structure, bên dưới Which data mining technique do you want to use? Chúng ta lựa chọn Microsoft Association Rule trong danh sách và chọn Next

Hình 3-37 Giao diện lựa chọn thuật toán

B5 Tại trang Select Data Source View, chọn data source view mà ta vừa khởi tạo, sau đó chọn Next

B6 Trang Specify Table Types, bên dưới Input Tables:

 vAssocSeqLineItems: Nested (điều kiện lồng) và chọn Next

Hình 3-38 Xác định dư liệu đầu vào cho quá trình chạy thuật toán

B7 Lựa chọn các giá trị khóa, giá trị đầu vào và giá trị dự đoán tại trang Specify the Training Data với các giá trị như Hình 3 -39 và chọn Next

Hình 3-39 Các dữ liệu được đưa vào trong quá trình chạy thuật toán

B8 Tại trang Create testing set, với giá trị mặc định của lựa chọn Percentage of data for testing với giá trị 30, chúng ta thay đổi bằng “0” và chọn Next

Hình 3-40 Lựa chọn giá trị số lượng trường hợp test cho thuật toán

B9 Tiến hành đặt tên của Mining structure name và Mining model name, sau đó chọn Finish, thực hiên với thao tác như Hình 3 -31

B10 Thiết lập các giá trị thuộc tính kèm theo trong cấu trúc với:

Hình 3-41 Thêm các tham số cho thuật toán Association rule

B11 Tiến hành khởi chạy cấu trúc khai phá bằng cách cách nháy đúp chuột vào tên cấu trúc đã tạo (Association.dmm) chọn Process Model

3.4.2 Kết quả của thuật toán kết hợp

Sau khi xử lý các trường hợp của thuật toán, chúng ta vào Mining Model Viewer để xem được kếy quả của quá trình vừa chạy Tại đây có 3 thẻ thành phần: Rules,

Taị thẻ này, chúng ta có thể điều chỉnh được độ hỗ trợ tối thiểu ( Minimum Support), số lượng các Itemset tối thiểu (Minimum Itemset Size) Ngoài điều chỉnh những tham số của thuật toán, tại đây còn cho phép chúng ta có thể lọc theo tên của Itemsets

Với Mỗi Itemset sẽ gồm có:

 Support: là số lần xuất hiện trong các giao dịch đã xãy ra

Size: số lượng các sản phẩm trong một Itemset

Hình 3-42 Thông tin của từng Itemset

Chúng ta có thể xem chi tiết của từng item bằng cách cho phép xuyên qua các cấu trúc để lấ được thông tin đơn đặt hàng, nhóm thu nhập, vùng và sản phẩm đi kèm theo trong quá trình mua item

Hình 3-43 Thông tin chi tiết của từng Item

Tại đây chứa thuộc tính của 3 cột:

 Probability: xác suất mua mặt hàng A và kéo theo mặt hàng B

 Importance: mức độ hữu dụng của quy luật, với mức độ hữu dụng càng cao thì quy luật càng đúng

 Rule: quy tắc mô tả sự kết hợp cụ thể giữa các mặt hàng

Với danh sách các luật đã được SSDT tính toán, và đưa ra với xác suất xảy ra được sắp xếp giảm dần.

Hình 3-44 Các quy luật do luật kết hợp tìm thấy

Không chỉ xem được các quy luật mà chúng ta còn có thể xem được những thông tin chi tiết của những sản phẩm trong quy luật đó như là thông tin đơn hàng, phân loại của thu nhập và vùng đất nước bằng cách chọn quy luật muốn xem chi tiếp, phải chuột chọn Drill Through → Model and Structure Column

Hình 3-45 Thông tin chi tiết của quy luật được chọn

Không những xem chi tiết bằng Drill Through mà ở SSDT, chúng ta còn có thể xác định thuật toán bằng Microsoft Generic Content Tree Viewer tại Viewer.

Tại giao thức này, chúng ta dễ dàng xác định được được cái quy luật về việc mua hàng bằng cách:

 Kéo thanh trượt đến cuối danh sách Node Caption, tại đây chứa đựng các quy luật và dần trở lên trên chứa đựng cái Item trong Itemset

 Với quy định được mặc định trong SSDT, trong Node Detail phần

NODE_TYPE = 8 (Association Rule) và NODE_TYPE = 7 (Itemset) và với mỗi quy luật được đưa ra, sẽ có một NODE_CAPTION để mô tả những sản phẩm nào dẫn đến sản phẩm khác trong quá trình mua hàng của khách hàng Với Itemset thì NODE_CAPTION rỗng

Hình 3-46 Node Detail của một Itemset

Hình 3-47 Node Detail của một Rule

3.4.3 Kết luận của thuật toán

Thông qua quá trình thực hiện thuật toán, chúng em rút ra được những quy luật về những thói quen mua hàng của khách hàng trong quá trình cửa hàng, đại lý ủy quyền kinh doanh như là:

Khi khách hàng đã thêm hàng vào giỏ trong trang mua hàng trực tuyến hoặc khách hàng mua hàng trực tiếp tại cửa hàng thì thường xãy ra:

 Mua bộ chắn bùn (Fender Set – Mountain) → mua thêm khung chai đựng nước (Mountain Bottle Cage)

 Mua bộ dụng cụ vá xe (patch kit) → lốp và săm xe (Road tire tube)

 Mua lốp xe (Touring Tire) → dụng cụ vá xe (Patch Kit)

 Mua đồ thể thao ngắn cho nữ (Women’s Mountain Shorts) → Nón lưỡi trai (Cycling Cap)

 Mua áo Jersey tay dài (Long – Sleeve Logo Jersey) → Nón lưỡi trai (Cycling Cap)

 Mua xe Sport – 100 → mua lốp và săm xe (Road Tire Tube)

 Mua xe Sport – 100 → mua thêm chai đựng nước uống (Water Bottle)

 Mua xe Mountain – 200 → mua thêm bộ công cụ vá xe dạp (Patch Kit)

Với các phụ kiện, trang thiết bị và các loại xe đạp thường được mua chung với nhau, từ đó bộ phận bán hàng của công ty sẽ sắp xếp ccác nhóm sản phẩm thường được mua lại mới nhau và cập nhật các nhóm hàng trên Website để khách hàng dễ dàng chọn mua các nhóm sản phẩm.

Triển khai thuật toán phân cụm (Clustering Algorithm)

Thông quan thuật toán này, chúng ta có thể biết được các sản phầm nào sẽ được gom chung với nhau trong quá trình mua bán sản phẩm của công ty và được phân theo từng vùng của quốc gia (Region).

3.5.1 Khởi chạy thuật toán phân cụm trên SQL Server Data Tool

B1 Để tiến hành khởi chạy thuật toán, công việc đầu tiên của chsung ta là tiến hành tạo mới một Mining Structure (Cấu trúc khai phá) bằng cách phải chuột vào

Mining Structure trong thẻ Solution Explorer và chọn New Mining Structure

Hình 3-48 Khởi tạo một cấu trúc khai phá mới - Clustering by Region.dmm

B2 Tại trang Welcome to the Data Mining Wizard, chọn Next Sau đó tại trang

Select the Definition Method lựa chọn thuộc tính From existing relational database or data warehouse, chọn Next sau đó.

B3 Tiếp đến, tại trang Create the Data Mining Structure, lựa chọn Microsoft

Clustering trong phần drop down list của Which data mining technique do you want to use? Và chọn Next

Trang Select Data Source View xuất hiện, bên dưới Available data source Views, lựa chọn Data Source View tên Orders

Hình 3-49 Hộp thoại chọn lựa cấu trúc khai phá

B4 Tại trang Specify Table Types, chọn Nested cho bảng vAssocSeqLineItems và chọn Case cho bảng vAssocSeqOrders, và chọn Next

Hình 3-50 Hộp thoại xác định từng loại cua các bảng trong Mining Structure

B5 Lựa chọn các thuộc tính khóa, đầu vào dữ liệu và thuộc tính dự đoán cho thuật toán:

Với các kiểu dữ liệu của các thuộc tính như Hình 3 -51

Hình 3-51 Kiểu dữ liệu của các thuộc tính trong các bảng thành phần

B6 Với trang Create Setting Set, lựa chọn giá trị Percentage of data for testing:

B7 Trang Completing the Wizard hiện lên, với Mining structure name và Mining model name với tên Clustering of Region và chọn vào ô Allow drill through, sau đó chọn Finish.

B8 Sau đó, chúng ta chọn mục Clustering of Region.dmm trong hộp thoại Solution Explorer Clustering of Region Và chọn phải chuột vào tên cấu trúc đã tạo, tiếp theo chọn Process Mining Structure and All Model, chọn Run trong hộp thoại hiện lên

Hình 3-53 Khởi chạy cấu trúc khai phá trên SSDT với thuật toán gom cụm

3.5.2 Kết quả của thuật toán gom cụm

Hình 3-54 Sơ đồ tác động giữa quạn hệ các cụm

Tại thuật toán này, sẽ hiển thị lên từng phân loại kết quả với các thẻ tương ứng như:

Với những thẻ khách nhau, sẽ hiển thị những thông tin dữ liệu liên quan đến thẻ đó, và tất cả chúng đều có mối liên kết với nhau nhưng mỗi thẻ lại thể hiện cho ta thấy về những dạng biểu diễn trong dữ liệu sau khi chạy thuật toán

- Các cụm được phân chia độc lập với nhau Tại Strongest link càng thấp thì sự liên kết giữ các cụm càng rời rạc Nghĩa là ở đó, sự phụ thuộc giữa cụm A và cụm B rất nhỏ và chỉ hiên thị khi dộ phụ thuộc cao.

- Với Shading Variable: hiển thị thông tin nhóm cụm Thông tin tổng quát của cụm bao gồm tất cà các cụm

- State: lựa chọn thuộc tính để xác định các cụm, cụm nào chứa nhiều dữ liệu lựa chọn trong tất các các cụm của điều kiệu Shading Variable thì sẽ có màu xanh đậm, ngườc lại màu sắc sẽ bị giảm dần

Hình 3-56 Giao diện của thẻ Cluster Profiles

Tại đây chúng ta có thể xem trình tự phổ biến của các thuộc tính trong cụm bằng cách:

- Lựa chọn vào một thuộc tính bên trong khung hiển thị: tại cột Population, lựa chọn thuộc tính Model.Samples, hiển thị lên một danh sách với các sản phẩm trong danh sách được sắp xếp theo thứ tự Chọn vào Pacific Cluster, sẽ hiển thị danh sách các nhóm sản phẩm đi cùng nhau được sắp xếp theo mức độ phổ biến của nhóm sản phẩm

Hình 3-57 Nhóm các sản phẩm phổ biến trong cụm

- Nhấn vào tab Cluster Characteristics (Đặc điểm cụm) để xem mô hình khai phá của mỗi cụm

- Cột Probability (xác suất) thể hiện khả năng xảy ra của các khoảng giá trị đó trong thực tế của bộ dữ liệu.

Hình 3-58 Thông tin của cụm được thể hiện trong thẻ Cluster Characterisics

Tại đây, chúng ta có thể phân biết khả năng và những điểm khác nhau giữa các đối tượng bất kì trong hai nhóm phân loại khác nhau Từ đó có thể nhận định chính xác hơn về các đối tượng trong cụm đó.

Hình 3-59 So sánh các cụm với nhau trong thuật toán phân lớp

Tại đây thể hiện xác xuất khi mua các sản phẩm của công ty, với những tên sản phẩm kèm thèo xác xuất mua và mối quan hệ giữ các sản phẩm này với sản phẩm khác và xác xuất mua chung giữa chúng với nhau.

Hình 3-60 Lược đề thể hiện xác suất và mối quan hệ giữa các sản phẩm với nhau

3.5.3 Kết luận của thuật toán

Thông qua thuật toán này, giúp các nhà quản lý có thể nắm bắt được nhu cầu mua xe đạp và các trang thiết bị trong quá trình mua sắm của các khách hàng Với những khách hàng có thu nhập thấp sẽ mua về những món hàng nào và nhữung khách hàng với nhóm thu nhập cao hơn sẽ mua những hàng hóa, sản phẩm nào theo từng vùng địa lý riêng biệt mà có thể đưa ra những chiến lước quảng bá, quảng cáo các loại xe đạp và trang thiết bị cho phù hợp

Ngày đăng: 06/12/2022, 06:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w