Giai đoạn tiền xử lý dữ liệu

Một phần của tài liệu ỨNG DỤNG PHẦN mềm SQL SERVER DATA TOOL THỰC HIỆN KHAI PHÁ dữ LIỆU tại CÔNG TY TNHH FORNIX (Trang 40 - 42)

CHƯƠNG 3 : ỨNG DỤNG PHẦN MỀM SQLSERVER DATA TOOL

3.2. Giai đoạn tiền xử lý dữ liệu

3.2.1Tiền xử lý dữ liệu tại bảng khách hàng tiềm năng

Do bảng dữ liệu mẫu này, có nhiều các cột có giả trị null và khơng. Nên chúng em sẽ dùng Filtering Attributes (Chọn các thuộc tính phù hợp với mơ hình) để lược bỏ đi những thuộc tính có giá trị null hoặc khơng. Để bộ dữ liệu về khách hàng tiềm năng trở nên chính xác hơn trong q trình khởi chạy các thuật tốn liên quan. Với các giá tri được giữ lại sau khi sàn lọc lược bỏ và bảng mô tả dữ liệu khách hàng tiềm năng sẽ như Bảng 3 -7

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Prospective BuyerKey

Mã khóa của khách hàng tiềm năng

Int

2 FirstName Tên khách hàng Nvarchar

3 MiddleName Họ lót Nvarchar

4 Last Name Họ khách hàng Nvarchar

5 BirthDay Ngày tháng năm sinh Datetime

6 MaritalStatus Trình trạng hơn nhân Nchar

7 Gender Giới tính Nvarchar

8 EmailAddress Địa chỉ Email Nvarchar

9 YearlyIncome Thu nhập hằng năm Money

10 TotalChildren Tổng những đứa trẻ có quan hệ Tinyint

74 606 607 608 609 610 611 612 613 614 615

Ứng dụng Sql Server Data Tool vào khai phá dữ liệu bán hàng tại Công Ty TNHH FORNIX

At Home

12 Education Học vấn Nvarchar 13 Occupation Nghề nghiệp Nvarchar 14 HouseOwnerFlag Số nhà sở hữu Nchar 15 Number Car

Owned

Số lượng xe sở hữu Tinyint 16 AddressLine1 Địa chỉ thứ 1 Nvarchar

17 City Thành phố Nvarchar

Bảng 3-7 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính

3.2.2Tiền xử lý dữ liệu tại bảng đối tượng chào hàng

Với bảng đối tượng chào hàng, có một số các thuộc tính có thể dâu nặng cho bộ dữ liệu và làm cho thời gian chạy các thuật toán diễn ra với thời gian lâu hơn. Hoặc có thể đưa ra các quy luật khơng có tính đúng đắn để áp dụng so với thực tế của Cơng ty, từ đó gây nên những khó khan trong q trình gửi email đến các đối tượng có nhu cầu mua hàng, dẫn dến việc tăng doanh thu bị chững lại. Với các thuộc tính được giữ lại sẽ như Bảng 3 -8

STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu

1 Customer Key Mã khóa của khách hàng Int 2 FirstName Tên khách hàng Nvarchar 3 Last Name Họ khách hàng Nvarchar 4 BirthDay Ngày tháng năm sinh Datetime 5 MaritalStatus Trình trạng hơn nhân Nchar 6 Gender Giới tính Nvarchar 7 EmailAddress Địa chỉ Email Nvarchar 8 YearlyIncome Thu nhập hằng năm Money 9 TotalChildren Tổng những đứa trẻ có quan hệ

với khách hàng Tinyint 10 NumberChildren At Home Số trẻ em tại nhà Tinyint 11 Education Học vấn Nvarchar 12 Occupation Nghề nghiệp Nvarchar

75 76 616 617 618 619 620 621 622 623

13 HouseOwnerFlag Số nhà sở hữu Nchar 14 Number Car

Owned

Số lượng xe sở hữu Tinyint 15 AddressLine1 Địa chỉ thứ 1 Nvarchar 16 PhoneNumber Số điện thoại Nvarchar 17 Date First

Purchase

Ngày mua hàng lần đầu tiên Datetime 18 Commute

Distance

Khoảng cách đến nơi làm việc Nvarchar 19 Region Vùng của quốc gia Nvarchar 20 Bike Buyer Quyết định mua xe đạp Nchar

Bảng 3-8 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính của bảng đối tượng chào hàng

Một phần của tài liệu ỨNG DỤNG PHẦN mềm SQL SERVER DATA TOOL THỰC HIỆN KHAI PHÁ dữ LIỆU tại CÔNG TY TNHH FORNIX (Trang 40 - 42)

Tải bản đầy đủ (PDF)

(77 trang)