CHƯƠNG 3 : ỨNG DỤNG PHẦN MỀM SQLSERVER DATA TOOL
3.2. Giai đoạn tiền xử lý dữ liệu
3.2.1Tiền xử lý dữ liệu tại bảng khách hàng tiềm năng
Do bảng dữ liệu mẫu này, có nhiều các cột có giả trị null và khơng. Nên chúng em sẽ dùng Filtering Attributes (Chọn các thuộc tính phù hợp với mơ hình) để lược bỏ đi những thuộc tính có giá trị null hoặc khơng. Để bộ dữ liệu về khách hàng tiềm năng trở nên chính xác hơn trong q trình khởi chạy các thuật tốn liên quan. Với các giá tri được giữ lại sau khi sàn lọc lược bỏ và bảng mô tả dữ liệu khách hàng tiềm năng sẽ như Bảng 3 -7
STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu
1 Prospective BuyerKey
Mã khóa của khách hàng tiềm năng
Int
2 FirstName Tên khách hàng Nvarchar
3 MiddleName Họ lót Nvarchar
4 Last Name Họ khách hàng Nvarchar
5 BirthDay Ngày tháng năm sinh Datetime
6 MaritalStatus Trình trạng hơn nhân Nchar
7 Gender Giới tính Nvarchar
8 EmailAddress Địa chỉ Email Nvarchar
9 YearlyIncome Thu nhập hằng năm Money
10 TotalChildren Tổng những đứa trẻ có quan hệ Tinyint
74 606 607 608 609 610 611 612 613 614 615
Ứng dụng Sql Server Data Tool vào khai phá dữ liệu bán hàng tại Công Ty TNHH FORNIX
At Home
12 Education Học vấn Nvarchar 13 Occupation Nghề nghiệp Nvarchar 14 HouseOwnerFlag Số nhà sở hữu Nchar 15 Number Car
Owned
Số lượng xe sở hữu Tinyint 16 AddressLine1 Địa chỉ thứ 1 Nvarchar
17 City Thành phố Nvarchar
Bảng 3-7 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính
3.2.2Tiền xử lý dữ liệu tại bảng đối tượng chào hàng
Với bảng đối tượng chào hàng, có một số các thuộc tính có thể dâu nặng cho bộ dữ liệu và làm cho thời gian chạy các thuật toán diễn ra với thời gian lâu hơn. Hoặc có thể đưa ra các quy luật khơng có tính đúng đắn để áp dụng so với thực tế của Cơng ty, từ đó gây nên những khó khan trong q trình gửi email đến các đối tượng có nhu cầu mua hàng, dẫn dến việc tăng doanh thu bị chững lại. Với các thuộc tính được giữ lại sẽ như Bảng 3 -8
STT Tên dữ liệu Tên tiếng Việt Kiểu dữ liệu
1 Customer Key Mã khóa của khách hàng Int 2 FirstName Tên khách hàng Nvarchar 3 Last Name Họ khách hàng Nvarchar 4 BirthDay Ngày tháng năm sinh Datetime 5 MaritalStatus Trình trạng hơn nhân Nchar 6 Gender Giới tính Nvarchar 7 EmailAddress Địa chỉ Email Nvarchar 8 YearlyIncome Thu nhập hằng năm Money 9 TotalChildren Tổng những đứa trẻ có quan hệ
với khách hàng Tinyint 10 NumberChildren At Home Số trẻ em tại nhà Tinyint 11 Education Học vấn Nvarchar 12 Occupation Nghề nghiệp Nvarchar
75 76 616 617 618 619 620 621 622 623
13 HouseOwnerFlag Số nhà sở hữu Nchar 14 Number Car
Owned
Số lượng xe sở hữu Tinyint 15 AddressLine1 Địa chỉ thứ 1 Nvarchar 16 PhoneNumber Số điện thoại Nvarchar 17 Date First
Purchase
Ngày mua hàng lần đầu tiên Datetime 18 Commute
Distance
Khoảng cách đến nơi làm việc Nvarchar 19 Region Vùng của quốc gia Nvarchar 20 Bike Buyer Quyết định mua xe đạp Nchar
Bảng 3-8 Bảng mô tả dữ liệu sau khi lược bỏ các thuộc tính của bảng đối tượng chào hàng