III: Ứng dụng phần mềm khai phá dữ liệu Rapidminer vào quản lý khách hàng mua hàng của Công ty
3.3. Ứng dụng phân cụm dữ liệuvào quản lý khách hàng mua hàng
3.3.3. Tiền xử lý dữ liệu bài toán
Dựa trên đặc điểm của dữ liệu vào và để đảm bảo các yêu cầu về dữ liệu trong thuật toán K-means dùng để phân cụm dữ liệu trong phần mềm khai phá dữ liệu Rapidminer nghiên cứu tiến hành tiền xử lý dữ liệu trên một số thuộc tính sau:
Thuộc tính: Giá thành
Dựa vào thuộc tính Gia_thanh chia ra làm 3 khoảng của miền giá trị
- Gia_thanh > 50.000.000: tương ứng là 3: Khách hàng truyền thống.
- Còn lại Gia_thanh <= 10.000.000: tương ứng là 1: Khách hàng bình thường. Thuộc tính: Số lượng
Dựa vào thuộc tính So_luong chia ra làm 3 khoảng của miền giá trị
- So_luong > 10: tương ứng là 3: mua với số lượng nhiều.
- So_luong >3: tương ứng là 2: mua với số lượng vừa.
- Còn lại So_luong <= 3: tương ứng là 1: mua với số lượng ít.
Chuyển đổi kiều dữ liệu
Thay đổi các kiểu dữ liệu của thuộc tính từ integer, real sang kiểu polynominal. - Quá trình này được thực hiện như sau:
Tạo nơi lưu trữ dữ liệu: Khởi động RapidMiner -> New Process -> Repositories kích chọn biểu tượng như trong hình:
Hình 3.10: Tạo nơi lưu trữ dữ liệu
Chọn New local repository -> Next -> Use standard location -> Finish như hình dưới đây:
+ Chuẩn bị dữ liệu dulieukhachhang.csv ở mục Repositories kích chọn biểu tượng như hình:
Hình 3.12: Biểu tượng để đưa dữ liệu vào
+Chọn Import CSV file… chương trình sẽ yêu cầu chọn tập dữ liệu cần đưa vào, xuất hiện hình sau:
Hình 3.13: Chọn file cần đưa vào
+ Tiếp theo chọn Next. Chương trình sẽ yêu cầu cách thức các cột được phân
cách. Theo mặc định, Rapidminer tìm kiếm dấu chấm phẩy phân cách thuộc tính trong dữ liệu. Chúng ta phải thay đổi dấu phân cách và nhấp vào Comma trong hộp Column Separation, để có thể nhìn thấy mỗi thuộc tính một cách chính xác. Như hình sau:
+ Sau khi xem các cột cho các thuộc tính, kích chọn Next sẽ xuất hiện hình 3.14. Trong Rapidminer, mỗi thuộc tính có thể được chú thích. Chú thích quan trọng nhất của một thuộc tính là tên gọi của nó - một hàng với chú thích này định nghĩa tên của các thuộc tính.
Hình 3.15: Chú thích các thuộc tính
+ Tiếp tục nhấn Next. Trong bước này, có thể xác định các kiểu dữ liệu thuộc
tính. Hơn nữa, Rapidminer gán vai trị cho các thuộc tính, xác định những gì chúng ta có thể được sử dụng cho các operator. Những vai trị này cũng có thể được định nghĩa
ở đây. Cuối cùng, có thể đổi tên các thuộc tính hoặc bỏ chọn chúng hồn tồn như
hình sau:
Hình 3.17: Lưu tên cho kho dữ liệu
+ Cuối cùng chúng ta nhấn Finish để hoàn thành. Chúng ta có bảng CSDL của
khách hàng như hình 3.17.
Hình 3.18: Cơ sở dữ liệu khách hàng
Bây giờ chúng ta thiết lập các dữ liệu có sẵn để sử dụng trong Rapidminer. Để bắt đầu sử dụng nó trong q trình khai thác dữ liệu Rapidminer, chỉ cần kéo tập dữ liệu thả nó vào của sổ chương trình chính và chạy mơ hình để kiểm tra dữ liệu.
Hình 3.19: Đưa dữ liệu khách hàng vào chương trình chính
-Tiếp theo ta chia khoảng miền giá trị cho Giá thành và Số lượng. Ta thực hiện lệnh if
để tiến hành chia khoảng giá trị. Chọn Operate Attributes như hình sau:
Hình 3.20: Thực hiện câu lệnh if để chia miền giá trị cho Giá thành và Số lượng
Hình 3.21: Kết quả dữ liệu sau khi thực hiện chia miền dữ liệu
- Một bước nữa là cân thiết để chuẩn bị dữ liệu. Điều này là để thay đổi các kiểu dữ
liệu của thuộc tính lựa chọn từ integer thành polynominal. Chúng ta sẽ sử dụng là Numerical to Polynominal.
Hình 3.22: Kết quả sau khi thay đổi dữ liệu
- Ta tiến hành thay thế thuộc tính Đánh giá khách hàng: “3” = “Khách hàng truyền
thống”, “2” = “Khách hàng tiềm năng”, “1” = “Khách hàng bình thường”. Đưa vào cửa sổ chương trình chính Operator, ở mục Attribute filter type, chọn subset, kích chọn select Attribute rồi chọn mục Đánh giá khách hàng. Rồi thay thế Replace what = 3, replace by = “Khách hàng truyền thống”. Tương tự với các Replace cịn lại như các hình sau:
Hình 3.23: Thay thế thuộc tính đánh giá khách hàng
- Tiếp theo ta tiến hành thay thế thuộc tính Phân loại số lượng. “3” = “Mua số lượng
nhiều”, “2” = “Mua số lượng vừa”, “1” = “Mua số lượng ít”. Làm tương tự như thay thế thuốc tính Đánh giá khách hàng như các hình sau:
Hình 3.24: Thay thế thuộc tính phân loại số lượng
-Cuối cùng là giảm số lượng thuộc tính trong tập dữ liệu. Để giảm dữ liệu thêm Select
Attributes vào cửa sổ chính và chọn các thuộc tính sau để đưa vào: Loai_hang, Đánh giá khách hàng, Phân loại số lượng. Một khi có những thuộc tính đã chọn, bấm Apply để trở về q trình chính.
Hình 3.25: Lựa chọn các thuộc tính cần trong mơ hình
- Kết thúc quá trình tiền xử lý dữ liệu ta thu được file dulieutienxuly.csv. Bao gồm 4
thuộc tính, 149 bản ghi. Các q trình khai phá dữ liệu sẽ dựa vào file này để tìm ra mối liên hệ giữa các giá trị dữ liệu trong CSDL.
Hình 3.26: Dữ liệu tiền xử lý
3.3.4. Khai phá dữ liệu bằng thuật toán K-mean.
Tạo các cụm dữ liệu bằng thuật toán K-means, tạo ra 3 cụm khách hàng kết quả như sau:
Cluster Model
Cluster 0: 91 items Cluster 1: 0 items Cluster 2: 58 items
Total number of items: 149 Ý nghĩa của các cụm dữ liệu
Thông qua 3 cụm dữ liệu được tạo thành của thuật tốn K-means có 3 nhóm khách hàng như sau:
- Cụm 0: gồm có 91 mục. Sử dụng Filter Example để lọc ra các kết quả của cụm như
Hình 3.27: Chạy Filter Example
Hình 3.28: Kết quả cụm 0
Phần lớn khách hàng bình thường đến với cơng ty thường chọn các sản phẩm thuộc loại Phụ kiện, Kĩ thuật số. Họ có thể mua với số lượng nhiều ít tùy theo nhu cầu của họ nhưng số tiền họ bỏ ra để mua hàng ở công ty thường không quá 10 triệu đồng. Với nhóm khách hàng này các sản phẩm cơng nghệ cao như laptop, thiết bị văn phòng với giá cả khá cao không nằm trong lựa chọn của họ khi đến cơng ty.
Hình 3.29: Kết quả cụm 1
- Cụm 2: gồm có 58 mục. Thực hiện như trên.
Hình 3.30: Kết quả cụm 2
Nhóm khách hàng tiềm năng và khách hàng truyền thống đến với công ty thường mua với số lượng ít nhưng số tiền họ bỏ ra khi đến với công ty là khá lớn (lớn hơn 10 triệu đồng) và những sản phẩm họ chọn mua ở cơng ty chính là những sản phẩm công nghệ cao như laptop, điện thoại thơng minh, thiết bị văn phịng.
3.4. Một số giải pháp đưa ra trong việc quản lý khách hàng mua hàng.
Qua kết quả thu được từ phân cụm dữ liệu. Đề xuất ra một số giải pháp chăm sóc khách hàng tại Cơng ty TNHH Máy tính Phong Vũ như sau:
Có thể thấy lượng khách hàng đến với công ty khá đông và tập trung vào các loại mặt hàng như Phụ Kiện, Thiết bị số. Với lượng khách hàng này Công ty phải cố gắng duy trì, sử dụng các phương pháp khuyến mãi hàng tuần, hàng tháng để lôi kéo loại khách hàng này quay trở lại Công ty lần nữa. Bên cạnh đó cần phải chú ý hơn đến
đa dạng chủng loại hàng để tạo hứng thú đối với khách hàng và quan tâm hơn đến với chất lượng sản phẩm như vậy sẽ tạo được lịng tin đối với khách hàng hơn. Có thể tuyển dụng đội ngũ kĩ thuật tại chỗ để nâng cao chất lượng sản phẩm của công ty.Nghiên cứu thị trường, xây dựng chiến lược quảng bá có hiệu quả hơn nữa bằng việc nghiên cứu tâm lý khách hàng mục tiêu. Một chương trình truyền thơng độc đáo hay chương trình khuyến mãi đa dạng, hấp dẫn rộng khắp hay các đợt giảm giá với chi phí hợp lí nhất nhưng khơng có nghĩa là giảm thấp nhất sẽ tạo thuận lợi cho thu hút khách hàng.
Với lượng khách hàng tiềm năng và khách hàng truyền thống, họ đến với cơng ty vì chất lượng sản phẩm và uy tín của cơng ty. Phải xây dựng một hệ thống nhân viên tiếp thị có trách nhiệm tư vấn để khách hàng chọn được mã sản phẩm, chủng loại hàng hóa phù hợp nhất với khả năng nhu cầu của khách hàng. Chính sách chăm sóc cho khách hàng truyền thống là vơ cùng quan trọng: từ việc tìm kiếm khách hàng bình thường, lơi kéo họ trở thành khách hàng tiềm năng và chăm sóc họ để họ trở thành những vị khách truyền thống là một quá trình khơng đơn giản, chính vì vậy dù cơng ty ở hồn cảnh nào thì vẫn có những chính sách đặc biệt cho nhóm khách hàng này.
Bên cạnh việc đầu tư đào tạo nâng cao khả năng của nhân việc công ty cần đầu tư marketing, thương mại điện tử và các hoạt động tuyên truyền trực tuyến đến với những khách hàng. Giúp cơng ty có thể tiếp xúc và đưa đến những sản phẩm của mình dể dàng hơn cho khách hàng. Để tạo ra những khách hàng tiềm năng và khách hàng tiềm ẩn mới.
Cần đưa ra các gói khuyến mại kích thích nhu cầu mua sản phẩm của công ty đối với khách hàng tiềm năng, giới thiệu, truyền thơng rộng rãi để có thể đến tay nhiều khách hàng hơn trong đợt khuyến mãi của công ty.
Khách hàng chủ yếu mua lap top và các linh kiện nên công ty cần đầu tư thêm những sản phẩm mới, đón đầu thị trường. Từ đó đưa ra những trị chơi, game để tặng sản phẩm để cho các khách hàng tham gia và biết đến những sản phẩm của công ty. Nâng cao chất lượng các dịch vụ, sản phẩm khác để tăng độ tin cậy và sử dụng của khách hàng.
Phần III: Kết Luận3.1. Kết Luận 3.1. Kết Luận
3.1.1. Kết quả đạt được
Thông qua đề tài: “Sử dụng phần mềm Rapidminer nhằm phân loại khách hàng trong quản lý khách hàng mua hàng tại cơng ty TNHH Máy Tính Phong Vũ”. Em đã đưa ra giới thiệu những bước cơ bản của một quy trình khám phá tri thức và lý thuyết cơ bản liên quan đến KPDL. Đề tài cịn trình bày về khái niệm phân cụm, thuật tốn K-means trong phân cụm dữ liệu. Ngồi ra, tìm hiều phần mềm khai phá dữ liệu RipidMiner, các vấn đề xử lý dữ liệu liên quan đến khai phá luật kết hợp nhằm phát hiện mối quan hệ giữa các giá trị dữ liệu trong CSDL khách hàng tại cơng ty TNHH Máy tính Phong Vũ và phân nhóm khách hàng theo loại hàng điện tử. Từ đó đưa ra một số giải pháp hỗ trợ chăm sóc khách hàng của cơng ty. Về chương trình hỗ trợ chăm sóc khách hàng, đề tài đã dựa trên những kết quả khai phá được để đề xuất ra những giải pháp tương ứng nhằm đem lại hiệu quả thiết thực nhất cho công ty.
3.1.2. Hạn chế của đề tài
Tuy nhiên, do hạn chế về năng lực cũng như thời gian đề tài khơng thể tránh khỏi những thiếu sót và cịn nhiều hạn chế. Đề tài chưa đi sâu tìm hiểu các kiến thức liên quan đến KPDL mà chỉ ở mức độ giới thiệu, cũng như chưa sử dụng các kỹ thuật KPDL khác có thể áp dụng để giải quyết vấn đề liên quan đến đề tài.
3.2. Hướng phát triển của đề tài
Một số định hướng tìm hiểu tiếp theo của đề tài như sau:
- Tiếp tục tìm hiểu sâu hơn về lý thuyết KPDL và các kỹ thuật KPDL khác.
- Ứng dụng khai phá luật kết hợp bằng thuật toán FP-Growth nhằm đề ra giải pháp
chăm sóc khách hàng tại cơng ty TNHH Máy tính Phong Vũ.
Tài liệu tham khảo
[1] Nguyễn Thị Huế. Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng”, 2011.