III: Ứng dụng phần mềm khai phá dữ liệu Rapidminer vào quản lý khách hàng mua hàng của Công ty
3.1. Tổng quan về Công ty
3.1.1. Giới thiệu
Được thành lập vào cuối năm 2013, Cơng ty TNHH máy tính Phong Vũ được biết đến như là một công ty hàng đầu trong lĩnh vực kinh doanh Máy tính – Linh kiện, Thiết bị giải trí số, Thiết bị văn phịng và Điện thoại di động tại Huế và các tỉnh lân cận miền trung như Đà Nẵng, Quảng Nam…
Với mục tiêu: Công ty là đem lại sự thịnh vượng, an khang cho khách hàng của mình. Cơng ty TNHH máy tính Phong Vũ ln cung cấp cho q khách hàng những sản phẩm, dịch vụ, giải pháp tốt nhất, với một khát khao mang lại niềm vui, lợi ích và sự hài lịng của khách hàng .
Các thơng tin khác:
- Tên cơng ty: Cơng ty TNHH máy tính Phong Vũ.
- Số lượng nhân viên hiện tại: 20 người.
- Điện thoại: 054. 3966222
- Trụ sở chính: 132 Nguyễn Huệ, TP Huế.
- Logo của cơng ty:
3.1.2. Cơ cấu tổ chức
GIÁM ĐỐC
NHÂN SỰ
KINH DOANH KỸ THUẬT KẾ TỐN KHO BẢO VỆ
Nhân Viên Kinh Doanh Bán lẻ Lẻ Thủ Quỷ Sửa chửa Kế tốn trưởng Kế toán thu Kế toán xuất Quản lý hàng vào kho Quản lý hàng xuất kho Phần mềm
Hình 3.2: Cơ cấu tổ chức của cơng ty
(Nguồn: Phịng Kinh Doanh_Cơng ty TNHH Máy tính Phong Vũ)
3.1.3. Định hướng phát triển
Cơng ty TNHH máy tính Phong Vũ đang hướng tới là một cơng ty hàng đầu trong lĩnh vực kinh doanh Máy tính – linh kiện, thiết bị giải trí số, thiết bị văn phịng và điện thoại di động tại TT-Huế và khu vực Miền Trung, Tây Nguyên.
Tiếp sau ba tỉnh Đà Nẵng – Huế - Quảng Nam máy tính Phong Vũ đang lên kế hoạch mở rộng thị trường ra các tỉnh Quảng Trị, Quảng Bình cũng như mở thêm nhiều chi nhánh ở các tỉnh Tây Nguyên.
Xây dựng máy tính Phong Vũ trở thành mơi trường làm việc chuyên nghiệp, nơi mọi cá nhân có thể phát huy tối đa sức sáng tạo để thành đạt.
3.2. Phần mềm khai phá dữ liệu Rapid miner
3.2.1. Giới thiệu chung
RapidMiner là phần mềm mã nguồn mở cung cấp môi trường cho học máy, khai phá dữ liệu, khai phá dữ liệu văn bản, phân tích dự đốn và phân tích kinh doanh. RapidMiner được sử dụng cho nghiên cứu, học tập, đào tạo, phát triển ứng dụng và những ứng dụng công nghiệp.
3.2.2. Giới thiệu giao diện
Giao diện tổng quan
Dưới đây là ảnh chụp giao diện chính của RapidMiner.
Hình 3.3: Giao diện tổng quan của RapidMiner
3.2.4. Phân cụm với Rapid Miner
Hình 3.7: Thực hiện Phân Cụm với K-Means
Chọn Operator select Attributes để chuyển kiểu dữ liệu cho phù hợp với thuật toán K-Means:
Từ Operators View Data Transformation Attribute Set Reduction and Transformation Selection Select Attributes.
Chọn Operator K-Means để chạy thuật toán K-Means:
Từ Operators View Modeling Clustering and Segmentation K-Means Operator K-Means có các tham số:
K:3, để sau khi chạy ta phân thành 3 cụm.
Hình 3.8: Lựa chọn tham số cho K-Means
Chạy Phân cụm:
Click biểu tượng Play bên trái phía trên giao diện RapidMiner để chạy quy trình đã xây dựng.
Sau khi hiển thị kết quả chọn Description ta có:
3.3. Ứng dụng phân cụm dữ liệuvào quản lý khách hàng mua hàng.
3.3.1 Xác định nội dung cần khai phá
Nghiên cứu nhằm mục đích tìm ra mối liên hệ giữa các giá trị dữ liệu trong CSDL và xác định các nhóm khách hàng (khách hàng truyền thống, khách hàng tiềm năng và nhóm khách hàng bình thường) sử dụng sản phẩm tại Cơng ty TNHH Máy Tính Phong Vũ. Qua đó, tìm hiểu được từng nhóm khách hàng thì khách hàng chủ yếu là ai? Thường mua những sản phẩm loại nào? Và có giá thanh tốn là bao nhiêu? nhằm đề xuất một số giải pháp hỗ trợ chăm sóc khách hàng tại cơng ty. Do đó, nghiên cứu sẽ dựa vào những dữ liệu liên quan đến hoạt động mua hàng của khách hàng, chẳng hạn: số hóa đơn, khách hàng, tên hàng, loại hàng, số lượng, đơn giá, giá thành…để khai phá luật kết hợp và phân cụm.
3.3.2 Lựa chọn dữ liệu
Để có được kết quả phản ánh về mối liên hệ giữa các thuộc tính liên quan đến hoạt động, thói quen mua hàng cũng xác định được các nhóm khách hàng (nhóm khách hàng truyền thống, khách hàng tiềm năng và khách hàng bình thường) của khách hàng tại Cơng ty TNHH Máy tính Phong Vũ, nghiên cứu thực hiện trên CSDL quản lý khách hàng của công ty trong thời gian từ tháng 2 đến tháng 5 của năm 2015. Theo đó, dữ liệu lưu trữ bao gồm 149 khách hàng. Mỗi khách hàng được quản lý thơng qua: So_hoa_don (số hóa đơn), Khach_hang (khách hàng), Ten_hang (tên hàng), Loai_hang (Loại hàng), So_luong (số lượng), Don_gia (đơn giá), Gia_thanh(giá thành) (CSDL được lưu trữ trong bản phụ lục 1). Tuy nhiên, nghiên cứu chỉ lấy ra những dữ liệu có ích cho q trình khai phá và phân cụm đó là: Phan_loai_SL, Danh_gia_KH, Loai_hang.
3.3.3. Tiền xử lý dữ liệu bài toán
Dựa trên đặc điểm của dữ liệu vào và để đảm bảo các yêu cầu về dữ liệu trong thuật toán K-means dùng để phân cụm dữ liệu trong phần mềm khai phá dữ liệu Rapidminer nghiên cứu tiến hành tiền xử lý dữ liệu trên một số thuộc tính sau:
Thuộc tính: Giá thành
Dựa vào thuộc tính Gia_thanh chia ra làm 3 khoảng của miền giá trị
- Gia_thanh > 50.000.000: tương ứng là 3: Khách hàng truyền thống.
- Còn lại Gia_thanh <= 10.000.000: tương ứng là 1: Khách hàng bình thường. Thuộc tính: Số lượng
Dựa vào thuộc tính So_luong chia ra làm 3 khoảng của miền giá trị
- So_luong > 10: tương ứng là 3: mua với số lượng nhiều.
- So_luong >3: tương ứng là 2: mua với số lượng vừa.
- Còn lại So_luong <= 3: tương ứng là 1: mua với số lượng ít.
Chuyển đổi kiều dữ liệu
Thay đổi các kiểu dữ liệu của thuộc tính từ integer, real sang kiểu polynominal. - Quá trình này được thực hiện như sau:
Tạo nơi lưu trữ dữ liệu: Khởi động RapidMiner -> New Process -> Repositories kích chọn biểu tượng như trong hình:
Hình 3.10: Tạo nơi lưu trữ dữ liệu
Chọn New local repository -> Next -> Use standard location -> Finish như hình dưới đây:
+ Chuẩn bị dữ liệu dulieukhachhang.csv ở mục Repositories kích chọn biểu tượng như hình:
Hình 3.12: Biểu tượng để đưa dữ liệu vào
+Chọn Import CSV file… chương trình sẽ yêu cầu chọn tập dữ liệu cần đưa vào, xuất hiện hình sau:
Hình 3.13: Chọn file cần đưa vào
+ Tiếp theo chọn Next. Chương trình sẽ yêu cầu cách thức các cột được phân
cách. Theo mặc định, Rapidminer tìm kiếm dấu chấm phẩy phân cách thuộc tính trong dữ liệu. Chúng ta phải thay đổi dấu phân cách và nhấp vào Comma trong hộp Column Separation, để có thể nhìn thấy mỗi thuộc tính một cách chính xác. Như hình sau:
+ Sau khi xem các cột cho các thuộc tính, kích chọn Next sẽ xuất hiện hình 3.14. Trong Rapidminer, mỗi thuộc tính có thể được chú thích. Chú thích quan trọng nhất của một thuộc tính là tên gọi của nó - một hàng với chú thích này định nghĩa tên của các thuộc tính.
Hình 3.15: Chú thích các thuộc tính
+ Tiếp tục nhấn Next. Trong bước này, có thể xác định các kiểu dữ liệu thuộc
tính. Hơn nữa, Rapidminer gán vai trị cho các thuộc tính, xác định những gì chúng ta có thể được sử dụng cho các operator. Những vai trị này cũng có thể được định nghĩa
ở đây. Cuối cùng, có thể đổi tên các thuộc tính hoặc bỏ chọn chúng hồn tồn như
hình sau:
Hình 3.17: Lưu tên cho kho dữ liệu
+ Cuối cùng chúng ta nhấn Finish để hồn thành. Chúng ta có bảng CSDL của
khách hàng như hình 3.17.
Hình 3.18: Cơ sở dữ liệu khách hàng
Bây giờ chúng ta thiết lập các dữ liệu có sẵn để sử dụng trong Rapidminer. Để bắt đầu sử dụng nó trong q trình khai thác dữ liệu Rapidminer, chỉ cần kéo tập dữ liệu thả nó vào của sổ chương trình chính và chạy mơ hình để kiểm tra dữ liệu.
Hình 3.19: Đưa dữ liệu khách hàng vào chương trình chính
-Tiếp theo ta chia khoảng miền giá trị cho Giá thành và Số lượng. Ta thực hiện lệnh if
để tiến hành chia khoảng giá trị. Chọn Operate Attributes như hình sau:
Hình 3.20: Thực hiện câu lệnh if để chia miền giá trị cho Giá thành và Số lượng
Hình 3.21: Kết quả dữ liệu sau khi thực hiện chia miền dữ liệu
- Một bước nữa là cân thiết để chuẩn bị dữ liệu. Điều này là để thay đổi các kiểu dữ
liệu của thuộc tính lựa chọn từ integer thành polynominal. Chúng ta sẽ sử dụng là Numerical to Polynominal.
Hình 3.22: Kết quả sau khi thay đổi dữ liệu
- Ta tiến hành thay thế thuộc tính Đánh giá khách hàng: “3” = “Khách hàng truyền
thống”, “2” = “Khách hàng tiềm năng”, “1” = “Khách hàng bình thường”. Đưa vào cửa sổ chương trình chính Operator, ở mục Attribute filter type, chọn subset, kích chọn select Attribute rồi chọn mục Đánh giá khách hàng. Rồi thay thế Replace what = 3, replace by = “Khách hàng truyền thống”. Tương tự với các Replace cịn lại như các hình sau:
Hình 3.23: Thay thế thuộc tính đánh giá khách hàng
- Tiếp theo ta tiến hành thay thế thuộc tính Phân loại số lượng. “3” = “Mua số lượng
nhiều”, “2” = “Mua số lượng vừa”, “1” = “Mua số lượng ít”. Làm tương tự như thay thế thuốc tính Đánh giá khách hàng như các hình sau:
Hình 3.24: Thay thế thuộc tính phân loại số lượng
-Cuối cùng là giảm số lượng thuộc tính trong tập dữ liệu. Để giảm dữ liệu thêm Select
Attributes vào cửa sổ chính và chọn các thuộc tính sau để đưa vào: Loai_hang, Đánh giá khách hàng, Phân loại số lượng. Một khi có những thuộc tính đã chọn, bấm Apply để trở về q trình chính.
Hình 3.25: Lựa chọn các thuộc tính cần trong mơ hình
- Kết thúc quá trình tiền xử lý dữ liệu ta thu được file dulieutienxuly.csv. Bao gồm 4
thuộc tính, 149 bản ghi. Các q trình khai phá dữ liệu sẽ dựa vào file này để tìm ra mối liên hệ giữa các giá trị dữ liệu trong CSDL.
Hình 3.26: Dữ liệu tiền xử lý
3.3.4. Khai phá dữ liệu bằng thuật toán K-mean.
Tạo các cụm dữ liệu bằng thuật toán K-means, tạo ra 3 cụm khách hàng kết quả như sau:
Cluster Model
Cluster 0: 91 items Cluster 1: 0 items Cluster 2: 58 items
Total number of items: 149 Ý nghĩa của các cụm dữ liệu
Thông qua 3 cụm dữ liệu được tạo thành của thuật tốn K-means có 3 nhóm khách hàng như sau:
- Cụm 0: gồm có 91 mục. Sử dụng Filter Example để lọc ra các kết quả của cụm như
Hình 3.27: Chạy Filter Example
Hình 3.28: Kết quả cụm 0
Phần lớn khách hàng bình thường đến với cơng ty thường chọn các sản phẩm thuộc loại Phụ kiện, Kĩ thuật số. Họ có thể mua với số lượng nhiều ít tùy theo nhu cầu của họ nhưng số tiền họ bỏ ra để mua hàng ở công ty thường không quá 10 triệu đồng. Với nhóm khách hàng này các sản phẩm cơng nghệ cao như laptop, thiết bị văn phòng với giá cả khá cao không nằm trong lựa chọn của họ khi đến công ty.
Hình 3.29: Kết quả cụm 1
- Cụm 2: gồm có 58 mục. Thực hiện như trên.
Hình 3.30: Kết quả cụm 2
Nhóm khách hàng tiềm năng và khách hàng truyền thống đến với cơng ty thường mua với số lượng ít nhưng số tiền họ bỏ ra khi đến với công ty là khá lớn (lớn hơn 10 triệu đồng) và những sản phẩm họ chọn mua ở cơng ty chính là những sản phẩm công nghệ cao như laptop, điện thoại thông minh, thiết bị văn phòng.
3.4. Một số giải pháp đưa ra trong việc quản lý khách hàng mua hàng.
Qua kết quả thu được từ phân cụm dữ liệu. Đề xuất ra một số giải pháp chăm sóc khách hàng tại Cơng ty TNHH Máy tính Phong Vũ như sau:
Có thể thấy lượng khách hàng đến với công ty khá đông và tập trung vào các loại mặt hàng như Phụ Kiện, Thiết bị số. Với lượng khách hàng này Công ty phải cố gắng duy trì, sử dụng các phương pháp khuyến mãi hàng tuần, hàng tháng để lôi kéo loại khách hàng này quay trở lại Cơng ty lần nữa. Bên cạnh đó cần phải chú ý hơn đến
đa dạng chủng loại hàng để tạo hứng thú đối với khách hàng và quan tâm hơn đến với chất lượng sản phẩm như vậy sẽ tạo được lịng tin đối với khách hàng hơn. Có thể tuyển dụng đội ngũ kĩ thuật tại chỗ để nâng cao chất lượng sản phẩm của công ty.Nghiên cứu thị trường, xây dựng chiến lược quảng bá có hiệu quả hơn nữa bằng việc nghiên cứu tâm lý khách hàng mục tiêu. Một chương trình truyền thơng độc đáo hay chương trình khuyến mãi đa dạng, hấp dẫn rộng khắp hay các đợt giảm giá với chi phí hợp lí nhất nhưng khơng có nghĩa là giảm thấp nhất sẽ tạo thuận lợi cho thu hút khách hàng.
Với lượng khách hàng tiềm năng và khách hàng truyền thống, họ đến với cơng ty vì chất lượng sản phẩm và uy tín của cơng ty. Phải xây dựng một hệ thống nhân viên tiếp thị có trách nhiệm tư vấn để khách hàng chọn được mã sản phẩm, chủng loại hàng hóa phù hợp nhất với khả năng nhu cầu của khách hàng. Chính sách chăm sóc cho khách hàng truyền thống là vơ cùng quan trọng: từ việc tìm kiếm khách hàng bình thường, lơi kéo họ trở thành khách hàng tiềm năng và chăm sóc họ để họ trở thành những vị khách truyền thống là một q trình khơng đơn giản, chính vì vậy dù cơng ty ở hồn cảnh nào thì vẫn có những chính sách đặc biệt cho nhóm khách hàng này.
Bên cạnh việc đầu tư đào tạo nâng cao khả năng của nhân việc công ty cần đầu tư marketing, thương mại điện tử và các hoạt động tuyên truyền trực tuyến đến với những khách hàng. Giúp cơng ty có thể tiếp xúc và đưa đến những sản phẩm của mình dể dàng hơn cho khách hàng. Để tạo ra những khách hàng tiềm năng và khách hàng tiềm ẩn mới.
Cần đưa ra các gói khuyến mại kích thích nhu cầu mua sản phẩm của công ty đối với khách hàng tiềm năng, giới thiệu, truyền thơng rộng rãi để có thể đến tay nhiều khách hàng hơn trong đợt khuyến mãi của công ty.
Khách hàng chủ yếu mua lap top và các linh kiện nên công ty cần đầu tư thêm những sản phẩm mới, đón đầu thị trường. Từ đó đưa ra những trị chơi, game để tặng sản phẩm để cho các khách hàng tham gia và biết đến những sản phẩm của công ty. Nâng cao chất lượng các dịch vụ, sản phẩm khác để tăng độ tin cậy và sử dụng của khách hàng.
Phần III: Kết Luận3.1. Kết Luận 3.1. Kết Luận
3.1.1. Kết quả đạt được
Thông qua đề tài: “Sử dụng phần mềm Rapidminer nhằm phân loại khách hàng trong quản lý khách hàng mua hàng tại cơng ty TNHH Máy Tính Phong Vũ”. Em đã đưa ra giới thiệu những bước cơ bản của một quy trình khám phá tri thức và lý thuyết cơ bản liên quan đến KPDL. Đề tài cịn trình bày về khái niệm phân cụm, thuật tốn K-means trong phân cụm dữ liệu. Ngồi ra, tìm hiều phần mềm khai phá dữ liệu RipidMiner, các vấn đề xử lý dữ liệu liên quan đến khai phá luật kết hợp nhằm phát hiện mối quan hệ giữa các giá trị dữ liệu trong CSDL khách hàng tại cơng ty TNHH Máy tính Phong Vũ và phân nhóm khách hàng theo loại hàng điện tử. Từ đó đưa ra một số giải pháp hỗ trợ chăm sóc khách hàng của cơng ty. Về chương trình hỗ trợ chăm sóc khách hàng, đề tài đã dựa trên những kết quả khai phá được để đề xuất ra