Ứng dụng 2: Quản lý quan hệ khách hàng

3.2.1 Mục tiêu phân tích

Nghiên cứu này xem xét các khía cạnh thống kê về quản lý quan hệ khách hàng (CRM – customer relationship management). Trong phạm vi này một công ty phải có vì một mục tiêu cơ bản là khuyến khích lòng trung thành của khách hàng để thu được từ họ lợi nhuận nhiều nhất có thể. Sự cần thiết của việc có các khách hàng trung thành thúc đẩy các công ty hiểu biết về khách hàng nhiều hơn. Một cách để làm điều này là sử dụng quản lý thích hợp và xử lý cơ sở dữ liệu khách hàng. Các phương pháp khai thác dữ liệu thể hiện một cách tiếp cận hợp lý để trích xuất thông tin quý giá từ một cơ sở dữ liệu như vậy và sau đó thông tin được sử dụng để quản lý các mối quan hệ khách hàng hiện tại và tương lai. Các công ty ngày càng cá nhân hóa các dịch vụ của mình để phù hợp với từng đối tượng khách hàng. Dữ liệu trong nghiên cứu này là của một công ty ở Ý, đối tượng mà tác giả Giudici đã nghiên cứu.

Mục đích là nghiên cứu hành vi mua hàng của khách hàng, cụ thể là để hiểu được các nhân tố ban đầu có thể tạo lên một người mua ngẫu nhiên hoặc người mua trung thành như thế nào. Điều này cho biết ở một giai đoạn sớm, khách hàng nào sẽ thực sự đem lại lợi nhuận và ở đó tập trung mọi nỗ lực tiếp thị. Về mặt khai thác dữ liệu, ta quan tâm đến bài toán phân lớp dự báo.

3.2.2 Mô tả dữ liệu

Thông tin quần thể tham chiếu – các khách hàng hiện thời của công ty được phân phối trên 3 cơ sở dữ liệu riêng biệt: danh sách khách hàng và các đặc điểm của khách hàng, danh sách các đơn đặt hàng và danh sách các lệnh mua hàng. Tất cả 3 cơ sở dữ liệu chứa các biến về khách hàng, chủ yếu là các biến xã hội nhân khẩu học và các biến hành vi. Các biến này đề cập tới các cách trong đó quan hệ thương mại đầu tiên được thiết lập.

Để đạt được các mục tiêu phân tích, ta phải phân tích một quần thể đồng nhất của những người tiêu dùng, tức là phải phân tích hành vi của những người mà quan hệ thương mại đầu tiên của họ với công ty xảy ra gần như cùng thời điểm. Điều này giúp loại bỏ các hiệu ứng sai lệch có thể có do sự thay đổi cơ cấu trong nền kinh tế, hoặc trong cơ cấu của công ty. Đầu tiên ta xét tất cả 210.085 khách hàng đã tham gia vào cơ sở dữ liệu khách hàng từ năm 1992 đến năm 1996. Sẽ rất tốn kém tiền bạc và thời gian để phân tích toàn bộ tập dữ liệu nên ta sẽ lấy một mẫu phân tầng và phân tích nó. Ta sẽ lấy số lượng khách hàng như nhau từ mỗi khoảng thời gian ngắn; mẫu này chứa tổng số 2470 khách hàng.

Cuối cùng, khi dữ liệu được trải rộng trên 3 cơ sở dữ liệu ta cần xây dựng một cơ sở dữ liệu tiếp thị tổ chức tất cả các thông tin ta yêu cầu. Ta cần thu được một tập dữ liệu gắn kết và có nhiều thông tin hơn. Kết quả cuối cùng là 1 ma trận dữ liệu có 1 hàng cho mỗi khách hàng và 1 cột cho mỗi đặc tính khách hàng (biến thống kê). Sau một quá trình dài quản lý cơ sở dữ liệu, ta thu được các biến trong bảng 3.11

Bảng 3.11 Danh sách các biến về khách hàng

1. Marketing status (trạng thái tiếp thị)

2. Whether the client is active (khách hàng có năng động hay không)

3. Whether the client is in a debt position (khách hàng có ở tình trạng nợ nần hay không) 4. Total number of orders (tổng số đơn đặt hàng)

5. Date of first order (ngày đặt hàng đầu tiên) 6. Date of last order (ngày đặt hàng cuối cùng) 7. Total amount ordered (tổng số tiền đặt hàng) 8. Total amount paid (tổng số tiền đã trả) 9. Current balance (chênh lệch hiện thời)

10. Whether payments have been delayed (thanh toán có bị trễ hay không)

11. Time lag between first and second order (khoảng thời gian giữa đơn hàng thứ nhất và đơn hàng thứ hai)

12. Amount of current instalment (số tiền trả góp hiện thời) 13. Residual number of instalments (số dư trả góp)

14. Dimension of the shop (kích thước cửa hàng) 15. Age (độ tuổi)

16. Area of residence (khu vực cư trú) 17. Sex (giới tính)

18. Whether first payment is with instalments (thanh toán đầu tiên có theo trả góp hay không)

19. First amount spent (số tiền chi phí đầu tiên)

20. Number of products at first order (số sản phẩm ở đơn hàng đầu tiên)

3.2.3 Phân tích dữ liệu thăm dò

Trước khi bắt đầu phân tích dữ liệu thực sự, ta cần xác định 1 biến phản ứng, xác định các biến giải thích và đưa ra các phép biến đổi có thể. Mục tiêu chính là phân lớp các khách

hàng thành 2 loại: các khách hàng chỉ đặt 1 đơn đặt hàng và các khách hàng đặt nhiều đơn đặt

hàng. Biến nhị thức Y này được suy ra từ biến Total number of orders trong bảng 3.11. Ta sẽ

đặt Y 0= khi số đơn đặt hàng bằng 1 và Y 1= khi số đơn đặt hàng lớn hơn 1. Hai mức của

biến phản ứng tương ứng với những người tiêu dùng được coi là không trung thành (Y 0= )

và trung thành (Y 1= ). Bảng 3.12 cho thấy phân phối của biến phản ứng này đối với mẫu

hiện tại.

Bảng 3.12 Phân phối của biến phản ứng

Mức Tần số tuyệt đối Tần số tương đối

Y 0= 1457 59,71%

Y 1= 1013 40,29%

Bây giờ ta sẽ lựa chọn các biến giải thích. Ta muốn các biến sẽ giúp ta trong việc phân lớp dự báo. Để làm điều này ta có thể lập các bảng phân phối điều kiện của biến phản ứng trên các biến giải thích. Về trực giác, ta nhận thấy cần phải xét các biến liên quan tới đơn hàng đầu tiên, nó mô tả cách tiếp xúc đầu tiên với công ty, chẳng hạn như các biến xã hội

nhân khẩu học của khách hàng: sex, age, area, dimension

Bảng 3.13 Phân phối điều kiện của biến phản ứng trên các biến giải thích xã hội nhân khẩu học

Bảng 3.13 cho thấy phân phối điều kiện của biến phản ứng trên các biến xã hội nhân khẩu học. Ta có thể rút ra các kết luận sau:

(1). Sex: Có vẻ không ảnh hưởng đến biến phản ứng.

(2). Area of residence, (3). Age và (4). Dimension of the agency: Các biến này có thể là các yếu tố dự báo.

Bên cạnh các biến xã hội nhân khẩu học, ta cũng có các biến hành vi, các biến hành vi đề cập đến đơn hàng đầu tiên của khách hàng:

(5). Instalment: Ta thấy có sự kết hợp dương của biến này với Y, vì tỷ số chênh vào khoảng 4,20.

(6). First amount spent và (7). number of products at ﬁrst order (numb):

Hình 3.2 cho biết các hộp đồ thị đối với 2 biến này. Nếu 2 hộp đồ thị kết quả khác biệt rõ rệt về vị trí (chẳng hạn như về trung vị), thì biến tương ứng có thể được coi là có liên quan. Lượng tiền chi phí dường như là có liên quan, nhưng số sản phẩm được mua thì không liên quan. Và xuất hiện các ngoại lệ ở đuôi phải của phân phối. Ta tiến hành bằng

Hình 3.2 Phân phối điều kiện của (a) First amount spent và (b) products at ﬁrst order (numb)

đối với các mức của Y. Ta sẽ không biến đổi 2 biến định lượng này.

Nhưng để giúp cho việc giải thích, ta sẽ nhị phân hóa các biến định tính: age, area,

dimension of the agency. Mỗi biến có 3 mức, như vậy cho ra tổng cộng 9 biến nhị thức và sẽ loại bỏ một biến nhị thức (để lại 2 biến nhị thức) đối với mỗi biến trong 3 biến đó. Bảng 3.15 là một trích lục về ma trận dữ liệu hiện tại, nó tóm tắt các biến mà ta sẽ sử dụng trong phân tích.

Bảng 3.15 Ma trận dữ liệu được xét

3.2.4 Xây dựng mô hình

Ứng dụng 2: Quản lý quan hệ khách hàng

Phân tích dữ liệu thăm dò

Các mô hình loga tuyến tính