III – ÁP DỤNG THỰC TIỄ N:
3- Nguồn dữ Liệu, Chuẩn Bị Dữ Liệu
Để tạo ra mẫu dữ liệu của chúng ta, cần có dữ liệu ban đầu mà chúng ta thu thập, và chuyển nó theo dạng chuẩn phù hợp với mẫu dữ liệu. Chúng ta gọi
bƣớc này là phát triển và chuẩn bị nguồn tài liệu, đây là bƣớc thứ 3 của phƣơng pháp khai phá dữ liệu.
a) Xác Định Cửa Sổ Thời Gian
Khi sắp xếp tài liệu trong dữ liệu xác định, chọn khung thời gian thích hợp để thu thập dữ liệu là điểm tất yếu.
Chúng ta nên xác định 3 vấn đề để quyết định khoảng thời gian nào cần thu thập dữ liệu về khách hàng và sử dụng thông tin khuấy động.
- Cửa sổ dữ liệu: Khung thời gian cho mục nhập dùng để tiến hành mô hình
- Cửa sổ dự đoán: Khung thời gian dùng cho dự đoán và dùng khi sắp xếp
tài liệu và những mục dự đoán chính cần nhập (mục lục dự đoán) , mẫu dự đoán khuấy động thƣờng thay cho những ai và khi nào. Mẫu này có nghĩa là khi cố gắng trả lời câu hỏi: dự đoán ai ngừng công tác với Công ty và khi nào họ ngừng cộng tác? Cửa sổ dự đoán là cửa sổ “khi nào” trong mẫu dự đoán khuấy động trong thời kỳ xây dựng mẫu, cửa sổ dự đoán là khung thời gian xem xét khách hàng có rời Công ty hay không
- Thời gian cộng tác: Khoảng cách về thời gian giữa cửa sổ dữ liệu và cửa
sổ dự đoán.
Trong trƣờng hợp này, chúng ta dùng cửa sổ dự đoán 6 tháng, 2 tháng đầu để thử nghiệm, 1 tháng dự đoán, nhƣ trong hình 15
Trong thời kỳ mẫu đƣợc xây dựng, dữ liệu 6 tháng trƣớc từ tháng 2 đến tháng 7 cho khách hàng còn cộng tác tới cuối tháng 7 là thông tin khuấy động, những khách hàng này có rời Công ty vào tháng 10 hay không. Mẫu này cũng ứng dụng đƣợc cho khách hàng tiếp tục sử dụng trong tháng và dự đoán có rời đi vào tháng 11 hay không.
Vì vậy, vào đầu tháng 9, nhân viên phòng tiếp thị có thể lọc danh sách những ngƣời có khả năng rời Công ty vào tháng 11, và thời gian 2 tháng đủ để họ “Khởi động” và thực hiện những chiến dịch makerting.
Tốt nhất nên tránh khung thời gian nào đó, chẳng hạn nhƣ những mẫu khác thƣờng chịu ảnh hƣởng của ngọai cảnh. Dùng những khung thời gian mới nhất để xây dựng mẫu dự đoán sẽ mang lại đƣợc một cửa sổ dữ liệu tốt.
Tuy vậy, khoảng thời gian này cũng là khoảng thời gian để vạch ra chiến lƣợc và thi hành. Khoảng thời gian trôi qua dài hơn đồng nghĩa với việc dành nhiều thời gian cho nhân viên phòng makerting thiết kế chiến lƣợc cuối cùng, và cũng với khảng thời gian này, mẫu dự đoán cũng có thể dự đoán tƣơng lai xa hơn. Trong mẫu dự đoán khuấy động, cần ít nhất 1 tháng thời gian đứt quãng. Mặt khác, nhân viên tiếp thị cần ít nhất 1 tháng để chuẩn bị chiến lƣợc tiếp thị dựa vào kết quả mô hình dự đoán.
Khoảng thời gian đứt quãng có thể đƣợc xác định sau khi so sánh kết quả dự đoán trong 1 tháng, 2, 3, và N tháng trôi qua. Ví dụ nhƣ nếu mẫu dự đoán 2 tháng cũng giống nhƣ mẫu dự đoán 1 tháng, thì mẫu dự đoán 2 tháng thƣờng đƣợc chọn để thuận lợi hơn cho nhân viên tiếp thị. Tuy vậy, việc tiếp thị có tiến bộ hơn hay không phải đƣợc xác nhận trƣớc khi khoảng thời gian bỏ trống đƣợc quyết định.
Chú ý: Sai lầm thƣờng gặp trong mẫu dự đoán khuấy động là tiến hành 1 mẫu dự đoán không có khoảng thời gian đứt quãng. Ví dụ, mẫu dự đoán khuấy động trong tháng 12 sử dụng tất cả dữ liệu của tháng 11. Mô hình không có khoảng thời gian đứt quãng chỉ là mô hình lý thuyết, vì dữ liệu thực trong tháng 11 chỉ khớp với dữ liệu đầu tháng 12 mà thôi. Trong triển vọng thƣơng mại, mô hình
này vô dụng, bởi vì nhóm tiếp thị chỉ có thể thiết kế 1 chiến lƣợc hiệu quả trong ít nhất vài ba tuần.
Cửa sổ dự đoán có thể chọn là những tháng bất kỳ mà việc lựa chọn và quyết định phụ thuộc vào đòi hỏi của công việc tiếp thị và kết quả dự đoán.
b) Tạo Ra Dữ Liệu Để Thử Nghiệm Và Kiểm Tra
Mô hình dự đoán cần tạo ra dữ liệu thử nghiệm và kiểm tra
Mẫu thử nghiệm đƣợc dùng để xây dựng mô hình đầu tiên. Sau khi mô hình đầu tiên đƣợc xây dựng, dữ liệu kiểm tra đƣợc sử dụng kiểm tra và để cải tiến mô hình. Mẫu kiểm tra cũng chứa các phần nhƣ mẫu dữ liệu thông thƣờng nhƣng với thông tin khách hàng khác nhau. Mẫu này đƣợc sử dụng để kiểm tra những vấn đề nảy sinh khi mô hình đƣợc phát triển sao cho phù hợp với dữ liệu. Tần số chính xác số ngƣời dự định rời đi cần phải chính xác và khớp với nhau trong từng phần dữ liệu.
Tỉ lệ khuấy động trong dữ liệu có thể rấr thấp, vấn đề này thƣờng đƣợc xem nhƣ “mục tiêu phụ”. Nếu không chú ý đến điều này khi phát triển mô hình, chúng ta sẽ không tránh khỏi việc đƣa ra những kết quả không mong đợi.
Chẳng hạn nhƣ tỉ lệ khuấy động trong dữ liệu là 1% trong Công ty, cột dữ liệu trong mẫu dự đoán của Công ty cũng thƣờng đạt 1%. Kỹ nghệ khai phá đã nhanh chóng tiến tới 1 mô hình hoàn chỉnh (99% chính xác) bằng cách đánh tỉ lệ những ngƣời trong trƣờng hợp không phải là khuấy động. Tuy vậy, điều này không cho biết bất cứ thông tin nào.
Nói chung, chúng ta nên chú ý nếu kết quả đầu ra mà chúng ta dự đoán ít hơn 10% so với toàn cột dữ liệu.
Giải pháp cho vấn đề này là sử dụng khối lƣợng sai khi tính toán. Việc tính toán cũng bao gồm việc sử dụng những cột dữ liệu lớn hơn số cột trong dữ liệu ban đầu. Sử dụng dữ liệu trong những trƣờng hợp đƣợc sắp xếp tự động tùy trƣờng hợp thì tối ƣu. Cột kết quả cũng hình thành ngẫu nhiên theo các cột dữ liệu ban đầu.
Cần có giới hạn cho việc lựa chọn nếu chúng ta muốn giới hạn số trƣờng trong dữ liệu của chúng ta. Giải pháp để có thêm các dữ liệu kết quả này là sao chép các kết quả từ các cửa sổ khác. Việc này chỉ nên thực hiện với những lý do nhất định hay những công nghệ khác không ứng dụng đƣợc.
Lỗi sử dụng sai khối lƣợng dữ liệu khiến chúng ta sử dụng những khối lƣợng dữ liệu chính xác và không chính xác theo những lớp trƣờng hợp. Vì thế việc sử dụng dữ liệu ngẫu nhiên là dụng cụ khắc phục lỗi sử dụng khối lƣợng dữ liệu thay vì bổ sung dữ liệu ban đầu.
Chú ý: nếu chúng ta muốn rút kinh nghiệm từ những khó khăn liên quan đến cột dữ liệu ban đầu, chúng ta có thể thử tập hợp tất cả dữ liệu thành cột sử dụng nhóm dữ liệu nhân khẩu học (khoảng 5 nhóm) sẽ cho kết quả tƣơng tự thành từng nhóm kết quả.
Tất cả dữ liệu đề cập trong phần ”Dữ liệu cần sử dụng”, nên đƣợc kết hợp vào một bảng để xem và sử dụng nhƣ dữ liệu nhập vào mẫu dự đoán khuấy động. Những mô tả sau đây giúp chúng ta có đƣợc những cột dữ liệu phù hợp.
c) Dữ Liệu Thông Tin Khách Hàng
Dữ liệu nhân khẩu học và dữ liệu liên quan đến hợp đồng có thể lấy đƣợc từ kho dữ liệu (cất giữ tất cả các thông tin liên quan đến hợp đồng có thể đƣợc từ kho dữ liệu thu thập nhờ kiến thức kinh doanh khi giao tiếp. Ví dụ nhƣ HANDSET là cột chỉ ra mẫu handset đang dùng của khách hàng có phải là mẫu mới nhất hay chƣa. Thông tin này từ nhân viên tiếp thị, quyết định nó có phải là mẫu mới hay không)
Thông tin thay đổi trong hợp đồng nhƣ số lần đổi phƣơng thức thanh toán cũng có thể đƣợc tính nhƣ dữ liệu.
d) Dữ Liệu Cuộc Gọi
Chúng ta có thể lấy dữ liệu từ kho hay trực tiếp từ CDR (Ghi chi tiết cuộc gọi)
Chúng ta có thể lấy dữ liệu từ kho hay trực tiếp từ CDR (Ghi chi tiết hóa đơn )
f) Mục Lục Chuyên Hóa Từ Dữ Liệu Đã Được Xử Lý
Những mục có thể đƣợc chuyên hóa khác nhau từ dữ liệu đã giải quyết:
o Bảng chất lƣợng cuộc gọi
o Ảnh hƣởng của khách hàng
o Mục lục điện thoại di động
o Hành động cuộc gọi
Bảng chất lƣợng cuộc gọi:
Đây là thƣớc đo chất lƣợng cuộc gọi xác định bằng nhiều cách. Một cách là xác định những số liệu nhập vào nhƣ số điện thoại gọi đến và gọi đi tính cả cuộc gọi bị ngừng, hỏng. Cách khác để xác định là xác định thƣớc đo chuyên hóa tần số những cuộc gọi hỏng trên tổng số các cuộc gọi. Lấy tổng số các cuộc gọi chia cho số cuộc gọi hỏng và ngắt quãng.
Họat động ảnh hƣởng của khách hàng:
Điều này có thể đƣợc xác định bằng số lƣợng số điện thoại gọi đến và gọi đi. Ở đây chúng ta xác định số lƣợng các số điện thoại khác nhau đƣợc gọi là các số điện thoại khác có ảnh hƣởng.
Danh bạ mạng:
Đây là số các mạng điều hành khác nhau (của số điện thoại gọi đi) trong khung thời gian nhất định
Hành động cuộc gọi:
Xu hƣớng hành động cuộc gọi có thể đƣợc chuyên hóa từ số phút cuộc gọi trong vòng N tháng. Một cách để xác định cuộc gọi là xác định tỉ lệ tăng trung bình số phút gọi.