III – ÁP DỤNG THỰC TIỄ N:
4- Ƣớc lƣợng dữ liệu
Nếu đã tạo ra và sắp đặt mẫu dữ liệu cho việc dự đoán khuấy động, bƣớc thứ tƣ trong phƣơng pháp khai phá dữ liệu là chính từ dữ liệu đƣa ra ƣớc lƣợng đầu tiên.
Trong bƣớc này chúng ta phải hiểu đƣợc sự phân bổ dữ liệu và những phần tử ngoại lai có liên quan.
Ví dụ về những phần khơng có giá trị, nhƣ chúng ta có thể thấy trong hình 16, giới tính, N, phƣơng thức trả là những dữ liệu vô nghĩa. Chúng ta có thể dùng chức năng cải tiến của IM để chỉnh sửa những phần này cho chính xác.
Ước lượng dữ liệu cho mẫu dự đốn khuấy động:
Trong tiến trình dự đốn khuấy động chúng ta cần tiến hành một bƣớc ƣớc lƣợng dữ liệu khác để nhận xét những mục nhập vào khác với mục lục khuấy động ra sao. Sử dụng dữ liệu thống kê giúp chúng ta có cái nhìn tổng thể hơn để chọn lựa những mục cần nhập vào phục vụ cho mẫu dự đoán khuấy động. Nhƣ đƣa ra trong hình 16 địi hỏi về dữ liệu nhập đƣa ra ý tƣởng cho ngƣời sử dụng trong việc lựa chọn thông tin sao cho đạt hiệu quả cao nhất. Mơ hình mà IM đƣa ra trên đây đem lại lợi ích cho ngƣời sử dụng vì ngƣời sử dụng sẽ dễ dàng chọn lựa thơng tin để đƣa vào mơ hình.
Trong hình 17 những dữ liệu xuất hiện trong hình đƣa ra đặc điểm khác biệt cơ bản đối chiếu với chính nó trong dữ liệu khuấy động. Nhƣ chúng ta thấy, thông tin khác biệt nhiều nhất là thông tin NEW_HANDSET (loại điện thoại đang sử dụng) .
Phần trên của hình chứa 80% dữ liệu khách hàng hiện thời, nên chú ý trƣờng hợp này vì kết quả đối chiếu hoàn toàn đối lập với kết quả khi lấy dữ liệu toàn bộ khách hàng. Tỉ lệ khách hàng sử dụng loại handset mới nhiều hơn hẳn so với tỉ lệ này xét trên toàn bộ khách hàng, đƣờng dây hiện thời (STATUS) cho kết quả có vẻ nhƣ đang họat động, và họ gọi tới nhiều số máy khác nhau hơn (OUTSPHERE_RANGCE) .
Phần dƣới của hình 17 gồm 20% dữ liệu trong tổng số dữ liệu. Nội dung nhập vào của cột này là thông tin về những khách hàng đã rời đi. kết quả từ phần này đối lập với kết quả tồn thể (khách hàng). Nói cách khác ngƣời khuấy động đối lập với toàn bộ (khách hàng). Nhƣ chúng ta thấy, sự phân bổ nội dung cũng khác với phần hình trên. Những khách hàng này sử dụng điện thoại cũ hơn và gọi đến ít số hơn. Do đó chất lƣợng cuộc gọi cũng thấp hơn mức trung bình.
Sử dụng dữ liệu thống kê, chúng ta dễ dàng nhận thấy NEW_HANDSET, STATUS, OUTSPHERE_RANGCE, QUALITY, CONTRACT EX là năm cột dữ liệu cho kết quả hữu ích để phân biệt ngƣời khuấy động từ cột dữ liệu khách hàng. Nếu chúng ta mở rộng mỗi phần bằng cách nhấp đôi chuột, nhiều cột dữ liệu hơn sẽ đƣợc trình bày.
Chú ý: chúng ta có 5 dữ liệu dễ phân biệt đƣa ra trên đây. Mặc dù vậy cịn có nhiều dữ liệu khác có mối tƣơng quan và nếu bất kỳ trong số này liên hệ đến kết quả những dữ liệu cịn lại có thể cho những thơng tin có giá trị.
Tuy nhiên, những thơng tin thống kê chính đại diện cho dữ liệu cần thống kê đƣợc thu thập dựa vào sự phân bổ dữ liệu không chứa khái niệm về dữ liệu dự đoán.