Mô hình dự báo chỉ đơn giản là một hàm toán học có thể học cách ánh xạ giữa một
tập của các biến dữ liệu đầu vào, thường được đóng gói trong một bản ghi vào một biến đáp ứng hay biến đích. Trong thực tế, một mô hình dự báo càn phải có rất nhiều các biến
độc lập được chọn lựa từ bộ dữ liệu, bên cạnh đó là các qui trình, chính sách đặc trưng cho từng ngành khoa học cung phải được kết hợp sử dụng trong mô hnhf dự báo. Mô hình dự báo có thể được chia làm hai loại, thứ nhất là học có giám sát, còn lại được gọi là học không có giám Xá7|8|.
Khi chúng ta nói quá trình học này là có giám sát, có nghĩa là trong quá trình huấn
luyện, dữ liệu được trình bày theo một mô hình dự báo với các dữ liệu đầu vào và đầu ra hay kết quả mong muốn. Việc huấn luyện được lặp lại cho đến khi mô hình học được
Một mô hình dự báo cũng có thể sử dụng việc học không giám sát. Trong trường hợp này, nó chỉ được trình bày với dữ liệu đầu vào. Sau đó, nhiệm vụ của nó là tìm ra các bản ghi dữ liệu đầu vào khác nhau liên quan với nhau như thế nào. Phân cụm (clustering) là kiểu mô hình dự báo được sử dụng phổ biến nhất, có sử dụng cách học tập không giám sát.
Vì vậy, để đưa ra một ví dụ, hãy tưởng tượng rằng bạn muốn tạo ra một mô hình dự báo sẽ có thể nói ai đó trong số khách hàng của bạn có thể bỏ đi (20 hoặc 50% giảm giá cho ai?). Trước tiên, bạn quay trở lại các dữ liệu lịch sử của mình trong lúc tìm kiếm
các đặc tính mà bạn có thể sử dụng để xây dựng một mô hình làm như vậy. Bằng cách xem xét cơ sở dữ liệu của mình, bạn có thể sưu tập một danh sách các thuộc tính liên quan đến sự mất dần khách hàng đối với cả khách hàng hiện tại và khách hàng trong quá
khứ đã bỏ đi. Nó có thể bao gồm số lượng các khiếu nại trong 6 tháng qua, số lượng các
thẻ hỗ trợ đã mở trong 4 tuần qua, khách hàng có thường hay mua hàng không và đã tiêu bao nhiêu tiền để mua hàng hóa hoặc các dịch vụ (trên mạng hoặc trong cửa hàng) và thông tin tổng quát như tuổi tác, giới tính và số liệu thống kê dân số. Trong hình vẽ 1, hai khách hàng như vậy cùng với các thuộc tính thu được cho mỗi người. Khách
t Custcmer 1
No Comploints ∏ last 6 months
Opened 1 support tickets in the last 4 weeks
Sperit a total Cf buying merchandise
Spent a total of i,9S7' in services
Purcftased 12 items n last 4 weeks
Is 54 years old
Is a male Lives in Chicago
Custcmer 2.
3 complaints in last S ItIOrtttiS
Opened 2 support tickets in the last 4 weeks
Spent a total Cf $ 1,234 buying merchandise
Spent a total of ¢123 in services
PurcftMBd 2 items in last 4 weeks
Is 34 years old
Is a male
Lives in LosAngeIes
Hình 1- Hai khách hàng và các đặc tính đầu vào của họ
Trong một kịch bản học tập có có giám sát, như thể hiện trong Hình 2 chúng ta cung cấp tất cả các thuộc tính dữ liệu khách hàng của mình cho một kỹ thuật dự báo trong quá trình huấn luyện. Trong trường hợp này, đầu vào gồm có tất cả các đặc tính mà bạn đã có được (liên quan đến sự hài lòng, nhân khẩu học và v.v..) cho mỗi khách hàng cũng như kết quả liên quan. Kết quả này nói cho mô hình dự báo biết có hay không
có bản ghi dữ liệu đại diện cho một khách hàng, người đã bỏ đi hoặc đã không bỏ đi. Lý
do ở đây là mô hình có thể học các sự khác biệt, hay các mẫu, giữa hai nhóm: khách hàng hài lòng hiện có và khách hàng đã bỏ đi. Dữ liệu khách hàng gồm các đặc tính đầu
Hình 2-Mô hình dự báo sự trung thành của khách hàng
Sau khi chúng ta xây dựng một mô hình dự báo, chúng ta cần phải xác định tính phù hợp cho nó. Xác nhận sự phù hợp có nghĩa là cố gắng trả lời câu hỏi ở hai mức: "Nó
có làm việc không?" và nếu có, "Nó chính xác đến mức nào?". Nếu câu trả lời cho câu hỏi đầu tiên rõ ràng là có (yes) và câu trả lời cho câu hỏi thứ hai là chính xác cao, thì bạn biết mô hình của mình làm việc được và nó có thể tổng quát hóa tốt. Mọi thứ mà bạn cần bây giờ là làm cho nó sẵn sàng thực hiện. Để làm điều này, nó cần được triển khai hoạt động. May mắn thay, hiện có một tiêu chuẩn tên là PMML - Ngôn ngữ đánh dấu mô hình dự báo (PMML: Predictive Model Markup Language) cho phép các mô hình dự báo dễ dàng di chuyển giữa các hệ thống khác nhau. Với PMML, chúng ta có thể sử dụng một ứng dụng như IBM SPSS Statistics để xây dựng và xác nhận hợp lệ một mô hình dự báo, rồi chúng ta có thể lưu trữ như là một tệp PMML.
Sau khi triển khai, chúng ta có thể sử dụng mô hình khách hàng bỏ đi để theo dõi tất cả hoạt động của khách hàng hiện có. Một mô hình dự báo tốt có thể tổng quát hóa kiến thức của mình để tính toán nguy cơ bỏ đi ngay cả đối với các khách hàng mà mô hình dự báo chưa bao giờ gặp phải trước đó. Hình 3 cho thấy dữ liệu cho một khách hàng như thế, được xác định là khách hàng 3, đang được cung cấp cho mô hình khách hàng bỏ đi của chúng ta. Nếu mô hình này nhận thấy rằng một mẫu khách hàng bỏ đi đang nổi lên với một khách hàng cụ thể, nó sẽ làm tăng nguy cơ hay kết quả đầu ra của nó một cách phù hợp cho đến khi có một quyết định kinh doanh ở bộ phận của bạn để giải quyết nó. Khi mà khách hàng cụ thể đó lại trở nên hài lòng với các sản phẩm và các
dịch vụ của bạn, nguy cơ này sẽ giảm bớt, do không còn thấy mẫu khách hàng bỏ đi nữa. Khi đã triển khai hoạt động, mô hình khách hàng bỏ đi vừa mới tạo ra được sử dụng
lược, chính sách kinh doanh hợp lý đối với từng đối tượng khách hàng nhằm giảm thiểu
nó.
Hình 3-Mô hình dự báo sự trung thành của khách hàng 2.2. Mô hình dự báo sử dụng các kỹ thuật phân lớp
2.2.1. Giới thiệu về kỹ thuật phân lớp
Phân lớp là phương pháp khai phá dữ liệu được áp dụng phổ biến nhất hiện nay. Trong đó sử dụng một tập hợp các ví dụ chưa được phân loại để phát triển một mô hình mà có thể phân loại được. Ve cơ bản phân loại được sử dụng để phân loại từng hạng mục trong một tập hợp các dữ liệu vào một trong những tập được xác định trước các lớp
hoặc nhóm. Phương pháp phân loại sử dụng các kỹ thuật toán học như cây quyết định, quy hoạch tuyến tính, mạng Neutral và thống kê. Trong việc phân loại, chúng ta tạo ra cho phần mềm có thể hiểu được cách phân loại các thành phần dữ liệu thành các nhóm.
Dữ liệu được phân tích bởi thuật toán phân loại và sử dụng thực nghiệm để ước tính độ chính xác của các quy tắc phân loại. Nếu độ chính xác có thể chấp nhận bởi các quy tắc thì có thể được áp dụng cho các mẫu dữ liệu mới. Các thuật toán phân loại sử dụng các dữ liệu chưa được phân loại đó để xác định tập hợp các thông số cần thiết cho những điều chỉnh thích hợp. Sau đó các thuật toán mã hóa các các thông số và chuyển chúng thành một mô hình và được gọi là sự phân loại. Có các loại mô hình phân lớp cơ bản sau:
- Phân loại theo cây quyết định. - Phân loại Bayesian.
- Mạng Neural.
- Phân loại dựa trên sự kết hợp.
Quá trình phân lớp dữ liệu thường gồm hai bước:
- Bước 1: Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu có sẵn Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính phân lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training
dataset). Nhãn lớp của tập dữ liệu huấn luyện phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học có giám sát (supervised learning).
- Bước 2: Sử dụng mô hình để phân lớp dữ liệu
Chúng ta phải tính độ chính xác của mô hình, nếu độ chính xác là chấp nhận được thì mô hình sẽ được sử dụng để dự đoán lớp cho các mẫu dữ liệu khác trong tương lai.
Phương pháp này rất có ích trong giai đoạn đầu của quá trình nghiên cứu khi ta biết rất ít về đối tượng cần nghiên cứu, nó là tiền đề để tiến hành các phương pháp phát hiện tri thức.