Một mô hình dự báo chỉ đơn giản là một hàm toán học có thể học cách ánh xạ giữa một tập của các biến dữ liệu đầu vào, thường được đóng gói trong một bản ghi và một biến đầu ra hay biến đích.
Quá trình học này là có giám sát bởi vì trong quá trình huấn luyện (học), dữ liệu được thể hiện theo một mô hình dự báo với các dữ liệu đầu vào và đầu ra hay kết quả mong muốn. Việc huấn luyện được lặp lại cho đến khi mô hình học được hàm ánh xạ giữa các đầu vào đã cho và đầu ra mong muốn. Các ví dụ về các mô hình dự báo đang sử dụng việc học tập có giám sát bao gồm các mạng nơ-ron lan truyền-ngược, các máy véc tơ hỗ trợ và các cây quyết định. Một mô hình dự báo cũng có thể sử dụng việc học tập không giám sát, trong trường hợp này, nó chỉ được theer hiện với dữ liệu đầu vào. Sau đó, tìm ra các bản ghi dữ liệu đầu vào khác nhau liên quan với nhau như thế nào. Phân cụm (clustering) là kiểu mô hình dự báo được sử dụng phổ biến nhất, có sử dụng cách học tập không giám sát.
Ví dụ, đối với một công ty kinh doanh thương mại, ta cần xây dựng một mô hình dự báo về vấn đề đánh giá “ai trong số khách hàng của mình có thể rời bỏ”. Trước tiên, từ CSDL nhật ký, lập một danh sách các đặc tính liên quan đến sự mất dần khách hàng (đối với cả khách hàng hiện tại và khách hàng trong quá khứ đã bỏ đi). Các đặc tính quan tâm ví dụ như: số lượng các khiếu nại trong 6 tháng qua, khách hàng có thường hay mua hàng không và đã tiêu bao nhiêu tiền để mua hàng hóa hoặc các dịch vụ (trên mạng hoặc trong cửa hàng) và thông tin tổng quát như tuổi tác, giới tính, …Hình 1 cho thấy hai khách hàng như vậy cùng với các đặc tính của mỗi người.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Hình 3.1: Hai khách hàng và các đặc tính đầu vào của họ
Giả sử một mô hình dự đoán được học tập có giám sát, như thể hiện trong Hình 3.2, tất cả dữ liệu khách hàng được cung cấp cho mô hình dự báo trong quá trình huấn luyện. Đầu vào gồm các đặc tính có được từ CSDL nhật ký (liên quan đến sự hài lòng, nhân khẩu học, …) cho mỗi khách hàng cũng như kết quả liên quan. Đầu vào cung cấp thông tin cho mô hình dự báo biết có hay không có bản ghi dữ liệu đại diện cho một khách hàng, người đã bỏ đi hoặc đã không bỏ đi. Lý do ở đây là mô hình có thể học các sự khác biệt, hay các mẫu, giữa hai nhóm: khách hàng hài lòng hiện có và khách hàng đã bỏ đi.
Hình 3.2: Dữ liệu khách hàng cung cấp cho mô hình
Hình 3.2 cho thấy CSDL nhật ký cung cấp thông tin đầu vào gồm các đặc tính đầu vào và kết quả đầu ra trong quá trình huấn luyện.
Sau khi chúng ta xây dựng một mô hình dự báo, chúng ta cần phải xác nhận tính hợp lệ cho nó. Xác nhận hợp lệ là cố gắng trả lời câu hỏi ở hai mức: “Nó có làm việc không?” và nếu có, “Nó chính xác đến mức nào?”. Nếu câu trả lời cho câu hỏi đầu tiên rõ ràng là “có” và câu trả lời cho câu hỏi thứ hai là chính xác cao, thì có thể biết mô
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
hình làm việc được hay không và có thể tổng quát hóa tốt. Khi này mô hình dự báo sẵn sàng cho khai thác, sử dụng. Hiện nay có một tiêu chuẩn tên là PMML (Ngôn ngữ đánh dấu mô hình dự báo) cho phép các mô hình dự báo dễ dàng di chuyển giữa các hệ thống khác nhau. Với PMML, chúng ta có thể sử dụng một ứng dụng như IBM SPSS Statistics để xây dựng và xác nhận hợp lệ một mô hình dự báo, có thể lưu trữ như là tệp định dạng kiểu PMML.
Sau khi triển khai, chúng ta có thể sử dụng mô hình khách hàng bỏ đi để theo dõi tất cả hoạt động của khách hàng hiện có. Một mô hình dự báo tốt có thể tổng quát hóa tri thức của mình để dự đoán nguy cơ bỏ đi của khách hàng ngay cả đối với các khách hàng mà mô hình dự báo chưa bao giờ gặp trước đó. Hình 3.3cho thấy dữ liệu của khách hàng 3 được cung cấp cho mô hình để dự đoán tình trạng rời bỏ của khách. Nếu mô hình dự đoán nhận thấy nguy cơ một khách hàng rời bỏ là khá cao với một khách hàng cụ thể, thông tin đó hỗ trợ cho nhà quản lý đưa ra một quyết định kinh doanh phù hợp để khắc phục nguy cơ đó. Khi mà khách hàng cụ thể đó lại trở nên hài lòng với các sản phẩm và các dịch vụ của bạn, nguy cơ này sẽ giảm bớt, mô hình dự đoán không còn đưa ra dấu hiệu nguy cơ khách hàng bỏ đi nữa.
Hình 3.3. Mô hình dự đoán về nguy cơ rời bỏ đối với một khách hàng