Các kỹ thuật mô hình hóa dự báo phổ biến

Hiện nay, có rất nhiều các kỹ thuật dự báo để xây dựng mô hình. Các hệ thống và các nhà cung cấp khác nhau hỗ trợ các kỹ thuật khác nhau, nhưng các môi trường xây dựng mô hình mã nguồn mở và sản phẩm thương mại cũng hỗ trợ khá nhiều các kỹ thuật khác nhau. Có một số kỹ thuật dành riêng cho một lớp bài toán cụ thể, số khác là có tính tổng quát và có thể được sử dụng cho nhiều lớp ứng dụng khách nhau. Ví dụ, các máy vec tơ hỗ trợ (Support Vector Machine) nằm trong loại này.

Một SVM ánh xạ các vec tơ dữ liệu đầu vào tới một không gian có số chiều cao hơn, ở đó một“siêu phẳng tối ưu” chia tách các dữ liệu được xây dựng. Có hai siêu

phẳng (hyperplane) song song được xây dựng trên mỗi bên của siêu phẳng này. Hình 3.4là một ví dụ trong đó một siêu phẳng tối ưu đang chia tách hai loại đối tượng (hình tam giác và hình vuông). Siêu phẳng chia tách tối ưu là một siêu phẳng làm tăng tối đa khoảng cách giữa hai siêu phẳng song song. Khoảng cách giữa hai siêu phẳng càng lớn thì mô hình được giả định càng chính xác. Các điểm dữ liệu nằm trên một trong hai siêu phẳng song song xác định khoảng cách lớn nhất được gọi là các vec tơ hỗ trợ.

Hình 3.4: Siêu phẳng tối ưu chia tách đối tượng và vec tơ hỗ trợ

Các SVM, cũng như các mạng nơ-ron và các mô hình hồi quy logic, là các kỹ thuật tổng quát khá mạnh. Mặc dù chúng khác nhau về mặt toán học nhưng đều tạo ra các kết quả tương đương nhau. Các cây quyết định cũng là một kỹ thuật mô hình hóa dự báo tổng quát nổi bật về khả năng dự báo. Vì chúng dễ sử dụng và dễ hiểu, nên cây quyết định là kỹ thuật mô hình hóa dự báo được sử dụng phổ biến nhất.

Các kỹ thuật phân cụm có khả năng phân cụm dữ liệu đầu vào theo mức độ giống nhau. Hình 3.5cho thấy một ví dụ trong đó dữ liệu đầu vào đã được chia thành hai cụm. Trong khi dữ liệu trong cụm đầu tiên được mô tả bằng các hình tam giác màu xanh lá cây, thì dữ liệu trong cụm thứ hai được mô tả bằng các hình vuông màu đỏ.

Hình 3.5: Kết quả cụm tập dữ liệu thành hai cụm

Mặc dù mỗi kỹ thuật dự báo đều có ưu nhược điểm khác nhau, độ chính xác của mô hình phụ thuộc rất nhiều vào dữ liệu thô đầu vào và các đặc tính được sử dụng để huấn luyện mô hình dự báo. Như đã đề cập ở trên, việc xây dựng mô hình đòi hỏi rất nhiều việc phân tích dữ liệu và xử lý dữ liệu. Thông thường, từ hàng trăm trường dữ liệu thô ban đầu, chỉ chọn ra một tập con các trường và thực hiện xử lý trước các trường trước khi sử dụng chúng cho một mô hình hóa dự báo. Theo cách này, một mô hình dự báo tốt thường phụ thuộc nhiều vào việc xử lý tốt dữ liệu so với kỹ thuật được sử dụng để huấn luyện mô hình. Điều đó không có nghĩa là kỹ thuật dự báo không quan trọng. Nếu sử dụng sai kỹ thuật hoặc chọn tập các tham số đầu vào sai, dữ liệu tốt cũng sẽ cho kết quả dự báo sai.

Với mạng nơ-ron, có thể dùng được với tất cả các hình dạng và các biểu mẫu. Việc lựa chọn một cấu trúc mạng đúng rất quan trọng để xây dựng một mô hình dự báo tốt. Như thể hiện trong Hình 3.6, các mạng nơ-rontruyền thẳng (feed-forward) có một lớp đầu vào, với số nút đúng bằng số lượng các trường đầu, các lớp ẩn và một tầng đầu ra (trong bài toán hồi quy thì tầng đầu ra được tạo bởi chỉ một nút duy nhất đại diện cho trường cần dự báo). Mặc dù ở giữa các tầng đầu vào và đầu ra, mạng nơ- ron có thể được cấu hình với số lượng các tầng ẩn và các nút ẩn tùy ý, vấn đề ở đây là nếu chọn cấu trúc mạng nơ-ron quá ít các nút ẩn, thì nó có thể không học được hàm ánh xạ giữa các trường đầu vào và đích. Nếu có quá nhiều nút ẩn thì cấu trúc mạng quá

phức tạp và có thể bị“over fit”. Có nghĩa là, nó sẽ học toàn bộ dữ liệu đầu vào, nhưng sẽ không thể dự báo các sự kiện trong tương lai.

Hình 3.6: Mạng nơ-ron hướng thuận với tầng đầu vào, tầng ẩn và tầng đầu ra

Các kỹ thuật phân cụm đòi hỏi cung cấp cho mô hình phân cụm số lượng các cụm trước khi huấn luyện. Trong trường hợp này, nếu số lượng các cụm quá nhỏ, mô hình có thể không thấy được các sự khác biệt quan trọng trong dữ liệu đầu vào. Mặt khác, nếu số lượng các cụm là quá lớn, nó có thể bỏ sót những nét tương đồng quan trọng. Trong ví dụ thể hiện trong Hình 3 . 6số lượng các cụm được thiết lập là ba.

Một mô hình dự báo cũng có thể đồng thời được sử dụng hỗn hợp các kỹ thuật mô hình hóa khác nhau. Tức là có thể kết hợp nhiều mô hình với nhau thành một mô hình dự báo. Đầu ra của mô hình dự báo này là tổng hợp từ các đầu ra của các mô hình đơn lẻ mà chúng được kế thừa các ưu điểm của các kỹ thuật khác nhau.

Hình 3.7: Mô hình dự báo hỗn hợp

Hình 3.7 biểu diễn mô hình dự báo hỗn hợp từ nhiều mô hình với các kỹ thuật khác nhau. Đầu ra có thể được tính toán bằng các phép nội suy, max (min) hoặc trung bình có trọng số.

Các kỹ thuật mô hình hóa dự báo phổ biến

Một số thuật toán cơ bản

Biến ngôn ngữ và giá trị của nó