Với cách tiếp cận dữ liệu chuỗi thời gian trên hai biến số này và phương pháp học máy tổ hợp, chúng tôi đề xuất các phương pháp khác nhau để dự báo dòng tiền ra nói trên.. 1.3 Cấu trúc
TỔNG QUAN
Giới thiệu vấn đề
Trong tình hình kinh tế - xã hội Việt Nam hiện nay, phần đông dân số là tầng lớp người lao động có thu nhập trung bình thấp, việc chi tiêu cho sinh hoạt cuộc sống gặp nhiều khó khăn Với đồng lương thấp, hàng tháng họ chỉ có thể tiết kiệm được một khoản nhỏ, số tiền nhỏ bé này thường không đủ để mua những vật dụng tiện nghi cần thiết cho gia đình khi mà vật giá mỗi ngày một tăng cao hay những khi đau bệnh xảy ra Do đó, họ thường phải đi vay mượn, dẫn đến những phát sinh lãi suất không cần thiết Thấy được những khó khăn đó, với mô hình kinh doanh sáng tạo, công ty tài chính X đã được hình thành ở Việt Nam, cùng những mong muốn đóng góp có ích cho xã hội, đặc biệt là đối với tầng lớp người dân có thu nhập thấp
Thông qua hình thức cấp tín dụng cho người lao động đang làm việc tại các xí nghiệp nhà máy, công ty X đã giúp cho người lao động có thể mua những vật dụng gia đình cần thiết hay tạm ứng tiền để gửi về quê…, khi mà tiền lương tháng của họ không có sẵn Công ty còn đem lại những lợi ích khác như mua hàng trả góp 0% lãi suất trong khi giá cả mặt hàng ngang bằng so với thị trường, dịch vụ chăm sóc khách hàng và hậu mãi chu đáo, vận chuyển hàng hóa tiện lợi, kích thích thị trường tiêu dùng, tạo việc làm Mô hình hoạt động của công ty X đã mang đến nhiều ý nghĩa thiết thực cho người lao động và xã hội
Với hoạt động kinh doanh phức tạp, việc quản lý dòng tiền của công ty X là vấn đề khó khăn được đặt ra Để có thể kiểm soát tốt dòng tiền, công ty đang cần một hệ thống có khả năng dự báo trước về điều đó một cách hiệu quả Dòng tiền ra, vào của công ty bao gồm nhiều danh mục nhỏ khác nhau Xét trên dòng tiền chi ra có thể chia làm các loại chính sau:
Suppliers – Tiền chi trả nhà cung cấp (NCC) từ việc công ty đặt mua hàng hóa để bán lại cho người lao động
Topup/Airline – Tiền chi trả cho các nhà mạng, hãng hàng không, nhà xe từ việc công ty mua/đặt vé và bán lại cho khách hàng
CashAdvance – Lượng tiền chuẩn bị sẵn, phục vụ cho hoạt động tạm ứng tiền của khách hàng
Withdraw/TransferEwallet – Lượng tiền chuẩn bị sẵn, phục vụ cho hoạt động chuyển tiền của khách hàng
OperatingExpenses – Chi phí cho các hoạt động bên trong công ty như hoạt động quảng cáo, điện…
BankLoanRepayment – Tiền phải trả các khoản vay ngân hàng của công ty
Salary – Tiền chi trả lương cho nhân viên
Trong các khoản chi trên, dòng tiền ra từ các hoạt động Topup/Airline,
CashAdvance, Withdraw/TransferEwallet hiện tại thưa và chiếm tỉ lệ nhỏ trong tổng dòng tiền ra Đối với các mục OperatingExpenses, BankLoanRepayment, Salary lượng tiền chi trả cho các hoạt động này hiện tại được công ty kiểm soát tốt vì tính ổn định và có thể biết trước Cuối cùng, lượng tiền chi cho khoản mục Suppliers là vấn đề chúng tôi cần giải quyết bởi vì dòng tiền ra cho hoạt động này chiếm tỉ lệ lớn, việc dự đoán trước gặp nhiều khó khăn vì chịu ảnh hưởng bởi nhu cầu đặt mua của khách hàng trong tương lai và những kỳ hạn thanh toán khác nhau được đặt ra bởi những NCC áp đặt lên công ty
Với mô hình hoạt động sáng tạo, công nhân viên (khách hàng) làm việc tại các xí nghiệp nhà máy có ký kết hợp đồng sử dụng chương trình phúc lợi của công ty X, họ được công ty X cấp một khoản tín dụng Với khoản tín dụng được cấp này, họ chỉ được phép sử dụng để mua các sản phẩm do công ty X cung cấp Điều đặc biệt trong kinh doanh bán sản phẩm ở công ty là công ty không có sẵn các sản phẩm, mà thông qua các đơn đặt hàng của khách hàng, cùng với chuỗi cung ứng mạnh mẽ của hơn 170 NCC, công ty phải chi tiền trước mua sản phẩm từ NCC và bán lại cho khách hàng theo hình thức trả góp 0% lãi suất Điều này cho thấy rằng, khi khách hàng đặt mua một lượng lớn trong tương lai, công ty X sẽ phải chi trả một lượng lớn tương ứng cho NCC vào thời điểm đó Nếu việc dự báo không được thực hiện sẽ gây ra những ảnh hưởng nghiêm trọng như không đáp ứng nhu cầu hàng hóa cho khách hàng, thiếu hụt vốn, phạt lãi suất ngân hàng do thanh toán chậm…
Bài toán đặt ra là dự báo số tiền sẽ chi trả cho NCC ở thời điểm tương lai từ hoạt động mua hàng Lượng tiền chi của công ty X trong hoạt động này phụ thuộc vào lượng hàng hóa mà khách hàng đặt mua trong tương lai và thời gian thanh toán mà
NCC yêu cầu công ty phải trả Việc dự báo dòng tiền ra trên khoản mục Suppliers đóng góp đáng kể trong việc quản lý toàn bộ dòng tiền hoạt động, giúp cho công ty được điều hành tốt hơn, đem lại sự phát triển ổn định.
Mục tiêu đề tài
Nhiều công trình liên quan đến dự báo dòng tiền đã được thực hiện Tuy nhiên, với đặc thù đề tài được xuất phát từ miền nghiệp vụ cụ thể của một công ty ở Việt Nam, có mô hình kinh doanh như đã giới thiệu Cho đến nay chưa có công trình nghiên cứu nào đã thực hiện giải quyết vấn đề tương tự Mặt khác, đề tài này là một đề tài mang ý nghĩa thực tế, vì nó đóng góp vào hoạt động dự báo dòng tiền của một công ty tài chính ở Việt Nam Với những lý do trên là động cơ để chúng tôi thực hiện đề tài này
Mục tiêu của đề tài là dự báo dòng tiền ra cho hoạt động mua hàng của công ty
X Số tiền được dự báo giúp cho công ty luôn chủ động trong việc chi trả, chủ động lượng tiền mặt có sẵn, tránh phải vay mượn ngân hàng những khoản dư thừa, làm phát sinh lãi suất không cần thiết Từ đó, giúp công ty hoạt động hiệu quả Các công việc được thực hiện trong đề tài:
Tìm hiểu nghiệp vụ chi tiền mua hàng của công ty
Đưa ra giải pháp để dự báo dòng tiền ra cho hoạt động mua hàng
Thu thập và xử lý dữ liệu
Xây dựng mô hình dự báo
Thực nghiệm, cải tiến và đánh giá kết quả
Khi khảo sát nghiệp vụ ở công ty, chúng tôi thấy rằng các đơn đặt hàng của khách hàng được công ty X xử lý ngay khi có trên hệ thống Điều này phản ánh thật sự doanh số bán cũng như lượng tiền mà công ty sẽ phải chi trả cho NCC Do đó, giả định được đặt ra là không có sự tác động của công ty X đến việc xử lý chậm trễ các đơn hàng của khách hàng và chúng tôi chỉ xét trên số tiền đã chi trả cho NCC, tức là trường hợp khi sản phẩm được công ty đặt mua và đã chi trả tiền cho NCC nhưng chưa chuyển đến khách hàng, vì một lý do nào đó, khách hàng hủy đặt mua sản phẩm này Sau đó sản phẩm có thể được chuyển về NCC và hoàn tiền lại cho công ty Bên cạnh đó, do có nhiều loại NCC khác nhau và chúng tôi đã đưa ra giả định là xem xét tất cả NCC như một loại duy nhất (chi tiết ở mục 4.1)
Mặc dù đề tài này mang tính chất đặc thù riêng, nhưng bản chất nó xuất phát từ những vấn đề về doanh số sản phẩm hay nhu cầu tiêu dùng Do đó, một số công trình liên quan sau đây cho thấy những phương pháp được dùng để dự báo và có thể tham khảo để giải quyết bài toán.
Cấu trúc của luận văn
Các phần còn lại của luận văn bao gồm:
Chương 2 chúng tôi giới thiệu về các công trình liên quan: những công trình dự báo doanh số sản phẩm, dự báo trên dữ liệu chuỗi thời gian với nhiều cách tiếp cận khác nhau như các mô hình toán học, các phương pháp học máy và sự lại ghép giữa các phương pháp
Chương 3 bao gồm các lý thuyết về chuỗi dữ liệu thời gian, các giải thuật gom cụm, các phương pháp học máy tổ hợp, các độ đo sự tương tự và cuối cùng là hai độ đo để đánh giá kết quả dự báo
Chương 4 chúng tôi đề xuất các mô hình với cách tiếp cận khác nhau để dự báo dòng tiền chi
Chương 5 là phần thí nghiệm và đánh giá kết quả dự báo từ các mô hình
Chương 6 là tổng kết sau khi thực hiện đề tài.
CÁC CÔNG TRÌNH LIÊN QUAN
Dự báo bằng mô hình toán học
Để dự đoán nhu cầu các mặt hàng cho một công ty nước giải khát ở HongKong, Zhu et al [22] đã xây dựng một mô hình Markov Chain đa biến bậc nhất Nhu cầu của mỗi sản phẩm ở một thời điểm được xem như một trong các trạng thái sau: 6 (very fast-moving), 5 (fast-moving), 4 (standard), 3 (slow-moving), 2 (very slow-moving) và 1 (no sales volume) Như vậy, với mỗi sản phẩm theo thời gian sẽ là một chuỗi các trạng thái cho biết nhu cầu được tiêu thụ trong quá khứ
Sự khó khăn của mô hình là ước lượng các đối số, trong đó có ma trận xác suất chuyển đổi từ những trạng thái trong chuỗi dữ liệu này sang những trạng thái trong chuỗi dữ liệu khác Tác giả đã tối thiểu hóa lỗi dự báo bằng việc đề xuất phương pháp chỉ xét những chuỗi dữ liệu có mối tương quan với nhau, tức là chỉ xét những sản phẩm mà nhu cầu của chúng có tác động lẫn nhau Với kết quả thử nghiệm trên nhiều sản phẩm khác nhau cho thấy phương pháp đề xuất của tác giả đạt được độ chính xác cao hơn mô hình Markov Chain truyền thống
Shukla et al [17] đã áp dụng mô hình ARIMA (AutoRegressive Integrated
Moving Average) để dự báo nhu cầu thị trường thực phẩm rau quả ở Ahmedabad Ấn Độ Tác giả đã tham khảo nhiều công trình về dự báo nhu cầu thực phẩm rau quả, nhưng trong đó một số nghiên cứu chỉ xem dự báo nhu cầu rau quả một cách tổng quát mà không xem nhu cầu trên từng loại thực phẩm và thời gian dự báo được thực hiện trên tuần, tháng mà không là hàng ngày để giúp cho các nhà cung cấp nông nghiệp có quyết định tốt hơn trong thu hoạch Sau khi trải qua nhiều lần lặp việc hiện thực 3 giai đoạn của mô hình: xác định mô hình, ước lượng đối số và kiểm tra mô hình thích hợp, tác giả có được mô hình ARIMA(2, 0, 1) là mô hình tốt nhất với dữ liệu Dữ liệu về doanh số bán của thực phẩm rau quả được thử nghiệm là cà chua và củ hành Với độ đo lỗi MAPE (Mean absolute percentage error), kết quả MAPE của cà chua là 29.51%, củ hành là 28.96%.
Dự báo bằng phương pháp học máy
Với những bất lợi của các phương pháp truyền thống trên dữ liệu có tính phi tuyến Mô hình dự báo bằng phương pháp học máy đã được nghiên cứu để cải thiện khả năng dự đoán tốt hơn
Frank et al [19] đã sử dụng mạng nơron nhân tạo để dự báo ngắn hạn doanh số các mặt hàng được bán ở siêu thị, nhằm mục đích giảm chi phí kho bãi và đem lại lợi nhuận hơn từ các mặt hàng được ưa chuộng Bên cạnh dữ liệu chuỗi thời gian về doanh số bán hàng, tác giả sử dụng thêm thông tin của giá bán và chiến dịch quảng cáo để cải thiện chất lượng dự báo Mạng nơron được huấn luyện bởi giải thuật lan truyền ngược và xử lý song song hóa Dữ liệu đầu vào cho tầng input của mạng là một tập những giá trị được quan sát trong quá khứ gần nhất Dữ liệu của doanh số, giá và số ngày quảng cáo của sản phẩm được tiền xử lý và giá trị của chúng được chuyển đổi về đoạn [0,1] Trải qua quá trình huấn luyện, kết quả là mỗi mặt hàng có một mạng thích hợp nhất với dữ liệu bán hàng của mặt hàng đó Thử nghiệm dự báo doanh số tuần kế tiếp của một mặt hàng cho độ đo lỗi RMSE (Root Mean squared error) là 5.19
Frank et al [20] đã tiếp tục sử dụng mô hình nơron nhân tạo để dự báo doanh số bán hàng ở siêu thị Lần này tác giả đã cải tiến mô hình bằng cách sử dụng thêm thông tin có sự ảnh hưởng đến doanh số, đó là sự thay đổi về giá và mùa nghỉ lễ Tác giả đã thực hiện so sánh mạng nơron với hai phương pháp Nạve và Statistical Kết quả cho thấy, có 18 trong 20 mặt hàng được dự đoán cho kết quả tốt hơn hai phương pháp kia về các độ đo RMSE/Mean
Với mạng nơron nhân tạo, Hasin et al [8] đã áp dụng để dự báo nhu cầu sản phẩm trong thị trường bán lẻ Tác giả đã sử dụng mạng ANN (Artificial Neural
Network) với 11 biến tác động đến nhu cầu sản phẩm như sau:
Ngày gần thời gian lễ hội
Hoạt động quảng cáo như giảm giá, miễn phí
Hoạt động quảng cáo như trúng thưởng
Những mặt hàng được trưng bày
Khoảng giá (trung bình, thấp, cao)
Những ngày đầu tháng hay những ngày cuối tháng
Tốc độ của mặt hàng được tiêu thụ (nhanh, chậm, trung bình)
Loại nhãn hàng được yêu thích
Dựa trên độ đo lỗi MAPE, tác giả so sánh mô hình mạng ANN với mô hình Holt-Winter, MAPE của ANN là 10.1% và MAPE của Holt-Winter là 29.1%
Trong những năm gần đây, các phương pháp học máy tổ hợp được phát triển mạnh bởi tính đa dạng của một tập hợp các bộ dự báo được xây dựng bên trong cũng như khả năng tránh được tính thiên vị (bias) của một bộ dự báo đơn lẻ Oliveira et al [14] đã dùng phương pháp học máy tổ hợp Bagging, với tập hợp bộ dự báo được xây dựng trong Bagging là các cây quyết định hồi quy trên dữ liệu chuỗi thời gian Tác giả đã đề xuất một số mô hình khác nhau dựa trên những thay đổi về độ trễ (lag) của các biến mô tả, phương sai và độ lệch chuẩn Bằng độ đo MSE (Mean Squared Error), tác giả thử nghiệm trên 14 chuỗi dữ liệu, thực hiện so sánh phiên bản Bagging chuẩn với các biến thể Bagging được đề xuất và mô hình ARIMA, kết quả cho thấy các biến thể Bagging tốt hơn Bagging chuẩn và Bagging chuẩn tốt hơn ARIMA
Tương tự như Bagging, phương pháp học máy tổ hợp Random Forest được xây dựng trên một tập hợp những cây quyết định, Cheng et al [6] đã áp dụng Random Forest trên dữ liệu chuỗi thời gian để dự báo nhu cầu điện, các đặc trưng được dùng làm thuộc tính mô tả là những giá trị nhu cầu điện trong quá khứ với độ trễ (lag) n, giá trị ở vị trí n + 1 là thuộc tính mục tiêu được dự báo bởi n giá trị trước đó Tác giả đã tiến hành thử nghiệm với nhiều thông số khác nhau của độ trễ n, phần trăm số lượng thuộc tính mô tả để xây dựng bộ dự báo và số lượng bộ dự báo Kết quả được so sánh với 2 phương pháp khác là mạng nơron lan truyền ngược (Back Propagation
Neural Network) và mạng nơron hồi quy tổng quát (Generalized Regression Neural
Network), cho thấy Random Forest là tốt nhất cả về độ chính xác lẫn tính ổn định trên độ đo MAPE Cũng với Random Forest, Mei et al [13] đã sử dụng để dự báo giá điện trong thị trường điện ở New York, bên cạnh việc dùng dữ liệu lịch sử giá điện để xây dựng các thuộc tính mô tả với độ trễ n Tác giả còn sử dụng thêm dữ liệu có tính chất mùa, tác động đến giá điện như nhu cầu điện, nhiệt độ ngoài trời… Kết quả dự báo được so sánh với kết quả của hai phương pháp dùng mạng nơron nhân tạo ANN và ARMA (AutoRegressive Moving Average) cho thấy Random Forest là tốt nhất trong ba phương pháp.
Dự báo bằng phương pháp lai
Nhiều kỹ thuật dự báo đã được phát triển, mỗi kỹ thuật có những điểm mạnh riêng Gần đây, các nhà nghiên cứu đã áp dụng phương pháp lai, để kết hợp nhiều kỹ thuật với nhau, nhằm tận dụng sức mạnh của mỗi kỹ thuật, cho khả năng dự báo hiệu quả hơn
Aburto et al [1] đã nghiên cứu cải tiến chuỗi cung ứng bằng cách áp dụng hệ thống lai của mô hình ARIMA (AutoRegressive Integrated Moving Average) và mạng nơron nhân tạo để dự báo nhu cầu sản phẩm cho siêu thị Economax ở Chile Sau khi nghiên cứu từng kỹ thuật, tác giả thấy rằng mô hình ARIMA hoạt động tốt với những dữ liệu có tính chất tuyến tính, sự khó khăn trong mô hình ARIMA là xác định các đối số mô hình thông qua dữ liệu Với mạng nơron có lợi thế về khả năng tự học được mẫu dữ liệu, thích hợp với dữ liệu có tính phi tuyến, vấn đề với mạng nơron là quá trình học có thể dẫn đến quá khớp với dữ liệu, mất khả năng tổng quát hóa
Hệ thống lai dùng mô hình cộng, dữ liệu ban đầu được mô hình hóa bởi ARIMA
Sau đó, phần lỗi từ quá trình thực hiện bởi ARIMA sẽ được mô hình trong mạng nơron Tương tự như Hasin et al [8], tác giả đã sử dụng thêm những biến có tác động đến doanh số bán hàng, để chỉ định những ngày đặc biệt, làm đầu vào cho mạng nơron như ngày cuối tháng, ngày nghỉ lễ, ngày quốc khánh, tuần lễ giáng sinh…
Dựa trên một số công cụ đã xây dựng sẵn, tác giả đã dùng mô hình ARIMA trong SPSS 8.0 và mạng nơron trong DataEngine 4.0 để thực nghiệm trên dữ liệu
Với hai độ đo lỗi MAPE và NMSE (Normalized mean square error), kết quả cho thấy hệ thống lai đạt hiệu quả tốt hơn so với những mô hình đơn lẻ của ARIMA, mạng nơron và Seasonal navie
Chang et al [5] đã sử dụng hệ thống lai mạng nơron nhân tạo với logic mờ FBPN (The fuzzy back-propagation network) để dự báo doanh số bán hàng hàng tháng của ngành công nghiệp bo mạch Ba giai đoạn chính trong FBPN là giai đoạn lựa chọn biến số với dữ liệu là các nhân tố tác động đến doanh số bán, được tác giả thu thập từ 3 miền nghiệp vụ [5] Những nhân tố này sẽ được xử lý lại, để chọn ra những biến số đầu vào bằng các phương pháp SRA (Stepwise regression analysis), FDM (Fuzzy
Delphi Method) SRA là phương pháp xác định mối quan hệ giữa những biến độc lập và biến phụ thuộc bằng độ đo F FDM là phương pháp lập danh sách các câu hỏi từ những nhân tố ban đầu, các câu hỏi được chỉ định khoảng giá trị, danh sách câu hỏi sẽ được đánh giá bởi những chuyên gia miền, kết quả đánh giá trải qua bước làm mờ số để chọn ra những nhân tố quan trọng Giai đoạn tiền xử lý dùng phương pháp phân tích R/S (Rescaled Range Analysis) để đánh giá tác động của đặc tính xu hướng trong chuỗi dữ liệu doanh số bán Sau đó, phương pháp Winter sẽ được dùng để đưa đặc tính xu hướng của doanh số vào Giai đoạn dự báo thực hiện dự báo doanh số hàng tháng của ngành công nghiệp bo mạch bằng mô hình FBPN
Kết quả thử nghiệm của tác giả cho thấy phương pháp lựa chọn biến đặc trưng bằng FDM tốt hơn SRA khi so sánh cả về độ chính xác và độ lỗi Bên cạnh đó, khi áp dụng đặc tính xu hướng trong dữ liệu sẽ có độ chính xác tốt hơn so với khi không áp dụng Dựa trên độ đo MAPE, tác giả đã thực hiện so sánh mô hình FBPN với 3 mô hình khác là GF (Grey Forecasting), MRA (Multiple Regression Analysis), BPN (Back-Propagation Network) GF có độ lỗi cao nhất, kế tiếp là MRA và BPN, và cuối cùng là FBPN có độ lỗi nhỏ nhất
Tham khảo từ mô hình của Chang et al [5], Hicham et al [9] đã phát triển hệ thống lai DELPHI-FCBPN (Delphi - Fuzzy Clustering and Back-Propagation
Neural) dựa trên phương pháp Delphi, gom cụm mờ và mạng nơron lan truyền ngược với tỉ lệ học thích nghi, để dự báo doanh số bán hàng từ một công ty sản xuất đóng gói bao bì Tác giả đã thực hiện 3 giai đoạn như trong công trình của Chang Tuy nhiên, trong giai đoạn lựa chọn biến số quan trọng, tác giả chỉ sử dụng phương pháp Delphi và trong giai đoạn dự báo, tác giả sử dụng phương pháp FCBPN (Fuzzy
Clustering and Back-Propagation Neural Networks), FCBPN bao gồm 2 bước: đầu tiên, dữ liệu sẽ được gom cụm bằng phương pháp Fuzzy C-Mean Sau đó, dữ liệu của mỗi cụm sẽ được huấn luyện bởi mạng nơron nhân tạo sử dụng giải thuật lan truyền ngược với tỉ lệ học thích nghi
Kết quả thực nghiệm cho thấy hệ thống lai của tác giả có độ đo lỗi MAPE và RMSE tốt hơn các phương pháp đơn lẻ như BPN (Back-Propagation Neural
Networks), WES (Winter’s Exponential Smoothing), FNN (fuzzy neural network)
Hình 2.1 Chuỗi dữ liệu doanh số bán lẻ của 5 mặt hàng.[10]
Việc sử dụng các mô hình hồi quy đa biến, các chuỗi dữ liệu thời gian có mối quan hệ với nhau, có thể tham gia vào việc hỗ trợ nhau dự báo từng thành phần riêng
Dựa trên cách tiếp cận chuỗi dữ liệu thời gian đa biến, Swift et al [18] đã kết hợp mô hình VAR (Vector AutoRegression) với giải thuật di truyền GA (Genetic Algorithm) để giải quyết bài toán đa chuỗi dữ liệu thời gian có tính chất thưa Các hệ số trong mô hình VAR có thể được ước lượng bằng hệ phương trình Yule-Walker hoặc phương pháp bình phương nhỏ nhất Sau đó, Mô hình VAR có thể được dùng để dự báo, tuy nhiên kết quả dự báo thường có độ sai số cao Do đó, Swift đã thực hiện cải tiến kết quả dự báo của mô hình VAR, bằng cách sử dụng giải thuật di truyền với các hoạt động lai ghép và đột biến trên hệ số của VAR Phương pháp của Swift cho kết quả hội tụ nhanh khi các hệ số ban đầu của VAR tốt Ngược lại, sự hội tụ diễn ra chậm và khi dữ liệu rất thưa thớt, việc ước lượng hệ số của VAR là không khả thi
Trong thị trường bản lẻ, các sản phẩm thường có doanh số thưa và không đủ dữ liệu để dự báo doanh số tương lai, Jha et al [10] đã đề xuất giải thuật gom cụm mới để nhóm các chuỗi dữ liệu tương tự nhau vào cùng cụm, sau đó, dữ liệu cụm có thể làm đầu vào cho các mô hình hồi quy đa biến và dự báo doanh số cho từng cụm Hình 2.1 biểu diễn chuỗi dữ liệu doanh số của 5 mặt hàng, có 3/5 chuỗi là ngắn và thưa
Giải thuật gom cụm của Jha có tên là Optmove, thực hiện bước chuyển ngẫu nhiên bằng cách di chuyển các chuỗi dữ liệu từ cụm này sang cụm khác, để các chuỗi gần nhau nhất nằm cùng cụm và phải đảm bảo một tập các ràng buộc cho cụm Các ràng buộc này được đặt ra để cụm có thể chứa đủ dữ liệu, giúp cho việc dự báo tốt hơn.
CƠ SỞ LÝ THUYẾT
Dữ liệu chuỗi thời gian
Chuỗi dữ liệu thời gian một chuỗi các giá trị được quan sát một cách tuần tự theo thời gian [16] Trong một chuỗi dữ liệu thời gian, các quan sát liền kề thường có mối quan hệ phụ thuộc với nhau, phân tích dữ liệu chuỗi thời gian được xem như kỹ thuật phân tích các mối quan hệ này Mục tiêu chính của phân tích dữ liệu chuỗi thời gian là mô hình hóa quá trình đã tạo ra dữ liệu, cung cấp những mô tả tác động và hiểu được quá trình ấy, để có thể dự báo những giá trị ở tương lai
Mô hình dữ liệu chuỗi thời gian được định nghĩa như là một mô hình của những dữ liệu được quan sát {Xt} tuân theo một sự phân phối xác suất nào đó của những biến ngẫu nhiên {Xt} Dự báo trong dữ liệu chuỗi thời gian là dùng một mô hình để dự báo những giá trị tương lai dựa trên những giá trị đã diễn ra trong quá khứ [16]
Các thành phần của dữ liệu chuỗi thời gian
Một chuỗi dữ liệu thời gian là sự hợp thành của nhiều thành phần riêng lẻ, một vài thành phần có thể dự đoán được nhưng cũng có một số thành phần mang tính chất ngẫu nhiên cao, khó có thể dự đoán Nhìn chung, một chuỗi dữ liệu thời gian có thể được phân rã thành 3 thành phần sau đây [12]:
Thành phần xu hướng (Trend): là thành phần thể hiện sự tăng hay giảm giá trị của chuỗi dữ liệu thời gian trong giai đoạn dài hạn
Thành phần mùa (Seasonal): là thành phần thể hiện sự thay đổi của giá trị có tính lặp đi lặp lại theo các mùa trong năm
Thành phần bất thường (Irregular): là thành phần thể hiện sự thay đổi của giá trị một cách ngẫu nhiên, khó có thể dự đoán
Hình 3.1 mô tả các thành phần sau khi phân rã của một chuỗi dữ liệu thời gian
Bảng 3.1: Giải thuật gom cụm K-means [7]
Các giải thuật gom cụm
Giải thuật gom cụm K-means
Giải thuật K-means thực hiện một cách lặp lại thao tác gán các đối tượng vào trung tâm cụm gần nhất với nó và cập nhật lại trung tâm cụm sau đó Giải thuật dừng khi giá trị các trung tâm cụm không còn thay đổi, Bảng 3.1 mô tả giải thuật K-means và hình 3.2 mô tả các bước khởi tạo, lặp và kết thúc của K-means
Giải thuật K-means có độ phức tạp tuyến tính O(nkt) Trong đó, n là số đối tượng, k là số cụm và t là số lần lặp Tuy nhiên, kết quả gom cụm của giải thuật có
Hình 3.1 Các thành phần xu hướng, mùa và bất thường.[12] dạng siêu cầu và kích thước cụm đồng đều, không thích hợp cho việc khai phá các cụm có dạng lồi hay các cụm có kích thước khác biệt lớn
Giải thuật gom cụm DensityPeaks
Giải thuật DensityPeaks được tạo ra bởi Rodriguez et al [15] Với giả định rằng, trung tâm cụm dữ liệu thường được bao quanh bởi những đối tượng lân cân có mật độ cục bộ thấp hơn nó và các trung tâm cụm thường nằm ở khoảng cách xa nhau
Hình 3.3 là một ví dụ cho ý tưởng của DensityPeaks, thực hiện gom cụm các đối tượng trong không gian 2 chiều Hai đối tượng trung tâm cụm là 1 và 10, nằm ở khoảng cách xa nhau và có mật độ cục bộ lần lượt là 7 và 4
DensityPeaks thực hiện tính toán 2 đại lượng sau:
Mật độ cục bộ của đối tượng i ( i ): là số lượng đối tượng gần với đối tượng i, sao cho khoảng cách từ các đối tượng đó đến i nhỏ hơn một khoảng cách cho trước d c Bảng 3.2 mô tả giải thuật tính mật độ cục bộ cho n đối tượng
Hình 3.2 Các bước K-means: khởi tạo, lặp và kết thúc.[7]
Hình 3.3 Gom cụm DensityPeaks trong không gian 2 chiều.[15]
Bảng 3.3: Giải thuật tính khoảng cách gần nhất đến những đối tượng có mật độ cao hơn.[2]
Khoảng cách từ đối tượng i đến những đối tượng có mật độ cục bộ cao hơn ( i ): là khoảng cách nhỏ nhất từ i đến những đối tượng có mật độ cục bộ cao hơn nó Bảng 3.3 mô tả giải thuật tính
Với k đối tượng có tích = * lớn nhất sẽ được chọn làm trung tâm cụm, các đối tượng còn lại được gán đến cụm dựa trên khoảng cách của nó đến trung tâm cụm gần nhất
Trong bảng 3.3, từ dòng 1 đến dòng 3 thực hiện chạy qua từng đối tượng i và tìm những đối tượng có mật độ cao hơn i để lưu vào _list(i) Dòng 4 thực hiện sắp xếp _list theo thứ tự tăng dần, điều này làm cho vị trí sortIndex(1) trở thành vị trí của đối tượng có mật độ cục bộ cao nhất Từ dòng 5 đến 7, với mỗi đối tượng trong
Bảng 3.2: Giải thuật tính mật độ cục bộ.[2]
Bảng 3.4: Giải thuật chọn các trung tâm cụm.[2]
Bảng 3.5 Giải thuật gán phần tử vào cụm.[2] thứ tự được sắp xếp, thực hiện tìm khoảng cách gần nhất của nó đến những đối tượng có mật độ cục bộ cao hơn Dòng 8 thực hiện gán khoảng cách lớn nhất cho đối tượng có mật độ cao nhất Bảng 3.4 mô tả giải thuật chọn k đối tượng làm trung tâm cụm, với k đối tượng có ( * ) lớn nhất sẽ được chọn
Trong bảng 3.5, dòng 1 đến 3, thực hiện gán nhãn cho các trung tâm cụm Dòng 4 đến 8 thực hiện gán các đối tượng còn lại vào cụm gần nhất theo thứ tự giảm dần của mật độ cục bộ
Giải thuật DensityPeaks có khả năng gom cụm với những cụm có hình dạng và kích thước bất kỳ, hình 3.4 là kết quả gom cụm của DensityPeaks trên 4 tập dữ liệu khác nhau được Rodriguez thử nghiệm [15] Giải thuật có độ phức tạp tất định trên việc tính 2 đại lượng và cũng như gán cụm cho các đối tượng còn lại Giải thuật chỉ yêu cầu 2 thông số cài đặt là khoảng cách d c và số cụm k
Rodriguez đã đề nghị chọn số cụm k dựa trên biểu đồ mối quan hệ giữa phần tử i và tích i = i * i , các trung tâm cụm i sẽ có i lớn nhất và nằm tách biệt với các đối tượng còn lại bởi một đường phân tách như hình 3.5
Begum et al [2] đã sử dụng DensityPeaks để gom cụm trên dữ liệu chuỗi thời gian, dựa trên độ đo khoảng cách DTW (Dynamic Time Warping) và so sánh với 4
Hình 3.4 Kết quả gom cụm DensityPeaks trên 4 tập dữ liệu.[15]
Hình 3.5 Mối quan hệ giữa phần tử n và tích [15] phương pháp gom cụm khác là K-means, Hierarchical, DBSCAN, Spectral Kết quả thử nghiệm trên 5 tập dữ liệu khác nhau cho thấy DensityPeaks là tốt nhất
Giải thuật gom cụm Optmove
Phương pháp học máy tổ hợp
Bagging là một phương pháp học máy tổ hợp, được phát minh vào năm 1996 bởi Breiman [3], nhằm làm giảm đặc tính thiên vị (bias) của một mô hình đơn, giải thuật xây dựng một tập hợp các mô hình, mỗi mô hình có thể là một bộ phân loại hoặc dự báo Bảng 3.7 mô tả các bước của giải thuật Bagging
Mỗi mô hình đơn trong Bagging được xây dựng trên một tập dữ liệu khác nhau, tập dữ liệu này được phát ra từ tập dữ liệu gốc sử dụng kỹ thuật lấy mẫu bootstrap, việc lấy mẫu bằng bootstrap làm cho một mẫu trong tập dữ liệu gốc có thể xuất hiện nhiều lần hoặc không xuất hiện trong tập dữ liệu mới [7]
Sau khi huấn luyện, để phân loại một mẫu X mới, mẫu X được phân loại bởi từng mô hình đơn, kết quả phân loại từ các mô hình chiếm số đông là kết quả của X Đối với bài toán dự báo, thực hiện lấy trung bình các kết quả
RandomForest là một phương pháp học máy tổ hợp, được phát minh vào năm 2001 bởi Breiman [4], giải thuật xây dựng một khu rừng những cây quyết định không cắt tỉa nhánh Mỗi cây quyết định được xây dựng trên một tập dữ liệu khác nhau được lấy mẫu bằng kỹ thuật bootstrap từ tập dữ liệu gốc, mỗi nút trong cây được phân tách bởi một số F thuộc tính chọn ngẫu nhiên, F nhỏ hơn số lượng thuộc tính có sẵn, F
Bảng 3.8: Giải thuật RandomForest.[7] thường được chọn là log 2 (số lượng thuộc tính có sẵn) + 1 Giải thuật RandomForest có thể được mô tả một cách hình thức như trong bảng 3.8
RandomForest sử dụng tính ngẫu nhiên và xây dựng cây quyết định không cắt tỉa nhánh làm giảm đặc tính thiên vị (bias) của một cây đơn và sự tương quan giữa các cây trong khu rừng Giải thuật mạnh mẽ với lỗi và đặc tính nhiễu của dữ liệu
Tương tự Bagging, RandomForest có thể áp dụng cho cả bài toán phân loại và dự báo Trong bài toán phân loại, kết quả sẽ tuân theo luật số đông Trong bài toán dự báo, kết quả là trung bình kết quả dự báo của các cây quyết định
RandomCommittee là một phương pháp học máy tổ hợp, được phát triển bởi cộng đồng mã nguồn mở Weka Pentaho, chúng tôi đã liên hệ với tổ chức Weka và được biết rằng phương pháp này chưa có công trình nào được công bố Tham khảo từ Witten [21], RandomCommittee là một phương pháp xây dựng một tập các mô hình, mỗi mô hình dùng một số ngẫu nhiên (seed) được phát Nếu mô hình xây dựng trên một bộ học có sử dụng tính ngẫu nhiên, thì giá trị seed sẽ được sử dụng để phát số ngẫu nhiên RandomCommittee có thể được mô tả hình thức như bảng 3.9
Tương tự như Bagging, RandomCommittee có thể áp dụng cho cả bài toán phân loại và dự báo Với bài toán phân loại, kết quả sẽ theo luật số đông Với bài toán dự báo, kết quả trung bình từ các mô hình được dùng
Cây quyết định (decision tree) là một phương pháp mạnh mẽ và phổ biến cho cả hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo Cây quyết định có cấu trúc biểu diễn dưới dạng cây và có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức với các luật If-Then Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root) [7]
Cây quyết định có thể được dùng để phân lớp hoặc dự báo bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá Trên cơ sở này chúng ta có thể chuyển đổi về các luật quyết định Dữ liệu được cho dưới dạng các bản ghi có dạng (x, y) = (x1, x2, x3, …, xk, y) Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa (x1, x2, x3,…,xk) là các biến sẽ giúp ta thực hiện công việc đó Giải thuật cây quyết định được trình bày trong bảng 3.10 Cây quyết định có thể chứa các nhánh phản ánh dữ liệu nhiễu, việc cắt tỉa cây có thể giúp cho cây tổng quát hóa hơn, cải tiến độ chính xác Một số loại cây quyết định như ID3, C4.5 và CART
Trong giải thuật cây quyết định, cho một thuộc tính phân tách A, nếu A là thuộc tính có giá trị rời rạc thì các nhánh tại nút A tương ứng với các giá trị rời rạc của A
Nếu A là thuộc tính có giá trị liên tục thì nút N được phân tách theo 2 nhánh với điểm phân tách (split_point) theo điều kiện A ≤ split_point và A > split_point, split_point thường được chọn là giá trị trung bình của 2 giá trị liền kề của A
Bảng 3.10: Giải thuật cây quyết định [7]
Cho bài toán phân loại, phương thức xác định điều kiện phân tách là một thủ tục heuristic, thực hiện chọn lựa thuộc tính sao cho sự phân tách lớp là tốt nhất với tập các mẫu dữ liệu, thủ tục này hoạt động dựa trên một số độ đo như Information Gain, Gain Ratio và Gini Index Cho bài toán dự báo, phương thức xác định điều kiện phân tách thực hiện chọn lựa thuộc tính dựa trên độ đo lỗi của biến phụ thuộc.
Các độ đo sự tương tự
Hiện nay, có rất nhiều độ đo sự tương tự (khoảng cách) giữa các chuỗi dữ liệu thời gian trên nhiều miền ứng dụng khác nhau Trong đó, độ đo Euclid đủ khả năng giải quyết được nhiều bài toán Tuy nhiên, do thiếu sự linh hoạt về khả năng tịnh tiến
Hình 3.6 Sự khác biệt giữa Euclid và DTW.[11] và co giãn trên trục thời gian của Euclid, độ đo xoắn thời gian động DTW (Dynamic
Time Warping) là một sự thay thế hiệu quả [11] Hình 3.6 cho thấy sự khác biệt giữa
2 độ đo Euclid và DTW Độ đo Euclid
Với 2 chuỗi dữ liệu Q, C có trục thời gian i đi từ 1 đến n, ta có độ đo Euclid của
𝑖=1 Độ đo Euclid cho thời gian tính toán nhanh nhưng chỉ áp dụng được với những chuỗi có độ dài bằng nhau Độ đo xoắn thời gian động DTW (Dynamic Time Warping)
Kỹ thuật tính toán độ đo xoắn thời gian động là cách sắp xếp hai chuỗi thời gian sao cho độ đo khoảng cách là nhỏ nhất Để sắp xếp đươc hai chuỗi này ta phải xây dựng ma trận n×m nơi phần tử (𝑖 𝑡ℎ , 𝑗 𝑡ℎ ) của ma trận là khoảng cách 𝐷𝑖𝑠𝑡(𝑞 𝑖 , 𝑐 𝑗 ) của hai điểm 𝑞 𝑖 , 𝑐 𝑗 và mỗi điểm (𝑖, 𝑗) này là sự sắp xếp giữa hai điểm 𝑞 𝑖 , 𝑐 𝑗 Đường xoắn
W được định nghĩa là sự sắp xếp của những phần tử trong hai chuỗi Q, C sao cho khoảng cách giữa chúng là nhỏ nhất Từ đó, ta có 𝑊 = 𝑤 1 , 𝑤 2 , … , 𝑤 𝑘 , … , 𝑤 𝐾 với max(m,n) ≤ K < m + n – 1 và 𝑤 𝑘 = (𝑖, 𝑗) 𝑘 Hình 3.7 biểu diễn ma trận và đường xoắn tối ưu của hai chuỗi Q và C
Do đó, ta sẽ tìm được nhiều đường xoắn khác nhau nhưng ta chỉ quan tâm tới đường xoắn mà làm tối thiểu hóa chi phí ngắn nhất:
Hình 3.7 Ma trận và đường xoắn tối ưu.[11]
Thực hiện tính toán độ đo DTW bằng quy hoạch động dựa vào mối quan hệ đệ quy sau, với 𝛾(𝑖, 𝑗) là cách tích lũy của mỗi điểm:
Khoảng cách đó là tổng của khoảng cách giữa các phần tử hiện tại với khoảng cách tích lũy nhỏ nhất của các điểm xung quanh Độ đo Euclid có thể xem như trường hợp đặc biệt của DTW với ràng buộc 𝑤 𝑘 = (𝑖, 𝑗) 𝑘 , 𝑖 = 𝑗 = 𝑘 và hai chuỗi có độ dài bằng nhau
DTW phù hợp với các dữ liệu chuỗi thời gian có hình dạng tương tự nhau nhưng chiều dài thời gian khác nhau DTW cũng cho ra kết quả chính xác hơn các độ đo trong không gian Euclid Nhưng DTW có thời gian tính toán lâu, độ phức tạp O(nm).
Các độ đo đánh giá kết quả dự báo
𝑁 Độ đo lỗi phần trăm tuyệt đối tháng (APME –Absolute Percent Monthly Error)
Y t là giá trị thực tại thời điểm t
F t là giá trị được dự báo tại thời điểm t
Công ty X thường thực hiện dự báo hàng tháng để cân đối tài chính Do đó, độ đo APME được đặt ra để phục vụ cho việc đánh giá độ chính xác kết quả dự báo hàng tháng.
PHƯƠNG PHÁP ĐỀ XUẤT
Nghiệp vụ chi tiền mua hàng
Khách hàng của công ty X là công nhân viên làm việc tại các xí nghiệp nhà máy, có đăng ký sử dụng chương trình phúc lợi của X, họ được cấp một khoản tín dụng và có thể dùng số tiền này để mua hàng của công ty X theo hình thức trả góp ba tháng, sáu tháng với 0% lãi suất Trong quá trình tìm hiểu nghiệp vụ ở công ty, chúng tôi có được thông tin về kênh đặt mua của khách hàng và các hoạt động sau đó dẫn đến việc chi tiền của công ty như sau
Với nhiều sản phẩm phong phú, công ty cung cấp 4 kênh tiếp cận khách hàng:
Website: cho phép khách hàng tìm kiếm và đặt mua sản phẩm từ website của công ty
Call: nhân viên của công ty tiếp thị và đặt hộ sản phẩm cho khách hàng thông qua điện thoại
FieldSale: nhân viên của công ty gặp khách hàng trực tiếp để tiếp thị và đặt hộ sản phẩm
SMS: khách hàng dùng tin nhắn điện thoại để đặt mua sản phẩm
Khi đơn đặt hàng của khách hàng xuất hiện trên hệ thống, nhân viên của công ty X gọi điện thoại đến khách hàng để xác nhận việc đặt mua Sau khi có được xác nhận đồng ý, đơn hàng khách hàng được chia ra thành các sản phẩm, nhân viên công ty tiến hành gom các sản phẩm cùng chủng loại thành đơn hàng mới và đặt mua từ các NCC thích hợp Hình 4.1 cho thấy luồng phát sinh đặt mua sản phẩm diễn ra và điều này ảnh hưởng đến số tiền mà công ty X chi trả NCC
Với khoảng 170 NCC, theo hình thức hợp đồng giữa công ty X và NCC có thể chia thành ba loại:
Ký gửi: Với loại NCC này, công ty X phải ký gửi một khoản tiền trước cho
NCC Khi đơn hàng được gửi qua NCC, chúng sẽ được xử lý sớm nhất và trừ dần vào khoản tiền đã gửi Hiện tại, số tiền mà công ty X chi hàng ngày chiếm tỉ lệ lớn (khoảng 80%) từ loại NCC này
Công nợ: Loại NCC này cho phép công ty X nhận hàng trước và trả tiền sau một khoảng thời gian
Không công nợ: Loại NCC này yêu cầu công ty X chi tiền tại thời điểm nhận được hàng hóa.
Công thức tính tiền chi mua hàng
Theo nghiệp vụ mô tả trên, chúng tôi thấy rằng số tiền mà công ty X chi trả NCC đến từ khâu đặt mua hàng của công ty với NCC Số tiền chi mua hàng ở thời điểm tương lai phụ thuộc vào nhiều yếu tố như: số tiền hàng hóa mà công ty đã đặt mua xét đến thời điểm hiện tại và số tiền hàng hóa phát sinh trong tương lai, thời điểm phát sinh đặt mua, thời điểm thanh toán tiền hàng cho những loại NCC khác nhau
Với hai loại NCC Ký gửi và Không công nợ, chúng tôi thấy rằng tiền chi trả cho hai loại NCC này có chung tính chất Đó là, khi công ty X đặt mua hàng từ hai loại
Hình 4.1 Luồng phát sinh đặt mua hàng từ khách hàng đến NCC
NCC này, thì thời điểm chi tiền có thể hiểu là ngay lập tức Với loại NCC công nợ thì thời điểm chi tiền là khác nhau tùy theo thỏa thuận giữa công ty X và các NCC trong loại này Tuy nhiên, khoảng thời gian chi trả cho phép của loại NCC công nợ là không cứng nhắc và có thể thay đổi trong tương lại, phụ thuộc vào mối quan hệ giữa công ty X và các NCC công nợ, điều này gây nên khó khăn cho việc xác định thời điểm chi trả trong tương lai trên loại NCC này Trong mục tiêu đề tài ở mục 1.2, chúng tôi mong muốn dự báo số tiền cần chi Do đó, thời điểm chi tiền cho loại NCC công nợ được giả định là ngay lập tức khi công ty X đặt mua hàng Từ những thông tin trên chúng tôi đưa ra công thức tính tiền chi mua hàng của công ty X như sau:
t: là ngày công ty X chi trả tiền mua hàng cho các NCC
pay(t): Số tiền công ty X chi trả cho các NCC vào ngày t
Amount i (t): Số tiền công ty X chi trả cho NCC i vào ngày t.
Phương pháp học máy tổ hợp
Trong phần này, chúng tôi đề nghị mô hình dự báo trên dữ liệu chuỗi thời gian với cách tiếp cận hồi quy trên dữ liệu và sử dụng các giải thuật học máy tổ hợp để dự báo tiền chi của công ty
Dự báo tiền chi dựa trên chuỗi dữ liệu thời gian tổng
Chúng tôi sử dụng một chuỗi dữ liệu thời gian, áp dụng ba phương pháp học máy tổ hợp để dự báo tiền chi theo ngày và so sánh kết quả của chúng Hình 4.2 mô tả các bước của mô hình
Tập dữ liệu ban đầu: là một chuỗi dữ liệu thời gian, ghi nhận giá trị tổng số tiền mà công ty đã chi trả hàng ngày cho tất cả các NCC thông qua việc đặt mua hàng, chuỗi dữ liệu này tương tự với pay(t) trong công thức chi tiền được trình bày ở 4.2
Hình 4.3 biểu thị hình thức chuỗi dữ liệu của pay(t) với 1 ≤ t ≤ n là ngày bắt đầu và kết thúc của tập dữ liệu thu thập được
Chuyển đổi dữ liệu: để dữ liệu có thể hoạt động trên giải thuật học máy, chuỗi dữ liệu thời gian tổng pay(t) cần được chuyển đổi phù hợp, làm đầu vào quá trình huấn luyện mô hình, dữ liệu chuyển đổi dùng độ trễ lag k với cách tiếp cận hồi quy
Bên cạnh đó để có thể bắt được hiệu ứng ngày và tính chu kỳ ngắn hạn của dữ liệu, chúng tôi tham khảo từ công trình của Hasin et al [8], bổ sung thêm hai thuộc tính của dữ liệu là DayOfWeek và DayOfMonth DayOfWeek là thuộc tính rời rạc, giá trị
[1-7] tương ứng với [thứ hai – chủ nhật] DayOfMonth là thuộc tính rời rạc, giá trị [1- 31] tương ứng với ngày trong tháng, cả hai thuộc tính này được chuyển đổi từ thuộc tính mục tiêu Hình 4.4 biểu thị kết quả chuyển đổi dữ liệu thành n-k mẫu, mỗi mẫu bao gồm k + 2 thuộc tính mô tả và một thuộc tính mục tiêu
Huấn luyện mô hình bằng phương pháp học máy tổ hợp: huấn luyện riêng tập
Hình 4.2 Mô hình dự báo tiền chi trên một chuỗi dữ liệu tổng
Hình 4.3 Chuỗi dữ liệu tiền chi tổng của công ty theo ngày
Bagging (Các giải thuật ở mục 3.2) Với phương pháp RandomForest xây dựng một tập các bộ học là cây quyết định, trong khi bộ học của Bagging và RandomCommittee là tùy chọn Do đó, chúng tôi chọn bộ học cây quyết định cho cả Bagging và RandomCommittee để các phương pháp có sự công bằng khi so sánh kết quả Điều này dẫn đến các phương pháp khác nhau ở đặc điểm sau:
RandomForest sử dụng kỹ thuật bootstrap để chọn mẫu dữ liệu và lựa chọn một số thuộc tính để để xây dựng bộ học
Bagging sử dụng kỹ thuật bootstrap để chọn mẫu dữ liệu và dùng tất cả thuộc tính để xây dựng bộ học
RandomCommittee dùng tất cả dữ liệu và lựa chọn một số thuộc tính để xây dựng bộ học
Dùng mô hình đã huấn luyện để dự báo: việc dự báo các điểm dữ liệu ngày tiếp theo, cần dùng các mẫu dữ liệu làm đầu vào mô hình đã huấn luyện Mẫu dữ liệu để dự báo điểm n + 1, chứa các thuộc tính mô tả là giá trị của k điểm trước đó (tương tự như ở phần chuyển đối dữ liệu) Để dự báo p điểm ngoài mẫu kế tiếp, chúng tôi dùng cách tích lũy dựa trên các kết quả dự báo thu được và kết quả dự báo của p điểm này là số tiền dự đoán sẽ chi trong p ngày kế tiếp của công ty
Dự báo tiền chi dựa trên đa chuỗi dữ liệu thời gian
Trong cách tiếp cận này, chúng tôi dùng mô hình tương tự như hình 4.2 Tuy nhiên, thay vì sử dụng một chuỗi dữ liệu tổng tiền chi theo ngày, chúng tôi sử dụng nhiều chuỗi dữ liệu, mỗi chuỗi tương ứng với tiền chi cho một NCC theo ngày Hình
Hình 4.4 Chuyển đổi một chuỗi dữ liệu thành n-k mẫu
4.5 mô tả các bước thực hiện của mô hình và tập dữ liệu như hình 4.6 Trong quá trình xử lý và phân tích dữ liệu, chúng tôi thấy rằng việc đặt mua hàng và số tiền chi cho mỗi NCC là khác nhau, có thể bị gây nên bởi nhiều nguyên nhân, ví dụ như sự phong phú về mặt hàng hóa của NCC, đối tác chiến lược… Do đó, với cách tiếp cận này, chúng tôi dự báo tiền chi cho từng NCC riêng với mong đợi rằng mô hình có thể khớp được các hành vi riêng lẻ của từng chuỗi
Mỗi chuỗi dữ liệu tương ứng với Amount i (t) trong công thức mục 4.2 và các bước thực hiện trên một chuỗi giống như mô hình trong hình 4.2 để dự báo tiền chi cho từng NCC nhưng ở bước huấn luyện mô hình bằng phương pháp học máy tổ hợp, chúng tôi chọn phương pháp tốt nhất trong ba phương pháp từ kết quả dự báo của cách tiếp cận đầu tiên (Dự báo tiền chi dựa trên chuỗi dữ liệu thời gian tổng) Với m chuỗi có thể thực hiện các bước trong mô hình một cách song song và dự báo p điểm ngoài mẫu kế tiếp, chúng ta có được kết quả như hình 4.7 Tổng giá trị dự báo của m NCC tại một điểm cho biết số tiền được dự đoán sẽ chi của công ty vào ngày đó
Hình 4.5 Mô hình dự báo tiền chi trên đa chuỗi dữ liệu
Hình 4.6 Tập dữ liệu m chuỗi (NCC) có độ dài n điểm (Ngày)
Kết hợp gom cụm với phương pháp học máy tổ hợp
Các chuỗi dữ liệu trong tập dữ liệu tiền chi NCC có những hành vi và biên độ khác nhau, nhưng trong đó có thể chứa những nhóm bao gồm một hoặc nhiều chuỗi có những hành vi và biên độ tương tự nhau ở một mức độ nào đó Việc phát hiện và gom nhóm được những chuỗi có chung đặc điểm, kết hợp với phương pháp học máy tổ hợp có thể cho độ chính xác tốt hơn khi không gom cụm
Trong phần này, chúng tôi sử dụng giải thuật gom cụm để nhóm các chuỗi dữ liệu thời gian với nhau, sau đó dùng giải thuật học máy tổ hợp với cách tiếp cận hồi quy đa biến để dự báo tiền chi của công ty
Sử dụng giải thuật gom cụm Optmove vào dự báo tiền chi
Giải thuật gom cụm Optmove (xem giải thuật ở mục 3.2) được Jha et al[10] thiết kế trên tập dữ liệu thưa, có sự tương đồng với dữ liệu của chúng tôi ở đặc điểm này
Do đó, chúng tôi kết hợp giải thuật gom cụm này vào mô hình như trong hình 4.8
Tập dữ liệu ban đầu: là tập dữ liệu bao gồm m chuỗi dữ liệu riêng lẻ, mỗi chuỗi tương ứng với tiền chi cho một NCC theo ngày như trong hình 4.6
Gom cụm các chuỗi dùng giải thuật Optmove: giải thuật gom cụm yêu cầu khoảng cách giữa các đối tượng (chuỗi dữ liệu) Begum et al [2] đã so sánh độ đo
Hình 4.7 Kết quả dự báo p điểm (Ngày) ngoài mẫu của m NCC
Hình 4.8 Mô hình kết hợp gom cụm với học máy tổ hợp để dự báo tiền chi khoảng cách DTW và Euclid trên cùng giải thuật gom cụm với 5 tập dữ liệu khác nhau, kết quả gom cụm cho thấy 4/5 tập dữ liệu, độ đo DTW hoạt động tốt hơn Euclid
Do đó, chúng tôi sử dụng độ đo DTW để tính sự tương tự (khoảng cách) giữa các chuỗi dữ liệu Sau đó, dùng giải thuật Optmove tiến hành gom nhóm các chuỗi tương tự nhau nhằm làm tối thiểu khoảng cách trong công thức tác giả đưa ra (xem ở giải thuật Optmove, mục 3.2), việc lựa chọn số cụm được thực hiện theo cách Jha et al [10] đã đề nghị (xem ở giải thuật Optmove, mục 3.2) Kết quả gom cụm là một tập C cụm, mỗi cụm chứa một hoặc nhiều chuỗi dữ liệu, một chuỗi có thể thuộc về một hoặc nhiều cụm
Chuyển đổi dữ liệu: sau khi gom cụm, mỗi cụm cần được chuyển đổi dữ liệu để làm đầu vào cho quá trình huấn luyện mô hình, chuyển đổi dữ liệu dùng độ trễ lag k với cách tiếp cận hồi quy Bên cạnh đó, để có thể bắt được hiệu ứng ngày và tính chu kỳ ngắn hạn của dữ liệu, chúng tôi sử dụng thêm hai thuộc tính của dữ liệu là
DayOfWeek và DayOfMonth như đã mô tả ở mục 4.3 Một cụm chứa m chuỗi được
Hình 4.9 Chuyển đối m chuỗi dữ liệu trong 1 cụm thành n-k mẫu
Huấn luyện mô hình bằng phương pháp học máy tổ hợp: chúng tôi chọn phương pháp học máy tổ hợp cho kết quả tốt nhất trong cách tiếp cận đầu tiên (Dự báo tiền chi dựa trên chuỗi dữ liệu thời gian tổng) để huấn luyện mô hình Dữ liệu đã chuyển đổi trong mỗi cụm được dùng để huấn luyện một mô hình, với C cụm thực hiện huấn luyện C mô hình
Dùng mô hình đã huấn luyện để dự báo: Việc dự báo các điểm (ngày) tiếp theo, cần dùng các mẫu dữ liệu làm đầu vào mô hình đã huấn luyện, mẫu dữ liệu để dự báo điểm thứ n + 1 chứa các thuộc tính mô tả là giá trị của k điểm trước đó của tất cả các chuỗi trong cùng cụm (tương tự như ở phần chuyển đổi dữ liệu) Để dự báo p điểm ngoài mẫu kế tiếp, chúng tôi dùng cách tích lũy dựa trên các kết quả thu được, kết quả dự báo của một cụm là tập m chuỗi trong cụm, mỗi chuỗi chứa p điểm kế tiếp được dự báo Trường hợp một chuỗi xuất hiện ở nhiều cụm nên có nhiều kết quả, chúng tôi lấy trung bình các kết quả Cộng tất cả các kết quả dự báo từ các cụm theo điểm (ngày) là số tiền chi dự đoán cho ngày đó
Sử dụng giải thuật gom cụm DensityPeaks vào dự báo tiền chi
Cách tiếp cận tương tự như mô hình dự báo đã dùng giải thuật Optmove để gom cụm, chúng tôi dùng giải thuật DensityPeaks (xem giải thuật ở mục 3.2) như một phương pháp gom cụm để so sánh với Optmove Thông qua những đặc điểm của DensityPeaks, kết quả từ việc gom cụm có thể tìm kiếm cụm tốt hơn, giúp cải tiến kết quả dự báo
Mô hình dự báo sử dụng giải thuật gom cụm DensityPeaks thực hiện các bước như mô hình trong hình 4.8 Tuy nhiên trong bước gom cụm các chuỗi dùng giải thuật Optmove, chúng tôi thay thế bằng giải thuật DensityPeaks Kết quả gom cụm của DensityPeaks cho C cụm, mỗi cụm chứa một hoặc nhiều chuỗi dữ liệu, mỗi chuỗi chỉ thuộc về tối đa một cụm Để chọn lựa được C cụm chúng tôi thực hiện theo cách của Rodriguez et al [15] đã được trình bày ở giải thuật DensityPeaks mục 3.2.
Kết luận
Thông qua nghiệp vụ đặt mua hàng, chi tiền của công ty, chúng tôi đã phân tích và đưa ra công thức tính tiền chi với hai biến số cơ bản Pay(t), Amount i (t) Với cách tiếp cận trên bài toán dữ liệu chuỗi thời gian, kết hợp với phương pháp học máy tổ hợp và kỹ thuật gom cụm để dự báo tiền chi của công ty, chúng tôi đã đề xuất ra những mô hình dự báo khác nhau trên hai biến số đó như sau:
Dùng chuỗi dữ liệu thời gian tổng tiền chi để dự báo
Dùng các chuỗi dữ liệu đơn lẻ của từng NCC để dự báo, với mong muốn mô hình có thể khớp được với hành vi riêng lẻ của từng chuỗi
Dùng kỹ thuật gom cụm để nhóm các chuỗi dữ liệu đơn lẻ của từng NCC có hành vi tương tự nhau, kết hợp với phương pháp học máy tổ hợp để dự báo, với mong muốn các chuỗi dữ liệu trong cùng một nhóm có thể tác động, hỗ trợ lẫn nhau cho việc dự báo tốt hơn
Bên cạnh đó, chúng tôi cũng so sánh các phương pháp học máy tổ hợp, các giải thuật gom cụm để có thể tìm ra hướng giải quyết cho kết quả dự báo tốt.
THÍ NGHIỆM ĐÁNH GIÁ
Tập dữ liệu
Tập dữ liệu dùng trong đề tài được chúng tôi thu thập từ tập dữ liệu thô của công ty X và tiến hành tổng hợp lại thành các chuỗi dữ liệu thời gian có độ dài 518 điểm, tương ứng với 17 tháng, bắt đầu từ ngày 01/06/2014 và kết thúc vào ngày 31/10/2015, mỗi chuỗi dữ liệu tương ứng với tiền chi trả cho một NCC, mỗi điểm trong chuỗi tương ứng với một ngày, những ngày không xuất hiện tiền chi trả cho NCC, chúng tôi gán 0 cho ngày đó Chúng tôi có 170 chuỗi dữ liệu
Trong các kết quả dự báo ở mục 5.2 và 5.3, chúng tôi tiến hành chia tập dữ liệu thành 2 phần, một phần dùng để xây dựng mô hình dự báo, phần còn lại được dùng để đánh giá độ lỗi dự báo ngoài mẫu như bảng 5.1
Trong quá trình phân tích dữ liệu, chúng tôi thấy rằng tập dữ liệu có tính chu kỳ ngắn hạn xảy ra như hình 5.1, số tiền chi thường tăng cao trong những ngày từ thứ hai đến thứ bảy và giảm xuống thấp ở chủ nhật Do đó, trong bước chuyển đổi dữ liệu của các mô hình dự báo, thông số độ trễ lag được chọn là 7
Bảng 5.1: Tập dữ liệu được phân chia để thử nghiệm
Kết quả dự báo dựa trên phương pháp học máy tổ hợp
Chuỗi dữ liệu thời gian tổng được chia ra thành 2 phần để huấn luyện và dự báo như bảng 5.1, dữ liệu huấn luyện được chuyển đổi với độ trễ (k = 7) Sau đó, dữ liệu đã chuyển đổi được huấn luyện với từng phương pháp học máy tổ hợp riêng, tổng hợp các kết quả dự báo từ 3 phương pháp được trình bày ở các bảng 5.3, 5.4, 5.5 với Actual là tổng tiền chi thật trong tháng, đơn vị là triệu Việc dự báo các điểm trong một tháng mới, chúng tôi thực hiện lại toàn bộ các bước trong mô hình và sử dụng các thông số cài đặt như bảng 5.2 cho 3 phương pháp
Hình 5.1 Chuỗi dữ liệu tổng tiền chi từ 06/09/2015 - 27/09/2015
Bảng 5.3: Kết quả dự báo dùng phương pháp Bagging
Bảng 5.4: Kết quả dự báo dùng phương pháp RandomForest Bảng 5.2: Thông số cài đặt cho các phương pháp học máy tổ hợp
Thông số Giá trị Ý nghĩa
Bagging sizePercent 100% Kích cỡ tập huấn luyện được lấy mẫu predictor Tree Bộ dự báo được dùng để xây dựng mô hình numPredictor 10 Số bộ dự báo
RandomForest sizePercent 100% Kích cỡ tập huấn luyện được lấy mẫu numTree 10 Số lượng Tree được xây dựng trong RandomForest numFeature log2(n)+1 Số lượng thuộc tính được chọn để xây dựng Tree, n là tổng số thuộc tính trong tập dữ liệu RandomCommittee predictor Tree Bộ dự báo được dùng để xây dựng mô hình numPredictor 10 Số bộ dự báo numFeature log2(n)+1 Số lượng thuộc tính được chọn để xây dựng Tree, n là tổng số thuộc tính trong tập dữ liệu
Bảng 5.3 cho thấy kết quả dự báo bằng phương pháp học máy Bagging, số tiền được dự báo có sai số trung bình mỗi ngày cho 4 tháng từ (758 1.174) triệu và trung bình trong 4 tháng là 876 triệu Trong khi, sai số phần trăm của cả tháng cho 4 tháng từ (5,56% 19,10%) và trung bình trong 4 tháng là 10,6%
Bảng 5.4 cho thấy kết quả dự báo bằng phương pháp học máy RandomForest, số tiền được dự báo có sai số trung bình mỗi ngày cho 4 tháng từ (640 1.279) triệu và trung bình trong 4 tháng là 851 triệu Trong khi, sai số phần trăm của cả tháng cho 4 tháng từ (2,5% 13,84%) và trung bình trong 4 tháng là 8,12%
Bảng 5.5 cho thấy kết quả dự báo bằng phương pháp RandomCommittee, số tiền được dự báo có sai số trung bình mỗi ngày cho 4 tháng từ (517 1.370) triệu và trung bình của 4 tháng là 940 triệu Trong khi, sai số phần trăm của cả tháng cho 4 tháng từ (0,37% 14,1%) và trung bình trong 4 tháng là 6,75%
Dự báo tiền chi dựa trên đa chuỗi dữ liệu thời gian
Tập dữ liệu bao gồm các chuỗi dữ liệu thời gian đơn lẻ, Mỗi chuỗi được chia ra thành 2 phần để huấn luyện và dự báo như bảng 5.1, dữ liệu huấn luyện được chuyển đổi với độ trễ (k = 7) Mỗi chuỗi dữ liệu đã chuyển đổi được huấn luyện với phương pháp học máy tổ hợp RandomCommittee, các chuỗi được thực hiện song song các bước như đã mô tả trong mô hình ở hình 4.5 Tổng hợp kết quả dự báo của tất cả các chuỗi được trình bày ở các bảng 5.6 với Actual là tổng tiền chi thật trong tháng, đơn vị là triệu, số tiền được dự báo có sai số trung bình mỗi ngày cho 4 tháng từ (522
1.236) triệu và trung bình của 4 tháng là 868 triệu Trong khi, sai số phần trăm của cả tháng cho 4 tháng từ (3,68% 13,36%) và trung bình trong 4 tháng là 8,56% Việc
Bảng 5.5 Kết quả dự báo dùng phương pháp RandomCommittee Độ đo Tháng
Bảng 5.6: Kết quả dự báo dựa trên đa chuỗi dữ liệu bằng RandomCommittee
Bảng 5.7: Thông số cài đặt cho phương pháp RandomCommittee dự báo các điểm trong một tháng mới, chúng tôi thực hiện lại toàn bộ các bước trong mô hình và sử dụng các thông số cài đặt như bảng 5.7
Thông số Giá trị Ý nghĩa predictor Tree Bộ dự báo được dùng để xây dựng mô hình numPredictor 10 Số bộ dự báo numFeature log2(n)+1 Số lượng thuộc tính được chọn để xây dựng Tree, n là tổng số thuộc tính trong tập dữ liệu
Kết quả dự báo dựa trên gom cụm và phương pháp học máy tổ hợp
Tập dữ liệu bao gồm các chuỗi dữ liệu thời gian đơn lẻ, dùng giải thuật gom cụm Optmove để nhóm các chuỗi có sự tương tự với nhau Sau đó, dữ liệu các chuỗi trong cụm được chia thành 2 phần để huấn luyện và dự báo như bảng 5.1, dữ liệu huấn luyện được chuyển đổi với độ trễ (k = 7), dữ liệu đã chuyển đổi được huấn luyện với phương pháp học máy tổ hợp RandomCommittee Các thông số cài đặt cho RandomCommittee và Optmove được trình bày ở bảng 5.10 Tổng hợp kết quả dự báo từ tất cả các cụm được trình bày ở bảng 5.9 với Actual là tổng tiền chi thật trong tháng, đơn vị là triệu Việc dự báo các điểm trong một tháng mới, chúng tôi thực hiện lại toàn bộ các bước trong mô hình Bảng 5.8 cho biết kết quả sau khi gom cụm
Trong tháng 7 và 8, tổng số chuỗi sau khi gom cụm lớn hơn tổng số chuỗi trước khi gom cụm, điều này vì trong quá trình gom cụm để thỏa mãn các ràng buộc, một số
Bảng 5.8: Kết quả gom cụm bằng giải thuật Optmove
Bảng 5.9: Kết quả dự báo của RandomCommittee dùng gom cụm bằng Optmove
Hình 5.2 Mối quan giữa số cụm C và tỉ số O(C)/g(C) chuỗi cần xuất hiện ở cả 2 cụm Để chọn số cụm C là 2, chúng tôi đã làm theo cách của Jha et al [10] là thử nghiệm C từ 2 đến n (tổng số chuỗi) để tỉ lệ O(C)/g(C) là nhỏ nhất Hình 5.2 cho thấy tỉ số O(C)/g(C) nhỏ nhất khi C là 2 và tăng dần khi C tăng
Bảng 5.9 cho thấy kết quả dự báo bằng phương pháp RandomCommittee có sử dụng giải thuật gom cụm Optmove, số tiền được dự báo có sai số trung bình mỗi ngày cho 4 tháng từ (778 1.433) triệu và trung bình của 4 tháng là 1.031 triệu Trong khi, sai số phần trăm của cả tháng cho 4 tháng từ (2,84% 18,04%) và trung bình trong 4 tháng là 9,75%
Tổng số chuỗi: 161 Số cụm: 2
Cụm 1 chứa 133 chuỗi Cụm 2 chứa 42 chuỗi
Tổng số chuỗi: 163 Số cụm: 2
Cụm 1 chứa 122 chuỗi Cụm 2 chứa 42 chuỗi
Tổng số chuỗi: 167 Số cụm: 2
Cụm 1 chứa 125 chuỗi Cụm 2 chứa 42 chuỗi
Tổng số chuỗi: 170 Số cụm: 2
Cụm 1 chứa 128 chuỗi Cụm 2 chứa 42 chuỗi
Actual(Triệu) 96.473 91.311 89.544 113.817 Độ đo Tháng
Bảng 5.10: Thông số cài đặt cho RandomCommittee và Optmove
Thông số Giá trị Ý nghĩa
RandomCommittee predictor Tree Bộ dự báo được dùng để xây dựng mô hình numPredictor 10 Số bộ dự báo numFeature log2(n)+1 Số lượng thuộc tính được chọn để xây dựng Tree, n là tổng số thuộc tính trong tập dữ liệu
C 2 Số cụm dữ liệu được gom
L 42 Ràng buộc số chuỗi tối thiểu phải chứa trong một cụm
U 150 Ràng buộc số chuỗi tối đa một cụm có thể chứa gap 1 Thời gian một chuỗi phải chờ để được chọn lần kế tiếp
200 Số lượng điểm dữ liệu có giá trị lớn hơn 0 trong cụm λ 100E9 Khoảng cách tối đa từ một chuỗi đến một cụm
Sử dụng giải thuật gom cụm DensityPeaks vào dự báo tiền chi
Tập dữ liệu bao gồm các chuỗi dữ liệu thời gian đơn lẻ, dùng giải thuật gom cụm DensityPeaks để nhóm các chuỗi có sự tương tự với nhau Sau đó, dữ liệu các chuỗi trong cụm được chia thành 2 phần để huấn luyện và dự báo như bảng 5.1, dữ liệu huấn luyện được chuyển đổi với độ trễ (k = 7), dữ liệu đã chuyển đổi được huấn luyện với phương pháp học máy tổ hợp RandomCommittee Các thông số cài đặt cho DensityPeaks và RandomCommittee được trình bày ở bảng 5.11 Tổng hợp kết quả dự báo từ tất cả các cụm được trình bày ở bảng 5.12 với Actual là tổng tiền chi thật trong tháng, đơn vị là triệu, số tiền được dự báo có sai số trung bình mỗi ngày cho 4 tháng từ (870 1.522) triệu và trung bình của 4 tháng là 1.084 triệu Trong khi, sai số phần trăm của cả tháng cho 4 tháng từ (0,17% 15,33%) và trung bình trong 4 tháng là 6,1% Việc dự báo các điểm trong một tháng mới, chúng tôi thực hiện lại toàn bộ các bước trong mô hình Bảng 5.13 cho biết kết quả sau khi gom cụm Để
Bảng 5.11: Thông số cài đặt cho DensityPeaks và RandomCommittee chọn số cụm C là 2, chúng tôi đã làm theo cách của Rodriguez et al [15] và có được sự phân tách như hình 5.3
Thông số Giá trị Ý nghĩa
DensityPeaks d c 17E6 Khoảng cách để tính mất độ cục bộ
C 2 Số cụm dữ liệu được gom
RandomCommittee predictor Tree Bộ dự báo được dùng để xây dựng mô hình numPredictor 10 Số bộ dự báo numFeature log2(n)+1 Số lượng thuộc tính được chọn để xây dựng Tree, n là tổng số thuộc tính trong tập dữ liệu
Tổng số chuỗi: 161 Số cụm: 2
Cụm 1 chứa 124 chuỗi Cụm 2 chứa 37 chuỗi
Tổng số chuỗi: 163 Số cụm: 2
Cụm 1 chứa 128 chuỗi Cụm 2 chứa 35 chuỗi
Tổng số chuỗi: 167 Số cụm: 2
Cụm 1 chứa 125 chuỗi Cụm 2 chứa 42 chuỗi
Tổng số chuỗi: 170 Số cụm: 2
Cụm 1 chứa 96 chuỗi Cụm 2 chứa 74 chuỗi
Hình 5.3 biểu diễn mối quan hệ giữa phần tử (hay chuỗi dữ liệu) thứ n và tích số = * , các phần tử được sắp xếp giảm dần theo Theo Rodriguez et al [15], các phần tử trung tâm cụm nằm tách biệt với các phần tử còn lại Như vậy, theo hình
Actual(Triệu) 96.473 91.311 89.544 113.817 Độ đo Tháng
Bảng 5.12: Kết quả dự báo của RandomCommittee dùng gom cụm bằng DensityPeaks
Bảng 5.13: Kết quả gom cụm bằng giải thuật DensityPeaks
Hình 5.3 Mối quan hệ giữa phần tử n và
Đánh giá các kết quả thí nghiệm
Với độ đo MAE cho biết sai số tuyệt đối trung bình trên mỗi ngày, APME cho biết phần trăm sai số cả tháng được lấy trị tuyệt đối Độ đo APME giúp cho nhà quản lý có thể nhìn thấy số tiền cần chi trong khoảng thời gian dài cũng như có đủ thời gian để huy động vốn đáp ứng nhu cầu tiền chi Do đó, chúng tôi thực hiện đánh giá các thí nghiệm tập trung trên độ đo APME
Kết quả dự báo tiền chi với cách tiếp cận trên một chuỗi dữ liệu thời gian tổng bằng 3 phương pháp học máy tổ hợp được trình bày trong bảng 5.14 trên độ đo APME Chúng tôi thấy rằng kết quả trên 3 phương pháp có sự tương tự nhau, tức là sai số trong tháng 7 và 10 cao hơn so với tháng 8 và 9, điều này là do sự nhất quán của các phương pháp học khi thực hiện trên cùng một tập dữ liệu Tuy nhiên, với đặc điểm riêng của từng phương pháp mà kết quả có sự chệnh lệch khác nhau, khi thực hiện lấy trung bình 4 tháng, phương pháp học máy tổ hợp RandomCommittee cho kết quả tốt nhất trong 3 phương pháp với sai số là 6,75%
2 đối tượng trung tâm cụm nằm tách biệt với các đối tượng còn lại
Bảng 5.14: Kết quả dự báo từ 3 phương pháp học máy tổ hợp với độ đo APME
Hình 5.4 Dữ liệu tiền chi cho từng 3 NCC
Bảng 5.15 trình bày kết quả dự báo bằng độ đo APME của tất cả các mô hình mà chúng tôi đã đề nghị để dự báo tiền chi, sử dụng cùng phương pháp học máy tổ hợp RandomCommittee
Mô hình 1: Dự báo tiền chi dựa trên chuỗi dữ liệu thời gian tổng
Mô hình 2: Dự báo tiền chi dựa trên đa chuỗi dữ liệu thời gian
Mô hình 3: Sử dụng giải thuật gom cụm Optmove vào dự báo tiền chi
Mô hình 4: Sử dụng giải thuật gom cụm DensityPeaks vào dự báo tiền chi
Các mô hình 2, 3, 4 có sự tương đồng nhau trong tháng 10, cho kết quả sai số ở tháng 10 là thấp nhất Tuy nhiên, tổng thể cho thấy sai số của các mô hình tăng giảm không có sự nhất quán với nhau trong 4 tháng, điều này là vì các mô hình sử dụng cách tiếp cận trên dữ liệu và giải thuật khác nhau
Mô hình 1 và 2 cùng sử dụng RandomCommittee nhưng cách tiếp cận trên dữ liệu khác nhau, mô hình 1 chỉ sử dụng một chuỗi tổng, trong khi mô hình 2 sử dụng các chuỗi đơn, với mong muốn mô hình có thể bắt được hành vi riêng của từng chuỗi
Tuy nhiên, kết quả trung bình của mô hình 1 tốt hơn mô hình 2 Hình 5.4 cho thấy dữ liệu tiền chi cho từng NCC có đặc tính thưa thớt và ngẫu nhiên cao, điều này gây khó khăn cho mô hình có thể khớp với hành vi riêng lẻ của từng chuỗi Trong khi đó, với chuỗi dữ liệu tổng, việc cộng lại tất cả giá trị của các chuỗi riêng lẻ làm cho sự thưa thớt của chuỗi tổng giảm xuống cũng như biên độ dao động ổn định hơn Hình 5.5 biểu diễn dữ liệu tổng tiền chi
Mô hình 3 và 4 cùng sử dụng gom cụm và RandomCommittee để dự báo Trong đó, mô hình 3 sử dụng Optmove để gom cụm và mô hình 4 sử dụng DensityPeaks để gom cụm Kết quả trung bình từ bảng 5.15 cho thấy sai số ở mô hình 4 tốt hơn mô hình 3, điều này cho thấy giải thuật gom cụm DensityPeaks giúp cải tiến kết quả tốt hơn so với Optmove dựa trên đặc tính riêng của nó về khả năng tìm kiếm những đối tượng tương tự trong trong gian hình học bất kỳ Trong khi Optmove dựa trên heuristic, thực hiện những bước ngẫu nhiên để di chuyển đối tượng từ cụm này sang cụm khác nhằm cải tiến chất lượng cụm
Dựa trên kết quả trung bình 4 tháng của độ đo lỗi APME trong bảng 5.15 cho thứ tự tốt dần của các mô hình như sau: 3 2 1 4 Vậy mô hình 4 là mô hình kết hợp gom cụm DensityPeaks với phương pháp học máy tổ hợp RandomCommittee cho độ sai số trung bình trong 4 tháng thử nghiệm là thấp nhất với 6,1%
Hình 5.5 Dữ liệu tổng tiền chi
Bảng 5.15: Kết quả dự báo từ các mô hình
TỔNG KẾT
Những kết quả đạt được
Trải qua các quá trình phân tích, nghiên cứu, hiện thực và thí nghiệm trên dữ liệu thực tế của đề tài chúng tôi đã được một số kết quả như sau:
Phân tích và đưa ra công thức tính tiền chi đơn giản Thông qua công thức, các biến số đã được vận dụng trong phân tích dữ liệu chuỗi thời gian để dự báo tiền chi
Kết quả dự báo từ phương pháp học máy tổ hợp RandomCommittee là tốt hơn so với phương pháp RandomForest và Bagging khi cho xây dựng trên cùng một bộ dự báo là cây quyết định
Kết quả dự báo có sử dụng giải thuật gom cụm DensityPeaks tốt hơn so với các kết quả dự báo khi không thực hiện gom cụm Mặc dù, kết quả được cải tiến là chưa cao.
Đóng góp của đề tài
Thông qua những kết quả đạt được của đề tài, luận văn này có những đóng góp như sau:
Đưa ra các mô hình dự báo với cách tiếp khác nhau trên dữ liệu và các giải thuật học máy như:
- Dự báo dựa trên chuỗi dữ liệu thời gian tổng
- Dự báo trên đa chuỗi dữ liệu
- Sử dụng các giải thuật gom cụm vào dự báo tiền chi
So sánh kết quả dự báo của 3 phương pháp học máy tổ hợp: Bagging,
Sử dụng độ đo DTW để tìm kiếm sự tương tự của các chuỗi dữ liệu thời gian và làm đầu vào cho giải thuật gom cụm mới được phát triển gần đây, để cải tiến kết quả dự báo.
Hướng phát triển của đề tài
Các mô hình dự báo đề xuất dựa trên cách tiếp cận hồi quy, các thuộc tính được xây dựng bằng dữ liệu quá khứ và sử dụng 2 thuộc tính DayOfWeek và DayOfMonth để bắt được hiệu ứng ngày của dữ liệu Về lâu dài, khi tập dữ liệu tăng thêm, việc bổ sung thêm một số thuộc tính để bắt được những chu kỳ khác là cần thiết như chu kỳ tháng trong năm, quý trong năm… Bên cạnh đó, việc phân tích và bổ sung thêm các đặc trưng tác động lên dữ liệu có thể cải tiến độ chính xác tốt hơn
Các phương pháp học máy tổ hợp được xây dựng dựa trên tập hợp các bộ dự báo là cây quyết định, Việc nghiên cứu các bộ dự báo khác thay thế cây quyết định là một hướng phát triển mở rộng
Hiện tại phương pháp chỉ dự báo cho một điểm dữ liệu tiếp theo (dự báo một bước), để có thể dự báo nhiều điểm liên tiếp, chúng tôi sử dụng cách tích lũy dựa trên các kết quả dự báo trước đó Việc nghiên cứu các phương pháp cho phép dự báo đa điểm dữ liệu (dự báo nhiều bước) có thể cái tiến kết quả dự báo
Bên cạnh đó, do tính chất đặc thù riêng biệt của đề tài, quá trình hiện thực chỉ thử nghiệm trên một tập dữ liệu Để có thể đánh giá độ chính xác của các mô hình một cách khách quan hơn, việc thử nghiệm trên các tập dữ liệu có tính chất tượng tự khác là cần thiết
[1] Aburto L, Weber R(2007), "Improved supply chain management based on hybrid demand forecasts", Applied Soft Computing, Vol 7, 136-144
[2] Begum N, Ulanova L, Wang J, Keogh E(2015), “Accelerating dynamic time warping clustering with a novel admissible pruning strategy”, Proceedings of the
21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 49-58
[3] Breiman L(1996), "Bagging predictors", Machine Learning, 123-140
[4] Breiman L(2001),"Random forests", Machine Learning, Vol 45, 5-23
[5] Chang P.C, Wang Y.W(2006), “Fuzzy Delphi and back-propagation model for sales forecasting in PCB industry”, Expert Systems with Applications, 715-726
[6] Cheng Y, Chan P, Qiu Z(2012), “Random Forest based ensemble system for short term load forecasting”, Proceedings of the 2012 International Conference on Machine Learning and Cybernetics, 52-56
[7] Han J, Kamber M, Pei J(2011), "Data Mining: Concepts and Techniques",
[8] Hasin M.A.A, Ghosh S, Shareef M.A(2011), “An ANN approach to demand forecasting in retail trade in Bangladesh”, International Journal of Trade, Economics and Finance, Vol 2(2)
[9] Hicham A, Mohammed B, Anas S(2012), “Hybrid intelligent system for sale forecasting using Delphi and adaptive Fuzzy Back-Propagation Neural Networks”, International Journal of Advanced Computer Science and Applications, Vol 3(11)
[10] Jha A, Seaman B, Dhillon I.S(2015), “Clustering to forecast sparse time-series data”, Proceedings of the International Conference on Data Engineering (ICDE)
[11] Keogh E, Ratanamahatana C.A(2005), "Exact indexing of dynamic time warping", Knowledge and Information Systems, 358-386, Vol 7
[12] Kocenda E, Cerny A(2014), "Elements of time series econometrics: an applied approach", Karolinum Press
[13] Mei J, Qu G, He D, Harley R.G, Habetler T.G(2014) "A Random Forest method for real-time price forecasting in New York electricity market" 2014 IEEE PES
[14] Oliveira M, Torgo L(2014) "Ensembles for time series forecasting"
Proceedings of the Sixth Asian Conference on Machine Learning, 360–370
[15] Rodriguez A, Laio A (2014), “Clustering by fast search and find of density peaks”, Science, Vol 344, 1492-1496
[16] Sanwlani M, Vijayalakshmi M(2013), “Forecasting sales through time series clustering”, International Journal of Data Mining & Knowledge Management Process (IJDKP), Vol 3
[17] Shukla M, Jharkharia S(2011), "Applicability of ARIMA models in wholesale vegetable market: an investigation", Proceedings of the 2011 International Conference on Industrial Engineering and Operations Management
[18] Swift S, Kok J, Liu X(2006), "Learning short multivariate time series models through evolutionary and sparse matrix computation", Natural Computing, Vol
[19] Thiesing F.M, Middelberg U, Vornberger O(1995), “Short term prediction of sales in supermarkets”, Proceedings of the 1995 ieee international conference on neural networks, Vol 2
[20] Thiesing F.M, Vornberger O(1997), “Sales forecasting using neural networks”,
Proceedings of the 1997 ieee international conference on neural networks, Vol4
[21] Witten L.H, Frank E, Hall M.A(2011), "Data mining practical machine learning tools and techniques", Morgan Kaufmann
[22] Zhu D.M, Ching W.K(2010), “A new estimation method for multivariate markov chain model with application in demand predictions”, Third International Conference on Business Intelligence and Financial Engineering, 126-130
PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT
Tiếng Anh Tiếng Việt Viết tắt
Absolute Percent Monthly Error lỗi phần trăm tuyệt đối tháng APME
Actual Tổng chi thật tế trong tháng
Artificial Neural Network Mạng nơron nhân tạo ANN AutoRegressive Integrated
Mô hình tự hồi quy tích hợp trung bình di động
Back Propagation Neural Network mạng nơron lan truyền ngược
Bagging Phương pháp học máy Bagging
Bootstrap Kỹ thuật lấy mẫu Bootstrap
Decision tree Cây quyết định
DensityPeaks Phương pháp gom cụm DensityPeaks Dependant variable Biến phụ thuộc
Dynamic Time Warping Độ đo xoắn thời gian động
Farthest-first Giải thuật Farthest-first
Fuzzy Delphi Method Phương pháp Delphi mờ FDM
Fuzzy neural network Mạng nơron mờ FNN
Generalized Regression Neural Network mạng nơron hồi quy tổng quát
Genetic Algorithm Giải thuật di truyền GA
Irregular Thành phần bất thường
K-means Phương pháp gom cụm K-means
Mean Absolute Error Lỗi trung bình tuyệt đối MAE Mean absolute percentage error
Sai số phần trăm tuyệt đối trung bình MAPE
Mean Squared Error Sai số trung bình bình phương MSE
Multiple Regression Analysis Phân tích đa hồi quy MRA Normalized mean square error
Sai số trung bình bình phương chuẩn NMSE numFeature Số thuộc tính được chọn ở mỗi node trong cây quyết định numTree Số cây quyết định
Optmove Giải thuật gom cụm Optmove
Qualitative method Phương pháp định tính RandomCommittee Phương pháp học máy
RandomCommittee RandomForest Phương pháp học máy Random Forest
Rescaled Range Analysis Phân tích khoảng R/S
Root gốc cây quyết định
Root Mean squared error Sai số trung bình toàn phương RMSE
Seed Giá trị ngẫu nhiên ban đầu sizePercent Kích cỡ tập huấn luyện lấy mẫu
Split point điểm phân tách
Stepwise regression analysis Phân tích hồi quy từng bước SRA
Suppliers Nhà cung cấp NCC
The fuzzy back-propagation network
Mạng lan truyền ngược mờ FBPN
Time series analysis Phân tích chuỗi thời gian
Trend Thành phần xu hướng
Vector AutoRegression Mô hình tự hồi quy vectơ VAR Winter’s Exponential
Phương pháp làm trơn hàm mũ Winter