1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng

55 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Tác giả Lương Quang Tùng
Người hướng dẫn GS. TS. Cao Hoàng Trụ
Trường học Đại học Quốc gia Tp. HCM Trường Đại học Bách Khoa
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2015
Thành phố Tp. HCM
Định dạng
Số trang 55
Dung lượng 1,11 MB

Cấu trúc

  • CHƯƠNG 1. MỞ ĐẦU (9)
    • 1.1. Giới thiệu về đề tài (9)
    • 1.2. Mục tiêu của đề tài (11)
    • 1.3. Phạm vi của đề tài (12)
    • 1.4. Cấu trúc của báo cáo (12)
  • CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN (14)
    • 2.1. Dự báo tỉ lệ thu hồi tiền cho vay tín dụng (14)
    • 2.2. Dự báo ngày thu hồi đƣợc tiền cho vay tín dụng (15)
    • 2.3. Dự báo dựa vào dữ liệu chuỗi thời gian (15)
    • 2.4. Dự báo doanh số bán hàng bằng gom cụm (16)
  • CHƯƠNG 3. CƠ SỞ LÝ THUYẾT (18)
    • 3.1. Dữ liệu chuỗi thời gian (18)
    • 3.2. Giải thuật dùng để mô hình chuỗi thời gian (20)
    • 3.3. Phân tích chuỗi thời gian đa biến (24)
    • 3.4. Giải thuật gom cụm bằng phân cấp (25)
    • 3.5. Cách tính độ đo khoảng cách (27)
    • 3.6. Cách đánh giá độ chính xác dự báo (28)
  • CHƯƠNG 4. PHƯƠNG PHÁP DỰ BÁO VÀ THỰC NGHIỆM (30)
    • 4.1. Nghiệp vụ cho vay tín dụng và thu nợ (30)
    • 4.2. Phương pháp dự báo thủ công (32)
    • 4.3. Phương pháp phân tích dữ liệu chuỗi thời gian (34)
    • 4.4. Phương pháp gom cụm các doanh nghiệp (38)
    • 4.5. Phương pháp dự báo tỉ lệ thu hồi và ngày trả (41)
    • 4.6. Nhận xét kết quả thực nghiệm (46)
  • CHƯƠNG 5. KẾT LUẬN (51)
    • 5.1. Kết quả đạt đƣợc (51)
    • 5.2. Hướng phát triển (51)
  • TÀI LIỆU THAM KHẢO (53)

Nội dung

NHIỆM VỤ VÀ NỘI DUNG: Mục tiêu chính của chúng tôi là nghiên cứu những phương pháp để có thể dự báo một cách tốt nhất dòng tiền vào từ hoạt động thu hồi tín dụng cho công ty X.. Đề tài

CÁC NGHIÊN CỨU LIÊN QUAN

Dự báo tỉ lệ thu hồi tiền cho vay tín dụng

Những thông số về tín dụng nhƣ tổng thu hồi và tổng thiệt hại tín dụng rất quan trọng với các tổ chức ngân hàng Để đánh giá mức độ thu hồi cũng nhƣ thiệt hại tín dụng, các ngân hàng thường dùng các thông số tỉ lệ thu hồi tín dụng (recovery rate) hay tỉ lệ tổn thất tín dụng(loss given default) Do tỉ lệ thu hồi tín dụng = 1 – tỉ lệ tổn thất tín dụng nên các công trình nghiên cứu thường chọn một trong hai thông số trên để dự báo Các công trình thường đề cập đến dự báo tổn thất tín dụng hoặc tỉ lệ thu hồi tín dụng nhƣ Bellotti & Crook (2012), Calabrese & Zenga (2008, 2010), Caselli, Gatti & Querci (2008), Dermine & Carvalho (2006), Grunert &

Weber (2009), Renaultand & Scaillet (2004), Schuermann (2003), Loterman, Brow, Martens, Mues & Baesens (2012)

Công trình của Dermine & Carvalho (2006) dự báo tỉ lệ thu hồi tín dụng dựa trên các mẫu dữ liệu tiền vay ngân hàng, phương pháp dự báo tỉ lệ thu hồi tín dụng được mô hình bởi phương pháp hồi quy hưởng ứng phân đoạn (fractional response regressions) Không giống như phương pháp hồi quy bình phương nhỏ nhất (least squares regression), phương pháp phân đoạn hưởng ứng hồi quy đặc biệt thích hợp cho các biến mô hình nằm trong khoảng [0, 1], do vậy rất phù hợp để dự báo tỉ lệ thu hồi tín dụng vì giá trị tỉ lệ thu hồi luôn đƣợc đảm bảo nằm trong khoảng [0, 1]

Bellotti & Crook (2012) cũng đề nghị áp dụng mô hình tính toán thống kê Tobit để tính tỉ lệ tổn thất tín dụng

Bastos (2010) và Bellotti & Crook (2012) đề xuất áp dụng mô hình cây hồi quy (regression tree) để dự báo tỉ lệ tổn thất tín dụng Mô hình cây hồi quy phi tham số và phi tuyến (nonparametric and nonlinear regression tree model) đƣợc đề xuất như một công cụ dự báo thay thế cho mô hình cây hồi quy tham số thông thường

Cây hồi quy là một kỹ thuật hồi quy đơn giản mạnh mẽ trong đó các giá trị dự báo của biến mục tiêu thu đƣợc thông qua một loạt tuần tự các điều kiện luận lý nếu- thì(if–then) Loạt tuần tự phân tách nhị phân này chia khoản vay ngân hàng quan sát đƣợc thành nhiều phân vùng theo đặc điểm của khoản vay Mục tiêu của việc phân chia này là chia dữ liệu thành các nhóm sao cho tỉ lệ thu hồi đồng điều nhau

Tỉ lệ thu hồi dự báo trong một phân vùng bằng trung bình của tập dữ liệu quan sát đƣợc Cây hồi quy giống nhƣ bảng tìm kiếm chứa đựng tỉ lệ thu hồi trung bình dựa trên lịch sử

Loterman, Brow, Martens, Mues & Baesens (2012) đã thực hiện việc đo đạc dự báo tỉ lệ tổn thất tín dụng với 24 kỹ thuật hồi quy trên 6 tập dữ liệu của các ngân hàng quốc tế lớn Kết quả chỉ ra rằng có nhiều khác biệt trong kết quả dự báo tỉ lệ thu hồi tín dụng của các kỹ thuật trên, sự khác biệt này vẫn không thể giải thích được Tuy nhiên có một xu hướng rõ ràng rằng kỹ thuật hồi quy phi tuyến tính như

7 SVM(Support Vector Machines) và mạng nơron nhân tạo (ANN - Artificial Neural Networks) thực hiện dự báo tốt hơn so với kỹ thuật hồi quy tuyến tính truyền thống Công trình cũng chỉ ra rằng mô hình hai giai đoạn đƣợc xây dựng bởi một sự kết hợp của kỹ thuật tuyến tính và phi tuyến tính cho ra sức mạnh dự báo tốt hơn

Mặc dù chưa có một công trình nào dùng phương pháp phân tích chuỗi thời gian để dự báo tỉ lệ thu nợ, nhưng nó cũng là một trong những phương pháp thật sự phổ biến và đƣợc dùng nhiều để giải quyết các bài toán dự báo trong lĩnh vực tài chính Do vậy phương pháp này có thể là một lựa chọn đầy hứa hẹn để giải quyết bài toán dự báo tỉ lệ tiền thu hồi tín dụng.

Dự báo ngày thu hồi đƣợc tiền cho vay tín dụng

Thời gian thu hồi của các công trình Bastos (2010) và Bellotti & Crook (2012) chỉ đề cập đến khả năng thu hồi tín dụng của khách hàng trong vòng 12 tháng, 24 tháng và 48 tháng Chƣa có một công trình cụ thể nào trong việc dự báo chính xác ngày thu hồi đƣợc tiền cho vay tín dụng Đối với việc dự báo liên quan đến sự kiện thời gian có các công trình Stefanski (2009), Martinez (2012) Công trình của Martinez (2012) đề xuất mô hình để ƣớc tính thời gian trễ của các chuyến bay dựa trên phân phối xác suất Công trình của Stefanski (2009) dự báo thời gian trễ của các chuyến bay bằng cách khai phá dữ liệu Stefanski (2009) sử dụng phương pháp học máy và phát triển hai loại mô hình Đầu tiên tác giả dùng bộ phân lớp để tạo ra các mô hình dự báo sự khởi hành của các chuyến bay là trễ hay đúng giờ Tiếp theo, tác giả xây dựng mô hình hồi quy để dự báo chuyến bay sẽ trễ bao nhiêu phút Tác giả thực nghiệm với mô hình hồi quy tuyến tính đơn giản và mô hình hồi quy tuyến tính phức tạp Đối với mô hình hồi quy đơn giản, thời gian trễ của chuyến bay chỉ phụ thuộc vào yếu tố giờ xuất phát Đối với mô hình hồi quy phức tạp, thời gian trễ của chuyến bay ngoài sự phụ thuộc vào hãng bay, thời gian khởi hành, quảng đường, hãng vận chuyển hàng hóa còn phụ thuộc vào yếu tố chuỗi thời gian là thứ tự ngày trong tháng, ngày trong tuần mà chuyến bay khởi hành.

Dự báo dựa vào dữ liệu chuỗi thời gian

Ngày nay, có nhiều cách, nhiều phương pháp và mô hình để dự báo nhằm để biết trước những điều có thể xảy ra trong tương lai Mô hình tự hồi quy (AutoRegressive – AR) với các dữ liệu chuỗi thời gian là một trong những mô hình mạnh về dự báo giá trị của biến số tại một số điểm trong tương lai căn cứ vào những dữ liệu trong quá khứ Trong lĩnh vực tài chính, các nghiên cứu liên quan đến dữ liệu chuỗi thời gian, dự báo tài chính có rất nhiều và xem chuỗi thời gian nhƣ là một trong những công cụ toán học hiệu quả cho việc phân tích và dự báo

8 Phương pháp phân tích chuỗi thời gian được đề xuất để giải quyết các bài toán dự báo trong lĩnh vực tài chính nhƣ Box, Jenkins & Reinsel (2015), Mastrangelo (2013) Riêng dự báo dựa vào phân tích chuỗi thời gian trong lĩnh vực ngân hàng có các công trình của Faure (2013), Ghassan (2013) Dự báo dựa trên chuỗi thời gian là một quá trình sử dụng một mô hình để dự báo cho sự kiện tương lai dựa trên các sự kiện đã biết ở quá khứ Một chuỗi thời gian (time series) là một chuỗi các điểm dữ liệu đƣợc đo theo từng khoảng thời gian liền nhau theo một tần suất thời gian thống nhất Các mô hình chuỗi thời gian đƣợc đặc biệt áp dụng trong dự báo ngắn hạn Vasilev (2014) sử dụng phương pháp phân tích chuỗi thời gian để chỉ ra rằng không có sự phụ thuộc nào giữa dòng tiền vào và dòng tiền cho mƣợn thêm của các tổ chức tín dụng Nyberg (2013) cũng dùng phương pháp phân tích chuỗi thời gian để dự báo sự lên và xuống của giá cổ phiếu trên thị trường Mỹ

Một số mô hình được dùng trong phương pháp dự báo theo chuỗi thời gian như ARIMA (Autoregressive Integrated Moving Average), ANN, Bagging, Random Forests Vaisla (2010) sử dụng ANN để dự báo giá cổ phiếu hằng ngày và so sánh mô hình này với kỹ thuật dự báo thống kê, kết quả cho thấy mạng nhân tạo, khi đƣợc huấn luyện đủ dữ liệu, đầu vào thích hợp và với kiến trúc thích hợp, có thể dự báo được giá cả thị trường chứng khoán rất tốt Zhang (2003) sử dụng phương pháp lai kết hợp cả hai mô hình ARIMA và ANN để tận dụng lợi thế sức mạnh độc đáo của mỗi mô hình, kết quả thực nghiệm dự báo với 3 bộ dữ liệu thực tế về dữ liệu vết đen mặt trời, dữ liệu loài mèo rừng, dữ liệu tỉ giá đồng đô la Mỹ cho thấy mô hình kết hợp cải thiện độ chính xác dự báo cao hơn so với cách dùng từng mô hình riêng lẻ

Nhờ có nhiều công trình liên quan đến chuỗi thời gian đƣợc áp dụng trong lĩnh vực tài chính, do vậy phương dự báo theo chuỗi thời gian cũng được chúng tôi áp dụng để thực hiện việc dự báo dòng tiền trả của doanh nghiệp.

Dự báo doanh số bán hàng bằng gom cụm

Dự báo chính xác là điều rất cần thiết để thành công trong việc lập kế hoạch trong ngành bán lẻ Một điều không may là không phải lúc nào cũng đủ dữ liệu để dự báo các mặt hàng khác nhau, điều này đặc biệt đúng trong ngành bán lẻ khi có một khoảng thời gian dài mặt hàng bán thấp, nhiều mặt hàng đƣợc giới thiệu và bị loại bỏ khá thường xuyên (hình 2.1)

Trong tình huống nhƣ vậy, Jha, Ray, Seaman & Dhillon (2015) mong muốn sẽ phù hợp hơn khi dự báo các mặt hàng trong cùng một nhóm tương tự nhau, vì thế dữ liệu các mặt hàng khác nhau có thể đƣợc gom lại để phù hợp với một mô hình duy nhất Các tác giả đã đề xuất giải thuật gom cụm và so sánh với các giải pháp gom cụm truyền thống

9 Tác giả cũng giải thích các vấn đề bổ sung lẫn nhau của các mặt hàng, đặc biệt là các mặt hàng không có doanh số trong quá khứ Trong kinh doanh trực tuyến các loại hàng hóa rất biến động, nghĩa là rất nhỏ thông tin quá khứ về hàng hóa

Nhiều loại hàng tồn tại rất ngắn Trong trường hợp này khi một mặt hàng không tồn tại quá một năm thì không thể ƣớc tính bằng tính chất mùa Sử dụng một mô hình với chuỗi thời gian ngắn thật sự không nên vì nó rất khó để ƣớc lƣợng mô hình tham số Do vậy, điều phù hợp là dự báo các mặt hàng trong cùng một nhóm: nghĩa là nếu mỗi mặt hàng có thời gian ngắn tồn tại hoặc chu kỳ sống thƣa, một nhóm sẽ có đủ dữ liệu để ƣớc tính các thuộc tính nhƣ tính mùa Ngoài ra, mô hình nhóm thực sự mạnh mẽ nhƣ đối với dữ liệu nhiễu, thiếu dữ liệu của một mặt hàng không ảnh hưởng nhiều đối với mô hình

Hình 2.1 Các mặt hàng không đủ dữ liệu quá khứ

Tác giả cũng cho rằng các nhóm không cần phải đƣợc tách rời, tuy nhiên một mặt hàng đƣợc phần vào nhiều nhóm sẽ làm tăng tải trọng tính toán của mô hình, do đó nên tránh càng nhiều càng tốt

Dữ liệu dòng tiền trả của các doanh nghiệp cho công ty M hiện rất thƣa và dữ liệu quá khứ ngắn do vậy chúng tôi áp dụng việc gom cụm dữ liệu dòng tiền trả để cải thiện kết quả dự báo

CƠ SỞ LÝ THUYẾT

Dữ liệu chuỗi thời gian

Theo Box, Jenkins & Reinsel (2015) một chuỗi thời gian (time series) là một chuỗi quan sát đƣợc theo một trình tự thời gian Nhiều tập dữ liệu xuất hiện nhƣ là chuỗi thời gian: số lƣợng hàng hóa đƣợc vận chuyển từ một nhà máy hằng tháng, số lượng các tai nạn trên đường hằng tuần, lượng mưa hằng ngày, sản phẩm của quá trình hóa học hằng giờ Chủ yếu những quan sát này đƣợc thu thập ở những khoảng thời gian rời rạc, cách đều nhau Các giá trị chuỗi thời gian của đối tƣợng

X đƣợc ký hiệu x 1 ,x 2 , ………, x t, … x n , với x t , là giá trị quan sát của đối tƣợng X ở thời điểm t

Trong các dạng dữ liệu đƣợc phân tích thì dữ liệu chuỗi thời gian luôn thuộc nhóm dẫn đầu về tính phổ biến Mô hình về chuỗi thời gian thường được áp dụng trong dự báo ở các lĩnh vực nhƣ kinh tế, kinh doanh, kỹ thuật, khoa học tự nhiên (đặc biệt là địa vật lý và khí tƣợng học), và các ngành khoa học xã hội

Dữ liệu chuỗi thời gian đƣợc ví dụ nhƣ hình 3.1 Một thuộc tính bản chất của chuỗi thời gian là thông thường các quan sát liền kề có tính chất phụ thuộc nhau

Bản chất của sự phụ thuộc này rất đƣợc quan tâm trong thực tế Phân tích chuỗi thời gian liên quan đến kỹ thuật phân tích tính phụ thuộc này Điều này đòi hỏi sự phát triển mô hình ngẫu nhiên và mô hình động cho dữ liệu chuỗi thời gian trong các ứng dụng quan trọng

Hình 3.1 Doanh thu của một doanh nghiệp

Các nhà thống kê thường chia chuỗi thời gian ra làm 4 thành phần: thành phần xu hướng dài hạn (long-term trend component), thành phần mùa (seasonal component), thành phần chu kỳ (cyclical component), thành phần bất thường (irregular component)

Thành phần xu hướng dài hạn

Thành phần này dùng để chỉ xu hướng tăng giảm giá trị của chuỗi thời gian trong khoảng thời gian dài Về mặt đồ thị thành phần này có thể diễn tả bằng một đường thẳng hay bằng một đường cong tròn Ví dụ xu hướng giảm hình 3.2

Hình 3.2 Xu hướng giảm theo thời gian

Thành phần này chỉ sự thay đổi giá trị của chuỗi thời gian theo các mùa trong năm (có thể theo các tháng trong năm) Ví dụ hình 3.3 lƣợng tiêu thụ chất đốt sẽ tăng vào mùa đông và sẽ giảm vào mùa hè Ngƣợc lại lƣợng tiêu thụ xăng sẽ tăng vào mùa hè và giảm vào mùa đông

Hình 3.3 Chất đốt thay đổi theo mùa

Thành phần này chỉ sự thay đổi giá trị của chuỗi thời gian theo chu kỳ Sự khác biệt của thành phần này so với thành phần mùa là chu kỳ của nó dài hơn một năm Để đánh giá thành phần chu kỳ các giá trị của chuỗi thời gian sẽ đƣợc quan sát hằng năm Ví dụ hình 3.4 là lưu lượng dòng chảy đến hồ chứa Trị An từ năm 1959 đến 1985

Hình 3.4 Chu kỳ của lưu lượng dòng chảy

Thành phần này dùng để chỉ những sự thay đổi bất thường của các giá trị trong chuỗi thời gian Sự thay đổi này không thể dự đoán bằng các số liệu kinh nghiệm trong quá khứ, về mặt bản chất thành phần này không có tính chu kỳ.

Giải thuật dùng để mô hình chuỗi thời gian

Trong bài toán phân tích chuỗi thời gian, thời gian và chuỗi giá trị trong quá khứ được dùng để dự báo giá trị cho tương lai, bài toán phân tích chuỗi thời gian sử dụng các giải thuật học máy nhƣ LinearRegression, Decision Trees, Bagging, RandomForest, RandomCommittee … để xây dựng mô hình hồi quy phục vụ cho việc dự báo

Trong các giải thuật học máy đƣợc chúng tôi tóm tắt nhƣ LinearRegression, Bagging, RandomCommittee… trong đó y là biến phụ thuộc có quan hệ với một hay nhiều biến độc lập (thuộc tính) x Các biến này đƣợc hiểu trong mô hình chuỗi thời gian nhƣ sau: y đƣợc xem nhƣ giá trị cần dự báo tại thời điểm t (kí hiệu y t ), x là một thuộc tính hoặc nhiều thuộc tính có tính chất theo thời gian, ví dụ nhƣ ngày(date), tháng(month), quý(quarter), năm(year), ngày ánh xạ(date remapped), thuộc tính trễ (lag 1 p )…

Các thuộc tính trễ có giá trị được xác định trong quá khứ, ví dụ lag 1 tương ứng với giá trị y t-1 , lag p tương ứng với giá trị y t-p , p thường được gọi là bậc hồi quy trong mô hình hồi quy hoặc gọi là khung cửa sổ trƣợt trong chuỗi thời gian

Mô hình hồi quy tuyến tính (Linear Regression - LM)

Hồi quy là phương pháp toán học được áp dụng thường xuyên trong thống kê để phân tích mối liên hệ giữa các hiện tƣợng kinh tế xã hội Hồi quy tuyến tính đƣợc sử dụng rộng rãi trong thực tế do tính chất đơn giản hóa của hồi quy

Phân tích hồi quy là phân tích thống kê để xác định mối quan hệ giữa biến phụ thuộc y với một hay nhiều biến độc lập x Mô hình hồi quy đơn giản nhất là hàm tuyến tính (bậc 1) dùng để mô tả mối quan hệ giữa biến phụ thuộc và biến độc lập là tuyến tính Mô hình hồi quy tuyến tính có dạng: y = α + βx, với α là chặn (intercept), β là độ dốc (slope)

Các tham số α, β của mô hình đƣợc ƣớc lƣợng từ dữ liệu quan sát Xét tập dữ liệu gồm m phần tử x 1 , x 2 , …, x m trong không gian n chiều (biến độc lập, thuộc tính), có giá trị tương ứng của biến phụ thuộc (cần dự báo) là y 1 , y 2 , …, y m Các tham số α, β của mô hình được ước lượng bằng phương pháp bình phương bé nhất (least squares) Giá trị dự báo cho phần tử mới x dựa vào công thức: ŷ = α + βx

Cây quyết định (Decision Trees - DT)

Cây quyết định đề xuất bởi Breiman (1984), Quinlan (1993) là mô hình học máy đƣợc sử dụng rất nhiều trong khai phá dữ liệu do tính đơn giản và hiệu quả

Mô hình rất dễ hiểu bởi vì chúng ta có thể rút trích luật quyết định tương ứng với nút lá có dạng IF-THEN đƣợc tạo ra từ việc thực hiện AND trên các điều kiện theo đường dẫn từ nút gốc đến nút lá Các luật quyết định dễ hiểu với người sử dụng

Xét tập dữ liệu bao gồm m phần tử x 1 , x 2 , …, x m trong không gian n chiều, có giá trị tương ứng của biến phụ thuộc là y 1 , y 2 , …, y m Giải thuật học từ dữ liệu là quá trình xây dựng cây bắt đầu từ nút gốc đến nút lá Đây là giải thuật đệ quy phân hoạch tập dữ liệu theo các biến độc lập thành các phân vùng rời nhau mà ở đó các phần tử dữ liệu x i , x j , …, x k của cùng phân vùng (nút lá) có các y i , y j , …, y k là thuần khiết (giống nhau trong vấn đề phân lớp, tương tự nhau trong vấn đề hồi quy)

Giải thuật học mô hình cây quyết định từ dữ liệu gồm 2 bước lớn: xây dựng cây, cắt nhánh để tránh học vẹt Quá trình xây dựng cây đƣợc làm nhƣ sau:

 Bắt đầu từ nút gốc, tất cả các dữ liệu học ở nút gốc

 Nếu các phần tử dữ liệu tại 1 nút là thuần khiết thì nút đang xét đƣợc cho là nút lá, giá trị dự báo của nút lá cho vấn đề phân lớp với bình chọn số đông trong các giá trị {y i , …, y k }, cho vấn đề hồi quy với giá trị trung bình của các {y i , …, y k }

 Nếu dữ liệu ở nút quá hỗn độn (các giá trị {y i , …, y k } rất khác nhau) thì nút đƣợc cho là nút cha, tiến hành phân hoạch dữ liệu bằng giải thuật đệ quy để chọn đƣợc một biến thể phân hoạch tốt nhất có thể

14 Một biến thể phân hoạch đƣợc cho là tốt khi cho cây có giá trị tốt nhất, để tính giá trị của cây có thể dùng công thức tính độ lợi thông tin (Gain) hoặc chỉ số Gini

Hiện nay có 2 giải thuật học cây quyết định tiêu biểu là C4.5 của Quinlan (1993), CART của Breiman (1984)

Từ những năm 1990, cộng đồng máy học đã nghiên cứu cách để kết hợp nhiều mô hình phân loại yếu thành mô hình tập hợp phân loại mạnh cải thiện độ chính xác cao hơn so với chỉ một mô hình phân loại đơn yếu Trong phân tích thành phần lỗi của giải thuật học, Breiman (1996) đã chỉ ra lỗi bao gồm 2 thành phần là bias và variance Thành phần lỗi bias là khái niệm về lỗi của mô hình học (không liên quan đến dữ liệu học) và thành phần lỗi variance là lỗi do tính biến thiên của mô hình so với tính ngẫu nhiên của các mẫu dữ liệu học Mục đích của các mô hình tập hợp là làm giảm variance và/hoặc bias của các giải thuật học Dựa trên cách phân tích hiệu quả của giải thuật học dựa trên thành phần lỗi bias và variance, Breiman đã đề xuất giải thuật học Bagging (Bootstrap aggregating) nhằm giảm lỗi variance của giải thuật học nhƣng không làm tăng lỗi bias quá nhiều Giải thuật có thể đƣợc tóm tắt nhƣ sau:

 Từ tập dữ liệu học LS có m phần tử, xây dựng T mô hình cơ sở độc lập nhau

 Mô hình thứ t đƣợc xây dựng trên tập mẫu Bootstrap thứ t (lấy mẫu m phần tử có hoàn lại từ tập dữ liệu học LS)

 Kết thúc quá trình xây dựng T mô hình cơ sở, dùng chiến lƣợc bình chọn số đông để phân lớp một phần tử x mới đến hoặc giá trị trung bình cho bài toán hồi quy

Tập dữ liệu học LS Bootstrap-1 ŷ 1 (x) x

Hồi quy : ŷ(x) = (ŷ 1 (x)+ŷ 2 (x)…+ŷ T (x))/T Phân loại : ŷ(x) = bình chọn số đông {ŷ 1 (x), ŷ 2 (x),…,ŷ T (x)}

Hình 3.5 Giải thuật Bagging của cây quyết định

Phân tích chuỗi thời gian đa biến

Phân tích chuỗi thời gian đa biến liên quan đến việc sử dụng các mô hình ngẫu nhiên để mô tả và phân tích mối quan hệ giữa một số chuỗi thời gian Chúng ta giả sử rằng có k chuỗi thời gian đƣợc phân tích, kí hiệu là z 1t ,z 2t ,…,z kt , và kí hiệu Z t =( z 1t ,z 2t ,…,z kt )’ là vetor chuỗi thời gian tại thời điểm t, với t=0,±1,…

Phương pháp đa biến rất được quan tâm rong một loạt các lĩnh vực như kinh tế, kinh doanh, khoa học xã hội, khoa học trái đất (ví dụ nhƣ, khí tƣợng và địa vật lý), khoa học môi trường, và kỹ thuật Ví dụ, trong kỹ thuật, một điều rất lý thú được quan tâm nghiên cứu là hành vi đồng thời theo thời gian của dòng điện, áp suất, nhiệt độ và khối lƣợng Trong kinh tế, chúng ta quan tâm đến các biến động cùng nhau của của lãi suất, cung ứng tiền tệ, thất nghiệp Trong kinh doanh, các biến động cùng nhau của khối lƣợng hàng bán, giá cả và chi phí quảng cáo.Nhiều chuỗi thời gian có thể đồng thời liên quan nhau, một số chuỗi có thể ảnh hưởng quan trọng đến chuỗi khác hoặc tồn tại mối quan hệ hai chiều lẫn nhau giữa các chuỗi

Trong số các mô hình chuỗi thời gian đa biến, mô hình tự hồi quy vector(vector autoregressive) được sử dụng rộng rãi nhất trong thực tế, do nó tương đồng với mô hình hồi quy thông thường và tương đối dễ dàng xây dựng mô hình này cho các chuỗi thời gian thực tế

Mô hình tự hồi quy vector bậc p hay VAR(p) đƣợc định nghĩa: Φ(𝐵)( ) Trong đó: Φ(𝐵) = I - Φ 1 𝐵 - Φ 2 𝐵 2 -⋯- Φ𝑝𝐵 𝑝 , Φ𝑖 là ma trận đối số 𝑘 × 𝑘 và là chuỗi nhiễu có trung bình(mean) là 0 Mô hình tương đương viết thành:

Giả sử giá trị trung bình (mean) của μ là 0 cho thuận tiện Với k=2, ta có

Nhƣ vậy nếu 𝜙 12 ≠ 0 và 𝜙 21 ≠ 0, thì tồn tại mối quan hệ hai chiều lẫn nhau giữa 2 chuỗi trên, ngược lại 𝜙 12 = 𝜙 21 = 0 thì hai chuỗi không có tính tương quan nhau

Khi các chuỗi thời gian được gom thành một cụm và dùng phương phương phân tích chuỗi thời gian đa biến khi đó các chuỗi sẽ phụ thuộc lẫn nhau nhờ vậy khắc phục đƣợc tình trạng thƣa của dữ liệu, tuy nhiên nếu việc gom các chuỗi không phù hợp có thể dẫn đến kết quả không tốt do các chuỗi này gây nhiễu lẫn nhau.

Giải thuật gom cụm bằng phân cấp

Gom cụm chuỗi thời gian là sự phân chia các đối tƣợng dữ liệu chuỗi thời gian vào các nhóm dựa trên độ đo tương tự hoặc độ đo khoảng cách, sao cho các đối tượng chuỗi thời gian trong cùng một nhóm thì giống nhau, như vậy độ đo tương tự giữa các đối tƣợng trong cùng nhóm là nhỏ nhất, giữa các đối tƣợng trong các nhóm khác nhau là lớn nhất Mỗi nhóm đƣợc gọi là một cụm (cluster)

Có nhiều công trình nghiên cứu về gom cụm dữ liệu chuỗi thời gian và sử dụng giải thuật gom cụm phân cấp từ dưới lên HAC (Hierarchical Agglomerative Clusterring) nhờ ưu điểm không cần phải xác định số cụm trước và có thể thực hiện với dữ liệu lớn mà không tốn nhiều tài nguyên bộ nhớ, thời gian thực hiện gom cụm nhanh

Gom cụm phân cấp từ dưới lên bằng cách khởi đầu với những cụm chỉ có một phần từ Ở mỗi bước thực hiện tiếp theo thực hiện việc gom 2 cụm gần nhau nhất thành 1 cụm Tiêu chí trộn cụm đƣợc sử dụng nhƣ khoảng cách 2 điểm gần nhất giữa 2 cụm (single-linkage), khoảng cách 2 điểm xa nhất giữa 2 cụm (complete- linkage), khoảng cách trung bình giữa 2 cụm

Trái ngược với phương pháp gom cụm phân cấp từ dưới lên là gom cụm phân cấp từ trên xuống Phương pháp này đi theo chiến lược từ trên xuống bằng cách khởi đầu, ta cho tất cả các đối tƣợng dữ liệu thuộc về một cụm Sau đó, ta tách cụm dữ liệu này ra thành các cụm dữ liệu nhỏ hơn, quá trình này cứ tiếp tục cho

18 đến khi các đối tƣợng dữ liệu là một cụm hoặc thỏa điều kiện dừng (ví dụ: số cụm cần gom…) Ví dụ hình 3.7 mô tả cả hai giải thuật gom cụm phân cấp: từ dưới lên (đi từ trái qua phải) và từ trên xuống (đi từ phải qua trái)

Hình 3.7 Giải thuật gom cụm phân cấp với đối tƣợng {a,b,c,d,e} Độ tương tự (similarity) là tỉ lệ giữa số lượng các thuộc tính hai đối tượng giống nhau và tổng số lƣợng các thuộc tính giữa chúng Hai đối tƣợng mà tất cả các thuộc tính giống nhau thì độ tương tự là 1, ngược lại hai đối tượng mà không có thuộc tính nào giống nhau thì độ tương từ là 0

Trong giải thuật gom cụm phân cấp HAC, chúng tôi khảo sát độ tương tự kết hợp (similarity scale) từ 0,5 đến 0,99 để giải thuật thực hiện việc gom cụm Độ tương tự kết hợp (similarity scale) cũng có ý nghĩa như độ tương tự (similarity) Độ tương tự kết hợp (similarity scale) được suy ra từ độ đo khoảng cách được ví dụ nhƣ hình 3.8

Hình 3.8: Dùng độ tương tự kết hợp để chia cụm

19 Khoảng cách là một khái niệm hình học thể hiện sự gần nhau của các đối tƣợng trong một không gian chiều cao, đƣợc xác định bằng phép đo trên các thuộc tính Độ đo khoảng cách đƣợc chúng tôi sử dụng trong giải thuật gom cụm phân cấp (HAC) để thực nghiệm là Euclid và xoắn thời gian động (DTW).

Cách tính độ đo khoảng cách

Trong các bài toán về khai phá dữ liệu chuỗi thời gian, để so sánh hai chuỗi thời gian người ta sử dụng các độ đo khoảng cách Hai độ đo khoảng cách thường đƣợc sử dụng trong lĩnh vực này là độ đo Euclid và xoắn thời gian động (Dynamic Time Warping) Trong phần này, độ đo khoảng cách đƣợc định nghĩa trên hai chuỗi có chiều dài bằng nhau X, Y và đƣợc ký hiệu D(X, Y) Độ đo khoảng cách Euclid

( ) √∑( ) Độ đo khoảng cách Minkowski

Tuy p có thể có nhiều giá trị khác nhau nhưng trong các nghiên cứu p thường nhận các giá trị 1 (khoảng cách Manhattan), 2 (khoảng cách Euclid), ∞ (khoảng cách Max) Giá trị p = 2 đƣợc dùng phổ biến nhất Độ đo khoảng cách xoắn thời gian động (Dynamic Time Warping - DTW) Độ đo xoắn thời gian động (Dynamic Time Warping – DTW) đƣợc giới thiệu bởi Sakoe, Chiba (1978), DTW có cách tính tương tự cách tính khoảng cách Minkowski nhưng thay vì so trùng hai đường biểu diễn dữ liệu bằng cách tính khoảng cách từng cặp điểm 1 - 1 (điểm thứ i của chuỗi thứ nhất so với điểm thứ i của chuỗi thứ hai) thì một điểm có thể ánh xạ với nhiều điểm DTW cho phép nhận dạng những mẫu có hình dạng giống nhau nhƣng chiều dài hình dạng về mặt thời gian có thể khác nhau DTW thì hiệu quả hơn rất nhiều so với phương pháp tính khoảng cách theo Euclid Đặc biệt trong các bài toán phân loại (classfication), gom cụm (clustering) Tuy nhiên DTW có nhƣợc điểm rất lớn là thời gian chạy tính toán rất lâu

Thuật toán DTW tính toán đường xoắn tối ưu giữa hai chuỗi thời gian, giả sử có hai chuỗi thời gian A(a 1 ,a 2 ,…,a i ,…a n) và B(b 1 ,b 2 ,…,b j , b m ) Để tính toán

20 khoảng cách DTW giữa hai chuỗi trên, ta xây dựng một ma trận D có kích thước mxn Trong đó, phần tử d ij = d(a i , b j ) là khoảng cách giữa hai điểm a i và b j Khoảng cách thông thường được sử dụng nhất là khoảng cách tuyệt đối giữa a i và b j nghĩa là d(a i , b j ) = |a i – b j | (khoảng cách Euclid)

Từ ma trận khoảng cách D, chúng ta xây dựng ma trận khoảng cách tối thiểu DW giữa hai chuỗi bằng cách sử dụng giải thuật quy hoạch động với các tiêu chí tối ƣu hóa sau: dw ij = d ij + min(dw i-1,j-1 , dw i-1,j ,dw i,j-1 )

Trong đó dw ij là khoảng cách nhỏ nhất giữa hai chuỗi con (a 1 ,a 2 ,…,a i) và (b 1 ,b 2 ,…,b j) Một đường xoắn tối ưu (warping path) W là một đường thông qua ma trận khoảng cách tổi thiểu DW bắt đầu từ phần tử dw 11 đến phần từ dw nm bao gồm các phần tử dw ij mà hình thành nên khoảng cách dw nm

Theo định nghĩa, đường xoắn tối ưu là đường xoắn cho khoảng cách xoắn nhỏ nhất và khoảng cách của 2 chuỗi được xác định từ đường xoắn tối ưu:

Trong đó w i là những phần tử thuộc về đường xoắn tối ưu và p là số lượng phần tử của đường xoắn Tính toán khoảng cách giữa hai chuỗi được ví dụ trong hình 3.9, đường xoắn tối ưu được tô xám, số lượng phần tử của đường xoắn p=9, tổng đường xoắn là 54, do vậy DTW(A,B)T/9=6

Hình 3.9 Đường xoắn tối ưu của hai chuỗi

Cách đánh giá độ chính xác dự báo

Tiêu chuẩn để đánh giá tính hiệu quả của phương pháp được sử dụng cho bài toán này là Trung bình tuyệt đối lỗi (Mean absolute error - MAE), Phần trăm tuyệt đối sai số trên tháng(Absolute percent monthly error - APME), Sai số trên tháng (Monthly Error - ME), Tổng giá trị thực tế(Actual Total- AT)

Trong đó là giá trị quan sát đƣợc (giá trị thực tế), là giá trị dự báo tại thời điểm i

Chu kỳ dự báo của công ty X thường thực hiện hàng tháng, do vậy công ty X sử dụng độ đo APME và ME để đánh giá độ chính xác kết quả dự báo hằng tháng phục vụ cho việc cân đối tài chính của mình (vay hoặc trả nợ ngân hàng hằng tháng) Ý nghĩa của ME, nếu ME < 0 việc dự báo thiếu hụt so với thực tế, ME > 0 dự báo cho kết quả nhiều hơn so với thực tế Hai độ đo này có ý nghĩa rất quan trọng đối với chuyên viên phân tích tài chính của công ty X do vậy chúng tôi cũng sử dụng 2 độ đo này trong báo cáo của mình Trong bảng kết quả chuyên viên cũng quan tâm giá tổng giá trị thực tế của tháng (Actual Total- AT) với mục đích tham khảo

PHƯƠNG PHÁP DỰ BÁO VÀ THỰC NGHIỆM

Nghiệp vụ cho vay tín dụng và thu nợ

Dòng tiền vào từ hoạt động thu hồi tín dụng xuất phát từ quá trình giao dịch thương mại điện tử giữa khách hàng và công ty X Quy trình nghiệp vụ về hoạt động cho vay tín dụng và thu hồi tín dụng của công ty X đƣợc tóm tắt trong hình

4.1 nhƣ sau: Đăng ký Thẩm định Ký hợp đồng Mua hàng Thanh toán

Hình 4.1 Quy trình nghiệp vụ

 Đăng ký: CBCNV thông qua doanh nghiệp, thực hiện việc đăng ký sử dụng thẻ ECC (Employee Credit Card) để tham gia vào chương trình Phúc lợi tiêu dùng

 Thẩm định: Công ty X sẽ thẩm định thông tin khách hàng, cũng nhƣ thông tin của doanh nghiệp mà khách hàng đang làm việc Dựa theo quy định sẽ cấp hạn mức tín dụng cho mỗi khách hàng

 Ký hợp đồng: CBCNV thực hiện việc ký hợp đồng để có thẻ ECC, lúc đó mới có thể tham gia giao dịch mua hàng Hợp đồng này có liên quan đến hợp đồng đại lý giữa doanh nghiệp với công ty X, trong hợp đồng đại lý với doanh nghiệp có những thông tin quan trọng liên quan đến mô hình dự báo nhƣ:

 ngày sao kê là ngày mà công ty X gửi bảng chi tiết bảng sao kê số tiền phải thu giúp cho doanh nghiệp

 ngày đến hạn thanh toán (hạn trả) là ngày doanh nghiệp phải thanh toán tiền thu hộ từ CBCNV cho công ty X

 Mua hàng: Khách hàng sử dụng thẻ ECC để thực hiện việc đặt hàng, mức tối đa số tiền giao dịch tùy thuộc vào hạn mức thẻ ECC đƣợc cấp bởi công ty X Nếu hết hạn mức trong thẻ ECC thì khách hàng không thể giao dịch đƣợc Sau khi đặt hàng thành công và nhận hàng từ các nhà cung cấp sẽ chuyển qua giai đoạn thanh toán

 Thanh toán: Sau khi giao dịch mua hàng thành công, công ty X sẽ cho khách hàng vay tiền để mua hàng hóa của nhà cung cấp và chuyển hàng hóa cho khách hàng, hằng tháng công ty X sẽ thu hồi số tiền tín dụng này từ khách hàng Tổng số tiền khách hàng phải trả sẽ đƣợc chia thành nhiều tháng Hằng tháng đến ngày sao kê công ty X sẽ gửi bảng sao kê cần thanh toán qua cho các doanh nghiệp và các doanh nghiệp có nhiệm vụ thu hộ

23 tiền (hoặc khấu trừ lương) từ CBCNV Sau đó doanh nghiệp sẽ thanh toán lại cho công ty X sao cho ngày thanh toán phải trước ngày đến hạn thanh toán Tuy nhiên thực tế thì các doanh nghiệp đa số trả trễ hạn so với ngày đến hạn thanh toán

Quy trình nghiệp vụ trên chỉ mô tả một cách khái quát về hoạt động kinh doanh của công ty X để diễn giải dòng tiền vào xuất phát từ đâu và đi vào công ty X nhƣ thế nào Nhƣ vậy tiền thu hồi tín dụng chính là số tiền mà các doanh nghiệp hằng tháng thực hiện thanh toán cho công ty X tại bước cuối trong quy trình trên Để thấy rõ các nhân tố ảnh hưởng đến việc trả trễ hẹn cũng như các nhân tố ảnh hưởng đến tổng số tiền thu hồi, chúng tôi thực hiện phân tích rõ hơn nghiệp vụ thanh toán đƣợc thực hiện hằng tháng giữa doanh nghiệp và công ty X

Ngày sao kê Ngày đến hạn thanh toán

Ngày chốt sao kê Ngày thanh toán t1 t2 t4 t3

Hình 4.2 Phân tích các mốc thời gian

Trong hình 2, ngày t 1 , t 3 là những ngày cố định mà công ty X chủ động làm việc với khách hàng dựa trên hợp đồng đại lý đã thỏa thuận Đến ngày t 1 công ty X sẽ gửi bảng sao kê cho các doanh nghiệp có ngày sao kê trùng với t 1 và yêu cầu doanh nghiệp phải thanh toán trước ngày t 3

Sau ngày t 1 các doanh nghiệp nhận sao kê sẽ bắt đầu rà soát chi tiết bảng sao kê để làm việc với công ty X nhằm chốt danh sách khách hàng sẽ trả và số tiền sẽ trả

Tùy thuộc vào nhân lực thực hiện công việc này của doanh nghiệp và công ty X, cũng nhƣ số lƣợng khách hàng mà doanh nghiệp đang quản lý nhiều hay ít, công việc chốt sao kê này sẽ kết thúc nào ngày t 2 (t 2 cũng diễn ra sau ngày chốt công của doanh nghiệp) Nhƣ vậy ngày t 2 diễn ra sớm hay muộn, phụ thuộc rất nhiều vào các doanh nghiệp Ngày t 2 diễn ra muộn thường vì các lý do như: khách hàng mà doanh nghiệp đang quản lý đã nghỉ việc, khách hàng khiếu nại số tiền không chính xác, khách hàng khiếu nại về hàng hóa Những lý do trên cũng làm ảnh hưởng đến tổng số tiền thu hồi từ doanh nghiệp

Từ ngày t 2 đến ngày t 4 là nghiệp vụ của các doanh nghiệp trong việc thu hồi tiền giúp công ty X(thu hồi bằng tiền mặt hoặc khấu trừ lương) Khoảng thời gian này dài hay ngắn phụ thuộc vào nghiệp vụ của các doanh nghiệp Ngoài ra nếu ngày t 2 càng bị trễ thì sẽ kéo theo ngày thanh toán t 4 trễ theo

Qua phân tích chúng tôi nhận thấy các biến ngẫu nhiên bất định ngày thanh toán và tổng số tiền thu hồi bị ảnh hưởng rất nhiều từ doanh nghiệp Bênh cạnh đó

24 từ khoảng thời gian t 1 đến t 2 cũng có sự tham gia tương tác nghiệp vụ của công ty

X, nên công ty X cũng có một phần ảnh hưởng vào việc trả sớm hay muộn của doanh nghiệp.

Phương pháp dự báo thủ công

Dựa vào nghiệp vụ và kinh nghiệm quan sát quá trình trả nợ hằng ngày của các doanh nghiệp, chuyên viên công ty X đã đề xuất một phương pháp dự báo dòng tiền thu được bằng cách ước lượng Phương pháp dự báo thủ công này tập trung vào việc ƣớc lƣợng tổng số tiền sẽ thu hồi, sau đó chia tổng số tiền này theo một tỉ lệ cho từng ngày của tháng kế tiếp

Tổng số tiền sẽ thu hồi đƣợc tính toán và ƣớc lƣợng nhờ vào nghiệp vụ bán hàng và thu hồi tín dụng của công ty Nhờ số tiền phát sinh mua hàng của doanh nghiệp trong tháng đƣợc công ty X yêu cầu trả thành 6 đợt do vậy chuyên viên hoàn toàn có thể ƣớc lƣợng số tiền sẽ gửi sao kê để thu hồi Tuy nhiên khó khăn cho chuyên viên chính là không xác định đƣợc khách hàng có trả đủ số tiền nhƣ sao kê hay không Xét một ví dụ về nghiệp vụ mua hàng, số tiền sao kê của một doanh nghiệp nhƣ bảng 4.1

Bảng 4.1 Nghiệp vụ trả tiền của doanh nghiệp

Tháng trả T3 trả T4 trả T5 trả T6 trả T7 trả T8 trả T9 trả T10 trả

Trong ví dụ bảng 4.1, giả sử số tiền phát sinh mua hàng trong tháng 3 của doanh nghiệp là A (VNĐ) thì công ty X sẽ chia số tiền A này thành các phần từ A 1 (VNĐ) đến A 6 (VNĐ) và cho phép doanh nghiệp thanh toán A 1 (VNĐ) vào tháng 3, A 2 (VNĐ) vào tháng 4,…, A 6 (VNĐ) vào tháng 8 Việc chia số tiền A trong tháng 3 thành 6 phần bằng nhau hay khác nhau tùy theo quy định của công ty X (giai đoạn chúng tôi đang làm đề tài thì đƣợc chia thành các phần bằng nhau), nhƣ vậy A sẽ là tổng của A 1 ,A 2 , A 6 Tương tự như vậy Tháng 4,5 cũng được chia thành 6 phần và đƣợc yêu cầu thanh toán vào các tháng nhƣ trong bảng 4.1

Nhƣ ví dụ trên, số tiền sao kê tháng 5 công ty X gửi cho doanh nghiệp và yêu cầu thanh toán là A 3 +B 2 +C 1 Thực tế thì doanh nghiệp luôn trả ít hơn số tiền sao kê và nếu trả thiếu thì số tiền trả thiếu sẽ đƣợc cộng vào tháng kế tiếp

Với ví dụ trên nếu thời điểm hiện tại là cuối tháng 4 Công ty X tính số tiền sao kê cho doanh nghiệp vào tháng 5 bằng cách tính số tiền cần trả của tháng 3 là A 3 , số tiền cần trả của tháng 4 là B 2 và ƣớc tính số tiền cần trả phát sinh trong tháng 5 là C 1 Nhƣ vậy chỉ cần ƣớc tính giá trị phát sinh C 1, còn những giá trị cần trả của các tháng cũ đều tính đƣợc Hiện tại chuyên viên công ty thay vì ƣớc tính số tiền cần trả phát sinh trong tháng 5 cho từng doanh nghiệp, họ ƣớc tính luôn tổng số

25 tiền cần trả phát sinh trong tháng 5 cho toàn bộ doanh nghiệp theo kinh nghiệm, còn số tiền cần trả của những tháng cũ thì tổng hợp theo từng doanh nghiệp

- m : tháng cần dự báo tổng số tiền thu hồi tín dụng

- ECCRM(m): Tổng số tiền mà công ty thu hồi đƣợc do các doanh nghiệp thu nợ giúp từ khách hàng trong tháng m (đơn vị tính là VNĐ) - debit(m-t) : tổng số tiền nợ cần trả của toàn bộ các doanh nghiệp trong 5 tháng trước đó so với thời điểm tháng m - estimate(m): tổng sổ tiền nợ cần trả phát sinh do mua hàng trong tháng m của toàn bộ các doanh nghiệp

- factor: đây là hệ số thu hồi nợ do các doanh nghiệp luôn trả thiếu so với số tiền trong bảng sao kê mà công ty X gửi cho doanh nghiệp Hệ số này dựa theo kinh nghiệm của chuyên viên và rất khó xác định vì nó có thể đúng với tháng này nhƣng tháng khác sẽ không còn đúng

Sau khi ƣớc lƣợng đƣợc tổng số tiền công ty X thu hồi trong một tháng, chuyên viên công ty X thực hiện tính số tiền trả theo ngày bằng công thức sau:

- i : ngày cần dự báo trong tháng m có giá trị từ 1 31 (tùy theo tháng có 28,

30 hay 31 ngày mà i sẽ có giá trị lớn nhất tương ứng với số ngày này) - p(i) : tỉ lệ % số tiền thu đƣợc tại ngày thứ i so với tổng số tiền trong tháng

(đơn vị tính %) Giá trị này tính đƣợc bằng cách khảo sát dữ liệu quá khứ

Trong bảng 4.2 là ví dụ cách tính p(i), xét tháng 3 có các ngày từ 1 31, tỉ lệ số tiền thu được tại ngày 1/3/2015 là 4% so với tổng thu của tháng, tương tự như vậy cho các ngày còn lại trong bảng Trong ví vụ p(1)=5,6% chính là giá trị trung bình tỉ lệ số tiền thu đƣợc của ngày 1/3/2015,1/4/2015 và 1/5/2015

Bảng 4.2 Tỉ lệ số tiền thu đƣợc trung bình theo ngày trong tháng

26 Chúng tôi đã thực hiện việc hiện thực lại phương pháp ước lượng để đo đạt, dữ liệu thực nghiệm đƣợc công ty X cung cấp từ ngày 01/01/2014 đến ngày

03/06/2015, kết quả thực nghiệm cho bởi bảng 4.3

Kết quả thực nghiệm cho thấy trung bình APME là 23,9% với hệ số factor=0,7, kết quả của bảng 4.3 đƣợc chúng tôi chọn lọc để báo cáo với APME thấp nhất tương ứng với factor=0,7 Dựa theo kinh nghiệm của chuyên viên công ty X đề xuất chúng tôi đã thử hệ số factor=0,7 đến 0,8, đối với estimate(m) do dựa vào kinh nghiệm của chuyên viên công ty X và hoàn toàn có thể tính đƣợc bằng phương pháp trung bình để cho kết quả gần đúng với thực tế, do vậy trong quá trình chạy thực nghiệm chúng tôi dựa vào dữ liệu thực tế đã có để gán giá trị này bằng với thực tế

Bảng 4.3 Kết quả với phương pháp dự báo thủ công

Tháng 12/2014 1/2015 2/2015 3/2015 4/2015 5/2015 Trung bình MAE 891 1.306 1.620 1.303 1.315 1.581 1.336 ME 2.853 5.005 16.709 -11.337 5.235 -31.172

Phương pháp dự báo thủ công chủ yếu phụ thuộc vào hệ số factor, hệ số này đƣợc chuyên viên công ty X đƣa ra dựa trên phán đoán theo kinh nghiệm kết hợp với việc tham khảo giá trị trung bình tỉ lệ thu hồi nợ so với sao kê trong quá khứ

Chính vì phụ thuộc quá nhiều vào cảm tính nên kết quả cho ta thấy trung bình sai số APME không theo một quy luật nào cả.

Phương pháp phân tích dữ liệu chuỗi thời gian

Sử dụng phương pháp phân tích chuỗi thời gian được Box, Jenkins & Reinsel (2015) giới thiệu để giải quyết các bài toán dự báo trong lĩnh vực tài chính cụ thể trong việc ứng dụng dự báo và điều khiển phục vụ lập kế hoạch tài chính và kinh doanh, lập kế hoạch sản xuất, kiểm soát hàng tồn và hàng xuất, kiểm soát và tối ƣu hóa các quá trình sản xuất công nghiệp

Chúng tôi có 2 cách tiếp cận đối với dự báo dòng tiền Thứ nhất, phân tích dòng tiền trả của từng doanh nghiệp và dự báo riêng lẻ Thứ hai, gộp toàn bộ dòng tiền trả của các doanh nghiệp và dự báo duy nhất dòng tiền gộp này

Chuỗi dữ liệu tiền trả đƣợc dự báo riêng lẻ

Theo nghiệp vụ tại công ty X, doanh nghiệp trả tiền theo thời gian và thực hiện hàng tháng, do vậy chúng tôi đề xuất thực hiện việc xây dựng mô hình dự báo trả tiền cho từng doanh nghiệp Khi có kết quả dự báo của tháng tiếp theo của từng doanh nghiệp chúng tôi sẽ thực hiện việc tổng hợp để có kết quả dự báo số tiền công ty X thu nợ được từ các doanh nghiệp Hình 4.3 tóm tắt phương pháp mà chúng tôi đề xuất thực hiện

Chuỗi thời gian doanh nghiệp 1

Chuỗi thời gian doanh nghiệp

Chuỗi thời gian doanh nghiệp N

Xây dựng mô hình và dự báo cho doanh nghiệp 1

Xây dựng mô hình và dự báo cho doanh nghiệp

Xây dựng mô hình và dự báo cho doanh nghiệp N

Tổng hợp kết quả dự báo

Hình 4.3 Phương pháp dự báo tiền trả theo từng doanh nghiệp

Từ dữ liệu lịch sử các doanh nghiệp trả tiền cho công ty X, chúng tôi thực hiện việc xử lý để có đƣợc chuỗi dữ liệu tiền trả của từng doanh nghiệp theo ngày, sau khi có đƣợc chuỗi dữ liệu thời gian của từng doanh nghiệp chúng tôi tiếp tục thực hiện xây dựng mô hình dự báo bằng các thuật toán sẵn có trên công cụ Weka, mỗi doanh nghiệp sẽ có mô hình dự báo khác nhau

Mô hình dự báo tương ứng với mỗi doanh nghiệp được dùng để dự báo số tiền trả của từng doanh nghiệp theo một khoảng thời gian cụ thể Sau khi dự báo đƣợc kết quả trả tiền của từng doanh nghiệp trong một khoảng thời gian, chúng tôi thực hiện việc tổng hợp lại bằng cách cộng theo ngày số tiền trả của toàn bộ doanh nghiệp Nhƣ vậy từ kết quả dự báo tiền trả của N doanh nghiệp, chúng tôi thực hiện cộng lại theo ngày để đƣợc kết quả dự báo số tiền mà công ty X thu đƣợc

Chúng tôi đã thực nghiệm với bộ dữ liệu mà công ty X cung cấp Thực nghiệm với tất cả các thuật toán sẵn có trên công cụ Weka và theo số liệu kết quả chỉ ra rằng 3 thuật toán Bagging, RandomForest, RandomCommittee cho kết quả APME thấp nhất Giải thuật RandomCommittee với các tham số MaxLag0, NumIterations được chúng tôi chọn chung trong các phương pháp dự báo phân tích chuỗi thời gian với mục đích khi so sánh đảm bảo công bằng giữa các phương pháp Giải thuật và tham số cấu hình đƣợc chúng tôi phân tích thêm trong phần nhận xét kết quả thực nghiệm Kết quả thực nghiệm cho bởi bảng 4.4

Bảng 4.4 Kết quả với phương pháp dự báo tiền trả theo từng doanh nghiệp

Kết quả thực nghiệm cho thấy trung bình APME lớn hơn so với phương pháp thủ công Khảo sát dữ liệu cho thấy giá trị 0 quá nhiều trên chuỗi thời gian trả tiền của từng doanh nghiệp đã làm ảnh hưởng đến kết quả dự báo, phương pháp này đã cho kết quả dự báo không đạt

28 Phân tích dữ liệu trả tiền của doanh nghiệp thể hiện tại hình 4.4 Trong hình chúng tôi vẽ lại số liệu theo ngày mà doanh nghiệp AB_INBEV và DKDQ trả tiền cho công ty X, chiều cao tương ứng với số tiền trả (đơn vị tính: triệu) Hình ảnh cho thấy các doanh nghiệp trả một lần một tháng do vậy dữ liệu trả nợ theo ngày rất rời rạc, chuỗi dữ liệu theo thời gian của các doanh nghiệp có giá trị 0 chiếm 96% chuỗi dữ liệu, nhƣ vậy doanh nghiệp trả tiền theo tháng siêu thƣa nếu xem xét theo ngày chính vì vậy mô hình dự báo đã không cho kết quả tốt

Như vậy cần có phương pháp giải quyết tính chất siêu thưa của dữ liệu để bài toán dự báo theo phương pháp phân tích chuỗi thời gian có kết quả tốt hơn

Hình 4.4 Khảo sát dữ liệu trả triền của 2 doanh nghiệp

Chuỗi dữ liệu tiền trả được gộp lại trước khi dự báo Để giải quyết hạn chế dữ liệu siêu thƣa dẫn đến kết quả dự báo không chính xác, chúng tôi đề xuất xây dựng một mô hình dự báo duy nhất khi phân tích chuỗi thời gian tiền thu của công ty X Chúng tôi thực hiện cộng toàn bộ số tiền thu của các doanh nghiệp để được một chuỗi dữ liệu tiền thu theo thời gian Phương pháp thực hiện này đƣợc chúng tôi tóm tắt ở hình 4.5

Dữ liệu tiền thu doanh nghiệp 1

Dữ liệu tiền thu doanh nghiệp

Dữ liệu tiền thu doanh nghiệp N

Tổng hợp đƣợc chuỗi thời gian tiền thu

Xây dựng mô hình và dự báo tiền thu

Hình 4.5 Phương pháp gộp dữ liệu tiền trả trước khi dự báo

29 Dữ liệu tiền thu của từng doanh nghiệp có các thông tin nhƣ ngày trả, số tiền trả, chúng tôi thực hiện cộng số tiền trả của toàn bộ doanh nghiệp có cùng ngày trả, sau khi tổng hợp chúng ta có đƣợc chuỗi thời gian tiền thu theo ngày mà công ty X nhận đƣợc

Chuỗi thời gian tiền thu từ việc tổng hợp tiền trả của các doanh nghiệp cũng chính là dòng tiền vào từ hoạt động thu hồi tín dụng của công ty X Với số lƣợng lớn khoảng 600 doanh nghiệp trả cho công ty trong một tháng, tính ra trung bình một ngày có khoảng 20 doanh nghiệp trả cho công ty, nhờ vậy chuỗi dữ liệu tiền thu theo ngày chắc chắn không còn tình trạng thƣa (hình 4.6) Tuy nhiên dữ liệu quá khứ tính đến nay chỉ khoảng 12 tháng do vậy dữ liệu dùng cho việc huấn luyện còn ngắn

Thông qua chuỗi dữ liệu theo thời gian hằng ngày công ty X thu đƣợc, chúng tôi xây dựng mô hình dự báo theo ngày số tiền mà công ty X thu đƣợc Khác với phương pháp dự báo tiền trả của từng doanh nghiệp có nhiều mô hình dự báo, phương pháp dự báo tiền thu hồi toàn bộ doanh nghiệp chỉ có một mô hình dự báo duy nhất

Từ mô hình dự báo có được bằng phương pháp phân tích chuỗi thời gian theo giải thuật RandomCommittee, chúng ta dự báo được số tiền thu trong tương lai

Chúng tôi đã thực nghiệm với tập dữ liệu và cho kết quả nhƣ bảng 4.5

Bảng 4.5 Kết quả với phương pháp dự báo tiền thu hồi toàn bộ doanh nghiệp

Kết quả thực nghiệm trong bảng 4.5 cho ta trung bình APME là 38,2% cao hơn so với phương pháp dự báo tiền trả của từng doanh nghiệp là 34,8%, trong khi đó MAE trung bình là 1.240 (triệu) thấp hơn so với phương pháp dự báo tiền trả của từng doanh nghiệp là 1.709 (triệu)

Phương pháp gom cụm các doanh nghiệp

Để giải quyết vấn đề thƣa dữ diệu chúng tôi tham khảo công trình của Jha, Ray, Seaman & Dhillon (2015), nhóm tác giả đã giải quyết bài toán dự báo số lƣợng các mặt hàng bán đƣợc nhằm phục vụ cho việc lập kế hoạch kinh doanh trong ngành bán lẻ Khó khăn trong việc dự báo số lƣợng mặt hàng bán đƣợc là dữ liệu lịch sử kinh doanh của các mặt hàng không đủ để phục vụ cho công tác dự báo Để giải quyết vấn đề không đủ dữ liệu, tác giả thực hiện việc gom nhóm các mặt hàng lại với nhau sau đó xây dựng mô hình dự báo cho từng cụm Sau khi gom được các cụm phù hợp tác giả sử dụng phương pháp đa biến (mutivariate models) để dự báo

Chuỗi dữ liệu tiền trả đƣợc gom thành một cụm

Chúng tôi nhóm toàn bộ các doanh nghiệp thành một cụm với mong muốn các doanh nghiệp sẽ bổ khuyết dữ liệu cho nhau không còn tình trạng dữ liệu dưới dạng siêu thƣa Mô hình dự báo với cách nhóm toàn bộ doanh nghiệp thành một cụm đƣợc thể hiện tại hình 4.7

Sau khi nhóm toàn bộ doanh nghiệp thành một cụm, mỗi doanh nghiệp có chuỗi dữ liệu thời gian theo ngày mô tả số tiền trả cho công ty X Chúng tôi xây dựng mô hình dự báo cho cụm này bằng phương pháp phân tích chuỗi thời gian đa biến với giải thuật RandomCommittee sẵn có trên công cụ Weka

Với mô hình dự báo cho một cụm có đƣợc, chúng tôi thực hiện dự báo cho một cụm để đƣợc số tiền trả theo một khoảng thời gian cần đo đạt Kết quả dự báo là những chuỗi dữ liệu dự báo cho từng doanh nghiệp Chúng tôi thực hiện việc tổng hợp lại bằng cách cộng theo ngày số tiền trả của toàn bộ doanh nghiệp Nhƣ vậy từ

31 kết quả dự báo tiền trả của N doanh nghiệp, chúng tôi thực hiện cộng lại theo ngày để đƣợc kết quả dự báo số tiền mà công ty X thu đƣợc

Xây dựng mô hình dự báo cho một cụm (phương pháp phân tích chuỗi thời gian đa biến)

Cụm chuỗi tiền trả của doanh nghiệp

DN n Dự báo cho kết quả của một cụm doanh nghiệp

+ Tổng hợp kết quả dự báo

Hình 4.7 Dự báo một cụm toàn bộ các doanh nghiệp

Chúng tôi đã thực nghiệm với bộ dữ liệu mà công ty X cung cấp, kết quả thực nghiệm cho bởi bảng 4.6 cho ta trung bình APME là 82,2%

Bảng 4.6 Kết quả với phương pháp gom thành một cụm

Tháng 12/2014 1/2015 2/2015 3/2015 4/2015 5/2015 Trung bình MAE 1.055 1.090 1.303 1.827 1.417 1.952 1.440 ME -31.887 -31.868 -28.617 -44.257 -39.461 -60.213

Việc nhóm toàn bộ doanh nghiệp vào một cụm với mong muốn tăng dữ liệu huấn luyện giảm tình trạng siêu thƣa của dữ liệu hiện có, chúng tôi hi vọng sẽ đƣợc một mô hình dự báo tốt hơn, tuy nhiên kết quả thực nghiệm cho chúng ta thấy giá trị dự báo luôn thấp hơn so với giá trị thật rất nhiều Nguyên nhân dẫn đến việc này do giá trị 0 của các chuỗi đã tác động lẫn nhau làm suy giảm giá trị dự báo cho từng chuỗi, theo khảo sát giá trị 0 của dữ liệu chuỗi thời gian tương ứng với tiền trả của một doanh nghiệp chiếm 96% chiều dài chuỗi (hình 4.4)

32 Một nguyên nhân khác dẫn đến kết quả không tốt là khi gom thành một cụm nhƣ vậy các chuỗi có tính chất khác nhau dùng chung một mô hình dự báo có khả năng tác động triệt tiêu lẫn nhau dẫn đến suy giảm kết quả dự báo Nhƣ vậy chúng tôi đề xuất cần phân cụm lớn này thành các cụm nhỏ hơn có cùng tính chất để tăng độ chính xác trong dự báo

Chuỗi dữ liệu tiền trả đƣợc gom thành nhiều cụm

Việc gom chuỗi dữ liệu các doanh nghiệp thành một cụm đã không cho kết quả tốt, tham khảo công trình Jha, Ray, Seaman & Dhillon (2015) chúng tôi thực hiện việc gom cụm chuỗi dữ liệu các doanh nghiệp bằng phương pháp gom cụm phân cấp (Hierarchical Agglomerative Clustering- HAC) và dùng độ đo khoảng cách xoắn thời gian động (Dynamic Time Warping – DTW)

HAC là một trong những phương pháp đơn giản thường được dùng để gom cụm trong dữ liệu chuỗi thời gian, Fong (2012) cũng đã sử dụng HAC để gom cụm, Fong (2012) cũng đã chỉ ra rằng độ đo khoảng cách DTW tối ƣu hơn độ đo

Euclid trong việc gom cụm dữ liệu chuỗi thời gian vì độ đo DTW tìm thấy sự tương tự của hai chuỗi thời gian tốt hơn

Chúng tôi đã sử dụng công cụ R (một phần mềm nguồn mở dùng cho tính toán thống kê và đồ họa www.r-project.org) để thực hiện việc gom cụm chuỗi dữ liệu tiền trả của các doanh nghiệp, chúng tôi thử nghiệm phương pháp gom cụm HAC với các 2 độ đo khoảng cách Euclid và DTW

Với thực nghiệm độ đo Euclid thì kết quả gom cụm cho thấy khi cho k=2 N thì luôn có tình trạng toàn bộ các chuỗi dữ liệu đƣợc gom thành một cụm, những cụm còn lại thì chỉ có một chuỗi dữ liệu Đối với độ đo DTW thì không bị tình trạng trên Điều này chứng tỏ đúng nhƣ các công trình liên quan, độ đo DTW cho thấy sự tương tự của hai chuỗi thời gian tốt hơn so với Euclid trong tập dữ liệu chuỗi thời gian trả nợ của các doanh nghiệp

Với giải thuật HAC dùng độ đo DTW, chúng tôi thực nghiệm độ tương tự kết hợp(similarity scale) tương ứng là 0,5; 0,75; 0,95; 0,99 (giá trị càng tăng thì các nhóm trong một cụm phải có độ tương tự càng cao) cho ra kết quả với số cụm tương ứng k=4, 11, 25, 158 Chúng tôi khảo sát kết quả dự báo của các nhóm gom được tương ứng với giá trị số nhóm k đã gom cụm được từ giải thuật

Khảo sát cho thấy độ tương tự kết hợp càng lớn thì trung bình sai số giá trị dự báo tháng càng giảm, với độ tương tự kết hợp là 0,99 (tương ứng với khoảng cách tương tự giữa 2 chuỗi

Ngày đăng: 09/09/2024, 14:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Bastos, J. A. (2010), Forecasting bank loans loss-given-default, Journal of Banking and Finance, 34, 2510-2517 Sách, tạp chí
Tiêu đề: Journal of Banking and Finance
Tác giả: Bastos, J. A
Năm: 2010
[2] Bellotti, T., Crook, J. (2012), Loss given default models incorporating macroeconomic variables for credit cards, International Journal of Forecasting, 28(1), 171–182 Sách, tạp chí
Tiêu đề: International Journal of Forecasting
Tác giả: Bellotti, T., Crook, J
Năm: 2012
[3] Berndt, D. J., Clifford , J. (1994), Using dynamic time warping to find patterns in time series, AAAI-94 Workshop on Knowledge Discovery in Databases,10, no. 16. Seattle, WA, pp. 359–370 Sách, tạp chí
Tiêu đề: AAAI-94 Workshop on Knowledge Discovery in Databases
Tác giả: Berndt, D. J., Clifford , J
Năm: 1994
[4] Box, G.E., Jenkins, G.M., Reinsel, G.C. (2015), Time series analysis: forecasting and control, Wiley, 5 th Edition Sách, tạp chí
Tiêu đề: Wiley
Tác giả: Box, G.E., Jenkins, G.M., Reinsel, G.C
Năm: 2015
[6] Breiman, L. (1996), Bagging predictors, Machine Learning, 24(2), pp.123–140 Sách, tạp chí
Tiêu đề: Machine Learning
Tác giả: Breiman, L
Năm: 1996
[7] Breiman, L. (2001), Random forests, Machine Learning, 45(1), pp.5–32 [8] Calabrese, R., Zenga, M. (2008), Measuring loan recovery rate: methodologyand empirical evidence, Statistica &amp; Applicazioni, 6, 193–214 Sách, tạp chí
Tiêu đề: Statistica & Applicazioni
Tác giả: Breiman, L. (2001), Random forests, Machine Learning, 45(1), pp.5–32 [8] Calabrese, R., Zenga, M
Năm: 2008
[9] Calabrese, R., Zenga, M. (2010), Bank loan recovery rates: measuring and nonparametric density estimation, Journal of Banking and Finance, 34(5), 903–911 Sách, tạp chí
Tiêu đề: Journal of Banking and Finance
Tác giả: Calabrese, R., Zenga, M
Năm: 2010
[10] Caselli, S., Gatti, S., Querci, F. (2008), The sensitivity of the loss given default rate to systematic risk: new empirical evidence on bank loans, Journal of Financial Services Research, 34, 1–34 Sách, tạp chí
Tiêu đề: Journal of Financial Services Research
Tác giả: Caselli, S., Gatti, S., Querci, F
Năm: 2008
[11] Dermine, J., Carvalho, C.N. (2006), Bank loan losses-given-default: a case study, Journal of Banking and Finance, 30, 1219–1243 Sách, tạp chí
Tiêu đề: Journal of Banking and Finance
Tác giả: Dermine, J., Carvalho, C.N
Năm: 2006
[13] Fong S. (2012), Using Hierarchical Time Series Clustering Algorithm and Wavelet Classifier for Biometric Voice Classification, Hindawi Publishing Corporation Journal of Biomedicine and Biotechnology, Article ID 215019, 12 pages Sách, tạp chí
Tiêu đề: Hindawi Publishing Corporation Journal of Biomedicine and Biotechnology
Tác giả: Fong S
Năm: 2012
[14] Ghassan, H., Fachin, S., Guendouz, A. (2013), Financial stability of islamic and conventional banks in Saudi Arabia: a time series analysis, DSS Empirical Economics and Econometrics Working Papers Series 2013/1, Centre for Empirical Economics and Econometrics, Department of Statistics, Sapienza University of Rome Sách, tạp chí
Tiêu đề: DSS Empirical Economics and Econometrics Working Papers Series 2013/1
Tác giả: Ghassan, H., Fachin, S., Guendouz, A
Năm: 2013
[15] Grunert, J., Weber, M. (2009), Recovery rate of commercial lending: empirical evidence for German companies, Journal of Banking and Finance, 33, 505–513 Sách, tạp chí
Tiêu đề: Journal of Banking and Finance
Tác giả: Grunert, J., Weber, M
Năm: 2009
[17] Loterman, G., Brown, I., Martens, D., Mues, C., Baesens, B. (2012), Benchmarking regression algorithms for loss given default modeling, International Journal of Forecasting, 28, 161–170 Sách, tạp chí
Tiêu đề: International Journal of Forecasting
Tác giả: Loterman, G., Brown, I., Martens, D., Mues, C., Baesens, B
Năm: 2012
[19] Mastrangelo, C.M., Simpson, J.R., Montgomery, D.C. (2013), Time series analysis, Encyclopedia of Operations Research and Management Science, 1546-1552, Springer US Sách, tạp chí
Tiêu đề: Encyclopedia of Operations Research and Management Science
Tác giả: Mastrangelo, C.M., Simpson, J.R., Montgomery, D.C
Năm: 2013
[20] Muller, M. (2007), Dynamic time warping, Information Retrieval for Music and Motion, ISBN: 978-3-540-74047-6, pp. 69-84 Sách, tạp chí
Tiêu đề: Information Retrieval for Music and Motion
Tác giả: Muller, M
Năm: 2007
[21] Nyberg, H. (2013), Predicting bear and bull stock markets with dynamic binary time series models, Journal of Banking &amp; Finance, 37, 3351–3363 Sách, tạp chí
Tiêu đề: Journal of Banking & Finance
Tác giả: Nyberg, H
Năm: 2013
[22] Renault, O., Scaillet, O. (2004), On the way to recovery: a nonparametric bias free estimation of recovery rate densities, Journal of Banking and Finance, 28, 2915–2931 Sách, tạp chí
Tiêu đề: Journal of Banking and Finance
Tác giả: Renault, O., Scaillet, O
Năm: 2004
[24] Seewald, A., Scuse D. (2014), Weka manual, University of Waikato, Hamilton, New Zealand, Version 3-7-12 Sách, tạp chí
Tiêu đề: University of Waikato, Hamilton, New Zealand
Tác giả: Seewald, A., Scuse D
Năm: 2014
[25] Shevade, S.K., Keerthi, S.S., Bhattacharyya, C., Murthy, K.R.K. (2000), Improvements to the SMO algorithm for SVM regression, IEEE Transactions on Neural Networks,11 Sách, tạp chí
Tiêu đề: IEEE Transactions on Neural Networks
Tác giả: Shevade, S.K., Keerthi, S.S., Bhattacharyya, C., Murthy, K.R.K
Năm: 2000
[26] Stefanski, T. (2009), Predicting flight delays through data mining, http://cs- people.bu.edu/dgs/courses/cs105/12spring/hall_of_fame/timoteo.html Link

HÌNH ẢNH LIÊN QUAN

Hình tham số. Do vậy, điều phù hợp là dự báo các mặt hàng trong cùng một nhóm: - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình tham số. Do vậy, điều phù hợp là dự báo các mặt hàng trong cùng một nhóm: (Trang 17)
Hình 3.1 Doanh thu của một doanh nghiệp - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.1 Doanh thu của một doanh nghiệp (Trang 18)
Hình 3.3 Chất đốt thay đổi theo mùa - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.3 Chất đốt thay đổi theo mùa (Trang 19)
Hình 3.2 Xu hướng giảm theo thời gian - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.2 Xu hướng giảm theo thời gian (Trang 19)
Hình 3.4 Chu kỳ của lưu lượng dòng chảy - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.4 Chu kỳ của lưu lượng dòng chảy (Trang 20)
Hình 3.5 Giải thuật Bagging của cây quyết định - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.5 Giải thuật Bagging của cây quyết định (Trang 22)
Hình 3.6 Giải thuật Random Forests - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.6 Giải thuật Random Forests (Trang 23)
Hình 3.8: Dùng độ tương tự kết hợp để chia cụm - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.8 Dùng độ tương tự kết hợp để chia cụm (Trang 26)
Hình 3.7 Giải thuật gom cụm phân cấp với đối tƣợng {a,b,c,d,e} - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.7 Giải thuật gom cụm phân cấp với đối tƣợng {a,b,c,d,e} (Trang 26)
Hình 3.9 Đường xoắn tối ưu của hai chuỗi - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 3.9 Đường xoắn tối ưu của hai chuỗi (Trang 28)
Hình 4.2 Phân tích các mốc thời gian - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 4.2 Phân tích các mốc thời gian (Trang 31)
Bảng 4.1 Nghiệp vụ trả tiền của doanh nghiệp - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Bảng 4.1 Nghiệp vụ trả tiền của doanh nghiệp (Trang 32)
Bảng 4.2 Tỉ lệ số tiền thu đƣợc trung bình theo ngày trong tháng - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Bảng 4.2 Tỉ lệ số tiền thu đƣợc trung bình theo ngày trong tháng (Trang 33)
Hình 4.3 Phương pháp dự báo tiền trả theo từng doanh nghiệp - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 4.3 Phương pháp dự báo tiền trả theo từng doanh nghiệp (Trang 35)
Hình 4.4 Khảo sát dữ liệu trả triền của 2 doanh nghiệp - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 4.4 Khảo sát dữ liệu trả triền của 2 doanh nghiệp (Trang 36)
Hình 4.5 Phương pháp gộp dữ liệu tiền trả trước khi dự báo - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 4.5 Phương pháp gộp dữ liệu tiền trả trước khi dự báo (Trang 36)
Bảng 4.5 Kết quả với phương pháp dự báo tiền thu hồi toàn bộ doanh nghiệp - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Bảng 4.5 Kết quả với phương pháp dự báo tiền thu hồi toàn bộ doanh nghiệp (Trang 37)
Hình 4.6 Chuỗi dữ liệu tiền thu theo ngày của công ty X - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 4.6 Chuỗi dữ liệu tiền thu theo ngày của công ty X (Trang 38)
Hình 4.7 Dự báo một cụm toàn bộ các doanh nghiệp - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 4.7 Dự báo một cụm toàn bộ các doanh nghiệp (Trang 39)
Bảng 4.7 Kết quả với phương pháp gom thành nhiều cụm - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Bảng 4.7 Kết quả với phương pháp gom thành nhiều cụm (Trang 41)
Hình 4.8 Phương pháp dự báo tỉ lệ thu hồi và ngày trả - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình 4.8 Phương pháp dự báo tỉ lệ thu hồi và ngày trả (Trang 44)
Hình hồi quy dựa trên phương pháp phân tích chuỗi thời gian. - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Hình h ồi quy dựa trên phương pháp phân tích chuỗi thời gian (Trang 45)
Bảng 4.11 Kết quả các phương pháp theo độ đo APME - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Bảng 4.11 Kết quả các phương pháp theo độ đo APME (Trang 48)
Bảng 4.12 Kết quả các phương pháp theo độ chính xác MAE - Luận văn thạc sĩ Khoa học máy tính: Dự báo dòng tiền vào từ hoạt động thu hồi tín dụng
Bảng 4.12 Kết quả các phương pháp theo độ chính xác MAE (Trang 49)