hử nghiệm cho thấy đoán giá cổ phiếu dựa trên dữ liệu lịch sử và sự biến động phương pháp XGBoost cho kết quả dự đoán tốt nhất so với của chúng trong quá khứ cũng giúp cung cấp thông tin các thuật toán học máy khác. tham khảo có giá trị cho các nhà đầu tư trên thị trường để Từ khóa Học máy AI XGBoost rừng ngẫu nhiên cây có thể ra quyết định đầu tư tốt nhất cho họ. quyết định máy vectơ hỗ trợ k láng giềng gần nhất II. CÁC NGHIÊN CỨU LIÊN QUAN NASDAQ giá cổ phiếu. Trên thực tế các học giả quốc tế đã có rất nhiều I. GIỚI THIỆU nghiên cứu về dự đoán giá cổ phiếu trên thế giới. Một trong Ngành công nghệ tài chính FinTech hiện nay đang số đó là nghử nghiệm cho thấy đoán giá cổ phiếu dựa trên dữ liệu lịch sử và sự biến động phương pháp XGBoost cho kết quả dự đoán tốt nhất so với của chúng trong quá khứ cũng giúp cung cấp thông tin các thuật toán học máy khác. tham khảo có giá trị cho các nhà đầu tư trên thị trường để Từ khóa Học máy AI XGBoost rừng ngẫu nhiên cây có thể ra quyết định đầu tư tốt nhất cho họ. quyết định máy vectơ hỗ trợ k láng giềng gần nhất II. CÁC NGHIÊN CỨU LIÊN QUAN NASDAQ giá cổ phiếu. Trên thực tế các học giả quốc tế đã có rất nhiều I. GIỚI THIỆU nghiên cứu về dự đoán giá cổ phiếu trên thế giới. Một trong Ngành công nghệ tài chính FinTech hiện nay đang số đó là nghử nghiệm cho thấy đoán giá cổ phiếu dựa trên dữ liệu lịch sử và sự biến động phương pháp XGBoost cho kết quả dự đoán tốt nhất so với của chúng trong quá khứ cũng giúp cung cấp thông tin các thuật toán học máy khác. tham khảo có giá trị cho các nhà đầu tư trên thị trường để Từ khóa Học máy AI XGBoost rừng ngẫu nhiên cây có thể ra quyết định đầu tư tốt nhất cho họ. quyết định máy vectơ hỗ trợ k láng giềng gần nhất II. CÁC NGHIÊN CỨU LIÊN QUAN NASDAQ giá cổ phiếu. Trên thực tế các học giả quốc tế đã có rất nhiều I. GIỚI THIỆU nghiên cứu về dự đoán giá cổ phiếu trên thế giới. Một trong Ngành công nghệ tài chính FinTech hiện nay đang số đó là ng
Trần Qúy Nam SO SÁNH THUẬT TOÁN TĂNG CƯỜNG ĐỘ DỐC (XGBOOST) VỚI MỘT SỐ THUẬT TOÁN HỌC MÁY KHÁC Trần Q Nam Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Tóm tắt: Nghiên cứu thử nghiệm số thuật toán học máy gồm XGBoost, rừng ngẫu nhiên, định, máy vectơ hỗ trợ, k láng giềng gần cho toán dự đoán Tập liệu thị trường chứng khoán NASDAQ Hoa Kỳ lấy đến hết tháng 5/2021 làm liệu thử nghiệm cho thuật toán học máy Giá trị dự đoán huấn luyện giá cổ phiếu thị trường chứng khoán dựa liệu AAPL Kết thử nghiệm cho thấy phương pháp XGBoost cho kết dự đoán tốt so với thuật toán học máy khác Từ khóa: Học máy, AI, XGBoost, rừng ngẫu nhiên, định, máy vectơ hỗ trợ, k láng giềng gần nhất, NASDAQ, giá cổ phiếu I GIỚI THIỆU Ngành cơng nghệ tài (FinTech) phát triển mạnh mẽ có tác động tích cực đến số hoạt động ngành tài đại Các ứng dụng cơng nghệ phân tích liệu để tìm quy luật thị trường ngày sử dụng rộng rãi, cho kết nhanh xử lý nguồn liệu lớn Sự kết hợp công nghệ thơng tin phân tích tài mở không gian phát triển mới, học thuật ứng dụng thực tế Cùng với phát triển thuật tốn trí tuệ nhân tạo (AI) tốc độ, độ xác khả xử lý, ứng dụng AI ngày giúp hỗ trợ người nâng cao khả phân tích xử lý nguồn liệu tài Trên thực tế, thuật tốn trí tuệ nhân tạo có ứng dụng phổ biến nhiều lĩnh vực tài như: dự đốn thị trường chứng khốn, phân tích thị trường đầu tư cho doanh nghiệp, phân tích hành vi người tiêu dùng, gợi ý danh mục ngành nghề đầu tư có tiềm lãi suất cao, phân tích yếu tố tác động dự báo phát triển ngành tài chính, ngân hàng, bảo hiểm, Thị trường chứng khốn tồn cầu có giá trị vốn hóa lớn với lưu lượng tiền khổng lồ Năm 2019, tổng giá trị cổ phiếu tồn cầu thị trường chứng khốn đạt khoảng 85 nghìn tỷ la Mỹ [1] Trong năm qua, toán dự đoán thị trường chứng khoán thu hút nhiều quan tâm nhà đầu tư nhà nghiên cứu để hỗ trợ định, cung cấp thông tin tham khảo Tác giả liên hệ: Trần Quý Nam Email: namtq@ptit.edu.vn Đến tòa soạn: 6/2021, chỉnh sửa: 7/2021, chấp nhận đăng: 7/2021 SỐ 02 (CS.01) 2021 để định đầu tư với mong muốn thu lợi nhuận cao Trên thực tế, giá cổ phiếu không phụ thuộc vào biến động lịch sử giá khứ trước mà cịn phụ thuộc nhiều vào nhiều yếu tố khó lường, chẳng hạn đầu tư phủ, số chứng khoán quốc gia khác, số giá hàng hóa liên quan, chí tin đồn thất thiệt, tin tức liên quan,… Tuy nhiên, việc dự đoán giá cổ phiếu dựa liệu lịch sử biến động chúng khứ giúp cung cấp thơng tin tham khảo có giá trị cho nhà đầu tư thị trường để định đầu tư tốt cho họ II CÁC NGHIÊN CỨU LIÊN QUAN Trên thực tế, học giả quốc tế có nhiều nghiên cứu dự đoán giá cổ phiếu giới Một số nghiên cứu [2] cho thấy mối liên hệ chặt chẽ mức độ dự đoán giá chứng khoán với việc sử dụng phương pháp học máy khác Qua rà soát cơng trình nghiên cứu, tốn dự đốn giá cổ phiếu thường giải mơ hình LSTM (Long Short Term Memory) Nghiên cứu [3] thử nghiệm mơ hình LSTM áp dụng cho giá mở cửa (open price) hàng ngày hai cổ phiếu NKE (Nike Inc) GOOGL (Alphabet Inc) niêm yết sàn giao dịch chứng khoán New York (NYSE) Kết cho thấy liệu đào tạo có nhiều lớp mạng cải thiện kết thử nghiệm cung cấp giá trị dự đoán tốt Cơng trình nghiên cứu [4] cung cấp đánh giá tổng thể 86 báo xuất từ năm 2015 đến đầu năm 2021 giải toán dự đoán giá chứng khoán Bài báo họ đánh giá số hiệu mơ hình gồm RMSE, MAPE, MAE, MSE, độ xác, tỷ lệ Sharpe tỷ lệ hoàn vốn Bài báo phần lớn nghiên cứu tốn dự báo giá chứng khốn sử dụng mơ hình LSTM, kết hợp với sử dụng phương pháp khác (ví dụ DNN) Bài báo phương pháp học củng cố phương pháp học sâu khác mang lại hiệu tốt Cơng trình [5] áp dụng mơ hình mạng nơ-ron tích chập có cải tiến tính học nâng cao để áp dụng dự đoán biến động giá cổ phiếu Kết họ cho thấy độ xác dự đốn cao mơ hình FA-CNN đề xuất 64,81% cao 7,38% so với mơ hình LSTM truyền thống Cơng trình [6] sử dụng thuật tốn học máy để dự đoán giá thị trường chứng khoán S&P 500 Các tác giả áp dụng kỹ thuật Linear Regression, TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 81 SO SÁNH THUẬT TỐN TĂNG CƯỜNG ĐỘ DỐC (XGBOOST) VỚI MỘT SỐ THUẬT TOÁN HỌC MÁY KHÁC Multivariate Regression, Support Vector Regression, Decision Tree, Random Forest Regressor and Extra Tree Regressor Kết nghiên cứu chứng minh Random Forest Regressor and Extra Tree Regressor thuật toán hồi quy tốt cho toán dự đoán chứng khoán Nghiên cứu [7] thử nghiệm thuật toán LSTM Random Forest cho toán dự đoán giá cổ phiếu cho kết dự đoán phụ thuộc vào kích thước liệu Thuật tốn LSTM Random Forest chưa cung cấp giá trị dự đốn xác cao liệu nhỏ, áp dụng cho liệu dài hạn đủ lớn, kết dự đoán xác Nghiên cứu [7] chứng minh thuật tốn Random Forest có bổ sung số đặc trưng kết xuất từ liệu huấn luyện cho kết dự đốn giá cổ phiếu xác Cơng trình [8] thực nghiên cứu áp dụng số thuật toán học máy Averaging, Linear Regression kỹ thuật học sâu LSTM áp dụng vào tập liệu thị trường chứng khoán Ấn Độ Bộ liệu thử nghiệm bao gồm lợi nhuận, tỷ lệ phần trăm thay đổi giá đóng cửa (close price) giá cổ phiếu công ty khác Công trình [8] áp dụng số kỹ thuật khác hồi quy tuyến tính, K-Means Clustering, K láng giềng gần nhất, LSTM, Nghiên cứu [8] cho kết việc sử dụng thuật toán khác áp dụng tập liệu cho kết khác giải toán dự đoán giá tương lai dựa liệu giá cổ phiếu khứ Điều cho thấy kết dự đốn khơng phụ thuộc thuật tốn áp dụng mà cịn tập liệu thử nghiệm Cơng trình nghiên cứu [9] thực thử nghiệm số thuật toán với tham số khác để dự đoán thị trường chứng khoán Các tập liệu thử nghiệm lấy từ Kaggle.com Các tác giả triển khai thuật tốn học có giám sát với tỷ lệ phân chia khác liệu huấn luyện liệu dự đoán Các tác giả thử nghiệm thuật tốn áp dụng cho kích thước phân chia liệu huấn luyện dự đoán theo tỷ lệ 70:30, 50:50 30:70 Kết nghiên cứu thuật toán cho hiệu tốt KNN (K-Nearest Neighbor) với tỷ lệ phân chia liệu có kich thước 70:30 Nghiên cứu [10] thử nghiệm giải toán dự báo thị trường chứng khoán Trung Quốc với liệu năm liên tiếp Nội dung nghiên cứu áp dụng có cải tiến ba mơ hình tổng hợp để dự đốn giá cổ phiếu, XGBoost, LightGBM CatBoost Kết nghiên cứu chứng minh mơ hình cải tiến nói cho độ xác tốt so với mơ hình truyền thống Nghiên cứu thử nghiệm mơ hình XGBoost, LightGBM CatBoost với điều chỉnh thông số Bayes tập liệu Kết cho thấy mơ hình hoạt động tốt cải thiện cao sau điều chỉnh tham số Bayes Ngoài ra, tác giả nghiên cứu việc tích hợp mơ hình áp dụng vào liệu Kết thử nghiệm tích hợp mơ hình cho giá trị dự đoán tốt với số đo: độ xác, giá trị F1, giá trị AUC so với áp dụng mơ hình đơn lẻ III PHƯƠNG PHÁP VÀ DỮ LIỆU ÁP DỤNG SỐ 02 (CS.01) 2021 Trong nghiên cứu này, phương pháp thực dựa kỹ thuật hồi quy (regression) để dự đoán biến động giá cổ phiếu tương lai dựa số liệu lịch sử liệu Nghiên cứu triển khai kỹ thuật để kiểm tra mơ hình, là: Hồi quy máy vectơ hỗ trợ (SVM- Support Vector Machine), Cây định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K láng giềng gần (KNearest Neighbor) tăng cường độ dốc XGBoost Trong nội dung tiếp theo, báo tóm tắt ngắn gọn khái niệm ý tưởng thuật toán Bài báo thực áp dụng phương pháp vào toán dự đoán giá cổ phiếu thị trường chứng khoán Dữ liệu sử dụng báo bao gồm giá mở cửa hàng ngày (daily open price) mã cổ phiếu AAPL (Apple Inc) sàn giao dịch chứng khốn NASDAQ thơng qua sở liệu Yahoo Finance Bộ liệu trích xuất từ Yahoo Finance cho chuỗi liệu giá mã chứng khoán AAPL bao gồm khoảng thời gian từ ngày 01 tháng năm 2001 đến ngày 01 tháng năm 2021 Chi tiết phương pháp tập liệu giải thích ngắn gọn đoạn sau Support Vector Machine (SVM) SVM thuật toán học máy phổ biến thường sử dụng loại toán hồi quy phân loại Xét số góc nhìn, hồi quy vectơ hỗ trợ (SVR) tìm siêu phẳng để phù hợp với tập liệu Hồi quy SVM coi kỹ thuật phi tham số dựa vào chức hàm hạt nhân Theo tham khảo báo [11], mơ hình SVR dựa lý thuyết học thống kê, cải thiện khả tổng quát hóa máy học cách tìm kiếm cấu trúc có sai biệt tối thiểu Giả sử rằng: SV = {(x1, y1), (x2, y2), …, (xm, ym)} tập hợp gồm m số lượng mẫu đào tạo, mẫu xm biến đầu vào chứa thông tin ảnh hưởng đến biến động giá cổ phiếu tập liệu Trong đó, ym giá trị phần trăm thay đổi giá cổ phiếu tương ứng với xm Các mẫu huấn luyện điều chỉnh theo hàm: f (x) = ωTx+b kết điều chỉnh phải thỏa mãn với độ xác sai số ε, tức là: ||ωTxi+b-yi|| ≤ ɛ, với i=1, 2, …, m (1) Theo ngun tắc tìm kiếm cấu trúc có sai biệt tối thiểu, f(x) cần tạo giá trị ||ω||2 nhỏ Tiếp theo, thuật toán SVR áp dụng nguyên tắc kép, thiết lập bước khác nhau, chẳng hạn giải thuật Lagrange, áp dụng số hàm hạt nhân phổ biến hàm polynomial kernel function, radial basis function, sigmoid kernel function tính tốn khơng gian Euclide để tìm mơ hình hồi quy tốt với kết hệ số ω Trong mơ hình SVR, hàm kernel function khác cấu trúc hóa bề mặt hồi quy khác dẫn đến đưa kết khác Trong thực tế, cần phải chọn hàm kernel function phù hợp với tham số hạt nhân tối ưu mơ hình SVR Decision Trees TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 282 Trần Qúy Nam Cây định thuật toán học máy phổ biến, thường áp dụng cho toán hồi quy phân loại Phương pháp sử dụng giải nhiều vấn đề cách xử lý tập liệu số tập liệu danh nghĩa Phương pháp không yêu cầu thông tin rõ ràng phân bố liệu giới hạn khác tập liệu Có nhiều thuật tốn khác phương pháp định thuật toán phổ biến CART (Classification And Regression Trees) Theo mô tả ngắn gọn nêu báo [12] CART phân bố mẫu liệu dạng liên kết tập thông số đặc trưng X tương ứng cho biến đầu Y Thuật tốn sử dụng cấu trúc nhị phân với mẫu không giao gọi nút, xử lý theo số quy tắc xác định Quy tắc cho lần tách nút cha Ʈ sau: “Nếu Xi ≤ Xth, Yi ∈Ʈ cho Y di chuyển sang nút bên trái Ʈ, ngược lại Y chuyển sang nút bên phải Ʈ” Trong đó, Xi giá trị thứ i yếu tố dự đoán X Xth giá trị ngưỡng (threshold) X Thực lặp lại bước nút định cho bước di chuyển tiếp theo, giá trị mơ hình dự đốn đầu giá trị trung bình giá trị tương đối trường hợp xác định nút định Thuật tốn tìm kiếm tất yếu tố dự đoán X tất giá trị ngưỡng Xth để xác định yếu tố giảm thiểu giá trị lỗi định cho mơ hình bước Trên thực tế, thuật toán định phải đối mặt với vấn đề phát triển q sâu (overdeeping) mơ hình q khớp (over-fitting) Để giải điểm yếu này, thuật toán thiết lập kiểm soát số tham số, chẳng hạn số trường hợp tối thiểu cho nút cha, số trường hợp tối thiểu cho nút con, xác thực chéo áp dụng tập liệu, giới hạn độ sâu cây, xác định trước mức độ lỗi chấp nhận được, Phương pháp hồi quy CART hoạt động dựa đặc điểm tập liệu để đạt biến phụ thuộc có độ xác cao đưa mơ hình chấp nhận, phù hợp với tập liệu cho toán hồi quy Random Forest Rừng ngẫu nhiên phương pháp ensemble (kết hợp) sử dụng để giải toán phân loại hồi quy, phát triển Breiman [13] Thuật toán thực cách kết hợp thuật toán định tập liệu với thay đổi có kiểm sốt Theo mơ tả báo [14], thuật toán rừng ngẫu nhiên hồi quy mô tả ngắn gọn theo ngôn ngữ thuật toán sau: *) Giai đoạn đào tạo (Training Phase): Cho: - D: tập huấn luyện với n giá trị quan sát, có p đặc trưng biến đầu - B: số hồi quy tập hợp Thủ tục thực hiện: Cho b = đến B Tạo tập mẫu bootstrapped D∗𝑏 từ tập huấn luyện D SỐ 02 (CS.01) 2021 Tạo hồi quy cách sử dụng mẫu bootstrapped D∗𝑏 Đối với nút t cho trước, (i) Lấy mẫu ngẫu nhiên số đặc trưng (features) từ đặc trưng đầy đủ (ii) Tìm quy tắc tách tốt cách sử dụng tập hợp đặc trưng mẫu ngẫu nhiên (iii) Tách nút t thành hai nút cách sử dụng quy tắc tách tốt Lặp lại bước (i)-(iii) đáp ứng quy tắc dừng Lấy hồi quy huấn luyện Rb *) Giai đoạn thử nghiệm (Test Phase): Đối với trường hợp áp dụng thử nghiệm x, giá trị dự đốn ước tính hồi quy B đưa dạng công thức: 𝐵 𝑅(𝑥) = ∑ 𝑅𝑏 (𝑥) (2) 𝐵 𝑏=1 K-Nearest Neibourgh (k-NN) Trong phần này, báo đề cập đến thuật tốn KNN mơ tả ngắn gọn Guo-Feng cộng cơng bố [15] Thuật tốn K-NN làm việc theo hướng tìm k mẫu huấn luyện gần với đối tượng đích (biến phản hồi biến đầu ra) tập huấn luyện Hơn nữa, phương pháp K-NN cịn tìm đặc điểm bật từ k mẫu huấn luyện sau áp dụng tính cho đối tượng đích (với điều kiện k số mẫu đào tạo) Theo nghiên cứu [15], ý tưởng thuật tốn K-NN mơ tả đơn giản ngắn gọn nội dung sau Thuật tốn K-NN nhằm mục đích tính tốn khoảng cách điểm liệu dự báo điểm liệu biết, để chọn liệu có nhãn k gần nhất, {y1, y2, …, yk}, y1 đại diện cho điểm liệu biết gần với điểm dự báo; y2 đại diện cho điểm liệu biết gần thứ hai với điểm dự báo,… Do đó, chuỗi điểm liệu dự báo thực hồi quy thuật toán K-NN phương trình đây: 𝑘 𝑆𝑖 = ∗ ∑ 𝑆𝑦𝑗 (3) 𝑘 𝑗=1 Si đại diện cho giá trị dự báo thứ i, giá trị trung bình 𝑆𝑦𝑗 (j = 1, 2,…, k); 𝑆𝑦𝑗 đại diện cho giá trị dự báo điểm liệu biết gần thứ j (yj) XGBoost XGBoost viết tắt cụm từ Extreme Gradient Boosting, thuật toán học máy hiệu cao dựa kết hợp kỹ thuật để điều chỉnh trọng số lỗi mơ hình yếu để tạo mơ hình mạnh Ngun tắc thuật tốn XGBoost dựa định kỹ thuật tăng cường độ dốc để đưa mơ hình tối ưu Các sinh giảm thiểu lỗi từ trước cách học lại lỗi trước đó, thực sửa lỗi để tốt XGBoost ban đầu Chen Guestrin (2016) giới thiệu để cải thiện hiệu suất tốc độ TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 83 SO SÁNH THUẬT TỐN TĂNG CƯỜNG ĐỘ DỐC (XGBOOST) VỚI MỘT SỐ THUẬT TOÁN HỌC MÁY KHÁC định theo nguyên tắc tăng cường độ dốc (gradientboosted) [16] Theo mơ tả thuật tốn đưa tác giả Chen Guestrin [16], XGBoost hoạt động sau: Đối với tập liệu cho có n mẫu liệu m đặc trưng D = {(xi, yi)} (|D| = n, xi ∈ Rm, yi ∈ R), áp dụng mơ hình kết hợp sử dụng K hàm tăng cường để dự đoán đầu 𝐾 𝑦̂𝑖 = ∅(𝑥𝑖 ) = ∑ 𝑓𝑘 (𝑥𝑖 ), 𝑓𝑘 ∈ 𝐹 (4) 𝑘=1 F = {f(x) = wq(x)} (q : Rm → T, w ∈ RT) khơng gian hồi quy (cịn gọi CART) Ở q đại lượng biểu diễn cho cấu trúc cây, ánh xạ mẫu liệu cho số tương ứng T số Mỗi fk tương ứng với cấu trúc độc lập q trọng lượng w Để tìm hiểu tập hợp hàm sử dụng mơ hình, thuật tốn tối thiểu hóa hàm mục tiêu quy chuẩn sau: 𝑛 𝐾 ℒ(∅) = ∑ 𝑙(𝑦̂𝑖 , y𝑖 ) + ∑ Ω(𝑓𝑘 ) 𝑖=1 (5) 𝑘 Ω(f) = γT + 𝜆||w||2 Trong đó, 𝑙 hàm mát lồi khả vi dùng để đo lường khác biệt giá trị dự đoán 𝑦̂𝑖 giá trị thực tế yi Thành phần thứ hai Ω mức độ phạt cho độ phức tạp mơ hình (ví dụ: hàm hồi quy) Thành phần quy chuẩn bổ sung giúp làm trơn trọng số cuối học để tránh tượng khớp Về mặt trực quan, mục tiêu quy chuẩn có xu hướng chọn mơ hình sử dụng hàm đơn giản có tính dự đốn cao Thuật tốn tăng cường độ dốc (Gradient Tree Boosting) thực mơ hình liên tục đào tạo theo cách bổ sung đặc tính Về mặt hình thức, đặt (𝑡) 𝑦̂𝑖 giá trị dự đốn thứ i vịng lặp thứ t, thuật toán cần bổ sung thành phần ft để thu nhỏ hàm mục tiêu sau: 𝑛 (𝑡−1) ℒ (𝑡) = ∑ 𝑙(y𝑖 , 𝑦̂𝑖 + 𝑓𝑡 (𝑥𝑖 )) + Ω(𝑓𝑡 ) (6) 𝑖=1 Tối ưu xấp xỉ bậc sử dụng để tối ưu hóa nhanh hàm mục tiêu cài đặt thuật toán 𝑛 ℒ (𝑡) ≅ ∑ [𝑙 (y𝑖 , 𝑦̂ (𝑡−1) + 𝑔𝑖 𝑓𝑡 (𝑥𝑖 )) + ℎ𝑖 𝑓𝑡2 (𝑥𝑖 )] 𝑖=1 + Ω(𝑓𝑡 ) (7) 𝑔𝑖 = 𝜕𝑦̂ (𝑡−1) 𝑙(y𝑖 , 𝑦̂ (𝑡−1) ) 𝜕𝑦2̂ (𝑡−1) 𝑙(y𝑖 , 𝑦̂ (𝑡−1) ) ℎ𝑖 = gradient bậc bậc hai hàm mát Chúng ta loại bỏ số để thu hàm mục tiêu đơn giản sau bước t SỐ 02 (CS.01) 2021 𝑛 (𝑡−1) ℒ̃ (𝑡) = ∑[g 𝑖 𝑓𝑡 (𝑥𝑖 ) +]𝑙 (, 𝑦̂𝑖 + ℎ𝑖 𝑓𝑡2 (𝑥𝑖 )) 𝑖=1 + Ω(𝑓𝑡 ) (8) Định nghĩa Ij = {i|q(xi) = j} tập biểu diễn thành phần j Chúng ta tính trọng số tối ưu 𝑤𝑗∗ j cách: ∑𝑖∈𝐼𝑗 𝑔𝑖 (9) 𝑤𝑗∗ = − ∑𝑖∈𝐼𝑗 ℎ𝑖 + 𝜆 tính giá trị tối ưu tương ứng cách: 𝑇 ℒ̃ (𝑡) (∑𝑖∈𝐼𝑗 𝑔𝑖 ) + γT (10) =− ∑ ∑𝑖∈𝐼𝑗 ℎ𝑖 + 𝜆 𝑗=1 Cơng thức (10) sử dụng hàm chấm điểm để đo chất lượng cấu trúc q Điểm giống điểm phân loại để đánh giá định, ngoại trừ việc tính cho phạm vi rộng hàm mục tiêu Về chất, thuật toán XGBoost sử dụng sử dụng kỹ thuật tăng cường độ dốc (gradient boosting) để xác định sinh sở giảm thiểu lỗi từ trước đó, điều chỉnh trọng số lỗi để có tốt Do đó, điểm bị lỗi trước có hội điều chỉnh xác Thuật toán XGBoost chứng minh tối ưu hóa tốc độ hiệu cho việc xây dựng mơ hình dự đốn Đồng thời, thuật toán XGBoost sử dụng đa dạng định dạng liệu, kể liệu dạng bảng với kích thước khác dạng liệu phân lớp Mô tả liệu sử dụng cho nghiên cứu Bài báo sử dụng liệu sàn giao dịch chứng khốn NASDAQ thơng qua sở liệu Yahoo Finance Dữ liệu trích xuất sau lọc bỏ ghi có số liệu rỗng chuẩn hóa liệu, ta thu 5029 ghi mã cổ phiếu AAPL (Apple Inc) sàn giao dịch NASDAQ Dữ liệu thu thập khoảng 20 năm từ ngày 01/6/2001 đến ngày 01/6/2021 Bộ liệu trích xuất trực tiếp từ Yahoo Finance, số liệu thực tế giao dịch cho chuỗi liệu giá mã chứng khoán AAPL bao gồm thuộc tính giao dịch hàng ngày Mỗi ghi liệu giao dịch hàng ngày gồm có thuộc tính sau: Date: ngày thực giao dịch Open: giá mở cửa cổ phiếu High: giá cổ phiếu cao ngày Low: giá cổ phiếu thấp ngày Close: giá đóng cửa cổ phiếu Volume: khối lượng cổ phiếu giao dịch Dividends: lợi tức cổ phiếu Stock Splits: chia tách cổ phiếu Chúng ta xem xét đặc điểm liệu trường thông tin Dividends Stock Splits theo Bảng bên TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 484 Trần Qúy Nam Bài báo sử dụng giá mở cửa (opening prices) để làm giá dự đoán (response) cho tốn dự đốn giá cổ phiếu Hình vẽ bên mô tả xu hướng biến động hàng ngày giá mở cửa cổ phiếu AAPL 20 năm qua Bảng 1: Dữ liệu lợi tức chia tách Items count mean std 25% 50% 75% max Dividends 5029 0.001083 0.013150 0.000000 0.000000 0.000000 0.000000 0.220000 Stock Splits 5029 0.002584 0.117106 0.000000 0.000000 0.000000 0.000000 7.000000 Như vậy, giá trị trường thông tin Dividends Stock Splits chủ yếu Hơn toán dự đốn giá cổ phiếu khơng phụ thuộc nhiều vào yếu tố lợi tức chia tách cổ phiếu Vì vậy, loại bỏ trường thơng tin Hình : Biến động giá mở cửa Dữ liệu áp dụng cho tốn cịn lại trường thơng tin, bao gồm: ngày, giá mở cửa, giá đóng cửa, giá cao nhất, IV THỰC NGHIỆM VÀ KẾT QUẢ giá thấp khối lượng cổ phiếu giao dịch bảng Giá trị dự đoán giá mở cửa (opening prices) phiên giao dịch ngày Bài tốn đặt xác định Bảng 2: Mơ tả liệu giá giao dịch hướng biến động giá cổ phiếu Vì vậy, liệu Date Open High Low Close Volume xác định mức độ biến động giá cổ phiếu ngày 1-Jun(xi) so với giá cổ phiếu ngày trước (xi-1) Cơng thức cụ 0.3091 0.3238 0.3068 0.3208 456075200 01 thể là: 4-Jun𝑥𝑖 − 𝑥𝑖−1 0.3237 0.3242 0.3142 0.3172 281920800 (11) 𝑥∗ = 01 𝑥𝑖 5-Jun0.3194 0.3240 0.3125 0.3215 471794400 Sau chuyển đổi tập liệu để thu thông 01 số thể biến động giá cổ phiếu, xu hướng thay đổi 6-Jun0.3214 0.3214 0.3122 0.3183 223176800 01 giá theo thời gian (dương tăng, âm giảm), thu 7-Junđược tập liệu mô tả Bảng 0.3180 0.3332 0.314 0.3326 325180800 01 … 24May-21 25May-21 26May-21 27May-21 28May-21 … … … … 126.01 127.94 125.94 127.10 63092900 127.82 128.32 126.32 126.90 72009500 126.96 127.39 126.42 126.85 56575900 126.44 127.64 125.08 125.28 94625600 125.57 125.80 124.55 124.61 71311100 Để có liệu phục vụ dự đoán giá cổ phiếu, ta tiếp tục lược bỏ trường liệu ngày giao dịch Thông tin mô tả trường liệu cịn lại để áp dụng vào tốn mơ tả Bảng Bảng 3: Mô tả liệu cổ phiếu Items Open High Low Close Volume count 5029 5029 5029 5029 5.02E+03 mean 21.116 21.34 20.883 21.119 4.36E+08 std 28.299 28.628 27.942 28.294 3.84E+08 0.1995 0.2025 0.1953 0.2015 3.93E+07 25% 2.1378 2.1789 2.0964 2.1372 1.62E+08 50% 10.753 10.856 10.665 10.764 3.18E+08 75% 27.381 27.568 27.195 27.418 5.90E+08 max 143.14 SỐ 02 (CS.01) 2021 144.63 140.92 142.7 Bảng 4: Mức độ biến động số … 3.37E+09 Index … 5024 5025 5026 5027 5028 Open … -1.4161 1.4364 -0.6728 -0.4096 -0.6881 Close … 1.3314 -0.1574 -0.0394 -1.2377 -0.5348 High Low … -0.0469 0.2970 -0.7248 0.1962 -1.4416 … 0.5830 0.3017 0.0792 -1.0600 -0.4237 Volume … -20.4331 14.1325 -21.4327 67.2543 -24.6387 Để thực trình huấn luyện đánh giá, tập 5029 ghi liệu lấy ngẫu nhiên chia thành tập: liệu đào tạo (traning set) chiếm 90% liệu kiểm tra (testing set) chiếm 10% tổng số ghi Để đánh giá hiệu (performance) mơ hình, sử dụng độ đo thơng thường áp dụng cho tốn hồi quy, áp dụng liệu miền giá trị liên tục (khác với gán nhãn toán phân loại), gồm có: MAE (Mean Absolute Error), MSE (Mean Squared Error), RSquared (Coefficient of determination) Cơng thức tính độ đo sau: 𝑁 ̂ (12) 𝑀𝐴𝐸 = ∑ |𝑦𝑖 − 𝑦| 𝑁 𝑖=1 𝑁 𝑀𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂)2 (13) 𝑁 𝑖=1 𝑅2 = − ∑𝑁 ̂)2 𝑖=1(𝑦𝑖 − 𝑦 (14) ∑𝑁 ̅)2 𝑖=1(𝑦𝑖 − 𝑦 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 85 SO SÁNH THUẬT TỐN TĂNG CƯỜNG ĐỘ DỐC (XGBOOST) VỚI MỘT SỐ THUẬT TOÁN HỌC MÁY KHÁC Trong đó, N tổng số ghi, yi giá trị thực tế, 𝑦̂ giá trị dự đốn y 𝑦̅ giá trị trung bình (mean value) y Đối với R-Squared, giá trị cao mơ hình tốt (lớn 1), MAE MSE giá trị thấp thể sai khác giá trị dự đoán giá trị thực tế nhỏ, tức mô hình tốt Như phần trình bày, thử nghiệm tập liệu với thuật toán học máy gồm có: Hồi quy vectơ hỗ trợ (SVR), Cây định, Rừng ngẫu nhiên, K-Nearest Neighbor XGBoost Bảng thể siêu tham số áp dụng cho thuật tốn Mơi trường thử nghiệm sử dụng cơng cụ Google Colab có hỗ trợ GPU, với ngơn ngữ lập trình Python sử dụng thư viện TensorFlow Bảng 5: Siêu tham số cho thuật toán Algorithm SVR Decision Tree Random Forest K-NN XGBoost Hyperparameter C=1 epsilon=0.1 gamma=‘scale’ kernel=‘rbf’ max_depth=3 random_state=14 min_samples_leaf=1 min_samples_split=2 splitter=‘best’ max_depth=3 max_features=auto min_samples_leaf=1 min_samples_split=2 n_estimators=10 random_state=14 max_depth=3 max_features=‘auto’ n_estimators=10 random_state=14 verbose=0 base_score=0.5, booster=‘gbtree’ gamma=0 learning_rate=0.1 max_depth=3 n_estimators=100 reg=‘linear’ scale_pos_weight=1 max_features=‘auto’ random_state=14 Bảng 6: Kết độ đo thuật toán SỐ 02 (CS.01) 2021 0.8040 1.2992 0.7524 Kết thực nghiệm cho thấy mơ hình dự đốn biến động giá cổ phiếu với thuật tốn XGBoost cho độ xác tốt Giá trị R2 score đạt 0,75 cao so sánh với mơ hình hồi quy vectơ hỗ trợ (SVR), định (Decision Tree), rừng ngẫu nhiên (Random Forest), k láng giềng gần (K-Nearest Neighbor) Đồng thời giá trị dung sai giá trị thực tế giá trị dự đốn thơng qua giá trị độ đo MAE MSE thấp nhất, chứng tỏ mơ hình dự đốn dựa XGBoost cho kết phù hợp với tập liệu thử nghiệm toán V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo thử nghiệm thuật tốn học máy gồm có: Hồi quy vectơ hỗ trợ, Cây định, Rừng ngẫu nhiên, k láng giềng gần XGBoost cho tập liệu giá chứng khoán mã AAPL sàn giao dịch NASDAQ Dữ liệu cập nhật xác hàng ngày thời gian đủ dài (20 năm) để làm sở dự đoán giá cổ phiếu Kết thực nghiệm cho thấy thuật toán XGBoost cho kết tốt nhất, với độ đo số R2 số MAE, MSE tốt thuật tốn cịn lại Điều cho thấy thuật tốn XGBoost có hiệu tốt khơng toán phân loại mà toán hồi quy, với liệu chuỗi thời gian (time-series) Trên thực tế, giá cổ phiếu phụ thuộc nhiều yếu tố khác nhau, không dựa vào giá trị lịch sử q khứ Ví dụ, số kinh tế vĩ mô, vi mô, đầu tư phủ, sách thương mại, lãi suất ngân hàng, tỷ giá tiền tệ… Vì vậy, nghiên cứu mang tính chất tham khảo Trong tương lai, nghiên cứu mở rộng liệu gồm có số ảnh hưởng khác đến giá cổ phiếu, cập nhật liệu Đồng thời, áp dụng mơ hình học sâu (deep learning) để thử nghiệm cho toán hồi quy với liệu chuỗi thời gian Đồng thời, tương lai xem xét thử nghiệm phương án thực toán với phương pháp phân loại (classification) với giá trị mục tiêu âm dương, thể mã chứng khoán tăng giảm so với mốc thời gian trước TÀI LIỆU THAM KHẢO Các giá trị độ đo thuật tốn học máy gồm RSquared, MAE MSE trình bày bảng Độ đo SVR Random Forest Decision Tree K-NN XGBoost MAE 0.9421 MSE 1.7789 R-Squared 0.6610 0.9416 1.8199 0.6532 0.9873 2.0945 0.6009 1.0129 2.0553 0.6084 [1] Pound, J (2019, December 24) Global stock markets gained $17 trillion in value in 2019 Retrieved from https://www.cnbc.com/2019/12/24/global-stockmarketsgained-17-trillion-in-value-in-2019.html [2] Strader, Troy J.; Rozycki, John J.; ROOT, THOMAS H.; and Huang, Yu-Hsiang (John) (2020) "Machine Learning Stock Market Prediction Studies: Review and Research Directions," Journal of International Technology and Information Management: Vol 28 : Iss , Article Available at: https://scholarworks.lib.csusb.edu/jitim/vol28/iss4/3 [3] Adil M., Mhamed (2020) “Stock Market Prediction Using LSTM Recurrent Neural Network”, International Workshop on Statistical Methods and Artificial Intelligence (IWSMAI 2020) April 6-9, 2020, Warsaw, Poland [4] Hu, Z.; Zhao, Y.; Khushi, M A Survey of Forex and Stock Price Prediction Using Deep Learning Appl Syst Innov 2021, 4, https://doi.org/10.3390/asi4010009 [5] Zhang,X.;Liu,S.;Zheng,X (2021) “Stock Price Movement Prediction Based on a Deep Factorization Machine and the TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 686 Trần Qúy Nam [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] Attention Mechanism” Mathematics 2021, 9, 800 https://doi.org/10.3390/math9080800 Subba R P., Srinivas K., Krishna M A (2019) “Stock Market Prices Prediction using Random Forest and Extra Tree Regression”, International Journal of Recent Technology and Engineering (IJRTE), ISSN: 2277-3878, Volume-8 Issue-3, September 2019 Han, Shangxuan, "Stock Prediction with Random Forests and Long Short-term Memory" (2019) Creative Components 393 https://lib.dr.iastate.edu/creativecomponents/393 Aryendra S., Priyanshi G., Narina T (2020) “An Empirical Research and Comprehensive Analysis of Stock Market Prediction using Machine Learning and Deep Learning techniques”, IOP Conf Series: Materials Science and Engineering 1022 (2021) 012098 IOP Publishing doi:10.1088/1757-899X/1022/1/012098 Ranjeet K., Yogesh K S., Devershi P B (2020) “Measuring Accuracy of Stock Price Prediction Using Machine Learning Based Classifiers”, ASCI-2020 IOP Conf Series: Materials Science and Engineering 1099 012049 IOP Publishing, doi:10.1088/1757-899X/1099/1/012049 Jie Ni, Linghong Zhang, Jiaming Tao and Xiaorong Yang (2020) “Prediction of stocks with high transfer based on ensemble learning”, ICAITA 2020 Journal of Physics: Conference Series 1651 (2020) 012124 IOP Publishing doi:10.1088/1742-6596/1651/1/012124 Zhang J, Liao Y, Wang S, Han J “Study on Driving Decision-Making Mechanism of Autonomous Vehicle Based on an Optimized Support Vector Machine Regression”, Applied Sciences, 2018; 8(1):13 https://doi.org/10.3390/app8010013 Ivanov A (2020) “Decision Trees for Evaluation of Mathematical Competencies in the Higher Education: A Case Study”, Mathematics 2020; 8(5):748, https://doi.org/10.3390/math8050748 Breiman, L (2001) “Random Forests”, Machine Learning, 45, 5–32 https://doi.org/10.1023 /A:1010933404324 Han, Sunwoo; Kim, Hyunjoong (2021) “Optimal Feature Set Size in Random Forest Regression”, Appl Sci 11, no 8: 3428 https://doi.org/10.3390/app11083428 Guo-Feng F., Yan-Hui G., Jia-Mei Z & Wei-Chiang H (2019) “Application of the Weighted K-Nearest Neighbor Algorithm for Short-Term Load Forecasting”, Energies 2019, 12, 916; doi:10.3390/en12050916 Chen and Guestrin (2016) “XGBoost: A Scalable Tree Boosting System”, KDD’16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 2016, Pages 785–794, https://doi.org/10.1145 /2939672.2939785 Trần Quý Nam tốt nghiệp Kỹ sư (năm 1999) Thạc sỹ (năm 2005) ngành công nghệ thơng tin hệ quy Đại học Bách Khoa Hà Nội, nhận Tiến sỹ quản lý công nghệ thông tin Đại học Quốc gia Xê-Un Hàn Quốc năm 2010 Lĩnh vực nghiên cứu: phủ điện tử, chuyển đổi số, hiệu hệ thống thông tin, ứng dụng trí tuệ nhân tạo, phát triển ứng dụng đa phương tiện EVALUATING XGBOOST WITH OTHER MACHINE LEARNING ALGORITHMS Abstract: This study tests a number of machine learning algorithms such as XGBoost, random forest, decision tree, support vector machine, k nearest neighbors for predicting problem The dataset on US NASDAQ stock market are collected until end of May 2021 is experimental data for implementation of machine learning algorithms The predicting and training data are the stock prices on the stock market given by AAPL The tested results show that the XGBoost method gives the best prediction results compared to other machine learning algorithms Keywords: Machine learning, AI, XGBoost, random forest, decision tree, support vector machine, k-nearest neighbors, NASDAQ, stock price SỐ 02 (CS.01) 2021 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 87