Đồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine LearningĐồ án tốt nghiệp: Dự đoán chỉ số VNINDEX sử dụng Machine Learning
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA KINH TẾ - - ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: DỰ ĐOÁN CHỈ SỐ VNINDEX SỬ DỤNG MACHINE LEARNING NGÀNH THƯƠNG MẠI ĐIỆN TỬ GVHD: ThS Trần Kim Toại Sinh viên: Tống Trần Khánh Duy MSSV: 16126010 Đinh Hoàng Việt Tú MSSV: 16126099 Nguyễn Thị Phương Duyên MSSV: 16126107 TP Hồ Chí Minh – tháng năm 2020 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA KINH TẾ - - ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: DỰ ĐOÁN CHỈ SỐ VNINDEX SỬ DỤNG MACHINE LEARNING GVHD: ThS Trần Kim Toại Sinh viên: Tống Trần Khánh Duy MSSV: 16126010 Đinh Hoàng Việt Tú MSSV: 16126099 Nguyễn Thị Phương Duyên MSSV: 16126107 TP.Hồ Chí Minh – tháng năm 2020 i LỜI CẢM ƠN Lời đầu tiên, nhóm thực đề tài xin trân trọng cảm ơn Thầy Trần Kim Toại tận tình dẫn cho nhóm bước thực đồ án tiến độ đạt thành Trong trình làm việc với thầy nhóm khơng tiếp thu kiến thức bổ ích, mà cịn rèn luyện thêm nhiều kỹ hay, thái độ nghiêm túc trình nghiên cứu khoa học, điều cần thiết trình học tập đặc biệt hành trang lớn cho đường nghiệp sau Đồng thời nhóm xin chân thành cảm ơn giảng viên khoa truyền dạy cho chúng em kiến thức cần thiết cho việc nghiên cứu đồ án Cuối cùng, nhóm xin chúc Quý Thầy, Cô trường Đại học Sư Phạm Kỹ Thuật TPHCM dồi sức khỏe gặt hái nhiều thành cơng cơng việc Nhóm xin chân thành cảm ơn! Tp Hồ chí Minh, tháng năm 2020 Sinh viên thực Tống Trần Khánh Duy Đinh Hoàng Việt Tú Nguyễn Thị Phương Duyên viii PHÂN CÔNG CÔNG VIỆC Tên Thành Viên Tống Trần Khánh Duy Nguyễn Phương Duyên Đinh Hồng Việt Tú Cơng việc - Đóng góp ý tưởng, sáng kiến -Thu thập liệu -Lập trình thuật tốn - Kiểm tra thuật tốn - Trình bày báo cáo (chương 3) - Trình bày slide -Đóng góp ý tưởng, sáng kiến -Thu thập liệu -Lọc liệu -Trình bày báo cáo (chương 1) - Chỉnh sửa báo cáo -Trình bày slide -Đóng góp ý tưởng, sáng kiến - Thu thập liệu -Lọc liệu -Trình bày báo cáo (chương 4) - Chỉnh sửa báo cáo -Trình bày slide ix Mức độ hồn thành 100 100 100 DANH MỤC CÁC TỪ VIẾT TẮT Các từ viết tắt thuật ngữ tiếng anh: AI Từ viết tắt Artificial Intelligence (Trí tuệ nhân tạo) AB AdaBoost CART Decision Tree Regressor EN Elastic Net ET Extra Trees GBM Gradient Boosting KNN K Nearest Neighbors LR Linear Regression ML Machine Learning (Học máy) MSE Mean Squared Error (Sai số tồn phương trung bình) RF Random Forests SVM Support Vector Regressor Từ viết tắt Predict Signal (Dấu hiệu dự đoán) Các từ viết tắt tiếng việt: Từ viết tắt TTCK Từ viết tắt Thị trường chứng khoán x DANH MỤC HÌNH ẢNH Hình 1.1: Sơ đồ mơ hình Regression tree dự báo giá xe Toyota Hình 1.2: Sự phân bố nhãn mặt phẳng Hình 1.3: Đường thẳng hình thành tách lớp nhãn Hình 1.4: Sự xếp nhãn phức tạp Hình 1.5: thực tách nhãn sau thay đổi trục xét Hình 1.6: Quay trục xét ban đầu Hình 1.7: Chuẩn hóa tập huấn luyện trường hợp biến có thang đo khác Hình 1.8: Đồ thị tập liệu hai biến Hình 1.9: Xác định điểm gần với khoảng cách tối thiểu X Hình 1.10: Các điểm liệu tương tự thường tồn gần Hình 1.11: biểu đồ chiều cao so với tuổi Hình 1.12: Xác định điểm cần xem xét theo giá trị K Hình 1.13: Xác định điểm gần với giá trị K=5 Hình 1.14: Biểu đồ lỗi đào tạo cho giá trị khác K Hình 1.15: Biểu đồ lỗi xác nhận cho giá trị khác K Hình 2.2 Mơ tả liệu đầu vào Hình 2.3 Tương quan biến đầu vào mơ hình Hình 2.4 Lưu đồ thực thiết kế chọn mơ hình thuật tốn Hình 2.5 Kết so sánh sai số mơ hình thuật tốn Hình 2.6 Biểu mức độ sai số mơ hình thuật tốn Hình 2.7 Sử dụng Pipeline để thực Standardization thuật tốn Hình 2.8 Kết Standardization thuật tốn Hình 2.9 Sử dụng phương pháp Grid search để tinh chỉnh Hyperparameter Hình 2.10: Lựa chọn giá trị K tốt Hình 2.11 Sử dụng phương pháp Ensemble Hình 2.12 Kết sử dụng phương pháp Ensemble Hình 2.13 So sánh kết sai số thuật tốn với phương pháp Ensemble Hình 2.14 Sử dụng phương pháp tinh chỉnh với GBM xi Hình 2.15 Chuẩn bị thuật tốn GBM Hình 2.16 Kết tính MSE từ thuật tốn GBM với liệu mẫu Hình 2.17 Chuẩn bị thuật tốn KNN Hình 2.18 Chuẩn bị thuật tốn KNN Hình 2.19 Lưu đồ áp dụng thuật tốn KNN Hình 2.20 Chuẩn bị thư viện Hình 2.21 Mơ tả liệu đầu vào Hình 2.22 Mơ tả liệu biến dự đốn Hình 3.1: Biểu đồ dự báo Hình 3.2: Xu hướng lên xuống số VNINDEX sử dụng mơ hình dự Hình 4.1 Số lượng tài khoản giao dịch chứng khoán TTCK tháng đầu năm 2019 Hình 4.2 Một ví dụ mơ hình KNN Hình 4.3 Ví dụ mơ hình LSTM xii DANH MỤC BẢNG BIỂU Bảng 1.1: Dữ liệu đầu vào 11 ID Bảng 1.2: Bảng số liệu đầu vào (3 đối tượng) Bảng 1.3: Bảng số liệu đầu vào (5 đối tượng) Bảng 2.1 Các biến số sử dụng liệu đo lường Bảng 2.2: Mô tả liệu đầu vào Bảng 3.1: Hệ số tương quan biến liệu từ năm 2000-2019 Bảng 3.2 Sai số tồn phương (MSE) thuật tốn tính toán liệu Bảng 3.3 Kết hiệu chỉnh cho mơ hình KNN Bảng 3.4 So sánh sai số phương pháp Ensemble Bảng 3.5 Hiệu chỉnh phương pháp Gradient Boosting Bảng 3.6: Kết huấn luyện cân thuật toán liệu huấn luyện Bảng 3.7: Chỉ số mở cửa VNINDEX định bán, mua xiii MỤC LỤC PHẦN MỞ ĐẦU 1 Đặt vấn đề Mục tiêu phương pháp nghiên cứu Phạm vi đối tượng nghiên cứu Nội dung thực Kết nghiên cứu Các nghiên cứu trước Thu thập liệu Đóng góp nghiên cứu Cấu trúc đồ án CHƯƠNG 1: GIỚI THIỆU VỀ THUẬT TOÁN K NEAREST NEIGHBORS 1.1 Cơ sở lý thuyết 1.1.1 KNN (K Nearest Neighbors) gì? Ưu điểm nhược điểm KNN 1.2 Các khái niệm liên quan: 1.2.1 Linear Regression (LR): 1.2.2 Lasso 1.2.3 Elastic Net (EN) 1.2.4 Decision Tree Regressor (CART): 1.2.5 Support Vector Regressor (SVM) 1.3 Mơ hình thuật tốn KNN 12 1.3.1 Mơ hình KNN đặc điểm .12 1.3.2 Cách thức thuận toán KNN hoạt động 13 1.3.3 Một số thước đo việc lựa chọn mơ hình thuật toán 15 1.5 Sự vượt trội dự báo 16 1.6 Việc ứng dụng mơ hình KNN dự báo – chứng thực nghiệm 17 CHƯƠNG 2: THIẾT KẾ MƠ HÌNH HỒI QUY DỰ BÁO GIÁ CHỨNG KHỐN 24 2.1 Thiết kế mơ hình hồi quy để dựa báo giá chứng khốn với nhóm biến kinh tế vĩ mô 24 2.1.1 Lựa chọn biến kinh tế vĩ mô tác động đến giá chứng khoán: .24 xiv 2.1.2 Thu nhập liệu Kinh tế: 24 2.1.3 Các bước thực 27 2.1.4 Chọn mơ hình thuật tốn tốt nhất: KNN 29 2.1.4.2 Cải thiện thuật toán với phương pháp tinh chỉnh Hyperparameter: 31 2.1.4.3 So sánh với thuật toán sử dụng phương pháp Ensemble 32 2.1.4.4 So sánh GBM KNN 35 2.2 Sử dụng thuật toán KNN để dự đoán giá VNINDEX: 36 2.2.1 K-Nearest Neighbors gì? 36 2.2.2 Phương pháp cách thức: 37 2.2.3 Sử dụng mơ hình KNN .40 CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU 41 3.1 Sự tác động VNINDEX số khác: .41 3.2 Kết chọn lựa thuật toán .41 3.2.1 Sai số tồn phương mơ hình thuật tốn 41 3.2.2 Hiệu chỉnh mơ hình KNN 42 3.2.3 Phương pháp Ensemble hiệu chỉnh Ensemble 42 3.2.4 So sánh GBM KNN 43 3.3 Áp dụng mơ hình để tạo chiến lược trao đổi .44 CHƯƠNG 4: MỘT SỐ ĐỀ XUẤT VÀ HƯỚNG PHÁT TRIỂN TỪ Q TRÌNH PHÂN TÍCH VÀ DỰ BÁO GÍ CHỨNG KHOÁN VIỆT NAM 47 4.1 Xu hướng dự báo giá chứng khoán thị trường Việt Nam 47 4.1.1 Nhu cầu chơi chứng khoán 47 4.1.2 Nhu cầu muốn đoán giá chứng khoán 49 4.2 Ưu điểm phương pháp mang lại cho thị trường chứng khoán Việt Nam.51 4.3 Những hạn chế trình nghiên cứu 52 4.4 Một số đề xuất từ trình nghiên cứu hướng phát triển dự án cho thị trường chứng khoán Việt Nam 53 4.4.1 Một số đề xuất nhóm: 53 4.4.2 Hướng phát triển dự án: 54 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 xv A comprehensive beginners guide for Linear, Ridge and Lasso Regression in Python and R: https://www.analyticsvidhya.com/blog/2017/06/a-comprehensive-guide-forlinear-ridge-and-lasso-regression/ Decision Tree Classification in Python: https://www.datacamp.com/community/tutorials/decision-tree-classificationpython 10 Building a ridge regressor: https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781 789808452/1/ch01lvl1sec23/building-a-ridge-regressor 11 K-nearest neighbors: https://machinelearningcoban.com/2017/01/08/knn/ 12 KNN (K-Nearest Neighbors) https://viblo.asia/p/knn-k-nearest-neighbors-1-djeZ14ejKWz 13 Machine Learning Basics with the K-Nearest Neighbors Algorithm: https://towardsdatascience.com/machine-learning-basics-with-the-k-nearestneighbors-algorithm-6a6e71d01761 14 KNN Algorithm - Finding Nearest Neighbors: https://www.tutorialspoint.com/machine_learning_with_python/machine_learnin g_with_python_knn_algorithm_finding_nearest_neighbors.htm 15 Nearest Neighbors: https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors 16 K-Nearest Neighbours: https://www.geeksforgeeks.org/k-nearest-neighbours/ 17 Nearest Neighbor(KNN) Algorithm for Machine Learning: https://www.javatpoint.com/k-nearest-neighbor-algorithm-for-machine-learning 18 K-nearest Neighbors: https://brilliant.org/wiki/k-nearest-neighbors/ 19 K Nearest Neighbor: https://www.sciencedirect.com/topics/immunology-and-microbiology/k-nearestneighbor 20 Support Vector Regression Tutorial for Machine Learning: https://www.analyticsvidhya.com/blog/2020/03/support-vector-regression-tutorial-for-machinelearning/ 59 21 K Nearest Neighbors – Classification: https://www.saedsayad.com/k_nearest_neighbors.htm 60 PHỤ LỤC Phụ Lục Pipeline Python Được sử dụng để xâu chuỗi nhiều công cụ ước tính thành thế, tự động hóa q trình học máy Điều hữu ích thường có chuỗi bước cố định xử lý liệu Một số code dùng để chuyển hóa số học (đơn điệu hóa số học) hay chuyển văn thành vector, tự động làm đầy liệu, dòng code gọi code chuyển hóa (transformers) Ngồi ra, cịn số loại code dùng để dự đoán biến qua việc tương thích với thuật tốn gọi code dự đốn (estimators) Vì thế, pipeline áp dụng danh sách transformers (data modelling) cuối estimator (Machine Learning model) Bước thực chuyển hóa phải có yếu tố fit() transform() Bước dự đoán cuối phải chứa fit() predict() Tuy nhiên dịng code khơng có predict() buộc phải chứa lệnh fit() Tóm lại, pipelines cấu với hàm fit/transform/predict, mà đưa pipelines vào việc train liệu chuyển hóa văn chung mà khơng cần phải tách chúng làm riêng biệt tốn thời gian Ví dụ cách thực pipeline bản: 61 62 Phụ Lục 2: Linear Regression Giới thiệu Ta đặt ví dụ cho dễ vào giải thích sau: chung cư – hộ rộng a1 m2 có a2 phịng cách trung tâm thành phố Hồ Chí Minh a3 km có giá tiền Cho giả định ta có số liệu 1500 hộ bao gồm số phòng, khoảng cách tới trung tâm thành phố, độ rộng giá chúng liệu ta dự đốn giá hộ khác mà biết số a1 a2 a3 trước khơng Nếu làm tốn hàm dự đốn y = f(X) có dạng X = [a1, a2, a3] vector chưa thông tin input, y chứa thông tin output số vô hướng y tượng trưng cho giá hộ Theo cách đơn giản nhất, thấy rằng: - Diện tích nhà lớn, giá nhà đất cao; - Số phòng nhiều, giá nhà cao; - Càng xa trung tâm, giá nhà đất thấp Hàm đơn giản mơ tả mối quan hệ giá nhà ba giá trị 63 𝒚 ≈ 𝒇(𝑿) = 𝒚̂ 𝑓(𝑋) = 𝜔1𝑎1 + 𝜔2𝑎2 + 𝜔3𝑎3 + 𝜔0 (1) Trong 𝜔1, 𝜔2, 𝜔3, 𝜔0 số quan hệ 𝒚 ≈ 𝒇(𝑿) quan hệ linear – tuyến tính Và tốn tìm hệ sơ tối ưu thuộc loại regression kết hợp ta có dạng Linear Regression Lưu ý: - y giá trị thực tập training data, 𝑦̂ giá trị linear regression dự đốn mong muốn cho y 𝑦̂ giống nhât để kết dự đốn xác ưu việt - Hiểu tuyến tính đơn giản thẳng, phẳng Trong không gian hai chiều, hàm gọi tuyến tính đồ thị có dạng đường thẳng Cịn khơng gian ba chiều, hàm gọi tuyến tính đồ thị có dạng mặt phẳng Và không gian ba chiều, khái niệm máy bay khơng cịn phù hợp, mà có khái niệm khác gọi siêu phẳng (hyperplane) Các hàm linear đơn giản chúng thuận tiện cho việc hiển thị tính tốn Tuyến tính quan trọng hữu ích vấn đề máy học Ví dụ: 2.1 Bài tốn Nhập thư viện numphy matplotlib khai báo biến để vẽ đồ thị Ta có mẫu liệu sau 15 người với số đo họ Bài toán phải dự đoán số kg họ dựa cm họ sở hữu (vd mang tính giả thuyết) Từ bảng ta thấy sử 64 dụng hàm linear chiều cao tỉ lệ thuận với cân nặng (càng cao nặng) Chọn mẫu thử 155 160 cm để kiểm tra, lại sử sụng để train model 2.2 Hiển thị đồ thị: Nhìn đồ thị gần đường thẳng cho ta thấy tính khả quan hàm linear: (kg) = w_1*(cm) + w_0 2.3 Nghiệm từ công thức thu được: Dựa vào cơng thức điểm tối ưu tốn Linear Regressio: 65 66 Từ biểu đồ trên, thấy điểm liệu màu đỏ gần với đường dự đốn màu xanh Vì vậy, mơ hình hồi quy tuyến tính hoạt động tốt với tập liệu đào tạo Bây sử dụng mô hình để dự đốn cân nặng hai người với chiều cao 155 160 cm mà khơng sử dụng tính tốn giải pháp Ta thấy kết dự đoán gần với thực tế Phụ lục 3: Gradient Descent Giới thiệu: Từ đồ thị quen thuộc, điểm chấm xanh điểm cực tiểu hàm số, nơi mà hàm số đạt giá trị nhỏ nhất, cịn gọi local minimum Ngồi global minimum lúc trường hợp đặc biệt local minimum Nhắc lại: 67 - Tại điểm local minimum hàm số có đạo hàm f’(x) = phần đạo hàm điểm bên trái không dương, ngược lại khơng có trường hợp âm đạo hàm điểm bên phải - Hệ số góc tiếp tuyến với đồ thị có giá trị đạo hàm hàm tiếp điểm Trong hình trên, chấm trái điểm cực tiểu màu xanh có đạo hàm âm, chấm phải có đạo hàm dương Và với hàm này, xa bên trái điểm cực tiểu, đạo hàm âm, xa bên phải, đạo hàm dương Trong học máy đặc biệt tốn học tối ưu nói chung, thường phải tìm giá trị nhỏ (hoặc đơi tối đa) hàm Ví dụ, hàm hai viết có nghĩa Hồi Quy Tuyến Tính K-means Clustering Nói chung, phức tạp, chí khơng thể, để tìm tính bị tối thiểu toàn cầu học máy Thay vào đó, người thường cố gắng tìm điểm tối thiểu địa phương chừng mực coi giải pháp cho vấn đề Điểm tối thiểu cục giải pháp phương trình dẫn xuất Nếu cách tìm thấy tất điểm tối thiểu (cuối cùng), cần thay điểm tối thiểu cục hàm tìm điểm làm cho hàm có giá trị nhỏ (điều nghe quen thuộc phải khơng?) Tuy nhiên, hầu hết trường hợp, giải phương trình đạo hàm Điều phức tạp dạng đạo hàm, thực tế điểm liệu có số lượng kích thước lớn có q nhiều điểm liệu Cách tiếp cận phổ biến điểm coi gần với giải pháp cho vấn đề, sau sử dụng thao tác lặp để đến điểm chúng tơi tìm kiếm, đạo hàm gần Gradient Descent (viết tắt GD) Các biến thể phương pháp sử dụng rộng rãi Hàm biến Theo hình vẽ ban đầu Giả sử 𝑥𝑘 ta có sau 𝑘 vịng lặp Ta cần tìm cách để đưa 𝑥𝑘 gần 𝑥∗ Ta thấy: 68 - Đạo hàm với : ta cần dời nằm bên phải ngược lại Và để gần sang bên trái (phía âm) hay ta phải di chuyển trái dấu với đạo hàm * Lưu ý: ngược dấu với : - Ta cần lưu ý phải Vì lớn xa phía bên tỉ lệ thuận với Từ nhận định ta có: số > gọi learning rate (cho biết tốc độ học máy) Từ descent gradient descent nghĩa ngược từ dấu trừ có cơng thức (ngược với đạo hàm) Hàm nhiều biến: Ta tìm giá trị nhỏ hàm vector Đạo hàm hàm số Giống với hàm biến, Gradient Descent cho hàm nhiều biến khởi đầu với , vòng lặp thứ k, ta có: Hoặc viết rút gọn là: Điều lưu ý khơng qn là: ln phải ngược hướng với đạo hàm Phụ lục 4: Vẽ đồ thị với Mathplotlib Mathplotlib.pyplot tập hợp funtion mà đồ thị thực matlab Mỗi hàm pyplot tạo chuyển đổi cho biểu đồ, chẳng hạn tạo khung biểu đồ, vẽ biểu đồ khung tạo trước vẽ nhiều biểu diễn biểu đồ, đánh dấu trục, v.v Các trạng thái khác matplotlib.pyplot lưu trữ funtion gọi, lưu tất đồ thị khu vực đồ thị vẽ chức đồ thị vẽ trực tiếp trục tọa độ (các trục Điều có nghĩa đồ thị hình vẽ, khơng phải định nghĩa trục toán học) 69 Biểu đồ cho thấy trục x có phạm vi 0-3, trục y có phạm vi 0-4 Bởi bạn sử dụng danh sách đơn dãy cho hàm plot(), matplotlib cho chuỗi cho chiều cao trục y tự động đồng hóa với trục x Vì phạm vi python bắt đầu 0, vectơ mặc định x có độ dài với y Vì vậy, trục x [0, 1, 2, 3] Hàm Plot () hàm động nhận số lượng đối số tùy ý argument Vd vẽ biểu đồ y theo x, dùng lệnh sau: Đối với cặp x y có định dạng tùy chọn thứ ba chuỗi định màu sắc hình dạng đồ thị Định dạng ký tự ký hiệu lấy từ MATLAB kết hợp loạt màu sắc dạng biểu đồ đường Mặc định cho định dạng 'b-', dịng màu xanh Ví dụ: vẽ đồ thị phía với vịng trịn màu đỏ 70 Dịng lệnh axis() có ý nghĩa nhận giá trị theo dạng list [ymin, ymax, xmin, xmax] biểu diễn lên trục x y Khi mathplotlib khó định dạng dạng list Ta cân nhắc sử dụng đến dãy(array) thư viện numpy 71 72 ... THUẬT TP.HCM KHOA KINH TẾ - - ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: DỰ ĐOÁN CHỈ SỐ VNINDEX SỬ DỤNG MACHINE LEARNING GVHD: ThS Trần Kim Toại Sinh viên: Tống Trần Khánh Duy MSSV: 16126010 Đinh Hoàng Việt... trị tốt nhất: Ở nhóm thực nghiệm sử dụng số thuật toán đưa so sánh chung để chọn thuật toán phù hợp Sử dụng 10-fold Cross Validation đánh giá dựa số MSE (Sai số toàn phương trung bình) để đánh... thấy sai số tồn phương (MSE) sử dụng liệu với thuật tốn KNN GBM KNN với 0.0027 < 0.16 chọn thuật tốn phù hợp để dự đoán VNINDEX KNN (với k = 3) 2.2 Sử dụng thuật toán KNN để dự đoán giá VNINDEX: