Trong bài viết này tập trung nghiên cứu giải quyết bài toán bằng cách nào có thể chọn lựa ra được những thuộc tính tốt nhất trong rất nhiều các thuộc tính ban đầu để phục vụ việc giảm chiều dữ liệu nâng cao tốc độ huấn luyện cho mô hình học máy.
TNU Journal of Science and Technology 226(07): 160 - 165 SELECTION OF IMPORTANCE INDICATORS FOR MACHINE LEARNING MODELS IN FOREX TRADING AREA Mai Van Hoan*, Dao Tran Chung, Vu Van Dien TNU - University of Information and Communication Technology ARTICLE INFO Received: 22/4/2021 Revised: 21/5/2021 Published: 24/5/2021 KEYWORDS Feature Selection Machine Learning Dimension reduction Forex market Random Uniform Forests ABSTRACT How to choose the best input variable for use in machine learning is the big question In real life, the selection of indicators will help improve the results of forex market trend prediction, stock market based on machine learning models is always a topic of great interest to many scientists and investors In this article, we focus on solving the problem of how to select the best indicators based on Random Uniform Forest Our method consists of steps: First, We collect data including indices commonly used in the forex sector; second, the data is standardized and labeled; finally, We use Random Uniform Forests to select indicators that are beneficial for prediction Through the method done, In 17 common indicators in our interested domain, we found out indicators (vol, cci, adx, ar and chv) are most important We can explain why those indicators is beneficial for machine learning models, improving the model's performance, computation speed and reduced number of data dimensions LỰA CHỌN CÁC CHỈ SỐ QUAN TRỌNG CHO MƠ HÌNH HỌC MÁY ỨNG DỤNG TRONG GIAO DỊCH NGOẠI HỐI Mai Văn Hoàn*, Đào Trần Chung, Vũ Văn Diện Trường Đại học Công nghệ thông tin Truyền thông – ĐH Thái Nguyên THÔNG TIN BÀI BÁO Ngày nhận bài: 22/4/2021 Ngày hoàn thiện: 21/5/2021 Ngày đăng: 24/5/2021 TỪ KHĨA Lựa chọn thuộc tính Học máy Giảm chiều liệu Ngoại hối Random Uniform Forests TÓM TẮT Lựa chọn thuộc tính tốt cho mơ hình học máy tương tự việc lựa chọn số tối ưu giúp ích cho việc nâng cao kết dự đoán xu hướng thị trường ngoại hối, chứng khốn dựa mơ hình học máy ln nhà đầu tư quan tâm Trong báo tập trung nghiên cứu giải toán cách chọn lựa thuộc tính tốt nhiều thuộc tính ban đầu để phục vụ việc giảm chiều liệu nâng cao tốc độ huấn luyện cho mơ hình học máy Phương pháp nhóm tác giả thực gồm bước chính: thu thập liệu liên quan bao gồm số sử dụng phổ biến lĩnh vực ngoại hối; tiếp theo, liệu chuẩn hóa gán nhãn; sau cùng, sử dụng thuật tốn Random Uniform Forests với thông tin độ quan trọng thuộc tính để lựa chọn số có lợi cho việc dự đốn Kết nghiên cứu ra, 17 số thông dụng lĩnh vực nhóm quan tâm 05 số (vol, cci, adx, ar chv) có ảnh hưởng đến kết phân lớp liệu có lợi cho mơ hình học máy, cải thiện hiệu tốc độ tính tốn mơ hình số chiều liệu giảm xuống DOI: https://doi.org/10.34238/tnu-jst.4410 * Corresponding author Email: maihoan@ictu.edu.vn http://jst.tnu.edu.vn 160 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(07): 160 - 165 Giới thiệu Trong vài năm trở lại đây, thị trường chứng khoán, ngoại hối nhận quan tâm lớn nhà đầu tư Đây thị trường kỳ vọng mang lại lợi nhuận lớn cho nhà đầu tư thị trường có độ rủi ro cao khó lường Các nhà khoa học chun gia phân tích liệu khơng ngừng nghiên cứu nhằm áp dụng kiến thức khai phá liệu, xử lý liệu lớn, mơ hình học máy, trí tuệ nhân tạo, nhằm giải vấn đề quan tâm nhà đầu tư Một toán nhận nhiều quan tâm là: Hàng ngày cần định mua, bán hay giữ mã cổ phiếu, cặp tiền tệ, nhà đầu tư thường dựa vào danh sách lớn số thị trường phân tích chúng Câu hỏi đặt với họ là: số số thực có ý nghĩa quan trọng việc định Nhóm tác giả nhận thấy, việc lựa chọn số có ý nghĩa tương đồng với việc lựa chọn thuộc tính đặc trưng liệu mơ hình máy học Việc lựa chọn đặc trưng quan trọng giúp cho mơ hình học máy có kết xác hơn, giảm thời gian huấn luyện, giảm độ phức tạp liệu Chính lý trên, nhóm nghiên cứu định sử dụng việc lựa chọn đặc trưng cho mô hình máy học áp dụng cho việc chọn số quan trọng nhằm giải vấn đề chọn số quan trọng lĩnh vực chứng khoán, ngoại hối Trong phần này, nhóm tác giả giới thiệu sơ lược thị trường ngoại hối, khai phá liệu, lựa chọn thuộc tính thuật tốn Random Uniform Forests đặc trưng để giải toán đặt Thị trường ngoại hối (Foreign Curency Exchange market – FOREX) thị trường trao đổi tiền tệ với tham gia 4.600 ngân hàng quốc tế hàng triệu tổ chức, cá nhân nhỏ lẻ toàn giới [1] Hàng ngày có đến 1,9 nghìn tỷ dollar giao dịch ghi nhận vào năm 2016 Giao dịch thị trường giao dịch trao đổi ngoại tệ - mua đồng bán đồng khác Lúc này, giá trị đồng tiền tệ định giá thông qua việc so sánh với đồng ngoại tệ khác thông qua tỉ giá Một vài đồng ngoại tệ lớn thị trường gồm: EUR (euro), USD (United States dollar), JPY (Japanese yen), GBP (British pound), Các đồng tiền tệ giao dịch thành cặp như: EUR/USD, GBP/USD, nhà đầu tư định mua hay bán cặp tiền tệ với kỳ vọng mang khoản lợi nhuận chênh lệch Có hai trường phái việc phân tích để đưa định mua, bán hay giữ cặp tiền tệ phân tích kỹ thuật phân tích Trong phần này, quan tâm đến phân tích kỹ thuật, mơ hình phân tích dựa số xây dựng sở hiểu biết giá nhằm giúp nhà đầu tư đưa định Các số sử dụng phổ biến gồm: SAR, Bollinger Bands, MACD, Stochastic, RSI, MA, ADX, Rất nhiều số giới thiệu, việc lựa chọn số thích hợp cho việc phân tích ảnh hưởng trực tiếp đến định nhà đầu tư lợi nhuận họ Chúng nhận định rằng, việc lựa chọn số tương tự việc lựa chọn thuộc tính đặc trưng quan trọng mơ hình học máy kỳ vọng giúp giải vấn đề nhà đầu tư gặp phải chọn số quan trọng Thông thường việc lựa chọn, kết hợp số để đưa gia định giao dịch thực thủ công dựa kinh nghiệm nhà đầu tư Những thông tin thường bí mật kinh doanh cơng bố Do nhóm nghiên cứu cố gắng cách lựa chọn số có ảnh hưởng lớn đến kết đầu tư dựa đánh giá trực quan mơ hình máy học Từ chứng minh việc số tốt dựa sở khoa học không cịn dựa cảm tính kinh nghiệm cá nhân Như biết mơ hình học máy phần việc khai phá liệu phát tri thức từ tập liệu lớn [2] Việc khai phá tri thức từ liệu lớn ln gặp phải khó khăn như: liệu lớn thường biết tới với hai vấn đề, lớn mặt số lượng liệu lớn mặt số chiều liệu [3] Trong đó, số chiều liệu quan tâm ảnh hưởng trực tiếp đến tốc độ huấn luyện kết mơ hình học máy Do đó, việc giảm chiều liệu thực nhận nhiều quan tâm cộng đồng nghiên cứu khoa học Giảm http://jst.tnu.edu.vn 161 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(07): 160 - 165 chiều liệu thực thông qua việc lựa chọn thuộc tính hữu ích [4] Việc lựa chọn thuộc tính thực cách chọn tập thuộc tính từ thuộc tính ban đầu cho kết mơ hình học máy xấp xỉ với tập thuộc tính ban đầu có tốc độ học nhanh hơn, tốn chi phí Thuật tốn đánh giá vai trị thuộc tính sử dụng phổ biến Random Uniform Forests Random Uniform Forests (RUF) thuật tốn học có giám sát, sử dụng cho phân lớp hồi quy [5] RUF tạo định mẫu liệu chọn ngẫu nhiên, dự đoán từ chọn giải pháp tốt cách bỏ phiếu Nó cung cấp báo tốt tầm quan trọng tính Trong tốn phân lớp nhị phân, giả sử có tập huấn luyện 𝐷𝑛 = {(𝑋𝑖 , 𝑌𝑖 ), ≤ 𝑖 ≤ 𝑛} với 𝑌 ∈ {0,1}, ta có định liệu thuộc nhãn lớp viết sau: 𝑛 𝑛 1, 𝑛ế𝑢 ∑ 𝐼{𝑋𝑖∈,𝑌𝑖=1} > ∑ 𝐼{𝑋𝑖∈𝐴,𝑌𝑖=0} , 𝑥 ∈ 𝐴 𝑔𝑝 (𝑥, 𝐴, 𝐷𝑛 ) = 𝑔𝑝 (𝑥) = { 𝑖=1 𝑖=1 0, 𝑡𝑟𝑜𝑛𝑔 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐 Ngoài ra, RUF cung cấp cho thông tin liên quan đến tầm quan trọng thuộc tính tập liệu huấn luyện, thông tin bao gồm: - Biến quan trọng toàn cục: Mức độ quan trọng biến đo lường tất nút tất cây, dẫn đến tất biến có giá trị, điểm cắt ngẫu nhiên Do đó, biến có hội chọn có tầm quan trọng biến làm giảm nhiều entropy nút Mức độ quan trọng biến toàn cục tạo biến làm giảm sai số dự đoán nhiều khơng cho biết cách biến quan trọng ảnh hưởng đến phản hồi Do vậy, RUF cung cấp cho thơng tin độ quan trọng tồn cục biến, biến quan trọng ảnh hưởng trực tiếp đến lỗi mơ hình dự đốn - Biến quan trọng cục bộ: Thể mức độ quan trọng biến tới kết dự đoán nhánh - Biến quan trọng phần: Thể độ quan trọng biến tới lớp liệu Việc sử dụng điểm cắt ngẫu nhiên giúp cho RUF giảm tình trạng Overfitting, tạo độ lệch thấp, phương sai thấp Việc sử dụng thuật toán RUF với thơng tin biến quan trọng tồn cục, quan trọng cục bộ, quan trọng phần giúp thuận tiện việc thuộc tính cho quan trọng ảnh hưởng trực tiếp đến kết mơ hình dự đốn Chọn lựa thuộc tính q trình để tìm tập tốt thuộc tính theo số tiêu chí Việc lựa chọn thuộc tính quan trọng dựa RUF giúp giải tốn đặt ban đầu nhanh chóng hiệu Phương pháp nghiên cứu Để thực tìm số quan trọng ảnh hưởng đến chất lượng số mơ hình học máy, cụ thể trường hợp cần nghiên cứu phân loại liệu Phương pháp nhóm thực qua số bước sau: 2.1 Thu thập liệu chuẩn hóa liệu Việc thu thập liệu thực thông qua phần mềm MT4, liệu thu thập gồm thông tin giá cặp ngoại tệ phổ biến, khung thời gian khác khoảng thời gian cụ thể đủ lớn Dữ liệu thô thu thập gồm thơng tin giá mở cửa (Open), đóng cửa (Close), giá cao phiên (High), giá thấp phiên (Close) 2.2 Chuyển đổi liệu Dữ liệu sau thu thập tiến hành làm sạch, loại bỏ điểm thiếu liệu Từ liệu thô ban đầu sử dụng để xây dựng số thường nhà đầu tư sử dụng để phân tích nhằm đưa định như: ADX, ATR, CCI, MACD, RSI, http://jst.tnu.edu.vn 162 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(07): 160 - 165 2.3 Đánh nhãn liệu Việc dựa vào số để thực việc phân tích đưa định mua bán cặp tiền tệ tương tự việc phân loại thị trường thành hai loại: tương ứng với định mua kỳ vọng thị trường lên; -1 với định bán kỳ vọng thị trường xuống Như vậy, mơ hình học máy định sử dụng phân lớp với nhãn lớp Việc đánh nhãn lớp thực theo nhiều cách khác Cách đơn giản sử dụng kỹ thuật One Step a Head, tức liệu phần nhãn ngày hôm trước đánh nhãn kết thực tế ngày hôm sau Ví dụ, nhãn lớp ngày hơm qua gán nhãn giá đóng cửa phiên giao dịch ngày hôm cao giá mở cửa nhãn -1 giá đóng cửa ngày hôm thấp giá mở cửa ngày hôm Hoặc sử dụng số Zigzag để đánh nhãn cho lớp tương ứng, kỹ thuật giúp ta đánh giá nhãn lớp theo tính chu kỳ liệu Tóm lại, có nhãn liệu -1 để phục vụ tốn lựa chọn thuộc tính quan trọng toán phân lớp liệu 2.4 Đánh giá đưa số quan trọng Dựa các thông tin thu q trình học mơ hình phân lớp dựa Random Uniform Forests, đặc biệt thông tin liên quan đến thuộc tính quan trọng tồn cục, thuộc tính quan trọng cục thuộc tính quan trọng thành phần giúp lựa chọn số quan trọng ảnh hưởng đến mơ hình phân lớp, thuộc tính ảnh hưởng đến lớp Thông qua bước giúp giải toán đặt ban đầu cách chọn lựa thuộc tính có ảnh hưởng thực đến định nhà đầu tư giúp giảm bớt chiều liệu từ giúp cho tăng tốc độ học chất lượng mơ hình học máy Kết 3.1 Dữ liệu gốc Bảng Thông tin liệu DX ADX oscDX ar tr atr cci chv cmo sign vsig rsi slowD oscK SMI signal vol Min, 0,007527 7,207 -70,37 -100 0,000141 -417,9 -0,6307 -98,39 -0,156 -0,2014 11,55 0,03721 -0,4095 -75,55 -72,27 0,002066 1st Qu, 10,18 16,22 -4,556 -50 0,00016 0,000348 -84,85 -0,3113 -28,06 -0,03687 -0,02604 40,4 0,2782 -0,04513 -25,96 -23,34 0,004582 Median 21,64 22,45 12,14 0,00035 0,000446 6,332 -0,01492 1,669 0,002712 0,000525 50,53 0,5225 0,00233 2,755 2,718 0,006125 Mean 24,73 24,65 10,09 1,048 0,00047 0,00047 2,624 0,1006 2,378 0,000936 0,000114 50,94 0,5186 3,50E-07 3,482 3,412 0,006313 3rd Qu 36,96 31,24 27,49 56,25 0,00064 0,000569 88,79 0,4292 31,28 0,03982 0,02722 61,57 0,7609 0,04829 34,31 31,09 0,007671 Max, 80,91 56,44 65,62 100 0,0048 0,00126 408,8 2,732 96,28 0,1935 0,1792 87,28 0,9736 0,36 80,05 76,99 0,01432 NA's 16 31 16 16 16 15 31 16 33 34 16 19 17 25 33 16 Chúng sử dụng liệu gồm 5.000 ghi (gồm giá mở cửa (Open), giá cao (High), giá thấp (Low) giá đóng cửa (Close)) cặp ngoại tệ EUR/USD khung thời gian M30 để phục vụ trình nghiên cứu http://jst.tnu.edu.vn 163 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(07): 160 - 165 Thông tin tổng hợp liệu số thể bảng 1, bao gồm 17 số thông dụng lĩnh vực ngoại hối Dữ liệu phân loại gồm 2.438 có nhãn -1 (tương ứng với trạng thái thị trường xuống) 2.526 nhãn (tương ứng với thị trường lên) 3.2 Công cụ sử dụng Việc thu thập liệu thực phần mềm MT4 Xử lý chuẩn hóa liệu thực R thư viện randomUniformForest để thực thi mơ hình phân lớp liệu sử dụng thuật tốn Random Uniform Forests 3.3 Lựa chọn thuộc tính quan trọng Để lựa chọn thuộc tính quan trọng, có ảnh hưởng đến chất lượng phân lớp mơ hình phân lớp liệu cách: đầu tiên, sử dụng thuật toán Random Uniform Forests lấy thông tin liên quan đến biến quan trọng toàn cục, biến quan trọng cục quan trọng thành phần Tiếp theo, chúng tơi tìm hiểu cách biến ảnh hưởng đến số lỗi mơ hình, xem xét mối quan hệ số Cuối cùng, chúng tơi có làm biến có thể/ quan trọng cách xem xét thông qua tập liệu training test 3.3.1 Các số quan trọng toàn cục Chỉ số quan trọng toàn cục cho phép ta giảm tối đa lỗi dự đốn Cụ thể cho biết số có ảnh hưởng mạnh đến việc phân lớp liệu Việc thực thuật tốn Random Uniform Forests trình cắt tỉa ngẫu nhiên định giúp tạo hội ảnh hưởng số lên kết phân loại Hình cho thấy danh sách 10 số có ảnh hưởng tồn cục Hình Danh sách 10 số có ảnh hưởng tồn cục Hình Độ quan trọng số lớp 3.3.2 Tầm quan trọng số với lớp Các biến quan trọng cục có vai trị ảnh hưởng lớp Hình cho ta thấy độ quan trọng số lớp 3.3.3 Các số quan trọng lớp Việc tìm kiếm số quan trọng toàn cục, quan trọng cục quan trọng phần Random Uniform Forests giúp xác định số quan trọng lớp liệu, từ giúp lựa chọn số thực hiệu cho mơ hình máy học Như với thông tin thu sau sử dụng thuật tốn Random Uniform Forests, tìm số quan trọng tìm hiểu ảnh hưởng chúng lên lớp thông qua thuộc tính quan trọng tồn cục Cùng xem xét điều khiến có ảnh hưởng http://jst.tnu.edu.vn 164 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(07): 160 - 165 tương tác biến lên phần định thông qua biến quan trọng cục Cùng với thông tin liên quan đến độ quan trọng phần số chúng thấy số ảnh hưởng lớn đến kết phân lớp liệu cho lớp -1 thơng qua hình hình thể số quan trọng việc phân lớp lớp Hình Các số quan trọng với nhãn lớp -1 Hình Các số quan trọng với nhãn lớp Kết luận Thông qua việc thực nghiệm 5.000 ghi liệu phương pháp kết hợp thuật tốn Random Uniform Forests thơng tin liên quan đến biến quan trọng toàn cục, quan trọng cục quan trọng phần Nghiên cứu 05 số có ảnh hưởng đến kết phân lớp liệu, điều giúp giải câu hỏi lớn đặt phần đầu nhà đầu tư Hơn nữa, việc giúp giảm chiều liệu (từ 17 chiều xuống 05 chiều, tương ứng với giảm bớt 70% số chiều liệu); từ giúp nâng cao tốc độ huấn luyện chất lượng mơ hình học máy, cụ thể mơ hình phân lớp liệu hồi quy Kết mà nhóm thực giúp mở cách thức lựa chọn thuộc tính có ảnh hưởng thật tới tập liệu bất kỳ, quan trọng thành công phát tri thức khai phá liệu đảm bảo liệu cung cấp tốt chất lượng phù hợp số lượng nhằm đưa kết tin cậy đầy đủ người sử dụng mong muốn TÀI LIỆU THAM KHẢO/ REFERENCES [1] M Nassimi, Y S Asfaranjan, A Keshvarsima, and F Baradari, “Trading in the Foreign Exchange Market (Forex): A Study on Purchase Intention,” International Journal of Scientific and Research Publications (IJSRP), vol 4, no 3, pp 1-10, 2014 [2] M N O Sadiku, A E Shadare, and S M Musa, "Data mining: a brief introdcution," European Scientific Journal, vol 11, no 2, pp 509-513, 2015 [3] S Velliangiria, S Alagumuthukrishnanb, and S I T Joseph, "A Review of Dimensionality Reduction Techniques for Efficient Computation," International Conference on Recent Trends in Advanced Computing (ICRTAC), 2019, pp 104-111 [4] Z M Hira and D F Gillies, "A Review of Feature Selection and Feature Extraction Methods Applied on Microarray Data," Advances in Bioinformatics, vol 2015, pp 1-13, 2015 [5] A Pretorius, S Bierman, and S J Steel, "A meta-analysis of research in random forests for classification," Pattern Recognition Association of South Africa and Robotics and Mechatronics International Conference (PRASA-RobMech), 2016, pp 1-6 http://jst.tnu.edu.vn 165 Email: jst@tnu.edu.vn ... hưởng lớp Hình cho ta thấy độ quan trọng số lớp 3.3.3 Các số quan trọng lớp Việc tìm kiếm số quan trọng toàn cục, quan trọng cục quan trọng phần Random Uniform Forests giúp xác định số quan trọng. .. hưởng số lên kết phân loại Hình cho thấy danh sách 10 số có ảnh hưởng tồn cục Hình Danh sách 10 số có ảnh hưởng tồn cục Hình Độ quan trọng số lớp 3.3.2 Tầm quan trọng số với lớp Các biến quan trọng. .. quan trọng việc định Nhóm tác giả nhận thấy, việc lựa chọn số có ý nghĩa tương đồng với việc lựa chọn thuộc tính đặc trưng liệu mơ hình máy học Việc lựa chọn đặc trưng quan trọng giúp cho mơ hình