Khóa lu�n t�t nghi�p Trư�ng Đ�i h�c Thương M�i TRƢỜNG ĐẠI HỌC THƢƠNG MẠI BỘ MÔN TIN HỌC ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƢỜNG NGHIÊN CỨU ỨNG DỤNG CÔNG CỤ KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN VỀ GIAO[.]
TRƢỜNG ĐẠI HỌC THƢƠNG MẠI BỘ MÔN TIN HỌC ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƢỜNG NGHIÊN CỨU ỨNG DỤNG CÔNG CỤ KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN VỀ GIAO DỊCH TỶ GIÁ Ngƣời thực hiện: TS Nguyễn Thị Thu Thủy HÀ NỘI – 2018 MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 1.1 Tính cấp thiết đề tài 1.2 Tổng quan vấn đề nghiên cứu 1.3 Mục tiêu cụ thể đặt cần giải đề tài 1.4 Đối tƣợng phạm vi nghiên cứu đề tài 1.5 Phƣơng pháp thực đề tài 1.6 Bố cục đề tài Chƣơng 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH NGOẠI HỐI 10 2.1 Một số khái niệm 10 2.1.1 Các khái niệm khai phá liệu 10 2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối 16 2.2 Một số công cụ khai phá liệu 18 2.2.1 Cơng cụ học có giám sát 18 2.2.2 Công cụ học không giám sát 24 2.3 Bài toán giao dịch ngoại hối 25 CHƢƠNG 3: ĐỀ XUẤT MƠ HÌNH KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN GIAO DỊCH TỶ GIÁ 26 3.1 Mơ hình khai phá liệu toán giao dịch tỷ giá 26 3.2 Thu thập xử lý liệu 27 3.2.1 Thu thập tiền xử lý liệu 27 3.2.2 Phân chia tập huấn luyện 28 3.3 Kết thực nghiệm 30 3.3.1 Data 30 3.3.2 Sử dụng phƣơng pháp SVM 32 3.3.3 Sử dụng phƣơng pháp Cây định J48 35 3.3 Thảo luận 41 KẾT LUẬN VÀ KIẾN NGHỊ 43 Kết luận 43 Một số kiến nghị 43 DANH MỤC HÌNH VẼ Hình 1: Các lĩnh vực liên quan khai phá liệu 11 Hình 2: Quy trình khai phá liệu 11 Hình 3: Cấp độ hỗ trợ việc định kinh doanh ngƣời thực 14 Hình 4: Lịch hoạt động trung tâm giao dịch ngoại hối 17 Hình 5: Mơ hình học giám sát 20 Hình 6: Cây định tập liệu huấn luyện Bảng 22 Hình 7: Ví dụ mơ hình SVM 23 Hình 8: Mơ hình học có giám sát khai phá liệu tốn giao dịch tỷ giá 26 Hình 9: Đồ thị hàm biến đổi giá trị thành 28 Hình 10: Biến động tỷ giá USD/VND khoảng thời gian năm 30 Hình 11: Thống kê liệu output 31 Hình 12:: Phân bố tỉ giá Close thời điểm 31 Hình 13: Phân bố giao dịch Close 32 Hình 14: Mơ hình sử dụng 33 Hình 15: Đồ thị lỗi mơ hình dự báo SVM 35 Hình 16: dòng giao dịch bị dự báo sai 35 Hình 17: Mơ hình khung cơng việc J48 37 Hình 18: Độ xác Kỹ thuật SVM DT 42 LỜI MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ khoa học kỹ thuật, hệ máy tính trở nên mạnh mẽ hơn, khả tính tốn xử lí thơng tin ngày nhanh Bên cạnh phát triển khoa học kỹ thuật bùng nổ thông tin dẫn tới lƣợng liệu thu thập đƣợc ngày lớn Khơng thể phủ nhận khả đặc biệt ngƣời việc phân tích thơng tin để rút tri thức, kinh nghiệm cho Tuy nhiên, ngƣời cần cơng cụ hỗ trợ tự động phân tích, khai thác thơng tin để tìm tri thức đó, từ định tự động hỗ trợ ngƣời việc định Trong giao dịch ngoại hối, việc dự báo đƣợc xu hƣớng tỷ giá cặp ngoại hối mà giao dịch quan trọng Việc dự báo giúp nhà đầu tƣ đƣa đƣợc chiến lƣợc giao dịch phù hợp, tăng khả mang lại lợi nhuận hạn chế thấp nguy rủi ro xảy Tỷ giá cặp tiền tệ thay đổi theo thời gian hồn tồn thu thập, lƣu trữ lại thơng qua lịch sử giá Việc phân tích dự báo xu hƣớng tỷ giá cặp ngoại hối tƣơng lai thƣờng dựa vào liệu khứ Việc giao dịch thủ công thƣờng có nhiều hạn chế nhƣ: hạn chế độ xác, hạn chế thời gian theo dõi … Việc ứng dụng mơ hình giao dịch có nhiều ƣu hơn: khả xử lý xác, kịp thời, khả giám sát liên tục không bị ảnh hƣởng yếu tố tâm lý Nhìn chung, hƣớng tiếp cận cho tốn dự báo xu hƣớng tỷ giá ngoại hối xây dựng mơ hình học có giám sát, huấn luyện liệu khứ áp dụng để dự báo xu hƣớng tƣơng lai Các cơng trình nghiên cứu giới chủ yếu dừng việc công bố kết nghiên cứu, cịn Việt Nam, cơng trình nghiên cứu dự báo xu hƣớng ngoại hối chƣa có nhiều, đặc biệt việc áp dụng vào thực tế Từ tìm hiểu trên, thấy việc nghiên cứu số mơ hình học máy cho việc phân tích xu hƣớng ngắn hạn tỷ giá cặp ngoại hối áp dụng vào thực tế với việc cài đặt cho robot giao dịch ngoại hối tự động đề tài thực có ý nghĩa cho đời sống kinh tế xã hội CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 1.1 Tính cấp thiết đề tài Trong giao dịch ngoại hối, việc dự báo đƣợc xu hƣớng tỷ giá cặp ngoại hối mà nhà đầu tƣ giao dịch quan trọng Việc dự báo giúp nhà đầu tƣ đƣa đƣợc chiến lƣợc giao dịch phù hợp, tăng khả mang lại lợi nhuận hạn chế thấp nguy rủi ro xảy Tỷ giá cặp tiền tệ thay đổi theo thời gian hồn tồn thu thập, lƣu trữ lại thông qua lịch sử giá Việc phân tích dự báo xu hƣớng tỷ giá cặp ngoại hối tƣơng lai thƣờng dựa vào liệu khứ Quá trình thực cách thủ cơng kinh nghiệm ngƣời giao dịch tự động dùng công cụ báo kỹ thuật với quy tắc định (cịn gọi phân tích kỹ thuật) Tuy nhiên việc giao dịch thủ cơng thƣờng có nhiều hạn chế nhƣ: hạn chế độ xác, hạn chế thời gian theo dõi, tâm lý ngƣời giao dịch … việc sử dụng giao dịch tự động có nhiều ƣu hơn: khả xử lý xác, kịp thời, khả giám sát liên tục không bị ảnh hƣởng yếu tố tâm lý Từ nhu cầu thực tế cho thấy việc xây dựng ứng dụng mơ hình học có giám sát cho robot giao dịch hƣớng tiếp cận khả quan hứa hẹn mang lại hiệu Bắt kịp với yêu cầu thực tế nhân lực lĩnh vực phân tích liệu sử dụng hệ thống thơng tin kinh tế, học phần “Khai phá liệu kinh doanh” đƣợc xây dựng phục vụ cho việc đào tạo em sinh viên chuyên ngành quản trị hệ thống thông tin ngành hệ thống thông tin quản lý Học phần đƣợc xây dựng với thời lƣợng tín bao gồm nội dung liên quan đến khai phá liệu, mà cụ thể tập trung nhiều vào liệu toán kinh tế Bài toán giao dịch tỷ giá thị trƣờng ngoại tệ số tốn có liên quan nhằm giúp cho em có tài liệu tham khảo việc học tập Từ nhu cầu thực tế đó, tơi chọn đề tài: “Nghiên cứu ứng dụng công cụ khai phá liệu toán giao dịch tỷ giá” để nghiên cứu 1.2 Tổng quan vấn đề nghiên cứu Thị trƣờng ngoại hối nơi diễn hoạt động trao đổi ngoại tệ thông qua quan hệ cung cầu Việc trao đổi thƣờng bao gồm việc mua đồng tiền đồng thời bán đồng tiền khác Nhƣ vậy, đồng tiền đƣợc trao đổi cặp với Đặc thù thị trƣờng ngoại hối đƣợc giao dịch mua bán qua ngân hàng, nhà môi giới, chuyên viên ngoại hối, tổ chức tài cá nhân toàn giới Do vậy, ngoại hối đƣợc giao dịch liên tục từ 21 (GMT) chủ nhật tới 21 (GMT) thứ hàng tuần Bài toán giao dịch thị trƣờng ngoại hối đƣợc tập trung giải vào việc dự báo xu hƣớng theo ngày tỷ giá quy đổi cặp tiền tệ theo chuỗi thời gian biến động phức tạp để từ định giao dịch bán hay mua Đầu vào toán lịch sử tỷ giá trao đổi cặp tiền tệ, số liệu kiện kinh tế xảy ra… Đầu tốn xu hƣớng tăng hay giảm cặp tiền tệ cần xét Một số lƣợng lớn thuộc tính từ liệu chuỗi thời gian đƣợc sinh từ lịch sử tỷ giá cặp tiền tệ nhằm mục đích chọn tập liệu phù hợp cho toán phân lớp Nhƣ vậy, toán giao dịch ngoại hối đƣợc chuyển toán phân lớp nhị phân toán dự đoán xu hƣớng tăng hay giảm để hỗ trợ đƣa định giao dịch (hoạt động mua, bán, chốt lời, dừng lỗ…) Các mơ hình học máy đƣợc sử dụng vào việc dự đốn xu hƣớng tỷ giá cặp tiền tệ Piche (1995) sử dụng hình ảnh biểu đồ plot để mơ tả xu hƣớng dịch chuyển dao động tỷ giá với ma trận xu hƣớng Việc dự báo tỷ giá sử dụng mơ hình dự báo chuỗi thời gian đƣợc biết đến với việc sử dụng phổ biến mô hình Regressive Integrated Moving Average (ARIMA) (Box Jenkin, 1970; Yu, 2002) Thời gian gần đây, mơ hình dự báo chứng khoán ngoại hối đƣợc sử dụng phổ biến GARCH (Wei, 2009) Ngồi mơ hình mạng nơron (Haykin, 1999; Chan & Teong, 1995; Woon-Seng & Kah-Hwa, 1995; Refenes & Azema-Barac, 1992; Joarder & Ruhul, 2003; Zhang & Kline, 2007; Kotsiantis, 2007) SVM (Cao and Francis, 2001; Baasher & mohamed, 2010) đƣợc biết đến nhƣ mơ hình đƣợc sử dụng để dự báo tỷ giá ngoại hối Căn vào phân tích trên, rõ ràng mơ hình học có giám sát đƣợc sử dụng nhiều toán giao dịch ngoại hối 1.3 Mục tiêu cụ thể đặt cần giải đề tài Mục tiêu nghiên cứu đề tài đề xuất mơ hình khai phá liệu để dự báo xu hƣớng giao dịch cặp tiền tệ dựa giao dịch khứ, làm tài liệu tham khảo cho học phần “khai phá liệu tron kinh doanh”, làm tài liệu học tập cho sinh viên chuyên ngành quản trị HTTT Cụ thể là: Nghiên cứu cụ thể số mơ hình khai phá liệu mơ hình khai phá nói chung Tập trung nghiên cứu toán giao dịch ngoại hối, cụ thể hoạt động mua/bán USD/EUR VND/USD Xây dựng mơ hình giao dịch tỷ giá VND/USD, USD/EUR,… Làm tài liệu tham khảo phục vụ cho việc viết giáo trình học phần “Khai phá liệu kinh doanh” – tín chuyên ngành quản trị hệ thống thông tin trƣờng ĐH Thƣơng Mại Báo cáo làm tài liệu tham khảo cho sinh viên khoa Hệ thống thông tin Kinh tế Thƣơng mại điện tử, đối tƣợng quan tâm đến việc khai phá liệu kinh doanh Hơn nữa, báo cáo đề tài làm tài liệu tham khảo giảng dạy học phần nhƣ CSDL, Quản trị CSDL học phần Khai phá liệu kinh doanh cho chuyên ngành Quản trị HTTT 1.4 Đối tượng phạm vi nghiên cứu đề tài Cách tiếp cận mẫu khảo sát: Dữ liệu giao dịch tỷ giá đƣợc thu thập online thơng qua chƣơng trình cài đặt META TRADER từ nghiên cứu trƣớc Số mẫu thu thập cho năm, khoảng thời gian từ 3/2017 đến 3/2018 với dòng giao dịch hàng ngày Phƣơng pháp nghiên cứu: - Loại liệu (định tính, định lƣợng): Định lƣợng Đối tƣợng nghiên cứu: Bài toán giao dịch tỉ giá với dịng liệu giao dịch Có nhiều cặp tỉ giá thu thập để lấy làm liệu thực nghiệm thức xử lý thực nghiệm mơ hình tƣơng tự Trong pham vi đề tài này, cặp USD/VND đƣợc lựa chọn cặp tiền đƣợc thƣờng xuyên sử dụng gần với đối tƣợng đọc sinh viên giảng dạy Một số công cụ đƣa vào mơ hình dự báo tỷ giá: Học có giám sát: SVM định Phạm vi nghiên cứu: • Thời gian: từ 03/2017-03/2018 • Khơng gian, phạm vi: Các liệu tỉ giá 1.5 Phương pháp thực đề tài Các phƣơng pháp đƣợc sử dụng đề tài là: Sử dụng phƣơng pháp nghiên cứu tài liệu lý thuyết sở khai phá liệu với số mơ hình cụ thể, tốn giao dịch ngoại hối nói chung Trên sở thu thập liệu sơ cấp website giao dịch Mơ hình hóa tốn giao dịch USD/VND với liệu thu thập đƣợc thử nghiệm mô hình Cụ thể nhƣ sau: Phƣơng pháp thu thập liệu: Các liệu thứ cấp đƣợc thu thập web site giao dịch ngoại hối USD/VND thông qua phần mềm META TRADER Invest.com với đoạn chƣơng trình nhỏ (Script) để cài thêm (Add- in) vào phần mềm - Phƣơng pháp xử lý liệu: Tiền xử lý liệu với phần mềm META TRADER 4; xây dựng mơ hình khai phá với tập liệu, thử nghiệm mơ hình 1.6 Bố cục đề tài Đề tài đƣợc chia thành chƣơng đó: Chƣơng 1: Tổng quan nghiên cứu Chƣơng nêu rõ tính cấp thiết đề tài đồng thời chƣơng phƣơng pháp nghiên cứu nghiên cứu liên quan đến đề tài Chƣơng 2: Tổng quan khai phá liệu toán giao dịch ngoại hối Nội dung chƣơng để cấp đến khái niệm khai phá liệu, trí tuệ nhân tạo, học máy nhƣ khái niệm liên quan đến giao dịch tỷ giá Nội dung chƣơng phân loại công cụ khai phá liệu (học có giám sát, khơng giám sát), đặt toán giao dịch tỷ giá Chƣơng 3: Đề xuất mơ hình khai phá liệu tốn giao dịch tỷ giá Nội dung chƣơng bao gồm việc đề xuất mơ hình khai phá liệu, cách thức thu thập xử lý liệu, phân chia tập liệu thực nghiệm Các thực nghiệm đƣợc nêu chƣơng với hai phƣơng pháp phổ biến SVM định Các thảo luận thực nghiệm đƣợc thực phần cuối chƣơng Phần kết luận tóm tắt lại kết nghiên cứu đồng thời đề xuất kiến nghị liên quan Chƣơng 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH NGOẠI HỐI 2.1 Một số khái niệm 2.1.1 Các khái niệm khai phá liệu Khái niệm liệu Theo Wikipedia, theo điều Luật Giao dịch điện tử ban hành ngày 29 tháng 11 năm 2005, liệu thông tin dƣới dạng ký hiệu,chữ viết, chữ số, hình ảnh, âm dạng tƣơng tự Dữ liệu thơ số, ký tự, hình ảnh hay kết khác thiết bị chuyển đổi lƣợng vật lý thành ký hiệu Các liệu thuộc loại thƣờng đƣợc xử lý tiếp ngƣời đƣa vào máy tính Trong máy tính, liệu đƣợc lƣu trữ xử lý đƣợc chuyển (output) cho ngƣời máy tính khác Dữ liệu thô thuật ngữ tƣơng đối; việc xử lý liệu thƣờng đƣợc thực theo bƣớc, "dữ liệu đƣợc xử lý" bƣớc đƣợc coi "dữ liệu thơ" cho bƣớc Các dạng liệu đƣợc lƣu trữ: Tập tin truyền thống (flat files) Cơ sở liệu quan hệ Cơ sở liệu giao tác kho liệu Cơ sở liệu tạm thời (data streem) … Khái niệm khai phá liệu Theo Tom Mitchell (1999), “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tƣơng lai” Theo Fayyad (1996), “KPDL, thƣờng đƣợc xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trƣớc chƣa biết có khả hữu ích, dƣới dạng qui luật, ràng buộc, qui tắc sở liệu.” Nhƣ nói KPDL trình học tri thức từ liệu thu thập đƣợc KPDL đƣợc coi kết hợp lĩnh vực khác (xem Hình 1) 10 Hình 11: Thống kê liệu output Phần Output lịch sử tỉ giá đƣợc tính dựa xu hƣớng dự báo Up Down Tổng số liệu thực nghiệm 257 giao dịch có 167 giao dịch tăng (Up) 88 giao dịch giảm (Down) Phân bố tỉ giá đóng cửa (Close) nhƣ sau: Hình 12: Phân bố tỉ giá Close thời điểm 31 Hình 13: Phân bố giao dịch Close Dễ dàng nhận thấy hầu hết giao dịch đóng cửa (Close) nằm khoảng từ 22.690 VND/1USD đến 22.225 VND/1USD Cá biệt có giai đoạn gần (khoảng từ đầu năm 2018), giao dịch VND/USD tăng nhanh lên mức gần 22.790 VND/1USD 3.3.2 Sử dụng phương pháp SVM Thuật toán sử dụng Ý tƣởng thuật toán SVM nhƣ sau: Để giải tốn đối ngẫu tối ƣu, tốn quy giải tốn tìm cặp α cho thỏa mãn: Một thuật toán đơn giản SVM 32 Loop until no improvements are possible Use heuristics to select two multipliers α1, and α2 Optimize W(α) by assuming all other multipliers constant are End Loop Các bƣớc cụ thể thuật toán Step 1: Prepare the pattern matrix from training data Step 2: Select the kernel function Step 3: Select the kernel parameters and value of C Step 4: Excute the training algorithm and obtain two optimal α1, and α2 (see above algorithm) Step 5: Define the support vectors and classify the data Thực nghiệm Việc sử dụng phƣơng pháp máy véc tơ hỗ trợ đƣợc thực với tham số cụ thể nhƣ sau: Hệ số hỗ trợ: C=1.0 Hàm nhân sử dụng PolyKernel với hàm mũ Số véc tơ hỗ trợ: 93 Mơ hình khung thực đƣợc thể nhƣ sau: Hình 14: Mơ hình sử dụng Kết Kết chạy thực mơ hình với 254 mẫu quan sát đạt độ xác 99.6% Cụ thể nhƣ mô tả dƣới đây: ================================= Correctly Classified Instances 254 Incorrectly Classified Instances Kappa statistic 99.6078 % 0.3922 % 0.9913 33 K&B Relative Info Score 25280.7597 % K&B Information Score 234.9502 bits Class complexity | order 237.0879 bits Class complexity | scheme 1074 Complexity improvement (Sf) Mean absolute error bits 0.9214 bits/instance 0.9298 bits/instance 4.2118 bits/instance -836.9121 bits -3.282 bits/instance 0.0039 Root mean squared error 0.0626 Relative absolute error 0.8667 % Root relative squared error 13.1713 % Total Number of Instances 255 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.994 Weighted Avg 0.994 0.997 0.997 Down 0.994 0.997 Up 0.006 0.989 0.996 0.002 0.996 0.996 0.996 0.997 === Confusion Matrix === a b < classified as 166 | a = Down 88 | b = Up Ở ma trận nhầm lẫn 01 mẫu quan sát bị dự báo lỗi (a đƣợc gán cho dự báo giảm- Down; b đƣợc dự báo tăng- Up) Nghĩa mẫu phải giảm mơ hình dự báo tăng Để chi tiết hóa, đồ thị lỗi dự báo đƣợc thể nhƣ Hình 12 dƣới 34 Hình 15: Đồ thị lỗi mơ hình dự báo SVM Một mẫu quan sát bị dự báo nhầm đƣợc thể màu xanh, ô vuông hình Để tìm hiểu cụ thể mẫu ngày giai đoạn, hệ thống nhƣ Hình 13 (Ngày 04/9/2017) Hình 16: dịng giao dịch bị dự báo sai Có thể thấy rõ ràng mẫu bị nhập nhầm liệu giá Open, High, Low ngày 3.3.3 Sử dụng phương pháp Cây định J48 Thuật tóan J48 Mã Pseudo code để xây dựng định sau: Kiểm tra trƣờng hợp đặc biệt For each attribute a, 35 2.1 2.2 Tính tỉ lệ thơng tin chuẩn hóa (normalized information gain ratio) từ nhánh a Sắp xếp tỉ lệ nói Lấy thuộc tính a_best tốt (có tỉ lệ thơng tin chuẩn hóa cao nhất) Tạo nút định mà phân chia a_best Lặp danh sách nhánh đƣợc chia từ a_best thêm nút (children) Chi tiết Pseudo code để xây dựng tập luật J48 (Examples, Target_Attribute, Attributes) Create a root node for the tree If all examples are positive, Return the single-node tree Root, with label = + If all examples are negative, Return the single-node tree Root, with label = - If number of predicting attributes is empty, then Return the single node tree Root, with label = most common value of the target attribute in the examples Otherwise Begin A ← The Attribute that best classifies examples Decision Tree attribute for Root = A For each possible value, vi, of A, Add a new tree branch below Root, corresponding to the test A = vi Let Examples(vi) be the subset of examples that have the value vi for A If Examples(vi) is empty Then below this new branch add a leaf node with label = most common target value in the examples Else below this new branch add the subtree ID3 (Examples(vi), Target_Attribute, Attributes – {A}) End Return Root Cải tiến J48 (hay C.4.5) so với ID3 nhƣ sau: Điều khiển đƣợc hai loại thuộc tính continuous discrete Điều khiển cách tạo ngƣỡng chia giá trị thuộc tính theo ngƣỡng vừa tạo, thƣờng ngƣỡng trung bình giá trị Điều khiển đƣợc với thuộc tính mà có missing attribute values C4.5 cho phép giá trị thuộc tính đƣợc gán ? sử dụng phƣơng pháp tính giá 36 trị trung bình để điền, đồng thời giá trị bị khơng tham gia vào tính gain entropy module Điều khiển đƣợc thuộc tính với cost khác (weights) Chặt sau tạo C4.5 quay lại duyệt lần tạo loại bỏ nhánh mà nhánh khơng trợ giúp nhiều việc xây dựng tiếp Thuật tốn thay nút Việc sử dụng phƣơng pháp định đƣợc sử dụng với thuật toán J48 với tham số cụ thể nhƣ sau: Hệ số hỗ trợ: C=0.25 Số nhánh: Kiểu Test: 10 fold validation Thuật toán J48 Bƣớc 1: Kiểm tra mẫu quan sát Bƣớc 2: Với thuộc tính thực hiện: Tìm thơng tin liên quan để phân tách Lấy thuộc tính tốt (đƣợc hiểu có độ liên quan thơng tin lớn nhất) thành nút gốc Tạo nút với điểm phân tách thuộc tính vừa tìm đƣợc bƣớc Bƣớc 3: Lặp để tạo nhánh có độ liên quan tốt nhất, tốt hơn,… tạo thành nút/nhánh cho Mơ hình khung thực đƣợc thể nhƣ sau: Hình 17: Mơ hình khung cơng việc J48 37 Code /* Initialise */ GetNames(); GetData(".data"); printf("\nRead %d cases (%d attributes) from %s.data\n", MaxItem+1, MaxAtt+1, FileName); /* Build decision trees */ if ( BATCH ) { TRIALS = 1; OneTree(); Best = 0; } else { Best = BestTree(); } /* Soften thresholds in best tree */ if ( PROBTHRESH ) { printf("Softening thresholds"); if ( ! BATCH ) printf(" for best tree from trial %d", Best); printf("\n"); SoftenThresh(Pruned[Best]); printf("\n"); PrintTree(Pruned[Best]); 38 } /* Save best tree */ if ( BATCH || TRIALS == ) { printf("\nTree saved\n"); } else { printf("\nBest tree from trial %d saved\n", Best); } SaveTree(Pruned[Best], ".tree"); /* Evaluation */ printf("\n\nEvaluation on training data (%d items):\n", MaxItem+1); Evaluate(false, Best); if ( UNSEENS ) { GetData(".test"); printf("\nEvaluation on test data (%d items):\n", MaxItem+1); Evaluate(true, Best); } exit(0); } 39 Thực nghiệm === Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M Relation: VND_Train Instances: 255 Attributes: Ngay Open High Low Close Output Output1 Test mode:10-fold cross-validation === Classifier model (full training set) === J48 pruned tree Output -1: Up (88.0) Number of Leaves : Size of the tree : = Evaluation result === Scheme: J48 Options: -C 0.25 -M Relation: VND_Train Chi tiết kết thực nghiệm 40 Time taken to build model: 0.14 seconds Correctly Classified Instances 255 Incorrectly Classified Instances Kappa statistic 100 0 % % Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 255 Ignored Class Unknown Instances === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 1 1 Down 1 1 Up 1 1 Weighted Avg === Confusion Matrix === a b < classified as 167 | a = Down 88 | b = Up 3.3 Thảo luận Việc so sánh kết thực nghiệm xem Hình 16 dƣới Kết thực nghiệm đƣợc Hình Dễ dàng nhận thấy định cho kết dự báo 100% so với SVM 99.6% 41 Hình 18: Độ xác Kỹ thuật SVM DT Để chi tiết hóa kết thực nghiệm, kết dự báo đƣợc thể ma trận nhầm lẫn (Confusion Matrix) Bảng dƣới TP SVM DT TN 166 88 167 0 88 (J48) FP FN Bảng 3: Kết bảng ma trận nhầm lẫn SVM DT Rõ ràng từ Bảng ta thấy kỹ thuật dự báo nhầm lẫn trƣờng hợp Để tìm hiểu thực mẫu nhầm lẫn quay lại vị trí bảng liệu dựa cột thời gian kết đƣợc giải thích cho ngƣời dùng cách thỏa đáng (ví dụ nhƣ thí nghiệm này, tỷ giá Low; High, Open bị thấp cách bất thƣờng 5VND thay khoảng 22735VND) 42 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Trên thị trƣờng có nhiều việc áp dụng công nghệ Robot vào lĩnh vực khác lĩnh vực dự báo thị trƣờng tiềm công nghệ Ứng dụng kỹ thuật trí tuệ nhân tạo cụ thể học máy vào giao dịch sàn giao dịch tỷ giá ngoại hối thể sức mạnh việc ứng dụng công nghệ vào thực tiễn Việc áp dụng kỹ thuật giúp hỗ trợ ngƣời dùng cách tự động hay bán tự động nhƣ đƣợc Hình Tuy nhiên, thực tế ngƣời chƣa giao phó hồn tồn (cài đặt tự động) cho Robot giao dịch mà khơng có kiểm sốt ngƣời, mà cụ thể nhà đầu tƣ Việc lý giải rằng, số trƣờng hợp, việc dự báo đạt 100% (nhƣ thực nghiệm trên) nhƣng số lƣợng thu thập mẫu cịn việc học mơ hình cịn chậm Ngồi ra, yếu tố khách quan nhƣ trị, mơi trƣờng,…ln ảnh hƣởng đến việc thay đổi bất thƣờng cặp tỷ giá sàn giao dịch Vì vậy, việc dự báo nên có tính chất tham khảo, thêm kênh thơng tin cho nhà đầu tƣ, giúp học có định xác riêng giao dịch Các vấn đề tác động khách quan, yếu tố ảnh hƣởng đến cặp USD/VND cần phải nghiên cứu để tích hợp vào mơ hình với hy vọng mơ hình huấn luyện tạo kết có ý nghĩa cho ngƣời dùng Một số kiến nghị Để sinh viên tìm hiểu cách sâu sắc Data Mining với mục đích biết cách vận dụng mơn học mình, đề tài xin đƣợc đề xuất số kiến nghị sau: Đƣa nội dung tài liệu thành phần tham khảo sách giáo trình tài liệu tham khảo môn Khai phá liệu kinh doanh mơn học khác có liên quan đến khai phá liệu Tài liệu đƣợc cho sinh viên đồng nghiệp tham khảo 43 DANH MỤC TÀI LIỆU THAM KHẢO SÁCH Gujarati, Damodar, Xuân Thành (Biên dịch) and Cao Hào Thi (Hiệu đính), (2009), "Kinh tế lƣợng chuỗi thời gian - Dự báo với mơ hình ARIMA VAR", Kinh tế lƣợng sở, ed., Chương trình Giảng dạy Kinh tế Fulbright, pp 2-21 BÀI BÁO Tiếng Việt Đặng Công Tâm, Trần Hồng Trang, Dƣơng Minh Đức, (2015), Dự báo thời điểm mua bán chứng khoán kết hợp phƣơng pháp phân đoạn liệu véc tơ hỗ trợ hồi quy Tập san Tin học Quản lý, số 1&2, trang 55-68 Giao dịch Forex (2017) Thực trạng thị trƣờng Forex Việt Nam 2017 Website: https://giaodichforex.net/thuc-trang-thi-truong-forex-viet-nam-2017/ Nguyễn Đức Cƣờng (2000) TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Kỷ Yếu Hội Nghị Khoa Học & Công Nghệ Lần Thứ 9, ĐH Bách Khoa Tp HCM, Phân Ban CNTT Phạm Anh Cƣờng Phạm Văn Hiền, 2011, “Ứng dụng mạng nơron để dự báo phụ tải điện tỉnh Gia Lai,” Tạp chí khoa học cơng nghệ, đại học Đà Nẵng, số 2, pp 14-19 Tiếng Anh Cortes, C., Vapnik, V (1995) Support-vector networks Machine Learning 20:273-297 Haykin, O.S (1999) Neural Networks and Learning Machines, 3rd Edition Pearson Murthy, S.K (1998) Automatic Construction of Decision Trees from Data: A Multi-Disciplinary Survey Data Mining and Knowledge Discovery Vol 2, 4, pp 345–389 Nwokorie, E C and Nwachukwu, E O (2017) A Model for Trading the Foreign Exchange 44 Market.website:https://www.ajol.info/index.php/wajiar/article/download/128072/1 17623 P Chapman, J Clinton, R Kerber, T Khabaza, T Reinartz, C Shearer and R Wirth, CRISP-DM 1.0 Process and User Guide, http://www.crisp-dm.org, (2000) Peter Koning (2017) Artificial Intelligence (AI) for Financial Services White Paper for Stakeholder Engagement Website: www.simularity.com Sercan, A., Burc, E., & Adam, G (2013) Supervised classfication-based stock prediction and portfolio optimization T Mitchell, Machine Learning and Data Mining, Communications of the ACM, Vol 42 (1999), No 11, pp 30 36 U M Fayyad, G Piatetsky-Shapiro, P Smyth and R Uthurusamy: Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA, (1996) 10 Vietnam Retail Banking Forum 2017, web site: http://autoxe.net/doi- song/hyperlogy-gioi-thieu-phan-mem-ung-dung-tri-tue-nhan-tao-vao-cac-nganhang-viet.html 11 WEF (2015) The Future of Financial Services World Economics Forum 2015 12 Woon-Seng G & Kah-Hwa Ng (2010) Multivariate FOREX Forecasting using Artificial Neural Networks, IEEE Xplore 45