TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU
Tính cấp thiết của đề tài
Trong giao dịch ngoại hối, việc dự báo xu hướng tỷ giá của các cặp tiền tệ là rất quan trọng để xây dựng chiến lược giao dịch hiệu quả, tăng lợi nhuận và giảm thiểu rủi ro Tỷ giá của mỗi cặp tiền tệ thay đổi theo thời gian và có thể được phân tích dựa trên dữ liệu lịch sử Phân tích xu hướng tỷ giá có thể thực hiện thủ công hoặc tự động thông qua các công cụ chỉ báo kỹ thuật Tuy nhiên, giao dịch thủ công thường gặp nhiều hạn chế như độ chính xác thấp và ảnh hưởng tâm lý, trong khi giao dịch tự động mang lại nhiều lợi thế như khả năng xử lý chính xác, kịp thời và giám sát liên tục Do đó, việc xây dựng và ứng dụng các mô hình học có giám sát cho robot giao dịch là một hướng đi tiềm năng và hiệu quả.
Học phần “Khai phá dữ liệu trong kinh doanh” được thiết kế nhằm đáp ứng nhu cầu thực tế về nhân lực trong lĩnh vực phân tích dữ liệu và hệ thống thông tin kinh tế Chương trình này phục vụ đào tạo cho sinh viên chuyên ngành quản trị hệ thống thông tin, giúp trang bị kiến thức cần thiết cho việc ứng dụng trong ngành hệ thống thông tin quản lý Thời lượng học phần được xây dựng hợp lý để tối ưu hóa quá trình tiếp thu kiến thức của sinh viên.
Khóa học 3 tín chỉ này tập trung vào khai phá dữ liệu, đặc biệt là trong lĩnh vực kinh tế Một trong những nội dung quan trọng là bài toán giao dịch tỷ giá trên thị trường ngoại tệ, cung cấp tài liệu tham khảo hữu ích cho việc học tập của sinh viên.
Dựa trên nhu cầu thực tế, tôi đã lựa chọn đề tài "Nghiên cứu ứng dụng công cụ khai phá dữ liệu trong giao dịch tỷ giá" để tiến hành nghiên cứu.
Tổng quan vấn đề nghiên cứu
Thị trường ngoại hối là không gian diễn ra các giao dịch trao đổi ngoại tệ, chủ yếu dựa trên mối quan hệ cung cầu Trong quá trình này, người tham gia thường mua một loại tiền tệ và bán một loại khác, tạo nên sự biến động và cơ hội đầu tư.
Thị trường ngoại hối là nơi các đồng tiền được trao đổi theo từng cặp, với sự tham gia của ngân hàng, nhà môi giới, chuyên viên ngoại hối, tổ chức tài chính và cá nhân trên toàn cầu Giao dịch ngoại hối diễn ra liên tục từ 21 giờ (GMT) chủ nhật, tạo ra cơ hội cho các nhà đầu tư tham gia vào thị trường này.
21 giờ (GMT) thứ 6 hàng tuần
Bài toán giao dịch trên thị trường ngoại hối tập trung vào việc dự báo xu hướng hàng ngày của tỷ giá các cặp tiền tệ dựa trên chuỗi thời gian biến động phức tạp Đầu vào bao gồm lịch sử tỷ giá và dữ liệu về sự kiện kinh tế, trong khi đầu ra là xu hướng tăng hay giảm của các cặp tiền tệ Qua việc phân tích dữ liệu chuỗi thời gian, nhiều thuộc tính được sinh ra để lựa chọn tập dữ liệu phù hợp cho bài toán phân lớp Do đó, giao dịch ngoại hối được chuyển thành bài toán phân lớp nhị phân nhằm dự đoán xu hướng để hỗ trợ quyết định giao dịch như mua, bán, chốt lời, và dừng lỗ Các mô hình học máy có thể được áp dụng để dự đoán xu hướng tỷ giá của các cặp tiền tệ.
Piche (1995) utilized plot diagrams to illustrate the trends in exchange rate fluctuations using a trend matrix Forecasting exchange rates commonly employs time series models, notably the Autoregressive Integrated Moving Average (ARIMA) model (Box and Jenkins, 1970; Yu, 2002) Recently, the Generalized Autoregressive Conditional Heteroskedasticity (GARCH) model has gained popularity for forecasting securities and foreign exchange (Wei, 2009) Additionally, various neural network models (Haykin, 1999; Chan & Teong, 1995; Woon-Seng & Kah-Hwa, 1995; Refenes & Azema-Barac, 1992; Joarder & Ruhul, 2003; Zhang & Kline, 2007; Kotsiantis, 2007) and Support Vector Machines (SVM) (Cao and Francis, 2001; Baasher & Mohamed) are also widely used in this domain.
Năm 2010, các mô hình dự báo tỷ giá ngoại hối đã được phát triển và áp dụng rộng rãi Phân tích cho thấy mô hình học có giám sát đóng vai trò quan trọng trong việc tối ưu hóa các chiến lược giao dịch ngoại hối.
Mục tiêu cụ thể đặt ra cần giải quyết trong đề tài
Mục tiêu nghiên cứu của đề tài là phát triển mô hình khai phá dữ liệu nhằm dự báo xu hướng giao dịch của các cặp tiền tệ dựa trên dữ liệu giao dịch trong quá khứ Nghiên cứu này không chỉ phục vụ cho học phần “khai phá dữ liệu trong kinh doanh” mà còn là tài liệu học tập hữu ích cho sinh viên chuyên ngành quản trị hệ thống thông tin.
Nghiên cứu cụ thể một số mô hình khai phá dữ liệu trong các mô hình khai phá nói chung
Tập trung nghiên cứu bài toán về giao dịch ngoại hối, và cụ thể là các hoạt động mua/bán giữa USD/EUR hoặc VND/USD
Xây dựng mô hình giao dịch tỷ giá VND/USD, USD/EUR,…
Tài liệu này được biên soạn nhằm làm tài liệu tham khảo cho việc xây dựng giáo trình học phần "Khai phá dữ liệu trong kinh doanh" - 2 tín chỉ, thuộc chuyên ngành quản trị hệ thống thông tin tại trường Đại học Thương Mại.
Báo cáo này là tài liệu tham khảo hữu ích cho sinh viên ngành Hệ thống thông tin Kinh tế và Thương mại điện tử, cũng như những ai quan tâm đến khai phá dữ liệu trong kinh doanh Ngoài ra, báo cáo còn phục vụ cho giảng dạy các học phần như CSDL, Quản trị CSDL, và đặc biệt là học phần Khai phá dữ liệu trong kinh doanh cho chuyên ngành Quản trị Hệ thống thông tin.
1.4 Đ ố i t ượ ng và ph ạ m vi nghiên c ứ u đ ề tài
Cách tiếp cận các mẫu khảo sát:
Dữ liệu giao dịch tỷ giá đã được thu thập trực tuyến qua chương trình META TRADER 4, dựa trên các nghiên cứu trước đó Số mẫu thu thập trong khoảng thời gian từ tháng 3 năm 2017 đến tháng 3 năm 2018, bao gồm các giao dịch hàng ngày.
- Loại dữ liệu (định tính, định lƣợng): Định lƣợng h
Bài toán giao dịch tỉ giá với các dòng dữ liệu giao dịch có thể được thực hiện với nhiều cặp tỉ giá khác nhau, nhưng cặp USD/VND được lựa chọn trong nghiên cứu này do tính phổ biến và sự gần gũi với đối tượng độc giả là sinh viên Việc sử dụng cặp tỉ giá này giúp dễ dàng áp dụng các phương pháp xử lý và thực nghiệm trong mô hình, mang lại kết quả thực tiễn và dễ hiểu cho người học.
Một số công cụ đƣa vào mô hình dự báo tỷ giá: Học có giám sát: SVM và cây quyết định
• Không gian, phạm vi: Các dữ liệu tỉ giá
1.5 Ph ươ ng pháp th ự c hi ệ n đ ề tài
Trong đề tài này, các phương pháp nghiên cứu bao gồm việc khảo sát lý thuyết cơ sở về khai phá dữ liệu và áp dụng một số mô hình cụ thể cho bài toán giao dịch ngoại hối Dữ liệu sơ cấp được thu thập từ các website giao dịch, từ đó mô hình hóa bài toán giao dịch USD/VND dựa trên dữ liệu đã thu thập và tiến hành thử nghiệm mô hình.
Phương pháp thu thập dữ liệu bao gồm việc sử dụng dữ liệu thứ cấp từ trang web giao dịch ngoại hối USD/VND thông qua phần mềm META TRADER 4 và Invest.com, với một đoạn chương trình nhỏ (Script) được cài thêm (Add-in) vào phần mềm để tối ưu hóa quá trình thu thập.
Phương pháp xử lý dữ liệu bao gồm tiền xử lý dữ liệu bằng phần mềm META TRADER 4, xây dựng mô hình khai phá từ tập dữ liệu, và tiến hành thử nghiệm mô hình để đảm bảo tính chính xác và hiệu quả của các kết quả phân tích.
1.6 Bố cục của đề tài Đề tài được chia thành 3 chương trong đó:
Chương 1: Tổng quan nghiên cứu Chương này nêu rõ tính cấp thiết của đề tài và đồng thời chương này còn chỉ ra phương pháp nghiên cứu và các nghiên cứu liên quan đến đề tài
Chương 2: Tổng quan về khai phá dữ liệu và bài toán giao dịch ngoại hối
Chương này cung cấp cái nhìn tổng quan về các khái niệm quan trọng như khai phá dữ liệu, trí tuệ nhân tạo và học máy, đồng thời đề cập đến các khái niệm liên quan đến giao dịch tỷ giá Những nội dung này sẽ giúp người đọc hiểu rõ hơn về sự kết hợp giữa công nghệ và tài chính trong bối cảnh hiện đại.
9 phân loại các công cụ của khai phá dữ liệu (học có giám sát, không giám sát), và đặt bài toán giao dịch tỷ giá
Chương 3: Đề xuất mô hình khai phá dữ liệu trong bài toán giao dịch tỷ giá
Chương này đề xuất một mô hình khai phá dữ liệu, bao gồm phương pháp thu thập, xử lý dữ liệu và phân chia tập dữ liệu thực nghiệm Ngoài ra, chương cũng trình bày các thực nghiệm sử dụng hai phương pháp phổ biến là SVM và cây quyết định, với các thảo luận chi tiết về kết quả thực nghiệm được thực hiện ở phần cuối.
Phần kết luận sẽ tóm tắt lại các kết quả đã nghiên cứu đồng thời đề xuất các kiến nghị liên quan h
Phương pháp thực hiện đề tài
Trong bài viết này, chúng tôi áp dụng các phương pháp nghiên cứu tài liệu lý thuyết về khai phá dữ liệu và các mô hình cụ thể liên quan đến giao dịch ngoại hối Dựa trên nền tảng đó, chúng tôi thu thập dữ liệu sơ cấp từ website giao dịch và tiến hành mô hình hóa bài toán giao dịch USD/VND Cuối cùng, chúng tôi thực hiện thử nghiệm mô hình với các dữ liệu đã thu thập.
Phương pháp thu thập dữ liệu bao gồm việc sử dụng các dữ liệu thứ cấp từ trang web giao dịch ngoại hối USD/VND thông qua phần mềm META TRADER 4 và Invest.com, với việc cài đặt một đoạn chương trình nhỏ (Script) như một Add-in vào phần mềm.
Phương pháp xử lý dữ liệu bao gồm tiền xử lý dữ liệu bằng phần mềm META TRADER 4, xây dựng mô hình khai thác từ tập dữ liệu, và tiến hành thử nghiệm mô hình để đảm bảo tính chính xác và hiệu quả.
Bố cục của đề tài
Đề tài được chia thành 3 chương trong đó:
Chương 1: Tổng quan nghiên cứu Chương này nêu rõ tính cấp thiết của đề tài và đồng thời chương này còn chỉ ra phương pháp nghiên cứu và các nghiên cứu liên quan đến đề tài
Chương 2: Tổng quan về khai phá dữ liệu và bài toán giao dịch ngoại hối
Chương này giới thiệu các khái niệm cơ bản về khai phá dữ liệu, trí tuệ nhân tạo và học máy, đồng thời đề cập đến các khái niệm liên quan đến giao dịch tỷ giá Những nội dung này sẽ giúp người đọc hiểu rõ hơn về mối liên hệ giữa công nghệ và tài chính, từ đó áp dụng vào thực tiễn hiệu quả hơn.
9 phân loại các công cụ của khai phá dữ liệu (học có giám sát, không giám sát), và đặt bài toán giao dịch tỷ giá
Chương 3: Đề xuất mô hình khai phá dữ liệu trong bài toán giao dịch tỷ giá
Chương này đề xuất một mô hình khai phá dữ liệu, bao gồm cách thu thập và xử lý dữ liệu, cùng với việc phân chia tập dữ liệu thực nghiệm Hai phương pháp phổ biến được áp dụng trong các thực nghiệm là SVM và cây quyết định Cuối chương, các thảo luận về kết quả thực nghiệm cũng được trình bày.
Phần kết luận sẽ tóm tắt lại các kết quả đã nghiên cứu đồng thời đề xuất các kiến nghị liên quan h
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH NGOẠI HỐI
Một số khái niệm cơ bản
2.1.1 Các khái niệm về khai phá dữ liệu
Khái niệm về dữ liệu
Theo Wikipedia, và theo điều 4 Luật Giao dịch điện tửban hành ngày 29 tháng 11 năm
2005, dữ liệu là thông tin dưới dạng ký hiệu,chữ viết, chữ số, hình ảnh, âm thanh hoặc dạng tương tự
Dữ liệu thô là các số, ký tự, hình ảnh và kết quả từ thiết bị chuyển đổi các lượng vật lý thành ký hiệu Loại dữ liệu này thường được xử lý bởi con người hoặc máy tính, nơi chúng được lưu trữ và xử lý, hoặc được xuất ra cho người hoặc máy tính khác Thuật ngữ "dữ liệu thô" có tính tương đối, vì quá trình xử lý dữ liệu diễn ra theo từng bước, và dữ liệu đã được xử lý ở một bước có thể được xem là "dữ liệu thô" cho bước tiếp theo.
Tập tin truyền thống (flat files)
Cơ sở dữ liệu quan hệ
Cơ sở dữ liệu giao tác hoặc kho dữ liệu
Cơ sở dữ liệu tạm thời (data streem)
Khái niệm về khai phá dữ liệu
KPDL, theo Tom Mitchell (1999), là việc sử dụng dữ liệu lịch sử để khám phá các quy tắc và cải thiện quyết định trong tương lai Fayyad (1996) định nghĩa KPDL là quá trình khám phá tri thức trong cơ sở dữ liệu, nơi trích xuất thông tin ẩn, chưa biết nhưng có khả năng hữu ích dưới dạng quy luật và ràng buộc Do đó, KPDL có thể được hiểu là quá trình học tri thức mới từ dữ liệu đã thu thập Nó được coi là sự kết hợp của nhiều lĩnh vực khác nhau.
Hình 1: Các lĩnh vực liên quan của khai phá dữ liệu
Quá trình khai phá dữ liệu có thể mô tả nhƣ sau:
Hình 2: Quy trình khai phá dữ liệu (Nguồn: Chapman và cộng sự, 2000)
Data Technology (Công nghệ dữ liệu) Khác h
Có thể mô tả nhƣ sau:
(1) Tìm hiểu nghiệp vụ và dữ liệu (Data Sources)
(2) Chuẩn bị dữ liệu (Data warehouse)
(3) Mô hình hóa dữ liệu (Data Mining)
(4) Hậu xử lý và đánh giá mô hình (Pattern Evaluation)
(5) Triển khai tri thức (Knowledge)
Quá trình KPDL có thể lặp lại nhiều lần qua các giai đoạn khác nhau, tùy thuộc vào phản hồi từ kết quả của các giai đoạn sau Các nhà tư vấn (NTV) và chuyên gia phát triển chuyên nghiệp đóng vai trò quan trọng trong quá trình này.
Trong giai đoạn đầu tiên của quá trình nghiên cứu, NTV tập trung vào việc tìm hiểu nghiệp vụ và dữ liệu, nghiên cứu kiến thức về lĩnh vực áp dụng, bao gồm tri thức cấu trúc về hệ thống và các nguồn dữ liệu hiện có NTV tiến hành nghiên cứu thông qua việc tương tác với người dùng, khác với phương pháp truyền thống là xác định bài toán ngay từ đầu NTV lắng nghe các yêu cầu sơ khởi của người dùng và đề xuất các bài toán tiềm năng có thể giải quyết bằng nguồn dữ liệu hiện hữu Các bài toán tiềm năng này sẽ được tinh chỉnh và thu hẹp trong các giai đoạn sau, đồng thời xác định các nguồn và đặc tả dữ liệu liên quan.
Giai đoạn tiếp theo là chuẩn bị dữ liệu, trong đó sử dụng các kỹ thuật tiền xử lý để cải thiện chất lượng dữ liệu, giúp dữ liệu phù hợp với yêu cầu của các thuật toán học Hiện nay, hầu hết các thuật toán KPDL chỉ hoạt động trên tập dữ liệu đơn giản và phẳng, vì vậy dữ liệu cần được trích xuất và chuyển đổi từ các dạng cơ sở dữ liệu phân bố, quan hệ hoặc hướng đối tượng sang dạng cơ sở dữ liệu quan hệ đơn giản với một bảng dữ liệu.
Các giải thuật tiền xử lý tiêu biểu bao gồm:
(a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu bị thiếu sẽ đƣợc thay thế bởi các giá trị thích hợp
Khử sự trùng lặp là quy trình loại bỏ các đối tượng dữ liệu trùng lặp, giúp tối ưu hóa hiệu quả quản lý dữ liệu Tuy nhiên, kỹ thuật này không nên được áp dụng trong các tác vụ mà việc phân bố dữ liệu là quan trọng.
(c) Giảm nhiễu: nhiễu và các đối tƣợng tách rời (outlier) khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu
(d) Chuẩn hóa: miền giá trị của dữ liệu sẽ đƣợc chuẩn hóa (e) Rời rạc hóa: các dữ liệu số sẽ đƣợc biến đổi ra các giá trị rời rạc
(f) Rút trích và xây dựng đặc trƣng mới từ các thuộc tính đã có
(g) Giảm chiều: các thuộc tính chứa ít thông tin sẽ đƣợc loại bỏ bớt
Trong giai đoạn Mô hình hóa dữ liệu, các bài toán được giải quyết thông qua việc sử dụng các thuật toán học trên dữ liệu đã được tiền xử lý Mục tiêu chính là tìm kiếm các quy tắc ẩn và chưa biết Việc lựa chọn kỹ thuật phù hợp để giải quyết các vấn đề là công việc quan trọng nhất trong giai đoạn này Các bài toán được phân loại vào một trong những nhóm bài toán chính trong KPDL dựa trên đặc tả của chúng.
Trong giai đoạn 4, các mô hình kết quả của giai đoạn ba sẽ được hậu xử lý và đánh giá dựa trên phản hồi của người dùng sau khi kiểm tra trên các tập thử Những mô hình cần được tinh chỉnh và kết hợp sẽ được điều chỉnh để đáp ứng yêu cầu cơ bản của người dùng Chỉ những mô hình đạt tiêu chuẩn mới được triển khai thực tế Đồng thời, kết quả sẽ được chuyển đổi từ dạng học thuật sang định dạng dễ hiểu và phù hợp hơn với nghiệp vụ của người dùng.
Trong giai đoạn cuối của quá trình KPDL, việc triển khai tri thức thông qua các mô hình vào hệ thống thông tin thực tế là rất quan trọng, nhằm hỗ trợ quyết định Mối liên hệ giữa các giai đoạn trong KPDL không thể tách rời, vì mỗi giải thuật cần được phát triển trong bối cảnh cụ thể và nhằm đạt được mục tiêu nhất định Hiểu biết về bối cảnh áp dụng là cần thiết để đảm bảo hiệu quả, đồng thời các kỹ thuật từ các giai đoạn trước cũng có thể tác động đến hiệu suất của các giải thuật ở giai đoạn tiếp theo.
Từ các bước của quy trình khai phá dữ liệu, các cấp độ hỗ trợ cho việc ra các quyết định kinh doanh có thể xem ở Hình 3 dưới đây h
Hình 3: Cấp độ hỗ trợ việc ra quyết định kinh doanh và người thực hiện
Giải thích từ ngữ sử dụng trong Hình 3 nhƣ sau:
Tên tiếng Anh Giải thích từ ngữ
Data Source (Paper, Files, Information
Nguồn dữ liệu: bao gồm giấy tờ, files, nhà cung cấp thông tin, hệ thống CSDL, OLTP Data Warehouse/Data Marts: OLAP,
Kho dữ liệu: OLAP, MDA
Khám phá dữ liệu: Phân tích thống kê, truy vấn, báo cáo
Data Mining: Information Discovery Khai phá dữ liệu: Tìm kiếm thông tin hữu ích Data Presentation: Visualization
Thể hiện dữ liệu: Sử dụng các kỹ thuật mô hình hóa
Making Decision Ra quyết định
DBA Các nhà quản trị CSDL
Data Analyst Các nhà phân tích dữ liệu
Business Analyst Các nhà phân tích kinh doanh
End User Người dùng cuối h
Mô tả các cấp độ hỗ trợ và người thực hiện công việc trong quy trình khai phá dữ liệu đƣợc thể hiện nhƣ sau:
Cấp độ Giai đoạn Người thực hiện
0 Tìm hiểu nghiệp vụ và dữ liệu (Data Sources): ở giai đoạn sơ khai này công việc chủ yếu là thu thập và tôt chức dữ liệu thứ cấp
Trong giai đoạn Data Warehouse, nhiệm vụ chính của nhà quản trị cơ sở dữ liệu là tổ chức dữ liệu trong các kho dữ liệu sao cho người dùng dễ dàng truy cập Việc này bao gồm việc đảm bảo dữ liệu có thể được truy cập trực tuyến và phân tán, phục vụ cho các giai đoạn sử dụng tiếp theo.
2 Giai đoạn tìm hiểu dữ liệu (Data Exploration):
Các nhà phân tích dữ liệu sử dụng các truy vấn và phân tích thống kê để khám phá và hiểu rõ dữ liệu trong kho dữ liệu (data warehouse) theo nhiều tiêu chí khác nhau.
Nhà phân tích dữ liệu
Khai phá dữ liệu (Data Mining) bao gồm ba giai đoạn quan trọng, trong đó các nhà phân tích dữ liệu áp dụng các công cụ khai phá để xây dựng mô hình phục vụ cho các tiêu chí cụ thể trong hệ thống thông tin kinh doanh Ví dụ, các kỹ thuật như phân lớp và dự báo được sử dụng để tối ưu hóa quy trình ra quyết định.
Nhà phân tích dữ liệu
4 Giai đoạn mô hình hóa (Data Presentation):
Việc sử dụng các mô hình để thể hiện dữ liệu giúp các nhà phân tích kinh doanh có thể nhìn nhận thông tin từ nhiều góc độ khác nhau Điều này cho phép họ rút ra những tri thức cần thiết, hỗ trợ cho quá trình ra quyết định tiếp theo.
Nhà phân tích kinh doanh
5 Giai đoạn ra quyết đinh (Makinh Decision): Nhà quản lý h
Dựa vào các báo cáo và mô hình tri thức trước đó, nhà quản lý (EndUsers) có khả năng đưa ra các quyết định kinh doanh không chỉ dựa vào kinh nghiệm mà còn được hỗ trợ bởi công nghệ khai phá tri thức.
2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối
Theo Wikipeadia, từ "Forex" đƣợc bắt nguồn từ cụm từ “FoReign Exchange”
Thị trường trao đổi ngoại tệ, hay còn gọi là thị trường tiền tệ quốc tế, diễn ra với khối lượng giao dịch tài chính hàng ngày rất lớn Sự lớn mạnh của khối lượng giao dịch này đã tạo ra một thị trường có tính thanh khoản cao, thu hút nhiều nhà đầu tư và các tổ chức tài chính tham gia.
Khái niệm thị trường ngoại hối
Một số công cụ khai phá dữ liệu
2.2.1 Công cụ học có giám sát
Học có giám sát là một phương pháp trong học máy, sử dụng tập dữ liệu đã được gán nhãn để đào tạo mô hình Tập dữ liệu này thường bao gồm nhiều bộ dữ liệu, mỗi bộ có cấu trúc theo cặp, trong đó một phần là dữ liệu thô.
19 data) và là nhãn của dữ liệu đó Nhiệm vụ của học có giám sát là thông qua bộ dữ liệu đầu vào, dự đoán đầu ra mong muốn
Học có giám sát là quá trình mà máy học được hỗ trợ bởi con người thông qua việc gán nhãn đầu ra mong muốn Tập dữ liệu huấn luyện hoàn toàn được gán nhãn bởi con người, do đó, kích thước tập dữ liệu ảnh hưởng trực tiếp đến khả năng học của máy Ứng dụng chính của học có giám sát bao gồm hai loại bài toán: hồi quy và phân lớp Một ví dụ điển hình là trong nhận dạng mã vạch tại bưu cục, nơi các máy đọc mã vạch sử dụng dữ liệu huấn luyện được giám sát để dịch mã vạch một cách chính xác.
Một yếu tố quan trọng trong phương pháp học có giám sát là sự tham gia của người dùng, người có trách nhiệm thu thập thông tin đầu vào và đầu ra tương ứng Hệ thống học có giám sát sẽ dựa vào các tập dữ liệu này để điều chỉnh trọng số và ngưỡng, từ đó tạo ra một ánh xạ hiệu quả giúp chuyển đổi đầu vào thành đầu ra mong muốn cho bài toán cụ thể Quá trình điều chỉnh này được thực hiện thông qua việc so sánh giữa đầu ra thực tế của hệ thống và đầu ra kỳ vọng.
Trong quá trình tập huấn luyện, mối quan hệ giữa thông tin đầu vào và đầu ra của hệ thống học được thể hiện qua việc so sánh đầu ra của mô hình với các đầu ra thực đã thu thập Khi dữ liệu đầu vào được đưa vào hệ thống, đầu ra sẽ được so sánh với dữ liệu đã có để xác định sai số Sai số này được sử dụng để điều chỉnh trọng số và hệ số bias của mô hình, nhằm cải thiện độ chính xác của đầu ra sau nhiều lần lặp lại Để kiểm tra tính đúng đắn của mô hình, ta sử dụng tập dữ liệu kiểm thử đã được gán nhãn trước Cuối cùng, mô hình có thể được áp dụng để phân lớp các dữ liệu mới.
Hình 5: Mô hình của học giám sát
Có hai phương pháp để sử dụng tập huấn luyện trong học máy: một là học từng mẫu một cho đến khi thành thạo, sau đó mới chuyển sang mẫu khác; hai là học tất cả các mẫu cùng một lúc cho đến khi thuần thục.
Some notable supervised learning models include Support Vector Machine (SVM), K Nearest Neighbours, Naive Bayes, Decision Tree, and Neural Network.
Học có giám sát (Supervised Learning) là một thành phần quan trọng trong hệ thống thông minh, nhằm xây dựng mô hình phân lớp dữ liệu huấn luyện Mô hình này được sử dụng để gán nhãn lớp cho các mẫu dữ liệu mới chưa được xác định nhãn.
Trong học giám sát, quá trình lặp lại với các mẫu trong tập huấn luyện giúp xây dựng một mô hình có khả năng phân lớp các mẫu dữ liệu mới.
Trong bài toán học giám sát, các mô hình được xây dựng dựa trên mối quan hệ giữa biến đầu vào (input) và biến đầu ra (output) Mục tiêu chính của quá trình học là xác định ánh xạ giữa các biến này thông qua một tập mẫu, thể hiện rõ mối quan hệ giữa chúng Các biến đầu vào và đầu ra được gọi là thuộc tính của tập dữ liệu, phản ánh các giá trị liên quan đến đối tượng cần phân loại Tập mẫu chứa các đối tượng này được gọi là tập huấn luyện Ví dụ, dữ liệu trong bảng dưới đây mô tả tập mẫu, trong đó các đối tượng được phân loại thành "Ốm" nếu có.
Mô hình học có giám sát
Hiệu chỉnh Tính sai số h
Dựa vào bộ dữ liệu mẫu, chúng ta có thể áp dụng phương pháp phân lớp cho mẫu dữ liệu mới Ví dụ, với mẫu dữ liệu mới có giá trị cụ thể, chúng ta tham khảo bảng phân lớp để xác định rằng mẫu mới này thuộc về lớp “Ốm”.
Mỗi đối tượng học sử dụng nhiều kiểu dữ liệu khác nhau như số thực, số rời rạc, chuỗi thời gian và hình ảnh Các biến đầu ra có thể thể hiện thông tin phức tạp hơn so với ví dụ chỉ có hai giá trị đầu ra.
Kĩ thuật Logic trong mô hình học có giám sát bao gồm hai kĩ thuật chủ yếu là cây quyết định và phân lớp dựa trên luật (rule-based)
Cây quyết định là công cụ phân loại dữ liệu dựa trên các thuộc tính khóa cần so sánh Mỗi đỉnh của cây đại diện cho một thuộc tính quyết định hướng đi của mẫu dữ liệu Quá trình phân loại bắt đầu từ đỉnh gốc và sắp xếp theo giá trị thuộc tính Hình 6 dưới đây minh họa cây quyết định cho tập dữ liệu trong Bảng 1.
Lớp a1 a2 a3 a4 Yes a1 a2 a3 b4 Yes a1 b2 a3 a4 Yes a1 b2 b3 b4 No a1 c2 a3 a4 Yes a1 c2 a3 b4 No h
Bảng 1 Tập dữ liệu huấn luyện cho cây quyết định
Hình 6: Cây quyết định của tập dữ liệu huấn luyện ở Bảng 1
Cây quyết định là công cụ quan trọng trong việc phân loại mẫu dữ liệu Khi áp dụng cây quyết định, các giá trị thuộc tính của mẫu sẽ được kiểm tra để xác định lớp của nó, với đường đi từ gốc đến nút lá thể hiện dự đoán lớp Quá trình xây dựng mô hình sẽ tạo ra một cây quyết định, giúp phân loại các đối tượng dữ liệu chưa biết và đánh giá độ chính xác của mô hình Hai giai đoạn chính trong quy trình này là xây dựng cây quyết định và sử dụng nó để phân loại.
Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn đại diện cho toàn bộ mẫu dữ liệu Các mẫu này được phân chia đệ quy dựa trên việc lựa chọn thuộc tính Khi các mẫu thuộc cùng một lớp, nút sẽ trở thành lá; nếu không, ta sử dụng một độ đo thuộc tính để xác định thuộc tính tiếp theo cho việc phân chia Theo từng giá trị của thuộc tính đã chọn, các nhánh tương ứng được tạo ra và mẫu dữ liệu được phân chia vào các nhánh đó Quá trình này tiếp tục cho đến khi cây quyết định hoàn chỉnh, với tất cả các nút được chuyển thành lá và được gán nhãn.
Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau đƣợc thỏa mãn:
1 Tất cả các mẫu thuộc cùng một lớp h
2 Không còn một thuộc tính nào để lựa chọn
3 Nhánh không chứa mẫu nào
Hầu hết các thuật toán sinh cây quyết định đều gặp phải vấn đề sử dụng nhiều bộ nhớ, với lượng bộ nhớ tỉ lệ thuận với kích thước mẫu dữ liệu huấn luyện Mặc dù có chương trình hỗ trợ bộ nhớ ngoài, nhưng tốc độ thực thi lại bị ảnh hưởng Do đó, việc tỉa bớt cây quyết định trở nên cần thiết, đặc biệt là để loại bỏ các nút lá không ổn định Kỹ thuật tỉa trước giúp dừng quá trình sinh cây khi việc chia dữ liệu không còn ý nghĩa.
Bài toán giao dịch ngoại hối
Tỷ giá ngoại hối chịu ảnh hưởng từ nhiều yếu tố như sự kiện kinh tế, chính trị và tâm lý nhà đầu tư, tạo nên một thị trường giao dịch không ổn định Các nhà đầu tư luôn nỗ lực giải thích sự biến động của tỷ giá và hy vọng vào dự báo chính xác để tối đa hóa lợi nhuận Tuy nhiên, việc giao dịch dựa trên tính toán sai có thể dẫn đến rủi ro mất mát lớn.
Bài toán giao dịch trên thị trường ngoại hối liên quan đến việc dự báo xu hướng tỷ giá của các cặp tiền tệ theo ngày, dựa trên chuỗi thời gian biến động phức tạp Đầu vào của bài toán bao gồm lịch sử tỷ giá và dữ liệu về các sự kiện kinh tế đã diễn ra Đầu ra là xu hướng tăng hay giảm của các cặp tiền tệ cần phân tích Một lượng lớn thuộc tính từ dữ liệu chuỗi thời gian được tạo ra từ lịch sử tỷ giá nhằm lựa chọn các tập dữ liệu phù hợp cho bài toán phân lớp.
Bài toán giao dịch ngoại hối có thể được chuyển đổi thành bài toán phân lớp nhị phân, nhằm dự đoán xu hướng tăng hoặc giảm của tỷ giá Việc này hỗ trợ trong việc đưa ra các quyết định giao dịch như mua, bán, chốt lời và dừng lỗ Các mô hình học máy đóng vai trò quan trọng trong việc dự đoán xu hướng tỷ giá của các cặp tiền tệ.
ĐỀ XUẤT MÔ HÌNH KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN GIAO DỊCH TỶ GIÁ
Mô hình khai phá dữ liệu trong bài toán giao dịch tỷ giá
Mô hình mạng trí tuệ nhân tạo được thiết kế để tự động tìm kiếm tri thức trong dữ liệu mà không cần sự can thiệp của con người Hệ thống này tự huấn luyện để tạo ra các quy tắc và chiến lược quyết định dựa trên dữ liệu đầu vào và đầu ra Mô hình này có khả năng hoạt động như một nhà đầu tư thực thụ trên thị trường giao dịch, sở hữu đầy đủ tri thức và kỹ năng phân tích thị trường.
Mô hình mạng trí tuệ nhân tạo mang lại nhiều lợi ích trong phân tích dữ liệu, đặc biệt là khi hiệu quả phân lớp không bị giảm nhiều khi tập dữ liệu nhỏ Nó tự động xác định mức độ quan trọng của các thuộc tính mà không cần sự can thiệp của người sử dụng Thêm vào đó, mô hình này còn có khả năng xử lý hiệu quả trong trường hợp dữ liệu có chất lượng kém (Carney và cộng sự, 1996).
Mô hình học có giám sát trong khai phá dữ liệu giúp dự báo xu hướng tỷ giá thông qua các bước cụ thể, như được thể hiện trong Hình 8.
Hình 8: Mô hình học có giám sát khai phá dữ liệu của bài toán giao dịch tỷ giá
Các bước được tiến hành như sau:
Bước đầu tiên trong quá trình giao dịch ngoại hối là chọn tập thuộc tính phù hợp Việc xác định các cặp tiền tệ liên quan là rất quan trọng, vì trong dữ liệu thô thường có nhiều thuộc tính không cần thiết cho dự báo Lựa chọn các thuộc tính có liên quan giúp thu hẹp phạm vi và tập trung vào mục tiêu giao dịch mà người dùng đề ra.
Bước 2 trong quá trình xác định tập dữ liệu là rất quan trọng, vì nó liên quan đến chi phí và chất lượng dữ liệu Cần chú ý đến bốn vấn đề chính: phương pháp tính toán, đảm bảo dữ liệu không bị sai lệch, độ chính xác của thông tin, và khả năng truy cập dữ liệu.
Mô hình học có giám sát (NN, SVM )
Hiệu chỉnh Tính sai số
Chọn tập dữ liệu của các cặp tỉ giá
Xu hướng tỉ giá ngoại hối h
27 sửa chữa trước đó, một độ trễ phù hợp với dữ liệu, và sự đảm bảo rằng nguồn này vẫn còn có thể sử dụng trong tương lai
Bước 3: Xử lý dữ liệu Dữ liệu được chia thành các tập huấn luyện, kiểm thử và kiểm chứng (Training, Testing, và Validation) để đưa vào mô hình học có giám sát Các giá trị thuộc tính cần được biến đổi, trong đó kích thước của tập kiểm thử thường chiếm từ 10 đến 30% kích thước của tập huấn luyện nhằm tạo ra mô hình học với hiệu quả tốt nhất Tập kiểm chứng được sử dụng để kiểm tra cuối cùng hiệu quả của quá trình học, thường là các mẫu được lấy từ những khoảng thời gian gần đây nhất.
Bước 4: Thiết lập cấu trúc của mô hình học có giám sát Ở bước này cần lựa chọn mô hình, các tham số cho mô hình…
Bước 5: Đánh giá mô hình là quá trình sử dụng độ lệch giữa output dự báo và output trong tập huấn luyện, với MSE (Mean Square Error) là phương pháp chính trong giao dịch ngoại hối Đánh giá này cũng giúp phát hiện tình trạng Over-Training, từ đó điều chỉnh số lần lặp hoặc các tham số cho phù hợp Đầu ra cuối cùng của mô hình là xu hướng tỷ giá ngoại hối của cặp mong muốn, đây là thông tin quan trọng để robot giao dịch ngoại hối đưa ra quyết định thực hiện các giao dịch.
Thu thập và xử lý dữ liệu
3.2.1 Thu thập và tiền xử lý dữ liệu
Việc thu thập và tiền xử lý dữ liệu đƣợc tiến hành ngay trên phần mềm MetaTrader 4 bằng một Script
Khi thu thập và xử lý dữ liệu trên phần mềm MetaTrader 4, cần chú ý đến chênh lệch múi giờ giữa các server của các broker ở những khu vực khác nhau Để đảm bảo sự đồng bộ trong quá trình huấn luyện và sử dụng mô hình, việc chuyển đổi sang giờ GMT (múi giờ 0) là rất quan trọng, và điều này có thể thực hiện bằng cách thêm các tham số cần thiết.
Server_Offset: Múi giờ của của khu vực đặt Server
DST (Daylight Saving Time): Khu vực đặt Server của Broker có điều chỉnh thời gian tiết kiệm ánh sáng không? h
DSTStart: Ngày bắt đầu điều chỉnh trong năm (Chỉ dùng khi DST = true)
DSTEnd: Ngày thôi điều chỉnh DST (Chỉ dùng khi DST = true)
Với các tham số trên thì ta có thể quy đổi thời gian trên Server về thời gian GMT nhƣ sau:
Quá trình thu thập dữ liệu cần đảm bảo rằng số lượng mẫu dương và mẫu âm trong tập dữ liệu không chênh lệch quá nhiều Điều này có thể được thực hiện bằng cách chọn hai giá trị gần nhau để duy trì sự cân bằng trong tập dữ liệu.
Việc co giãn các giá trị về đoạn :
Đối với các giá trị thì ta chỉ đơn giản thay bằng
Các giá trị như tỷ giá, đường trung bình và dải băng Bollinger phụ thuộc vào tỷ giá của từng cặp tiền tệ, do đó không thể xác định giới hạn trên cho chúng Một cách đơn giản để điều chỉnh khoảng này là sử dụng hàm Nếu giữ giá trị có ước lượng trung bình (tương đối) là ̅, ta có thể thay thế bằng giá trị tương ứng.
Hình 9: Đồ thị hàm biến đổi giá trị thành
3.2.2 Phân chia tập huấn luyện
Tập huấn luyện sẽ sử dụng trong quá trình lựa chọn tham số cho mô hình bằng các phương pháp và Sau đó x x' x'
29 toàn bộ tập sẽ đƣợc dùng để huấn luyện mô hình và đánh giá, so sánh giữa các mô hình bằng tập để chọn mô hình tốt nhất
Việc chia mỗi tập mẫu thành nhiều tập thường phải đảm bảo:
Các tập không giao nhau
Tỉ lệ mẫu dương và mẫu âm trong mỗi tập sau khi chia sẽ được duy trì tương đối giống với tỉ lệ ban đầu Để thực hiện phương pháp này, cần chia tập thành hai tập không giao nhau theo tỉ lệ đã định Để đảm bảo tính ngẫu nhiên và tỉ lệ mẫu dương so với mẫu âm, có thể thực hiện theo các bước cụ thể.
Tách thành hai tập gồm các mẫu dương và gồm các mẫu âm
| | mẫu từ chuyển sang và chọn ngẫu nhiên
Trộn và (theo thứ tự ngẫu nhiên) ta đƣợc , trộn và (theo thứ tự ngẫu nhiên) ta đƣợc
Để đảm bảo hiệu quả trong phương pháp huấn luyện và đánh giá, cần chia tập dữ liệu thành các tập con không giao nhau với số lượng tương đương, đồng thời duy trì tỷ lệ mẫu dương và mẫu âm Việc này yêu cầu thực hiện một quy trình ngẫu nhiên để đảm bảo tỷ lệ giữa các mẫu dương và mẫu âm được cân bằng.
Tách thành 2 tập gồm các mẫu dương và gồm các mẫu âm
Chia các dữ liệu thành các tập con có kích thước tương đương, mỗi tập chứa khoảng | | mẫu, giúp tối ưu hóa quá trình phân tích và xử lý thông tin Việc này không chỉ đảm bảo tính chính xác mà còn nâng cao hiệu suất làm việc trong các nghiên cứu và ứng dụng thực tiễn.
Trộn các tập và ta đƣợc tập h
Trong quá trình huấn luyện và đánh giá, việc chia 30k tập theo phương pháp đã đề ra là rất quan trọng Mỗi tập sẽ được chọn lần lượt, trong khi các tập còn lại sẽ được trộn lại để đảm bảo tính đa dạng và hiệu quả trong quá trình huấn luyện.
Kết quả thực nghiệm
Thị trường giao dịch cặp tiền tệ USD/VND có thể được theo dõi tại website www.Invest.com Hình 9 dưới đây minh họa sự biến động của giá mua vào, bán ra và biên độ dao động trong ngày.
Hình 10: Biến động của tỷ giá USD/VND trong khoảng thời gian 1 năm
Dữ liệu được thu thập trong khoảng thời gian từ 18/03/2017 đến 18/03/2018 bao gồm giá mở cửa, giá đóng cửa, giá cao nhất, giá thấp nhất và biên độ giá Những dữ liệu này sẽ được sử dụng làm cơ sở dữ liệu quá khứ để áp dụng các kỹ thuật trí tuệ nhân tạo, đặc biệt là máy véc tơ hỗ trợ (SVM) và cây quyết định.
Dữ liệu đƣợc phân bố nhƣ sau: h
Hình 11: Thống kê dữ liệu output
Lịch sử tỉ giá được xác định dựa trên xu hướng dự báo là Up hoặc Down Trong tổng số 257 giao dịch thực nghiệm, có 167 giao dịch tăng (Up) và 88 giao dịch giảm (Down).
Phân bố của tỉ giá đóng cửa (Close) nhƣ sau:
Hình 12: Phân bố của tỉ giá Close tại các thời điểm h
Hình 13: Phân bố của giao dịch Close
Hầu hết các giao dịch đóng cửa VND/USD dao động trong khoảng từ 22.690 VND/1USD đến 22.225 VND/1USD Tuy nhiên, từ đầu năm 2018, tỷ giá VND/USD đã tăng nhanh, đạt mức gần 22.790 VND/1USD.
3.3.2 Sử dụng phương pháp SVM
Thuật toán SVM (Support Vector Machine) hoạt động dựa trên ý tưởng tối ưu hóa bài toán đối ngẫu, nhằm tìm kiếm các cặp α thỏa mãn các điều kiện nhất định.
Một thuật toán đơn giản nhất của SVM h
1 Loop until no improvements are possible
2 Use heuristics to select two multipliers α1, and α2
3 Optimize W(α) by assuming all other multipliers are constant
Các bước cụ thể của thuật toán
Step 1: Prepare the pattern matrix from training data
Step 2: Select the kernel function
Step 3: Select the kernel parameters and value of C
Step 4: Excute the training algorithm and obtain two optimal α1, and α2 (see above algorithm)
Step 5: Define the support vectors and classify the data
Việc sử dụng phương pháp máy véc tơ hỗ trợ được thực hiện với các tham số cụ thể nhƣ sau:
Hàm nhân sử dụng PolyKernel với hàm mũ 1
Số véc tơ hỗ trợ: 93
Mô hình khung thực hiện đƣợc thể hiện nhƣ sau:
Hình 14: Mô hình sử dụng Kết quả
Kết quả chạy thực hiện mô hình với 254 mẫu quan sát đạt độ chính xác là 99.6% Cụ thể như ở mô tả dưới đây:
K&B Information Score 234.9502 bits 0.9214 bits/instance
Class complexity | order 0 237.0879 bits 0.9298 bits/instance
Class complexity | scheme 1074 bits 4.2118 bits/instance
Complexity improvement (Sf) -836.9121 bits -3.282 bits/instance
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
Trong ma trận nhầm lẫn, có một mẫu quan sát bị dự báo sai, với a được gán cho dự báo giảm (Down) và b được dự báo là tăng (Up) Điều này có nghĩa là mẫu này thực tế phải là giảm, trong khi mô hình dự báo lại cho rằng nó sẽ tăng Để làm rõ hơn, đồ thị thể hiện lỗi của dự báo được trình bày trong Hình 12 dưới đây.
Hình 15: Đồ thị lỗi của mô hình dự báo SVM
Mẫu quan sát bị dự báo nhầm được thể hiện bằng màu xanh và hình vuông trong hình Để xác định cụ thể mẫu này thuộc về ngày nào trong giai đoạn, hệ thống đã chỉ ra như trong hình.
Hình 16: 1 dòng giao dịch bị dự báo sai
Có thể thấy rõ ràng rằng mẫu này đã bị nhập nhầm dữ liệu của giá Open, High, và Low trong ngày
3.3.3 Sử dụng phương pháp Cây quyết định J48
Mã Pseudo code để xây dựng cây quyết định như sau:
1 Kiểm tra các trường hợp đặc biệt
2.1 Tính các tỉ lệ thông tin chuẩn hóa (normalized information gain ratio) từ các nhánh trên a
2.2 Sắp xếp các tỉ lệ nói trên
3 Lấy ra thuộc tính a_best tốt nhất (có tỉ lệ thông tin chuẩn hóa cao nhất)
4 Tạo nút quyết định mà có thể phân chia trên a_best
5 Lặp trên các danh sách nhánh đƣợc chia ra từ a_best và thêm những nút con (children)
Chi tiết Pseudo code để xây dựng tập luật và cây
Create a root node for the tree
If all examples are positive, Return the single-node tree Root, with label = +
If all examples are negative, Return the single-node tree Root, with label = -
If number of predicting attributes is empty, then Return the single node tree Root, with label = most common value of the target attribute in the examples
A ← The Attribute that best classifies examples
Decision Tree attribute for Root = A
For each possible value, v i , of A,
Add a new tree branch below Root, corresponding to the test A = v i
Let Examples(v i ) be the subset of examples that have the value v i for A
Then below this new branch add a leaf node with label = most common target value in the examples
Else below this new branch add the subtree ID3 (Examples(v i ), Target_Attribute, Attributes – {A})
Cải tiến của J48 (hay C.4.5) so với ID3 nhƣ sau:
Điều khiển cả thuộc tính liên tục và rời rạc bằng cách thiết lập ngưỡng và phân loại các giá trị dựa trên ngưỡng đó, thường là giá trị trung bình.
C4.5 cho phép xử lý các thuộc tính có giá trị thiếu bằng cách gán giá trị thuộc tính là '?' và áp dụng phương pháp tính giá trị h Điều này giúp cải thiện khả năng phân loại và quản lý dữ liệu không đầy đủ một cách hiệu quả.
37 trị trung bình để điền, đồng thời những giá trị bị mất này sẽ không tham gia vào tính gain và entropy trong module chính
Điều khiển đƣợc các thuộc tính với những cost khác nhau (weights)
C4.5 sẽ thực hiện việc chặt cây sau khi tạo xong, quay lại để duyệt cây một lần nữa Trong quá trình này, thuật toán sẽ loại bỏ các nhánh không đóng góp nhiều vào việc xây dựng tiếp, và thay thế chúng bằng các nút lá.
Việc sử dụng phương pháp cây quyết định được sử dụng với thuật toán J48 với các tham số cụ thể nhƣ sau:
Bước 1: Kiểm tra các mẫu quan sát
Bước 2: Với mỗi thuộc tính thực hiện:
Tìm các thông tin liên quan để có thể phân tách
Lấy ra thuộc tính tốt nhất (đƣợc hiểu là có độ liên quan thông tin lớn nhất) thành nút gốc
Tạo một nút của cây với điểm phân tách chính là thuộc tính vừa tìm được ở bước trên
Bước 3: Lặp đối với các cây con để tạo ra các nhánh có độ liên quan tốt nhất, tốt hơn,… tạo thành các nút/nhánh cho cây
Mô hình khung thực hiện đƣợc thể hiện nhƣ sau:
Hình 17: Mô hình khung công việc J48 h
GetData(".data"); printf("\nRead %d cases (%d attributes) from %s.data\n",
/* Build decision trees */ if ( BATCH )
/* Soften thresholds in best tree */ if ( PROBTHRESH )
{ printf("Softening thresholds"); if ( ! BATCH ) printf(" for best tree from trial %d", Best); printf("\n");
/* Save best tree */ if ( BATCH || TRIALS == 1 )
{ printf("\nBest tree from trial %d saved\n", Best);
/* Evaluation */ printf("\n\nEvaluation on training data (%d items):\n", MaxItem+1); Evaluate(false, Best); if ( UNSEENS )
GetData(".test"); printf("\nEvaluation on test data (%d items):\n", MaxItem+1); Evaluate(true, Best);
=== Run information ==Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: VND_Train
Test mode:10-fold cross-validation
=== Classifier model (full training set) ==J48 pruned tree
Chi tiết kết quả thực nghiệm h
Time taken to build model: 0.14 seconds
=== Detailed Accuracy By Class == TP Rate FP Rate Precision Recall F-Measure ROC Area Class 1 0 1 1 1 1 Down 1 0 1 1 1 1 Up
Việc so sánh kết quả thực nghiệm có thể xem ở Hình 16 dưới đây
Kết quả của thực nghiệm đƣợc chỉ ra ở Hình 7 Dễ dàng nhận thấy rằng cây quyết định đã cho kết quả dự báo là 100% so với SVM là 99.6% h
Hình 18 minh họa độ chính xác của Kỹ thuật SVM và DT Để làm rõ hơn về kết quả thực nghiệm, các dự báo được trình bày thông qua ma trận nhầm lẫn (Confusion Matrix) như thể hiện trong Bảng 3 dưới đây.
Bảng 3: Kết quả bảng ma trận nhầm lẫn của SVM và DT
Dựa vào Bảng 3, rõ ràng kỹ thuật đã dự báo sai một trường hợp Để hiểu rõ hơn về mẫu nhầm lẫn này, ta có thể xem lại vị trí trong bảng dữ liệu dựa trên cột thời gian Kết quả sẽ được giải thích hợp lý cho người dùng, ví dụ như trong thí nghiệm này, tỷ giá Low, High và Open đã bị giảm bất thường 5 VND thay vì khoảng 22,735 VND.