Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,22 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Đức Việt NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ VÀ DỰ ĐOÁN XU THẾ GIÁ CHỨNG KHOÁN DỰA TRÊN NỀN TẢNG MÃ NGUỒN MỞ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: TS Nguyễn Hà Nam HÀ NỘI – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TĨM TẮT Bài tốn dự báo tài ngày nhiều người quan tâm bối cảnh phát triển kinh tế xã hội Việt Nam Đầu tư vào thị trường chứng khốn địi hỏi nhiều kinh nghiệm hiểu biết nhà đầu tư Các kĩ thuật khai phá liệu áp dụng nhằm dự báo lên xuống thị trường gợi ý giúp nhà đầu tư định giao dịch Khóa luận giới thiệu kỹ thuật khai phá liệu hiệu sử dụng rộng rãi nhiều lĩnh vực mơ hình mạng nơ ron cách áp dụng vào liệu thời gian thực Cấu trúc hoạt động cách thiết kế mạng cho liệu thời gian thực áp dụng toán dự báo tài trình bày chi tiết nhằm làm rõ cách áp dụng mơ hình vào tốn thực tế LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC TÓM TẮT MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU Chương GIỚI THIỆU Chương GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 2.1 Khai phá liệu phát tri thức 2.2 Tại phải tiến hành khai phá liệu? 2.3 Kiến trúc điển hình hệ khai phá liệu 2.4 Các toán khai phá liệu điển hình 2.5 Các ứng dụng điển hình khai phá liệu 2.6 Kết luận Chương CƠ SỞ LÝ THUYẾT CỦA MẠNG NORON CHO VẤN ĐỀ DỰ BÁO 3.1 Khái niệm mạng noron .9 3.2 Mô hình noron nhân tạo hàm truyền 3.2.1 Mơ hình noron 3.2.2 Hàm truyền 12 3.3 Mô hình mạng noron 14 3.3.1 Mạng tiến 14 3.3.2 Mạng hồi quy 16 3.4 Phương pháp học thuật toán lan truyền ngược cho mạng .17 3.4.1 Cơ sở lý thuyết học mạng 17 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.2 Thuật toán lan truyền ngược (back – propagation) 18 Chương MẠNG NORON CHO QUÁ TRÌNH DỰ ĐỐN 23 4.1 Mơ hình mạng noron cho việc dự báo 23 4.2 Các bước thiết kế mô hình 24 4.2.1 Chọn lựa biến 25 4.2.2 Thu thập liệu 25 4.2.3 Tiền xử lý liệu 25 4.2.4 Phân hoạch tập liệu 26 4.2.5 Xác định cấu trúc mạng 27 4.2.6 Xác định tiêu chuẩn đánh giá 30 4.2.7 Huấn luyện mạng nơ ron 32 4.2.8 Triển khai 33 4.3 Tổng kết 34 Chương XÂY DỰNG CHƯƠNG TRÌNH VÀ 35 ĐÁNH GIÁ 35 5.1 Vài nét phần mềm nguồn mở sử dụng 35 5.1.1 Weka 35 5.1.2 Jstock 37 5.2 Mơ hình kết hợp hai gói phần mềm mã nguồn mở .38 5.2.1 Chuyển liệu thời gian thực 39 5.2.2 Xác định mơ hình phù hợp 40 5.2.3 Chuyển kết cho stock hiển thị 43 5.3 Đánh giá với số mơ hình khác 43 5.3.1 Mơ hình định 44 5.3.2 Mơ hình phân lớp xác suất ngây thơ naïve bayes 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 2.1 – Q trình khai phá tri thức [1] Hình 2.2 – Kiến trúc điển hình hệ thống khai phá liệu [2] .5 Hình 2.3 – Bảng thống kê xu phát triển khai phá liệu [1] Hình 3.1 - Mơ hình noron[2] 10 Hình 3.2 – Mơ hình noron vẽ lại [2] 11 Hình 3.3 – Hàm ngưỡng 12 Hình 3.4 – Hàm vùng tuyến tính .13 Hình 3.5 – Hàm tuyến tính .13 Hình 3.6 – Hàm sigma với độ dốc khác .14 Hình 3.7 – Mơ hình mạng tiến đơn mức 15 Hình 3.8 – Mơ hình mạng tiến đa mức 16 Hình 3.9 – Mơ hình mạng tiến có phản hồi 17 Hình 4.1 – Mơ hình dự đốn sử dụng mạng noron 23 Hình 4.2 – Tỷ lệ kích thước tập huấn luyện [9] 27 Hình 4.3 – Độ hội tụ: tầng, 20 nơ ron ẩn, 50 bước .29 Hình 4.4 – Độ hội tụ: tầng, 20 nơ ron ẩn, 100 bước .29 Hình 4.5 – Độ hội tụ: tầng, 20 nơ ron ẩn, 300 bước .29 Hình 4.6 – Độ hội tụ: tầng, 50 nơ ron ẩn, bước 30 Hình 4.7 – Độ hội tụ: tầng, 50 nơ ron ẩn, 50 bước .30 Hình 5.1 – Giao diện weka 36 Hình 5.2 – Giao diện Jstock 37 Hình 5.3 – Mơ hình hệ thống khóa luận xây dựng 38 Hình 5.4 – Kết huấn luyện mạng noron dịng lệnh weka 42 Hình 5.5 – Mơ hình định 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG BIỂU Bảng 4.1 – Tổ chức liệu mơ hình 26 Bảng 5.1 – Huấn luyện mạng noron 44 Bảng 5.2 – Huấn luyện định 46 Bảng 5.3 – Huấn luyện naïve bayes 48 Bảng 5.4 – So sánh mơ hình 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương GIỚI THIỆU Trong năm gần đây, người ta thường nhắc đến khai phá liệu (datamining) – khái niệm dùng để tham chiếu đến trình phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data mining) – phương pháp xác định tri thức từ lượng liệu khổng lồ Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Hơn thơng tin thu thập từ nhiều chiều khác gây nhiễu cho thực trở thành vấn đề nan giải cho người để xử lý lượng thông tin lớn tăng lên ngày Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Có nhiều kỹ thuật để khai phá liệu kỹ thuật dựa vào mạng Noron phổ biến [2] Một ứng dụng kinh điển mạng Noron lớp tốn dự đốn mạng Noron ngồi khả dự đốn với độ xác cao cịn có ưu điểm mềm dẻo thích nghi cao với mơi trường, thích hợp cho tốn dự đoán với liệu thay đổi nhanh theo thời gian Chính vậy, khóa luận sử dụng mạng Noron để dự đoán xu giá chứng khoán Các hệ thống chứng khoán thường hệ thống phức tạp khó dự đốn liệu Nó phụ thuộc vào nhiều yếu tố có yếu tố khơng thể định lượng như: tâm lý, mù quáng nhà đầu tư… Mặc dù thị trường chứng khốn khơng phải q trình ngẫu nhiên có quy luật dự đốn Tìm xu hướng thị trường chứng khốn chìa khóa giúp cho q trình hỗ trợ định nhà đầu tư Trước hấp dẫn ứng dụng mạng noron, phát triển lên thị trường chứng khoán, động viên khuyến khích thầy hướng dẫn, tơi định thực nghiên cứu mạng noron để dự báo xu thị trường chứng khoán nhằm đưa gợi ý cho nhà đầu tư Do thời gian làm khóa luận có hạn nên tơi xây dựng thành phần phần mềm Các tính nâng cao tơi cố hoàn thiện sau LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 2.1 Khai phá liệu phát tri thức Phát tri thức sở liệu (Knowledge Discovery in Databases – KDD) (đơi cịn gọi khai phá liệu) q trình khơng đơn giản nhằm nhận dạng mẫu có giá trị, mới, hữu ích tiềm hiểu liệu Đây lĩnh vực nghiên cứu triển khai phát triển nhanh chóng có phạm vi rộng lớn, lại nhiều nhóm nghiên cứu nhiều trường đại học, viện nghiên cứu, công ty nhiều quốc gia giới quan tâm, có nhiều cách tiếp cận khác lĩnh vực phát tri thức CSDL Chính lý nhà khoa học giới dùng nhiều thuật ngữ khác nhau, mà thuật ngữ coi mang nghĩa với KDD chiết lọc tri thức (knowledge extraction), phát thông tin (information discovery), thu hoạch thông tin (information harvesting), khai quật liệu (data archaeology), xử lý mẫu liệu (data pattern processing) Hơn nữa, nhiều trường hợp, hai khái niệm "Phát tri thức sở liệu" "khai phá liệu" dùng thay Hai khái niệm khai phá liệu phát tri thức CSDL thường cặp đơi với [1] Q trình KDD thường bao gồm nhiều bước là: - Làm liệu (Data Cleaning): Khử nhiễu liệu mâu thuẫn Tích hợp liệu (Data Integration): Kết hợp nhiều nguồn liệu khác Lựa chọn liệu (Data Selection): Chắt lọc lấy liệu liên quan đến nhiệm vụ phân tích sau Biến đổi liệu (Data Transformation): Biến đổi liệu thu dạng thích hợp cho trình khai phá Khai phá liệu (Data Mining): Sử dụng phương pháp thông minh để khai thác liệu nhằm thu mẫu mong muốn Đánh giá kết (Pattern Evaluation): Sử dụng độ đo để đánh giá kết thu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - Biểu diễn tri thức (Knowledge Presentation): Sử dụng công cụ biểu diễn trực quan để biểu diễn tri thức khai phá cho người dùng Hình 2.1 – Quá trình khai phá tri thức [1] Quá trình thừa nhận khơng tầm thường theo nghĩa q trình khơng nhiều bước mà cịn thực lặp, quan trọng q trình bao hàm mức độ tìm kiếm tự động Trong mơ hình coi KDD trình bao gồm nhiều bước thực hiện, đó, khai phá liệu bước thực yếu Cách hiểu quy định có phân biệt hai khái niệm khai phá liệu KDD Từ đến khái niệm khai phá liệu: Khai phá liệu bước trình phát tri thức sở liệu, thi hành thuật toán khai phá liệu để tìm mẫu từ liệu theo khn dạng thích hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com chạy hầu hết môi trường, thử nghiệm Linux, Windows, Macintosh Weka bao gồm phương pháp cho tất vấn đề khai phá liệu chuẩn: hồi quy (regression), phân lớp (classification), phân cụm (clustering), khai phá luật kết hợp (association rule mining) chọn lựa thuộc tính (attribute selection) Tất thuật toán lấy đầu vào dạng bảng quan hệ đơn lưu file có mở rộng arff Giao diện weka có cho phép người dùng chọn lựa kiểu giao diện khác để thao tác Hình 5.1 – Giao diện weka Explorer : giao diện đồ họa, cho phép truy xuất vào tất tiện ích cách sử dụng trình lựa chọn thay đổi tham số Knowledge Flow: cho phép thiết kế, cấu hình cho xử lý dòng liệu Experimenter : cho phép tự động xử lý dễ dàng phân loại, lọc với tham số khác Simlpe CLI : cho phép truy xuất thơng qua câu lệnh Có thể tải phần mềm tài liệu hướng dẫn trang web http://www.cs.waikato.ac.nz/ml/weka/ Trong hầu hết ứng dụng khai phá liệu, thành phần học máy phần nhỏ hệ thống phần mềm lớn Vì vậy, để viết ứng dụng khai phá liệu phải truy cập vào chương trình weka 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com đoạn mã lệnh chương trình Trên sở đó, khóa luận dùng weka package chương trình, qua sử dụng hàm để phục vụ q trình khai phá 5.1.2 Jstock Jstock phần mềm mã nguồn mở với mục đích giúp nhà đầu tư quản lý việc đầu tư chứng khốn Với chức như: Hiển thị liệu chứng khoán thời gian thực Cho phép người dùng quản lý việc mua bán chứng khốn Hỗ trợ phương thức lọc đầu mục chứng khóa theo tiêu chuẩn người dùng xây dựng lên Cho phép người dùng trao đổi với người khác thơng qua module chat Hình 5.2 – Giao diện Jstock 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Jstock hỗ trợ lấy liệu chứng khoán thời gian thực từ 23 quốc gia bao gồm: Australia, Austria, Belgium, Canada, Denmark, France, Germany, Hong Kong, India, Indonesia, Italy, Korea, Malaysia, Netherlands, Norway, Portugal, Singapore, Spain, Sweden, Switzerland, Taiwan, United Kingdom and United State Có thể download cài đặt jstock http://jstock.sourceforge.net/download.html Mã nguồn download từ http://jstock.cvs.sourceforge.net/viewvc/jstock/jstock-ext/ Trong khóa luận, jstock tơi sử dụng công cụ để lấy liệu làm đầu vào cho thuật tốn weka, sau kết đượ đưa ngược lại cho jstock để hiển thị liệu 5.2 Mơ hình kết hợp hai gói phần mềm mã nguồn mở Từ mơ hình dự báo chứng khoán với mạng noron kết hợp với hai phần mềm mã nguồn mở giới thiệu Tôi lắp ghép chúng lại thành mơ hình hồn chỉnh sau: Dữ liệu thời gian thực Jstock Weka Mạng noron Kết dự đốn Hình 5.3 – Mơ hình hệ thống khóa luận xây dựng Trong mơ hình ta phải thực cơng đoạn sau: Chuyển liệu chứng khoán thời gian thực mà jstock lấy làm đầu vào cho thuật toán ANN gói weka Xác định mơ hình mạng noron phù hợp cho dự đoán Chuyển kết cho jstock hiển thị 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sau giới thiệu chi tiết công đoạn 5.2.1 Chuyển liệu thời gian thực Định nghĩa: Dữ liệu thời gian thực hay chuỗi theo thời gian (time series) chuỗi giá trị đại lượng ghi nhận theo thời gian Ví dụ: Số lượng hàng hóa bán 12 tháng năm 2008 công ty Các giá trị chuỗi theo thời gian đại lượng X kí hiệu X1, X2, …, Xt, …, Xn với Xt giá trị X thời điểm t Dữ liệu sử dụng liệu thời gian thực (time series) Đặc điểm để phân biệt liệu có phải thời gian thực hay khơng tồn cột thời gian đính kèm đối tượng quan sát Nói cách khác, liệu thời gian thực chuỗi giá trị quan sát biến Y: ={ , , ,…, , , ,…, } vớ giá trị biến Y thời điểm t Mục đích việc phân tích chuỗi thời gian thực thu mơ hình dựa , cho phép ta giá trị khứ biến quan sát , , , … , dự đoán giá trị biến Y tương lai, tức dự đốn giá trị ,…, Dữ liệu chứng khoán mà Jstock thu thập liệu theo chuỗi thời gian có nhiều thuộc tính ghi thời điểm Trong thuộc tính bao gồm: Open, Last, High, Low, Volume Open: Giá cổ phiếu thời điểm mở cửa ngày High: Giá cổ phiếu cao tính đến thời điểm Low: Giá cổ phiếu thấp tính đến thời điểm Last: Giá cổ phiếu niêm yết thời điểm Volume: Khối lượng giao dịch cổ phiếu (bán, mua) ngày Mục đích bước chuyển liệu chứng khốn có dạng thành liệu dạng bảng mà trình bày chương để gói phần mềm weka hiểu 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2.2 Xác định mơ hình phù hợp Đây cơng việc cần phải thực để có mơ hình phù hợp cho ứng dụng Những thiết lập tham số cho mạng dẫn đến mơ hình mạng noron khác thích ứng cho dự liệu khác Mong muốn tìm tham số tốt cho tốn Muốn cần phải làm hai việc: thay đổi tham số đánh giá mô hình với tham số Thay đổi tham số Mạng noron có nhiều tham số tác động vào, nhiên khóa luận tơi thay đổi hai tham số mạng noron tốc độ học (learning rate) số noron tầng ẩn (hidden layers) Đó vấn đề tổng quan, cịn cụ thể phải có chiến lược thay đổi tham số để thực thi Chiến lược mà tơi sử dụng thuật tốn dựa kinh nghiệm, tư tưởng thuật toán sau Ban đầu ta khởi tạo tốc độ học cao (khoảng 0,9) khoảng cho số noron tầng ẩn (ví dụ từ đến 10) Thực thử học với với tốc độ học 0,9 số noron tầng ẩn từ đến 10 Lỹ dĩ nhiên bước lặp mơ hình thu tồi tốc độ học cao Để tối ưu mơ hình hơn, bước lặp sau giảm tốc độ học để tìm phương án tốt (tốt theo hàm đánh giá) Kết thúc trình lặp này, tham số tốt lưu lại để tạo mơ hình tối ưu Sau đoạn mã giả thực công việc này: While(learningrate > 0){ For(i = hiddenUnits; i > 0; i ){ //Thực học mơ hình với tốc độ học learningrate //và số noron tầng ẩn hiddenUnits If(tỷ lệ lỗi thấp tỷ lệ lỗi tại){ Gán tỷ lệ lỗi thấp tỷ lệ lỗi ứng với vòng lặp Lưu lại tốc độ học Lưu lại số noron tầng ẩn } } Learningrate = learningrate – decrease; 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com //decrease lượng giảm cho tốc độ học } Đánh giá mơ hình Sau thay đổi tham số tham số tạo ra, để biết có tốt hay không cần làm công đoạn đánh giá Tức so sánh mơ hình ứng với tham số với mơ hình trước xem mơ hình tốt dựa vào tiêu chuẩn đánh giá (nó bước so sánh điều kiện câu lệnh if đoạn mã trên) Như phần xác định tiêu chuẩn đánh giá – bước thứ sáu tám bước thiết kế thực thị mạng noron – sai số trung bình bình phương tơi sử dụng để đánh giá Trong đoạn mã trên, cần phải có động tác học mơ hình với tham số tốc độ học (learningrate) số lượng thành phần ẩn (hiddenUnits) bước lặp Việc thực học có ảnh hưởng tới giá trị hàm đánh giá Nó thể phần tập liệu phục vụ để học mơ hình tập huấn luyện, tập kiểm chứng (như nêu phần trước) Để tiến hành trình học ta chia liệu thành hai phần: phần để thiết lập tham số cho mô hình (tập huấn luyện – training set), phần cịn lại dùng để đánh giá tỷ lệ lỗi mơ hình nhằm chọn tham số tốt (tập kiểm chứng – validation set) Trong weka, để thực trình này, ta dùng dịng lệnh sau (dịng lệnh bên sử dụng tham số tốc độ học số noron tầng ẩn để mang tính chất minh họa, tham số khác để mặc định): java weka.classifiers.functions.MultilayerPerceptron -L 0.2 -H -t D:\prediction\Training.arff -T D:\prediction\test.arff Trong đó: -L tham số tốc độ học -H tham số noron ẩn -t đường dẫn cho tập huấn luyện -T đường dẫn cho tập đánh giá Kết câu lệnh sau: 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 5.4 – Kết huấn luyện mạng noron dịng lệnh weka Hình cho thấy kết tỷ lệ lỗi trung bình bình phương (RMSE) 0.8267 tập kiểm định Sau có tham số tốt nhất, xây dựng mơ hình tốt Sử dụng mơ hình cho tồn tập huấn luyện (training set), kể phần liệu kiểm chứng (validation set) Dòng lệnh weka sau: 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com java weka.classifiers.functions.MultilayerPerceptron -L learningrate -H hiddenUnits -t trainingSetPath -T validationSetPath –d modelFilePath Trong đó: Learningrate tốc độ học tốt chọn hiddenUnits số noron tầng ẩn tốt chọn trainingSetPath đường dẫn cho tập huấn luyện validationSetPath đường dẫn cho tập đánh giá modelFilePath đường dẫn cho mơ hình Và sau ta sử dụng mơ hình để dự đốn 5.2.3 Chuyển kết cho stock hiển thị Sau có mơ hình mạng noron với tham số tốt cho q trình dự đốn Chúng ta tiến hành dự đoán với giá trị jstock thu kết dự đoán giá chứng khoán thị jstock 5.3 Đánh giá với số mơ hình khác Trong phần xin giới thiệu sơ qua hai mô hình dự báo khác, làm thực nghiệm so sánh hai mơ hình với mơ hình mạng noron mà tơi xây dựng Mục đích thấy tính hiệu mạng noron so với mơ hình khác Trong phần đánh giá sử dụng mười liệu, gồm tập huấn luyện tập kiểm chứng cho ba mơ hình Cách thức chung thực mười lần học đánh giá mơ hình với mười liệu nói Hàm đánh giá dùng tỷ lệ lỗi trung bình bình phương (RMSE) mà giới thiệu chương trước Kết cuối hàm đánh giá kết trung bình mười lần huấn luyện sử dụng để so sánh mơ hình với Trước tiên tiến hành thực giải thuật để tìm tham số tốt cho mạng noron sử dụng tham số cho liệu ta thu kết mạng noron sau: 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các lần huấn luyện Giá trị hàm đánh giá (RMSE) Lần 0.5035 Lần 0.5008 Lần 0.4978 Lần 0.3694 Lần 0.3031 Lần 0.4693 Lần 0.4197 Lần 0.3831 Lần 0.4313 Lần 10 0.4978 Trung bình 0.43758 Bảng 5.1 – Huấn luyện mạng noron Kết đùng để so sánh với mơ hình đây: 5.3.1 Mơ hình định a Định nghĩa Cây định (decision tree) hình thức mơ tả liệu trực quan nhất, dễ hiểu người dùng Trong lĩnh vực học máy, định kiểu mơ hình dự báo (prediction model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng b Cấu trúc Một định sơ đồ có cấu trúc dạng bao gồm nút nhánh Nút gọi nút lá, mơ hình phân lớp liệu giá trị nhãn lớp (gọi tắt nhãn) Các nút khác nút gọi nút con, thuộc tính tập liệu, hiển nhiên thuộc tính phải khác thuộc tính phân lớp 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mỗi nhánh xuất phát từ nút p ứng với phép so sánh dựa miền giá trị nút Nút gọi nút gốc Hình 5.5 – Mơ hình định Cây định mô tả kết hợp kỹ thuật tốn học tính tốn nhằm hỗ trợ việc mơ tả, phân loại tổng qt hóa tập liệu cho trước Dữ liệu cho dạng ghi có dạng: (x, y) = (x1, x2, x3….xk, y) Biến phụ thuộc y biến mà cần tìm hiểu, phân loại hay tổng qt hóa x1, x2, x3… biến giúp ta thực cơng việc c Thực nghiệm với mơ hình định Trong weka mơ hình định thực dòng lệnh: weka.classifiers.trees.J48 Dựa vài thực nghiệm định tập huấn luyện kiểm chứng khác tổng hợp kết thu nhận thấy với tham số C = 0.25 M = thu mơ hình định với độ xác tốt Thực tính tốn với mười liệu ta có bảng thống kê kết sau: 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các lần huấn luyện Giá trị hàm đánh giá (RMSE) Lần 0.4946 Lần 0.5107 Lần 0.4938 Lần 0.5016 Lần 0.3239 Lần 0.4766 Lần 0.4716 Lần 0.4821 Lần 0.5774 Lần 10 0.4993 Giá trị trung bình 0.48316 Bảng 5.2 – Huấn luyện định 5.3.2 Mơ hình phân lớp xác suất ngây thơ naïve bayes Bộ phân lớp bayes phân lớp đơn giản mà dựa lý thuyết bayes a Thuật tốn nạve bayes công thức phân lớp Định lý bayes: P(A/B) = ( / )∗ ( ) Giả sử: ( ) D tập liệu huấn luyện C i,D tập mẫu thuộc D lớp Ci Ci lớp tập liệu X = điều kiện độc lập Ta có cơng thức: P(Ci/X) = ( | )∗ ( ) ( ) Vì xi độc lập nên ta có: 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com P(X|Ci) = ∏ P(Ci) = ( | )= ( | ) ( | ) … ( | , | , { } , P(xk|Ci) = | | | , | | ) Trong Ci,D{xk}: số mẫu Ci thỏa mãn điều kiện xk Trong trường hợp P(xk|Ci) = ta áp dụng công thức làm trơn laplace: P(Ci) = , | | , P(xk|Ci) = , { , } M : số mẫu (lớp), r số giá trị rời rạc thuộc tính Luật phân lớp: X cho vào lớp mà có giá trị cơng thức sau lớn nhất: ( )∗ b Thực nghiệm với mơ hình nạve bayes ( | ) Thực nghiệm với mơ hình nạve bayes weka dịng lệnh: weka.classifiers.bayes.NaiveBayes với mười liệu nói ta thu bảng kết sau: 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các lần huấn luyện Giá trị hàm đánh giá (RMSE) Lần 0.7467 Lần 0.6868 Lần 0.6633 Lần 0.744 Lần 0.3333 Lần 0.4823 Lần 0.7568 Lần 0.6733 Lần 0.7796 Lần 10 0.6344 Giá trị trung bình 0.58309 Bảng 5.3 – Huấn luyện naïve bayes Căn vào kết thu ta lập bảng sô sánh mơ sau: Đại lượng đánh giá RMSE Mơ hình mạng nơ ron Mơ hình định 0.43758 0.48316 Mơ hình nạve bayes 0.58039 Bảng 5.4 – So sánh mơ hình Từ bảng so sánh cho thấy hai mơ hình cho kết với độ xác khơng cao mơ hình mạng noron mà tơi xây dựng 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương KẾT LUẬN Trong khóa luận này, bước đầu tơi tìm hiểu lĩnh vực khai phá liệu vấn đề liên quan đến khai phá liệu nói chung, sở lý thuyết mạng noron thuật toán lan truyền ngược (back-propagation) thực việc học cho mạng noron để áp dụng vào toán dự báo giá chứng khoán nói riêng Từ sở lý thuyết tơi tiến hành: - - Xây dựng cho mơ hình mạng noron dựa theo tám bước: chọn lựa biến, thu thập liệu, tiền xử lý liệu, phân hoạch liệu, xác định cấu trúc mạng, xác định tiêu chuẩn đánh giá, huấn luyện mạng, thực thi thực tế Xây dựng thuật toán lựa chọn tham số tốt cho mạng noron nhằm tạo mơ hình với độ xác cao Áp dụng mơ hình thu để xây dựng phần mềm dự báo giá chứng khoán dựa kết hợp từ hai phần mềm mã nguồn mở Jstock Weka Cuối tơi so sánh mơ hình mạng noron mà tơi xây dựng với hai mơ hình khác mơ hình định mơ hình naïve bayes Kết thu từ so sánh cho thấy mơ hình mạng noron tốt hơn, nên bước đầu phản ánh q trình xây dựng mơ hình tơi có hiệu Tuy nhiên thời gian thực khóa luận khơng đủ dài nên bên cạnh điều làm tồn số điểm chưa đạt cần bổ sung: - - - Thuật toán tối ưu tham số mà sử dụng luận văn chưa thực tốt, chạy xác lại chạy chậm nên áp dụng không gian tham số nhỏ Để khắc phục điều sử dụng thuật tốn sử dụng gradient (gradient descent), thuật toán di truyền (General Algorithm ) … Việc thu thập liệu từ Jstock online việc xây dựng tiến hành học mô hình offline Để làm tăng độ xác việc dự đốn lên chuyển việc học sang học trực tuyến (online learning) Giao diện xây dựng mềm phần tương đối đơn giản, chọn vài mẫu chứng khoán làm thử nghiệm Sau cần xây dựng giao diện có tương tác với người dùng 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng việt [1] Hà Quang Thụy Giáo trình khai phá liệu web Nhà xuất giáo dục, 2009, tr - 38 [2] Ứng dụng mạng noron cho vấn đề nhận dạng tiếng nói http://tailieuhay.com/chitiet-tai-lieu/ung-dung-mang-neuron-cho-van-de-nhan-dang-tieng-noi-149trang/2227.html, tr - 49 Tài liệu tham khảo tiếng anh [3] Ben Krose, Patrick van der smagt An introduction to neural networks University of Amsterdam, 1996, tr – 47 [4] Luis Torgo (2003) Data Mining with R: learning by case studies LIACC-FES, University of Porto – Portugar.1 – 3, 79 – 110 [5] Iebeling Kaastra, Milton Boyd (1995) Designing a neural network for forecasting financial and economic time series University of Manitoba – Canada [6] Freeman J.A and Skapura D.M (1991) Neural Networks - Algorithms, Applications and Programming Techniques Addison Wesley, tr.89-124 [7] J.O Katz Developing neural network forecaster for trading Technical Analysis of Stocks and Commodities April 1992 Tr 58-70 [8] Ian H Witten and Eibe Frank Data mining – practical machine learning tools and techniques Morgan Kaufmann, 2005 [9] http://www.docstoc.com/docs/21199408/Designing-a-neural-network-forforecasting-financial-time-series/ [10] http://www.cs.waikato.ac.nz/ml/weka/ [11] http://jstock.sourceforge.net/ [12] http://www.java.com/en/download/ [13] http://netbeans.org/ 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... trình xây dựng 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương XÂY DỰNG CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ Trong chương đề cập đến trình xây dựng phần mềm dựa hai phần mềm mã nguồn mở. .. hợp cho tốn dự đốn với liệu thay đổi nhanh theo thời gian Chính vậy, khóa luận sử dụng mạng Noron để dự đốn xu giá chứng khoán Các hệ thống chứng khốn thường hệ thống phức tạp khó dự đốn liệu... mềm nguồn mở có chất lượng, tính ứng dụng cao cộng động sử dụng ngày nhiều, kể đến như: hệ điều hành linux, trình duyệt firefox … Chính điều thúc xây dựng phần mềm dựa tảng phần mềm mã nguồn mở