CHƯƠNG 1: MẠNG ANN (NƠRON NHÂN TẠO) 1 1.1. TÌM HIỂU THUẬT TOÁN ANN 1 1.1.1. GIỚI THIỆU 1 1.1.2. KHÁI QUÁT ANN 2 1.1.3. MẠNG THẦN KINH 3 1.1.4. MẠNG NHÂN TẠO 4 1.1.5. QUY TRÌNH ĐÀO TẠO ANN 6 1.1.6. ĐIỂM MẠNH VÀ HẠN CHẾ CỦA ANN 7 1.2. TÌM HIỂU PHÂN CỤM DỮ LIỆU 8 1.2.1. ĐỊNH NGHĨA PHÂN CỤM 8 1.2.2. CÁC YÊU CẦU CỦA PHÂN CỤM DỮ LIỆU 10 1.3. TÌM HIỂU PHÂN LỚP DỮ LIỆU 11 1.3.1. MỘT SỐ THUẬT NGỮ PHÂN LỚP TRONG MACHINE LEARNING ...................................................................................................................... 12 1.3.1. CÁC KIỂU HỌC TRONG PHÂN LỚP 12 1.3.3. CÁC THUẬT TOÁN PHÂN LỚP 13 CHƯƠNG 2: TÌM HIỂU MÔT SỐ THUẬT TOÁN 18 2.1. DATA MINING 18 2.1.1. STATISTICS 18 2.1.2. MACHINE LEARNING 19 2.1.3. DATABASE SYSTEMS AND DATA WAREHOUSES 21 2.1.4. INFORMATION RETRIEVA (Thông tin truy xuất) 22 2.1.5. DATA CLEANING 22 2.2. THUẬT TOÁN KMEAN 23 2.3. THUẬT TOÁN SVM (SUPPORT VECTOR MACHINGE) 30 2.3.1. MÁY HỖ TRỢ VECTOR 30 2.3.2. CÁCH HOẠT ĐỘNG 31 CHƯƠNG 3: BÀI TOÁN 37 CHƯƠNG 4: DEMO 40 CHƯƠNG 5: KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48
XÂY DỰNG MƠ HÌNH DỰ ĐỐN GIÁ CỔ PHIẾU Ở THỊ TRƯỜNG VIỆT NAM DỰA VÀO THUẬT TOÁN SVM LỜI CẢM ƠN Xin chân thành cảm ơn! MỤC LỤC CHƯƠNG 1: MẠNG ANN (NƠRON NHÂN TẠO) .1 1.1 TÌM HIỂU THUẬT TỐN ANN .1 1.1.1 GIỚI THIỆU 1.1.2 KHÁI QUÁT ANN 1.1.3 MẠNG THẦN KINH 1.1.4 MẠNG NHÂN TẠO 1.1.5 QUY TRÌNH ĐÀO TẠO ANN 1.1.6 ĐIỂM MẠNH VÀ HẠN CHẾ CỦA ANN 1.2 TÌM HIỂU PHÂN CỤM DỮ LIỆU 1.2.1 ĐỊNH NGHĨA PHÂN CỤM 1.2.2 CÁC YÊU CẦU CỦA PHÂN CỤM DỮ LIỆU 10 1.3 TÌM HIỂU PHÂN LỚP DỮ LIỆU 11 1.3.1 MỘT SỐ THUẬT NGỮ PHÂN LỚP TRONG MACHINE LEARNING 12 1.3.1 CÁC KIỂU HỌC TRONG PHÂN LỚP .12 1.3.3 CÁC THUẬT TOÁN PHÂN LỚP .13 CHƯƠNG 2: TÌM HIỂU MƠT SỐ THUẬT TOÁN 18 2.1 DATA MINING 18 2.1.1 STATISTICS 18 2.1.2 MACHINE LEARNING 19 2.1.3 DATABASE SYSTEMS AND DATA WAREHOUSES .21 2.1.4 INFORMATION RETRIEVA (Thông tin truy xuất) 22 2.1.5 DATA CLEANING 22 2.2 THUẬT TOÁN K-MEAN 23 2.3 THUẬT TOÁN SVM (SUPPORT VECTOR MACHINGE) 30 2.3.1 MÁY HỖ TRỢ VECTOR 30 2.3.2 CÁCH HOẠT ĐỘNG 31 CHƯƠNG 3: BÀI TOÁN .37 CHƯƠNG 4: DEMO 40 CHƯƠNG 5: KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Tiếng anh Tiếng việt SVM Support vector machinge Vector hổ trợ máy học ANN Artificial Neural Network Mạng nơron nhân tạo PE Processing Elements Các yếu tổ xử lý BPNN DM CSDL Back Propagation Neural Network Data Mining Mạng lưới lang truyền Khai phá liệu Cơ sở liệu DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1 Mơ ý tưởng cấu hình mạng ANN Hình Sơ đồ minh họa neural nhân tạo neural sinh học[7] .2 Hình Noron sinh học[2] Hình noron nhân tạo đơn giản Hình Sigmoid (Hàm truyền Sigmoid) [5] Hình Kiến trúc mạng ANN[3] Hình Phân cụm liệu Hình Mơ hình data mining 18 Hình 2 Bước đầu việc tối ưu hoá 21 Hình Biễu diễn thuật toán K-Means 24 Hình Phân bố liệu .25 Hình Dữ liệu phân bổ sẳn tâm 25 Hình Đường chia cụm đoạn nối tâm 26 Hình Đổi màu điểm thuộc cụm theo tâm 26 Hình Tâm cho cụm liệu .27 Hình Biểu diễn tâm 27 Hình 10 Phân chia cụm theo tâm 28 Hình 11 Tâm hình thành theo mơi trường 28 Hình 12 Xác định trung tuyến cụm .29 Hình 13 Bước đầu hình thành cụm .29 Hình 14 Các cụm hình thành loại bỏ tâm cụm 30 Hình 15 Biễu diễn SVM .31 Hình 16 Xác định phân loại điểm 31 Hình 17 Phân tách lớp tốt điểm support vector 32 Hình 18 Khoản cách tốt điểm support vector 32 Hình 19 Xác định siêu phẳng .33 Hình 20 Sau phân chia xuất hiển điểm ngoại lai 34 Hình 21 Phân loại bất chấp ngoại lai 34 Hình 22 Tách lớp .35 Hình 23 Siêu phẳng tách lớp 35 Hình 24 Khơng gian vào 36 Hình Cài đặt yfinance 40 Hình Import thư viện yfinance 41 Hình Các thông tin liệu download 41 Hình 4 Các thư viện hỗ trợ bái toán 41 Hình Chọn file thực 41 Hình Dữ liệu file input 42 Hình Biểu đồ biểu diễn giá đóng theo ngày 42 Hình Hiển thị liệu giá đóng 42 Hình Biểu đồ biễu diễn tăng giảm 43 Hình 10 Thơng tin hiển thị 43 Hình 11 Khởi tạo biến train liệu 43 Hình 11.1 Kết dự đốn………………………………………………………… 43 Hình 12 Các thư viện hỗ trợ tốn 44 Hình 13 Chọn file input 44 Hình 14 Dữ liệu file input 44 Hình 15 Kiểu liệu file input 44 Hình 16 Biểu đồ nến biểu diễn data cổ phiếu .45 Hình 17 Biểu đồ biểu diễn giá đóng theo ngày 45 Hình 18 Biểu đồ training thuật tốn theo giá đóng .46 Hình 19 Hình ảnh kết dự đoán .46 MỞ ĐẦU Ở quốc gia nào, thị trường chứng khoán thành phần quan trọng kinh tế Bởi vậy, việc hiểu xu hướng thị trường cần thiết Do đó, với phát triển thị trường chứng khoán, dự báo giá cổ phiếu trở thành chủ đề thú vị, thu hút quan tâm nhiều nhà đầu tư, chuyên gia, nhà khoa học Tuy nhiên, tính biến động nhanh theo tác động thị trường, dự báo giá cổ phiếu toán đầy thách thức Nhiều phương pháp dự báo phát triển để dự báo xu hướng biến động giá cổ phiếu nhằm tìm kiếm cổ phiếu tiềm để đầu tư Trong đó, phương pháp phân tích dự báo định lượng thông qua mô hình tốn học quan tâm tính khách quan sở khoa học chúng Đơn giản mơ hình hồi quy tuyến tính, hồi quy đa thức… để dự báo xu hướng thị trường Tiếp đến mơ hình thống kê cổ điển, bao gồm phương pháp: trung bình trượt, Arima… Ngày nay, ta sử dụng SVM để xây dựng mơ hình dự đốn giá cổ phiếu Dựa vào khả học, khả xử lý thông tin, SVM cho thấy tính hiệu việc giải toán dự báo Tuy nhiên Việt Nam, nghiên cứu vấn đề dự báo giá cổ phiếu SVM không nhiều CHƯƠNG 1: MẠNG ANN (NƠRON NHÂN TẠO) 1.1 TÌM HIỂU THUẬT TỐN ANN Mạng thần kinh nhân tạo (ANN) trở nên bật ứng dụng khác nhận dạng mẫu, dự đoán thời tiết, nhận dạng chữ viết tay, nhận dạng khuôn mặt, chế độ lái tự động, robot, v.v Trong kỹ thuật điện, ANN nghiên cứu rộng rãi dự báo tải trọng, xử lý báo động trạm biến áp dự đoán thời tiết cho trang trại xạ mặt trời gió Tập trung nhiều vào lưới điện thơng minh, ANN có vai trị quan trọng ANN thuộc họ Trí tuệ nhân tạo với Fuzzy Logic, Expert Systems, Support Vector Machines [4] 1.1.1 GIỚI THIỆU Ở dạng đơn giản nhất, mạng lưới thần kinh nhân tạo (ANN) bắt chước não người Một não tự nhiên có khả học hỏi điều mới, thích nghi với mơi trường thay đổi Bộ não có khả tuyệt vời để phân tích thơng tin không đầy đủ không rõ ràng, mờ nhạt đưa phán đốn riêng từ Ví dụ, đọc chữ viết tay người khác cách họ viết hồn toàn khác với cách viết Một đứa trẻ xác định hình dạng bóng màu cam vịng trịn Ngay em bé vài ngày tuổi có khả nhận mẹ từ cảm ứng, giọng nói mùi Chúng ta xác định người biết đến từ ảnh mờ Não quan phức tạp kiểm sốt tồn thể Bộ não vật nguyên thủy có nhiều khả máy tính tiên tiến Chức khơng kiểm sốt phận vật lý thể, mà hoạt động phức tạp suy nghĩ, hình dung, mơ mộng, tưởng tượng, học tập… CHƯƠNG 3: BÀI TOÁN #K MEAN: phân cụm theo tốn sau VD ta có toán cụ thể sau: Cho liệu {2,4,10,12,3,20,30,11,25} k=2 Dùng thuật toán K-means để xác định cụm B1: chọn ngẫu nhiên trung tâm cụm m1=3; m2=4 B2: gán đối tượng vào cụm K1 = {2,3} ◦ K2 = {4,10,12,20,30,11,25} Chất lượng nhóm tính theo tổng bình phương sai SSE=12+0+0+62+82+162+262+72+212 = 1523 B3: Tính lại trung tâm cụm cơng thức trung bình cộng: m1=(2+3)/2=2.5 m2=(4+10+12+20+30+11+25)/7=16 B4: Quay lại bước 2, gán đối tượng vào cụm thu được: K1={2,3,4} K2={10,12,20,30,11,25} Hai cụm nên tiếp tục tính lại K1={2,3,4} K2={10,12,20,30,11,25} B5: Tính lại trung tâm cụm m1=3; m2 =18 gán lại cụm K1 {2,3,4,10} K2 {12,20,30,11,25} Trung tâm cụm m1=4.75, m2 = 19.6 38 … B6: Thu trung tâm cụm cuối 25 tương ứng cụm thu là: K1={2,3,4,10,11,12} k2 ={20,30,25} Thuật toán dừng trung tâm cụm khơng thay đổi SSE = 52+42+32+32+42+52+52+52+0 =150 #SVM: thực theo công thức tốn sau Phương trình khơng gian chiều (phương trình mặt phẳng): { a,b,c số } ax+by+c=0 Khoảng cách từ điểm có toạ độ (a, b) tới đường thẳng ax+by+c=0 có phương trình xác định bởi: Phương trình khơng gian chiều: { a,b,c,d số } ax+by+cz+d=0 Khoảng cách từ điểm có toạ độ (a, b, c) tới đường thẳng ax+by+c=0 có phương trình xác định bởi: Từ ta suy phương trình tổng qt X+b=0 Khoảng cách từ điểm có toạ độ (a, b, c) tới đường thẳng ax+by+c=0 có phương trình 39 xác định bởi: Vì (được chấp nhận) VD: Xét điểm toạ độ không gian : M(-1; 2; 0.5), N(4; 6; 0), O(2; -3; 5) Ta ln ln có khoảng cách đến đường thằng không gian: (d): + y - = khoảng cách tính: (d) => M(-1; 2; 0.5)= (d) => N(4; 6; 0)= = = (d) => O(2; -3; 5)= = Để tìm đường thẳng qua điểm toạ độ hay khoản cách điểm đến đường thẳng mặt phẳng Ta có cơng thức tổng quát phương trình đường thẳng sau: ax+by+c=0 40 (1): Thay toạ độ điểm ban đầu vào phương trình tổng quát (2): Thay toạ độ điểm qua thứ vào phương trình tổng quát CHƯƠNG 4: DEMO - Chuẩn bị data Jupyter notebook gồm bước thực sau: Bước 1: Cài đặt yfinance: thành phần API tham gia truy cập vào Yahoo Finance để cung cấp quyền thông tin hoạt động cổ phiếu Hình Cài đặt yfinance Bước 2: Thêm thư viện yfinance để dễ dàng thực download liệu: download cách nhập mã cổ phiếu 41 Hình Import thư viện yfinance Bước 3: Thực đông đo khoản thời gian để download cách nhập khoản thời gian vào đoạn code bên dưới, sau đặt tên file mà muốn Hình Các thơng tin liệu download Bước 4: Vào CMD để mở file theo tên vừa đặt #SVR: thành phần thuật tốn svm - Các thư viện tham gia phân tích tính tốn Hình 4 Các thư viện hỗ trợ bái toán - Đưa file liệu đầu vào chuẩn bị cho trình Hình Chọn file thực - Đọc hiển thị thành phần liệu 42 Hình Dữ liệu file input - Vẽ biểu đồ biểu giá đóng: cho biết trính tăng giảm liệu Hình Biểu đồ biểu diễn giá đóng theo ngày - Biểu kiểu liệu 4.7.1 Kiểu liệu - Hiển thị giá trị giá đóng 43 Hình Hiển thị liệu giá đóng - Tạo biểu đồ hiển thị giá đóng Hình biểu đồ biễu diễn tăng giảm 44 - Các thành phần hiển thị hỗ trợ trình Hình 10 Thơng tin hiển thị 45 - Các giá trị cung cấp mơi trường train liệu Hình 11 khởi tạo biến train liệu 46 - Kết dự đốn: Hình 4.12: kết dự đoán 47 #SVM: thuật toán học máy hỗ trợ vector - Các thư viện tham gia hỗ trợ toán Hình 12 Các - thư viện hỗ trợ toán Tải file liệu vào hệ thống cho trình chuẩn bị Hình 13 Chọn file input - Thực đọc file theo thư vien IO Hình 14 Dữ liệu file input - Hiển thị kiểu liệu để biết rỏ mơ hình liệu Hình 15 Kiểu liệu file input 48 - Biểu đồ biểu thành phần giá bao gồm: giá đống, giá mở, giá cao thấp Hình 16 Biểu đồ nến biểu diễn data cổ phiếu - Biểu đồ biễu diễn giá đóng theo ngày Hình 17 Biểu đồ biểu diễn giá đóng theo ngày 49 - Biểu đồ học máy thuật tốn SVM Hình 18 Biểu đồ training thuật tốn theo giá đóng - Kết dự đốn tăng vs trường liệu Hình 19 Hình ảnh kết dự đốn 50 CHƯƠNG 5: KẾT LUẬN Quy trình thự đề tài diễn khó khan tình hình dịch bệnh diễn biến phức tạp, thành viên nhóm phải xếp lại lịch ngồi lại với nhau, nói chuyện online để bàn luận vấn đề Do mức độ tài liệu dẫn dắt đến hoàn thành đề tài ít, nên nhóm gặp nhiều khó khăn, nhiên thầy động viên hết mình, tạo nhiều điều kiện tốt cho nhóm tiếp tục cố gắn hoàn thành mức độ hết sứt Về kế đề tài chủ yếu nghiên cứu bao quát ứng dụng mang tính trực quan thuật toán dự đoán tăng giảm cổ phiếu Để tạo nên giá trị hướng phát triển thêm đề tài phải có nghiên cứu chuyên sâu vấn đề này, cần nhiều thời gian nữa, điều kiện cần phải có nhóm người am hiểu sâu lập trình, tốn học, phương pháp kỹ tưởng tượng toạ độ không gian 51 TÀI LIỆU THAM KHẢO 52 ... tương tự Xây dựng tiêu chuẩn phân cụm Xây dựng mơ hình cho cấu trúc phân cụm liệu Xây dựng thuật toán phân cụm cách xác lập điều kiện khởi tạo Xây dựng thủ tục biểu diễn đánh giá kết phân... mơ hình thống kê cổ điển, bao gồm phương pháp: trung bình trượt, Arima… Ngày nay, ta sử dụng SVM để xây dựng mơ hình dự đốn giá cổ phiếu Dựa vào khả học, khả xử lý thông tin, SVM cho thấy tính... động nhanh theo tác động thị trường, dự báo giá cổ phiếu toán đầy thách thức Nhiều phương pháp dự báo phát triển để dự báo xu hướng biến động giá cổ phiếu nhằm tìm kiếm cổ phiếu tiềm để đầu tư Trong