(Tiểu luận) ồ án cuối kì môn khai thác dữ liệu và khai phá tri thức

21 7 0
(Tiểu luận) ồ án cuối kì môn khai thác dữ liệu và khai phá tri thức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CUỐI KÌ MƠN KHAI THÁC DỮ LIỆU VÀ KHAI PHÁ TRI THỨC Báo cáo cuối kì Người hướng dẫn: Thầy LÊ CUNG TƯỞNG Người thực hiện: LÊ VÕ QUYẾT THẮNG – 52000264 NGUYỄN PHƯỚC NGUYÊN – 52000241 VÕ HỮU TRÍ – 52000288 Lớp : 20050301 Khố THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 : 24 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THƠNG TIN BÀI TẬP LỚN/ĐỒ ÁN CUỐI KÌ MƠN KHAI THÁC DỮ LIỆU VÀ KHAI PHÁ TRI THỨC Báo cáo cuối kì Người hướng dẫn: THẦY LÊ CUNG TƯỞNG Người thực hiện: LÊ VÕ QUYẾT THẮNG NGUYỄN PHƯỚC NGUYÊN VÕ HỮU TRÍ Lớp : 20050301 Khố : 24 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 i LỜI CẢM ƠN Chúng em xin gửi lời cảm ơn đến thầy Lê Cung Tưởng trình giảng dạy giúp tụi em tiếp thu kiến thức để hồn thành báo cáo Dù phút cuối thầy chuyển công tác, thầy hỗ trợ tụi em nhiệt tình Chúng em xin cảm ơn thầy Phước tiếp tục với chúng em chặng cuối mơn học, giúp chúng em hồn thành mơn học mà khơng gặp phải trở ngại ii ĐỒ ÁN ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG Tơi xin cam đoan sản phẩm đồ án riêng / hướng dẫn Thầy Lê Cung Tưởng; Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, đồ án sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung đồ án Trường đại học Tôn Đức Thắng không liên quan đến vi phạm tác quyền, quyền gây q trình thực (nếu có) TP Hồ Chí Minh, ngày tháng năm Tác giả (ký tên ghi rõ họ tên) Thắng Lê Võ Quyết Thắng Nguyên Nguyễn Phước Nguyên Trí Võ Hữu Trí iii iv PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần xác nhận GV hướng dẫn _ _ _ _ _ _ _ Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) Phần đánh giá GV chấm _ _ _ _ _ _ _ Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) Document continues below Discover more from: Big Data Applied in Management 702075 Đại học Tôn Đức… 71 documents Go to course Marketing VÀ TRUYỀN 48 Thông CỦA IVY MODA Applied Big Data in… 100% (1) LUẬN CƯƠNG Chính TRỊ Applied Big Data in… 100% (1) Tơi chia sẻ Scan 08 Th11 22 095815 vớ… Applied Big Data in… None THAM KHẢO - BÁO CÁO CUỐI KÌ BIG DATA Applied Big Data in… None Outline big data cuối kì Applied Big Data in… v TĨM TẮT None Unicorn BCCK - etcse 39 Applied Big Data in… None Tổng quan báo cáo việc phân tích liệu chứng khốn Việt Nam Thơng qua việc crawling liệu, xử lí liệu để phân tích qua mơ hình phân cụm, dự đốn giá tương lai thơng qua mơ hình học máy, từ giúp ta biết bước để phân tích liệu chứng khoán, hiểu xu hướng loại chứng khốn phân loại nó, từ áp dụng để phân tích thị trường chứng khốn nói chung thị trường chứng khốn Việt Nam nói riêng 1 MỤC LỤC LỜI CẢM ƠN i PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iv TÓM TẮT v MỤC LỤC CHƯƠNG – THU THẬP DỮ LIỆU 1.1 Thu thập liệu CHƯƠNG – TIỀN XỬ LÝ DỮ LIỆU 2.1 Phương thức TimeSeriesScalerMeanVariance 2.2 Thực việc chuẩn hóa liệu CHƯƠNG – PHÂN CỤM (CLUSTERING) 3.1 Lý thuyết 3.2 Xây dựng mơ hình CHƯƠNG – DỰ ĐOÁN 11 4.1 Lý thuyết xử lí liệu 11 4.2 Xây dựng mô hình dự đốn 11 CHƯƠNG – THU THẬP DỮ LIỆU 1.1 Thu thập liệu Việc thu thập liệu thu thập từ 100 mã trang web vcbs exchange (link) Sử dụng thư viện selenium để tự động lấy 100 mã chứng khoán, lưu vào list symbols Sau có tên 100 mã chứng khoán, thực thu thập liệu chứng khoán ngày mã từ trang web cafef (link) Để thu thập liệu mã ngày khác nhau, em xây dựng hàm sử dụng selenium để thu thập liệu cách tự động 3 Tham số hàm driver dùng để duyệt web list chứa mã chứng khoán Bước đầu, tạo file csv có dạng tên mã chứng khốn.csv để lưu kết quả, selenium tự động điền vào tìm kiếm trang web mã chứng khoán lấy từ list lưu trước đó, điền vào ngày bắt đầu ngày kết thúc, sau ấn vào nút tìm kiếm để trang web hiển thị thơng tin giá chứng khốn ngày mã chứng khốn tương ứng Vì lần hiển thị có số ngày định nên thông tin chia nhiều trang, nên lần thu thập liệu trang xong selenium tìm nút đến trang kế tiếp, thu thập đến đến trang cuối chuyển sang mã khác Sau thử crawl liệu 100 mã chứng khoán, thời gian để thu thập dài nên chúng em tìm đến phương pháp để rút ngắn thời gian Chúng em sử dụng multi threading, thao tác thao tác I/O, khơng liên quan việc tính tốn với nên sử dụng thread thay process, chia chương trình thành thread, thread thực thu thập liệu 20 mã chứng khoán, giúp giảm thời gian thu thập liệu gần gấp lần so với luồng Sau thực nhiệm vụ trên, ta thu thập 100 mã chứng khoán đặt folder data 4 Trong trình thực tập tiếp theo, mã chứng khốn đầu có nhiều mã mới, có liệu nên tụi em thực thu thập thêm 50 mã tiếp theo, phục vụ cho tập sau 5 CHƯƠNG – TIỀN XỬ LÝ DỮ LIỆU 2.1 Phương thức TimeSeriesScalerMeanVariance Phương thức TimeSeriesScalerMeanVariance thư viện tslearn chuẩn hóa thiết kế riêng cho việc chuẩn hóa liệu dạng time series Bộ chuẩn hóa có tham số mu std, giá trị chiều chuẩn hóa cách lấy mốc giá trị trung bình tập giá trị độ lệch chuẩn Dữ liệu dạng time series liệu gồm chuỗi liệu từ nguồn khoản thời gian liên tiếp tăng dần 2.2 Thực việc chuẩn hóa liệu Điều kiện để sử dụng chuẩn hóa chuỗi liệu mã chứng khoán đưa vào phải có độ dài tương tự Ta chọn mã có số dịng liệu 725 dòng lớn hơn, lấy từ xuống đến lấy đủ 100 mã dừng lại Với mã, lấy file csv tương ứng đọc lên thành dataframe, lấy cột giá chứng khoán, đưa dạng numpy array, sau thêm vào list data Cuối chuyển list data dạng numpy array reshape Với phần tử mã chứng khoán, mã liệu 725 ngày liên tiếp Sau áp dụng chuẩn hóa lên data qua xử lí 6 Đồ thị vẽ giá chứng khoán mã chứng khoán trước chuẩn hóa: Và đồ thị thể giá chứng khốn sau chuẩn hóa liệu: CHƯƠNG – PHÂN CỤM (CLUSTERING) 3.1 Lý thuyết Các bước thuật toán k-means: Chọn số cụm khởi tạo cho việc phân cụm lấy tọa độ điểm tâm cụm Sắp xếp điểm vào cụm dựa khoảng cách từ điểm tới tâm cụm ( thuộc vào cụm mà khoảng cách đến tâm ngắn nhất) Nếu việc xếp khơng làm thay đổi vị trí điểm dừng lại Lấy giá trị trung bình ( tọa độ tâm cụm) dựa điểm thuộc cụm Quay lại bước Thuật tốn k-means thơng thường sử dụng khoảng cách Euclid cho việc tính tốn khoảng cách, nhiên liệu time series, hiệu việc sử dụng khoảng cách Euclid khơng cao Vì khoảng cách Euclid tính chuỗi liệu khơng thể tính chuỗi liệu, nên có thước đo khác giúp cho việc phân cụm thuật toán k-means mang lại hiệu cao thước đo sử dụng cho hiệu cao phân cụm liệu time series Dynamic Time Warping (DTW: tạm dịch độ sai lệch thời gian động) Với thời điểm, độ sai lệch thời điểm liên quan tới độ sai lệch thời điểm trước thơng qua cơng thức: Với thước đo DTW, ta tối ưu cách sử dụng phương pháp DBA ( DTW barycenter averanging) DBA phương pháp trung bình với mục đích tối thiểu giá trị chuỗi DTW dựa phương pháp barycenter để lấy trung bình chuỗi DBA gồm bước chính: Tính tốn DTW cặp chuỗi liệu Cập nhật giá trị chuỗi dựa thuật toán barycenter Thuật toán barycenter: barycenter chuỗi trung bình chuỗi cho giá trị tổng khoảng cách chuỗi nhỏ Phương pháp elbow: Lần lượt thực tính tốn với số cụm khởi tạo từ tới 10 Với số cụm khởi tạo, tính tốn tổng khoảng cách cụm Vẽ đường thể tổng khoảng cách số cụm khởi tạo tăng dần Số cụm tốt mà ta chọn vị trí đồ thị có dạng phần khuỷu tay Tại mà tăng số cụm lên, tổng khoảng cách giảm khơng cịn đáng kể nữa, số cụm để phân cụm tốt nhất, tránh trường hợp overfitting 3.2 Xây dựng mơ hình Việc xây dựng mơ hình thực thư viện tslearn với phương pháp phân cụm k-means, kết hợp phương pháp elbow để chọn số phân cụm tốt phương pháp Phương pháp K-means tiêu chuẩn ( sử dụng khoảng cách Euclid): Chọn số cụm tốt để thực phân cụm Kết quả: Phương pháp k-means sử dụng DBA: Chọn số cụm tốt để phân cụm 3: Phương pháp soft-DTW k-means: 10 Chọn số cụm tốt để phân cụm liệu: Trong phương pháp soft-DTW có thời gian thực thi lâu nhất, kết mang lại chi tiết đường giá chứng khốn, giúp việc phân cụm xác có độ xác cao Trên phương pháp, kết elbow cho thấy việc phân cụm liệu thu thực tốt số cụm Khi nhìn vào đồ thị, phương pháp tiêu chuẩn, chuỗi liệu có xu hướng phân bố Còn phương pháp DBA softDTW, liệu có xu hướng tập trung cụm, thưa thớt cụm lại Điều thấy cho thấy rõ việc sử dụng phương pháp phân cụm k-means tiêu chuẩn khơng có khả phân biệt nối tiếp chuỗi liệu, phương pháp cịn lại, có ảnh hưởng yếu tố chuỗi nên liệu phân bố không đồng cụm 11 CHƯƠNG – DỰ ĐOÁN 4.1 Lý thuyết xử lí liệu Để thực dự đoán giá chứng khoán, chúng em sử dụng mơ hình học máy chun dùng cho liệu time series, từ thư viện tensorflow keras Ở chúng em sử dụng mơ hình RNN RNN mơ hình cải tiến mơ hình mạng nơ ron thơng thường để xử lí liệu chuỗi tốt Ở mơ hình RNN, node liên quan đến theo quan hệ đầu ngày trước liên quan tới ngày kế tiếp, kéo dài đến ngày cuối Từ thơng tin ngày phía trước liên quan tới đầu thông tin ngày tiếp theo, kết dự đoán cải thiện thông việc tiếp thu chuỗi thông tin trước để đưa dự đốn cho Để thực mơ hình, ta lấy liệu chứng khốn mã AAA, lấy tới ngày tháng năm 2022 Đọc liệu từ dataframe, lấy cột giá chứng khốn, chuẩn hóa liệu thang chuẩn hóa minmax, lấy liệu trước năm 2022 làm tập train, liệu tháng đầu năm 2022 làm tập test Kết hợp liệu 14 ngày trước để dự đốn ngày 4.2 Xây dựng mơ hình dự đốn Xây dựng mơ hình RNN gồm có lớp RNN lớp output với đầu đơn vị 12 Sau train mô hình, ta vẽ đồ thị thể loss tập validation tập test q trình training Sau đó, thực dự đoán từ tập test để đưa giá trị dự đoán, từ giá trị dự đoán giá trị thực vẽ đồ thị giá trị dự đoán giá trị thực: 13 TÀI LIỆU THAM KHẢO Slides môn học Khai phá liệu khai thác tri thức trường đại học Tôn Đức Thắng https://viblo.asia/p/recurrent-neural-networkphan-1-tong-quan-va-ung-dungjvElaB4m5kw https://lig-membres.imag.fr/bisson/cours/M2INFO-AIWML/papers/PetitJean11.pdf https://machinelearningcoban.com/2017/01/01/kmeans/ https://tslearn.readthedocs.io/en/stable/

Ngày đăng: 19/12/2023, 15:18

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan