Điều này có thể giúp tối đa hóa lợi nhuận và giảm thiểu tổn thất trong giao dịch chứng khoánNghiên cứu và thực hiện các mơ hình dự đốn chứng khốn địi hỏi phải phát triển kỹ năng về học m
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊN
BÀI TẬP LỚN
DỰ ĐOÁN CHỨNG KHOÁN
KHOA CÔNG NGHỆ THÔNG TIN
MÔN HỌC : NHẬP MÔN KHAI PHÁ DỮ LIỆU
SINH VIÊN: NGUYỄN VĂN TÙNG
MÃ LỚP: 12421TN HƯỚNG DẪN: GV NGUYỄN VĂN QUYẾT
HƯNG YÊN – 2023
Trang 2NHẬN XÉT Nhận xét của giáo viên hướng dẫn
GIÁO VIÊN HƯỚNG DẪN
NGUYỄN VĂN QUYẾT
Trang 3Dự đoán chứng khoán
LỜI CAM ĐOAN
Em xin cam đoan bài tập lớn “Áp dụng các kỹ thuật học máy để dự đoán chứngkhoán” là sản phẩm của bản thân Những phần sử dụng tài liệu tham khảo trong bài tậplớn đã được nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trongbài tập lớn là hoàn toàn trung thực, nếu sai em xin chịu hoàn toàn trách nhiệm và chịumọi kỷ luật của bộ môn và nhà trường đề ra
Hưng yên, ngày … tháng … năm 2022
Sinh viên
Trang 4Dự đoán chứng khoán
LỜI CẢM ƠN
Trước tiên, em xin được gửi lời biết ơn sâu sắc và chân thành nhất tới Bộ môn Khoahọc máy tính, Khoa Công nghệ thông tin – Trường Đại học Sư phạm Kỹ thuật HưngYên Nhờ sự tạo điều kiện và hỗ trợ nhiệt tình của Bộ môn, em đã có cơ hội thực hiệnbài tập lớn môn học này, mở rộng kiến thức và kỹ năng của mình Sự giúp đỡ của Bộmôn đã tạo nên môi trường học tập lý tưởng cho em, giúp em tiếp cận với những kiếnthức mới và thực hành những kỹ năng quan trọng
Em xin dành lời cảm ơn chân thành nhất tới Thầy Nguyễn Văn Quyết, người đã khôngngần ngại chia sẻ kiến thức, kinh nghiệm và thời gian quý báu của mình để hướng dẫn
em
Em cũng muốn gửi lời cảm ơn tới tất cả các Thầy, các Cô trong Trường đã tận tìnhgiảng dạy, trang bị cho em những kiến thức quý báu Những bài học và lời khuyên củacác Thầy Cô đã là nguồn động lực to lớn giúp em hoàn thành bài tập lớn này Em xingửi lời tri ân sâu sắc tới những người thầy vĩ đại đã dạy dỗ em từ những điều nhỏ nhất
Dù em đã cố gắng hết sức, nhưng với trình độ và kinh nghiệm còn hạn chế, bài tập lớnnày không thể tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đónggóp, nhận xét của các Thầy Cô để em có thể hoàn thiện hơn trong tương lai Em xinchấp nhận mọi ý kiến phê bình với tinh thần mở lòng, vì em biết rằng chỉ có qua đó,
em mới có thể tiếp tục phát triển và hoàn thiện bản thân
Em xin trân thành cảm ơn!
Trang 5Dự đoán chứng khoán
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 5
1.1 Lý do chọn đề tài 5
1.2 Mục tiêu của đề tài 5
1.3 Giới hạn và phạm vi của đề tài 6
1.3.1 Đối tượng nghiên cứu 6
1.3.2 Phạm vi nghiên cứu 6
1.4 Phương pháp tiếp cận 6
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 7
2.1 Khái niệm khai phá dữ liệu và học máy 7
2.1.1 Khái niệm khai phá dữ liệu 7
2.1.2 Khái niệm học máy 7
2.1.3 Liên hệ giữa khai phá dữ liệu và học máy 8
2.2 Các kỹ thuật khai phá dữ liệu 9
2.2.1 Kỹ thuật tiền xử lý dữ liệu 9
2.2.2 Phân tích thống kê dữ liệu 9
2.2.3 Mô hình hóa dữ liệu 10
2.3 Các thuật toán học máy 11
2.3.1 Linear Regression 11
2.3.2 Rừng Ngẫu Nhiên (Random Forest) 12
2.3.3 Decision Tree 14
2.3.3 Collaborative Filtering 16
2.3.4 Mô hình Navie Bayes 17
2.3.5 KNN 18
2.4 Tổng kết chương 19
Trang 6Dự đoán chứng khoán
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH HỌC MÁY 21
3.1 Thu thập dữ liệu 21
3.2 Phân tích dữ liệu thu thập 22
3.3 Xây dựng mô hình học máy 26
3.4 Phân tích kết quả thực hiện 28
3.5 Kết chương 29
KẾT LUẬN 29
TÀI LIỆU THAM KHẢO 31
Trang 7Dự đoán chứng khoán
Trang 8DANH MỤC BẢNG BIỂU
Trang 9Việc áp dụng các kỹ thuật học máy trong dự đoán chứng khoán mang lại một cơ hội để kết hợp kiến thức về lĩnh vực tài chính và công nghệ thông tin Điều này cung cấp cơ hội phát triển các mô hình dự đoán chứng khoán dựa trên dữ liệu lịch sử và thông tin thị trường hiện tại.
Khi thành thạo kỹ thuật dự đoán chứng khoán, nhà đầu tư và nhà giao dịch có thểtối ưu hóa lợi nhuận và quản lý rủi ro một cách hiệu quả hơn Điều này có thể giúp tối
đa hóa lợi nhuận và giảm thiểu tổn thất trong giao dịch chứng khoán
Nghiên cứu và thực hiện các mô hình dự đoán chứng khoán đòi hỏi phải phát triển kỹ năng về học máy, xử lý dữ liệu lớn và phân tích thống kê Đây là cơ hội để mởrộng kiến thức và kỹ năng chuyên môn
Các biến động thị trường chứng khoán tạo ra nhiều thách thức, từ việc phân tích
dữ liệu đến xây dựng các mô hình dự đoán chính xác Điều này mang lại cơ hội để nghiên cứu và tạo ra các cải tiến trong lĩnh vực này
Sau quãng thời gian học tập tại trường, em đã nhận được nhiều kiến thức quýgiá từ thầy cô và bản thân em tích luỹ được Sự phát triển mạnh mẽ của Khoa học máytính đặc biệt những ứng dụng của học máy trong lĩnh vực chuẩn đoán đã khơi dậy cho
em tò mò và khao khát áp dụng học máy vào cuộc sống hằng ngày Sau thời gian traođổi và nhờ sự chỉ bảo tận tình của thầy Nguyễn Văn Hậu, người đã trực tiếp hướng dẫnbài tập lớn 2 của em, em đã quyết định chọn đề tài: “Áp dụng các kỹ thuật học máy để
dự đoán chứng khoán” nhằm ứng dụng những gì đã được học, góp phần làm căn cứ hỗtrợ cho các nhà đầu tư
1.2 Mục tiêu của đề tài
Tạo ra một hoặc nhiều mô hình dự đoán chứng khoán thông qua các kỹ thuật họcmáy, nhằm đạt được mức độ chính xác cao trong việc dự báo giá cổ phiếu hoặc xu hướng thị trường
Trang 10Dự đoán chứng khoán
Tìm hiểu và áp dụng các mô hình để giúp nhà đầu tư đưa ra các quyết định đầu
tư thông minh dựa trên dự đoán thị trường, tối ưu hóa lợi nhuận và giảm thiểu rủi ro Tạo ra một giải pháp có thể triển khai thực tế và ứng dụng vào môi trường giao dịch chứng khoán, đáp ứng nhu cầu của các nhà đầu tư và nhà giao dịch
Phát triển kỹ năng về học máy, phân tích dữ liệu, lập trình và tài chính thông qua việc tham gia vào quá trình nghiên cứu và phát triển dự án này
1.3 Giới hạn và phạm vi của đề tài
1.3.1 Đối tượng nghiên cứu
Ứng dụng một số kỹ thuật khai phá dữ liệu cơ bản để dự đoán chứng khoán
1.3.2 Phạm vi nghiên cứu
Tìm hiểu, mô tả và phân tích dữ liệu lịch sử để hiểu cấu trúc và xu hướng của thị trường chứng khoán
Lựa chọn và xây dựng mô hình học máy, cân nhắc sử dụng nhiều mô hình khác nhau
để so sánh hiệu suất và đánh giá tính ứng dụng
1.4 Phương pháp tiếp cận
Xem xét và tìm hiểu các kiến thức lý thuyết về chứng khoán, các yếu tố ảnh hưởng, và các mô hình học máy phổ biến được áp dụng trong dự đoán giá cổ phiếu.Tham khảo và lấy dữ liệu trên Kaggle
Tham khảo thông tin trên các trang internet
Trang 11Dự đoán chứng khoán
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Khái niệm khai phá dữ liệu và học máy
2.1.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu (Data Mining) là một quá trình mạnh mẽ trong lĩnh vực khoahọc dữ liệu và phân tích dữ liệu Nó là quá trình tự động hoá để khám phá thông tin
ẩn, mẫu, kiến thức, và tri thức từ các tập dữ liệu lớn, đa dạng, và thường là phức tạp.Mục tiêu chính của khai phá dữ liệu là biến dữ liệu thô thành thông tin giá trị và thậmchí là tri thức để hỗ trợ quyết định và dự đoán trong nhiều lĩnh vực, từ kinh doanh vàkhoa học đến chăm sóc sức khỏe và ngành công nghiệp
Khai phá dữ liệu đặc biệt hữu ích khi chúng ta đối diện với dữ liệu lớn và phứctạp mà không thể dễ dàng nắm bắt thông qua các phương pháp truyền thống Quátrình này thường bao gồm việc sử dụng các kỹ thuật và công cụ đa dạng như học máy,thống kê, trí tuệ nhân tạo, và cơ sở dữ liệu
Một số ứng dụng thường thấy của khai phá dữ liệu bao gồm:
1 Dự đoán và phân tích dự đoán: Khai phá dữ liệu cho phép xây dựng các mô hình
dự đoán dựa trên dữ liệu lịch sử Ví dụ, trong ngành tài chính, nó có thể được sửdụng để dự đoán giá cổ phiếu hoặc tình hình thị trường tài chính trong tương lai
2 Phân loại và gom cụm: Khai phá dữ liệu có khả năng phân loại các đối tượng vào các nhóm hoặc phân cụm dựa trên các đặc điểm chung Ví dụ, trong chăm sóc sức khỏe, nó có thể được sử dụng để phân loại bệnh nhân vào các nhóm rủi ro khácnhau
3 Phân tích mẫu và chuỗi sự kiện: Đặc biệt hữu ích cho các tập dữ liệu có tính chất chuỗi thời gian hoặc dạng đồ thị, khai phá dữ liệu có thể giúp xác định mẫu vàchuỗi sự kiện đáng chú ý
4 Tối ưu hóa quy trình: Khai phá dữ liệu giúp cải thiện quy trình kinh doanh, ví
dụ, tối ưu hóa quản lý tồn kho, lập lịch sản xuất, và quản lý chuỗi cung ứng 5
Tìm kiếm tri thức và bất thường: Nó có thể được sử dụng để tìm ra tri thức mới và
xác định các điểm bất thường trong dữ liệu, giúp phát hiện vấn đề hoặc cơ hộiquan trọng
Khai phá dữ liệu không chỉ là một quá trình phức tạp mà còn là một quá trình đòi hỏi
sự hiểu biết sâu rộng về dữ liệu, mô hình hóa, và các kỹ thuật liên quan Nó đóng vaitrò quan
trọng trong việc tạo ra giá trị từ dữ liệu và cung cấp cơ hội phân tích sâu hơn và địnhhướng cho nhiều ngành công nghiệp và lĩnh vực nghiên cứu
2.1.2 Khái niệm học máy
Học máy (Machine Learning) là một lĩnh vực của trí tuệ nhân tạo (AI) tập trungvào việc phát triển các thuật toán và mô hình có khả năng học từ dữ liệu và cung cấp
Trang 12Dự đoán chứng khoán
các dự đoán và quyết định dựa trên học hỏi đó Điều đặc biệt về học máy là khả năng
tự cập nhật và cải thiện hiệu suất sau mỗi lần huấn luyện
Học máy chủ yếu được chia thành ba loại chính:
1 Học máy có giám sát (Supervised Learning): Trong loại này, mô hình được huấn luyện trên một tập dữ liệu đã được gán nhãn Nó học từ các cặp đầu vào-vào ra để tạo ra một bản đồ hàm từ đầu vào đến đầu ra Mục tiêu cuối cùng là học được một quy tắc tổng quát từ dữ liệu huấn luyện để có thể đưa ra dự đoán chính xác trên dữ liệu mới chưa từng thấy
2 Học máy không giám sát (Unsupervised Learning): Ngược lại, trong học máykhông giám sát, mô hình được huấn luyện trên dữ liệu không có nhãn Mục tiêu làtìm ra các mẫu, cấu trúc hoặc phân cụm tự nhiên trong dữ liệu mà không cần biếttrước
3 Học máy bán giám sát (Semi-Supervised Learning): Loại này kết hợp cả haiphương pháp trên, sử dụng cả dữ liệu có nhãn và dữ liệu không có nhãn để huấnluyện mô hình
Học máy có ứng dụng rộng rãi trong nhiều lĩnh vực như nhận diện hình ảnh, xử lýngôn ngữ tự nhiên, dự báo thị trường tài chính, y học, xe tự lái, và nhiều lĩnh vựckhác Đặc biệt, việc sử dụng học máy để tạo ra các hệ thống gợi ý đã trở thành mộtứng dụng phổ biến và hữu ích trong thế giới công nghệ ngày nay
2.1.3 Liên hệ giữa khai phá dữ liệu và học máy
Khai phá dữ liệu và học máy là hai khía cạnh quan trọng của quá trình tríchxuất giá trị từ dữ liệu Mặc dù chúng có mục tiêu chung là tìm ra thông tin hữu ích từ
dữ liệu, nhưng chúng tiếp cận mục tiêu này từ các góc độ khác nhau
Khai phá dữ liệu tập trung vào việc tìm kiếm, phân tích, và rút ra thông tin ẩn từcác tập dữ liệu lớn và phức tạp Đây là quá trình phân loại, phân cụm, dự đoán và pháthiện mẫu trong dữ liệu Các kỹ thuật khai phá dữ liệu thường sử dụng thống kê, biểu
đồ, và các phương pháp truyền thống khác để tìm ra cấu trúc và tri thức từ dữ liệu Học máy, mặt khác, là một lĩnh vực của trí tuệ nhân tạo tập trung vào việc xâydựng mô hình và thuật toán có khả năng học hỏi từ dữ liệu Chúng ta huấn luyện môhình học máy trên dữ liệu huấn luyện đã có nhãn và sau đó sử dụng mô hình đã học
để dự đoán hoặc phân loại dữ liệu mới Học máy thường sử dụng các thuật toán nhưmạng nơ-ron, máy vector hỗ trợ (SVM), và cây quyết định để xây dựng mô hình Mối liên hệ giữa hai lĩnh vực này thể hiện rõ trong việc sử dụng học máy trongcác bước của quá trình khai phá dữ liệu Học máy có thể được sử dụng để xây dựngcác mô hình dự đoán hoặc phân loại trong các nhiệm vụ khai phá dữ liệu Ví dụ, khikhai phá dữ liệu từ một tập dữ liệu lớn về người dùng và mua sắm trực tuyến, chúng
ta có thể sử dụng học máy để dự đoán sản phẩm mà người dùng có thể quan tâm dựatrên lịch sử mua sắm của họ
Khai phá dữ liệu và học máy là hai công cụ quan trọng và bổ trợ nhau trongviệc hiểu và tận dụng giá trị từ dữ liệu Khai phá dữ liệu giúp tìm ra thông tin ẩn và
Trang 13Dự đoán chứng khoán
mẫu, trong khi học máy cung cấp khả năng dự đoán và phân loại dựa trên dữ liệu đãhọc Khi kết hợp, chúng tạo ra cơ hội để tạo ra các ứng dụng thông minh và quyếtđịnh thông qua sự hiểu biết sâu về dữ liệu
2.2 Các kỹ thuật khai phá dữ liệu
2.2.1 Kỹ thuật tiền xử lý dữ liệu
- Xử lý dữ liệu khuyết thiếu ( Handling Missing Data): là quá trình đối phó với dữliệu bị thiếu hoặc không đầy đủ trong tập dữ liệu Dữ liệu có thể bị thiếu vì nhiều lý
do như lỗi trong quá trình thu thập, thông tin không được ghi lại, hoặc dữ liệu bịhỏng Việc xử lý dữ liệu khuyết thiếu là một phần quan trọng trong quá trình tiền xử
lý dữ liệu trước khi áp dụng các mô hình học máy hoặc thực hiện phân tích dữ liệu
- Chuẩn hóa dữ liệu (Data Normalization): là quá trình biến đổi dữ liệu trongtập dữ liệu thành một định dạng cụ thể hoặc khoảng giá trị nhất định để tạo ra mộtphạm vi đồng
nhất hoặc chuẩn hóa cho dữ liệu Mục tiêu chính của việc chuẩn hoá dữ liệu là đảmbảo rằng các biến số có trong tập dữ liệu có cùng phạm vi hoặc đơn vị đo lường, giúptránh hiện tượng các biến có trọng số khác nhau hoặc ảnh hưởng quá mức trong quátrình phân tích dữ liệu hoặc xây dựng mô hình
- Loại bỏ nhiễu trong dữ liệu (Noise Removal): là quá trình loại bỏ hoặc giảmthiểu các yếu tố không mong muốn, gây nhiễu hoặc nhiễm vào dữ liệu, thông tin hoặctín hiệu để cải thiện chất lượng hoặc độ tin cậy của dữ liệu đó Nhiễu (noise) có thể làcác tín hiệu ngẫu nhiên, biến đổi không mong muốn, hay các yếu tố ngoại lai gây méo
mó dữ liệu Loại bỏ nhiễu là một bước quan trọng trong tiền xử lý dữ liệu và phân tích
dữ liệu để đảm bảo rằng thông tin trích xuất hoặc sử dụng cho mô hình hóa và raquyết định là đáng tin cậy
- Còn nhiều cái nữa …………
2.2.2 Phân tích thống kê dữ liệu
Phân tích thống kê dữ liệu (Statistical Data Analysis) là quá trình áp dụng các phương pháp, công cụ và kỹ thuật thống kê để khám phá, tóm tắt, diễn giải và đưa ranhững hiểu biết từ dữ liệu Mục tiêu chính của phân tích thống kê là biến dữ liệuthành thông tin hữu ích và giúp người dùng hiểu sâu hơn về tính chất, mối quan hệ vàbiểu đồ của dữ liệu Phân tích thống kê dữ liệu thường được áp dụng trong nhiều lĩnhvực, từ khoa học, kinh doanh, y học, xã hội học đến công nghệ và nhiều lĩnh vựckhác
Các hoạt động chính trong phân tích thống kê dữ liệu bao gồm:
1 Mô tả dữ liệu: Điều này bao gồm việc sử dụng các thống kê mô tả như trung bình, phương sai, phân phối tần số, biểu đồ dạng histogram, biểu đồ hộp (box plot), và biểu đồ phân tán để tóm tắt và biểu diễn dữ liệu một cách trực quan
2 Kiểm định giả thuyết (Hypothesis Testing): Các kiểm định giả thuyết được sử dụng
để kiểm tra các giả thuyết về dữ liệu Ví dụ, kiểm định t làm cho bạn có thể xácđịnh xem có sự khác biệt ý nghĩa giữa hai nhóm dữ liệu hay không
Trang 14Dự đoán chứng khoán
3 Phân tích biểu đồ và biểu đồ: Sử dụng biểu đồ và biểu đồ thống kê như biểu đồ cột, biểu đồ đường, biểu đồ tròn, biểu đồ dạng scatter plot để hiểu mối quan hệ và xu hướng trong dữ liệu
4 Mô hình hóa và dự đoán: Sử dụng các mô hình thống kê như hồi quy tuyến tính, phân tích phương sai (ANOVA), và các mô hình học máy để dự đoán hoặc mô hình hóa dữ liệu
5 Phân tích thời gian chuỗi: Trong trường hợp dữ liệu là chuỗi thời gian, phântích thống kê giúp xác định xu hướng, mùa vụ, và các biến đổi theo thời gian 6
Phân tích đa biến và phân tích phân nhóm: Trong trường hợp có nhiều biến số
hoặc nhóm dữ liệu, phân tích đa biến và phân tích phân nhóm giúp hiểu mối quan
hệ và sự khác biệt giữa các biến số hoặc nhóm
Phân tích thống kê dữ liệu là một công cụ mạnh mẽ trong việc tạo ra kiến thức, dựđoán, và ra quyết định dựa trên dữ liệu, cung cấp cơ sở cho việc ra quyết định dựatrên bằng chứng số liệu và giúp chúng ta hiểu sâu hơn về thế giới xung quanh
2.2.3 Mô hình hóa dữ liệu
Mô hình hóa dữ liệu (Data Modeling) là quá trình tạo ra một biểu đồ hoặc môhình biểu diễn dữ liệu trong một hình thức cụ thể để hiểu, mô tả, hoặc dự đoán cácmối quan hệ, mẫu, và thông tin bên trong dữ liệu Mô hình hóa dữ liệu giúp biểu diễn
dữ liệu một cách trực quan và thường được sử dụng để phân tích, đánh giá, và thậmchí dự đoán các biểu hiện trong dữ liệu
Mô hình hóa dữ liệu có thể thực hiện trong nhiều lĩnh vực và có các dạng khácnhau, bao gồm:
1 Biểu đồ và biểu đồ thống kê: Đây là một hình thức phổ biến của mô hình hóa dữliệu Biểu đồ và biểu đồ thường được sử dụng để trực quan hóa dữ liệu dưới dạngcột, đường, tròn, scatter plot, biểu đồ hộp (box plot), và nhiều loại biểu đồ khác.Chúng giúp hiểu mối quan hệ giữa các biến số và biểu diễn mẫu dữ liệu
2 Mô hình hóa thống kê: Sử dụng các mô hình thống kê như mô hình hồi quy tuyến tính, mô hình phân tích phương sai (ANOVA), và các mô hình khác để diễn giải và
dự đoán dữ liệu Các mô hình này giúp xác định mối quan hệ thống kê giữa cácbiến số và có thể dự đoán giá trị dựa trên dữ liệu đầu vào
3 Mô hình hóa 3D và hình ảnh: Sử dụng mô hình 3D để biểu diễn dữ liệu trongkhông gian ba chiều hoặc mô hình hóa hình ảnh để xem xét cấu trúc và thông tinbên trong hình ảnh
4 Mô hình hóa dữ liệu thời gian chuỗi: Đối với dữ liệu thời gian, mô hình hóa dữ liệu
có thể bao gồm việc sử dụng mô hình chuỗi thời gian như ARIMA(Autoregressive Integrated Moving Average) để dự đoán xu hướng và mẫu trong
dữ liệu
Mục tiêu của mô hình hóa dữ liệu là biểu diễn dữ liệu một cách rõ ràng và giúpngười sử dụng hiểu sâu hơn về dữ liệu, tìm ra các mẫu quan trọng, và thậm chí dựđoán tương lai dựa trên thông tin hiện có
Trang 15Ưu điểm
+ Dễ Hiểu và Triển Khai: Linear Regression là một thuật toán đơn giản và dễ hiểu Người ta có thể hiểu thuật toán này mà không cần kiến thức chuyên sâu về toán học.+ Hiệu Suất Tốt với Dữ Liệu Đơn Giản: Khi dữ liệu có mối quan hệ tuyến tính, Linear Regression thường đưa ra các dự đoán hiệu quả và chính xác
+ Ít Tham Số Cần Điều Chỉnh: Linear Regression có ít tham số cần điều chỉnh so với một số thuật toán phức tạp khác
+ Dùng Được cho Cả Phân Tích và Dự Đoán: Linear Regression không chỉ giúp dự đoán giá trị mục tiêu mà còn giúp hiểu rõ mối quan hệ giữa biến phụ thuộc và biến độclập
Nhược điểm
+ Giả Định Về Tuyến Tính: Linear Regression giả định rằng mối quan hệ giữa các biến là tuyến tính Điều này có thể là một hạn chế nếu mối quan hệ thực sự không phảinhư vậy
+ Nhạy Cảm với Nhiễu: Linear Regression có thể nhạy cảm với các điểm nhiễu trong
dữ liệu, và điều này có thể ảnh hưởng đến hiệu suất của mô hình
+ Không Xử Lý Tốt Cho Dữ Liệu Phi Tuyến Tính: Khi mối quan hệ giữa các biến không phải tuyến tính, Linear Regression có thể cho kết quả không chính xác hoặc không chính xác
+ Không Phù Hợp Cho Dữ Liệu Phức Tạp: Trong trường hợp dữ liệu phức tạp với nhiều biến độc lập và mối quan hệ phức tạp, Linear Regression có thể không đủ mạnh mẽ
Trang 16Dự đoán chứng khoán
+ Mặc dù Linear Regression có nhược điểm, nhưng nó vẫn là một công cụ quan trọng
và mạnh mẽ trong kho công cụ của các nhà nghiên cứu và người làm machine learning
2.3.2 Rừng Ngẫu Nhiên (Random Forest)
Giới thiệu
Random forest là một phương pháp thống kê mô hình hóa bằng máy (machine learning statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định (Decision tree).Random Forest cho thấy hiệu quả hơn so với thuật toán phân loại thường được sử dụng vì có khả năng tìm ra thuộc tính nào quan trọng hơn so với những thuộc tính khác.Trên thực tế, nó còn có thể chỉ ra rằng một số thuộc tính là không có tác dụng trong cây quyết định Trong phạm vi bài báo này, nhóm nghiên cứu giới hạn phạm vi trong công tác khảo sát tính khoa học của phương pháp và định hướng việc ứng dụng phương pháp cho công tác phân loại ảnh viễn thám có kiểm định Kết quả thử nghiệm cho thấy khả năng ứng dụng phương pháp Random forest vào trong công tác phân loại có kiểm định ảnh viễn thám là hoàn toàn khả thi
Ưu, Nhược điểm
Ưu điểm:
Trang 17Dự đoán chứng khoán
Khả Năng Xử Lý Dữ Liệu Lớn và Khả Năng Mở Rộ:
Random Forest có khả năng xử lý các bộ dữ liệu lớn mà không gặp vấn
đề về tài nguyên hoặc hiệu suất
Khả Năng Làm Việc Với Nhiều Loại Dữ Liệu
Có thể xử lý cả dữ liệu số và dữ liệu phân loại mà không cần phải chuyển đổi chúng
Ổn Định và Tính Tổng Hợp Cao
Random Forest tạo ra nhiều cây quyết định riêng biệt và sau đó kết hợp chúng, giúp giảm thiểu nguy cơ overfitting và tăng tính tổng hợp của môhình
Khả Năng Ưu Tiên Đặc Điểm Quan Trọng
Cung cấp thông tin về độ quan trọng của từng đặc trưng, giúp định rõ những đặc trưng nào quan trọng trong quá trình dự đoán
Khả Năng Đối Mặt với Thiếu Dữ Liệu và Dữ Liệu Nhiễu:
Random Forest có khả năng xử lý dữ liệu bị thiếu và chứa nhiễu mà không cần quá nhiều tiền xử lý
Khả Năng Tự Động Điều Chỉnh
Có thể sử dụng mặc định hoặc tinh chỉnh các siêu tham số để đạt được hiệu suất tốt
Nhược điểm:
Khả Năng Hiểu Quả Tăng Cao
Do sự phức tạp của mô hình, Random Forest có thể trở nên khá khó hiểucho những người mới vào lĩnh vực machine learning
Khả Năng Tăng Thời Gian Đào Tạo
Việc xây dựng nhiều cây quyết định có thể làm tăng thời gian đào tạo so với mô hình đơn lẻ
Khó Điều Chỉnh Tinh Chỉnh Tham Số
Tinh chỉnh các tham số có thể là một quá trình phức tạp và tốn thời gian, đặc biệt là với các bộ dữ liệu lớn
Khả Năng Overfitting
Trang 18Dự đoán chứng khoán
Mặc dù Random Forest giảm thiểu nguy cơ overfitting so với một cây quyết định đơn lẻ, nhưng vẫn có khả năng xảy ra nếu không được điều chỉnh đúng
Khả Năng Mất Đi Thông Tin Cấp Cao
Do việc tổng hợp thông tin từ nhiều cây, mô hình có thể mất đi một số thông tin cấp cao được biểu diễn bởi dữ liệu
Tóm lại, Random Forest là một mô hình mạnh mẽ có nhiều ưu điểm, đặcbiệt là trong việc xử lý dữ liệu lớn và phức tạp Tuy nhiên, nhược điểm cũng cần được xem xét khi quyết định sử dụng mô hình này cho một vấn
đề cụ thể
2.3.3 Decision Tree
Cây quyết định (DECISION TREE) là sơ đồ trong phân tích tài chính thể hiệnmối tương tác của những tỷ số tài chính, và một tỷ số ảnh hưởng đến tỷ số khác nhưthế nào, cho phép nhà phân tích tài chính hoặc người kiểm tra ngân hàng, xem xét mốiquan hệ nguyên nhân và kết quả trong những tỷ số khác nhau
Mô hình tính điểm tín dụng kiểm tra tương tác giữa các yếu tố tín dụng khácnhau, ví dụ, tuổi tác, thu nhập, loại nhà ở của bên vay nợ, bằng phương tiện là biểu đồgiống hình cây Khác với phân tích tính điểm được chấp nhận rộng rãi, là gán điểmcho từng yếu tố tín dụng được xem xét khi chấp nhận hoặc bác bỏ đơn xin cấp tíndụng
Cây quyết định là một trong những mô hình có khả năng diễn giải cao và có thểthực hiện cả nhiệm vụ phân loại và hồi quy Như tên cho thấy Cây Quyết định là môhình cấu trúc giống cây giống như cây lộn ngược Tại thời điểm này, bạn có thể có mộtcâu hỏi như chúng ta đã có các mô hình học máy cổ điển như hồi quy tuyến tính và hồiquy logistic để thực hiện các nhiệm vụ hồi quy và phân loại trong trường hợp như vậythì sự cần thiết của một mô hình khác như Cây quyết định là gì Câu trả lời cho câu hỏinày là để thực hiện các mô hình tuyến tính cổ điển, chúng ta cần đảm bảo rằng dữ liệuđược sử dụng để đào tạo mô hình không có tất cả các bất thường như giá trị bị thiếu,các giá trị ngoại lệ cần được xử lý, đa cộng tuyến cần được giải quyết Toàn bộ quátrình tiền xử lý dữ liệu cần được thực hiện trước đó Trong khi trong Cây quyết định,chúng ta không cần phải thực hiện bất kỳ loại xử lý trước dữ liệu nào trước đó CâyQuyết định đủ mạnh để xử lý tất cả các loại vấn đề như vậy để đi đến quyết định.Ngoài ra, Cây quyết định có khả năng xử lý dữ liệu phi tuyến mà các mô hình tuyếntính cổ điển không xử lý được Do đó Cây quyết định đủ đa dạng để thực hiện cả