Khai phá dữ liệu trong lĩnh vực tài chính được sử đụng để tăng độ trung thành của một lượng lớn khách hàng thông qua việc thu thập thông tin cá nhân và phân tích các đữ liệu về những hà
Trang 1TIEU LUAN CUOI KY KHOA HQC DU LIEU
NGHIEN CUU CAC PHUONG PHAP KHAI PHA DU LIEU VA UNG DUNG NEURAL NETWORK VAO CHI SO TAI CHINH EPS DE DU BAO TINH HINH HOAT DONG KINH DOANH CUA CAC CONG TY NIEM YET TREN SAN GIAO DICH CHUNG
KHOAN TAI VIET NAM GIANG VIEN HUONG DAN: NCS.TS THAI KIM PHUNG
MA HOC PHAN: 21C1INF50905915 — SANG THU 5
SINH VIEN THUC HIEN: NGUYEN HOANG VINH
MA SO SINH VIEN: 31191026561 — STT: 36 — FNC05 — K45
Thanh phố Hồ Chí Minh — Ngay 23 thang 10 nim 2021
Trang 2
MUC LUC
DANH MỤC CHỮ VIẾT TẮT -2s- s22 2 2 t2 2tr re IV DANH MỤC BẢNG BIẾU —- HÌNH VẼ VÀ BIẾU ĐỎ 0 nnrrye Vv Chương I: GIỚI THIỆU 2s 22222272222 HH2 1
2.2 Phân lớp dữ liệu 2 22s 2 2122122222222 ra 8 2.2.1 Khái niệm về phân lớp dữ liệu 22 22 2h22 ra §
2.2.2 Quy trình phân lớp dữ liệu 20 21221212212 21251 221221211201 1112111 11x kg 8 2.2.2.1 Xây dựng mô hình phân lop (Learning) 0000000000000 certs 8
Trang 32.2.2.2 Ước lượng độ chính xác của mô hình và phân lớp dữ liệu mới
2.2.3 Các phương pháp phân lớp dữ liệu S0 2222122222222 rrae 10 2.2.3.1 Hồi quy Logistic (Logistic Regression) con ereneerei 10 2.2.3.2 SVM (Support Vector Machine) Hee 12 2.2.3.3 Cây quyết định (Decision Tree) 0 neo 13 2.2.3.4 Neural NetworE chư Hà HH HH HH tk 14 2.2.4 Chỉ tiết mô hình khai phá dữ liệu bằng Neural Network 14 2.2.5 Các phương pháp đánh giá mô hình phân lớp -ị cv 17 2.2.5.1 Ma trận nhằm lẫn (Confusion Matrix) và độ chính xác (Áccuracy); ROC, AUC, Precision/Recall Ỏ eecce cen ceneecceneecenseeecnstentteeenseese 17 2.2.5.2 Cross Validation: Holdout và K-fold cross validation 20
Chương 3: PHẦN TÍCH DỮ LIỆU HUẦN LUYỆN VÀ DỰ BÁO 22
3.1 So luge thi trwong ching khoan tai Viet Nam 00000000000 Q20 2222 nen re 22 3.2 Mô hình nghiên cứu 0 0221221221121 1512221211221212111 1111155111111 01 11111 1111 xe 24 3.2.1 Xây dựng biến số dùng nghiên cứu 22-2 nhe rrờe 24
kbhunNG:: 0 Xr( (aaaÝỶÝÝÃÝỶẢ 24 3.2.1.2 Biến độc lập Q0 non 22 121g g1 rryu 25 3.2.2 Mô hình nghiên cứu đề xuẤt 0 S2 Ự TỰ 2z rrtrg rước 26
3.3 Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu 26
3.4 Bộ dữ liệu huấn luyện 2 2h22 22222212221 n gen 27
3.5 Bộ dữ liệu dự báo 0 212122212 21212111121 012101212111 11 1111111111211 2111 xe 28 3.6 Kết quả của dữ liệu huấn luyện 2 22 H222 2t re 29
3.7 Kết quả của dữ liệu dự báo HH2 rryờn 33
3.8 Kết luận của kết quả nghiên cứu 2 2s ng 36
Trang 4Chuong 4: KET LUAN VA HAN CHE - GIAT PHAP 00sec 38 4.1 Qt Mat occ cece ceeceeseesceeseee sees teesvesieesvesieesvesietentenstantententintetisinenenenen 38 4.2 Hạn chế và giải pháp 0 2 nhờn 39 TÀI LIỆU THAM KHẢO 22 2s 22222 ng gang n2 tre I
Tài liệu tham khảo trong nước ccc ecee cee eeeteeneeeecaeeaeeseeseesseteseneeeteesseenes 1 Tài liệu tham khảo nước ngoài 0 0 2n 22c 22 2122121211121 212 2511211111111 111 1x1 xe II
PHỤ LỤC 1: DANH SÁCH CÔNG TY NIEM YET TRONG BO DU LIEU HUAN
Trang 5DANH MUC CHU VIET TAT
EPS: Earning Per Share
HOSE: Sàn giao dịch chứng khoán tại Thành phố Hồ Chí Minh HNX: Sản giao dịch chứng khoán tại Hà Nội
UPCOM: Sàn giao dịch chứng khoán tại Thành phó Hồ Chí Minh
AUC: Area Under Curve
ROC: Receiver Operating Characteristic
SVM: Support Vector Machine
MCU: Multipoint Control Unit
ASEAN: Hiệp hội các quốc gia Đông Nam A
SAR - COV - 2: Viết tắt của đại dịch COVID - 19
PE: Price to Earning ratio
ROA: Return on Assets
ROE: Return on Equity
BV: Price to Book value
DE: Debt to Equity
Trang 6DANH MUC BANG BIEU - HÌNH VẼ VÀ BIÊU ĐỎ
Hình 2.1 Quy trình khai phá dữ liệu
Hình 2.2 Quá trình phân lớp dữ liệu - Xây dựng mô hình phân lớp
Hình 2.3 Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình Hinh 2.4 Quá trình phân lớp dữ liệu —- Phân lớp dữ liệu mới
Hình 2.5 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic Hinh 2.6 Biéu dé thé hién gid tri Margin va Support Vector
Hình 2.7 Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cụ thé Hình 2.8 Hình vẽ thể hiện mạng lưới hoạt động của Neural Network
Hình 2.9 Đường cong ROC
Hình 2.10 Diện tích đường cong RÓỌC (độ đo AUC)
Bảng 2.1 Ma trận nhằm lẫn
Bảng 2.2 Độ đo AUC với độ chính xác của mô hình phân lớp
Hình 3.1 Dữ liệu huấn luyện của 20 công ty niêm yết
Hình 3.2 Dữ liệu dự báo của 20 công ty niêm yết
Hình 3.3 Mô tả các thuộc tính của các biến
Hình 3.4 Tổng quan về quy trình huấn luyện và dự báo bằng sơ đỗ
Hình 3.5 Kết quả của mô hình đánh giá phân lớp bằng Cross Validation Hình 3.6 Ma trận nhằm lẫn với Neural Network
Hình 3.7 Các thuộc tính của bộ dữ liệu dự báo
Hình 3.8 Kết quả của dự báo bằng Neural Network
Hình 3.9 Chỉ số Neural Network
Biéu đồ 3.1 Biểu đỗ thể hiện chỉ số VN—INDEX của Việt Nam giai đoạn 2018 — 2020
Trang 7Chuong 1: GIOI THIEU
1.1 Lý do lựa chọn đề tài
Công nghệ thông tin đóng vai trò hết sức quan trọng trong việc phát triển kinh tế —
xã hội, cũng như về cả mặt văn hóa và chính trị cùng với đó góp phan hình thành những
nhân tế mới, con người mới Công nghệ thông tin tại Việt Nam ngày nay cũng dần phát
triển và bùng nỗ khiến cho việc thu thập một lượng lớn dữ liệu tăng lên nhanh chóng Mặc dù, đã có nhiều công cụ hỗ trợ cho việc thụ nhập, lưu trữ và khai phá dữ liệu, song, với sự bùng nê lớn mạnh của thông tin được thu thập đã vượt ngoài tầm kiểm soát của con người để có thể nắm bắt chúng và xử lý kịp thời Cần phải có kỹ thuật khai phá một
bệ đữ liệu lớn, vì thế, khai phá đữ liệu đang là mối quan tâm hàng đầu của các nhà nghiên cứu trong những năm gần đây Khai phá đữ liệu có thể được ứng dụng trên nhiều các lĩnh
vực như tài chính, ngân hàng, công nghệ thông tin, y tế, giáo dục, Đặc biệt, với sự phát triển không ngừng của ngành tài chính hiện nay, việc mà chúng ta xử lý dữ liệu quá lớn
cần phải được thực hiện nhanh chóng, triệt dé, tránh mất mát nhiều thời gian Ngày nay,
công nghệ thông tin càng ngày càng phát triển đồng nghĩa với việc chúng ta cần phải phát triển hơn các phần mềm, các ứng dụng để nâng cao năng suất làm việc, thay thế cho những kỹ thuật xử lý thô sơ như trước Chính vì thế, khai phá dữ liệu là công cụ phân tích, giúp cho việc xử lý dữ liệu được diễn ra nhanh chóng và thông minh hơn Khai phá
dữ liệu cho phép người sử dụng phân tích dữ liệu với nhiều góc độ khác nhau, phân loại
dữ liệu theo nhiều quan điểm riêng biệt từ đó, tông kết các mối quan hệ đã được bóc tách
Lĩnh vực tài chính là một trong những lĩnh vực ngày càng nỗi tiếng qua nhiều giai
đoạn, đặc biệt là về thi trường chứng khoán có sức hút đối với rất nhiều người, kê cả những bạn sinh viên học tập tại các trường Đại học và Cao Đăng Khai phá dữ liệu trong
lĩnh vực tài chính được sử đụng để tăng độ trung thành của một lượng lớn khách hàng thông qua việc thu thập thông tin cá nhân và phân tích các đữ liệu về những hành vi của khách hàng Lĩnh vực tài chính ở đây chính là các ngân hàng, họ sử dụng các thông tin liên quan đề dự báo những hành vi của khách hàng, từ đó sẽ đưa ra các sản phâm và dịch
vụ thích hợp nhất Không chỉ về mặt dự báo về những hành vi của khách hàng, khai phá
dữ liệu trong chứng khoán sẽ giúp các nhà tài chính có cái nhìn rõ hơn về mối tương quan
Trang 8giữa các chí số tài chính, giúp phát hiện ra các rủi ro cao từ những hoạt động giao dịch thường ngày
Đâu tư tài chính là một trong những hoạt động diễn ra trên thị trường vốn với một
đóng góp đáng kế vào thu nhập quốc dân của một quốc gia Sở giao dịch chứng khoán Thành phó Hồ Chí Minh (HOSE) và Sở giao dịch chứng khoán Hà Nội (HNX, UPCOM)
là một thị trường vốn cho các công cụ tài chính dài hạn khác nhau có thể được giao dịch,
dưới dạng nợ hoặc vốn tự có Cễ phiếu là một trong những công cụ thị trường vốn mà các nhà đầu tư rất quan tâm hiện nay Cổ phiếu như một dấu hiệu của sự tham gia hoặc sở hữu của một cá nhân hoặc thực thể trong một công ty hữu hạn hoặc cá nhân Trong đó, chỉ số
EPS của cô phiếu khá là quan trọng trong việc đánh giá một công ty có hoạt động kinh
doanh tốt hay không Tỷ lệ thu nhập trên mỗi cô phiếu (EPS) được sử dụng để đo lường
sự thành công của ban lãnh đạo trong việc đạt được lợi nhuận cho các chủ sở hữu của công ty EPS mô tả khả năng sinh lời của công ty được phản ánh trên mỗi cô phiếu Giá
trị của EPS càng cao thì lợi nhuận càng lớn và có khả năng tăng lượng cô tức mà cô đông nhận được Chứng tỏ rằng EPS càng cao, mô hình hoạt động kinh doanh của công ty rất
tốt
Vì vậy, để kết hợp giữa các phương pháp khai phá dữ liệu trong lĩnh vực công
nghệ thông tin cùng với phân tích dự báo chí số EPS trong lĩnh vực tài chính, tôi quyết định chọn đề tài “Nghiên cứu các phương pháp khai phá dữ liệu và ứng dụng Neural Network vào chỉ số tài chính EPS để dự báo tình hình hoạt động kinh doanh của các công ty niêm yết trên sàn giao dịch chứng khoán tại Việt Nam”
1.2 Mục tiêu nghiên cứu
Bài nghiên cứu “Nghiên cứu các phương pháp khai phá dữ liệu và ứng dụng
Neural Network vào chỉ số tài chính EPS để dự báo tình hình hoạt động kinh doanh
của các công ty niêm yết trên sàn giao dịch chứng khoán tại Việt Nam” nhằm tập trung những mục tiêu được đề cập dưới đây:
Bài nghiên cứu tiến hành phân tích các lý thuyết của khai phá đữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu
° Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp đữ liệu (phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp các đối tượng)
Trang 9Nghiên cứu sẽ đưa các phương pháp phân lớp dữ liệu, và từ đó sẽ chọn ra một phương
pháp tối ưu và đảm bảo nhất cho quá trình dự báo đữ liệu
° Dự báo các mô hỉnh hoạt động kinh doanh sẽ dựa vào bộ dữ liệu đã được huấn
luyện, từ đó sẽ đưa ra những mô hình hoạt động kinh doanh tốt nhất cho các doanh nghiệp được niêm yết trên sàn chứng khoán
° Qua những kết quả của dữ liệu huấn luyện cùng với đó là dự báo mô hình hoạt động kinh doanh thông qua chỉ số EPS, tôi sẽ đưa ra các kết luận, cùng với đó là những
hạn chế của bài nghiên cứu, sau đó đưa ra giải pháp tốt nhất cho bài nghiên cứu
1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu
Đối tượng nghiên cứu của để tài là 337 doanh nghiệp đã được niêm yết trên hai san
chứng khoán tại Việt Nam bao gồm sàn giao dịch chứng khoán Thành phố Hồ Chí Minh (HOSE) và sàn giao dịch chứng khoán Hà Nội (HNX, UPCOM) với số liệu tài chính của Quý II năm 2021 (số liệu được lấy từ 10 nhóm ngành khác nhau) Số liệu được chia thành
2 phan voi 110 mau quan sát cho bộ đữ liệu huấn luyện (Ngành Thực Phẩm) và 227 mẫu quan sát cho bộ dữ liệu dự báo trên 9 nhóm ngành (Dịch vụ — Du lịch, Thương Mại, Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng, Bất Động Sản, Dầu Khi)
Phương pháp nghiên cứu của đề tài là kết hợp giữa phân tích định tính cùng với phân tích định tượng (dự báo) Tôi đã thu thập đữ liệu dựa trên nguồn cophieu68.vn thông qua các báo cáo tài chính, đây là nguồn được đánh giá là tin cậy và khả quan, cũng như việc tính toán các đữ liệu thông qua các phần mềm khác nhau Chúng tôi đã sử đụng các
phương pháp thống kê, phân tích dữ liệu, ứng dụng mô hình hồi quy kinh tế định lượng để
dự báo mô hình kinh tế thông qua chỉ số EPS với sự hỗ trợ của các chương trình Orange
và Excel (2016)
1.4 Phạm vi nghiên cứu
Thời gian: Dữ liệu của các doanh nghiệp được niêm yết trên sàn chứng khoán Việt
Nam bao gồm sàn giao dịch chứng khoán Thành phố Hề Chí Minh va san giao dich
chứng khoán Hà Nội Quý II năm 2021
Không gian: Bài nghiên cứu của chúng tôi được thực hiện dựa trên 337 doanh nghiệp ở nhiều lĩnh vực khác nhau như Dịch vụ —- Du lịch, Thương Mại, Thực Phẩm,
Trang 10Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng, Bất Động Sản, Dầu Khí, có
đây đủ các dữ liệu đã được công bố trong bang bao cao tai chính trên trang cophieu68.vn 1.5 Cầu trúc của bài nghiên cứu
Gỗm có 4 chương
Chương l: GIỚI THIỆU
Chương 2: CƠ SỞ LÝ LUẬN
Chuong 3: PHAN TICH VA DU BAO
Chuong 4: KET LUAN VA GIAI PHAP
Trang 11Quá trình đề khai phá đữ liệu là một quá trình rất phức tạp đòi hỏi dữ liệu cần phải
chuyên sâu và yêu cầu nhiều kỹ năng tính toán khác nhau Hơn nữa, khai phá đữ liệu
không chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch, chuyên
đối, tích hợp dữ liệu và phân tích các mẫu
2.1.2 Các tính năng chính của khai phá dữ liệu
Có nhiều các tham số quan trọng trong khai phá dữ liệu, ví dụ như các quy tắc về phân loại và phân cụm Khai phá đữ liệu có Š tính năng chính như sau:
` Dự báo nhiều mẫu dựa trên bộ đữ liệu đã được huấn luyện
` Tính toán và dự đoán các kết quả
Tạo nhiều thông tin dé phản hồi và phân tích
° Bộ dữ liệu khá lớn
° Phân cụm đữ liệu một cách trực quan, sinh động
2.1.3 Quy trình khai phá dữ liệu
Quy trình khai phá đữ liệu bao gồm 7 bước như sau cùng với đó quy trình khai phá
dữ liệu được trình bày đưới dang so đồ hình vẽ thông qua hình 2.1 như sau:
° Bước 1: Làm sạch đữ liệu Đây là bước đầu tiên trong quy trình khai phá đữ liệu Bước này được đánh giá là kha quan trọng vì những đữ liệu bản nếu được sử dụng trực tiếp trong khai phá dữ liệu có thê sẽ gây ra kết quả nhằm lẫn, dự báo và tạo ra các kết quả không được chính xác
° Bước 2: Tích hợp dữ liệu Ở bước này, có thê giúp cho đữ liệu của chúng ta cải
thiện về độ chính xác cũng như tốc độ của quá trình khai phá đữ liệu
Trang 12° Đước 3: Làm giảm dữ liệu Mục đích ở bước này là giúp kích thước của dữ liệu có khối lượng nhỏ hơn nhưng nó vẫn đảm bảo và vẫn duy trì về tính toàn vẹn
° Bước 4: Chuyển đôi dữ liệu Trong bước này, đữ liệu được chuyên thành một đạng
phù hợp với quy trình khai phá dữ liệu Dữ liệu được hợp nhất đề quy trình khai phá dữ liệu có thê hiệu quả hơn và các mẫu dễ hiểu hơn
° Bước 5: Khai thác đữ liệu ỞÖ bước nay, chúng ta đi khai thác dữ liệu là để xác định
các mẫu và một lượng lớn dữ liệu từ những suy luận
° Đước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu đại diện cho nhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết, kiến
thức nào là đư thừa và sẽ bị loại bỏ Các phương pháp trực quan hóa và tóm tắt đữ liệu
được sử dụng đề người dùng có thể hiểu được bộ đữ liệu của mình
e Đước 7 Trình bày thông tin Dữ liệu sẽ được diễn giải lại dưới các báo cáo, hoặc
các báo cáo dạng bảng, và sau đó gửi cho bên bộ phân xử lý thông tin này
Hình 2.1 Quy trình khai phá dữ liệu
Trang 132.1.4 Phương pháp khai phá dữ liệu
Phân lớp (Classification): Phương pháp sử dụng để dự báo đữ liệu thông qua bộ
dữ liệu huấn luyện, phân loại đối tượng Tôi sẽ sử dụng phương pháp khai phá đữ liệu này
trong bai dé dy bao số liệu
Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để
khám phá và ảnh xạ dữ liệu
Phân cụm (Clustering): Phương pháp phân cụm giúp việc mô tả dữ liệu trở nên
dễ dàng hơn bằng các xác định tập hợp hữu hạn các cụm với nhau
Tông hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một
mô tả nhỏ gọn
Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình
cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình rang buộc
Dò tìm biến đôi và độ lệch (Change and Deviation Dectection): Mục đích của phương pháp này là để tìm ra những thay đổi quan trọng
2.1.5 Ứng dụng của khai phá dữ liệu trong đời sống
Khai phá đữ liệu được ứng dụng rất nhiều trong đời sống xã hội tiêu biêu ở một số
những linh vực như sau: phân tích thị trường — chứng khoán, phát hiện gian lận, quản trị rủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử, phòng chống tội phạm,
chính xác thông qua ngôn ngữ lập trình Orange cũng là một phần mềm kết hợp công cụ khai phá đữ liệu và học máy, và cung cấp những trực quan tương tác, thẫm mỹ cho người dùng phần mềm, nó được viết bằng Python
Orange là phần mềm hướng tới mục tiêu tự động hóa Đây là một trong những phần mềm khai phá đữ liệu tién dung, dé dàng trong việc sử dụng nhờ giao diện nhỏ gọn,
Trang 14cac toolbox được sắp xếp một cách mạch lạc, hợp lý, bất kỳ ai cũng có thể sử dụng Vì vậy, Orange là phần mềm mà tôi sẽ sử dụng trong bài nghiên cứu
2.2 Phân lớp dữ liệu
2.2.1 Khái niệm về phân lớp dữ hiệu
Phân lớp dữ liệu chính là một trong những hướng nghiên cứu chính của khai phá
dữ liệu Phân lớp đữ liệu là quá trình phân các đối tượng vào một hay nhiều lớp đã cho
trước nhờ vào một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ
liệu đã được gán nhãn trước đó Quá trình gán nhãn cho đối tượng đữ liệu chính là quá trinh phân lớp dữ liệu Phân lớp và dự đoán là một trong hai dạng cua phân tích dữ liệu nhằm rút ra một mô hình mô tả các lớp đữ liệu quan trọng hoặc dự đoán xu hướng của đữ liệu trong tương lai
2.2.2 Quy trình phân lớp dữ liệu
Quy trình phân lớp dữ liệu gồm hai bước như sau: Bước thứ nhất là xây dựng mô
hình phân lớp (Learning) và Bước thứ hai là ước lượng độ chính xác của mô hình cùng với đó là phân lớp dữ liệu mới (Classtfication)
2.2.2.1 Xây dựng mô hình phân lớp (Learning)
Ở bước xây dựng mô hình phân lớp nhằm xây dựng một mô hình để mô tả tập hợp các đữ liệu Ban dau, tập đữ liệu có cầu trúc, nó được mô tá bằng các thuộc tính và được tạo ra từ các bộ giá trị có thuộc tính đó Một bộ giá trị sẽ được coi là một phần tử của dữ
liệu, ngoài ra còn thê thé là các mẫu, đối tượng, Trong tập đữ liệu này, mỗi phần ti dit liệu thuộc về một lớp định trước, lớp ở đât có nghĩa là các giá trị của một thuộc tính được chọn làm các thuộc tính gắn nhãn hay còn gọi là các thuộc tính phân lớp Sau đó, sử dụng các quy tắc phân lớp đưới dang if — then, cay quyét dinh (Decision tree), hdi quy logistic (Regression Logistic), Mạng lưới Neural (Neural Network), Ở bước xây dựng mô hình
phân lớp có thể được mô tả lại ở hình 2.2 dưới đây:
Hình 2.2 Quá trình phân lớp dữ liệu - Xây dựng mô hình phân lớp
Trang 1535 Minivan Low if age <31
Nguồn: Nguyễn Thị Thùy Linh — Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
2.2.2.2 Ước lượng độ chính xác của mô hình và phân lớp dữ liệu mới
(Classification)
Ở bước này, chúng ta sẽ dùng mô hình đã xây đựng ở bước bước đề phân lớp đữ
liệu mới Đầu tiên, độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra
được ước lượng Độ chính xác của mô hình trên tập dữ liệu kiểm tra là tỉ lệ phần trăm của các mẫu trong tập đữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đã được huấn luyện thi kết quả dự báo thu được rất khả quan Chúng ta cần phải có một bộ dữ liệu dự báo độc lập với
bé đữ liệu đã được huấn luyện Nếu độ chính xác của mô hình là có thể chấp nhận thì mô
hình được sử dụng để phân lớp những đữ liệu trong tương lai hoặc đữ liệu mà giá trị thuộc tính phân lớp là chưa biết Ở bước ước lượng độ chính xác của mô hình và phân lớp
dữ liệu mới được mô tả qua hình 2.3 và hình 2.4 như sau:
Hình 2.3 Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình
Trang 16
Nguồn: Nguyễn Thị Thùy Linh — Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội) Hình 2.4 Quá trình phân lớp dữ liệu — Phân lớp dữ liệu mới
Classifier (model) New data
Nguồn: Nguyễn Thị Thùy Linh — Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội) 2.2.3 Các phương pháp phân lớp dữ liệu
Có rất nhiều phương pháp phân lớp dữ liệu được sử dụng dùng đề dự báo dự liệu,
có thé ké đến như Hồi quy Logistic (Logistic Regression), SVM (Support Vector Machine), Cay quyét dinh (Decision Tree), Naive Bayes, Neural Network, Cac phuong pháp sẽ được liệt kê rõ hơn ở bên dưới
2.2.3.1 Hồi quy Logistic (Logistic Regression)
Hồi quy Logistic còn có tên gọi khác là hồi quy nhị thức Hồi quy Logistic được sử
dụng để dự đoán xác suất của quan sát vào các loại biến phụ thuộc dựa trên các loại biến phụ thuộc hay một hoặc nhiều biến độc lập có thê các biến này là liên tục hay được phân
loại Ngoài ra, nếu biến phụ thuộc là một số đếm thì phương pháp có thể dùng là hồi quy
Trang 17Poisson Nếu chúng ta có nhiều hơn hai biến phụ thuộc thì khi đó là gọi là hồi quy
Logistic đa thức
Phương pháp hồi quy Logistic hay Logistic Regression là một mô hình xác suất dự
đoán giá trị đầu ra rời rạc y (discrete target variabie) từ một tập các giá trị đầu vào x (được
thê hiện đưới dạng vector) Việc này khá tương đương với việc phân loại đầu vào x vào các nhóm y tương ứng
Mô hình hồi quy Logistic sử dụng dé chúng †a đự đoán biến phân loại bởi một hay nhiều biến độc lập liên tục Biến phụ thuộc của chúng ta có thê là thứ tự, rời rac, Đối với biến độc lập có thê là một khoảng hay một tỉ lệ, rời rạc, hay có thê hỗ hợp của tat
cả Chúng ta có thê biêu diễn công thức của phương pháp hồi quy Logistic như sau:
đdlà số lượng thuộc tính của dữ liệu
w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chính lại cho phù hợp
Hình 2.5 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
Trang 18rang nếu một hiệu ứng của biến x cho kết quả của y vượt quá I thì đó là một van dé Hoặc xác suất của chúng ta không thể nào âm hay tức nhỏ hơn 0, vì vậy diễn giải theo hệ số hồi
quy Logistic la v6 nghia
2.2.3.2 SVM (Support Vector Machine)
SVM la một thuật toán giám sát, nhưng hâu như nó được dùng cho phân loại Ở thuật toán này, chúng ta sẽ vẽ đi đồ thị đữ liệu là các điểm trong n chiều (ta xác định n là các tính năng mà chúng ta có săn) với giá trị của mỗi tính năng sẽ là một phân liên kết
SVM nhận đữ liệu vào, xem các dữ liệu đầu vào là các vector không gian, sau đó chúng được phân loại vào các lớp khác nhau thông qua cơ chế xây đựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu
Đề chúng ta có thê tối ưu được kết quả phân lớp thì phải xác định siêu phẳng có khoảng cách đến các điểm đữ liệu (margin) của tất cả các lớp xa nhất có thể SVM có nhiều dạng phù hợp với nhiều bài toán về phân loại Dé hiểu rõ sâu hơn, chúng ta đi tìm
các khái niệm về Margin cũng như là Support Vector
Margin là khoảng cách giữa siêu phẳng trong trường hợp không gian hai chiều là
đường thăng đến hai điểm đữ liệu gần nhất tương ứng với hai phân lớp SVM tối ưu bằng cách tối đa hóa giá trị margin này, từ đó sẽ tìm ra một siêu phẳng đẹp nhất và thích hợp nhất cho phân hai lớp dữ liệu Vì thé, SVM có thé làm giảm thiểu việc phân lớp bị sai
(misclassification) đôi với dữ liệu điệm mới đưa vào
Hình 2.6 Biéu d6 thé hién gid tri Margin va Support Vector
Trang 19đều hai biên đó chính là siêu phẩm cần tìm Nhìn vào hình 2.6 ta có thê xác định các điểm
màu đỏ và xanh đương nằm ở trên hai đường biên màu xanh lá, nó được là là Support Vector, vì chúng có nhiệm vụ hỗ trở để tìm ra siêu phẳng (đường nét đứt màu cam ở hình 2.6)
2.2.3.3 Cây quyết định (Decision Tree)
Cây quyết định là một hệ thống phân cấp có cầu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thê thuộc vào nhiều kiêu
dữ liệu khác nhau (Binary, Norminal, Ordinal, Quantitative, ) và thuộc tính phân lớp
phải có kiểu đữ liệu là Binary hoặc Ordinal
Từ đữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta
mô tả, phân loại, tổng quan đữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa ra
các dự đoán cho từng đối tượng
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại Cây hồi quy
có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trong các mô hình
có giá trị cuối cùng nằm mục đích chính là phần loại
Đề hiểu rõ hơn về cây quyết định, ta xét ưu và nhược điểm như sau Về ưu điểm,
cây quyết định trình bày một cách đơn giản, dễ hiểu, không cần chuẩn hóa đữ liệu, có thê
Trang 20xử lý trên nhiều kiêu đữ liệu khác nhau và xử lý tốt một lượng lớn đữ liệu trong thời gian nhanh nhất Mặc khác, cây quyết định cũng có một vài khuyết điểm cơ bản là khó giải quyết trong tình huống dữ liệu bị ảnh hưởng bởi thời gian hoặc chỉ phí để xây dựng các
mô hình về cây quyết định khá cao
Hình 2.7 Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cu thé
Work to do? Internal
node Stay in Go to movies
thông qua việc bat chước bộ não của con người Nói một cach dễ hiểu hơn có thể là nhân
tạo về bản chất Neural Network có khả năng tương thích với mọi thứ ngay từ khi chúng
ta thay đổi đữ liệu đầu vào Nó có thể đưa ra các kết quả một cách tốt nhất mà chúng ta không cần phải xây dựng các tiêu chí đầu ra
2.2.4, Chỉ tiết mô hình khai phá dữ liệu bằng Neural Network
Như đã tìm hiểu về khái niệm của Neural Network ở mục 2.2.3 (các phương pháp
phân lớp đữ liệu), bây giờ chúng ta sẽ tìm hiểu chỉ tiết hơn về Neural Network
Ta có thể xem xét đặc điển của Neural Network trong tài chính chính là hỗ trợ cho
các quá trình như giao dịch thuật toán, phân loại và phân tích chứng khoán, dự báo về chuỗi thời gian, xây dựng các mô hình quản trih rủi ro, công cụ phát sinh giá cả,
Trang 21Neural Network nhân tạo có thể hoạt động như Neural Network của con người
Mỗi một Neural trung ương thần kinh trong Neural nhân tạo là hàm toán học với chức
năng cự thể là thu thập và phân loại các thông tin dựa vào các cấu trúc có sẵn Neural
Network có sự tương quan mạnh mẽ đối với các phương pháp như phương pháp thống kê, phân tích hồi quy Neural Network chứa các lớp bao hàm các nút được liên kết lại với
nhau Mỗi nút có một cấu trúc tương thích với hàm hồi quy tuyến tính đa biến Chúng sẽ được sắp xếp với các lớp liên kết với nhau Lớp đầu vào sẽ thu nhập các dữ liệu đầu vào
và các lớp đầu ra sẽ nhận các phân loại hoặc tín hiệu đầu ra mà các mẫu đầu vào có thể phản ánh lại
Kiến trúc của mạng Neural Network là có sự kết hợp giữa tầng perceptron hay còn gọi là perceptron đa tầng Mỗi mạng Neural Network sẽ gồm ba kiểu tầng như sau:
° Tang input layer (tầng vào): tầng này nằm phía bên trái của mạng, thể hiện cho các
đâu vào của mạng
° Tang output layer (tang ra): Là tầng bên phải của mạng, nó thê hiện cho các đầu ra
hidden layer
Nguôn: kipalog.com Mỗi một Neural Network chỉ có duy nhất một tầng vào và một tầng ra nhưng lại có khá là nhiều tầng ân Giữa các tầng có sự liên kết bởi các Neural trong mỗi tầng hoặc giữa
Trang 22các tầng với nhau Trong mỗi tầng lại có thể có số lượng Neural khác nhau cũng như có
các kết nối cũng khác nhau Với mạng Neural Network thì mỗi một nút mạng là một
Sigmoid Neural nhưng chúng có thê có các hàm kích hoạt khác nhau Nhưng để cho việc tính toán đơn giản và thuận lợi hơn thì người ta thường sử dụng chúng cùng lại với nhau hơn Tại mỗi tầng, số lượng nút mạng có thể khác nhau tùy thuộc vào từng bài toán hay các cách giải quyết Khi làm việc, người ta thường sẽ để các tầng ấn với số lượng các Neural khác nahu Bên cạnh đó, các Neural nằm ở tầng thường sẽ liên kết với nahu để tạo
ra một mạng lưới đầy đủ nhất Khi đó, người dùng tính toán xem các kích cỡ của mạng khi dựa vào tầng và số lượng Neural
Ứng dụng của Neural Network có ở rất nhiều lĩnh vực như tài chính, giao dịch, phân tích kinh doanh, lập các kế hoạch cho doanh nghiệp, hay quản trị rủi ro doanh nghiệp, Ngoài ra, Neural Network còn được sử dụng ở nhiều lĩnh vực khác như dự báo
thời tiết, đánh giá rủi ro đoanh nghiệp, Hoặc có nhiều trường hợp sử dung Neural Network để đánh gia những giao dịch dựa vào việc các phân tích lịch sử Neural Network
còn sử dụng khá phô biến để phân biệt sự phụ thuộc giữa các phi tuyến lẫn nhau của đầu vào Khi chúng ta áp dụng Neural Network để dự báo về giá cô phiếu cũng hoàn toàn khác nhau Trong việc lan truyền tuyến của Neural Network, các nốt mạng Neural đều có
thê kết hợp đôi một với nhau vào một chiều từ tầng vào đến tầng ra duy nhất Có nghĩa là
mỗi nốt ở mỗi tầng sẽ nhận đầu vào là tất cả các tang trước đó và ngược lại Suy diễn Neural Network là một dạng suy luận tiến (feedforward)
Khi sử đụng Neural Network nhân tạo sẽ có khả năng sử dụng một loại cơ chế hàm
tùy ý mà học được từ việc dữ liệu quan sát Tuy nhiên, việc sử dụng chúng khả khó và rất
cần phải có sự hiểu biết nhiều về lý thuyết của Neural Network
Lựa chọn mô hình: phụ thuộc rất nhiều về cách trình bày đữ liệu cũng như các ứng dụng Mô hình này khá phức tạp nên dẫn đến nhiều thử thách cho quá trình học
° Thuật toán học: thường sẽ có nhiều thỏa thuận giữa các thuật toán học Chúng làm việc dựa trên các tham số để huấn luyện dữ liệu mà không thấy các yêu cầu một số lượng
đáng kê các thử nghiệm
° Mạnh mẽ: nếu như các mô hình, thuật toán và các hàm chỉ phí được lựa chọn đúng cách thì Neural Network cho ra kết quả vô cùng hợp lý
Trang 23Nếu biết cách sử dụng và thực hiện một cách chính xác vé Neural Network thi
chúng ta có thể ứng dụng chúng vào những tập dữ liệu lớn hơn
2.2.5 Các phương pháp đánh giá mô hình phân lớp
Trong các bài toán phân loại, để chúng ta có thể đánh giá mô hình tốt chúng ta có thê sử đụng như dựa vào ma trận nhằm lẫn để xác định độ chính xác (Accuracy); ROC,
AUC, Precision/Recall va Cross Validation: Holdout và K-fold cross validation Bay gio
chúng ta sẽ tìm hiểu chỉ tiết về mức độ đánh giá của chúng
2.2.5.1 Ma tran nhầm lẫn (Confasion Matrix) và độ chính xác (Accuracy); ROC, AUC, Precision/Recall
Ma tran nhằm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc về một
lớp cụ thể và được dự đoán rơi vào lớp nào Ma trận nhằm lẫn có kích thước k xk với k là
số lượng của lớp đữ liệu Ma trận nhằm lẫn bao gồm 4 loại giá trị chính như sau:
° TP (true positive) là số dự đoán chính xác của lớp ỉ
° FP, (false positive) là số lượng các mẫu không thuộc lớp ¡, bị phân loại nhằm vào lớp ỉ
° TN, (true negative) là số lượng các ví đụ không thuộc lớp ¡ được phân loại chính xác
° FN, (false negative) la s6 lương các mẫu thuộc lớp ¡ nhưng bị phân loại nhằm vào lớp khác
Ma trận nhằm lẫn với bài toán cụ thé phân lớp với hai mẫu đữ liệu mang nhãn (+)
và mang nhãn (—) Bảng 2.I thể hiện rõ hơn ma trận nhằm lẫn:
Trang 24
Nguôn: Phí Bá Chiến — Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
Từ bảng ma trận nhằm lẫn 2.1, ta có thé được các giá trị dé đo độ chính xác của mô
hình Độ chính xác (Precision) là tỷ lệ giữa số phân loại đúng là mẫu dương trên tông số các mẫu được phân loại là mẫu đương Ta có công thức của Precision được thể hiện như sau:
Precision= Pp TP+FP
Độ bao phủ (Recall) được xác định số mẫu phân loại đúng là mẫu dương trên tang
số mẫu dương thực, được thê hiện bởi công thức sau đây:
Recall= =a
Từ đó, ta có thể tính được chỉ số F; — score va né 1a tiéu chi đánh giá dựa trên sự
kết hợp của độ chính xác (Precision) và độ bao phủ (Recall) Công thức tính F¡ — score như sau:
2x Precision x Recall
Fị- seore= Precision x Recall Ngoài ra, ta còn công thức về độ chính xác (Accuracy) như sau:
TP+TN TP+FP+TN+FN Accuracy =
Vì ở trong bài, chúng ta không dùng nhiều về độ nhạy (Sensitivity) và độ đặc hiệu (Specificity) nhưng, chúng ta vẫn phân tích một vào chỉ tiết để có phân phân tích kỹ hơn ở phần ROC và AUC Độ nhạy (Sentivity) là tỷ lệ số mẫu phân loại đúng là mẫu dương trên tông số mẫu dương thực
Trang 25Ta có thé thay trong bài toán phân loại hai mẫu dương và âm, kết quả ly tưởng là
độ nhạy và độ đặc hiệu bằng 1 Tức mô hình là phân lớp đúng 100% Nhưng theo thực tế thì không có bất cứ một mô hình phân lớp nào chính xác tuyệt đối 100% Hầu hết, các mô hình có độ nhạy cao thì độ đặc hiệu thấp và ngược lại vì vậy biêu đồ ROC (Receiver
Operating Characteristic) là phương pháp phân tích để cân bằng hai độ đo này Biểu đồ
ROC gom 2 trục X và trục Y Trục hoành X biểu diễn cho gia tri False Positive Rate va
truc tung Y biểu diễn cho giá tri True Positive Rate Céng thie cla True Positive Rate va False Positive Rate nhu sau:
" TP True rue Positive Rate TP+FEN P Rate =————
" _ FP False Positive Rate = TP+FEN
Hình 2.9 Đường cong ROC
100%
P(TP)
Nguồn: Phí Bá Chiến - Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
ROC la một đồ thị được sử dụng khá phô biến trong đánh giá các mô hình phân
loại nhị phân Hai giá trị True positive rate và False positive rate được biểu diễn bởi các
điểm trên biểu đồ RỌC Hai chỉ số này biến thiên ngược chiều nhau và tạo thành đường cong ROC Cac diém nằm phía bên trái của đường chéo sẽ cho kết quả tốt AUC (Area
Under the Curve) La điện tích nằm dưới đường cong ROC Giá trị này là một số dương nhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt (AUC trên 0.5 là mô hình
tốt)
Hình 2.10 Dién tich dwong cong ROC (d6 do AUC)
Trang 26
dự báo Az„.„„ để đánh giá hiệu năng của hệ thông đã học Từ đó ta có kết quả như sau:
A=A,,,,VUA train forecast
Trang 27| Avia)? |A preca|
Chúng ta có các yêu cầu cho phần Holdout Bất kỳ ví dụ nào thuộc tập dự báo Az„ đều không được sử dụng trong quá trình huấn luyện hệ thống Hay bất kỳ ví dụ nào được sử dụng trong quá trình huấn luyện thì sẽ không được sử dụng trong quá trình đự báo Một chỉ tiết nhỏ cần phải lưu ý là tap A phải có kích thước lớn
Đối với K-fold cross validation dùng với việc tránh trùng lặp giữa các tập kiểm thử
(một số ví dụ thường xuất hiện trong các tập kiểm thử khác nhau) Tập đữ liệu A được
chia thành k tập con không giao nhau (chúng ta gọi là “fold”) có kích thước xấp xỉ nhau Mỗi lần (trong số k lần) lặp, một tập con sẽ sử dụng làm tập kiểm thử và k—1 tập con còn lại làm tập huấn luyện k giá trị lỗi (mỗi giá trị trơng ứng với một fold) được tính trung
bình cộng đề thu được giá trị lỗi tông thê Các lựa chọn của k thông thường sẽ là 10 hoặc
5, phủ hợp với tap A vừa và nhỏ Thông thường, mỗi tập con (fold) duoc lay mau phan
tang (xap xi phân bố lớp) trước khi áp dụng quá trình đánh giá Cross-validation
Chương 3: PHÂN TÍCH DU LIEU HUAN LUYEN VA DU BAO
3.1 Sơ lược thị trường chứng khoán tại Việt Nam
Thị trường chứng khoán Việt Nam có nhiều biến động trong những năm gân đây Vào năm 2018, ghi lại nhiều dấu ấn của thị trường chứng khoán và cũng là nam dé lai rat
Trang 28nhiều cảm xúc cho những nhà đầu tư VN-TNDEX được xếp trong những chỉ số có mức tăng trưởng khá ấn tượng, cụ thể, nó đã tăng gần 48% so với năm 2017 Trong khi đó,
những báo cáo về triên vọng của thị trường đã nghiên hầu hết về kịch bản dành cho chỉ số VN-INDEX tang trưởng ở mức 2 con chứ số đạt 1,120 rồi thậm chí có thê là 1,250 điểm Thị trường chứng khoán mất chưa tới 2 tháng để chứng minh rằng những đữ báo của họ
không phải là không có căn cứ, lần lượt, những mốc chỉ số quan trọng được thiết lập, cụ
thể như 1,000 điểm hay 1,100 điểm Liên tiếp trong tháng 2 và tháng 3 năm 2018, Việt
Nam trở thành thị trường có chứng khoán tăng rất mạnh so với các quốc gia khác trên thế giới, hơn cả Brazil, Nga, Argentina, và cap gấp 3 lần so với mức tăng chỉ số của Nasdaq (Mỹ) Trải qua những sự biến động khó lường, vào năm 2020, khi dai dich COVID-19
hoành hành tại Việt Nam và cũng như trên thế giới, chí số này lại ở mức thấp nhất là 696.52 vào giai đoạn cuối tháng 6, đầu tháng 7 của năm 2020
2018 2019 2020
Biểu đồ 3.1: Biếu đồ thế hiện chỉ số VN—INDEX của Việt Nam giai đoạn 2018 — 2020
Nguồn: yn.tradingview.com Nam 2019, nhìn lại tông quan về thị trường chứng khoán, có thê nhận thấy rằng thị
trường chứng khoán vào năm này diễn ra một cách hết sức đầy biến động, có chiều hướng diễn biến vô cùng phức tạp Tuy nhiên, thị trường chứng khoán năm 2019 cũng có những
tích cực ngoại lệ như các chỉ số vĩ mô được cân bằng và đảm, chính sách tài khóa ôn định
và chính sách tiền tệ được nới lỏng hơn Năm 2019, tình hình kinh tế vĩ mô ôn định tạo
Trang 29điều kiện thuận lợi cho việc phát triển kinh tế Theo đánh giá của Quỹ Tiền tệ Quốc Tế
vào năm 2019, Việt Nam cùng 4 nền kinh tế trong khu vực Đông Nam Á lọt top 20 các nên kinh tế có đóng góp to lớn vào tăng trưởng của tông sản phẩm quốc nội Việt Nam cũng là điểm nóng trong dòng vốn đầu tư quốc tế trong khu vực ASEAN, đo có tốc độ
tăng trưởng vượt trộ cới mức dự báo tăng trưởng năm 2019 của Việt Nam đạt gần 7% so
với chỉ 4 — 5% của các nước khác trong khu vực ASEAN
Không kế đến Virus SAR—COV-2 xuất hiện vào cuối năm 2019 đã đây thị trường
chứng khoán Việt Nam rơi vào cảnh thê thảm Chỉ số VN-INDEX sụt giảm tới 33.51%,
xuống mức thấp nhất Tuy nhiên, với chính sách kiểm soát dịch bệnh khá chặt chẽ của
chính phủ Việt Nam, thị trường chứng khoán đã phục hồi lại nhanh chóng của nửa sau
năm 2020, mức độ hồi phục mạnh mẽ kèm với đó là mức lãi suất thấp nhất, đã đây dòng
diễn chảy mạnh vào kênh đầu tư chứng khoán Thị trường chứng khoán Việt Nam đã ghi nhận những thành quả trong sự tham gia của các nhà đầu tư mới cao chưa từng thấy Khi
dịch bệnh tại nước ta đã được hồi phục, thị trường chứng khoán Việt Nam phát triển nhanh và mạnh, thuộc top đâu thế giới Thị trường chứng khoán năm 2020 với mức phục hồi khá ấn tượng, tăng 15% so với cuối năm 2018 và là l trong 10 thị trường chứng khoản
tăng trưởng mạnh nhất thế giới Năm 2020, dai dich COVID—19 bùng phát cũng đã ảnh hưởng không nhỏ đến hoạt động sản xuất kinh doanh của các công ty niêm yết, cụ thé la lợi nhuận sau thuế bin ảnh hưởng khá nghiêm trọng, tuy nhiên, nhiều doanh nghiệp, công
ty niêm yết văn có kết quả kinh doanh khả quan
3.2 Mô hình nghiên cứu
3.2.1 Xây dựng biến số dùng nghiên cứu
3.2.1.1 Biến phụ thuộc
Bài nghiên cứu sử dụng 337 công ty được niêm yết trên sàn chứng khoán Việt
Nam và đánh giá các công ty này có mô hình hoạt động kinh doanh như thế nào (tốt/xâu)
thông qua chỉ số EPS (cao/thấp) Chỉ số EPS được viết tắt từ Earning Per Share, có nghĩa
là tỷ suất thu nhập trên mỗi cô phần Chỉ số EPS này có thê nó lên rằng phần lợi nhuận thu được trên mỗi cỗ phân, nó có thê được coi là chỉ số xác định những khoản lợi nhuận
thu được trên những khoản đầu tư ban đầu Nên đây được xem là một trong những chỉ số quan trọng nous lên khả năng sinh lợi của công ty hay dự án nào đó và từ đó sẽ quyết định
Trang 3024
xem mô hình hoạt động kinh doanh của công ty có tốt hay không Chúng ta có thê ví dụ
rõ hơn về EPS như sau Một doanh nghiệp có I triệu cô phần đang lưu hành trên thị trường chứng khoán Tương ứng với đó là tông lợi nhuận sau thuế là I triệu USD Thì ta
có cố phiếu đó có EPS là 1 USD, hay nói cách khác là lợi nhuận trên mỗi cô phiếu chính
la 1 USD Ching ta co công thức của EPS như sau:
EPS = (Thu nhập ròng — Cổ tức cô phiếu ưu đãi) / Số lượng cô phiếu bình quân đang lưu
hành
Trong đó:
Thu nhập ròng hay là lợi nhuận ròng chính là tông thu nhập của một doanh nghiệp Thu nhập ròng của một doanh nghiệp được tính từ thu nhập của doanh nghiệp đó, rồi sau đó
điều chính thêm các khoản chỉ phí hoạt động, thuế, khẩu hao, lãi suất, các chỉ phí khác,
liên quan đến hoạt động kinh doanh Thu nhập ròng có thé tính bằng công thức sau:
Thu nhập ròng = Doanh thu thuần + Lợi nhuận từ hoạt động tài chính + các khoản thu
nhập bất thường khác — giá vốn hàng bán — chi phi (chi phí quản lý doanh nghiệp + phí
bản hàng + các khoản phí bất thường) — thuế thu nhập doanh nghiệp
Cô tức cô phiếu ưu đãi chính là phần lợi nhuận được thu từ cỗ phiếu ưu đãi
Số lượng cô phiếu bình quân đang lưu hành lấy vào thời điểm cuối kỳ
Chỉ số EPS càng cao thì càng sẽ có nhiều sự thu hút từ những nhà đầu tư hơn EPS
là chỉ số phản ánh những kết quả hoạt động kinh doanh của doanh nghiệp Từ đó có thê
giúp cho các nhà đầu tư để dàng tìm hiểu và so sánh giữa nhiều loại cô phiếu với nhau
EPS còn có thể dùng dé tính các chỉ số khác như PE hay ROE,
Đề chúng ta có thê xác định được một công ty hay doanh nghiệp có mô hình hoạt động kinh doanh tốt hay không, ta đựa vào chí số EPS Nếu chỉ số EPS này lớn hơn 7,500 đồng thì ta xác nhận rằng doanh nghiệp hay công ty có mô hình hoạt động kinh doanh tốt
và ngược lại
Tuy nhiên, việc dùng chỉ số EPS để dự báo những công ty có mô hình hoạt động kinh doanh như thế nào cũng còn nhiều hạn chế Chẳng hạn như EPS cé thé bi 4m, loi nhuận của công ty bị biến động, doanh nghiệp sẽ phát hành thêm trái phiếu, cô phiếu, Nhưng bài toán nghiên cứu này chỉ mang tính chất dự báo nên có thê sẽ không đúng hoàn toàn như trong thực tế,
Trang 313.2.1.2 Bién déc lap
ROA hay con gọi là lợi nhuận trên tong tài sản, là một trong các chỉ số khá quan
trọng trong việc đưa ra mô hình hoạt động kinh doanh của công ty Bởi vì những doanh
nghiệp hoạt động hiệu quả sẽ mang lại giả trị lớn cho nhiều nhà cỗ đông Chỉ số ROA đo
lường mức độ sử dụng tài sản của một doanh nghiệp Chỉ số ROA sẽ giúp cho các nhà đầu tư sử dụng hiệu quả nguồn tông tài sản của doanh nghiệp Chúng ta có công thức tính của chỉ số ROA như sau:
ROA= ET x100%
ROA là một chỉ số cơ ban, cho biết mức độ sử dụng hiệu quả tài sản của một
doanh nghiệp
Tiếp theo, chúng †a có một chỉ số khác nhằm dự báo EPS đó là chỉ số nợ trên vốn
chủ sở hữu Tỷ lệ nợ trên vốn chủ sở hữu (DE) chính là tỷ lệ % giữa vốn doanh nghiệp hay động bằng việc đi vay với vốn chủ sở hữu Tỷ lệ này được đưa ra để xem xét nguồn vốn của doanh nghiệp cũng như cách sử dụng để đem lại hiệu quả cao cho công ty Đây cũng là một trong những chỉ số khá quan trọng trong tài chính để đo năng lực và cách vận hành của công ty như thế nào Các chủ thé cé thê nhận thấy rõ các chỉ số này trong bảng
cân đối kế toán trong báo cáo tài chính ở từng thời kỳ Qua tỷ lệ nợ trên vốn chủ sở hữu
cho biết các doanh nghiệp có được mức tài trợ kinh doanh như thế nào từ để đưa ra mô
hình hoạt động kinh doanh cho mình trong thời điểm hiện tại cũng như trong thời gian sắp
tới Tỷ lệ nợ trên vốn chủ sở hữu cho biết hai nguồn vốn cơ bản nhất đó là nợ vay và vốn chủ sở hữu của doanh nghiệp Hai nguồn này tuy có đặc điểm riêng khác nhau nhưng lại
đi cạnh nhau và có mối quan hệ tương quan mật thiệt với nhau, được các chuyên gia về tài
chính xem xét và đánh giá các cấu trúc tài chính của doanh nghiệp Ta có thể tính chỉ số
này bằng công thức như sau:
Nợ phảitrả
Vốn chủ sở hữu Giá trên giá trị số sách (BV) hay còn được gọi là tỷ lệ giá trên giá trị sô sách có
nghĩa là một tỷ lệ định giá đầu tư thường được các nhà đầu tư sử dụng để so sánh giá trị
thị trường của cô phiếu của một công ty với giá trị số sách của nó BV này cho thấy giá trị
Trang 32chính xác của công ty dựa trên giá cô phiếu Đây cũng là một chỉ số quan trọng dùng để
dự báo chỉ số EPS từ đó để biết được doanh nghiệp hay công ty đó có mô hình hoạt động
kinh doanh tốt hay không
3.2.2 Mô hình nghiên cứu đề xuất
Mô hình Neural Network là mô hình phân lớp mà bài nghiên cứu sẽ sử dụng cùng
với các lý thuyết về khai phá đữ liệu và cũng như các lý thuyết về tài chính đã được nêu
rõ ở mục trên, bài nghiên cứu của tôi sẽ được xây dựng theo mô hình nghiên cứu như sau
Đối với biến độc lập, bài nghiên cứu bao gồm 3 biến ROA, DE, BV Ta nhan thay
rằng tất cả các biến độc lập đều có mối quan hệ tương quan đương so với biến EPS Đối với biến phụ thuộc, nêu như công ty hay doanh nghiệp có chỉ số EPS > 7,500 đồng thì công ty hay doanh nghiệp có chí số EPS cao điều đó đồng nghĩa với việc công ty hay doanh nghiệp có mô hình hoạt động kinh doanh tốt và ngược lại, nêu công ty hay
doanh nghiệp có chỉ số EPS < 7,500 đồng thì công ty hay doanh nghiệp đó có chỉ số EPS thấp thì đồng nghĩa với việc nó có mô hình hoạt động kinh doanh xấu
3.3 Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu
Bài nghiên cứu được lấy đữ liệu của 337 doanh nghiệp đang được niêm yết trên
sàn giao dịch chứng khoán Thành phố Hồ Chí Minh và sàn giao dịch chứng khoán Hà Nội Số liệu sử dụng trong bài dựa trên các báo cáo tài chính đã được kiểm toán của quý
J/2021 của 10 nhóm ngành được liệt kê như sau: Hàng Không, Dịch vụ —- Du lịch, Thương Mại, Thực Phẩm, Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng, Bất Động Sản và Chứng Khoán
Phương pháp thu thập dữ liệu: tôi đã thu thập dữ liệu dựa trên nguồn cophieu68.vn Đây được xem là một trong những nguồn đáng tin cậy để thu thập các đữ
liệu về các chỉ số thuộc lĩnh vực tài chính
Phương pháp nghiên cứu: Bài nghiên cứu được sử dụng Excel (2016) để tính toán
các chỉ số về tài chính và chương trình Orange để chạy mô hình dự báo
3.4 Bộ dữ liệu huấn luyện
Khi ứng dụng mô hình khai phá dữ liệu trong việc dự báo chỉ số EPS để đưa ra mô
hình hoạt động kinh doanh của doanh nghiệp hay công ty, bài nghiên cứu đã sử dụng bộ
dữ liệu của 3 nhân tế là ROA, DE và BV để đưa ra mô hình hoạt động kinh doanh của