1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN cứu các PHƯƠNG PHÁP KHAI PHÁ dữ LIỆU và ỨNG DỤNG NEURAL NETWORK vào CHỈ số tài CHÍNH EPS để dự báo TÌNH HÌNH HOẠT ĐỘNG KINH DOANH của các CÔNG TY NIÊM yết

65 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Các Phương Pháp Khai Phá Dữ Liệu Và Ứng Dụng Neural Network Vào Chỉ Số Tài Chính EPS Để Dự Báo Tình Hình Hoạt Động Kinh Doanh Của Các Công Ty Niêm Yết
Tác giả Nguyễn Hoàng Vinh
Người hướng dẫn NCS.TS. Thái Kim Phụng
Trường học Trường Đại Học Kinh Tế TP.HCM
Chuyên ngành Khoa Công Nghệ Thông Tin Kinh Doanh
Thể loại Tiểu Luận
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 65
Dung lượng 800,02 KB

Cấu trúc

  • Chương 1: GIỚI THIỆU (7)
    • 1.1. Lý do lựa chọn đề tài (7)
    • 1.2. Mục tiêu nghiên cứu (8)
    • 1.3. Đối tượng nghiên cứu và phương pháp nghiên cứu (9)
    • 1.4. Phạm vi nghiên cứu (9)
    • 1.5. Cấu trúc của bài nghiên cứu (10)
  • Chương 2: CƠ SỞ LÝ LUẬN (10)
    • 2.1. Khai phá dữ liệu (11)
      • 2.1.1. Khai phá dữ liệu là gì? (11)
      • 2.1.2. Các tính năng chính của khai phá dữ liệu (11)
      • 2.1.3. Quy trình khai phá dữ liệu (11)
      • 2.1.4. Phương pháp khai phá dữ liệu (13)
      • 2.1.5. Ứng dụng của khai phá dữ liệu trong đời sống (13)
      • 2.1.6. Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange (13)
    • 2.2. Phân lớp dữ liệu (14)
      • 2.2.1. Khái niệm về phân lớp dữ liệu (14)
      • 2.2.2. Quy trình phân lớp dữ liệu (14)
        • 2.2.2.1. Xây dựng mô hình phân lớp (Learning) (14)
      • 2.2.3. Các phương pháp phân lớp dữ liệu (16)
        • 2.2.3.1. Hồi quy Logistic (Logistic Regression) (16)
        • 2.2.3.2. SVM (Support Vector Machine) (18)
        • 2.2.3.3. Cây quyết định (Decision Tree) (19)
        • 2.2.3.4. Neural Network (20)
      • 2.2.4. Chi tiết mô hình khai phá dữ liệu bằng Neural Network (20)
      • 2.2.5. Các phương pháp đánh giá mô hình phân lớp (23)
        • 2.2.5.1. Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC, AUC, Precision/Recall (23)
        • 2.2.5.2. Cross Validation: Holdout và K-fold cross validation (26)
  • Chương 3: PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO (28)
    • 3.1. Sơ lược thị trường chứng khoán tại Việt Nam (28)
    • 3.2. Mô hình nghiên cứu (29)
      • 3.2.1. Xây dựng biến số dùng nghiên cứu (29)
        • 3.2.1.1. Biến phụ thuộc (29)
        • 3.2.1.2. Biến độc lập (31)
      • 3.2.2. Mô hình nghiên cứu đề xuất (32)
    • 3.3. Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu (32)
    • 3.4. Bộ dữ liệu huấn luyện (33)
    • 3.5. Bộ dữ liệu dự báo (34)
    • 3.6. Kết quả của dữ liệu huấn luyện (35)
    • 3.7. Kết quả của dữ liệu dự báo (39)
    • 3.8. Kết luận của kết quả nghiên cứu (42)

Nội dung

GIỚI THIỆU

Lý do lựa chọn đề tài

Công nghệ thông tin là yếu tố then chốt trong sự phát triển kinh tế – xã hội, văn hóa và chính trị, đồng thời tạo ra những nhân tố và con người mới Hiện nay, công nghệ thông tin tại Việt Nam đang phát triển mạnh mẽ, dẫn đến sự gia tăng nhanh chóng trong việc thu thập dữ liệu.

Khai phá dữ liệu đang trở thành mối quan tâm hàng đầu của các nhà nghiên cứu do sự bùng nổ thông tin vượt ngoài tầm kiểm soát của con người Công nghệ này có thể ứng dụng trong nhiều lĩnh vực như tài chính, ngân hàng, công nghệ thông tin, y tế và giáo dục Đặc biệt, trong ngành tài chính, việc xử lý dữ liệu lớn cần thực hiện nhanh chóng và hiệu quả để tiết kiệm thời gian Sự phát triển của công nghệ thông tin đòi hỏi chúng ta phải cải tiến phần mềm và ứng dụng nhằm nâng cao năng suất làm việc, thay thế các kỹ thuật xử lý thô sơ Khai phá dữ liệu không chỉ giúp phân tích dữ liệu nhanh chóng mà còn cho phép người dùng xem xét dữ liệu từ nhiều góc độ khác nhau, phân loại và tổng kết các mối quan hệ một cách thông minh.

Lĩnh vực tài chính, đặc biệt là thị trường chứng khoán, đang ngày càng thu hút sự quan tâm của nhiều người, bao gồm cả sinh viên Khai phá dữ liệu trong tài chính giúp ngân hàng tăng cường độ trung thành của khách hàng thông qua việc thu thập và phân tích thông tin cá nhân, từ đó dự báo hành vi khách hàng và phát triển sản phẩm phù hợp Ngoài ra, việc phân tích dữ liệu trong chứng khoán còn hỗ trợ các nhà tài chính hiểu rõ hơn về mối tương quan giữa các chỉ số tài chính và phát hiện rủi ro trong giao dịch Đầu tư tài chính đóng góp đáng kể vào thu nhập quốc dân, với Sở giao dịch chứng khoán Thành phố Hồ Chí Minh (HOSE) và Sở giao dịch chứng khoán Hà Nội (HNX, UPCOM) là nơi giao dịch các công cụ tài chính dài hạn Cổ phiếu, một trong những công cụ quan trọng, thể hiện sự sở hữu trong công ty và chỉ số EPS là yếu tố quan trọng để đánh giá hiệu quả kinh doanh Tỷ lệ thu nhập trên mỗi cổ phiếu (EPS) phản ánh khả năng sinh lời của công ty; EPS cao cho thấy lợi nhuận lớn và khả năng tăng cổ tức cho cổ đông, chứng tỏ mô hình kinh doanh hoạt động hiệu quả.

Để kết hợp các phương pháp khai phá dữ liệu trong công nghệ thông tin với phân tích dự báo chỉ số EPS trong lĩnh vực tài chính, tôi đã chọn đề tài “Nghiên cứu các phương pháp khai phá dữ liệu và ứng dụng Neural.”

Chỉ số tài chính EPS (Earnings Per Share) là một công cụ quan trọng giúp dự báo tình hình hoạt động kinh doanh của các công ty niêm yết trên sàn giao dịch chứng khoán tại Việt Nam Việc phân tích EPS cho phép nhà đầu tư đánh giá khả năng sinh lời và hiệu quả hoạt động của doanh nghiệp, từ đó đưa ra quyết định đầu tư chính xác hơn Sự biến động của chỉ số này cũng phản ánh sức khỏe tài chính và triển vọng phát triển của các công ty, góp phần vào việc định hình xu hướng thị trường chứng khoán.

Mục tiêu nghiên cứu

Bài nghiên cứu “Nghiên cứu các phương pháp khai phá dữ liệu và ứng dụng

Mạng nơ-ron được áp dụng vào việc phân tích chỉ số tài chính EPS nhằm dự đoán hiệu suất kinh doanh của các công ty niêm yết trên sàn chứng khoán Việt Nam Nghiên cứu này tập trung vào việc cải thiện độ chính xác trong việc dự báo tình hình hoạt động của doanh nghiệp thông qua việc sử dụng công nghệ tiên tiến.

 Bài nghiên cứu tiến hành phân tích các lý thuyết của khai phá dữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu.

Nghiên cứu về các phương pháp cụ thể trong phân lớp dữ liệu là rất quan trọng, vì nó cung cấp các dự báo chính xác và phân loại hiệu quả các đối tượng Phương pháp phân lớp không chỉ giúp cải thiện khả năng phân tích dữ liệu mà còn tối ưu hóa quy trình ra quyết định trong nhiều lĩnh vực khác nhau.

Nghiên cứu sẽ trình bày các phương pháp phân lớp dữ liệu và từ đó lựa chọn phương pháp tối ưu nhất để đảm bảo độ chính xác cho quá trình dự báo dữ liệu.

Dự báo rằng các mô hình kinh doanh sẽ được xây dựng dựa trên bộ dữ liệu đã được huấn luyện, nhằm cung cấp những mô hình hoạt động tối ưu nhất cho các doanh nghiệp niêm yết trên sàn chứng khoán.

Dựa trên kết quả từ dữ liệu huấn luyện và dự báo mô hình hoạt động kinh doanh qua chỉ số EPS, tôi sẽ trình bày các kết luận và hạn chế của nghiên cứu này, đồng thời đề xuất giải pháp tối ưu nhất cho nghiên cứu.

Đối tượng nghiên cứu và phương pháp nghiên cứu

Đề tài nghiên cứu tập trung vào 337 doanh nghiệp niêm yết trên hai sàn chứng khoán tại Việt Nam, bao gồm sàn HOSE và sàn HNX, UPCOM Dữ liệu tài chính được thu thập từ Quý II năm 2021, đại diện cho 10 nhóm ngành khác nhau.

Bài viết này đề cập đến việc sử dụng 110 mẫu quan sát cho bộ dữ liệu huấn luyện trong ngành thực phẩm và 227 mẫu quan sát cho bộ dữ liệu dự báo, bao gồm 9 nhóm ngành khác nhau như dịch vụ – du lịch, thương mại, ngành thép, thủy sản, nhóm dầu khí, vật liệu xây dựng, bất động sản và dầu khí.

Phương pháp nghiên cứu của đề tài kết hợp phân tích định tính và định lượng để dự báo Dữ liệu được thu thập từ cophieu68.vn qua các báo cáo tài chính, một nguồn tin cậy và khả quan Chúng tôi đã sử dụng các phương pháp thống kê và phân tích dữ liệu, áp dụng mô hình hồi quy kinh tế định lượng để dự báo mô hình kinh tế thông qua chỉ số EPS, hỗ trợ bởi các phần mềm Orange và Excel (2016).

Phạm vi nghiên cứu

Dữ liệu của các doanh nghiệp niêm yết trên sàn chứng khoán Việt Nam, bao gồm sàn giao dịch chứng khoán Thành phố Hồ Chí Minh và sàn giao dịch chứng khoán Hà Nội, trong Quý II năm 2021, cung cấp cái nhìn tổng quan về tình hình tài chính và hoạt động của các công ty này.

Bài nghiên cứu của chúng tôi dựa trên 337 doanh nghiệp thuộc nhiều lĩnh vực khác nhau như Dịch vụ – Du lịch, Thương Mại, Thực Phẩm, Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng, Bất Động Sản và Dầu Khí Tất cả dữ liệu đã được công bố trong bảng báo cáo tài chính trên trang cophieu68.vn.

Cấu trúc của bài nghiên cứu

CƠ SỞ LÝ LUẬN

Khai phá dữ liệu

Khai phá dữ liệu (Data Mining) là quá trình phân tích và tổ chức các tập dữ liệu lớn để nhận diện mẫu và thiết lập mối quan hệ, từ đó giải quyết nhiều vấn đề Các công cụ khai phá dữ liệu giúp doanh nghiệp dự đoán xu hướng tương lai hiệu quả.

Quá trình khai phá dữ liệu là một nhiệm vụ phức tạp, đòi hỏi dữ liệu chuyên sâu và nhiều kỹ năng tính toán khác nhau Không chỉ dừng lại ở việc trích xuất dữ liệu, khai phá dữ liệu còn bao gồm các bước làm sạch, chuyển đổi, tích hợp và phân tích mẫu dữ liệu.

2.1.2 Các tính năng chính của khai phá dữ liệu

Khai phá dữ liệu bao gồm nhiều tham số quan trọng, chẳng hạn như quy tắc phân loại và phân cụm Năm tính năng chính của khai phá dữ liệu bao gồm khả năng phân tích, phát hiện mẫu, tối ưu hóa, dự đoán và ra quyết định.

 Dự báo nhiều mẫu dựa trên bộ dữ liệu đã được huấn luyện.

 Tính toán và dự đoán các kết quả.

 Tạo nhiều thông tin để phản hồi và phân tích.

 Bộ dữ liệu khá lớn.

 Phân cụm dữ liệu một cách trực quan, sinh động.

2.1.3 Quy trình khai phá dữ liệu

Quy trình khai phá dữ liệu bao gồm 7 bước chính, được minh họa bằng sơ đồ hình vẽ trong Hình 2.1.

 Bước 1: Làm sạch dữ liệu Đây là bước đầu tiên trong quy trình khai phá dữ liệu.

Bước này rất quan trọng vì việc sử dụng dữ liệu bẩn trong khai phá dữ liệu có thể dẫn đến kết quả sai lệch, dự báo không chính xác và kết quả không đáng tin cậy.

Bước 2 trong quy trình khai thác dữ liệu là tích hợp dữ liệu, giúp nâng cao độ chính xác và tăng tốc độ của quá trình phân tích dữ liệu.

Bước 3: Giảm kích thước dữ liệu nhằm mục đích tối ưu hóa dung lượng mà vẫn đảm bảo tính toàn vẹn của thông tin.

Bước 4: Chuyển đổi dữ liệu là giai đoạn quan trọng trong quy trình khai phá dữ liệu, nơi dữ liệu được biến đổi thành định dạng phù hợp để tối ưu hóa hiệu quả khai thác Việc hợp nhất dữ liệu giúp quy trình khai phá diễn ra suôn sẻ hơn và tạo ra các mẫu thông tin dễ hiểu hơn.

Bước 5 trong quy trình là khai thác dữ liệu, nhằm mục đích xác định các mẫu và rút ra những suy luận từ một lượng lớn dữ liệu.

Bước 6 trong quy trình đánh giá mẫu bao gồm việc xác định các mẫu đại diện cho kiến thức quan trọng dựa trên các thước đo cụ thể Qua đó, chúng ta có thể phân loại kiến thức cần thiết và kiến thức dư thừa để loại bỏ Sử dụng các phương pháp trực quan hóa và tóm tắt dữ liệu giúp người dùng dễ dàng nắm bắt và hiểu rõ hơn về bộ dữ liệu của mình.

Bước 7: Trình bày thông tin bằng cách diễn giải dữ liệu qua các báo cáo hoặc bảng biểu, sau đó gửi cho bộ phận xử lý thông tin.

Hình 2.1 Quy trình khai phá dữ liệu

Nguồn: insight.isb.edu.vn

2.1.4 Phương pháp khai phá dữ liệu Phân lớp (Classification): Phương pháp sử dụng để dự báo dữ liệu thông qua bộ dữ liệu huấn luyện, phân loại đối tượng Tôi sẽ sử dụng phương pháp khai phá dữ liệu này trong bài để dự báo số liệu.

Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để khám phá và ánh xạ dữ liệu.

Phân cụm là một phương pháp hữu ích trong việc mô tả dữ liệu, giúp xác định và tổ chức các tập hợp hữu hạn các cụm một cách hiệu quả.

Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mô tả nhỏ gọn.

Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình ràng buộc.

Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Mục đích của phương pháp này là để tìm ra những thay đổi quan trọng.

2.1.5 Ứng dụng của khai phá dữ liệu trong đời sống

Khai phá dữ liệu đã trở thành một công cụ quan trọng trong nhiều lĩnh vực của đời sống xã hội, bao gồm phân tích thị trường và chứng khoán, phát hiện gian lận, quản trị rủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử và phòng chống tội phạm, cùng với nhiều ứng dụng khác.

2.1.6 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange

Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mã nguồn mở.

Orange cung cấp một giao diện lập trình trực quan, dễ theo dõi, giúp người dùng phân tích dữ liệu một cách chính xác và cụ thể Đây là gói phần mềm mạnh mẽ, sử dụng các công cụ để trực quan hóa, khai thác và phân tích dữ liệu thông qua ngôn ngữ lập trình Ngoài ra, Orange còn tích hợp các công cụ khai phá dữ liệu và học máy, mang đến trải nghiệm tương tác và thẩm mỹ cho người dùng, được phát triển bằng Python.

Phân lớp dữ liệu

Phân lớp dữ liệu là một trong những lĩnh vực nghiên cứu chính của khai phá dữ liệu, diễn ra thông qua việc phân loại các đối tượng vào các lớp đã được xác định trước Quá trình này dựa trên một mô hình phân lớp, được xây dựng từ một tập dữ liệu đã được gán nhãn Việc gán nhãn cho đối tượng dữ liệu chính là cốt lõi của quá trình phân lớp Phân lớp và dự đoán là hai hình thức phân tích dữ liệu quan trọng, giúp rút ra mô hình mô tả các lớp dữ liệu và dự đoán xu hướng dữ liệu trong tương lai.

2.2.2 Quy trình phân lớp dữ liệu

Quy trình phân lớp dữ liệu bao gồm hai bước chính: đầu tiên, xây dựng mô hình phân lớp (Learning), sau đó, ước lượng độ chính xác của mô hình và thực hiện phân lớp dữ liệu mới (Classification).

2.2.2.1 Xây dựng mô hình phân lớp (Learning) Ở bước xây dựng mô hình phân lớp nhằm xây dựng một mô hình để mô tả tập hợp các dữ liệu Ban đầu, tập dữ liệu có cấu trúc, nó được mô tả bằng các thuộc tính và được tạo ra từ các bộ giá trị có thuộc tính đó Một bộ giá trị sẽ được coi là một phần tử của dữ liệu, ngoài ra còn thể thể là các mẫu, đối tượng, Trong tập dữ liệu này, mỗi phần tử dữ liệu thuộc về một lớp định trước, lớp ở đât có nghĩa là các giá trị của một thuộc tính được chọn làm các thuộc tính gắn nhãn hay còn gọi là các thuộc tính phân lớp Sau đó, sử dụng các quy tắc phân lớp dưới dạng if – then, cây quyết định (Decision tree), hồi quy logistic(Regression Logistic), Mạng lưới Neural (Neural Network),… Ở bước xây dựng mô hình phân lớp có thể được mô tả lại ở hình 2.2 dưới đây:

Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)

2.2.2.2 Ước lượng độ chính xác của mô hình và phân lớp dữ liệu mới (Classification) Ở bước này, chúng ta sẽ dùng mô hình đã xây dựng ở bước bước để phân lớp dữ liệu mới Đầu tiên, độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng Độ chính xác của mô hình trên tập dữ liệu kiểm tra là tỉ lệ phần trăm của các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đã được huấn luyện thì kết quả dự báo thu được rất khả quan Chúng ta cần phải có một bộ dữ liệu dự báo độc lập với bộ dữ liệu đã được huấn luyện Nếu độ chính xác của mô hình là có thể chấp nhận thì mô hình được sử dụng để phân lớp những dữ liệu trong tương lai hoặc dữ liệu mà giá trị thuộc tính phân lớp là chưa biết Ở bước ước lượng độ chính xác của mô hình và phân lớp dữ liệu mới được mô tả qua hình 2.3 và hình 2.4 như sau:

Hình 2.3 Quá trình phân lớp dữ liệu – Ước lượng độ chính xác của mô hình

Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)

Hình 2.4 Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới

Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)

2.2.3 Các phương pháp phân lớp dữ liệu

Có nhiều phương pháp phân lớp dữ liệu được sử dụng để dự báo, bao gồm Hồi quy Logistic, SVM, Cây quyết định, Naive Bayes và Neural Network Các phương pháp này sẽ được trình bày chi tiết hơn ở phần dưới.

2.2.3.1 Hồi quy Logistic (Logistic Regression)

Hồi quy Logistic, hay còn gọi là hồi quy nhị thức, là một phương pháp thống kê được sử dụng để dự đoán xác suất của các quan sát thuộc về các loại biến phụ thuộc Phương pháp này dựa trên một hoặc nhiều biến độc lập, có thể là biến liên tục hoặc biến phân loại Nếu biến phụ thuộc là số đếm, thì hồi quy Logistic có thể được áp dụng để phân tích dữ liệu.

Poisson Nếu chúng ta có nhiều hơn hai biến phụ thuộc thì khi đó là gọi là hồi quy Logistic đa thức.

Phương pháp hồi quy Logistic (Logistic Regression) là một mô hình xác suất dùng để dự đoán giá trị đầu ra rời rạc y từ một tập hợp các giá trị đầu vào x Mô hình này thực hiện việc phân loại các đầu vào x vào các nhóm y tương ứng.

Mô hình hồi quy Logistic được sử dụng để dự đoán biến phân loại dựa trên một hoặc nhiều biến độc lập liên tục Biến phụ thuộc có thể là thứ tự hoặc rời rạc, trong khi biến độc lập có thể là khoảng, tỷ lệ, rời rạc hoặc hỗn hợp của các loại trên Công thức của phương pháp hồi quy Logistic được biểu diễn như sau: z = ∑ i=0 d w i x i.

Trong bài viết này, d đại diện cho số lượng thuộc tính của dữ liệu, trong khi w là trọng số được khởi tạo ngẫu nhiên và sẽ được điều chỉnh để phù hợp với yêu cầu.

Hình 2.5 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic

Nguồn: Tác giả tổng hợp

Trong hồi quy logistic, hiệu ứng của biến x đối với y được biểu diễn trong khoảng từ 0 đến 1, cho phép ước lượng và dự báo chính xác Nếu hiệu ứng vượt quá 1, điều này cho thấy có vấn đề, vì xác suất không thể âm hoặc nhỏ hơn 0 Do đó, việc diễn giải các hệ số hồi quy logistic cần phải được thực hiện cẩn thận để đảm bảo tính hợp lệ.

SVM, hay Support Vector Machine, là một thuật toán giám sát chủ yếu được sử dụng cho phân loại Trong thuật toán này, dữ liệu được biểu diễn dưới dạng các điểm trong không gian n chiều, trong đó n đại diện cho số lượng tính năng có sẵn, và giá trị của mỗi tính năng sẽ tạo thành một liên kết.

SVM (Support Vector Machine) tiếp nhận dữ liệu dưới dạng các vector trong không gian và phân loại chúng thành các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều, tạo ra ranh giới phân cách giữa các lớp dữ liệu Để tối ưu hóa kết quả phân loại, việc xác định siêu phẳng với khoảng cách tối đa (margin) đến các điểm dữ liệu của tất cả các lớp là rất quan trọng SVM có nhiều dạng khác nhau, phù hợp với nhiều bài toán phân loại khác nhau Để hiểu rõ hơn, chúng ta cần tìm hiểu các khái niệm về Margin và Support Vector.

Margin là khoảng cách giữa siêu phẳng và hai điểm dữ liệu gần nhất của hai phân lớp trong không gian hai chiều SVM tối ưu bằng cách tối đa hóa giá trị margin, từ đó xác định siêu phẳng tốt nhất cho việc phân loại hai lớp dữ liệu Nhờ vào đó, SVM giúp giảm thiểu tình trạng phân lớp sai (misclassification) cho các dữ liệu mới.

Hình 2.6 Biểu đồ thể hiện giá trị Margin và Support Vector

Trong bài toán Support Vector, mục tiêu là xác định hai đường biên của hai lớp dữ liệu sao cho khoảng cách giữa chúng là lớn nhất Siêu phẳng cách đều hai biên này chính là siêu phẩm cần tìm Như hình 2.6 cho thấy, các điểm màu đỏ và xanh dương nằm trên hai đường biên màu xanh lá được gọi là Support Vector, vì chúng hỗ trợ trong việc xác định siêu phẳng (đường nét đứt màu cam trong hình 2.6).

2.2.3.3 Cây quyết định (Decision Tree)

Cây quyết định là một hệ thống phân cấp cấu trúc, được sử dụng để phân loại các đối tượng dựa trên một chuỗi luật Các thuộc tính của đối tượng có thể thuộc nhiều kiểu dữ liệu khác nhau, bao gồm Binary, Norminal, Ordinal, và Quantitative Tuy nhiên, thuộc tính phân lớp cần phải có kiểu dữ liệu là Binary hoặc Ordinal.

PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO

Sơ lược thị trường chứng khoán tại Việt Nam

Thị trường chứng khoán Việt Nam có nhiều biến động trong những năm gần đây.

Năm 2018 đánh dấu nhiều dấu ấn quan trọng trên thị trường chứng khoán, mang lại nhiều cảm xúc cho các nhà đầu tư VN-INDEX ghi nhận mức tăng trưởng ấn tượng gần 48% so với năm 2017 Các báo cáo triển vọng thị trường dự đoán VN-INDEX có thể đạt mức 1,120, thậm chí có khả năng lên tới 1,250 điểm.

Thị trường chứng khoán Việt Nam đã nhanh chóng chứng minh tính chính xác của các dự báo, với các mốc chỉ số quan trọng như 1,000 và 1,100 điểm được thiết lập chỉ trong vòng chưa đầy 2 tháng Trong tháng 2 và tháng 3 năm 2018, Việt Nam ghi nhận mức tăng trưởng mạnh mẽ, vượt trội so với nhiều quốc gia khác, bao gồm Brazil, Nga và Argentina, với mức tăng gấp ba lần so với Nasdaq của Mỹ Tuy nhiên, vào năm 2020, khi đại dịch COVID-19 bùng phát, chỉ số chứng khoán đã giảm xuống mức thấp nhất là 696.52 vào cuối tháng 6 và đầu tháng 7.

Biểu đồ 3.1: Biểu đồ thể hiện chỉ số VN–INDEX của Việt Nam giai đoạn 2018 – 2020

Năm 2019, thị trường chứng khoán diễn ra đầy biến động và phức tạp, nhưng cũng có những điểm tích cực như chỉ số vĩ mô được cân bằng, chính sách tài khóa ổn định và tiền tệ nới lỏng Tình hình kinh tế vĩ mô ổn định đã tạo điều kiện thuận lợi cho sự phát triển kinh tế Theo Quỹ Tiền tệ Quốc Tế, Việt Nam cùng 4 nền kinh tế Đông Nam Á lọt top 20 có đóng góp lớn vào tăng trưởng GDP Việt Nam trở thành điểm nóng thu hút đầu tư quốc tế trong ASEAN với tốc độ tăng trưởng gần 7%, vượt trội so với mức 4-5% của các nước khác trong khu vực.

Vào cuối năm 2019, sự xuất hiện của Virus SAR-COV-2 đã khiến thị trường chứng khoán Việt Nam lao dốc, với chỉ số VN-INDEX giảm 33.51% Tuy nhiên, nhờ vào chính sách kiểm soát dịch bệnh hiệu quả của chính phủ, thị trường đã nhanh chóng phục hồi trong nửa cuối năm 2020, với lãi suất thấp thúc đẩy dòng tiền mạnh mẽ vào đầu tư chứng khoán Sự tham gia của các nhà đầu tư mới tăng cao, đưa thị trường chứng khoán Việt Nam vào top đầu thế giới với mức tăng 15% so với cuối năm 2018, trở thành một trong 10 thị trường chứng khoán tăng trưởng mạnh nhất toàn cầu Dù đại dịch COVID-19 đã tác động tiêu cực đến lợi nhuận của nhiều công ty niêm yết, nhưng vẫn có nhiều doanh nghiệp đạt kết quả kinh doanh khả quan.

Mô hình nghiên cứu

Nghiên cứu này phân tích 337 công ty niêm yết trên sàn chứng khoán Việt Nam để đánh giá mô hình hoạt động kinh doanh của các công ty này thông qua chỉ số EPS (Earning Per Share) EPS, hay tỷ suất thu nhập trên mỗi cổ phần, phản ánh lợi nhuận thu được trên mỗi cổ phần và là chỉ số quan trọng xác định khả năng sinh lợi của công ty Ví dụ, một doanh nghiệp có 1 triệu cổ phần và tổng lợi nhuận sau thuế là 1 triệu USD sẽ có EPS là 1 USD, nghĩa là lợi nhuận trên mỗi cổ phiếu là 1 USD Công thức tính EPS là một yếu tố quyết định để đánh giá hiệu quả hoạt động kinh doanh của công ty.

EPS = (Thu nhập ròng – Cổ tức cổ phiếu ưu đãi) / Số lượng cổ phiếu bình quân đang lưu hành Trong đó:

Thu nhập ròng, hay lợi nhuận ròng, là tổng thu nhập của một doanh nghiệp sau khi đã trừ đi các khoản chi phí hoạt động, thuế, khấu hao, lãi suất và các chi phí khác liên quan đến hoạt động kinh doanh Công thức tính thu nhập ròng giúp doanh nghiệp đánh giá hiệu quả tài chính và khả năng sinh lời.

Thu nhập ròng được tính bằng cách cộng doanh thu thuần, lợi nhuận từ hoạt động tài chính và các khoản thu nhập bất thường khác, sau đó trừ đi giá vốn hàng bán, chi phí (bao gồm chi phí quản lý doanh nghiệp, phí bán hàng và các khoản phí bất thường) và thuế thu nhập doanh nghiệp.

Cổ tức cổ phiếu ưu đãi chính là phần lợi nhuận được thu từ cổ phiếu ưu đãi.

Số lượng cổ phiếu bình quân đang lưu hành lấy vào thời điểm cuối kỳ.

Chỉ số EPS cao thu hút nhiều nhà đầu tư hơn, vì nó phản ánh kết quả hoạt động kinh doanh của doanh nghiệp Điều này giúp nhà đầu tư dễ dàng so sánh và đánh giá các loại cổ phiếu khác nhau.

Chỉ số EPS không chỉ giúp đánh giá hiệu quả hoạt động của một công ty mà còn được sử dụng để tính toán các chỉ số tài chính khác như PE và ROE Để xác định mô hình kinh doanh của một doanh nghiệp có tốt hay không, chỉ số EPS là yếu tố quan trọng Nếu EPS lớn hơn 1.500 đồng, điều này cho thấy doanh nghiệp đang hoạt động hiệu quả.

Mặc dù chỉ số EPS thường được sử dụng để dự báo hiệu suất của các công ty, nhưng nó vẫn có nhiều hạn chế, đặc biệt đối với những doanh nghiệp có mô hình hoạt động kinh doanh phức tạp Ví dụ, EPS có thể âm, cho thấy lợi nhuận không ổn định của công ty, và doanh nghiệp có thể phát hành thêm trái phiếu hoặc cổ phiếu, ảnh hưởng đến sự chính xác của dự báo.

Nhưng bài toán nghiên cứu này chỉ mang tính chất dự báo nên có thể sẽ không đúng hoàn toàn như trong thực tế.

ROA, hay lợi nhuận trên tổng tài sản, là chỉ số quan trọng trong việc đánh giá mô hình hoạt động kinh doanh của công ty Những doanh nghiệp hoạt động hiệu quả sẽ tạo ra giá trị lớn cho các cổ đông Chỉ số ROA đo lường khả năng sử dụng tài sản của doanh nghiệp, giúp các nhà đầu tư tối ưu hóa nguồn tổng tài sản Công thức tính chỉ số ROA như sau:

ROA= Lợi nhuận sauthuế Tổng tài sảnbìnhquân ×100 %

ROA là một chỉ số cơ bản, cho biết mức độ sử dụng hiệu quả tài sản của một doanh nghiệp

Chỉ số nợ trên vốn chủ sở hữu (DE) là tỷ lệ phần trăm giữa vốn vay và vốn chủ sở hữu của doanh nghiệp, giúp đánh giá nguồn vốn và hiệu quả sử dụng của công ty Đây là một chỉ số quan trọng trong tài chính, phản ánh năng lực và cách vận hành của doanh nghiệp, thường được thể hiện trong bảng cân đối kế toán Tỷ lệ này cho thấy mức độ tài trợ kinh doanh mà doanh nghiệp nhận được, từ đó xây dựng mô hình hoạt động phù hợp trong hiện tại và tương lai Hai nguồn vốn cơ bản là nợ vay và vốn chủ sở hữu có mối quan hệ tương quan chặt chẽ, được các chuyên gia tài chính phân tích để đánh giá cấu trúc tài chính của doanh nghiệp Chỉ số này có thể được tính toán bằng một công thức cụ thể.

DE= Nợ phảitrả Vốn chủsở hữu

Giá trên giá trị sổ sách (BV) là tỷ lệ định giá quan trọng mà các nhà đầu tư sử dụng để so sánh giá trị thị trường của cổ phiếu với giá trị sổ sách của công ty Tỷ lệ này giúp xác định giá trị thực của công ty dựa trên giá cổ phiếu, đồng thời là chỉ số hữu ích để dự báo chỉ số EPS, từ đó đánh giá mô hình hoạt động kinh doanh của doanh nghiệp.

3.2.2 Mô hình nghiên cứu đề xuất

Mô hình Neural Network sẽ được áp dụng trong nghiên cứu này, kết hợp với lý thuyết khai phá dữ liệu và lý thuyết tài chính đã được trình bày trước đó Nghiên cứu tập trung vào ba biến độc lập là ROA, DE và BV, tất cả đều có mối tương quan dương với biến phụ thuộc EPS Nếu chỉ số EPS của công ty vượt quá 1.500 đồng, điều này cho thấy công ty có mô hình kinh doanh hiệu quả; ngược lại, nếu chỉ số EPS dưới 1.500 đồng, công ty sẽ có mô hình kinh doanh kém hiệu quả.

Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu

Bài nghiên cứu sử dụng dữ liệu từ 337 doanh nghiệp niêm yết trên sàn giao dịch chứng khoán TP.HCM và Hà Nội, dựa trên các báo cáo tài chính đã được kiểm toán của quý II/2021 Nghiên cứu phân tích 10 nhóm ngành chính, bao gồm Hàng Không, Dịch vụ - Du lịch, Thương Mại, Thực Phẩm, Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng, Bất Động Sản và Chứng Khoán.

Phương pháp thu thập dữ liệu của tôi dựa trên nguồn cophieu68.vn, một trong những nguồn đáng tin cậy nhất để lấy thông tin về các chỉ số tài chính.

Phương pháp nghiên cứu của bài viết sử dụng Excel (2016) để tính toán các chỉ số tài chính, đồng thời áp dụng chương trình Orange để thực hiện mô hình dự báo.

Bộ dữ liệu huấn luyện

Nghiên cứu ứng dụng mô hình khai phá dữ liệu để dự báo chỉ số EPS, từ đó đánh giá mô hình hoạt động kinh doanh của 337 công ty niêm yết trên sàn chứng khoán Việt Nam trong quý II/2021 Bài nghiên cứu sử dụng ba yếu tố chính là ROA, DE và BV để xác định hiệu quả kinh doanh thông qua chỉ số EPS, phân loại các công ty thành nhóm hoạt động tốt hoặc kém Dữ liệu được thu thập từ 10 nhóm ngành khác nhau trên các sàn HOSE, HNX và UPCOM, và được chia thành hai phần: bộ dữ liệu huấn luyện và bộ dữ liệu dự báo.

Bộ dữ liệu huấn luyện sẽ được giải thích chi tiết ở phần dưới, còn bộ dữ liệu dự báo sẽ được giải thích chi tiết ở phần 3.5

Bộ dữ liệu gồm 110 công ty niêm yết trong ngành thực phẩm được sử dụng để huấn luyện, với 3 biến độc lập là ROA, DE, và BV Biến phụ thuộc EPS được phân loại thành hai loại: nếu EPS > 1,500 đồng, sẽ được đánh giá là cao, ngược lại nếu EPS < 1,500 đồng, sẽ được đánh giá là thấp.

20 công ty niêm yết đầu tiên của ngành thực phẩm (bộ dữ liệu huấn luyện) như sau:

Hình 3.1 Dữ liệu huấn luyện của 20 công ty niêm yết

Nguồn: Kết quả từ chương trình Orange

Bộ dữ liệu dự báo

Sau khi thu thập dữ liệu huấn luyện từ 110 công ty niêm yết trong ngành thực phẩm, chúng tôi sẽ tiến hành dự báo cho 227 công ty niêm yết thuộc các ngành khác dựa trên bộ dữ liệu đã có Phương pháp phân lớp dữ liệu sẽ được áp dụng để xác định phương pháp phù hợp nhất thông qua đánh giá của các mô hình phân lớp Hình 3.2 minh họa dữ liệu dự báo cho 20 công ty niêm yết.

Hình 3.2 Dữ liệu dự báo của 20 công ty niêm yết

Nguồn: Kết quả từ chương trình Orange

Kết quả của dữ liệu huấn luyện

Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào.

Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ khai báo các thuộc tính của nó Các biến độc lập như ROA, DE, BV sẽ được định nghĩa là “feature”, trong khi thuộc tính “target” sẽ dành cho Assessment, phản ánh kết quả huấn luyện cho EPS là cao hay thấp Assessment được phân loại thành hai nhóm: “HIGH” (cao) và “LOW” (thấp) EPS, đã được chuyển đổi thành Assessment, sẽ không tham gia vào quá trình dự báo và sẽ được “skip” Đối với Code, do là dạng ký tự, nó không ảnh hưởng đến quá trình dự báo, nên không cần phải “skip”.

Hình 3.3 Mô tả các thuộc tính của các biến

Nguồn: Kết quả từ chương trình Orange

Sau khi xác định các thuộc tính quan trọng của dữ liệu, nghiên cứu sẽ lựa chọn phương pháp phân lớp dữ liệu tối ưu dựa trên các chỉ số như độ chính xác (CA) và chỉ số F1.

Bài nghiên cứu sử dụng các phương pháp phân lớp bao gồm Tree Decision, Logistic Regression, SVM và Neural Network, với các chỉ số đánh giá như độ chính xác (Precision) và độ nhạy (Recall) Sơ đồ quá trình huấn luyện và dự báo được trình bày trong hình 3.4, minh họa rõ ràng các bước thực hiện trong nghiên cứu.

Hình 3.4 Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ

Nguồn: Kết quả từ chương trình Orange

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Sau khi hoàn thành sơ đồ hình 3.4, bài nghiên cứu chuyển sang phần Test and Score để tổng hợp các chỉ số và lựa chọn mô hình tối ưu nhất Phương pháp đánh giá mô hình phân lớp được áp dụng là Cross Validation với số lượng gập là 5 (k = 5), nhằm cải thiện tính năng và giảm thiểu sự trùng lặp giữa các tập kiểm thử.

Hình 3.5 Kết quả của mô hình đánh giá phân lớp bằng Cross Validation

Theo kết quả từ chương trình Orange, Neural Network đạt điểm cao nhất trong bốn chỉ số CA, F1, Precision và Recall Cụ thể, giá trị F1 của Neural Network là 94.6%, trong khi giá trị AUC đạt 98.1%, cho thấy hiệu suất rất ấn tượng Các chỉ số này được tính toán dựa trên ma trận nhầm lẫn như được trình bày trong hình 3.6.

Hình 3.6 Ma trận nhầm lẫn với Neural Network

Nguồn: Kết quả từ chương trình Orange

Để tính giá trị F1-Score, chúng ta sử dụng công thức đã đề cập ở chương 2 với các giá trị TP = 56, FP = 1, FN = 5 và TN = 48 Đầu tiên, ta tính giá trị Precision và Recall, sau đó áp dụng công thức để tìm ra F1-Score, kết quả được thể hiện trong hình 3.5 tại Neural Network Ma trận nhầm lẫn cho thấy công ty này hoạt động tốt với 56 mẫu được phân loại chính xác và 5 mẫu bị phân loại sai Ngoài ra, trong số 49 công ty có chỉ số EPS thấp, 48 công ty được phân loại đúng và chỉ có 1 công ty bị phân nhầm.

Mô hình Neural Network rất phù hợp cho bộ dữ liệu trong nghiên cứu này và hiệu quả trong việc dự báo hoạt động kinh doanh của các công ty niêm yết trên sàn chứng khoán Sau khi phân tích chi tiết bộ dữ liệu huấn luyện, nghiên cứu tiếp tục phân tích dự báo để đánh giá khả năng của mô hình Neural Network trong việc dự đoán dựa trên dữ liệu huấn luyện Kết quả dự báo được trình bày trong mục 3.7.

Kết quả của dữ liệu dự báo

Neural Network là phương pháp phân lớp tối ưu cho nghiên cứu này, được áp dụng để dự báo chỉ số EPS cho 227 công ty thuộc các ngành khác nhau Tôi đã thực hiện các bước tương tự như trong quá trình huấn luyện, đưa bộ dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số trong bộ dữ liệu dự báo tương tự như bộ dữ liệu huấn luyện.

Hình 3.7 Các thuộc tính của bộ dữ liệu dự báo

Nguồn: Kết quả từ chương trình Orange

Bài nghiên cứu này sẽ phân tích các thuộc tính như ROA, DE, BV và Assessment, coi chúng là các "feature", trong khi bộ dữ liệu huấn luyện được xem là "target" Những vấn đề không quan trọng sẽ được đánh dấu là "skip" Cuối cùng, chúng ta sẽ tiến hành dự đoán và xem kết quả.

Neural Network như thế nào Hình 3.8 thể hiện kết quả dự báo của 20 công ty đầu tiên của bộ dữ liệu dự báo như sau:

Hình 3.8 Kết quả của dự báo bằng Neural Network

Nguồn: Kết quả từ chương trình Orange

Theo dự báo từ 227 công ty thuộc các ngành khác nhau, có 95 công ty niêm yết sở hữu chỉ số EPS cao, cho thấy mô hình hoạt động kinh doanh tốt, trong khi 132 công ty còn lại có chỉ số EPS thấp, phản ánh mô hình hoạt động kinh doanh kém Để hiểu rõ hơn về sự phân lớp này, chúng ta có thể tham khảo kết quả của chỉ số Neural Network như được trình bày trong hình 3.9.

Hình 3.9 Chỉ số Neural Network

Nguồn: Kết quả từ chương trình Orange

Bài viết này trình bày kết quả phân tích 20 công ty đầu tiên từ các ngành khác nhau thông qua chỉ số Neural Network Các công ty có chỉ số Neural Network thấp (LOW) và lớn hơn 0.5 sẽ được phân loại vào nhóm có chỉ số EPS thấp, cho thấy mô hình hoạt động kinh doanh của họ kém Ngược lại, các công ty có chỉ số Neural Network cao (HIGH) và lớn hơn 0.5 sẽ được phân loại vào nhóm có chỉ số EPS cao, cho thấy mô hình hoạt động kinh doanh của họ tốt Phương pháp phân lớp bằng Neural Network cho phép đánh giá chính xác mô hình hoạt động kinh doanh của các công ty trong nghiên cứu này.

Kết luận của kết quả nghiên cứu

Bài nghiên cứu này khám phá ứng dụng của Neural Network trong việc dự báo mô hình hoạt động kinh doanh của doanh nghiệp dựa trên chỉ số tài chính EPS, sử dụng dữ liệu từ 337 công ty niêm yết trên sàn HOSE và HNX Dữ liệu được chia thành hai bộ: 110 công ty cho huấn luyện và 227 công ty cho dự báo Phân tích cho thấy Neural Network là phương pháp phân lớp hiệu quả nhất, với các chỉ số như F1-score, CA, Precision và Recall Sau khi áp dụng mô hình dự báo bằng phần mềm Orange, kết quả cho thấy dự báo mô hình hoạt động kinh doanh của các công ty có thể tốt hoặc xấu, mặc dù các số liệu dự báo chưa hoàn toàn chính xác do ảnh hưởng của các yếu tố kinh tế vĩ mô Nghiên cứu này đóng góp vào việc giúp các nhà đầu tư lựa chọn công ty có mô hình kinh doanh phù hợp, tập trung vào công nghệ thông tin và tài chính, trong đó chỉ số EPS cùng với các yếu tố như ROA, DE, BV là rất quan trọng trong việc đưa ra chiến lược đầu tư hợp lý.

Chương 4: KẾT LUẬN VÀ HẠN CHẾ – GIẢI PHÁP

Bài nghiên cứu đã xác định 4 mục tiêu chính và kết hợp hai lĩnh vực tài chính và công nghệ, nhấn mạnh việc ứng dụng công nghệ trong tài chính Nghiên cứu "Nghiên cứu các phương pháp khai phá dữ liệu và ứng dụng chỉ số tài chính EPS để dự báo mô hình hoạt động kinh doanh của các doanh nghiệp trên sàn giao dịch chứng khoán tại Việt Nam" đã sử dụng phần mềm Excel (2016) để tính toán chỉ số tài chính và Orange để dự báo mô hình kinh doanh của các công ty niêm yết Phương pháp lý thuyết về khai phá dữ liệu được áp dụng, trong đó Neural Network được chọn là phương pháp phân lớp tối ưu Nghiên cứu dự báo cho 227 công ty niêm yết dựa trên các biến độc lập như ROA, DE, và biến phụ thuộc là EPS, với dữ liệu huấn luyện từ 110 công ty thuộc ngành Thực Phẩm Chỉ số EPS cao cho thấy mô hình hoạt động kinh doanh tốt, trong khi chỉ số thấp cho thấy mô hình kém Các nhà đầu tư có thể dựa vào những mô hình này để lựa chọn công ty phù hợp.

Việc nghiên cứu chỉ số EPS giúp các công ty niêm yết hiểu rõ hơn về mô hình hoạt động hiện tại, từ đó đưa ra giải pháp phù hợp Đối với nhà đầu tư, chỉ số EPS cung cấp cái nhìn sâu sắc về tình hình tài chính và chiến lược của công ty Các công ty có chỉ số EPS cao cho phép nhà đầu tư khai thác tiềm năng mới và phát triển chiến lược đầu tư hiệu quả Đồng thời, nhà đầu tư cũng có thể rút ra kinh nghiệm từ các chỉ số tài chính khác như ROA, DE, BV để đầu tư vào các công ty khác Ngược lại, đối với các công ty có chỉ số EPS thấp, nhà đầu tư cần cân nhắc kỹ lưỡng trước khi quyết định đầu tư, đặc biệt nếu chỉ số này không có xu hướng tăng trong nhiều năm.

4.2 Hạn chế và giải pháp

Bài nghiên cứu mặc dù theo hướng khoa học nhưng vẫn tồn tại nhiều sai sót, chủ yếu do ảnh hưởng của dịch COVID-19 (SAR-COV-2) Nghiên cứu chỉ được thực hiện thông qua việc lấy mẫu từ các trang web của công ty và website cophieu68.vn, với tổng số mẫu chỉ đạt 337 do hạn chế về thời gian Việc số lượng mẫu ít ỏi ảnh hưởng đến các chỉ số của mô hình như F1-score, Precision và Recall Mặc dù phương pháp phân lớp bằng Neural Network đạt F1-score cao gần 95%, nhưng độ chính xác của dự báo vẫn có phần hạn chế do số lượng mẫu không đủ.

Nghiên cứu này chỉ xem xét ba biến độc lập: ROA, DE và BV, là những chỉ số tài chính quan trọng Quyết định về mô hình hoạt động kinh doanh của các công ty có thể bị ảnh hưởng bởi nhiều yếu tố tài chính, kinh tế vĩ mô và các yếu tố khác Do chỉ tập trung vào các yếu tố tài chính, việc dự báo đôi khi không hoàn toàn chính xác.

Bài nghiên cứu thu thập dữ liệu vào quý II/2021, do đó chỉ đưa ra dự báo tạm thời cho các quý còn lại của năm 2021 Dự báo cho các năm khác có thể chính xác hoặc không, tùy thuộc vào từng công ty cụ thể Nghiên cứu sử dụng dữ liệu từ nhiều công ty thuộc các ngành nghề khác nhau, dẫn đến độ chính xác không cao do mỗi ngành có chiến lược kinh doanh riêng Mặc dù nghiên cứu tập trung vào lĩnh vực tài chính, nhưng các lĩnh vực công nghệ thông tin không được truyền tải một cách chặt chẽ trong phần lý thuyết, và việc sử dụng các công cụ như Orange còn gặp một số lỗi kỹ thuật.

Bài nghiên cứu sẽ nêu rõ những hạn chế của đề tài và đề xuất một số giải pháp phù hợp cho các hướng nghiên cứu tiếp theo Dưới đây là danh sách các giải pháp được đưa ra.

Số lượng mẫu hiện tại cho việc dự báo và huấn luyện còn hạn chế, vì vậy nghiên cứu tiếp theo sẽ tập trung vào việc thu thập thêm mẫu để nâng cao độ chính xác của mô hình dự báo Điều này sẽ giúp các ngành nghề trở nên đồng nhất và nhất quán hơn.

Để nâng cao độ chính xác của dự báo, cần mở rộng thời gian nghiên cứu lên ít nhất 3 năm và bổ sung thêm các biến số, bao gồm cả các yếu tố kinh tế và tài chính ngoài 3 biến đã được đề cập trong mô hình hiện tại.

Tài liệu tham khảo trong nước

ISB Data Mining: 6 Kỹ thuật quan trọng trong khai phá dữ liệu

Ichi.pro Hồi quy Logistic – Tổng quan chi tiết < https://ichi.pro/vi/hoi-quy-logistic-tong- quan-chi-tiet-77811289359292>

Ichi.pro Ma trận nhầm lẫn – Giải thích < https://ichi.pro/vi/ma-tran-nham-lan-giai-thich- 58157046543340>

3tmetrics Data Mining là gì? Lợi ích khai phá dữ liệu với công nghệ 4.0.

ISB Data Mining Ứng dụng của Data Mining trong các lĩnh vực

Wikipedia Khai phá dữ liệu < https://vi.wikipedia.org/wiki/Khai_phá_dữ_liệu>

Data mining là quá trình khai thác thông tin từ tập dữ liệu lớn để phát hiện các mẫu và xu hướng hữu ích Ứng dụng data mining trong ngành công nghiệp giúp tối ưu hóa quy trình sản xuất, nâng cao chất lượng dịch vụ và cải thiện quyết định kinh doanh Công nghệ này không chỉ hỗ trợ phân tích dữ liệu mà còn dự đoán hành vi của khách hàng, từ đó tạo ra những chiến lược marketing hiệu quả hơn Việc áp dụng data mining ngày càng trở nên quan trọng trong bối cảnh cạnh tranh khốc liệt hiện nay.

Dương Trương Quốc Khánh (2020) đã tiến hành nghiên cứu về các thuật toán ứng dụng trong lĩnh vực Data Mining, từ đó cung cấp cái nhìn sâu sắc về các phương pháp và kỹ thuật quan trọng Bài viết này không chỉ giới thiệu các thuật toán cơ bản mà còn phân tích các ứng dụng thực tiễn của chúng trong việc xử lý dữ liệu lớn Thông qua nghiên cứu, tác giả nhấn mạnh tầm quan trọng của Data Mining trong việc khai thác thông tin giá trị từ dữ liệu và ứng dụng của nó trong nhiều lĩnh vực khác nhau.

Nguyễn Thị Thùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định 11 – 62

Phạm Thị Thảo (2015) đã nghiên cứu các mô hình khai phá dữ liệu thời gian thực, ứng dụng vào dự báo trong phân tích số liệu tài chính Bài viết trình bày những phương pháp và kỹ thuật khai thác dữ liệu hiệu quả, góp phần nâng cao độ chính xác trong dự đoán xu hướng tài chính Nghiên cứu này không chỉ giúp hiểu rõ hơn về các mô hình hiện có mà còn mở ra hướng đi mới cho việc ứng dụng công nghệ trong lĩnh vực tài chính.

Phí Bá Chiến (2020) Nghiên cứu và xây dựng hệ thống phát hiện hành động ngã của người đi bộ dựa trên cảm biến của điện thoại di động 13 – 58

Lê Xuân Lâm (2020) Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên, 3 – 69

Phan Văn Dương (2012) Khai phá dữ liệu và ứng dụng trong tư vấn tuyển sinh Trường Cao đẳng Nghề Trung Bộ, Khoa học máy tính 3 – 23

Khang (2018) Machine Learning with Orange, truy cập ngày 31/10/2018,

ThS Trần Hùng Cường và ThS Ngô Đức Vĩnh (2011) đã cung cấp một cái nhìn tổng quan về phát hiện tri thức và khai phá dữ liệu trong nghiên cứu của họ tại Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội Bài viết nhấn mạnh tầm quan trọng của việc áp dụng các kỹ thuật khai thác dữ liệu để rút ra thông tin quý giá từ các tập dữ liệu lớn, đồng thời giới thiệu các phương pháp và công cụ chính trong lĩnh vực này.

Chỉ số EPS (Earnings Per Share) là một thước đo quan trọng trong tài chính, phản ánh lợi nhuận mà mỗi cổ phiếu của công ty mang lại Một chỉ số EPS cao cho thấy công ty đang hoạt động hiệu quả và có khả năng sinh lời tốt, trong khi chỉ số thấp có thể cảnh báo về vấn đề tài chính Để đánh giá chỉ số EPS, nhà đầu tư cần so sánh với các đối thủ cùng ngành và theo dõi xu hướng tăng trưởng qua các quý Chỉ số EPS từ 5 trở lên thường được coi là tốt, nhưng cần xem xét trong bối cảnh tổng thể của công ty và thị trường.

Nguyễn Bá Nghĩa (2021) Tỷ số nợ trên vốn chủ sở hữu (DE) là gì? Cách tính chi tiết.

Truy cập ngày 28/05/2021 < https://beatdautu.com/ty-so-no-tren-von-chu-so-huu>

Tài liệu tham khảo nước ngoài

Afzal, N., Shahadat, H.S 2011 An empirical analysis of the relationship between macroeconomic variables and stock prices in Bangladesh Bangladesh Development Studies, 34(4), 95

Research by Alagidede and Panagiotidis (2010) investigates whether common stocks can act as a hedge against inflation in African countries, while Ali (2011) explores the relationship between inflation, output, and stock prices in Brazil Both studies contribute valuable insights into the dynamics of stock markets in relation to inflationary pressures, highlighting the potential for equities to mitigate inflation risks and their impact on economic performance.

Hussain, M.M., Aamir, M., Rasool, N., Fayyaz, M., Mumtaz, M 2012 The impact of macroeconomic variables on stock prices: An empirical analysis of Karachi stock exchange Mediterranean Journal of Social Sciences, 3(3), 295-312

Ibrahim, T.M, Agbaje, O.M 2013 The relationship between stocks return and inflation inNigeria European Scientific Journal, 9(4), 140-157.

PHỤ LỤC 1: DANH SÁCH CÔNG TY NIÊM YẾT TRONG BỘ DỮ LIỆU HUẤN LUYỆN

Sectors Code Stock Echange DE EPS BV ROA Assessment

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

PHỤ LỤC 2: DANH SÁCH CÁC CÔNG TY NIÊM YẾT TRONG BỘ DỮ LIỆU DỰ BÁO

Sectors Code Stock Exchange DE EPS BV ROA Assessment

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Ngày đăng: 23/12/2023, 23:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w