1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng orange vào phân nhóm và dự đoán 5000 khoản đầu tư trên sàn chứng khoán new york

31 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng Orange vào phân nhóm và dự đoán 5000 khoản đầu tư trên sàn chứng khoán New York
Tác giả Nguyễn Thị Minh Chi, Nguyễn Năng Hải Đăng, Đặng Thị Thu Hà, Hoàng Phương Liễu
Người hướng dẫn THS. Nguyễn Mạnh Tuấn
Trường học Trường Đại học Kinh tế TP. Hồ Chí Minh
Chuyên ngành Khoa Công nghệ Thông tin Kinh doanh
Thể loại Tiểu luận kết thúc học phần
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 31
Dung lượng 1,79 MB

Cấu trúc

  • PHẦN I: TỔNG QUAN (6)
    • 1.1. Lý do chọn đề tài (6)
    • 1.2. Mục tiêu nghiên cứu (7)
      • 1.2.1. Mục tiêu tổng quát (7)
      • 1.2.2. Các mục tiêu cụ thể (7)
    • 1.3. Đối tượng nghiên cứu (8)
    • 1.4. Mô tả bài toán (8)
    • 1.5. Mô tả dữ liệu (9)
    • 1.6. Tiền xử lý dữ liệu (11)
    • 1.7. Phân tích dữ liệu (11)
  • PHẦN II: THỰC NGHIỆM DỮ LIỆU (12)
    • 2.1 Bài toán 1: Ứng dụng dự báo danh mục đầu tư của các công ty trên sàn chứng khoán (13)
      • 2.1.1. Mô tả bài toán và tiền xử lý dữ liệu (13)
      • 2.1.2. Các kiến thức chuyên ngành liên quan đến bài toán (13)
      • 2.1.3. Chạy mô hình và đánh giá kết quả (13)
    • 2.2 Bài toán 2: phân cụm các mã chứng khoán ngành ngân hàng (16)
      • 2.2.1. Mô tả bài toán và tiền xử lý dữ liệu (16)
      • 2.2.2. Các kiến thức chuyên ngành liên quan đến bài toán (17)
      • 2.2.3. Xây dựng mô hình (17)
    • 2.3. Bài toán 3: Xác định danh mục các cổ phiếu nên đầu tư hiện tại và không nên đầu tư hiện tại (20)
      • 2.3.1. Mô tả bài toán và tiền xử lý dữ liệu (20)
      • 2.3.2. Các kiến thức chuyên ngành liên quan đến bài toán (21)
      • 2.3.3. Xây dựng mô hình (21)
      • 2.4.1. Mô tả bài toán và tiền xử lý dữ liệu (22)
      • 2.4.2. Các kiến thức chuyên ngành liên quan đến bài toán (23)
      • 2.4.3. Chạy mô hình và đánh giá kết quả (23)
    • 2.5. Đánh giá kết quả (27)
  • PHẦN III: KẾT LUẬN, HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN (28)
    • 3.1 Kết luận (28)
    • 3.2. Hạn chế (29)
    • 3.3. Hướng phát triển (29)
  • TÀI LIỆU THAM KHẢO (31)

Nội dung

Do đó, nhóm chúng em chọn đề tài này để cung cấp một số dự báo và phân tích về thị trường chứng khoán ở sàn NYSE.Ngoài ra, dữ liệu về danh mục đầu tư có thể sử dụng để giúp các công ty n

TỔNG QUAN

Lý do chọn đề tài

Sàn Giao dịch Chứng khoán New York (NYSE - New York Stock Exchange), được thành lập từ năm 1792 Đây là sàn giao dịch chứng khoán lâu đời và lớn nhất thế giới về kim ngạch thương mại và tổng giá trị vốn hóa Ngày càng nhiều nhà đầu tư lựa chọn NYSE là nơi mua và bán cổ phiếu Tại sàn NYSE, các nhà đầu tư nhận được nhiều công cụ tài chính để giao dịch; trang thiết bị tại NYSE luôn ở mức cao nhất có thể, các giao dịch thực hiện khớp lệnh nhanh chóng và có quy mô lớn với hơn 50 quốc gia và gần 3.500 công ty giao dịch

NYSE là sàn giao dịch chứng khoán lâu đời, giá trị của nó vẫn không thay đổi trong nhiều năm Đây là nơi hàng triệu nhà đầu tư khác nhau cạnh tranh, đặt lệnh mua và bán trực tiếp và khớp lệnh ngay lập tức trên sàn Vì vậy, phân tích số liệu khoản đầu tư trên sàn chứng khoán New York - một khía cạnh nào đó - có thể nhận biết nhu cầu của các nhà đầu tư đối với việc mua và bán cổ phiếu

Bảng 1: Chỉ số S&P 500 (Nguồn: Macrotrends.net)

Chỉ số S&P 500 dựa trên vốn hóa thị trường của 500 cổ phiếu lớn nhất trên sàn chứng khoán Mỹ Qua bảng trên ta thấy sự tăng trưởng của thị trường chứng khoán trong giao đoạn từ 2012-2020, chính là mốc thời gian mà nhóm dùng để phân tích dữ liệu Tuy trong thời điểm dịch bệnh 2020, chỉ số chứng khoán đã tăng vượt bậc, nhưng tác động của hậu COVID-19 gây ra đã dẫn đến sự gián đoạn chưa từng có đối với nền kinh tế Mỹ cũng như thế giới và cũng là sự sụt giảm chưa từng có trên thị trường chứng khoán Mặc dù đã dùng các biện pháp để hạn chế sự sụt giảm của thị trường chứng khoán vào tháng 3 năm 2020 Các nhà đầu tư đã chịu thiệt hại nặng nề do giá cổ phiếu lao dốc Nỗi lo lắng về cuộc khủng hoảng và tác động của nó đối với nền kinh tế toàn cầu nhanh chóng lan sang phần còn lại của thế giới Theo báo cáo gần đây, chứng khoán Mỹ giảm điểm tồi tệ nhất kể từ năm 1987, sau khi thị trường Mỹ trải qua đợt giảm điểm tồi tệ nhất trong lịch sử, thị trường toàn cầu cũng chứng kiến sự sụt giảm tương tự. Hơn nữa, thị trường chứng khoán Mỹ là một nơi có chỉ số hàng đầu và ảnh hưởng lớn đến thị trường toàn cầu, đặc biệt trong những trường hợp như vậy Do đó, nhóm chúng em chọn đề tài này để cung cấp một số dự báo và phân tích về thị trường chứng khoán ở sàn NYSE.

Ngoài ra, dữ liệu về danh mục đầu tư có thể sử dụng để giúp các công ty nhìn nhận chính xác hơn trong quá trình lựa chọn danh mục đầu tư.

Quan trọng, bộ dữ liệu về các khoản đầu tư trên sàn chứng khoán New York qua các năm được cung cấp công khai: https://bom.so/C3imrB Điều này giúp sinh viên thu thập nhanh chóng và chính xác nguồn dữ liệu từ thực tế

Từ những lý do trên, sinh viên lựa chọn đề tài “Ứng dụng orange vào phân nhóm và dự đoán 5000 khoản đầu tư trên sàn chứng khoán New York” làm báo cáo kết thúc môn học.

Mục tiêu nghiên cứu

Mục tiêu tổng quát của bài báo cáo là đưa ra các chiến lược đầu tư hợp lý dựa vào việc dự báo và phân tích dữ liệu đầu tư trên sàn chứng khoán New York

1.2.2 Các mục tiêu cụ thể

Bốn mục tiêu chính của đề tài tương ứng với bốn bài toán cần giải quyết:

- Ứng dụng dự báo danh mục đầu tư của các công ty trên sàn chứng khoán New York qua đó giúp các công ty nhìn nhận chính xác hơn trong quá trình lựa chọn danh mục đầu tư.

- Phân cụm các mã chứng khoán thuộc lĩnh vực ngân hàng để giúp cho việc phân bổ phần trăm (%) lên danh mục đầu tư tài chính một cách hiệu quả và rõ ràng hơn và từ đó xác định các yếu tố ảnh hưởng lên việc phân cụm lĩnh vực ngân hàng giúp đưa ra phương án đầu tư hiệu quả.

- Phát hiện các điểm đặc thù của dữ liệu để phân loại, xác định xu hướng chung của các danh mục cổ phiếu, các yếu tố giúp xác định, thống kê danh mục đó tốt hay xấu và đưa ra quyết định có nên tiếp tục đầu tư hay không.

- Dự đoán tình trạng phục hồi của công ty đối với các rủi ro trên sàn chứng khoán NewYork để giúp cho các nhà đầu tư có nhiều sự lựa chọn chắc chắn và đưa ra những quyết định đầu tư chuẩn xác hơn.

Đối tượng nghiên cứu

Sử dụng bộ dữ liệu bao gồm các thông tin công khai về danh sách khoản đầu tư trên sàn chứng khoán New York.

Mô tả bài toán

Sử dụng Excel và phần mềm Orange để xử lý dữ liệu và giải quyết các bài toán sau:

- Bài toán 1 (Liên quan): Ứng dụng dự báo danh mục đầu tư của các công ty trên sàn chứng khoán New York (Bài toán phân lớp)

Liên quan đến chuyên ngành: Thông qua các chỉ số tài chính có ảnh hưởng đến danh mục đầu tư kết hợp với bài toán phân lớp đã đưa ra những dự báo đầu tư tốt hoặc xấu cho các danh mục đầu tư.

- Bài toán 2 (Liên quan): Phân cụm các mã chứng khoán ngành ngân hàng (Bài toán phân cụm)

Liên quan đến chuyên ngành: Kiến thức đầu tư tài chính để phân bổ danh mục hiệu quả, từ đó phòng ngừa rủi ro có thể ảnh hưởng đến tỉ suất sinh lợi cũng như lợi nhuận có thể đạt được.

- Bài toán 3 (Liên quan): Xác định danh mục các cổ phiếu nên đầu tư hiện tại và không nên đầu tư hiện tại (Bài toán phát hiện các điểm đặt thù của dữ liệu).

Liên quan đến chuyên ngành: Kiến thức của môn đầu tư tài chính của chuyên ngành, ta xác định được xu hướng chung của các danh mục cổ phiếu.

- Bài toán 4 (Liên quan): Dự đoán tình trạng phục hồi của công ty đối với các rủi ro trên sàn chứng khoán New York (bài toán phân lớp)

Liên quan đến chuyên ngành: các chỉ số thuộc ngành tài chính như: thước đo lợi nhuận, lợi tức kỳ vọng, khả năng phục hồi, hệ số giá trên lợi nhuận, tỷ số lợi nhuận trên tài sản, chỉ số định giá, tỷ lệ so sánh giá thị trường với giá trị sổ sách của cổ phiếu, tỷ lệ lợi nhuận sau thuế từ mỗi đồng doanh thu, tỷ số thanh khoản, tỷ số lợi nhuận trên tài sản, tỷ số lợi nhuận trên vốn chủ sở hữu kết hợp với bài toán phân lớp để phân tích và trích xuất thông tin có giá trị từ dữ liệu, nhằm dự báo khả năng phục hồi là cao hay thấp.

Mô tả dữ liệu

Bộ dữ liệu được tổng hợp từ các tập dữ liệu về khoản đầu tư trên sàn chứng khoán New

York giai đoạn 2012 đến 2020 - được truy xuất tại: https://bom.so/C3imrB

Bộ dữ liệu gồm các thông tin:

STT THUỘC TÍNH Ý NGHĨA MÔ TẢ

1 company Tên mã chứng khoán 1 chuỗi ký tự chữ

2 sector Lĩnh vực 1 chuỗi ký tự chữ

3 horizon (days) Số ngày nắm giữ cổ phiếu

4 amount khối lượng đầu tư Số tự nhiên

5 date_BUY_fix Ngày mua mm/dd/yyyy

6 date_SELL_fix Ngày bán mm/dd/yyyy

7 price_BUY Giá mua chứng khoán Số thập phân

8 price_SELL Giá bán chứng khoán Số thập phân

9 sharpe Ratio Thước đo xem lợi nhuận thu được là bao nhiêu trên một đơn vị rủi ro

Lợi tức kỳ vọng của một khoản đầu tư tài chính

11 inflation Lạm phát Số thập phân

12 investment Danh mục đầu tư tốt hoặc xấu

13 resilience Đánh giá khả năng phục hồi đối với các rủi ro của công ty là cao hay thấp

14 PE_ratio Hệ số giá trên thu nhập một cổ phiếu

15 EPS_ratio Hệ số giá trên lợi nhuận một cổ phiếu

16 PS_ratio Chỉ số định giá đo lường mức giá thị trường trả cho phần doanh thu trên mỗi cổ phần

17 PB_ratio Tỷ lệ được sử dụng để so sánh giá của một cổ phiếu với giá trị sổ sách của cổ phiếu đó

Tỷ lệ phần trăm (%) lợi nhuận sau thuế mà công ty thu được từ mỗi đồng doanh thu.

19 current_ratio Tỷ số thanh khoản hiện thời, đo lường năng lực thanh toán nợ ngắn hạn của doanh nghiệp.

20 roa_ratio Tỷ số lợi nhuận trên tài sản

21 roe_ratio Tỷ số lợi nhuận trên vốn chủ sở hữu Số thập phân

Tiền xử lý dữ liệu

- Loại bỏ các biến không phù hợp:

Nhận thấy biến company, date_BUY_fix, date_SELL_fix trong tập dữ liệu không ảnh hưởng đến các bài toán mà nhóm thực hiện, do đó nhóm thực hiện bỏ qua (skip) các biến trên.

- Chọn số lượng khảo sát.

Dữ liệu gốc lúc đầu có hơn 400.000 khoản đầu tư (không có dữ liệu bị thiếu) Nhóm thực hiện thu gọn ngẫu nhiên dữ liệu và thu được 5004 mẫu.

Phân tích dữ liệu

Thống kê mô tả các dữ liệu đặc trưng nhất thông qua Excel như sau:

Bảng 2: Thống kê mô tả dữ liệu

Thống kê theo số ngày nắm giữ, ta thấy trung bình nhà đầu tư nắm giữ 182,81 ngày một mã cổ phiếu, ngắn nhất là 1 ngày và lâu nhất là 720 ngày.

Khối lượng đầu tư có trung bình đạt 7939,77 số lượng đô la đầu tư Trong đó, thấp nhất rơi vào mức 50 và nhiều nhất ở mức 720 số lượng đô la được đầu tư.

PE_ratio biểu thị hệ số giá trên thu nhập một cổ phiếu, có trung bình là 30,03% và độ lệch chuẩn là 80,19% Giá trị lớn nhất của PE_ratio rơi vào 1116,57% và thấp nhất ở mức 0%.

Giá trị trung bình của hệ số giá trên lợi nhuận một cổ phiếu (EPS_ratio) là 3,35%với độ lệch chuẩn là 4,24% Giá trị lớn nhất của EPS_ratio là 29,87% và giá trị nhỏ nhất là -6,56%.

Về biến tỷ số thanh khoản hiện thời, đo lường năng lực thanh toán nợ ngắn hạn của doanh nghiệp (current_ratio) có số trung bình ở mức 2,19%, độ lệch chuẩn khoảng2,61% Current_ratio có giá trị cao nhất tại 13,56% và nhỏ nhất tại 0,61%

Từ các số liệu được trình bày trên, ta có được trung bình của tỷ số lợi nhuận trên tài sản (roa_ratio) là 5,57% với độ lệch chuẩn đạt 6,03% Điều này cho thấy không có sự chênh lệch đáng kể về lợi nhuận trên tổng tài sản của các doanh nghiệp bất động sản Doanh nghiệp có roa_ratio cao nhất đạt mức 38,13%và giá trị nhỏ nhất của roa_ratio ở mức -12,99%

Tương tự, tỷ số lợi nhuận trên vốn chủ sở hữu (roe_ratio) có trung bình là 15,68% Tuy nhiên, độ lệch chuẩn khá cao 17,68% chứng tỏ có sự chênh lệch cao trong mức độ hiệu quả từ việc sử dụng vốn chủ sở hữu của doanh nghiệp Giá trị lớn nhất roe_ratio đạt mức 57,25% trong khi doanh nghiệp có roe_ratio thấp nhất ở mức -99,49%.

Thống kê mô tả lĩnh vực thông qua Excel như sau:

Bảng 3: Thống kê số lượng giao dịch theo lĩnh vực.

Còn bảng thống kê số lượng giao dịch cho thấy tỉ trọng giao dịch của lĩnh vực bán lẻ (RETAIL) là nhiều nhất với 23,34% theo sau đó là lĩnh vực công nghệ (TECH) chiếm 22,24% và lĩnh vực được đầu tư ít nhất đó chính là hàng tiêu dùng nhanh (FMCG) Qua đó cho thấy,thống kê trên sàn giao dịch NYSE thì những lĩnh vực được quan tâm nhất là bản lẻ (RETAIL),công nghệ (TEHC) Theo sau đó là ngân hàng (BANK), cuối cùng là hàng tiêu dùng nhanh(FMCG) Tuy nhiên không có sự chênh lệch đáng kể giữa các lĩnh vực, cho thấy tỉ trọng danh mục đầu tư trên sàn khá đồng đều và phân bổ tương đối bằng nhau.

THỰC NGHIỆM DỮ LIỆU

Bài toán 1: Ứng dụng dự báo danh mục đầu tư của các công ty trên sàn chứng khoán

2.1.1 Mô tả bài toán và tiền xử lý dữ liệu

- B1: Chọn dữ liệu File final_transactions_dataset.xlsx và chọn cột “investment” làm Target; Skip ba cột “feature 1”, “date_BUY_fix”, “date_SELL_fix”.

- B2: Dùng Data Sampler chia dữ liệu làm 2 phần (70%-30%) Đặt tên File dữ liệu lớn hơn là “Data train (70%)”, File nhỏ hơn là “Data forecast (30%)”

- B3: Dùng 3 phương pháp: SVM, Neutral Network, Logistic Regression tiến hành phân loại đầu tư và đánh giá hiệu quả các phương pháp

- B4: Chọn phương pháp được đánh giá tốt nhất, dùng phương pháp đó dự báo cho dữ liệu File “Data forecast (30%)”.

2.1.2 Các kiến thức chuyên ngành liên quan đến bài toán

Từ những phân tích thông qua các chỉ số tài chính liên quan đến chuyên ngành, các chỉ số đó có ảnh hưởng đến danh mục đầu tư kết hợp với bài toán phân lớp đã đưa ra những dự báo đầu tư tốt hoặc xấu cho các danh mục đầu tư, giúp các công ty hay nhà đầu tư đưa ra lựa chọn phù hợp trong việc ra quyết định đầu tư cho tương lai cũng như dự báo xu hướng đầu tư sắp tới Qua đó thấy được tác động của các chỉ số tài chính ảnh hưởng đến việc phân loại danh mục đầu tư tốt xấu.

2.1.3 Chạy mô hình và đánh giá kết quả

Hình 1: Mô hình bài toán 1

- Kết quả đánh giá phương pháp của Test & Score

Bảng 4: Kết quả Test & Score của bài toán 1

- Đánh giá mô hình dựa trên kết quả Confusion Matrix:

● Sai lầm loại 2: Dự báo danh mục đầu tư của công ty là tốt nhưng thực tế là xấu Việc này sẽ khiến cho các nhà đầu tư đưa ra những quyết định sai lầm trong quyết định đầu tư, nghiêm trọng hơn có thể dẫn đến phá sản

● Kết luận: Neural Network = 75 < Logistic Regression = 299 < SVM = 422

Vì vậy, nhóm nghiên cứu chọn phương pháp Neural Network để dự báo đầu tư và phân loại dữ liệu File “Data forecast (30%)”.

Bảng 5: Kết quả Confusion Matrix của bài toán 1

Hình 2: Kết quả dự báo của bài toán 1

Bài toán 2: phân cụm các mã chứng khoán ngành ngân hàng

2.2.1 Mô tả bài toán và tiền xử lý dữ liệu:

Bài toán phân cụm các mã chứng khoán thuộc lĩnh vực ngân hàng để giúp cho việc phân bổ phần trăm(%) lên danh mục đầu tư tài chính một cách hiệu quả và rõ ràng hơn và từ đó xác định các yếu tố ảnh hưởng lên việc phân cụm lĩnh vực ngân hàng giúp đưa ra phương án đầu tư hiệu quả.

- B1: Chọn dữ liệu Final_transactions_dataset.xlsx, không chọn Target, skip ba cột

“feature 1”, “date_BUY_fix”, “date_SELL_fix”.

- B2: Dùng Select Rows đặt để lấy cột ngành ngân hàng bằng cách đặt điều kiện Sector is Bank.

- B2: Dùng phương pháp k-Means để phân cụm dữ liệu

- B3: Minh họa các cụm lĩnh vực Ngân hàng (Bank) bằng Sihouette Plot và ScatterPlot

2.2.2 Các kiến thức chuyên ngành liên quan đến bài toán

Trong chuyên ngành tài chính, vận dụng kiến thức đầu tư tài chính để phân bổ danh mục hiệu quả, từ đó phòng ngừa rủi ro có thể ảnh hưởng đến tỉ suất sinh lợi cũng như lợi nhuận có thể đạt được Bài toán sử dụng cách phân cụm một nhóm ngành cụ thể, qua đó có thể tìm ra sự tương đồng, từ đó tìm ra được danh mục nào nên đầu tư trước, danh mục nào nên đầu tư sau, tuỳ vào mức độ chấp nhận rủi ro và tín hiệu của thị trường.

Hình 3: Mô hình bài toán 2 Đánh giá & kết quả

- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 5 cụm, chọn phân 2 cụm tương ứng với điểm Silhouette cao nhất là 0,273 Không chọn các trường hợp khác vì điểm số Silhouette thấp hơn

Bảng 6: Kết quả chạy k-Means bài toán 2

Minh họa kết quả phân cụm:

Bảng 7: Minh hoạ kết quả phân cụm bài toán 2

Bảng 8: Kết quả phân cụm bài toán 2

Qua đó, ta có thể phân lĩnh vực Ngân hàng thành 2 cụm.

Bài toán 3: Xác định danh mục các cổ phiếu nên đầu tư hiện tại và không nên đầu tư hiện tại

2.3.1 Mô tả bài toán và tiền xử lý dữ liệu:

Bài toán phân lớp các danh mục đầu tư tốt/ xấu để giúp thống kê lại các lĩnh vực, mã cp có triển vọng đầu tư và xác định các yếu tố làm cho danh mục đầu tư không tốt để có thể định giá và ra quyết định có nên mua, bán hoặc nắm giữ cổ phiếu đó hay không.

- B1: Chọn dữ liệu Final_transactions_dataset.xlsx,

Feature là các biến sector, resilience, eps_ratio, roe_ratio

Skip các biến còn lại

- B2: Dùng phương pháp Cây quyết định để phân lớp dữ liệu

- B3: Minh họa kết quả phân lớp.

2.3.2 Các kiến thức chuyên ngành liên quan đến bài toán

Từ các đặc thù của dữ liệu dùng công cụ cây quyết định, kết hợp với kiến thức của môn đầu tư tài chính của chuyên ngành, ta xác định được xu hướng chung của các danh mục cổ phiếu, các yếu tố giúp xác định, thống kê danh mục đó tốt hay xấu và đưa ra quyết định có nên tiếp tục đầu tư hay không, tuỳ vào mức độ chấp nhận rủi ro và tỉ suất sinh lời muốn đạt được. 2.3.3 Xây dựng mô hình:

Hình 4: Mô hình bài toán 3

Minh hoạ kết quả phân lớp bằng cây quyết định:

Hình 5: Minh hoạ kết quả phân cụm bài toán 3

- Từ kết quả trên, ta có thể thấy danh mục đầu tư được đánh giá chưa tố chiếm hơn 50%.

Về lĩnh vực (sector) thì nhóm Công nghệ (TECH) có phần trăm không tốt ít hơn so với nhóm Tự động, Ngân hàng, FMCG, Bán lẻ (AUTO, BANK, FMCG, RETAIL).

- Với lĩnh vực Công nghệ, nếu chỉ số EPS từ 2,08 trở xuống thì danh mục đầu tư đó tốt ngược lại là không tốt Với các lĩnh vực còn lại, thì chỉ số EPS không có khả năng đánh giá được, bằng chứng là tất cả danh mục đều không tốt như nhau.

- Qua đó cho thấy, lĩnh vực Công nghệ đang là xu hướng và có triển vọng phát triển trong những năm dữ liệu được thu thập Hơn nữa, thông qua kết quả trên có thể dự đoán được các ngành có khả năng tăng trong tương lai sau một thời gian xuống giá.

2.4 Bài toán 4: Dự đoán tình trạng phục hồi của công ty đối với các rủi ro trên sàn chứng khoán New York.

2.4.1 Mô tả bài toán và tiền xử lý dữ liệu:

Hình 6: Mô hình bài toán 4

- B1: Chọn dữ liệu File final_transactions_dataset.xlsx và chọn cột “resilience” làm target; Skip ba cột “feature 1”, “date_BUY_fix”, “date_SELL_fix”

- B2: Dùng Data Sampler chia dữ liệu làm 2 phần (70%-30%) Đặt tên File dữ liệu lớn hơn là “Train (70%)”, File nhỏ hơn là “Forecast (30%)”

- B3: Dùng 3 phương pháp: Logistic Regression, Neutral Network và Random Forest tiến hành phân loại và đánh giá hiệu quả các phương pháp

- B4: Chọn phương pháp được đánh giá tốt nhất, dùng phương pháp đó dự báo cho dữ liệu File “Forecast (30%)”.

2.4.2 Các kiến thức chuyên ngành liên quan đến bài toán:

Bài toán áp dụng bộ dữ liệu của thị trường chứng khoán gồm các chỉ số thuộc ngành tài chính như: Thước đo lợi nhuận, lợi tức kỳ vọng, khả năng phục hồi, hệ số giá trên lợi nhuận, tỷ số lợi nhuận trên tài sản, chỉ số định giá, tỷ lệ so sánh giá thị trường với giá trị sổ sách của cổ phiếu, tỷ lệ lợi nhuận sau thuế từ mỗi đồng doanh thu, tỷ số thanh khoản, tỷ số lợi nhuận trên tài sản, tỷ số lợi nhuận trên vốn chủ sở hữu kết hợp với bài toán phân lớp để phân tích và trích xuất thông tin có giá trị từ dữ liệu, nhằm dự báo khả năng phục hồi là cao hay thấp Từ đó, giúp cho các nhà đầu tư ra quyết định kinh doanh và quản lý danh mục đầu tư có hiệu quả, lập kế hoạch chiến lược tăng hiệu quả hoạt động và mục đích sử dụng khác kết hợp với bài toán phân lớp đã đưa ra những dự báo đầu tư tốt hoặc xấu cho các danh mục đầu tư.

2.4.3 Chạy mô hình và đánh giá kết quả

- Kết quả đánh giá phương pháp của Test & Score:

Bảng 9: Kết quả Test & Score của bài toán 4

- Đánh giá mô hình dựa trên kết quả Confusion Matrix:

Bảng 10: Kết quả Confusion Matrix của bài toán 4

● Sai lầm loại 2: Dự báo khả năng phục hồi của công ty là cao nhưng thực tế là thấp Điều này sẽ khiến cho các nhà đầu tư đưa ra những lựa chọn sai lầm trong quyết định đầu tư, nghiêm trọng hơn có thể dẫn đến phá sản

● Kết luận: Random Forest = 208 < Logistic Regression = 211 < Neutral Network = 212

Vì vậy, nhóm nghiên cứu chọn phương pháp Random Forest để dự báo và phân loại dữ liệu File “Data forecast (30%)”.

Bảng 11 : Kết quả dự báo bài toán 4

Đánh giá kết quả

● Bài toán 1: Theo bảng đánh giá kết quả, phương pháp Neural Network = 75, phương pháp Logistic Regression = 299 còn phương pháp SVM = 422 Vậy phương pháp Neural Network là tốt nhất, việc xác định ma trận nhầm lẫn này giúp xác định những quyết định sai lầm trong quyết định đầu tư, nghiêm trọng hơn có thể dẫn đến phá sản.

Từ đó phòng tránh rủi ro cho các nhà đầu tư.

● Bài toán 2: Theo bảng đánh giá kết quả, dùng phương pháp phân cụm k-Means phân làm 2 cụm tương ứng với điểm Silhouette cao nhất là 0,273 Không chọn các trường hợp khác vì điểm số Silhouette thấp hơn Qua đó, có thể tìm ra sự tương đồng, tìm ra được danh mục nào nên đầu tư trước, danh mục nào nên đầu tư sau, tuỳ vào mức độ chấp nhận rủi ro và tín hiệu của thị trường.

● Bài toán 3: Theo bảng đánh giá kết quả, dựa vào phương pháp cây quyết định Tree, danh mục đầu tư được đánh giá chưa tốt chiếm hơn 50%, lĩnh vực Công nghệ đang là xu hướng và có triển vọng phát triển trong những năm dữ liệu được thu thập Hơn nữa, thông qua kết quả trên có thể dự đoán được các ngành có khả năng tăng trong tương lai sau một thời gian xuống giá.

● Bài toán 4: Theo bảng đánh giá kết quả, phương pháp Random Forest = 208, phương pháp Logistic Regression = 211 còn phương pháp Neutral Network = 212 Vậy phương pháp Random Forest được nhóm lựa chọn, việc xác định ma trận nhầm lẫn giúp xác định việc dự báo khả năng phục hồi của công ty đã tốt hay chưa, qua đó phòng tránh được rủi ro phá sản tiềm tàng, đưa ra các giải pháp phù hợp để cải thiện tình trạng của công ty.

Ngày đăng: 08/04/2024, 08:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w