1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Quản lý xây dựng: Áp dụng mô hình machine learning để dự đoán và đánh giá tỷ số lợi nhuận trên tài sản (ROA) cho doanh nghiệp xây dựng Việt Nam

93 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Áp dụng mô hình Machine Learning để dự đoán và đánh giá tỷ số lợi nhuận trên tài sản (ROA) cho doanh nghiệp xây dựng Việt Nam
Tác giả Lê Tùng Dương
Người hướng dẫn TS. Trần Thành Long
Trường học Trường Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Quản lý xây dựng
Thể loại Đồ án tốt nghiệp Thạc sĩ
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 93
Dung lượng 1,65 MB

Cấu trúc

  • CHƯƠNG 1 MỞ ĐẦU (15)
    • 1.1 Đặt vấn đề (15)
    • 1.2 Lý do cho sự lựa chọn đề tài (17)
    • 1.3 Mục tiêu nghiên cứu (19)
    • 1.4 Phạm vi nghiên cứu (19)
    • 1.5 Ý nghĩa khoa học và thực tiễn của đề tài (20)
      • 1.5.1 Về khoa học (20)
      • 1.5.2 Về thực tiễn (21)
    • 1.6 Cấu trúc luận văn (21)
  • CHƯƠNG 2 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU (21)
    • 2.1 Các nghiên cứu trước đây (23)
      • 2.1.1 Các nghiên cứu nước ngoài (23)
      • 2.1.2 Các nghiên cứu trong nước (26)
    • 2.2 Các mô hình máy học áp dụng để dự đoán tỷ suất lợi nhuận ROA (28)
      • 2.2.1 Các mô hình phân tích hồi quy độc lập (30)
      • 2.2.2 Các mô hình kết hợp (31)
      • 2.2.3 Mô hình mạng thần kinh nhân tạo (32)
    • 2.3 Môi trường ảo thực thi máy học (33)
  • CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU (21)
    • 3.1 Quy trình thực hiện nghiên cứu (35)
    • 3.2 Công cụ thực hiện nghiên cứu (35)
    • 3.3 Các lý thuyết, thuật toán áp dụng (36)
      • 3.3.1 Các biến tài chính (36)
      • 3.3.2 Các loại dự báo và các phương pháp dự báo (40)
      • 3.3.3 Các mô hình phân tích hồi quy độc lập (40)
      • 3.3.4 Các mô hình kết hợp (44)
      • 3.3.5 Mô hình mạng thần kinh nhân tạo (51)
    • 3.4 Áp dụng lý thuyết thu thập và xử lý dữ liệu dữ liệu (54)
    • 3.5 Thiết lập mô hình dự đoán (55)
    • 3.6 Kiểm soát mô hình dự báo (58)
      • 3.6.1 Sai số căn trung bình bình phương (RMSE) (58)
      • 3.6.2 Hệ số tương quan R 2 (58)
  • CHƯƠNG 4 HUẤN LUYỆN MÔ HÌNH DỰ BÁO VÀ THẢO LUẬN (22)
    • 4.1 Tổng quan về dữ liệu (60)
      • 4.1.1 Thu thập dữ liệu (60)
      • 4.1.2 Xử lý dữ liệu (60)
      • 4.1.3 Mô tả dữ liệu (62)
    • 4.2 Các biến trong mô hình dự đoán (62)
      • 4.2.1 Xử lý dữ liệu (63)
      • 4.2.2 Kết quả (69)
    • 4.3 Thử nghiệm mô hình (73)
      • 4.3.1 Trường hợp nghiên cứu thử nghiệm (73)
  • CHƯƠNG 5 KẾT LUẬN, HƯỚNG PHÁT TRIỂN VÀ THẢO LUẬN (75)
    • 5.1 Kết luận (75)
    • 5.2 Giới hạn của nghiên cứu và hướng phát triển của nghiên cứu (76)
      • 5.2.1 Giới hạn về dữ liệu và hướng khắc phục (76)
      • 5.2.2 Giới hạn về mô hình học máy (76)
      • 5.2.3 Hướng phát triển nghiên cứu (77)
  • PHỤ LỤC (85)

Nội dung

Nguồn tác giả thu thập trong tài liệu đại hội cổ đông của các doanh nghiệp Hình 1.1 và 1.2 mô tả việc dự đoán lợi nhuận và doanh thu của các doanh nghiệp xây dựng điển hình năm 2023, chú

TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

Các nghiên cứu trước đây

Trong thế giới hiện đại dựa trên dữ liệu, học máy (ML) đã mang đến sự đổi mới lớn trong việc phân tích và đưa ra dự đoán trên nhiều lĩnh vực ML không chỉ là một công cụ hiệu quả để nhận diện xu hướng trong dữ liệu phức tạp, mà còn giúp dự đoán hành vi, kết quả, và hiện tượng một cách chính xác Các thuật toán của ML liên tục học hỏi từ dữ liệu, cải tiến qua thời gian, và phát hiện các mô hình mà con người có thể bỏ sót Hiệu quả của nó đã được thử nghiệm trong nhiều ngành như dự báo thời tiết, tài chính, chăm sóc sức khỏe, quản lý chuỗi cung ứng, và phát triển sản phẩm Khả năng thích ứng với dữ liệu mới của ML không chỉ cải thiện hiệu suất hoạt động, mà còn giúp các tổ chức dự đoán các thách thức tương lai Đây là điểm mạnh lớn của ML, mở ra không gian cho sự đổi mới, sáng tạo và quyết định chiến lược dựa trên dữ liệu

2.1.1 Các nghiên cứu nước ngoài

Trong lĩnh vực quản lý xây dựng đang phát triển, việc áp dụng máy học (ML) đã tạo ra sự tiến bộ quan trọng trong việc cải thiện khả năng dự đoán và hiểu biết về lợi nhuận trong ngành Các nghiên cứu gần đây đề cao vai trò ngày càng lớn của ML trong việc dự báo kết quả tài chính, nhấn mạnh rằng sự thay đổi công nghệ này có khả năng cải thiện quy trình hoạch định chiến lược và ra quyết định

[2] đã dẫn đầu trong việc áp dụng Thuật toán Hồi quy Vector Hỗ trợ (SVRA) để dự đoán lợi nhuận dự án xây dựng tại Ghana, đạt tỷ lệ chính xác ấn tượng là 73,66% Nghiên cứu này đã minh chứng khả năng của ML trong dự báo lợi nhuận xây dựng và đặt ra tiêu chuẩn cho các nghiên cứu sau này ở các thị trường mới nổi khác Theo cùng một hướng, [3] đã sử dụng phân tích thành phần chính (PCA) và máy vector hỗ trợ (SVM) để đối phó với các vấn đề tài chính phức tạp của các công ty xây dựng Trung Quốc, đạt tỷ lệ chính xác ấn tượng hơn 80% Những phát hiện này đã làm rõ tiềm năng của các thuật toán ML trong việc phân tích và giải thích dữ liệu tài chính phức tạp một cách hiệu quả

Bổ sung vào đó, [4] đã giới thiệu một hệ thống hỗ trợ quyết định được thiết kế để ước lượng tỷ lệ năng suất trong các dự án xây dựng bằng cách kết hợp mô hình SVM và Naive Bayes Phương pháp này không chỉ nhấn mạnh sự linh hoạt của ML trong việc

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

10 đối mặt với các thách thức quản lý xây dựng đa dạng mà còn khẳng định tầm quan trọng của độ chính xác dự báo trong việc nâng cao kết quả dự án Thêm vào, [5] đã nghiên cứu về ảnh hưởng của cấu trúc vốn đến lợi nhuận của các công ty xây dựng tại Ethiopia Kết quả cho thấy tỷ lệ nợ/vốn chủ sở hữu và tỷ lệ nợ dài hạn/tổng tài sản đều có mối liên hệ tích cực đáng chú ý với ROE và ROA Nhận định này khớp với cuộc thảo luận rộng rãi về vai trò quan trọng của quyết định về cấu trúc vốn trong việc ảnh hưởng đến giá trị công ty và chi phí hoạt động Điều này càng cho thấy tầm quan trọng của việc lập kế hoạch tài chính chiến lược trong ngành xây dựng

Luận văn đã tổng hợp một số nghiên cứu nước ngoài liên quan đến áp dụng AI để dự báo lợi nhuận cho các công ty xây dựng (Bảng 2.1)

Bảng 2.1 Một số nghiên cứu nước ngoài áp dụng AI dự báo lợi nhuận cho các công ty xây dựng

STT Tên nghiên cứu Tác giả Năm Mô tả

Application of machine learning in predicting construction project profit in Ghana using Support

Dự đoán lợi nhuận dự án xây dựng tại Ghana, đạt tỷ lệ chính xác ấn tượng là 73,66% Nghiên cứu này đã minh chứng khả năng của ML trong dự báo lợi nhuận xây dựng và đặt ra tiêu chuẩn cho các nghiên cứu sau này ở các thị trường mới nổi khác

Predicting profitability of listed construction companies based on principal

Hong Zhang, Fei Yang, Yang Li, Heng Li

Sử dụng phân tích thành phần chính (PCA) và máy vector hỗ trợ (SVM) để đối phó với các vấn đề tài chính phức tạp của các công ty xây dựng Trung

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

11 component analysis and support vector machine-Evidence from China [3]

Quốc, đạt tỷ lệ chính xác ấn tượng hơn 80%

Những phát hiện này đã làm rõ tiềm năng của các thuật toán ML trong việc phân tích và giải thích dữ liệu tài chính phức tạp một cách hiệu quả

Giới thiệu một hệ thống hỗ trợ quyết định được thiết kế để ước lượng tỷ lệ năng suất trong các dự án xây dựng bằng cách kết hợp mô hình SVM và Naive Bayes Phương pháp này không chỉ nhấn mạnh sự linh hoạt của ML trong việc đối mặt với các thách thức quản lý xây dựng đa dạng mà còn khẳng định tầm quan trọng của độ chính xác dự báo trong việc nâng cao kết quả dự án

Impacts of capital structure: profitability of construction companies in

Nghiên cứu về ảnh hưởng của cấu trúc vốn đến lợi nhuận của các công ty xây dựng tại Ethiopia Kết quả cho thấy tỷ lệ nợ/vốn chủ sở hữu và tỷ lệ nợ dài hạn/tổng tài sản đều có

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

12 mối liên hệ tích cực đáng chú ý với ROE và ROA

Kết quả của các nghiên cứu cho thấy việc sử dụng ML để dự đoán lợi nhuận tại các quốc gia mang lại kết quả vô cùng tích cực

2.1.2 Các nghiên cứu trong nước:

Các nghiên cứu trong nước chỉ đang dừng tại ở mức đánh giá, so sánh các biến tài chính hoặc so sánh rút ra kết luận giữa các ngành khác với ngành xây dựng dựa vào phương pháp thống kê

Bảng 2.2 Bảng liệt kê một số đề tài nghiên cứu trong nước

STT Tên nghiên cứu Tác giả Năm Mô tả

Determinants of profitability: evidence from construction companies listed on Vietnam

Thi Nhu Le, Van Anh Mai and Van Cong Nguyen

Trong nghiên cứu với trọng tâm là Việt Nam, tác giả đã cẩn thận phân tích các yếu tố quan trọng ảnh hưởng đến lợi nhuận của các công ty xây dựng địa phương Những biến số như tuổi của công ty, tỷ lệ nợ, tốc độ tăng trưởng, hiệu quả sử dụng tài sản, quy mô công ty và tỷ lệ tài sản cố định được xem là các yếu tố quan trọng đối với thành công tài chính Nghiên cứu này đã đóng góp thêm vào cuộc thảo luận về các yếu tố tác động đến lợi nhuận

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

13 trong ngành xây dựng, cung cấp những cái nhìn sâu sắc về các đặc trưng riêng biệt của thị trường Việt Nam

Does working capital management matter? A comparative case between consumer goods firms and construction firms in Vietnam

Thi Quy Vo and Ngoc Cuong Ngo 2023

Nghiên cứu về thực hành quản lý vốn lưu động trong ngành công nghiệp xây dựng đã làm nổi bật mối quan hệ tinh vi giữa các thành phần vốn lưu động và lợi nhuận của doanh nghiệp, tiếp tục cung cấp bằng chứng vững chắc về vai trò quan trọng của quản lý tài chính trong sự bền vững của ngành

Soa La Nguyen, Cuong Duc Pham,

Tu Van Truong, Trong Van Phi, Linh Thuy Le and Trang Thu Thi Vu

Nghiên cứu về mối liên hệ giữa ROE, ROA, thanh khoản và nợ, nhấn mạnh tác động tinh tế của các khoản vay ngắn hạn lên lợi nhuận của doanh nghiệp

Gần đây, sự quan tâm tới việc áp dụng công nghệ thông tin trong ngành xây dựng đã tăng lên đáng kể tại trường đại học Bách Khoa Rất nhiều nghiên cứu, cả trong nước và

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Các mô hình máy học áp dụng để dự đoán tỷ suất lợi nhuận ROA

Machine Learning, hoặc Máy học, dựa vào khái niệm rằng một chương trình máy tính có thể học hỏi từ dữ liệu, xác định các mô hình và đưa ra quyết định với ít sự can thiệp từ con người Ý tưởng này bắt nguồn từ các nghiên cứu về AI và thống kê

Trong thập kỷ 1950 và 1960, các nhà khoa học như Frank Rosenblatt và nhóm tại Hội nghị Dartmouth đã giới thiệu ý tưởng về một máy có khả năng học hỏi từ kinh nghiệm Đến thập kỳ 1980 và 1990, sự tiến bộ của phần cứng máy tính và việc có sẵn dữ liệu ngày càng lớn đã thúc đẩy sự phát triển của Máy học Hiện nay, Máy học đã được áp dụng trong nhiều lĩnh vực, bao gồm nhận dạng giọng nói, nhận diện hình ảnh, dự đoán giá cả, sản lượng, Các thuật toán Máy học là những phần mềm được thiết kế để tự học cách hoàn thành công việc và cải thiện hiệu suất theo thời gian Mọi quy trình Máy học đều bao gồm các bước sau:

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

➢ Tiền xử lý dữ liệu;

Biểu đồ 2.1 Quy trình huấn luyện mô hình bằng máy học

Khi xem xét các mô hình học máy, câu hỏi thường xuyên là "Nên sử dụng mô hình nào?" Câu trả lời cho câu hỏi này sẽ phụ thuộc vào nhiều yếu tố, bao gồm:

➢ Kích thước, chất lượng và thuộc tính của dữ liệu;

➢ Mức độ ưu tiên của nhiệm vụ;

➢ Mục đích cuối cùng của việc sử dụng dữ liệu

Biểu đồ 2.2 Các mô hình máy học áp dụng trong luận văn thập dữ Thu liệu

Huấn luyện mô hình Đánh giá mô hình thiệnCải

Hồi quy Ridge K-lân cận

Cây quyết định GBR XGBoost

Mạng nơron nhân tạoMLP

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

2.2.1 Các mô hình phân tích hồi quy độc lập

Mô hình phân tích hồi quy là mô hình xây dựng/huấn luyện nên một tương quan giữa một dữ liệu đầu vào và đầu ra dựa trên các cặp (đầu vào, đầu ra) đã biết (mẫu)

2.2.1.1 Mô hình hồi quy Lasso

Mô hình toán tử co ngót và chọn lọc tối thiểu tuyệt đối (Lasso) là một phương pháp phân tích hồi quy có giám sát, lần đầu công bố trong lĩnh vực địa vật lý vào năm 1986, sau đó được tái nhận biết và phổ biến một cách đơn lập bởi Robert Tibshirani vào năm 1996 [16]

2.2.1.2 Mô hình hồi quy Ridge

Mô hình hồi quy độ dốc (Ridge) là một phương pháp trong máy học được sử dụng để xử lý vấn đề đa cộng tuyến, nghĩa là khi các đặc trưng trong mô hình có mức độ tương quan cao với nhau Nó được phát triển bởi Hoerl và Kennard vào năm 1970

Mô hình K–lân cận (KNR) lần đầu được giới thiệu vào đầu những năm 1950 Nó được phát triển độc lập bởi một số nhà nghiên cứu, bao gồm Hugo Steinhaus, người đã sử dụng nó cho các nhiệm vụ phân loại nhị phân và Edward A Kirschbaum, người đã sử dụng nó cho các nhiệm vụ hồi quy KNR được sử dụng rộng rãi trong các ứng dụng khác nhau, bao gồm phân loại, hồi quy, ước tính mật độ và phát hiện bất thường

2.2.1.4 Mô hình hồi quy dựa theo vector hỗ trợ

Mô hình hồi quy dựa theo vector hỗ trợ (SVR), được giới thiệu lần đầu tiên vào đầu những năm 1990 bởi Vladimir Vapnik cùng các đồng nghiệp như một phần mở rộng của SVM cho các tác vụ hồi quy

Có thể thấy rằng, các mô hình hồi quy được ứng dụng nhiều trong xây dựng các mô hình dự đoán và cho kết quả tốt Vì vậy, các mô hình này sẽ được đưa vào nghiên cứu như một mô hình để so sánh với các mô hình khác cho dự đoán tỷ suất lợi nhuận (ROA), bao gồm: Lasso, RR, KNR và SVR

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

2.2.2 Các mô hình kết hợp

Mô hình kết hợp đã được giới thiệu vào đầu những năm 1990 và phát triển mạnh mẽ hơn vào đầu thế kỷ XXI Khác với mô hình phân tích hồi quy tuyến tính độc lập, mô hình kết hợp là mô hình học máy kết hợp các dự đoán của nhiều mô hình riêng lẻ, mục tiêu của các mô hình kết hợp là kết hợp các dự đoán của một số công cụ ước tính cơ sở được xây dựng với một thuật toán học tập nhất định để cải thiện khả năng khái quát hóa/chính xác đối với một công cụ ước tính duy nhất Đây là mô hình học máy đang được sử dụng nhiều trong việc dự đoán trong thời gian gần đây và cho ra kết quả rất khả quan

Có hai phương pháp kết hợp là tính trung bình và tăng cường, chúng thường được phân biệt như sau:

Trong phương pháp tính trung bình, nguyên tắc là xây dựng một số công cụ ước tính một cách độc lập và sau đó lấy trung bình các dự đoán của chúng Tính trung bình, công cụ ước tính kết hợp thường tốt hơn bất kỳ công cụ ước tính cơ sở đơn lẻ nào vì phương sai của nó giảm đi Ví dụ: mô hình RF, mô hình ETR,…

• Mô hình Rừng ngẫu nhiên – Random Forest (RF), do Leo Breiman đề xuất, là một trong những mô hình máy học có thể dự đoán một lượng lớn dữ liệu [17]

• Mô hình Cây quyết định - Extra (ETR) được đề xuất bởi Geurts và nhóm nghiên cứu [18] cũng có liên hệ đến lớp các phương pháp tập hợp dựa trên cây để thực hiện các nhiệm vụ phân loại và hồi quy Mô hình ETR mở rộng tính ngẫu nhiên của mô hình

Ngược lại, trong phương pháp tăng cường, các công cụ ước tính cơ sở được xây dựng tuần tự và người ta cố gắng giảm độ chệch của công cụ ước tính kết hợp Mục tiêu là kết hợp một số mô hình yếu để tạo ra một tập hợp mạnh mẽ Ví dụ: mô hình GBR, mô hình XGBoost,…

• Trong số các mô hình máy học kết hợp nổi bật nhất, mô hình Tăng cường gradient – Gradient Boosting Regressor (GBR) đang rất phổ biến vì tính thích ứng và khả năng diễn giải cao đạt được bằng cách chuyển đổi các mô hình yếu thành mô hình mạnh

PHƯƠNG PHÁP NGHIÊN CỨU

Quy trình thực hiện nghiên cứu

Nghiên cứu xuất phát từ các khía cạnh gặp phải trong công việc Với nhiều nguồn tư liệu nghiên cứu cùng các công cụ trực tuyến sẽ hỗ trợ cho việc thực hiện Từ đây cơ sở xây dựng các lý thuyết ban đầu sẽ hình thành cho đề tài nghiên cứu này Quy trình thực hiện nhiệm vụ nghiên cứu được thể hiện như hình 3.1:

Hình 3.1 Quy trình thực hiện nhiệm vụ nghiên cứu

Công cụ thực hiện nghiên cứu

Từ quy trình thực hiện nhiệm vụ nghiên cứu đã nêu ở mục 3.1, các công cụ sau đây sẽ được áp dụng:

Xử lý dữ liệu • Đánh giá, làm sạch, bổ sung, chuyển đổi

Xây dựng mô hình dự báo công suất

• Các mô hình hồi quy

• Các mô hình kết hợp

• Mô hình mạng nơron nhân tạo

So sánh, đánh giá • RMSE, R 2

• Báo cáo tài chính doanh nghiệp xây dựng trên sàn chứng khoán HNX và HOSE tại https://finance.vietstock.vn/

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Bảng 3.1 Các công cụ thực hiện nghiên cứu

Vấn đề Công cụ hỗ trợ

Nghiên cứu lý thuyết cơ sở - Các nghiên cứu khoa học trong và ngoài nước có uy tín

Dự đoán tỷ suất sinh lợi (ROA) - Dữ liệu lịch sử các doanh nghiệp xây dựng trên thị trường chứng khoán Việt Nam (HNX và HOSE) từ năm 2012 đến 2022 Và sau đó tính toán các biến

Lập mô hình dự đoán - Ngôn ngữ lập trình Python, môi trường ảo Jupyter notebook

Các lý thuyết, thuật toán áp dụng

3.3.1 Các biến tài chính Để biết được tài chính của một doanh nghiệp, báo cáo tài chính, báo cáo kết quả kinh doanh, bảng cân đối kế toán cần được có:

Báo cáo tài chính: Đây là các tài liệu cung cấp bản ghi chính thức về các hoạt động tài chính của một công ty Các thành phần chính thường bao gồm báo cáo kết quả kinh doanh, bảng cân đối kế toán và báo cáo lưu chuyển tiền tệ

Báo cáo kết quả kinh doanh (Báo cáo lãi và lỗ): Tài liệu này báo cáo về hiệu suất tài chính của công ty trong một kỳ kế toán cụ thể Nó chi tiết hóa doanh thu và chi phí thông qua các hoạt động kinh doanh và không kinh doanh, kết thúc bằng thu nhập ròng cho kỳ đó Cơ bản, nó cho thấy làm thế nào doanh thu được chuyển đổi thành thu nhập ròng hoặc lợi nhuận ròng (còn được gọi là dòng tiền cuối cùng)

Bảng cân đối kế toán: Tài liệu này trình bày vị trí tài chính của công ty tại một thời điểm cụ thể Nó liệt kê các tài sản, nợ phải trả và vốn chủ sở hữu của công ty, cho thấy công ty sở hữu và nợ gì

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Các lý do tại sao lại chọn ROA:

- Phản ánh hiệu quả sử dụng tài sản: ROA (Return on Assets) đo lường mức độ hiệu quả của việc sử dụng tài sản của doanh nghiệp để tạo ra lợi nhuận Đây là một chỉ số quan trọng vì nó cho biết công ty có thể tạo ra bao nhiêu lợi nhuận từ mỗi đồng tài sản mà công ty sở hữu Điều này đặc biệt quan trọng đối với các công ty có tài sản lớn như các công ty trong ngành xây dựng

- Đánh giá toàn diện: ROA cung cấp một cái nhìn tổng quan về hiệu quả hoạt động kinh doanh bằng cách xem xét cả tài sản ngắn hạn và dài hạn Nó giúp đánh giá liệu doanh nghiệp có sử dụng tài sản của mình một cách tối ưu hay không

- So sánh ngành: ROA là một chỉ số tốt để so sánh hiệu quả hoạt động giữa các công ty trong cùng ngành Vì tài sản của các công ty trong cùng ngành thường có cấu trúc tương tự, ROA cho phép đánh giá hiệu quả hoạt động một cách công bằng

- So sánh với ROE: ROE đo lường lợi nhuận mà doanh nghiệp tạo ra từ vốn chủ sở hữu Đây là chỉ số quan trọng để đánh giá lợi nhuận từ góc độ của cổ đông Tuy nhiên, ROE có thể bị ảnh hưởng bởi mức độ nợ của doanh nghiệp Một công ty sử dụng đòn bẩy tài chính cao có thể có ROE cao, nhưng điều này cũng làm tăng rủi ro tài chính

- So sánh với ROI: ROI đo lường lợi nhuận từ các khoản đầu tư cụ thể Đây là chỉ số quan trọng để đánh giá hiệu quả của các quyết định đầu tư riêng lẻ Tuy nhiên, ROI thường tập trung vào các dự án hoặc khoản đầu tư cụ thể, không phản ánh toàn bộ hiệu quả hoạt động của doanh nghiệp

ROA có thể được tính cho nhiều năm của một doanh nghiệp hoặc nhiều doanh nghiệp trong cùng một năm Đối với nghiên cứu này, học viên đã phân tích ROA của 76 doanh nghiệp xây dựng trong khoảng thời gian từ 2012 đến 2022 để đảm bảo tính khách quan và toàn diện

Không có một tỷ số duy nhất nào có thể phản ánh toàn bộ tài chính của doanh nghiệp Mỗi tỷ số tài chính đều có vai trò và ý nghĩa riêng, giúp đánh giá các khía cạnh khác nhau của hoạt động tài chính doanh nghiệp Cụ thể:

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

- ROS (Return on Sales): Tỷ suất lợi nhuận trên doanh thu, đánh giá hiệu quả của doanh nghiệp trong việc chuyển doanh thu thành lợi nhuận

- ROA (Return on Assets): Tỷ suất lợi nhuận trên tổng tài sản, đánh giá khả năng sử dụng tài sản của doanh nghiệp để tạo ra lợi nhuận

- ROE (Return on Equity): Tỷ suất lợi nhuận trên vốn chủ sở hữu, đánh giá hiệu quả sử dụng vốn chủ sở hữu để tạo ra lợi nhuận

- ROI (Return on Investment): Tỷ suất lợi nhuận trên vốn đầu tư, đánh giá hiệu quả của các khoản đầu tư

- ROIC (Return on Invested Capital): Tỷ suất lợi nhuận trên vốn đầu tư, đánh giá hiệu quả sử dụng tổng vốn đầu tư (bao gồm cả vốn vay và vốn chủ sở hữu)

- ROTC (Return on Total Capital): Tỷ suất lợi nhuận trên tổng vốn đầu tư, đánh giá hiệu quả sử dụng tổng vốn đầu tư để tạo ra lợi nhuận

- ROPC (Return on Permanent Capital): Tỷ suất lợi nhuận trên vốn dài hạn (vốn chủ sở hữu), đánh giá hiệu quả sử dụng vốn dài hạn để tạo ra lợi nhuận

Số liệu tài chính sẽ được thu thập từ báo cáo tài chính và áp dụng tính toán để tạo ra dữ liệu đầu vào cho mô hình học máy, các biến được chọn bao gồm 14 biến độc lập và 01 biến phụ thuộc (Nguồn tác giả tổng hợp theo bảng 3.2) [7]:

Return on Asset (ROA): Khả năng sinh lợi của công ty

Days Sales Outstanding (DSO): Vòng quay thu hồi nợ

Days Inventory Outstanding (DIO): Vòng quay hàng tồn kho

Days Payable Outstanding (DPO): Vòng quay hàng tồn kho

Cash Conversion Cycle (CCC): Vòng quay từ khi chi tiền mua hàng đến khi nhận được tiền

Net Working Capital (NWC): Khả năng thanh khoản lưu động

Size (SIZ): Độ lớn của tài sản doanh nghiệp

Financial Leverage (LEV): Tỷ lệ nợ

Current Ratio (CR): Khả năng đáp ứng tài chính ngắn hạn

Growth Rate (GRO): Tốc độ tăng trưởng doanh nghiệp

Return on Equity (ROE): Khả năng sinh lợi từ vốn chủ sở hữu

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Earnings Before Interest, Taxes (EBIT): Đánh giá lợi nhuận của doanh nghiệp trước khi trừ đi lãi vay và thuế

Gross Margin (GROS): Biên lợi nhuận gộp

Quick Ratio (QR): Khả năng thanh toán cac khoản nợ ngắn hạn mà không tính đến hàng tồn kho và không cần giảm giá bán

Return (RE): Lợi nhuận sau thuế của doanh nghiệp

Bảng 3.2 Thống kê các đặc điểm của các biến tài chính

No Name/Variable Name Unit Measurement

1 Return on Asset/ROA % Net income to Average total asset

2 Days Sales Outstanding/DSO Days Average account receivables balance to net sales ) x365

3 Days Inventory Outstanding/DIO Days Average account inventory balance costs of goods sold) x365

4 Days Payable Outstanding/DPO Days Average account payables balance costs of goods sold) x365

5 Cash Conversion Cycle/CCC Days DSO+DIO−DPO

6 Net Working Capital/NWC Billions of VND Current Assets - Current

7 Size/SIZ Billions of VND Natural Logarithm of net sales

8 Financial Leverage/LEV % Total debt/Total Asset

9 Current Ratio/CR % Current Assets/Current Debt

10 Growth Rate/GRO % Percentage change in net sales

11 Return on Equity/ROE [28] % Net Income/Shareholder's Equity

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

12 Earnings Before Interest Taxes/EBIT

[29] Billions of VND Revenue - Operating Expenses

13 Gross Margin/GROS [30] % (Total Revenue - Cost of Goods

14 Quick Ratio/QR [31] % (Current Assets -

15 Return/RE Billions of VND Net Profit Margin

3.3.2 Các loại dự báo và các phương pháp dự báo

Trong lĩnh vực học máy, các phương pháp thường được chia thành bốn loại cơ bản: học có giám sát (supervised learning), học không giám sát (unsupervised learning), học bán giám sát (semi-supervised learning) và học củng cố (reinforcement learning)

Áp dụng lý thuyết thu thập và xử lý dữ liệu dữ liệu

i Sao chép dữ liệu từ báo cáo tài chính tại https://finance.vietstock.vn/

Hình 3.5 Thu thập dữ liệu tài chính của doanh nghiệp

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

41 ii Tổng hợp, lập bảng tính theo công thức để tạo ra dữ liệu

Hình 3.6 Lập bảng tính iii Tất cả dữ liệu được tổng hợp từ 76 công ty từ 2012 - 2022 trước khi đưa vào mô hình dưới dạng file CSV

Hình 3.7 Tổng hợp dữ liệu

Thiết lập mô hình dự đoán

Nghiên cứu này sử dụng kỹ thuật Cross-Validation để đánh giá mô hình máy học

Variable 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 ROA -2,21% 7,55% 0,27% 0,26% 0,45% 2,26% 2,81% 17,12% 1,01% 0,72% 0,98% DSO 206,54 256,13 183,73 159,49 140,90 119,67 192,59 222,65 249,76 225,13 173,26 DIO 49,11 83,28 84,54 87,28 91,96 52,54 36,75 66,40 141,42 139,90 125,91 DPO 237,07 312,73 254,29 271,48 265,89 174,20 221,48 255,50 356,76 469,05 343,38 CCC 18,59 26,67 13,98 -24,71 -33,02 -2,00 7,85 33,55 34,42 -104,02 -44,20

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Cross-Validation là một kỹ thuật thống kê được sử dụng để đánh giá khả năng tổng quát hóa của một mô hình trong học máy, dựa trên một tập dữ liệu mẫu Kỹ thuật này rất quan trọng trong quá trình phát triển mô hình, giúp tránh tình trạng overfitting, tức là mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng không hiệu quả với dữ liệu mới

Cách thức hoạt động của Cross-Validation:

➢ Chia tập dữ liệu: Cross-Validation thường chia tập dữ liệu thành nhiều phần

(gọi là "folds") Ví dụ, một kỹ thuật phổ biến là k-fold cross-validation, trong đó tập dữ liệu được chia thành k phần gần như bằng nhau

➢ Huấn luyện và kiểm thử: Mỗi phần trong k folds sẽ lần lượt được sử dụng làm tập kiểm thử một lần, và các phần còn lại được sử dụng làm tập huấn luyện Quá trình này được lặp lại k lần, với mỗi phần được sử dụng một lần như tập kiểm thử

➢ Đánh giá mô hình: Độ chính xác của mô hình được tính bằng cách lấy trung bình kết quả từ k lần thử nghiệm, giúp đánh giá khách quan hơn hiệu quả của mô hình (trong nghiên cứu này để tối ưu tài nguyên nên sử dụng 5 folds)

Hình 3.8 Mô hình cross validation

So sánh khi sử dụng kỹ thuật cross validation với kỹ thuật phân chia truyền thống (chia tập dữ thành 2 phần: 1 là dữ liệu huấn luyện, 2 là dữ liệu kiểm tra theo tỷ lệ (70/30) hoặc (75/25) hoặc (80/20)):

- Hiệu quả sử dụng dữ liệu:

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

• K-Fold CV: Mỗi mẫu trong tập dữ liệu có cơ hội được sử dụng làm tập kiểm tra đúng một lần và làm tập huấn luyện k-1 lần (với k là số folds) Điều này tối đa hóa hiệu quả sử dụng dữ liệu, rất quan trọng khi làm việc với các tập dữ liệu nhỏ

• Chia Tập Huấn Luyện/Kiểm Tra Truyền Thống: Dữ liệu được chia một cách cố định, thường là 70% cho huấn luyện và 30% cho kiểm tra, hoặc một tỷ lệ tương tự Một số dữ liệu chỉ được sử dụng cho huấn luyện hoặc kiểm tra, không tận dụng tối đa tất cả dữ liệu có sẵn

- Giảm Thiểu Sự Thiên Vị và Phương Sai:

• K-Fold CV: Do mỗi mẫu được sử dụng cho cả huấn luyện và kiểm tra, kỹ thuật này giúp giảm thiểu sự thiên vị và phương sai, cung cấp ước lượng chính xác hơn về hiệu suất mô hình

• Chia Tập Huấn Luyện/Kiểm Tra Truyền Thống: Có thể dẫn đến sự thiên vị hoặc phương sai cao nếu phân chia dữ liệu không phản ánh đúng cấu trúc hoặc phân phối của toàn bộ dữ liệu Điều này đặc biệt xảy ra nếu tập dữ liệu nhỏ hoặc không đủ đa dạng

- Tính Linh Hoạt và Tổng Quát:

• K-Fold CV: Cung cấp một phương pháp đánh giá mô hình linh hoạt và tổng quát hơn, phù hợp với nhiều loại dữ liệu và bài toán khác nhau

Nó cũng cho phép điều chỉnh số lượng folds để tối ưu hóa sự cân bằng giữa hiệu quả tính toán và độ chính xác của ước lượng hiệu suất mô hình

• Chia Tập Huấn Luyện/Kiểm Tra Truyền Thống: Phù hợp cho các tình huống khi có đủ lượng dữ liệu lớn và muốn nhanh chóng đánh giá mô hình Tuy nhiên, phương pháp này có thể không phản ánh chính xác khả năng tổng quát hóa của mô hình trên dữ liệu mới

- Tính Toán và Thời Gian

• K-Fold CV: Yêu cầu thời gian và tài nguyên tính toán cao hơn do phải huấn luyện mô hình k lần Tuy nhiên, điều này được coi là đầu tư xứng đáng cho một ước lượng chính xác hơn về hiệu suất mô hình

• Chia Tập Huấn Luyện/Kiểm Tra Truyền Thống: Đòi hỏi ít tài nguyên và thời gian hơn so với K-Fold CV, làm cho nó trở thành lựa chọn tốt khi tài nguyên tính toán bị hạn chế hoặc cần đạt được kết quả nhanh chóng Tuy nhiên, tiết kiệm thời gian này có thể đến với giá của độ chính xác ước lượng hiệu suất mô hình giảm sút

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

HUẤN LUYỆN MÔ HÌNH DỰ BÁO VÀ THẢO LUẬN

Tổng quan về dữ liệu

Tùy theo yêu cầu của vấn đề cần phân tích, mô hình cần huấn luyện mà các dữ liệu cần thu thập có thể được xác định một cách phù hợp Sau đó cần xác định các nguồn dữ liệu tương thích, định dạng dữ liệu nguồn, và cách thức thu thập Theo mục tiêu nghiên cứu và các kết quả nghiên cứu được xem xét, các dữ liệu chính được thu thập như sau:

• Chuỗi dữ liệu tài chính (kết quả kinh doanh và bảng cân đối kế toán) được cung cấp từ trang web: https://finance.vietstock.vn/

• Tính toán và lập bảng 14 biến phụ thuộc và 01 biến độc lập

4.1.2.1 Các giá trị bị thiếu hoặc giá trị ngoại lai (outlier): Đối với các giá trị bị thiếu, để bảo đảm được cấu trúc của dữ liệu, có thể khắc phục bằng một trong các cách sau: i) Điền giá trị bị thiếu bằng giá trị trung bình hoặc giá trị trung vị của trường (cột) dữ liệu Phương pháp này thường được áp dụng khi trường (cột) thông tin có số lượng giá trị thiếu không nhiều ii) Xóa hàng có giá trị bị thiếu ra khỏi chuỗi dữ liệu Trong trường hợp của chuỗi dữ liệu của 1 doanh nghiệp trong 1 năm bị thiếu thì tất cả giá trị sẽ bị bỏ đi sẽ tương ứng với toàn bộ dữ liệu tại năm đó của doanh nghiệp đó Đây là cách nghiên cứu này chọn thực hiện Đối với các giá trị ngoại lai (oulier) cũng sẽ được thay thế bằng giá trị mean hoặc median bằng cách sử dụng 1 trong 2 phương pháp: Interquartile Range (IQR) hoặc Z-Score (nếu cần thiết)

➢ Phương pháp IQR: IQR là khoảng cách giữa phần tư thứ ba (Q3) và phần tư thứ nhất (Q1) trong một tập dữ liệu, nói cách khác, nó là khoảng cách giữa tứ

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

47 phân vị 75% và tứ phân vị 25% IQR = Q3-Q1, IQR đo lường sự phân bố của phần lớn dữ liệu và giúp xác định các giá trị ngoại lệ Giá trị nào nằm ngoài khoảng từ Q1 - 1.5IQR đến Q3 + 1.5IQR được coi là ngoại lệ (Hàm quantile() được thư viện Pandas hỗ trợ để tính toán đối với phương pháp này)

➢ Phương pháp Z-Score, hay điểm chuẩn Z, là một phép đo thể hiện mức độ xa của một điểm dữ liệu so với trung bình của tập dữ liệu, được tính toán bằng cách lấy giá trị của điểm dữ liệu trừ đi giá trị trung bình và sau đó chia cho độ lệch chuẩn của tập dữ liệu Công thức tính Z-Score là 𝑍 = (𝑋−𝜇)

𝜎 , trong đó X là điểm dữ liệu, μ là giá trị trung bình và σ là độ lệch chuẩn

Nếu tập dữ liệu bao gồm nhiều đặc điểm với các đơn vị đo khác nhau, nên để so sánh các đặc điểm này với nhau, việc thu gọn quy đổi (scale) sang một giá trị mới là một việc cần thiết Việc này làm giảm phạm vi rộng của giá trị dữ liệu đầu vào xuống phạm vi nhỏ hơn để giảm lỗi hồi quy và cải thiện độ chính xác Có các phương pháp quy đổi dữ liệu như sau: i) Chuẩn hóa Normalization để quy đổi dữ liệu từ miền giá trị bất kỳ sang miền giá trị nằm trong khoảng 0 đến 1, thường sử dụng khi tập dữ liệu có các đặc điểm với nhiều đơn vị khác nhau và biến phân tán nhỏ ii) Chuẩn hóa Standardization để quy đổi dữ liệu từ miền giá trị bất kỳ sang một phân bố, trong đó giá trị trung bình của các quan sát bằng 0 và độ lệch chuẩn là

1 Luận văn sử dụng phương pháp quy đổi dữ liệu này vì tập dữ liệu có các đặc điểm với nhiều đơn vị khác nhau và biến phân tán lớn, sử dụng công cụ StandardScaler của thư viện scikit-learn Công thức chuẩn hóa như sau:

𝜎 (4 1) trong đó 𝑥̅ và 𝜎 lần lượt là kỳ vọng và phương sai của thành phần 𝑥 trên toàn bộ tập dữ liệu huấn luyện

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Dữ liệu đầu vào dùng để xây dựng mô hình dự đoán được thu thập từ 76 doanh nghiệp xây dựng được niêm yết trên thị trường chứng khoán của 2 sàn là HNX và HOSE

(Dữ liệu các doanh nghiệp sẽ được liệt kê bên dưới phụ lục của nghiên cứu)

4.1.3.2 Mô tả cơ sở dữ liệu tài chính Đánh giá sức khỏe tài chính của các tập đoàn đóng một vai trò then chốt trong việc phát triển các chỉ số kinh tế Tác giả truy cập tổng quan tổng hợp về dữ liệu tài chính này trên cổng thông tin Vietstock Finance tại “https://finance.vietstock.vn/”, một nguồn được thành lập vào ngày 8 tháng 2 năm 2002 Vietstock Finance cam kết cung cấp những hiểu biết chính xác về các lĩnh vực kinh doanh của doanh nghiệp tài chính, vốn cổ phần, chứng khoán nợ và bối cảnh kinh tế rộng hơn Dữ liệu được thu thập từ trang web này tạo thành nền tảng cho các tính toán được trình bày trong nghiên cứu của tôi.

Các biến trong mô hình dự đoán

Các biến được xem xét đưa vào mô hình gồm: 14 biến độc lập và 01 biến phụ thuộc (dự đoán) Đặc điểm của tập dữ liệu đưa vào mô hình cho biết được số lượng mẫu, giá trị trung bình, độ lệch chuẩn, phân vị 25%, trung vị (phân vị 50%), phân vị 75%, gia trị tối đa của mỗi biến được thể hiện ở Bảng 4.1, chi tiết như sau:

• Biến dự đoán: Tỷ Suất Lợi Nhuận (ROA)

• Các biến phản hồi bao gồm: Vòng quay thu hồi nợ (DSO), Vòng quay hàng tồn kho (DIO), Vòng quay trả nợ (DPO), Vòng quay từ khi chi tiền mua hàng đến khi nhận được tiền (CCC), Khả năng thanh khoản lưu động (NWC), Độ lớn của tài sản doanh nghiệp (SIZ), Tỷ lệ nợ (LEV), Khả năng đáp ứng tài chính ngắn hạn (CR), Tốc độ tăng trưởng doanh nghiệp (GRO), Khả năng sinh lợi từ vốn chủ sở hữu (ROE), Đánh giá lợi nhuận của doanh nghiệp trước khi trừ đi lãi vay và thuế (EBIT), Biên lợi nhuận gộp (GROS), Khả năng thanh toán cac khoản nợ ngắn hạn mà không tính đến

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

49 hàng tồn kho và không cần giảm giá bán (QR), Lợi nhuận sau thuế của doanh nghiệp (RE)

Hình 4.1 Đặc điểm dữ liệu được liệt kê bằng hàm describe()

Kết quả mô hình máy học và các chỉ số dùng để đánh giá mô hình

Các đặc điểm có sẵn trong dữ liệu được khám phá, trực quan hóa và xử lý trước khi được chuyển đến các thuật toán học máy Tập dữ liệu bao gồm 739 hàng và 15 cột Chi tiết các cột có sẵn trong tập dữ liệu bằng cách sử dụng các hàm trong thư viện phân tích dữ liệu pandas Để chọn lựa các dữ liệu phù hợp cho mô hình dự báo và mối quan hệ được nghiên cứu trong luận văn, tương quan Pearson được xem xét nhằm chọn ra các đại lượng có tương quan cao với tỷ suất lợi nhuận (ROA) cần dự báo (Hình 4.2)

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Hình 4.2 Ma trận tương quan Pearson

Sắp xếp các đặc điểm có tương quan với ROA theo thứ tự cao đến thấp như bảng dưới:

Bảng 4.1 Các biến có hệ số tương quan với ROA từ cao đến thấp

Biến Hệ số tương quan Mức độ

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Căn cứ vào ma trận tính tương quan trên đưa ra được các nhận xét sau:

• Các biến ROA, RE, LEV, DSO, GROS, EBIT, DIO có mối liên hệ tương quan với ROA cao

• Các biến GRO, QR, CR, NWC, DPO, SIZ, CCC có mối liên hệ tương quan với ROA thấp

• Các biến có giá trị dương (+) với ROA biểu thị sự cùng pha với ROA và âm (-) biểu thị sự ngược pha

Sau khi đã thử nghiệm đưa vào các biến có mức độ tương quan cao và loại bỏ các biến có mức độ tương quan thấp, tác giả nhận thấy rằng kết quả tối ưu nhất (R 2 tiến gần về 1 và RMSE nhỏ) khi tất cả các biến được xem xét đưa vào Mô tả kết quả chạy thuật toán ở hình 4.3 bên dưới

Có thể nhận xét rằng: dữ liệu của các công ty trên sàn chứng khoán không quá đa dạng và phức tạp hoặc các biến tương quan yếu vẫn có các mối tương quan đặc biệt với biến phụ thuộc (target) mà ở đó các biến tương quan mạnh không có Ngoài ra các mô hình máy học kết hợp như RF, XGBoost, GBR, có thể nắm bắt mối quan hệ phi tuyến tính và việc đưa tất cả các biến để tăng độ phức tạp của mô hình, giảm tình trạng underfitting và tăng tính tổng quát hóa

Vậy nên, đối với luận văn này tác giả sẽ xem xét đưa vào mô hình tất cả các biến để đảm bảo dự đoán chính xác cao, bao gồm cả các biến phi tuyến tính (tương quan thấp)

Hình 4.3 Mô tả thuật toán và kết quả của các lần thử nghiệm các biến trong mô hình Thuật toán: ROE, RE, LEV, DSO, GROS, EBIT, DIO được xét

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Thuật toán: ROE, RE, LEV, DSO, GROS, EBIT, DIO, GRO, QR được xét

Thuật toán: tất cả các biến được xét

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

54 Biểu đồ 4.1 Biểu đồ phân bố dữ liệu mỗi đặc điểm được đưa vào mô hình

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

55 Đối với ngành xây dựng tại Việt Nam, một tỷ lệ ROA từ 3% đến 10% được coi là hiệu quả, vì từ dữ liệu sau khi được xem xét 76 doanh nghiệp trên sàn chứng khoán HNX và HOSE thì rất nhiều doanh nghiệp trải qua các năm từ 2012-2022 có ROA nằm trong khoảng phân phối này từ đó có thể thấy các doanh nghiệp không đạt được hoặc thấp hơn có thể phấn đấu đạt được, tuy nhiên điều này có thể thay đổi tùy thuộc vào từng doanh nghiệp và bối cảnh kinh tế cụ thể

4.2.2.1 Đánh giá các mô hình dự báo

Nghiên cứu đã tiến hành lập trình để chọn lựa được mô hình sở hữu kết quả tốt nhất với tập dữ liệu có sẵn Kết quả chi tiết được trình bày như Bảng 4.3

Bảng 4.2 Kết quả so sánh các mô hình áp dụng xây dựng mô hình dự báo tỷ suất lợi nhuận ROA

Lasso Ridge K neighbors Regressor SVR Random Forest GBR XGBoost MLP Regresssion

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Hình 4.4 So sánh các mô hình theo R2

Hình 4.5 So sánh các mô hình theo RMSE

Từ các kết quả trên rút ra được các nhận xét sau:

• Các mô hình hồi quy tuyến tính độc lập, đặc biệt là mô hình hồi quy Lasso và KNR, không thích hợp với tập dữ liệu trong nghiên cứu này, nguyên nhân có thể vì hệ số tương quan giữa các biến trong tập dữ liệu thấp (hầu hết bé hơn 0.6)

• Mô hình sẽ được đánh giá và lựa chọn dựa trên 3 tiêu chí:

- Điểm R: Điểm tối ưu gần bằng 1

- Điểm RMSE: Điểm càng thấp thì càng tốt

- Biểu đồ đường cong học tập: Biểu đồ này hiển thị số điểm đào tạo và kiểm tra Hai đường này càng gần thì mô hình càng khái quát hóa tốt hơn và sai số ít hơn

Khi quyết định giữa các mô hình RF và XGBoost, cả hai đều có điểm R2 và RMSE tốt, chúng tôi nhận thấy sai số trên tập huấn luyện rất thấp (gần bằng 0) trong khi sai số trên tập kiểm tra vẫn còn khá cao (khoảng 2.0) so với RF thì khoảng cách hai đường khoảng 0,7 đơn vị Vì vậy, luận văn này sẽ sử dụng mô hình RF để tính toán

Lasso Ridge K neighbors Regressor SVR Random Forest GBR XGBoost MLP Regresssion

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Hình 4.6 Learning Curves của 2 mô hình RF và XGBoost

4.2.2.2 Hiệu chỉnh mô hình RF

Sử dụng công cụ GridSearchCV tìm kiếm tham số tốt nhất cho một mô hình học máy bằng cách thử nghiệm các tham số khác nhau và đánh giá hiệu suất của mô hình với mỗi bộ tham số

Cụ thể, GridSearchCV thực hiện việc chia các tham số thành các giá trị khác nhau và tạo ra các bộ tham số khác nhau bằng cách kết hợp các giá trị đó Sau đó, mô hình đem đi huấn luyện trên mỗi bộ tham số và hiệu suất của mô hình được đánh giá thông qua các phương pháp như xác thực chéo (Cross-validation) Cuối cùng, bộ tham số tốt nhất được chọn dựa trên hiệu suất của mô hình trên tập dữ liệu xác thực

Các khoảng tham số được cài đặt

• Kích thước cây (max_depth) = 10 đến 20

• Mẫu lá tối thiểu (min_samples_leaf) = 1 đến 2

• Mẫu chia tách tối thiếu (min_samples_split) = 2 đến 5

• Số lượng cây (n_estimators) = 0 đến 200

Các tham số phù hợp nhất tìm được khi sử dụng GridSearchCV bằng hàm param_grid_rf:

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Hình 4.7 Tham số tốt nhất được xuất từ hàm param_grid_rf

• Kích thước cây (max_depth) = 10

• Mẫu lá tối thiểu (min_samples_leaf) = 1

• Mẫu chia tách tối thiếu (min_samples_split) = 2

Hàm feature_importances_ của scikit-learn cho phép tính toán và đánh giá mức độ quan trọng của các biến độc lập lên biến phụ thuộc trong mô hình (Hình 4.6), các đặc điểm này đóng góp vào việc đánh giá mức độ quan trọng của các biến

Hình 4.8 Xếp hạng tầm quan trọng các đặc điểm

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

Hình 4.9 Đường cong học tập của mô hình RF

Tiến hành vẽ đường cong học tập bằng công cụ learning_curve trong thư viện scikit learn (Hình 4.9) và đánh giá hiệu quả của việc thêm nhiều mẫu hơn trong quá trình đào tạo Hiệu quả được mô tả bằng cách kiểm tra hiệu suất thống kê của mô hình về điểm đào tạo và điểm kiểm tra Nhận xét: Điểm đào tạo và điểm kiểm tra chéo duy trì tương đối ổn định Khi càng nhiều mẫu được sử dụng để huấn luyện thì cả hai điểm đều có xu hướng hội tụ hoặc gần hội tụ Điều này cho thấy mô hình có khả năng khái quát hóa mạnh mẽ.

Thử nghiệm mô hình

4.3.1 Trường hợp nghiên cứu thử nghiệm

Việc lựa chọn ra các doanh nghiệp xây dựng lớn và có tiếng để từ đó dự đoán tỷ suất lợi nhuận và thữ nghiệm mô hình sau khi đã đào tạo là một bước rất quan trọng

• Thời gian đánh giá: năm 2023

• Loại mô hình Machine Learning: Random Forest

• Số lượng doanh nghiệp: 06 doanh nghiệp i Tổng Công ty cổ phần Xuất nhập khẩu và Xây dựng Việt Nam - Vietnam Construction And Import-Export Joint Stock Corporation (Mã CK: VCG)

Luận văn Thạc Sỹ HVTH: Lê Tùng Dương – 2270097

60 ii CTCP Xây dựng Phục Hưng Holdings - Phuc Hung Holdings Construction JSC (Mã CK: PHC) iii CTCP Đầu tư Hạ tầng Giao thông Đèo Cả - Deo Ca Traffic Infrastructure Investment JSC (Mã CK: HHV) iv CTCP FECON – FECON Corporation (Mã CK: FCN) v CTCP Đầu tư Hạ tầng Kỹ thuật Thành phố Hồ Chí Minh – Ho Chi Minh City Infrastructure Investment JSC (Mã CK: CII) vi CTCP Xây dựng Coteccons – Coteccons Construction JSC (Mã CK: CTD)

Hình 4.10 Đánh giá mô hình dự đoán tỷ suất lợi nhuận (ROA) cho 6 doanh nghiệp tại Việt Nam năm 2023

Kết luận: Kết quả ấn tượng (sai số

Ngày đăng: 25/09/2024, 14:46

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Thang et al., "baochinhphu," 22 12 2023. [Online]. Available: https://baochinhphu.vn/nam-2023-nganh-xay-dung-no-luc-hoan-thanh-nhieu-chi-tieu-102231222132114955.htm Sách, tạp chí
Tiêu đề: baochinhphu
[2] A. Emmanuel et al., "Application of machine learning in predicting construction project profit in Ghana using Support Vector Regression Algorithm (SVRA)," Engineering, Construction and Architectural Management, vol. 28, no. 5, pp. 1491-1514, 2021 Sách, tạp chí
Tiêu đề: Application of machine learning in predicting construction project profit in Ghana using Support Vector Regression Algorithm (SVRA)
[3] H. Zhang et al., "Predicting profitability of listed construction companies based on principal component analysis and support vector machine—Evidence from China," Automation in Construction, vol. 53, pp. 22-28, 2015 Sách, tạp chí
Tiêu đề: Predicting profitability of listed construction companies based on principal component analysis and support vector machine—Evidence from China
[4] T. Mahfouz, "A Productivity Decision Support System for Construction Projects Through Machine Learning (ML)," in Proceedings of the CIB W78 2012 : 29th International Conference , Beirut, Lebanon, 2012 Sách, tạp chí
Tiêu đề: A Productivity Decision Support System for Construction Projects Through Machine Learning (ML)
[5] W. F. Agmas, "Impacts of capital structure: profitability of construction companies in Ethiopia," Journal of Financial Management of Property and Construction, vol. 25, no. 3, 2020 Sách, tạp chí
Tiêu đề: Impacts of capital structure: profitability of construction companies in Ethiopia
[6] L. T. Nhu et al., "Determinants of profitability: evidence from construction companies listed on Vietnam Securities Market," Management Science Letters, vol. 10, pp. 523-530, 2020 Sách, tạp chí
Tiêu đề: Determinants of profitability: evidence from construction companies listed on Vietnam Securities Market
[7] V. T. Quy et al., "Does working capital management matter? A comparative case between consumer goods firms and construction firms in Vietnam,"Cogent Business & Management, vol. 10, 2023 Sách, tạp chí
Tiêu đề: Does working capital management matter? A comparative case between consumer goods firms and construction firms in Vietnam
[8] N. S. La et al, "Relationship between Capital Structure and Firm Profitability: Evidence from Vietnamese Listed Companies," International Journal of Financial Studies, vol. 2023, no. 11, p. 45, 2023 Sách, tạp chí
Tiêu đề: Relationship between Capital Structure and Firm Profitability: Evidence from Vietnamese Listed Companies
[9] P. V. H. Son et al., "Optimization in Construction Management Using Adaptive Opposition Slime Mould Algorithm," Advances in Civil Engineering, vol. 2023, p. 20, 2023 Sách, tạp chí
Tiêu đề: Optimization in Construction Management Using Adaptive Opposition Slime Mould Algorithm
[10] P. V. H. Son et al., "Artificial intelligent support model for multiple criteria decision in construction management," OPSEARCH, vol. 2024, 2024 Sách, tạp chí
Tiêu đề: Artificial intelligent support model for multiple criteria decision in construction management
[11] P. V. H. Son et al., "Advanced vehicle routing in cement distribution: a discrete Salp Swarm Algorithm approach," in International Journal of Management Science and Engineering Management, Taylor & Francis , 2024 Sách, tạp chí
Tiêu đề: Advanced vehicle routing in cement distribution: a discrete Salp Swarm Algorithm approach
[12] N. D. N. Trinh et al., "Achieving improved performance in construction projects: advanced time and cost optimization framework," Evolutionary Intelligence, vol. 17, pp. 2885 - 2897, 2024 Sách, tạp chí
Tiêu đề: Achieving improved performance in construction projects: advanced time and cost optimization framework
[13] P. V. H. Son et al., "Applying ant colony optimization algorithm to optimize construction time and costs for mass concrete projects," Asian Journal of Civil Engineering, vol. 25, p. 3465–3479, 2024 Sách, tạp chí
Tiêu đề: Applying ant colony optimization algorithm to optimize construction time and costs for mass concrete projects
[14] P. V. H. Son et al., "Cement Transport Vehicle Routing with a Hybrid Sine Cosine Optimization Algorithm," Advances in Civil Engineering, vol. 2023, p.15, 2023 Sách, tạp chí
Tiêu đề: Cement Transport Vehicle Routing with a Hybrid Sine Cosine Optimization Algorithm
[15] P. V. H. Son et al., "Research on applying machine learning models to predict the electricity generation capacity of rooftop solar energy systems on buildings," Asian Journal of Civil Engineering, vol. 24, p. 3413–3423, 2023 Sách, tạp chí
Tiêu đề: Research on applying machine learning models to predict the electricity generation capacity of rooftop solar energy systems on buildings
[16] R. Tibshirani, "Regression Shrinkage and Selection via the Lasso," Journal of the Royal Statistical Society. Series B (Methodological), vol. 58, pp. 267-288, 1996 Sách, tạp chí
Tiêu đề: Regression Shrinkage and Selection via the Lasso
[17] L. Breiman, "Random Forests," Machine Learning, vol. 45, pp. 5-32, October 2001 Sách, tạp chí
Tiêu đề: Random Forests
[18] P. Geurts et al., "Extremely randomized trees," Machine Learning, vol. 63, pp. 3-42, 2 March 2006 Sách, tạp chí
Tiêu đề: Extremely randomized trees
[19] H. Lu et al., "Short-term prediction of building energy consumption employing an improved extreme gradient boosting model: A case study of an intake tower,"Energy, vol. 203, 15 July 2020 Sách, tạp chí
Tiêu đề: Short-term prediction of building energy consumption employing an improved extreme gradient boosting model: A case study of an intake tower
[20] Y. Cai et al., "Prediction Method of Enterprise Return on Net Assets Based on Improved Random Forest Algorithm," in 2020 International Conference on Machine Learning and Computer Application, Shangri-La, China, 2020 Sách, tạp chí
Tiêu đề: Prediction Method of Enterprise Return on Net Assets Based on Improved Random Forest Algorithm

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w