TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI NGHIÊN CỨU VỀ BÁO CÁO TÀI CHÍNH CỦA CÁC CÔNG TY HOA KỲ Giảng viên Th s Nguyễn Mạnh Tuấn Lớ[.]
TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH - - TIỂU LUẬN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: NGHIÊN CỨU VỀ BÁO CÁO TÀI CHÍNH CỦA CÁC CƠNG TY HOA KỲ Giảng viên: Th.s Nguyễn Mạnh Tuấn Lớp học phần: 22C1INF50905965 Sinh viên thực hiện: Họ tên Lê Thị Huyền Huỳnh Thị Thanh Ngân Lê Trần Quỳnh Như Trần Hoàng Xuân Như Phạm Hồng Quyên Mã số sinh viên 31211021802 31211025108 31211021923 31211021929 31211023949 Thành phố Hồ Chí Minh, ngày tháng 10 năm 2022 DANH MỤC HÌNH ẢNH Hình 1: Thơng tin liệu đầu vào 11 Hình 2: Mơ hình tiền xử lí liệu Orange 12 Hình 3: Mơ hình phân tách liệu 13 Hình 4: Mơ hình tốn 15 Hình 5: Mơ hình xây dựng tốn 20 Hình 6: Mơ hình xây dựng toán 24 Hình 7: Kết phân cụm theo phương pháp Hierachial Clustering 25 Hình 8: Chỉ số Silhouette phương pháp Hierachical Clustering .25 Hình 9: Kết phân cụm theo phương pháp K-Means 26 Hình 10: Chỉ số Silhouette phương pháp K-Means 27 DANH MỤC BẢNG Bảng 1: Mô tả liệu bảng .9 Bảng 2: Kết Confusion Matrix toán 17 Bảng 3: Kết Test & Score toán 18 Bảng 4: Kết dự báo toán 19 Bảng 5: Kết Confusion Matrix toán 21 Bảng 6: Kết Test & Score toán 22 Bảng 7: Kết dự báo toán 23 Bảng 8: Bảng kết phân cụm toán .28 MỤC LỤC CHƯƠNG I: TỔNG QUAN Lời mở đầu Giới thiệu đề tài Mục tiêu nghiên cứu 3.1 Mục tiêu tổng quát 3.2 Mục tiêu cụ thể Đối tượng nghiên cứu 5 Phương pháp nghiên cứu 5.1 Phương pháp phân lớp 5.2 Phương pháp phân cụm (Clustering) Mổ tả liệu CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ .11 Tiền xử lí 11 1.1 Tổng quan: 11 1.2 Quy trình thực .11 Hình Thơng tin liệu đầu vào .11 Xử lý toán 12 2.1 Bài toán Phân lớp liệu 12 2.1.1 Các phương pháp dự đốn quy trình cụ thể 12 2.1.2 Xử lý toán phân lớp 13 2.2 Bài toán phân cụm .23 2.2.1 Qui trình cụ thể .23 CHƯƠNG III: KẾT LUẬN 29 Kết luận 29 Những hạn chế 30 Hướng khắc phục 30 CHƯƠNG I: TỔNG QUAN Đánh giá mức độ liên quan đến chun ngành: 1,Liên quan, nhóm sử dụng kiến thức chuyên ngành kế toán việc đánh giá báo cáo tài 200 cơng ty hàng đầu Hoa kỳ Từ giúp nhà đầu tư có nhìn tổng quan tình hình tài chính, phát triển cơng ty tương lai để đưa định đầu tư đắn Lời mở đầu “Báo cáo tài chính” cụm từ vô quen thuộc nhà đầu tư, doanh nghiệp, đặc biệt với nhân viên làm lĩnh vực kế toán, kiểm tốn, tài Nó “đại diện” cho doanh nghiệp việc thu hút dòng tiền từ nhà đầu tư Có thể nói doanh nghiệp có bảng báo cáo tài “đẹp” doanh nghiệp kinh doanh tốt lĩnh vực Tuy nhiên, việc số tốt ví lợi nhuận cao chưa lựa chọn hồn hảo cho định đầu tư, ta phải xem xét nguồn gốc khoản mục chi tiết nguồn lợi nhuận đến từ việc hoạt động kinh doanh có hiệu hay từ việc lý nhượng bán tài sản cơng ty Chính ta phải xem xét cách kĩ lưỡng số tài chính, để tránh đầu tư vào cơng ty có giá trị thấp định giá cổ phiếu cao dẫn đến đầu tư lỗ vốn Với đời vô số doanh nghiệp thương trường ngày nay, vai trò báo cáo tài ngày quan trọng ln quan tâm nhiều Bởi thể tình hình tài chính, kinh doanh luồng tiền doanh nghiệp Nó phương tiện trình bày khả sinh lời thực trạng tài doanh nghiệp tới người quan tâm Dựa nhu cầu đó, nhóm nghiên cứu thực nghiên cứu số tài 200 cơng ty Hoa Kỳ để phân tích làm rõ vấn đề Giới thiệu đề tài Cùng với tiến trình phát triển hệ thống kế toán, hệ thống báo cáo tào khơng ngừng đổi để đáp ứng cho nhu cầu người sử dụng thông tin báo cáo tài Trong bối cảnh đó, doanh nghiệp muốn đứng vững thương trường buộc phải nhanh chóng nắm bắt nhu cầu người dùng đổi để phù hợp với tiêu chí mà người dùng báo cáo tài hướng đến Phân tích báo tài cơng việc cần thiết quan trọng nhà quản lý doanh nghiệp nhà đầu tư Các số báo cáo tài giúp họ đưa nhiều định quan trọng tác động đến lợi ích cá nhân lợi ích doanh nghiệp Chẳng hạn như, nhà quản lý doanh nghiệp đề xuất nhiều giải pháp để kinh doanh có hiệu hơn, nâng cao lực sức cạnh tranh doanh nghiệp mình; nhà đầu tư, họ dễ dàng việc đưa định có đầu tư hay khơng, có đầu tư nên đầu tư hiệu nhất; ngân hàng đưa định có nên cho doanh nghiệp vay hay khơng thơng qua việc phân tích báo cáo tài Thấy tầm quan trọng lợi ích việc đọc phân tích báo cáo tài chính, nhóm chúng em đưa định làm rõ số báo cáo tài doanh nghiệp thông qua việc “Nghiên cứu số tài để đưa định đầu tư” cách thu thập phân tích liệu báo cáo tài 200 cơng ty hàng đầu Hoa Kỳ để giúp nhà đầu tư có nhìn chi tiết, rõ ràng dễ dàng đưa định vấn đề đầu tư vào doanh nghiệp Mục tiêu nghiên cứu 3.1 Mục tiêu tổng quát Việc nghiên cứu, phân tích báo cáo tài giúp người quan tâm đến doanh nghiệp có nhìn đắn doanh nghiệp đó, đánh giá cách thực tế doanh nghiệp, từ đưa định có lợi cho thân Những giải pháp vận hành doanh nghiệp đưa hiệu hơn, nâng cao lực sức cạnh tranh với đối thủ; nhà đầu tư, giúp họ dễ dàng định vấn đề đầu tư Thông qua việc phân tích báo cáo tài nhà quản lý doanh nghiệp đưa chiến lược huy động nguồn vốn thu hút vốn vay từ phía ngân hàng nhà đầu tư cách hiệu 3.2 Mục tiêu cụ thể Bài toán 1: Dự đoán giá cổ phiếu 200 cơng ty Hoa Kỳ Bài tốn 2: Thơng qua việc nghiên cứu báo cáo tài chính, phân tích khả nhận nguồn vốn đầu tư từ nhà đầu tư Bài tốn 3: Thơng qua việc nghiên cứu báo cáo tài chính, đánh giá kết kinh doanh 200 công ty Hoa Kỳ Đối tượng nghiên cứu Sử dụng liệu bao gồm thông tin công khai danh sách báo cáo tài 200 cơng ty hàng đầu Hoa Kỳ kaggle.com cung cấp Phương pháp nghiên cứu 5.1 Phương pháp phân lớp Phân lớp liệu “quá trình phân liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước Q trình gán nhãn cho đối tượng liệu q trình phân lớp” Q trình phân lớp liệu gồm bước chính: Bước 1: Xây dựng mơ hình phân lớp “Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý” “Các thuật toán phân lớp: định, hàm số toán học,…” “Kết bước mơ hình phân lớp huấn luyện (trình phân lớp)” Bước 2.1: Đánh giá mơ hình “Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn.” “Tính đắn mơ hình xác định cách so sánh thuộc tính dán nhãn liệu đầu vào kết phân lớp mơ hình.” Bước 2.2: Phân lớp liệu “Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp “nhãn”” “Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 1.” Phân loại toán phân lớp: nhiệm vụ toán phân lớp phân đối tượng liệu vào n lớp cho trước Nếu: - n = 2: thuộc toán phân lớp nhị phân - n > 2: thuộc toán phân lớp đa lớp Các phương pháp phân lớp sử dụng - Phương pháp SVM (Support Vector Machine): “là thuật tốn có giám sát, SVM nhận liệu vào xem chúng Vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều mặt phân cách lớp liệu Để tối ưu kết phân lớp phải xác định siêu phẳng (Hyperlane) có khoảng cách đến điểm liệu (Margin) tất lớp xa SVM có nhiều biến thể để phù hợp với nhiều toán phân loại khác nhau.” - Phương pháp Logistic Regression: Logistic Regresstion “là phương pháp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình không đơn giản, không phức tạp, không nhạy cảm với nhiễu” - Phương pháp định (Decision Tree): Cây định sơ đồ biểu đồ giúp xác định trình hành động hiển thị xác suất thống kê Biểu đồ gọi định giống với tên, thường phác thảo dạng biểu đồ thẳng đứng nằm ngang phân nhánh Bắt đầu từ định (được gọi “nút”), “nhánh” định đại diện cho định, kết phản ứng xảy Các nhánh xa đại diện cho kết cuối đường định định gọi “lá” 5.2 Phương pháp phân cụm (Clustering) Phân cụm liệu trình gom cụm/nhóm đối tượng/dữ liệu có đặc điểm tương đồng vào cụm/nhóm tương ứng Trong đó: “Các đối tượng cúng cụm có tính chất tương tự nhau.” “Các đối tượng thuộc cụm/nhóm khác có tính chất khác nhau.” Đặc điểm: “Nhiệm vụ tìm đo đạc khác biệt đối tượng liệu.” “Phân cụm thuộc nhóm phương pháp học khơng giám sát khơng biết trước số nhóm.” “Một phương pháp phân cụm tốt phương pháp tạo cụm có chất lượng cao.” Mổ tả liệu Thuộc tính Ý nghĩa Mơ tả Ebitda Margins Hệ số biên lợi nhuận trước Số thập phân thuế lãi vay Profit Margins Biên lợi nhuận Số thập phân Gross Margins Biên lợi nhuậ gộp Số thập phân Operating Dòng tiền từ hoạt động kinh Số tự nhiên Cash flow doanh Revenue Growth Tăng trưởng doanh thu Số thập phân Operating Margins Mức lợi nhuận tạo từ hoạt Số thập phân động kinh doanh Ebitda Thu nhập trước thuế, lãi vay, Số tự nhiên khấu hao Gross Profit Lợi nhuận gộp Số tự nhiên Free Cash Flow Dòng tiền tự Số tự nhiên Current Price Giá hành Số thập phân Earnings Growth Tăng trưởng lợi nhuận Số thập phân Current Ratio Tỷ số toán hành Số thập phân Return On Assets Tỷ số lợi nhuận tài sản Số thập phân Debt To Equity Hệ số nợ vốn chủ sở hữu Số thập phân Return On Equity Tỷ suất lợi tức vốn chủ sở Số thập phân hữu Total Cash Tổng số tiền Số tự nhiên Total Debt Tổng số nợ Số tự nhiên Total Revenue Tổng doanh thu Số tự nhiên Total Cash Per Tổng dòng tiền cổ Số thập phân Share phiếu Financial Đơn vị tiền tệ tài Kí tự chữ Thu nhập cổ phiếu Số thập phân Quick ratio Tỷ số toán nhanh Số thập phân Quote Type Loại báo giá Kí tự chữ Symbol Kí hiệu Kí tự chữ Doanh thu Số thập phân Currency Revenue Per Share Enterprise to revenue Enterprise Ebitda Lợi nhuận doanh ngiệp Số thập phân Forward Eps Lợi nhuận vốn cổ phần Số thập phân ước tính Shares Sổ phiếu lưu hành Số tự nhiên Book Value Giá trị sổ sách Số thập phân Trailing Eps Lợi nhuận vốn cổ phần Số thập phân Outstanding Price To Book Chỉ số tài Số thập phân Held Tỷ lệ sở hữu cổ phần cổ Số thạp phân Percent Insiders đông nội Enterprise Value Giá trị doanh nghiệp Số tự nhiên Earings Tăng trưởng thu nhập theo Số thập phân Quarterly quý Growth Peg Ratio Tỷ số định giá cổ phiếu Số thập phân mức độ tăng trưởng Forward PE Chỉ số ước tính giá lợi Số thập phân nhuận thu cổ phiếu Market Cap Vốn hoá thị trường Số tự nhiên Định giá cổ phiếu Kí tự chữ Sức khỏe tài Kí tự chữ Bảng Mơ tả liệu - Công thức sử dụng cột định giá cổ phiếu để xuất giá trị cao thấp: =IF(định giá cổ phiếu dự tốc độ tăng trưởng>1;”Cao”;”Thấp”) - Công thức sử dụng cột sức khỏe tài để xuất giá trị tốt khơng tốt: =IF(AND(3>tỷ số tốn hành>1;tỷ suất sinh lời tài sản>0;tỷ số tốn nhanh>1;”tốt”;”khơng tốt”)) Cơ sở lý luận: - Định giá cổ phiếu: Tỉ lệ PEG so sánh tỉ lệ P/E với tốc độ tăng trưởng EPS kì vọng TH1: “Tỉ lệ PEG = 1, tăng trưởng thu nhập EPS cổ phiếu thị trường định giá đầy đủ vào giá cổ phiếu.” TH2: “Tỉ lệ PEG > 1, cổ phiếu bị định giá cao Nói cách khác, mức tăng trưởng thu nhập mà thị trường kì vọng vào cổ phiếu cao mức tăng trưởng thật mà cổ phiếu tạo được.” TH3: “Tỉ lệ PEG < 1, cổ phiếu bị định giá thấp thị trường khơng kì vọng cơng ty đạt tăng trưởng thu nhập giống dự báo mà công ty đưa ra.” - Sức khỏe tài chính: “Một cơng ty có hệ số tốn hành lớn có khả toán hết khoản nợ ngắn hạn cơng ty khơng có lo ngại khả khoản ngắn hạn Hệ số toán hành cao, 3, cho 10 Bảng : Kết Confusion Matrix - > Để chắn sử dụng thêm Test & Scrore để kiểm tra Test and Score Tại mục Number of folds ta chọn Xét số : “AUC (Area Under the Curve) phần diện tích nằm đường cong ROC ” “CA (Tính xác) tỷ lệ số mẫu phân lớp toàn tập liệu.” “Precision (Độ xác) cho biết số mẫu m phân vào lớp i có tỷ lệ mẫu có đúng.” “Recall (Độ phủ) cịn gọi độ phủ hay độ nhạy.” “F1-score giá trị trung bình điều hịa hai độ đo Precision Recall.” Tất số tiến mơ hình tốt Như dễ dàng nhận phương pháp phân lớp Tree phương pháp tốt phương pháp Vì số AUC Tree = 0.986 Lớn sổ AUC SVM (=0.861) Logistic Regression (= 0.599) 17 Bảng : Kết Test & Score toán Như toán dùng phương pháp Tree để dự đoán giá cổ phiếu cho kết tốt - Kết dự báo : 18 Bảng : Kết dự báo toán c Xử lý toán : Phân tích khả cơng ty nhận thêm nguồn vốn đầu tư - Xây dựng mơ hình: Bước 1: Chọn liệu File Data.xlsx trích xuất 70% liệu ban đầu trích xuất tốn Trong biến Target Sức khoẻ tài skip biến Định giá cổ phiếu khơng liên quan đến kết toán tránh gây lỗi Bước 2: Dùng phương pháp: SVM, Tree, Logistic Regression tiến hành phân tích khả cho vay vốn từ ngân hàng Mỹ thuộc khoảng & đánh giá hiệu phương pháp Bước 3: Chọn phương pháp đánh giá tốt nhất, dùng phương pháp dự báo cho liệu File “Forecast” ( Chọn liệu từ file Forecast trích xuất 30% từ liệu ban đầu, biến Target Sức khoẻ tài chính, skip biến Định giá cổ phiếu ) sau cho bảng kết dự báo 19 - Hình : Mơ hình xây dựng toán Đánh giá kết quả: Theo ma trận nhầm lẫn + Sai lầm loại : dự báo Tốt thực tế Không tốt dẫn đến đánh giá sai nghiêm trọng khả nhận thêm nguồn vốn đầu tư công ty Hoa Kỳ + Ta thấy Tree = < Logistic Regresion (=49 ) SVM (= 15) nên ta chọn Tree làm phương pháp đánh giá cho mô hình hiệu số sai thấp mơ hình phân lớp tốt 20