Phương pháp thống kê trong kinh doanh và tài chính

132 89 0
Phương pháp thống kê trong kinh doanh và tài chính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

vi ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI HỒNG MINH ĐƠNG PHƢƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH LUẬN VĂN THẠC SỸ KHOA HỌC Hà Nội – 2013 vii ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI HỒNG MINH ĐƠNG PHƢƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH Chuyên ngành: Lý thuyết xác suất thống kê toán học Mã số: 60.46.15 LUẬN VĂN THẠC SỸ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC:GS TSKH ĐẶNG HÙNG THẮNG Hà Nội – 2013 viii Lời mở đầu Chúng ta sống xã hội chết ngạt liệu, lại đói khát thơng tin Chính nhu cầu tìm kiếm thơng tin từ khối lượng lớn liệu dẫn đến cần thiết phải có công cụ phù hợp để làm việc này, mà khai thác liệu (Data mining) cơng cụ yếu Khai thác liệu phát triển ngành tương đối mới, liên quan tới hai lĩnh vực chủ yếu thống kê, khoa học máy tính.Với u thích tốn ứng dụng với chút hiểu biết xác suất thống kê, thơi thúc tơi tìm hiểu lĩnh vực khai thác liệu – lý tơi chọn đề tài “Phƣơng pháp thống kê kinh doanh tài chính” Đến chưa có định nghĩa thống cho khái niệm khai thác liệu Nhưng cho định nghĩa sau tác giả Paolo Giudici (người Ý) Applied Data Mining Statistical methods for Business and Industry ([5]) hoàn chỉnh đồng ý với định nghĩa này; sách tài liệu tham khảo cho luận văn Paolo Giudici phát biểu rằng: Khai thác liệu q trình lựa chọn, thăm dò mơ hình hóa khối lượng lớn liệu để tìm quy luật mối quan hệ từ ẩn số với mục đích đạt kết rõ ràng hữu ích cho chủ sở hữu sở liệu Cụ thể, khai thác liệu bao gồm chuỗi hoạt động từ xác định mục tiêu phân tích đến đánh giá kết Chuỗi hoạt động phân chia thành giai đoạn sau: (1) Xác định mục tiêu phân tích: Thực tế, mục tiêu mà công ty hướng tới thường rõ ràng, vấn đề tiềm ẩn gây khó khăn chuyển sang mục tiêu cụ thể cho phân tích Một phát biểu rõ ràng vấn đề mục tiêu cần đạt điều kiện tiên để thiết lập phân tích xác ix (2) Lựa chọn, tổ chức tiền xử lý liệu: Giai đoạn lựa chọn, tổ chức tiền xử lý liệu khơng trình bày luận văn liên quan chủ yếu đến lĩnh cực khác chẳng hạn công nghệ thông tin liên quan đến thống kê – khía cạnh mà tơi quan tâm Cũng mà khái niệm sở liệu, siêu thị liệu không trình bày luận văn Để biết thêm chi tiết, xem [7] [8] (3) Phân tích thăm dò liệu chuyển đổi liệu (nếu cần): Phân tích thăm dò phát liệu bất thường – khác với phần lại liệu Những liệu cụ thể không thiết phải bị loại bỏ chứa thơng tin quan trọng để đạt mục tiêu phân tích Phân tích thăm dò liệu ln ln cần thiết cho phép nhà phân tích dự đốn phương pháp thống kê thích hợp giai đoạn phân tích Việc phân tích thăm dò đề xuất việc thu thập liệu liệu khơng đủ để đạt mục đích Các phương pháp thăm dò cho khai thác liệu trình bày chương Để biết thêm chi tiết, xem [11] (4) Xác định phƣơng pháp thống kê đƣợc sử dụng giai đoạn phân tích: Có nhiều phương pháp thống kê có nhiều thuật tốn sử dụng, điều quan trọng phải có phân loại phương pháp Việc lựa chọn phương pháp phụ thuộc vào vấn đề nghiên cứu kiểu liệu có Dựa mục đích phân tích, ta phân chia thành loại chính: (a) Phƣơng pháp mơ tả: Tức biến đối xử khơng có giả thuyết nhân Có phương pháp phân tích phương sai, phân cụm (cluster), đồ Kohonen (Kohonen map) – xem Bishop, C (1995), Neural Networks for Pattern Recognition, Clarendon Press, Oxford., phương pháp kết hợp (có phương pháp bagging boosting), mơ hình loga tuyến x tính (log-linear models) – tiết xem [1] [3] mô hình đồ thị (graphical models) – xem Whittaker (1990), Edwards (1995) Lauritzen (1996) Trong toàn luận văn mình, tơi nói đến mơ hình loga tuyến tính Lý thuyết mơ hình loga tuyến tính trình bày chương (b) Phƣơng pháp dự báo: Có phương pháp hồi quy tuyến tính chuẩn, hồi quy logistic (logistic regression) - chi tiết xem [1] [3], định (decision tree) – có nhiều tài liệu, chẳng hạn tài liệu [2] mạng thần kinh (neural network) – Bishop (1995) với công cụ perceptron nhiều lớp Lý thuyết hồi quy tuyến tính chuẩn xem kiến thức nên khơng trình bày luận văn Lý thuyết mạng thần kinh phương pháp thiên tính tốn nên không dùng phương pháp cho phân tích tốn Còn hồi quy logistic (một mơ hình thống kê) định (phương pháp rõ ràng, dễ hiểu cho toán phân lớp hồi quy) trình bày lý thuyết áp dụng cho toán Hai phương pháp trình bày chương (c) Phƣơng pháp địa phƣơng: Bao gồm quy tắc kết hợp (association rules) quy tắc trình tự (sequence rules) Tơi quan tâm tới quy tắc kết hợp Lý thuyết trình bày chương (5) Phân tích liệu dựa phƣơng pháp chọn: Phân tích liệu cần có trợ giúp tính tốn máy tính cách sử dụng phần mềm thống kê chẳng hạn phần mềm SAS Enterprise Miner, SPSS, STATA, R hầu hết thuật tốn khơng trình bày luận văn (6) Đánh giá so sánh phƣơng pháp đƣợc sử dụng Lựa chọn mơ hình cuối cho phân tích: Để tạo định cuối cùng, điều cần thiết chọn mơ hình phân tích liệu tốt từ phương pháp thống kê có Do việc lựa chọn mơ hình xi phải dựa so sánh kết thu từ phương pháp khác Đây việc kiểm tra tính hợp lý phương pháp thống kê cụ thể mà sau áp dụng vào liệu Có thể khơng có phương pháp phương pháp sử dụng cho phép mục tiêu đạt cách thỏa đáng, cần thiết phải quay trở lại xác định phương pháp thích hợp cho phân tích Khi đánh giá hiệu suất phương pháp cụ thể, yếu tố khác phải xem xét ràng buộc thời gian, ràng buộc nguồn lực, chất lượng liệu tính sẵn sàng liệu Các phương pháp khác có khả làm bật khía cạnh khác nhau, không xét đồng thời phương pháp nhiều khía cạnh bị bỏ qua (7) Giải thích mơ hình chọn cách sử dụng trình định: Khai thác liệu khơng phân tích liệu mà tích hợp kết vào q trình định công ty Việc khai thác quy tắc sử dụng chúng cho phép chuyển từ giai đoạn phân tích sang giai đoạn sản sinh động định Một mơ hình chọn thực với tập liệu quy tắc phân loại áp dụng cho tồn quần thể tham chiếu Ví dụ phân biệt trước, khách hàng mang lại lợi nhuận hay không mang lại lợi nhuận điều chỉnh sách phân biệt thương mại cho nhóm khách hàng mục tiêu khác nhằm làm tăng lợi nhuận cơng ty Do tơi trọng vào khía cạnh thống kê khai thác liệu nên giai đoạn khơng trình bày luận văn Các toán cụ thể luận văn bắt đầu mục tiêu phân tích, qua bước mơ tả liệu, phân tích thăm dò, xây dựng mơ hình kết thúc so sánh mơ hình xii Cuối cùng, xin xác nhận luận văn dùng sách [5] tác giả Giudici làm tài liệu tham khảo bao gồm ba toán ứng dụng Luận văn chia làm chương với lời mở đầu, kết luận danh mục tài liệu tham khảo: Chƣơng 1: Phân tích liệu thăm dò Trước tìm mơ hình thống kê cho tập liệu, ta phải tiến hành phân tích thăm dò cho biến cho cặp biến thông qua độ đo để sau lựa chọn mơ hình hợp lý Chƣơng 2: Các mơ hình thống kê Có nhiều mơ hình dùng cho khai thác liệu, có mơ hình thiên thống kê mơ hình thiên tính tốn Như tơi nói trên, chương tơi chi nói mơ hình tuyến tính suy rộng, mơ hình hồi quy logistic, định (thống kê dự báo), mơ hình loga tuyến tính (thống kê mô tả) quy tắc kết hợp (mô hình địa phương) Chƣơng 3: Một số ứng dụng kinh doanh tài Chương có ba tốn thực tế Phân tích thị trường qua giỏ hàng, Quản lý quan hệ khách hàng Tính điểm tín dụng (tham khảo thêm [6]) Ở đây, tơi dùng mơ hình làm phương pháp phân tích ba tốn Quả thật việc xử lý liệu phải cần đến phần mềm thống kê, đặc biệt phần mềm SAS Enterprise Miner, thật tiếc tơi khơng có điều kiện để làm việc nên dùng liệu kết phân tích Paolo Giudici xiii Luận văn hoàn thành hướng dẫn khoa học GS TSKH Đặng Hùng Thắng – giảng viên trường Đại học Khoa học tự nhiên – Đại học Quốc gia Hà Nội Em xin bày tỏ lòng biết ơn chân thành đến thầy bảo thầy suốt thời gian qua giúp em hoàn thành luận văn Nhân dịp em xin bày tỏ lòng biết ơn sâu sắc đến thầy phản biện, người đọc đóng góp ý kiến để luận văn em hoàn thiện Cuối cùng, xin cám ơn cán trường THPT Nam Duyên Hà – Hưng Hà – Thái Bình, sở Giáo dục & Đào tạo tỉnh Thái Bình tạo điều kiện thời gian kinh phí cho tơi học cám ơn thầy cô giáo trường Đại học Khoa học tự nhiên tận tình giảng dạy, cung cấp kiến thức tốn học để tơi hồn thiện chun mơn Hà Nội, tháng 5, năm 2013 xiv Mục lục Chƣơng Phân tích liệu thăm dò………………… 1.1 Phân tích thăm dò đơn biến……………………………… …… 1.1.1 Độ đo vị trí……………………………………………… 1.1.2 Các độ đo phân tán…………………………… 1.1.3 Các độ đo tính bất đối xứng………………………… 1.1.4 Nhị phân hóa biến định tính………………… 1.2 Phân tích thăm dò hai biến…………………………………… 1.3 Phân tích thăm dò liệu định tính nhiều biến……………… 1.3.1 Độc lập liên kết……………………………………… 1.3.2 Các độ đo khoảng cách………………………………… 1.3.3 Các độ đo phụ thuộc…………………………… …… 11 1.3.4 Các độ đo dựa mơ hình……………………… …… 13 Chƣơng Các mơ hình thống kê………………… … 17 2.1 Thống kê dự báo……………………………………… 17 2.1.1 Mơ hình tuyến tính suy rộng……………………… …… 17 2.1.2 Mơ hình hồi quy logistic……………………… … …… 24 2.1.3 Cây định…………………………………… …… 26 2.2 Thống kê mô tả…………………………………………… …… 32 Mơ hình loga tuyến tính cho bảng kiện……………… …… 32 2.3 Mơ hình địa phƣơng……………………………………… …… 40 Quy tắc kết hợp………………………………………… …… 40 2.4 So sánh mơ hình…………………………………………… …… 45 xv Chƣơng Một số ứng dụng kinh doanh tài chính…………………………………………… … 48 3.1 Ứng dụng 1: Phân tích thị trƣờng qua giỏ hàng……….……… 48 3.1.1 Mục tiêu phân tích………………………………… …… 48 3.1.2 Mơ tả liệu…………………………………………… 48 3.1.3 Phân tích liệu thăm dò……………………… … …… 51 3.1.4 Xây dựng mơ hình………………………………… …… 55 3.1.4.1 Các mơ hình loga tuyến tính……………… …… 55 3.1.4.2 Các quy tắc kết hợp…………………….… …… 58 3.1.5 So sánh mô hình…………………………………… …… 63 3.2 Ứng dụng 2: Quản lý quan hệ khách hàng…………….…… 65 3.2.1 Mục tiêu phân tích……………………………… …… 65 3.2.2 Mơ tả liệu…………………………………………… 65 3.2.3 Phân tích liệu thăm dò……………………………… 66 3.2.4 Xây dựng mơ hình……………………………… 70 3.2.4.1 Các mơ hình hồi quy logistic…………………… 70 3.2.4.2 Các mơ hình phân lớp……………………… 71 3.2.5 So sánh mơ hình……………………………………… 74 3.3 Ứng dụng 3: Tính điểm tín dụng……………………………… 79 3.3.1 Mục tiêu phân tích……………………………………… 79 3.3.2 Mơ tả liệu…………………………………………… 79 3.3.3 Phân tích liệu thăm dò…………………… ……… 82 3.3.4 Xây dựng mơ hình……………………………………… 85 3.3.4.1 Các mơ hình hồi quy logistic…………………… 85 cxxiii cxxiv cxxv cxxvi cxxvii Bảng 3.33 Các kết cho phân lớp CART với tạp chất Entropy cxxviii cxxix cxxx cxxxi cxxxii Bảng 3.33 cho thấy mô hình CART cách sử dụng số tính hỗn tạp entropy giữ nguyên   Mô hình phức tạp; có 34 nút cuối nhiều mơ hình Gini nút Các kết tương tự nhau, không giống Tỷ lệ lỗi phân lớp mơ hình Entropy 0,211 tập liệu huấn luyện, so với 0,212 mơ hình Gini Nhưng giờ, ta so sánh tính khớp tốt mà khơng có khả dự báo 3.3.5 So sánh mơ hình Để giúp ta lựa chọn mơ hình cuối cùng, ta mở rộng việc phân tích hiệu suất bao gồm tiêu chuẩn dựa hàm tổn thất Với tất mơ hình, ta bắt đầu việc chia liệu có thành tập liệu huấn luyện chứa 75% quan sát tập liệu xác nhận chứa 25% quan sát Ta làm điều cách phân tầng để trì tỷ lệ 70% đáng tin cậy 30% không đáng tin cậy tập liệu Sau làm khớp mơ hình tập liệu huấn luyện, ta sử dụng để phân lớp quan sát tập liệu xác nhận Phân lớp thực cách sinh điểm số sau sử dụng ngưỡng cắt để phân lớp chúng Cuối cùng, mơ hình đánh giá cách đánh giá tỷ lệ lỗi phân lớp Ta bắt đầu với mơ hình hồi quy logistic sai số phân lớp ngưỡng cắt 50% (tương ứng với quy tắc phân biệt) Theo ngưỡng này, tất người nộp đơn có xác suất không đáng tin cậy ( Y  ) lớn 50% dự báo khách hàng không đáng tin cậy; trường hợp lại họ phân loại thành khách hàng cxxxiii đáng tin cậy Mô hình dự báo xác 90,29% số khách hàng đáng tin cậy ( Y  ) Xác suất phạm sai lầm loại 9,71 % Sai lầm loại có nghĩa có khách hàng đáng tin cậy dự báo khơng đáng tin cậy Mơ hình hiệu dự báo khách hàng không đáng tin cậy; thực tế dự báo xác 39,56% Xác suất phạm sai lầm loại 60,44% Sai lầm loại có nghĩa có khách hàng không đáng tin cậy dự báo đáng tin cậy Dường mơ hình gặp khó khăn việc dự báo khách hàng không đáng tin cậy so với việc dự báo khách hàng đáng tin cậy Điều phổ biến tốn tính điểm tín dụng Khó khăn mơ hình phiếu ghi điểm việc dự báo kiện xấu Nhưng ta cần mơ hình dự báo kiện xấu cách hiệu quả, sai lầm loại thường tốn sai lầm loại Các tỷ lệ sai lầm trước đạt với ngưỡng cắt 50%, ngưỡng thấp cho phép ta nhận số lượng lớn người trả tiền xấu Một ngưỡng cắt 30% làm giảm sai lầm loại xuống 24,44% sai lầm loại tăng từ 9,71% lên 22,80% Ngưỡng cắt cần chọn để phù hợp với chi phí sai lầm loại loại Nếu chi phí ngưỡng cắt 50% tốt; trường hợp lại ngưỡng khác tốt Đường cong ROC cho thấy sai lầm thay đổi ngưỡng thay đổi, sử dụng cho mục đích Trước xem xét đường cong ROC, ta so sánh tỷ lệ lỗi phân lớp dự báo ngưỡng cắt 50% mơ hình hồi quy logistic phân lớp Nó cho thấy mơ hình có hiệu suất tốt với tỷ lệ lỗi phân lớp 0,244 mơ hình hồi quy logistic 0,280 Quan tâm tới sai lầm loại 1, mơ hình hồi quy logistic cho thấy xác suất 60,44% so với 54,67% mơ hình Bây ta so sánh mơ hình dạng đường cong ROC số Gini hiệu suất Hình 3.6 cho thấy đường cong ROC mơ hình mơ hình hồi quy logistic (bao gồm mơ hình mạng thần kinh – theo nghiên cứu Giudici); tất tính cách sử dụng cách phân hoạch ngẫu nhiên liệu Nó cho biết định mơ hình tốt sử dụng ngưỡng cắt 50% Dáng điệu dự báo mơ hình tương tự Mơ hình hồi quy logistic chút khơng phải cxxxiv tồi Để so sánh rõ ràng hơn, ta tính số Gini hiệu suất: phân lớp có giá trị cao (0,6260), mơ hình hồi quy logistic (0,5798) Hình 3.6 Các đường cong ROC cho mơ hình cuối Tóm lại, mơ hình hoạt động tốt hơn, khác biệt nhỏ Nhiều người ta xét xem thêm mơ hình kết hợp để hy vọng tăng hiệu suất phân lớp Do tính bất ổn tiềm tàng mơ hình cây, nên người ta cố gắng cải thiện cách sử dụng thuật toán bagging SAS Enterprise Miner Rất tiếc khuôn khổ cho phép luận văn nên bỏ qua vấn đề Tóm lại, mơ hình mơ hình tốt cho phân lớp tập liệu tài ngun tính tốn cho phép mơ hình bagging cần xem xét Tuy nhiên tất mơ hình cuối có cxxxv hiệu suất giống nhau, nên điều có ý nghĩa lựa chọn mơ hình rõ ràng nhất, cụ thể hồi quy logistic Kết luận Quả thật phân tích liệu thực tế trợ giúp cho việc định vấn đề phức tạp Nó khơng liên quan đến lĩnh vực thống kê mà liên quan đến nhiều lĩnh vực khác nữa, đặc biệt công nghệ thông tin đơn giản việc sử dụng phần mềm thống kê Với kiến thức chủ yếu thống kê nên luận văn em trọng đến khía cạnh thống kê Khai thác liệu Với thời gian khuôn khổ cho phép luận văn Thạc sỹ nên luận văn em dừng lại việc vận dụng lý thuyết vào phân tích ba tốn thực tế Đó thực hạn chế luận văn Nhưng với ước muốn theo ngành thống kê ứng dụng, em tiếp tục tìm hiểu nghiên cứu sâu Thực lĩnh vực thú vị có nhiều ứng dụng thực tế nhiều ngành khoa học Kinh doanh, Tài chính, Y học, Xã hội học… Em mong muốn thầy bạn đọc đóng góp ý kiến, giúp đỡ em lĩnh vực Em xin chân thành cảm ơn cxxxvi Tài liệu tham khảo [1] Agresti, A (1990), Categorical Data Analysis, John Wiley & Sons, Inc., New York [2] Breiman, L., Friedman, J H., Olshen, R and Stone, C J (1984), Classification and Regression Trees, Wadsworth, Belmont CA [3] Christensen, R (1997), Log-Linear Models and Logistic Regression, SpringerVerlag, Berlin [4] Dobson, A J (1990), An Introduction to Generalized Linear Models, Chapman and Hall, London [5] Giudici, P (2003), Applied Data Mining Statistical Methods for Business and Industry, John Wiley & Sons, Inc., New York [6] Greene, W H (1999), Econometric Analysis, Prentice Hall, New York [7] Han, J and Kamber, M (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann, New York [8] Hand, D J., Mannila, H and Smyth, P (2001), Principles of Data Mining, MIT Press, Cambridge MA [9] Kass, G V (1980), “An exploratory technique for investigating large quantities of categorical data”, Applied Statistics [10] McCullagh, P and Nelder, J A (1989), Generalised Linear Models, Chapman and cxxxvii Hall, New York [11] Tukey, J W (1977), Exploratory Data Analysis, Addison-Wesley, Reading MA ... phƣơng pháp thống kê đƣợc sử dụng giai đoạn phân tích: Có nhiều phương pháp thống kê có nhiều thuật tốn sử dụng, điều quan trọng phải có phân loại phương pháp Việc lựa chọn phương pháp phụ thuộc vào... KHOA HỌC TỰ NHIÊN HÀ NỘI HỒNG MINH ĐƠNG PHƢƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH Chuyên ngành: Lý thuyết xác suất thống kê toán học Mã số: 60.46.15 LUẬN VĂN THẠC SỸ KHOA HỌC... phải dựa so sánh kết thu từ phương pháp khác Đây việc kiểm tra tính hợp lý phương pháp thống kê cụ thể mà sau áp dụng vào liệu Có thể khơng có phương pháp phương pháp sử dụng cho phép mục tiêu

Ngày đăng: 16/03/2020, 23:34

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan