Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 115 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
115
Dung lượng
5,19 MB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI HỒNG MINH ĐƠNG PHƯƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH Chuyên ngành: Lý thuyết xác suất thống kê toán học Mã số: 60.46.15 LUẬN VĂN THẠC SỸ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: GS TSKH ĐẶNG HÙNG THẮNG Hà Nội – 2013 Lời mở đầu Chúng ta sống xã hội chết ngạt liệu, lại đói khát thơng tin Chính nhu cầu tìm kiếm thơng tin từ khối lượng lớn liệu dẫn đến cần thiết phải có công cụ phù hợp để làm việc này, mà khai thác liệu (Data mining) công cụ yếu Khai thác liệu phát triển ngành tương đối mới, liên quan tới hai lĩnh vực chủ yếu thống kê, khoa học máy tính.Với u thích tốn ứng dụng với chút hiểu biết xác suất thống kê, thơi thúc tơi tìm hiểu lĩnh vực khai thác liệu – lý tơi chọn đề tài “Phương pháp thống kê kinh doanh tài chính” Đến chưa có định nghĩa thống cho khái niệm khai thác liệu Nhưng cho định nghĩa sau tác giả Paolo Giudici (người Ý) Applied Data Mining Statistical methods for Business and Industry ([5]) hoàn chỉnh đồng ý với định nghĩa này; sách tài liệu tham khảo cho luận văn Paolo Giudici phát biểu rằng: Khai thác liệu q trình lựa chọn, thăm dị mơ hình hóa khối lượng lớn liệu để tìm quy luật mối quan hệ từ ẩn số với mục đích đạt kết rõ ràng hữu ích cho chủ sở hữu sở liệu Cụ thể, khai thác liệu bao gồm chuỗi hoạt động từ xác định mục tiêu phân tích đến đánh giá kết Chuỗi hoạt động phân chia thành giai đoạn sau: (1) Xác định mục tiêu phân tích: Thực tế, mục tiêu mà công ty hướng tới thường rõ ràng, vấn đề tiềm ẩn gây khó khăn chuyển sang mục tiêu cụ thể cho phân tích Một phát biểu rõ ràng vấn đề mục tiêu cần đạt điều kiện tiên để thiết lập phân tích xác (2) Lựa chọn, tổ chức tiền xử lý liệu: Giai đoạn lựa chọn, tổ chức tiền xử lý liệu khơng trình bày luận văn liên quan chủ yếu đến lĩnh cực khác chẳng hạn công nghệ thông tin liên quan đến thống kê – khía cạnh mà tơi quan tâm Cũng mà khái niệm sở liệu, siêu thị liệu không trình bày luận văn Để biết thêm chi tiết, xem [7] [8] (3) Phân tích thăm dị liệu chuyển đổi liệu (nếu cần): Phân tích thăm dị phát liệu bất thường – khác với phần lại liệu Những liệu cụ thể không thiết phải bị loại bỏ chứa thơng tin quan trọng để đạt mục tiêu phân tích Phân tích thăm dị liệu ln ln cần thiết cho phép nhà phân tích dự đốn phương pháp thống kê thích hợp giai đoạn phân tích Việc phân tích thăm dị đề xuất việc thu thập liệu liệu khơng đủ để đạt mục đích Các phương pháp thăm dị cho khai thác liệu trình bày chương Để biết thêm chi tiết, xem [11] (4) Xác định phương pháp thống kê sử dụng giai đoạn phân tích: Có nhiều phương pháp thống kê có nhiều thuật tốn sử dụng, điều quan trọng phải có phân loại phương pháp Việc lựa chọn phương pháp phụ thuộc vào vấn đề nghiên cứu kiểu liệu có Dựa mục đích phân tích, ta phân chia thành loại chính: (a) Phương pháp mơ tả: Tức biến đối xử khơng có giả thuyết nhân Có phương pháp phân tích phương sai, phân cụm (cluster), đồ Kohonen (Kohonen map) – xem Bishop, C (1995), Neural Networks for Pattern Recognition, Clarendon Press, Oxford., phương pháp kết hợp (có phương pháp bagging boosting), mơ hình loga tuyến tính (log-linear models) – tiết xem [1] [3] mơ hình đồ thị (graphical models) – xem Whittaker (1990), Edwards (1995) Lauritzen (1996) Trong tồn luận văn mình, tơi nói đến mơ hình loga tuyến tính Lý thuyết mơ hình loga tuyến tính trình bày chương (b) Phương pháp dự báo: Có phương pháp hồi quy tuyến tính chuẩn, hồi quy logistic (logistic regression) - chi tiết xem [1] [3], định (decision tree) – có nhiều tài liệu, chẳng hạn tài liệu [2] mạng thần kinh (neural network) – Bishop (1995) với công cụ perceptron nhiều lớp Lý thuyết hồi quy tuyến tính chuẩn xem kiến thức nên khơng trình bày luận văn Lý thuyết mạng thần kinh phương pháp thiên tính tốn nên tơi khơng dùng phương pháp cho phân tích tốn Cịn hồi quy logistic (một mơ hình thống kê) định (phương pháp rõ ràng, dễ hiểu cho toán phân lớp hồi quy) trình bày lý thuyết áp dụng cho toán Hai phương pháp trình bày chương (c) Phương pháp địa phương: Bao gồm quy tắc kết hợp (association rules) quy tắc trình tự (sequence rules) Tơi quan tâm tới quy tắc kết hợp Lý thuyết trình bày chương (5) Phân tích liệu dựa phương pháp chọn: Phân tích liệu cần có trợ giúp tính tốn máy tính cách sử dụng phần mềm thống kê chẳng hạn phần mềm SAS Enterprise Miner, SPSS, STATA, R hầu hết thuật tốn khơng trình bày luận văn (6) Đánh giá so sánh phương pháp sử dụng Lựa chọn mơ hình cuối cho phân tích: Để tạo định cuối cùng, điều cần thiết chọn mơ hình phân tích liệu tốt từ phương pháp thống kê có Do việc lựa chọn mơ hình phải dựa so sánh kết thu từ phương pháp khác Đây việc kiểm tra tính hợp lý phương pháp thống kê cụ thể mà sau áp dụng vào liệu Có thể khơng có phương pháp phương pháp sử dụng cho phép mục tiêu đạt cách thỏa đáng, cần thiết phải quay trở lại xác định phương pháp thích hợp cho phân tích Khi đánh giá hiệu suất phương pháp cụ thể, yếu tố khác phải xem xét ràng buộc thời gian, ràng buộc nguồn lực, chất lượng liệu tính sẵn sàng liệu Các phương pháp khác có khả làm bật khía cạnh khác nhau, không xét đồng thời phương pháp nhiều khía cạnh bị bỏ qua (7) Giải thích mơ hình chọn cách sử dụng trình định: Khai thác liệu khơng phân tích liệu mà cịn tích hợp kết vào q trình định công ty Việc khai thác quy tắc sử dụng chúng cho phép chuyển từ giai đoạn phân tích sang giai đoạn sản sinh động định Một mơ hình chọn thực với tập liệu quy tắc phân loại áp dụng cho tồn quần thể tham chiếu Ví dụ phân biệt trước, khách hàng mang lại lợi nhuận hay không mang lại lợi nhuận điều chỉnh sách phân biệt thương mại cho nhóm khách hàng mục tiêu khác nhằm làm tăng lợi nhuận cơng ty Do tơi trọng vào khía cạnh thống kê khai thác liệu nên giai đoạn khơng trình bày luận văn Các toán cụ thể luận văn bắt đầu mục tiêu phân tích, qua bước mơ tả liệu, phân tích thăm dị, xây dựng mơ hình kết thúc so sánh mơ hình Cuối cùng, xin xác nhận luận văn dùng sách [5] tác giả Giudici làm tài liệu tham khảo bao gồm ba toán ứng dụng Luận văn chia làm chương với lời mở đầu, kết luận danh mục tài liệu tham khảo: Chương 1: Phân tích liệu thăm dị Trước tìm mơ hình thống kê cho tập liệu, ta phải tiến hành phân tích thăm dị cho biến cho cặp biến thông qua độ đo để sau lựa chọn mơ hình hợp lý Chương 2: Các mơ hình thống kê Có nhiều mơ hình dùng cho khai thác liệu, có mơ hình thiên thống kê mơ hình thiên tính tốn Như tơi nói trên, chương tơi chi nói mơ hình tuyến tính suy rộng, mơ hình hồi quy logistic, định (thống kê dự báo), mơ hình loga tuyến tính (thống kê mô tả) quy tắc kết hợp (mô hình địa phương) Chương 3: Một số ứng dụng kinh doanh tài Chương có ba tốn thực tế Phân tích thị trường qua giỏ hàng, Quản lý quan hệ khách hàng Tính điểm tín dụng (tham khảo thêm [6]) Ở đây, tơi dùng mơ hình làm phương pháp phân tích ba tốn Quả thật việc xử lý liệu phải cần đến phần mềm thống kê, đặc biệt phần mềm SAS Enterprise Miner, thật tiếc tơi khơng có điều kiện để làm việc nên dùng liệu kết phân tích Paolo Giudici Luận văn hoàn thành hướng dẫn khoa học GS TSKH Đặng Hùng Thắng – giảng viên trường Đại học Khoa học tự nhiên – Đại học Quốc gia Hà Nội Em xin bày tỏ lòng biết ơn chân thành đến thầy bảo thầy suốt thời gian qua giúp em hoàn thành luận văn Nhân dịp em xin bày tỏ lòng biết ơn sâu sắc đến thầy phản biện, người đọc đóng góp ý kiến để luận văn em hồn thiện Cuối cùng, tơi xin cám ơn cán trường THPT Nam Duyên Hà – Hưng Hà – Thái Bình, sở Giáo dục & Đào tạo tỉnh Thái Bình tạo điều kiện thời gian kinh phí cho tơi học cám ơn thầy cô giáo trường Đại học Khoa học tự nhiên tận tình giảng dạy, cung cấp kiến thức tốn học để tơi hồn thiện chuyên môn Hà Nội, tháng năm 2013 Mục lục Chương Phân tích liệu thăm dị………………… 1.1 Phân tích thăm dị đơn biến……………………………… …… 1.1.1 Độ đo vị trí……………………………………………… 1.1.2 Các độ đo phân tán…………………………… 1.1.3 Các độ đo tính bất đối xứng………………………… 1.1.4 Nhị phân hóa biến định tính………………… 1.2 Phân tích thăm dị hai biến…………………………………… 1.3 Phân tích thăm dị liệu định tính nhiều biến……………… 1.3.1 Độc lập liên kết……………………………………… 1.3.2 Các độ đo khoảng cách………………………………… 1.3.3 Các độ đo phụ thuộc…………………………… …… 11 1.3.4 Các độ đo dựa mơ hình……………………… …… 13 Chương Các mơ hình thống kê………………… … 17 2.1 Thống kê dự báo……………………………………… 17 2.1.1 Mô hình tuyến tính suy rộng……………………… …… 17 2.1.2 Mơ hình hồi quy logistic……………………… … …… 24 2.1.3 Cây định…………………………………… …… 26 2.2 Thống kê mô tả…………………………………………… …… 32 Mô hình loga tuyến tính cho bảng kiện……………… …… 32 2.3 Mơ hình địa phương……………………………………… …… 40 Quy tắc kết hợp………………………………………… …… 40 2.4 So sánh mơ hình…………………………………………… …… 45 Chương Một số ứng dụng kinh doanh tài chính…………………………………………… … 48 3.1 Ứng dụng 1: Phân tích thị trường qua giỏ hàng……….……… 48 3.1.1 Mục tiêu phân tích………………………………… …… 48 3.1.2 Mơ tả liệu…………………………………………… 48 3.1.3 Phân tích liệu thăm dị……………………… … …… 51 3.1.4 Xây dựng mơ hình………………………………… …… 55 3.1.4.1 Các mơ hình loga tuyến tính……………… …… 55 3.1.4.2 Các quy tắc kết hợp…………………….….…… 58 3.1.5 So sánh mơ hình…………………………………… …… 63 3.2 Ứng dụng 2: Quản lý quan hệ khách hàng…………….…… 65 3.2.1 Mục tiêu phân tích……………………………… …… 65 3.2.2 Mơ tả liệu…………………………………………… 65 3.2.3 Phân tích liệu thăm dị……………………………… 66 3.2.4 Xây dựng mơ hình……………………………… 70 3.2.4.1 Các mơ hình hồi quy logistic…………………… 70 3.2.4.2 Các mơ hình phân lớp……………………… 71 3.2.5 So sánh mơ hình……………………………………… 74 3.3 Ứng dụng 3: Tính điểm tín dụng……………………………… 79 3.3.1 Mục tiêu phân tích……………………………………… 79 3.3.2 Mơ tả liệu…………………………………………… 79 3.3.3 Phân tích liệu thăm dị…………………… ……… 82 3.3.4 Xây dựng mơ hình……………………………………… 85 3.3.4.1 Các mơ hình hồi quy logistic…………………… 85 3.3.4.2 Các mơ hình phân lớp……………………… 89 3.3.5 So sánh mơ hình………………………………………… 98 Kết luận………………………………………………… 101 Tài liệu tham khảo……………………………………… 102 Danh mục hình Hình 1.1 Các biểu đồ thống kê mơ tả phân phối …………………… Hình 1.2 Hộp đồ thị ……………………………………………………… Hình 1.3 Đồ thị phân tán ……………………………… ……………… Hình 1.4 Ma trận đồ thị phân tán ………………………………………… 10 Hình 2.1 Minh họa định …………………………………… 27 Hình 2.2 Ví dụ CART ……………………………………….…… 30 Hình 2.3a Mối quan hệ mơ hình loga tuyến tính cho bảng chiều …………………………………………….……… 39 Hình 2.3b Mối quan hệ mơ hình loga tuyến tính cho bảng chiều …………………………………………….……… 40 Hình 2.4 Ví dụ đường cong ROC …………………………………… 47 Hình 3.1 Đồ thị thể kết hợp dương mạnh sản phẩm ………………………………………… …… … 54 Hình 3.2 Phân phối điều kiện (a) First amount spent (b) products at first order (numb) mức Y 69 Hình 3.3 Sự biến thiên độ xác phân lớp cho phân lớp số tăng …………………………………………………… 72 Hình 3.4 Sơ đồ CART cho tốn ………………………………… 72 Hình 3.5 Các đường cong ROC cho mơ hình xét …………….… 77 Hình 3.6 Các đường cong ROC cho mơ hình cuối ………… 100 Danh mục bảng Bảng 1.1 Phân phối tần số cho biến định tính ……… ………… … Bảng 1.2 Bảng kiện chiều lý thuyết …………………………….…… Bảng 1.3 So sánh độ đo kết hợp …………………………………… 11 Bảng 1.4 Bảng kiện quan sát trang catalog windows ……… 15 Bảng 2.1 Các kiểu mơ hình tuyến tính suy rộng …………… …………… 19 Bảng 2.2 Ma trận hỗn độn ………………………………………………… 46 Bảng 3.1 Các loại sản phẩm xét số đếm tần số tương ứng …… 49 Bảng 3.2 Tập liệu giao dịch …………………………………………… 50 101 Những lao động nước yêu cầu vay tiền (foreign = 1) tin cậy lao động ˆ Đức β = 1,3932 Như ta thấy suốt giai đoạn thăm dò, khách hàng sở hữu ngơi nhà (house = 1) có lẽ có hợp đồng chấp đáng tin cậy khách hàng ˆ không sở hữu nhà Điều hệ số β = 0, 4934 > Tỷ số chênh đo sức mạnh kết hợp biến giải thích biến phản ứng Bảng 3.31 so sánh tỷ số chênh ước lượng với tỷ số chênh từ phân tích thăm dò Các tỷ số chênh nhiều chiều đáng tin cậy tỷ số chênh chiều Chúng đưa mô tả tốt mối quan hệ tương tác biến, kết hợp điều chỉnh lại việc để ý đến tác động gián tiếp biến phản ứng, tác động xảy thơng qua biến giải thích lại 102 Bảng 3.31 So sánh tỷ số chênh chiều tỷ số chênh nhiều chiều 3.3.4.2 Các mơ hình phân lớp SAS Enterprise Miner cho phép ta làm khớp loại mô hình Bây ta xem xét mơ hình CART số tính hỗn tạp Gini Để cắt tỉa, ta tính tỷ lệ lỗi phân lớp toàn tập liệu cách sử dụng tham số hình phạt α = Điều xét lựa chọn mặc định trường hợp khơng có cân nhắc khác Một biểu diễn đồ thị dễ dàng xây dựng từ bảng 3.32 Cây phức tạp có 33 nút cuối 33 đường mơ hình hiểu quy tắc kết hợp Tính phức tạp thái hạ thấp lệ lỗi phân lớp xuống 0,212 đạt tập liệu huấn luyện Hầu tất biến giải thích biểu diễn mơ hình cây, ngoại trừ sex marital status Đây kết đáng kể Khơng có khác độ tin cậy theo giới tính theo tình trạng nhân Đáng lưu ý tất đường dài, với độ dài khoảng đến 103 Bảng 3.32 Các kết cho phân lớp CART với tạp chất Gini 104 105 106 107 Bảng 3.33 Các kết cho phân lớp CART với tạp chất Entropy 108 109 110 111 Bảng 3.33 cho thấy mơ hình CART cách sử dụng số tính hỗn tạp entropy giữ ngun α = Mơ hình phức tạp; có 34 nút cuối nhiều mơ hình Gini nút Các kết tương tự nhau, không giống Tỷ lệ lỗi phân lớp mơ hình Entropy 0,211 tập liệu huấn luyện, so với 0,212 mô hình Gini Nhưng giờ, ta so sánh tính khớp tốt mà khơng có khả dự báo 3.3.5 So sánh mơ hình Để giúp ta lựa chọn mơ hình cuối cùng, ta mở rộng việc phân tích hiệu suất bao gồm tiêu chuẩn dựa hàm tổn thất Với tất mơ hình, ta bắt đầu việc chia liệu có thành tập liệu huấn luyện chứa 75% quan sát tập liệu xác nhận chứa 25% quan sát Ta làm điều cách phân tầng để trì tỷ lệ 70% đáng tin cậy 30% không đáng tin cậy tập liệu Sau làm khớp mơ hình tập liệu huấn luyện, ta sử dụng để phân lớp quan sát tập liệu xác nhận Phân lớp thực cách sinh điểm số sau sử dụng ngưỡng cắt để phân lớp chúng Cuối cùng, mô hình đánh giá cách đánh giá tỷ lệ lỗi phân lớp Ta bắt đầu với mơ hình hồi quy logistic sai số phân lớp ngưỡng cắt 50% (tương ứng với quy tắc phân biệt) Theo ngưỡng này, tất người nộp đơn có xác suất khơng đáng tin cậy ( Y = ) lớn 50% dự báo khách hàng không đáng tin cậy; trường hợp lại họ phân loại thành khách hàng đáng tin cậy Mơ hình dự báo xác 90,29% số khách hàng đáng tin cậy ( Y = ) Xác suất phạm sai lầm loại 9,71 % Sai lầm loại có nghĩa có khách hàng đáng tin cậy dự báo không đáng tin cậy Mô hình hiệu dự báo khách 112 hàng khơng đáng tin cậy; thực tế dự báo xác 39,56% Xác suất phạm sai lầm loại 60,44% Sai lầm loại có nghĩa có khách hàng khơng đáng tin cậy dự báo đáng tin cậy Dường mơ hình gặp khó khăn việc dự báo khách hàng không đáng tin cậy so với việc dự báo khách hàng đáng tin cậy Điều phổ biến tốn tính điểm tín dụng Khó khăn mơ hình phiếu ghi điểm việc dự báo kiện xấu Nhưng ta cần mơ hình dự báo kiện xấu cách hiệu quả, sai lầm loại thường tốn sai lầm loại Các tỷ lệ sai lầm trước đạt với ngưỡng cắt 50%, ngưỡng thấp cho phép ta nhận số lượng lớn người trả tiền xấu Một ngưỡng cắt 30% làm giảm sai lầm loại xuống 24,44% sai lầm loại tăng từ 9,71% lên 22,80% Ngưỡng cắt cần chọn để phù hợp với chi phí sai lầm loại loại Nếu chi phí ngưỡng cắt 50% tốt; trường hợp cịn lại ngưỡng khác tốt Đường cong ROC cho thấy sai lầm thay đổi ngưỡng thay đổi, sử dụng cho mục đích Trước xem xét đường cong ROC, ta so sánh tỷ lệ lỗi phân lớp dự báo ngưỡng cắt 50% mơ hình hồi quy logistic phân lớp Nó cho thấy mơ hình có hiệu suất tốt với tỷ lệ lỗi phân lớp 0,244 mơ hình hồi quy logistic 0,280 Quan tâm tới sai lầm loại 1, mơ hình hồi quy logistic cho thấy xác suất 60,44% so với 54,67% mơ hình Bây ta so sánh mơ hình dạng đường cong ROC số Gini hiệu suất Hình 3.6 cho thấy đường cong ROC mơ hình mơ hình hồi quy logistic (bao gồm mơ hình mạng thần kinh – theo nghiên cứu Giudici); tất tính cách sử dụng cách phân hoạch ngẫu nhiên liệu Nó cho biết định mơ hình tốt sử dụng ngưỡng cắt 50% Dáng điệu dự báo mô hình tương tự Mơ hình hồi quy logistic chút tồi Để so sánh rõ ràng hơn, ta tính số Gini hiệu suất: phân lớp có giá trị cao (0,6260), mơ hình hồi quy logistic (0,5798) 113 Hình 3.6 Các đường cong ROC cho mơ hình cuối Tóm lại, mơ hình hoạt động tốt hơn, khác biệt nhỏ Nhiều người ta xét xem thêm mơ hình kết hợp để hy vọng tăng hiệu suất phân lớp Do tính bất ổn tiềm tàng mơ hình cây, nên người ta cố gắng cải thiện cách sử dụng thuật tốn bagging SAS Enterprise Miner Rất tiếc khuôn khổ cho phép luận văn nên bỏ qua vấn đề Tóm lại, mơ hình mơ hình tốt cho phân lớp tập liệu tài ngun tính tốn cho phép mơ hình bagging cần xem xét Tuy nhiên tất mơ hình cuối có hiệu suất giống nhau, nên điều có ý nghĩa lựa chọn mơ hình rõ ràng nhất, cụ thể hồi quy logistic 114 Kết luận Quả thật phân tích liệu thực tế trợ giúp cho việc định vấn đề phức tạp Nó khơng liên quan đến lĩnh vực thống kê mà liên quan đến nhiều lĩnh vực khác nữa, đặc biệt công nghệ thông tin đơn giản việc sử dụng phần mềm thống kê Với kiến thức chủ yếu thống kê nên luận văn em trọng đến khía cạnh thống kê Khai thác liệu Với thời gian khuôn khổ cho phép luận văn Thạc sỹ nên luận văn em dừng lại việc vận dụng lý thuyết vào phân tích ba tốn thực tế Đó thực hạn chế luận văn Nhưng với ước muốn theo ngành thống kê ứng dụng, em tiếp tục tìm hiểu nghiên cứu sâu Thực lĩnh vực thú vị có nhiều ứng dụng thực tế nhiều ngành khoa học Kinh doanh, Tài chính, Y học, Xã hội học… Em mong muốn thầy bạn đọc đóng góp ý kiến, giúp đỡ em lĩnh vực Em xin chân thành cảm ơn 115 Tài liệu tham khảo [1] Agresti, A (1990), Categorical Data Analysis, John Wiley & Sons, Inc., New York [2] Breiman, L., Friedman, J H., Olshen, R and Stone, C J (1984), Classification and Regression Trees, Wadsworth, Belmont CA [3] Christensen, R (1997), Log-Linear Models and Logistic Regression, SpringerVerlag, Berlin [4] Dobson, A J (1990), An Introduction to Generalized Linear Models, Chapman and Hall, London [5] Giudici, P (2003), Applied Data Mining Statistical Methods for Business and Industry, John Wiley & Sons, Inc., New York [6] Greene, W H (1999), Econometric Analysis, Prentice Hall, New York [7] Han, J and Kamber, M (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann, New York [8] Hand, D J., Mannila, H and Smyth, P (2001), Principles of Data Mining, MIT Press, Cambridge MA [9] Kass, G V (1980), “An exploratory technique for investigating large quantities of categorical data”, Applied Statistics [10] McCullagh, P and Nelder, J A (1989), Generalised Linear Models, Chapman and Hall, New York [11] Tukey, J W (1977), Exploratory Data Analysis, Addison-Wesley, Reading MA ... yếu thống kê, khoa học máy tính.Với u thích tốn ứng dụng với chút hiểu biết xác suất thống kê, thúc tìm hiểu lĩnh vực khai thác liệu – lý tơi chọn đề tài ? ?Phương pháp thống kê kinh doanh tài chính? ??... (4) Xác định phương pháp thống kê sử dụng giai đoạn phân tích: Có nhiều phương pháp thống kê có nhiều thuật tốn sử dụng, điều quan trọng phải có phân loại phương pháp Việc lựa chọn phương pháp. .. văn Lý thuyết mạng thần kinh phương pháp thiên tính tốn nên tơi khơng dùng phương pháp cho phân tích tốn Cịn hồi quy logistic (một mơ hình thống kê) định (phương pháp rõ ràng, dễ hiểu cho toán