LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC PHƯƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH

Xác định các phương pháp thống kê được sử dụng trong các giai đoạn phân tích: Có nhiều phương pháp thống kê và cũng có nhiều thuật toán có thể được sử dụng, vì vậy điều quan trọng là phả

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI

-HOÀNG MINH ĐÔNG

PHƯƠNG PHÁP THỐNG KÊ

TRONG KINH DOANH VÀ TÀI CHÍNH

Chuyên ngành: Lý thuyết xác suất và thống kê toán học

Mã số: 60.46.15

LUẬN VĂN THẠC SỸ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

GS TSKH ĐẶNG HÙNG THẮNG

Trang 2

Hà Nội – 2013

Lời mở đầu Chúng ta đang sống trong xã hội chết ngạt vì dữ liệu, nhưng lại đói khát về

thông tin Chính do nhu cầu tìm kiếm thông tin từ một khối lượng lớn dữ liệu đã dẫn

đến sự cần thiết phải có các công cụ phù hợp để làm việc này, mà khai thác dữ liệu (Data mining) là một công cụ chính yếu Khai thác dữ liệu đã được phát triển như là

một ngành tương đối mới, nó liên quan tới hai lĩnh vực chủ yếu là thống kê, khoa học máy tính.Với sự yêu thích toán ứng dụng cùng với chút hiểu biết về xác suất và thống

kê, đã thôi thúc tôi tìm hiểu về lĩnh vực khai thác dữ liệu – đó cũng là lý do tôi chọn

đề tài “Phương pháp thống kê trong kinh doanh và tài chính” Đến nay vẫn chưa

có định nghĩa thống nhất cho khái niệm khai thác dữ liệu Nhưng tôi cho rằng định nghĩa sau đây của tác giả Paolo Giudici (người Ý) trong cuốn Applied Data Mining Statistical methods for Business and Industry ([5]) là hoàn chỉnh hơn và tôi cũng đồng

ý với định nghĩa này; cuốn sách này cũng là tài liệu tham khảo chính cho luận văn của

tôi Paolo Giudici phát biểu rằng: Khai thác dữ liệu là quá trình lựa chọn, thăm dò và

mô hình hóa khối lượng lớn dữ liệu để tìm ra những quy luật hoặc những mối quan hệ

từ những ẩn số đầu tiên với mục đích là đạt được các kết quả rõ ràng và hữu ích cho các chủ sở hữu cơ sở dữ liệu.

Cụ thể, khai thác dữ liệu bao gồm một chuỗi các hoạt động từ xác định mục tiêu

phân tích đến đánh giá kết quả Chuỗi hoạt động này có thể được phân chia thành các giai đoạn như sau:

(1) Xác định mục tiêu phân tích:

Thực tế, các mục tiêu mà công ty hướng tới thường rõ ràng, nhưng các vấn đề tiềm ẩn có thể gây khó khăn khi chuyển sang các mục tiêu cụ thể cho phân tích Một phát biểu rõ ràng về vấn đề và các mục tiêu cần đạt được là điều kiện tiên quyết để thiết lập các phân tích chính xác.

(2) Lựa chọn, tổ chức và tiền xử lý dữ liệu:

Trang 3

Giai đoạn lựa chọn, tổ chức và tiền xử lý dữ liệu không được trình bày trong luận văn vì nó liên quan chủ yếu đến lĩnh cực khác chẳng hạn như công nghệ thông tin hơn là liên quan đến thống kê – khía cạnh mà tôi quan tâm Cũng vì vậy mà các khái niệm về cơ sở dữ liệu, siêu thị dữ liệu cũng không được trình bày trong luận văn này.

Để biết thêm chi tiết, chúng ta có thể xem [7] và [8].

(3) Phân tích thăm dò dữ liệu và chuyển đổi dữ liệu (nếu cần):

Phân tích thăm dò có thể phát hiện ra bất kỳ dữ liệu bất thường nào – khác với phần còn lại của dữ liệu Những dữ liệu cụ thể này không nhất thiết phải bị loại bỏ vì

nó có thể chứa thông tin quan trọng để đạt được các mục tiêu phân tích Phân tích thăm

dò dữ liệu luôn luôn cần thiết vì nó cho phép nhà phân tích dự đoán những phương pháp thống kê nào thích hợp nhất trong giai đoạn tiếp theo của phân tích Việc phân tích thăm dò cũng có thể đề xuất việc thu thập dữ liệu mới vì dữ liệu hiện tại không đủ

để đạt được mục đích Các phương pháp thăm dò chính cho khai thác dữ liệu sẽ được trình bày ở chương 1 Để biết thêm chi tiết, chúng ta có thể xem [11].

(4) Xác định các phương pháp thống kê được sử dụng trong các giai đoạn phân tích:

Có nhiều phương pháp thống kê và cũng có nhiều thuật toán có thể được sử dụng, vì vậy điều quan trọng là phải có một sự phân loại các phương pháp đó Việc lựa chọn các phương pháp phụ thuộc vào vấn đề được nghiên cứu hoặc kiểu dữ liệu hiện

có Dựa trên mục đích phân tích, ta có thể phân chia thành 3 loại chính:

(a) Phương pháp mô tả: Tức là các biến được đối xử như nhau và không có giả

thuyết nhân quả Có các phương pháp như phân tích phương sai, phân cụm (cluster), bản đồ Kohonen (Kohonen map) – xem Bishop, C (1995), Neural Networks for Pattern Recognition, Clarendon Press, Oxford., các phương pháp kết hợp (có 2 phương pháp cơ bản là bagging và boosting), các mô hình loga tuyến tính (log-linear models) – tiết xem [1] và [3] và các mô hình đồ thị (graphical models) – xem

Whittaker (1990), Edwards (1995) hoặc Lauritzen (1996) Trong toàn bộ luận văn của mình, tôi chỉ nói đến mô hình loga tuyến tính Lý thuyết về mô hình loga tuyến tính được trình bày ở chương 2.

Trang 4

(b) Phương pháp dự báo: Có các phương pháp như hồi quy tuyến tính chuẩn,

hồi quy logistic (logistic regression) - chi tiết xem [1] và [3], cây quyết định (decision tree) – có nhiều tài liệu, chẳng hạn như tài liệu [2] và mạng thần kinh (neural network) – Bishop (1995) với công cụ perceptron nhiều lớp Lý thuyết về hồi quy tuyến tính

chuẩn được xem như là kiến thức cơ bản nên sẽ không được trình bày trong luận văn.

Lý thuyết mạng thần kinh là một phương pháp thiên về tính toán nên tôi cũng không dùng phương pháp này cho phân tích bài toán của mình Còn hồi quy logistic (một mô hình thống kê) và cây quyết định (phương pháp rõ ràng, dễ hiểu cho bài toán phân lớp

và hồi quy) là được trình bày lý thuyết và được áp dụng cho các bài toán Hai phương pháp này được trình bày ở chương 2.

(c) Phương pháp địa phương: Bao gồm các quy tắc kết hợp (association rules)

và các quy tắc trình tự (sequence rules) Tôi sẽ chỉ quan tâm tới các quy tắc kết hợp.

Lý thuyết của nó được trình bày ở chương 2.

(5) Phân tích dữ liệu dựa trên các phương pháp đã chọn:

Phân tích dữ liệu cần có sự trợ giúp tính toán của máy tính bằng cách sử dụng các phần mềm thống kê chẳng hạn như phần mềm SAS Enterprise Miner, SPSS, STATA, R và hầu hết các thuật toán sẽ không được trình bày trong luận văn.

(6) Đánh giá và so sánh các phương pháp được sử dụng Lựa chọn mô hình cuối cùng cho phân tích:

Để tạo ra một quyết định cuối cùng, điều cần thiết là chọn mô hình phân tích dữ liệu tốt nhất từ các phương pháp thống kê hiện có Do đó việc lựa chọn mô hình phải dựa trên một sự so sánh giữa các kết quả thu được từ các phương pháp khác nhau Đây

là một việc kiểm tra về tính hợp lý của các phương pháp thống kê cụ thể mà sau đó nó được áp dụng vào dữ liệu Có thể không có phương pháp nào trong các phương pháp

đã sử dụng cho phép các mục tiêu đạt được một cách thỏa đáng, khi đó cần thiết phải quay trở lại xác định một phương pháp mới thích hợp hơn cho phân tích Khi đánh giá hiệu suất của một phương pháp cụ thể, các yếu tố khác vẫn phải được xem xét như ràng buộc về thời gian, ràng buộc về nguồn lực, chất lượng dữ liệu và tính sẵn sàng của dữ liệu Các phương pháp khác nhau có khả năng làm nổi bật các khía cạnh khác

Trang 5

nhau, như vậy đôi khi nếu không xét đồng thời các phương pháp thì nhiều khía cạnh sẽ

ty Do tôi chỉ chú trọng vào khía cạnh thống kê của khai thác dữ liệu nên giai đoạn này

sẽ không được trình bày trong luận văn.

Các bài toán cụ thể trong luận văn sẽ bắt đầu bằng mục tiêu phân tích, rồi qua các bước mô tả dữ liệu, phân tích thăm dò, xây dựng mô hình và kết thúc bằng so sánh

mô hình.

Cuối cùng, tôi cũng xin xác nhận rằng trong luận văn này tôi dùng cuốn sách [5] của tác giả Giudici làm tài liệu tham khảo chính trong đó bao gồm cả ba bài toán ứng dụng.

Luận văn được chia làm 3 chương cùng với lời mở đầu, kết luận và danh mục tài liệu tham khảo:

Chương 1: Phân tích dữ liệu thăm dò.

Trước khi tìm một mô hình thống kê cho tập dữ liệu, ta phải tiến hành phân tích thăm dò cho từng biến và cho từng cặp biến thông qua các độ đo để sau đó lựa chọn

mô hình hợp lý

Chương 2: Các mô hình thống kê.

Có nhiều mô hình dùng cho khai thác dữ liệu, trong đó có cả những mô hình thiên về thống kê và những mô hình thiên về tính toán Như tôi đã nói ở trên, chương

Trang 6

này tôi chi nói về mô hình tuyến tính suy rộng, mô hình hồi quy logistic, cây quyết định (thống kê dự báo), mô hình loga tuyến tính (thống kê mô tả) và quy tắc kết hợp (mô hình địa phương)

Chương 3: Một số ứng dụng trong kinh doanh và tài chính.

Chương này có ba bài toán thực tế là Phân tích thị trường qua giỏ hàng, Quản lý quan hệ khách hàng và Tính điểm tín dụng (tham khảo thêm ở [6]) Ở đây, tôi chỉ dùng các mô hình trên làm phương pháp phân tích ba bài toán này Quả thật là việc xử lý dữ liệu phải cần đến các phần mềm thống kê, đặc biệt là phần mềm SAS Enterprise Miner, nhưng thật tiếc là tôi không có điều kiện để làm việc này nên tôi chỉ dùng dữ liệu và kết quả đã phân tích được của Paolo Giudici.

Luận văn được hoàn thành dưới sự hướng dẫn khoa học của GS TSKH Đặng Hùng Thắng – giảng viên trường Đại học Khoa học tự nhiên – Đại học Quốc gia Hà Nội Em xin bày tỏ lòng biết ơn chân thành đến thầy vì sự chỉ bảo của thầy trong suốt thời gian qua giúp em hoàn thành luận văn.

Nhân dịp này em cũng xin bày tỏ lòng biết ơn sâu sắc đến các thầy phản biện, những người đã đọc và đóng góp ý kiến để luận văn của em được hoàn thiện hơn.

Cuối cùng, tôi cũng xin cám ơn các cán bộ trường THPT Nam Duyên Hà – Hưng Hà – Thái Bình, sở Giáo dục & Đào tạo tỉnh Thái Bình đã tạo điều kiện về thời gian và kinh phí cho tôi đi học và cám ơn các thầy cô giáo trường Đại học Khoa học tự nhiên đã tận tình giảng dạy, cung cấp những kiến thức toán học để tôi hoàn thiện hơn

về chuyên môn.

Hà Nội, tháng 5 năm 2013

Trang 7

Mục lục

Chương 1 Phân tích dữ liệu thăm dò……… 1

1.1 Phân tích thăm dò đơn biến……… …… 1

1.1.1 Độ đo vị trí……… 2

1.1.2 Các độ đo sự phân tán……… 2

1.1.3 Các độ đo về tính bất đối xứng……… 3

1.1.4 Nhị phân hóa một biến định tính……… 5

1.2 Phân tích thăm dò hai biến……… 5

1.3 Phân tích thăm dò dữ liệu định tính nhiều biến……… 7

1.3.1 Độc lập và liên kết……… 8

1.3.2 Các độ đo khoảng cách……… 9

1.3.3 Các độ đo sự phụ thuộc……… …… 11

1.3.4 Các độ đo dựa trên mô hình……… …… 13

Chương 2 Các mô hình thống kê……… … 17

2.1 Thống kê dự báo……… 17

2.1.1 Mô hình tuyến tính suy rộng……… …… 17

2.1.2 Mô hình hồi quy logistic……… … …… 24

2.1.3 Cây quyết định……… …… 26

2.2 Thống kê mô tả……… …… 32

Mô hình loga tuyến tính cho bảng sự kiện……… …… 32

2.3 Mô hình địa phương……… …… 40

Quy tắc kết hợp……… …… 40

2.4 So sánh mô hình……… …… 45

Trang 8

Chương 3 Một số ứng dụng trong kinh doanh và tài

chính……… … 48

3.1 Ứng dụng 1: Phân tích thị trường qua giỏ hàng……….……… 48

3.1.1 Mục tiêu phân tích……… …… 48

3.1.2 Mô tả dữ liệu……… 48

3.1.3 Phân tích dữ liệu thăm dò……… ……… 51

3.1.4 Xây dựng mô hình……… …… 55

3.1.4.1 Các mô hình loga tuyến tính……… …… 55

3.1.4.2 Các quy tắc kết hợp……….….…… 58

3.1.5 So sánh mô hình……… …… 63

3.2 Ứng dụng 2: Quản lý quan hệ khách hàng……….…… 65

3.2.1 Mục tiêu phân tích……… …… 65

3.2.3 Phân tích dữ liệu thăm dò……… 66

3.2.4 Xây dựng mô hình……… 70

3.2.4.1 Các mô hình hồi quy logistic……… 70

3.2.4.2 Các mô hình cây phân lớp……… 71

3.2.5 So sánh mô hình……… 74

3.3 Ứng dụng 3: Tính điểm tín dụng……… 79

3.3.1 Mục tiêu phân tích……… 79

3.3.3 Phân tích dữ liệu thăm dò……… ……… 82

3.3.4 Xây dựng mô hình……… 85

3.3.4.1 Các mô hình hồi quy logistic……… 85

3.3.4.2 Các mô hình cây phân lớp……… 89

3.3.5 So sánh mô hình……… 98

Trang 9

Kết luận……… 101 Tài liệu tham khảo……… 102

Danh mục các hình

Trang 10

Hình 1.1 Các biểu đồ thống kê mô tả các phân phối ……… 4

Hình 1.2 Hộp đồ thị ……… 4

Hình 1.3 Đồ thị phân tán ……… ……… 6

Hình 1.4 Ma trận đồ thị phân tán ……… 6

Hình 2.1 Minh họa về cây quyết định ……… 27

Hình 2.2 Ví dụ về cây CART ……….…… 30

Hình 2.3a Mối quan hệ giữa các mô hình loga tuyến tính cơ bản cho bảng 3 chiều ……….……… 39

Hình 2.3b Mối quan hệ giữa các mô hình loga tuyến tính cơ bản cho bảng 3 chiều ……….……… 40

Hình 2.4 Ví dụ về đường cong ROC ……… 47

Hình 3.1 Đồ thị thể hiện những sự kết hợp dương mạnh giữa các sản phẩm ……… …… … 54

Hình 3.2 Phân phối điều kiện của (a) First amount spent và (b) products at ﬁrst order (numb) đối với các mức của Y 69

Hình 3.3 Sự biến thiên của độ chính xác phân lớp cho cây phân lớp khi số lá tăng ……… 72

Hình 3.4 Sơ đồ cây CART cho bài toán ……… 72

Hình 3.5 Các đường cong ROC cho các mô hình được xét ……….… 77

Hình 3.6 Các đường cong ROC cho các mô hình cuối cùng ………… 100

Danh mục các bảng Bảng 1.1 Phân phối tần số cho một biến định tính ……… ………… … 3

Bảng 1.2 Bảng sự kiện 2 chiều lý thuyết ……….…… 7

Trang 11

Bảng 1.3 So sánh các độ đo kết hợp ……… 11

Bảng 1.4 Bảng sự kiện quan sát giữa các trang catalog và windows ……… 15

Bảng 2.1 Các kiểu mô hình tuyến tính suy rộng ……… ……… 19

Bảng 2.2 Ma trận hỗn độn ……… 46

Bảng 3.1 Các loại sản phẩm được xét và các số đếm tần số tương ứng …… 49

Bảng 3.2 Tập dữ liệu giao dịch ……… 50

Bảng 3.3 Cơ sở dữ liệu chủ thẻ ……… 51

Bảng 3.4 Ví dụ về bảng sự kiện 2 chiều và tính toán các tỷ số chênh …… 52

Bảng 3.5 Các tỷ số chênh lớn nhất giữa các cặp sản phẩm và khoảng tin cậy tương ứng ……… ….……… 53

Bảng 3.6 Các ước lượng hợp lý cực đại của các tham số loga tuyến tính 55

Bảng 3.7 Các quy tắc kết hợp có giá cao nhất ……… … 60

Bảng 3.8 Các quy tắc kết hợp có độ tin cậy cao nhất ……… … 61

Bảng 3.9 Các quy tắc kết hợp lên tới cấp 3 được sắp xếp theo giá ……… 62

Bảng 3.10 Các quy tắc kết hợp cấp 4 được sắp xếp theo độ tin cậy ……… 63

Bảng 3.11 Danh sách các biến về khách hàng ……… … 66

Bảng 3.12 Phân phối của biến phản ứng ……… … 67

Bảng 3.13 Phân phối điều kiện của biến phản ứng trên các biến giải thích xã hội nhân khẩu học ……….… 67

Bảng 3.14 Bảng sự kiện phân lớp biến phản ứng và biến trả góp ……… 68

Bảng 3.15 Ma trận dữ liệu được xét ……… 70

Bảng 3.16 Mô hình hồi quy logistic được chọn ……….… 70

Bảng 3.17 Các quy tắc cho cây phân lớp ……….… 72

Bảng 3.18 Ma trận hỗn độn cho mô hình hồi quy logistic ……… … 74

Bảng 3.19 Ma trận hỗn độn cho cây phân lớp CART ……….… 75

Bảng 3.20 So sánh tóm tắt của các sai số lỗi phân lớp ……… 76

Bảng 3.21 So sánh các chỉ số Gini về hiệu suất ……… 77

Bảng 3.22 Cấu trúc của ma trận dữ liệu ……… 81

Bảng 3.23 Phân lớp biến deadline ……… 81

Trang 12

Bảng 3.24 Phân lớp biến account ……… 82

Bảng 3.25 Phân lớp các biến sex và marital status ……… … 82

Bảng 3.26 Các tỷ số chênh một chiều với biến phản ứng ……… 83

Bảng 3.27 Giải thích các tỷ số chênh ……… 84

Bảng 3.28 Kết quả của quy trình lựa chọn tiến lên ……… 85

Bảng 3.29 Ước lượng hợp lý cực đại của các tham số ……… 86

Bảng 3.30 Giải thích mô hình ước lượng ……… 88

Bảng 3.31 So sánh giữa các tỷ số chênh một chiều và các tỷ số chênh nhiều chiều ……… 89

Bảng 3.32 Các kết quả cho cây phân lớp CART với tạp chất Gini ………… 90

Bảng 3.33 Các kết quả cho cây phân lớp CART với tạp chất Entropy …… 94

Trang 13

Chương 1

Phân tích dữ liệu thăm dò

Thực tế phần lớn dữ liệu là các biến ngẫu nhiên và vectơ ngẫu nhiên Biến ngẫu nhiênđược chia thành các loại sau: biến định lượng (liên tục, rời rạc) và biến định tính (thứ tự, địnhdanh – biến định tính không có thứ tự) Các biến định lượng rời rạc và các biến định tính

được gọi chung là các biến phân hạng (categorical), các kết quả có thể xảy ra của biến được

gọi là các mức Trong luận văn này phần lớn chỉ nói đến các biến phân hạng, đặc biệt là biếnnhị thức Đối với các dữ liệu ở dạng biến định lượng liên tục thường được rời rạc hóa thànhcác biến định lượng rời rạc Kiến thức về các biến ngẫu nhiên, vectơ ngẫu nhiên liên tục đượcxem là đã biết trước nên lý thuyết của nó không được trình bày trong luận văn này Để biếtthêm chi tiết, hãy xem [11]

1.1 Phân tích thăm dò đơn biến

Việc phân tích các biến một cách đơn lẻ là một bước quan trọng trong phân tích sơ bộ

dữ liệu; nó có thể thu thập thông tin quan trọng cho phân tích đa biến và việc mô hình hóa saunày Các công cụ chính của phân tích thăm dò đơn biến là những biểu diễn đồ thị và một loạtcác chỉ số tóm tắt Những biểu diễn đồ thị sẽ khác nhau tùy theo kiểu dữ liệu Các biểu đồ cột

và biểu đồ hình tròn phổ biến được sử dụng cho dữ liệu định danh Các biểu đồ tần số thườngđược sử dụng để biểu diễn các biến định tính thứ tự và các biến định lượng rời rạc – ở đó cácmức được sắp thứ tự trên trục hoành Để có được một phân phối tần số cho các biến địnhlượng liên tục đầu tiên ta phải rời rạc hóa các biến theo các khoảng lớp, bắt đầu bằng việcthiết lập độ rộng mỗi khoảng Thông thường quy ước là lấy các khoảng có độ rộng không đổi

Trang 14

hoặc các khoảng có độ rộng khác nhau nhưng với cùng một tần số (đẳng tần) Biểu diễn đồthị của các biến liên tục được tái phân loại thành các khoảng lớp là biểu đồ thống kê Để xâydựng một biểu đồ thống kê thì các khoảng được chọn phải được bố trí dọc theo trục hoành

Ta đã biết cách biểu diễn đồ thị của một phân phối đơn biến Tuy nhiên đôi khi chúng

ta cần tóm tắt hơn nữa tất cả các quan sát; do đó cần xây dựng các chỉ số thống kê thích hợp

để tóm tắt những khía cạnh quan trọng của các quan sát Các chỉ số thống kê một chiều có thểđược phân loại thành các chỉ số về vị trí, sự phân tán, tính bất đối xứng,

Trung vị và các điểm phân vị

Không dùng cho dữ liệu định danh Một giá trị khái quát của trung vị được gọi là phân

vị, nó chia phân phối tần số thành 2 phần có tổng tần số xác định trước Quan tâm đặc biệt làcác tứ phân vị thứ 1, 2, 3 ký hiệu lần lượt là q q q1, , 2 3 chúng chia phân phối tần số thành 4phần có tổng tần số bằng nhau Cụ thể, tổng tần số của các quan sát nhỏ hơn q1 là 0,25, nhỏhơn q2 (trung vị) là 0,5, nhỏ hơn q3 là 0,75

Đối với dữ liệu định lượng, thì phép đo độ phân tán là phương sai Cho trước một mẫu

N quan sát x x1, , , 2 x N của biến X thì phương sai mẫu được xác định như sau:

Trang 15

 

2 2

1

1( )

1

N i i

Tương tự như phương sai của biến định lượng, đối với các biến định tính cũng có các

độ đo về sự phân tán, tất nhiên là không thể sử dụng khái niệm phương sai mà có cách đokhác về sự phân tán Xét một biểu diễn tổng quát của phân phối tần số của một biến định tínhvới k mức

Bảng 1.1 Phân phối tần số cho một biến định tính

 Không thuần nhất rỗng: p  j 1 với j nào đó, p  i 0 với  i j

 Không thuần nhất cực đại: p i 1, i 1,k

Trang 16

lệch phải (bất đối xứng dương); nếu trung vị lớn hơn giá trị trung bình thì phân phối được gọi

là lệch trái (bất đối xứng âm) Có thể dùng các biểu đồ cột hoặc biểu đồ thống kê để điều trahình thức của phân phối dữ liệu Hình 1.1 thể hiện các biểu đồ thống kê cho một phân phốilệch phải, một phân phối đối xứng và một phân phối lệch trái

Hình 1.1 Các biểu đồ thống kê mô tả các phân phối

(a) lệch phải (trung bình > trung vị)

(b) đối xứng (trung bình = trung vị)

(c) lệch trái (trung bình < trung vị):

Một công cụ khác là hộp đồ thị Hộp đồ thị sử dụng trung vị Me, điểm tứ phân vị thứ

1 q1, thứ 3 q3 và phạm vị khoảng tứ phân vị IQR Hình 1.2 cho thấy một ví dụ Ở đây T T1, 2được định nghĩa như sau:

Nếu Me cách đều Q Q1, 3 thì phân phối là đối xứng; nếu khác đi thì phân phối bị lệch

Ví dụ khi Q3 Me Me Q  1 thì phân phối lệch phải như hình 1.2 Hộp đồ thị cũng chỉ ra sựhiện diện của những quan sát bất thường hay ngoại lệ, đó là những giá trị quan sát nhỏ hơn T1

Trang 17

hoặc lớn hơn T2 Hình 1.2 thể hiện một phân phối lệch phải Hơn nữa một số quan sát bấtthường hiện diện ở đuôi bên phải của phân phối.

Một chỉ số thống kê tóm tắt có thể đo tính bất đối xứng của phân phối (chỉ tính toánđược đối với biến định lượng), ký hiệu là , được xác định như sau:

 Nếu  0 thì phân phối là đối xứng

 Nếu  0 thì phân phối là bất đối xứng trái

 Nếu  0 thì phân phối là bất đối xứng phải

1.1.4 Nhị phân hóa một biến định tính

Trong khai thác dữ liệu, nhiều khi ta cần nhị phân hóa một biến định tính, nhất là đốivới biến định danh Giả sử X là biến định tính với I mức  1,2, ,I  Khi đó sẽ có một song

ánh giữa X và vectơ các biến Bernoulli  X ,X , ,X1 2 I 1 ,XI, trong đó

Vì chỉ cần biết thông tin của X về I 1 mức là biết được thông tin về mức còn lại nên cũng

có một song ánh giữa X và vectơ  X ,X , ,X1 2 I 1 .

Như vậy khi làm việc với X , ta có thể làm việc với  X ,X , ,X1 2 I 1 ,XI hoặc với

 X ,X , ,X1 2 I 1  và có thể coi biến Bernoulli là biến định lượng (có metric giữa các mức).

1.2 Phân tích thăm dò hai biến

Mối quan hệ giữa 2 biến có thể được biểu diễn đồ thị bằng cách sử dụng đồ thị phântán Trên mặt phẳng tọa độ, trục hoành biểu diễn các giá trị (biến định lượng) hoặc các mức(biến định tính) của một biến còn trục tung biểu diễn các giá trị hoặc các mức của biến kia.Khi đó các tọa độ tạo thành một hình, hình này được gọi là đồ thị phân tán của 2 biến Đồ thịphân tán là một biểu diễn trực quan về mối quan hệ giữa 2 biến Đồ thị phân tán được vẽ với

Trang 18

mọi loại biến Ở đây có hình minh họa đồ thị phân tán, nó mô tả mối quan hệ giữa 2 biến địnhlượng liên tục ROI và ROE.

Hình 1.3 Đồ thị phân tán

Một tập dữ liệu thực tế thường chứa nhiều hơn 2 biến, nhưng cũng có thể truy xuấtđược những thông tin liên quan từ việc phân tích mỗi đồ thị phân tán Ta có thể tạo ra một matrận đồ thị phân tán trong đó mỗi thành phần là đồ thị phân tán của 2 biến tương ứng với dòng

và cột

Trang 19

Hình 1.4 Ma trận đồ thị phân tán

Đối với phân tích thăm dò nhiều hơn 2 biến định lượng sẽ không được trình bày ở đây;

đó là hiệp phương sai, ma trận hiệp phương sai, hệ số tương quan, ma trận tương quan…và ta

đã biết như là kiến thức cơ sở Việc phân tích thăm dò nhiều hơn 2 biến định tính sẽ đượctrình bày ở mục tiếp theo

Ta đã sử dụng hiệp phương sai và hệ số tương quan như là những phép đo chính trongviệc đo các mối quan hệ thống kê giữa các biến định lượng Với các biến định tính thứ tự thì

có thể mở rộng hiệp phương sai và hệ số tương quan tới các hạng của các biến Hệ số tươngquan giữa các hạng được gọi là hệ số tương quan Spearman

Nói chung, việc chuyển các mức của các biến định tính thứ tự sang các hạng tươngứng cho phép hầu hết các phân tích ứng dụng cho dữ liệu định lượng được mở rộng tớitrường hợp định tính thứ tự bao gồm cả việc phân tích các thành phần chính Tuy nhiên nếu

ma trận dữ liệu chứa dữ liệu định danh thì khái niệm hiệp phương sai và hệ số tương quankhông thể sử dụng được nữa Phần còn lại của mục này xem xét các phép đo tóm tắt về mức

độ của các mối quan hệ giữa các biến định tính bất kỳ Những độ đo này được gọi là các chỉ

số kết hợp Những chỉ số này đôi khi có thể được áp dụng cho các biến định lượng rời rạc

Trong việc kiểm tra các biến định tính, một phần cơ bản được tham gia bởi các tần sốcủa các mức của biến Dữ liệu định tính thường được biểu diễn trực tiếp dưới dạng một bảng

sự kiện Bảng 1.2 là một bảng sự kiện 2 chiều lý thuyết để giới thiệu khái niệm được sử dụngtrong mục này

Bảng 1.2 Bảng sự kiện 2 chiều lý thuyết

Trang 20

Ở đây: n ij là tần số của cặp mức X Y i; j với i1, , I j1,J của các biến X Y, n ij được gọi làcác tần số ô

 là tần số biên duyên của cột thứ j trong bảng, nó ký hiệu cho tổng số các quan

sát ở mức thứ j của biến Y, j1,J Với các tần số trong bảng, ta có thể viết mối quan hệ

biên duyên như sau:

Trang 21

Khái niệm độc lập thống kê áp dụng cho các biến ngẫu nhiên định tính và định lượng.Đối với các biến định lượng, có thể tính được các phép đo tóm tắt (được gọi là các phép đotương quan) nó thực hiện trên cả các mức và các tần số Đối với các biến định tính, các phép

đo tóm tắt (được gọi là các phép đo liên kết) chỉ có thể sử dụng các tần số bởi vì các mứckhông metric

Đối với các biến định lượng, nếu 2 biến X Y, độc lập thống kê thì

cov( , ) 0 (X Y   r(X,Y)=0) Điều ngược lại chưa chắc đúng, tức là nếu 2 biến X Y, thỏamãn cov( , ) 0 (X Y   r X Y( , ) 0) thì không suy ra được 2 biến này độc lập Có một ngoại lệ

là khi ( , )X Y là phân phối chuẩn 2 chiều thì từ sự không tương quan suy ra sự độc lập

Các phép đo liên kết có nhiều loại, ở đây ta kiểm tra 3 loại khác nhau: các độ đokhoảng cách, các độ đo sự phụ thuộc và các độ đo dựa trên mô hình

1.3.2 Các độ đo khoảng cách

Sự độc lập giữa 2 biến X Y, xảy ra khi

i j ij

Một phương pháp đầu tiên để tóm tắt sự kết hợp có thể được dựa trên việc tính toán một độ

đo toàn diện về tính bất đồng giữa tần số quan sát n ijvà kỳ vọng của nó: * i j

ij

n n n

n

 

 trong cácgiả thuyết về sự độc lập giữa 2 biến Thống kê ban đầu được đề xuất bởi Karl Pearson là phép

đo được sử dụng rộng rãi nhất cho việc xác minh giả thuyết về sự độc lập giữa X và Y Nóđược định nghĩa như sau:

* 2 2

Trang 22

Chú ý rằng  2 0 nếu các biếnX Y, độc lập Thống kê 2

 có thể được viết dưới dạng tươngđương (để nhấn mạnh sự phụ thuộc của thống kê 2 vào số quan sát n):

2 2

Đây là một hàm tăng theo n Điều này cho thấy một bất tiện Để khắc phục sự bất tiện ấy,

một số phép đo thay thế đã được đề xuất, chẳng hạn như:

2 2

+ V 2 1 và J I: Có sự phụ thuộc lớn nhất của X vào Y nếu ở mỗi cột của bảng có duynhất 1 tần số khác 0 Điều này có nghĩa là với mỗi mức của Y tương ứng với 1 và chỉ 1 mứccủa X

Trang 23

+ V 2 1 và I J: Nếu 2 điều kiện trên đồng thời xảy ra, tức là thì 2 biến được gọi là phụthuộc lẫn nhau tối đa.

Chúng ta đã giới thiệu trường hợp các bảng sự kiện 2 chiều liên quan đến 2 biến vớimột số tùy ý các mức Tuy nhiên các phép đo ở đây có thể áp dụng được cho các bảng sự kiệnnhiều chiều

Các chỉ số kết hợp dựa trên thống kê khi – bình phương Pearson 2 đo khoảng cáchcủa mối quan hệ giữa X và Y tới tình huống độc lập Chúng đề cập đến một khái niệmchung về sự kết hợp, theo nghĩa là chúng chỉ đo khoảng cách tới tình huống độc lập, màkhông đưa ra thông tin về bản chất của khoảng cách đó Những chỉ số này khá tổng quát, vìchúng có thể được áp dụng với cùng cách thức cho tất cả các loại bảng sự kiện Hơn nữa nhưchúng ta thấy thống kê 2 có một phân phối tiệm cận phân phối khi – bình phương, nên nócũng có thể được sử dụng để đánh giá một ngưỡng suy luận nhằm quy nạp xem liệu các biếnđược kiểm tra có phụ thuộc nhau đáng kể hay không Bảng 1.3 cho thấy một ví dụ tính toáncác độ đo dựa trên 2

Trang 24

trên việc định nghĩa các chỉ số cho các ngữ cảnh cụ thể đang được điều tra Nói cách khác,các chỉ số này xác định bản chất sự phụ thuộc giữa các biến hiện có.

Giả sử rằng trong một bảng sự kiện 2 chiều, Y là biến phản ứng (phụ thuộc), X làbiến giải thích (độc lập) Ta có thể đánh giá xem thông tin về mức của X có thể làm giảmtính không xác định về các mức của Y hay không Mức độ không xác định về mức của mộttính chất định tính thường được biểu thị bằng cách sử dụng một chỉ số không thuần nhất (xem1.1.3)

Cho ( )Y  f1, f2, ,fJ là độ đo không thuần nhất cho phân phối biên duyên của Y

, được chỉ ra bằng vectơ các tần số biên duyên Tương tự, cho ( | )Y i là độ đo sự phân tánđược tính toán dựa trên phân phối điều kiên của Y đối với dòng thứ i của biến X trong bảng

Một chỉ số kết hợp được dựa trên “sự giảm theo tỷ lệ lỗi” hay chỉ số giảm tỷ lệ lỗi (EPR:

error proportianal reduction index) có thể được tính như sau:

Trang 25

I J J ij

j

i j i j

Y X J

j j

f

f f

I J

ij ij

i j i j

Y X J

j j j

f f

f f U

* Y X| U Y X|  1 Y phụ thuộc tối đa vào X

Cả Y X| và U Y X| đều biểu diễn các lượng giảm sự không thuần nhất mà có thể được giải thíchthông qua sự phụ thuộc của Y vào X Để ứng dụng chúng đòi hỏi chúng ta phải xác địnhmột mối quan hệ nhân quả từ một biến (giải thích) với biến khác (phụ thuộc), trong khi cácchỉ số dựa trên 2 thì đối xứng Hơn nữa 2 không dễ dàng mở rộng được cho các bảng sựkiện với số chiều lớn hơn 2 để có được một ngưỡng suy luận

1.3.4 Các độ đo dựa trên mô hình

Ta có thể kiểm tra các phép đo kết hợp mà không phụ thuộc vào các phân phối biênduyên của các biến Không có phép đo nào trước đó đáp ứng được yêu cầu này Bây giờ taxem xét một lớp các chỉ số dễ dàng giải thích được mà không phụ thuộc vào các phân phốibiên duyên Những phép đo này được dựa vào các mô hình xác suất, do đó cho phép một xử

lý suy luận Ta sẽ giả sử một mô hình xác suất, trong đó các tần số tương đối ô được thaybằng các xác suất ô Các xác suất ô có thể được giải thích như các tần số tương đối khi cỡmẫu dần tới vô cùng, do đó chúng có cùng các tính chất như các tần số tương đối Các số đếm

ô trong bảng thường có phân phối đa thức để điều tra sự phụ thuộc giữa các biến hoặc đôi khitrong bảng 2 chiều các số đếm ô có phân phối tích đa thức để điều tra sự khác nhau về tỷ lệtrong các quần thể

Trang 26

Xét một bảng sự kiện 2 2  cho các biến X và Y, được kết hợp tương ứng với cácdòng (X 0,1) và các cột (Y 0,1) của bảng, 4 số đếm ô này có phân phối đa thức Đặt

11, 00, 10, 01 11 00 10 01 1

         là các xác suất mà một quan sát được phân loại vào 1trong 4 ô của bảng Tỷ số chênh là một phép đo sự kết hợp được hiểu như là một tham số cơbản trong các mô hình thống kê cho dữ liệu định tính Đặt 1|1 và 0|1 là các xác suất điều kiệnxuất hiện 1 (thành công) và xuất hiện 0 (thất bại) ở dòng 1; đặt 1|0 và 0|0 là các xác suất điềukiện xuất hiện 1 và 0 ở dòng 0

Độ chênh (odd) thành công đối với dòng 1 được xác định bởi:

1|1 1

niệm tỷ số chênh Tỷ số chênh là tỷ số giữa 2 độ chênh trên (odds ratio):

1|1 0|1 1

0 1|0 0|0

//

10 0|1

01 1|0

00 0|0

Trang 27

Mặt khác việc xét sự phụ thuộc tức là xét xem liệu tỷ số chênh có lớn hơn 1 hay nhỏ hơn 1,

có thể đánh giá bằng dấu của sự kết hợp:

+ Với   1: Khả năng cùng xuất hiện sự kiện thành công hoặc sự kiện thất bại của X và Y

lớn hơn 2 trường hợp còn lại Trường hợp này, ta nói chúng có sự kết hợp dương

+ Với 0   1: Khả năng cùng xuất hiện sự kiện thành công hoặc sự kiện thất bại của X và

Y nhỏ hơn 2 trường hợp còn lại Trường hợp này, ta nói chúng có sự kết hợp âm

* Tỷ số chênh không thay đổi giá trị khi hướng của bảng bị đảo ngược, tức là các dòng trởthành các cột, các cột trở thành các dòng Điều này có nghĩa là tỷ số chênh giữa các biến làđối xứng nên không nhất thiết phải xác định một biến làm biến phụ thuộc, biến khác làm biếngiải thích

Tỷ số chênh có thể được sử dụng như một công cụ thăm dò nhằm xây dựng một môhình xác suất Cụ thể là, có thể xây dựng một quy tắc quyết định cho phép ta xác định xemliệu một giá trị quan sát nhất định của tỷ số chênh có cho thấy một sự kết hợp đáng kể giữacác biến tương ứng hay không Theo nghĩa đó, có thể lấy được một khoảng tin cậy như đãlàm đối với hệ số tương quan Một sự kết hợp là đáng kể khi:

2 2

1 1 2

xỉ được cải thiện cùng với kích thước mẫu

Bảng 1.4 Bảng sự kiện quan sát giữa các trang catalog và windows

W 0 W 1

C 0 0,4171 0,1295

C 1 0,2738 0,1796

Đây là một ví dụ trong phân tích Web clicstream với 2 biến catalog và windows Bảng 1.4

cho phép trả lời câu hỏi: có hay không những khách khác nhau cùng truy cập danh mục các

trang catalog ( C ) và windows ( W ) Từ bảng 1.4 ta có:

C W

Trang 28

P C

P C odds

   phản ánh sự kết hợp dương đáng kể giữa 2 biến

Cho đến giờ, ta đã xác định được tỷ số chênh đối với các bảng sự kiện 2 2  Nhưngcác tỷ số chênh có thể được tính toán theo cùng một cách thức đối với các bảng sự kiện 2chiều I J Tỷ số chênh đối với các bảng I J có thể được xác định với sự tham gia của

tỷ số chênh đối với 2 dòng i, i' và 2 cột j, j':

ijk i' j' k ii' jj'|k

Trang 29

Chương 2

Các mô hình thống kê

2.1 Thống kê dự báo

2.1.1 Mô hình tuyến tính suy rộng

Mô hình tuyến tính chuẩn là mô hình thống kê chính cho phân tích dữ liệu Tuy nhiêntrong nhiều tình huống, giả thuyết về tính tuyến tính không thực tế Một hạn chế nữa của môhình tuyến tính chuẩn là giả thuyết về tính chuẩn và phương sai không đổi của biến phản ứng.Trong nhiều ứng dụng các quan sát không có phân phối chuẩn hoặc chúng có phương saikhác nhau Người ta đã mở rộng mô hình tuyến tính chuẩn thành mô hình tuyến tính suy rộng

(generalized linear model) trong đó biến phản ứng có phân phối thuộc họ mũ Để biết thông

tin tổng quan hơn hãy xem [10] Mô hình tuyến tính suy rộng lấy một hàm của giá trị trungbình của biến phản ứng và liên kết hàm đó với các biến giải thích thông qua một phương trìnhtuyến tính Mô hình được xác định bởi 3 thành phần:

(1) Thành phần ngẫu nhiên: biến phản ứng Y và dạng phân phối của nó

(2) Thành phần hệ thống: các biến giải thích (được sử dụng như là các yếu tố dự báo trong

Trang 30

Với cỡ mẫu n, thành phần ngẫu nhiên của mô hình tuyến tính suy rộng được mô tảbằng mẫu các biến ngẫu nhiên Y Y1, , ,2 Y n (n biến độc lập); mỗi biến Y i có phân phối thuộc

họ mũ chính tắc với cùng dạng hàm mật độ (hoặc hàm xác suất):

tắc Chú ý rằng, thông thường người ta hay viết các tham số của mô hình trong đó có một

Trang 31

tham số không mô tả tác động nào – được gọi là tham số chắn Khi đó liên kết trên có thểviết:

Sau đây ta liệt kê một số trường hợp của mô hình tuyến tính suy rộng

Bảng 2.1 Các kiểu mô hình tuyến tính suy rộng

đa thức

nguồn: [10]

Trong luận văn này tôi chỉ nói về 2 trường hợp của mô hình tuyến tính suy rộng, đó là

mô hình hồi quy logistic và mô hình loga tuyến tính

Các kết quả suy luận

Ta xét các kết quả suy luận cho toàn bộ lớp các mô hình tuyến tính suy rộng; sau đó ápdụng chúng cho mô hình hồi quy logistic và mô hình loga tuyến tính Ta thường tìm các ướclượng của tham số bằng phương pháp hợp lý cực đại Phương pháp này tính đạo hàm của hàmloga hợp lý đối với mỗi tham số trong vectơ tham số và cho chúng bằng 0 rồi giải hệ phương

Trang 32

trình đó – hệ phương trình hợp lý Nhưng không giống như mô hình tuyến tính chuẩn, hệphương trình hợp lý này không tuyến tính mà là hệ phi tuyến đối với các tham số và không cócông thức nghiệm Nên để tìm các ước lượng hợp lý cực đại, người ta sử dụng phương pháplặp chẳng hạn như phương pháp Newton – Raphson, phương pháp tính điểm Fisher và người

ta viết chúng dưới dạng thuật toán trong các phần mềm thống kê

Khi các tham số được ước lượng, thì ý nghĩa của chúng thường được đánh giá bằngkiểm định giả thuyết Bây giờ ta sẽ xem cách xác nhận ý nghĩa của mỗi tham số trong môhình Sau đó sẽ xét ý nghĩa tổng thể của mô hình bằng việc so sánh mô hình Xét kiểm định

mô hình rỗng H : o  i 0 đối với H : 1  i 0 Miền bác bỏ của Ho có thể được xác định

bằng cách sử dụng quy trình tiệm cận được gọi là kiểm định Wald Nếu cỡ mẫu lớn thì thống

  của phân phối chuẩn chính tắc Hoặc ta có thể tìm p- giá trị và xem

liệu nó có nhỏ hơn mức ý nghĩa xác định trước (chẳng hạn  0,05) hay không Nếu p thì Ho bị bác bỏ Z 2 có phân phối khi – bình phương với 1 bậc tự do nếu cỡ mẫu lớn và tacũng có thể viết miền bác bỏ hay tìm p- giá trị đối với Z 2

So sánh các mô hình tuyến tính suy rộng

Việc làm khớp (fitting) dữ liệu được hiểu như là cách thay thế một tập giá trị quan sát

bằng các giá trị ước lượng trong quá trình làm khớp Nói chung, số lượng tham số trong môhình ít hơn nhiều so với số lượng quan sát trong dữ liệu Ta có thể sử dụng các giá trị ướclượng này để dự báo các giá trị tương lai của biến phản ứng từ giá trị tương lai của các biếngiải thích Nói chung, giá trị khớp  i không trùng với giá trị quan sát yi Vấn đề là thiết lập

Trang 33

khoảng cách giữa  i và yi Ta bắt đầu từ các khái niệm đơn giản về khoảng cách giữa các

giá trị quan sát và các giá trị khớp, sau đó chỉ ra cách xây dựng các độ đo thống kê để so sánh

các mô hình thống kê Đầu tiên, ta sẽ xét độ lệch (thống kê kiểm định tỷ số hợp lý) và

thống kê Pearson – hai độ đo so sánh tính khớp tốt của các mô hình tuyến tính suy rộng.

Bước đầu tiên trong việc đánh giá tính khớp tốt của một mô hình là so sánh nó với các

mô hình có tính khớp tốt nhất (mô hình bão hòa) hoặc mô hình có tính khớp tồi nhất (mô hìnhrỗng) Mô hình bão hòa có số tham số của mô hình bằng số quan sát, do đó dẫn tới một tínhkhớp hoàn hảo Mô hình rỗng chỉ có một tham số là tham số chắn mà không có các tham sốtương tác của các biến giải thích đối với biến phản ứng Trong thực tế, mô hình bão hòakhông mang lại thông tin còn mô hình rỗng thì quá đơn giản Tuy nhiên mô hình bão hòacũng như mô hình rỗng có ích trong so sánh khi đo tính khớp tốt trong một mô hình với k

tham số nào đó Một đại lượng dùng để so sánh là độ lệch, được xác định như sau:

Với cỡ mẫu lớn G M2  có phân phối tiệm cận phân phối khi – bình phương n p 2 với

n p bậc tự do, trong đó n là số quan sát và p là số tham số trong mô hình M , nó bằng số

biến giải thích cộng với 1 (tham số chắn) Tính logic đằng sau việc sử dụng G M2  là nhưsau Nếu mô hình M là tốt thì giá trị hợp lý cực đại của nó sẽ gần với giá trị hợp lý cực đại

Trang 34

trong mô hình bão hòa M * do đó G M2  càng nhỏ thì càng thể hiện tính khớp tốt của môhình M

Tính hợp lý của mô hình có thể được đánh giá thông qua p- giá trị của G M2  Môhình được xét M là hợp lý khi p- giá trị lớn hơn mức ý nghĩa.

Ý nghĩa tổng thể của một mô hình cũng có thể được đánh giá bằng cách so sánh nó với

mô hình rỗng thông qua đại lượng:

Với mô hình rỗng, thì D M   có phân phối tiệm cận phân phối khi – bình phương với p bậc

tự do 2 p, p là số biến giải thích trong mô hình M Ta thấy

phương với  n 1     n p 1     p bậc tự do Ta thấy mô hình M càng tốt nếu D M  

càng lớn Việc bác bỏ giả thuyết rỗng và chấp nhận mô hình M tức là có ít nhất một tham số

Trang 35

tương tác trong thành phần hệ thống khác 0 đáng kể Vì việc tính D M   đơn giản hơn tính

 

2

G M nên D M   hay được dùng hơn.

Tổng quát hơn, ta có thể so sánh hai mô hình tùy ý về độ lệch G của chúng nếu hai

mô hình lồng khớp nhau (tập q tham số của mô hình này là tập con của tập p tham số của

mô hình kia), hiệu các độ lệch có phân phối tiệm cận khi – bình phương với p q bậc tự do.Nếu hiệu số độ lệch của hai mô hình lớn thì mô hình đơn giản hơn bị bác bỏ và mô hình phứctạp hơn được chấp nhận

Với toàn bộ lớp các mô hình tuyến tính suy rộng, có thể dùng một quy trình chuẩntrong việc tìm kiếm mô hình tốt nhất Đó là quy trình hoặc bắt đầu từ giả thuyết về mô hìnhđơn giản, sau đó thêm dần tham số tương tác để xem xét mô phức tạp hơn, hoặc ngược lại bắtđầu từ mô hình phức tạp, sau đó bớt dần tham số tương tác để xem xét mô hình đơn giản hơn

Khi dữ liệu phân tích là dữ liệu phân hạng hoặc là dữ liệu đã được rời rạc hóa thì cóthể thay G 2 bằng thống kê Pearson X 2:

Trong đó, oi là tần số quan sát ở mức i và ei là tần số kỳ vọng tương ứng Cũng như với độ

lệch G 2, ta sẽ so sánh mô hình khớp (tương ứng với ei) với mô hình bão hòa (tương ứng với

Các thống kê G 2 và X 2 là các độ đo về tính khớp tốt tổng thể của mô hình Ta cầnthực hiện phân tích chẩn đoán sâu hơn để điều tra tính khớp địa phương Trước khi làm khớpmột mô hình có thể rất hữu ích khi thử một số biểu diễn đồ thị Chẳng hạn, ta có thể vẽ đồ thịcác tần số quan sát của các hạng hoặc các hàm của chúng trên cơ sở các biến giải thích Có

Trang 36

thể vẽ các biểu đồ sự phân tán và các đường thẳng khớp cho phép biến đổi biến phản ứngđược mô tả bởi liên kết chính tắc Điều này có thể hữu ích cho việc xác nhận liệu giả thuyết

về mô hình tuyến tính suy rộng có được thỏa mãn hay không Khi mô hình được chọn như làmột mô hình tốt nhất khớp với dữ liệu, thì các công cụ chẩn đoán chủ yếu là phân tích cácphần dư Không như những gì xảy với mô hình tuyến tính chuẩn, với các mô hình tuyến tínhsuy rộng có các định nghĩa khác nhau về phần dư Ở đây ta xét phần dư độ lệch thường được

sử dụng trong các ứng dụng: với mỗi quan sát, phần dư từ độ lệch là đại lượng

Cuối cùng, một khi mô hình dự báo được chấp nhận thì nó sẽ được sử dụng để dự báogiá trị của biến phản ứng trong tương lai (giá trị  i ) khi biết giá trị của các biến giải thíchtrong tương lai

2.1.2 Hồi quy logistic

Thực tế là một biến định tính có nhiều hơn 2 mức luôn phân tích được thành các biếnBernoulli và một bài toán phản ứng định tính thường được quy về các bài toán phản ứngBernoulli Mô hình hồi quy logistic là mô hình dự báo cho biến phản ứng Bernoulli, cụ thể là

dự báo khả năng xảy ra sự kiện quan tâm khi biết vectơ giá trị quan sát của các biến giảithích; đó là một trong những phương pháp khai thác dữ liệu dự báo quan trọng nhất Nhưngthông thường với mỗi vectơ giá trị quan sát x ,x , ,xi1 i2 ik của k biến giải thích (i 1,2, ,N

) tương ứng với một giá trị quan sát yi của biến nhị thức Yi (một dãy Ni phép thử Bernoulli

với tham số i), với n biến nhị thức thì n i

Cho y , i 1,2, ,ni    là các giá trị quan sát của các biến phản ứng nhị thức Yi tương

ứng có phân phối Bin N ,  i i, tức là

Trang 37

với k 1 tham số của mô hình: a,b ,b , ,b1 2 k

Hàm mật độ xác suất đồng thời của các Yi là

(bỏ qua phần không chứa các i)

Với mô hình hồi quy logistic, thì hàm này trở thành l a,b ,b , ,b  1 2 k

Trang 38

được duy nhất một điểm cực trị (điểm cực đại) của hàm hợp lý Các ước lượng hợp lý cực đại

Để giải hệ này người ta thường dùng phương pháp bình phương tối thiểu lặp trọng số

(iteratively reweighted least square - IRLS).

Với suy luận như mô hình tuyến tính suy rộng, ta có

thêm chi tiết, ta có thể xem [1] và [3]

Trang 39

2.1.3.1 Khái niệm về cây quyết định

Cây quyết định là một công cụ mạnh cho khai thác dữ liệu, nó giải quyết bài toán phânlớp và hồi quy Có thể trực quan hóa cây quyết định như hình minh họa 2.1 Dữ liệu cho câyquyết định bao gồm các biến giải thích và một biến phản ứng

Cấu trúc cây quyết định gồm:

 Nút trong: Biểu diễn biến giải thích được chọn để phân lớp Biến đầu tiên được chọn gọi

là nút gốc

 Nhánh: Biểu diễn các mức (biến phân hạng) hoặc các miền giá trị (biến liên tục) củabiến giải thích (nút) vừa chọn Để đảm bảo kích thước đủ lớn cho các tập quan sát con,người ta thường phân chia thành 2 nhánh (ví dụ như cây CART, để biết chi tiết, ta có thểxem [2])

 Lá: Chứa tập quan sát cuối cùng đã được phân chia, trong đó các giá trị quan sát củabiến phản ứng tập trung chủ yếu vào một mức (biến phân hạng) hoặc một miền giá trịhẹp (biến liên tục), tức là tập quan sát có độ tinh khiết cao nhất có thể Sau đó mỗi láđược gán cho một nhãn Đối với biến phản ứng phân hạng (cây phân lớp), mỗi nhãn làmột mức mà nó chiếm đa số Đối với biến phản ứng liên tục (cây hồi quy), nhãn ở đây làgiá trị trung bình hoặc trung vị của biến phản ứng – giá trị dự báo

Các mô hình cây bao gồm cây hồi quy (regression tree) nếu biến phản ứng là biến liên tục và cây phân lớp (classification tree) nếu biến phản ứng là biến phân hạng Tuy nhiên hầu

hết các khái niệm đều dùng chung cho cả 2 loại mô hình cây

Trang 40

Hình 2.1 Minh họa về cây quyết định

2.1.3.2 Các tiêu chuẩn phân chia

Quy trình xây dựng cây là một quy trình đệ quy, thông qua đó một tập n đơn vị thống

kê liên tục được phân chia thành các nhóm theo một quy tắc phân chia với mục tiêu làm cực

đại tính thuần nhất hay độ đo “sự tinh khiết” của biến phản ứng trong mỗi nhóm Có nhiềuthuật toán cho cây quyết định, dẫn tới có nhiều loại cây như CART, ID3, C4.5, C5.0, đặc biệt

là CHAID (xem [9])…, nhưng hầu hết các khái niệm sau đây đều dùng chung được và trongluận văn này tôi cũng chỉ có thể nói về cây CART

Độ đo tính hỗn tạp I S  

Đối với cây phân lớp, độ đo tính hỗn tạp (impurity measure) của một tập quan sát S

có Y là biến phản ứng phân hạng với I mức 1,2, ,I được xác định theo nhiều cách:

Độ đo tính hỗn tạp Gini là

Nút gốc

Biến giải thích đầu tiên

Nút trong 1

Biến giải thích thứ 2

Nút trong 2

Nút trong 3

3 nhánh phân hoạch tập dữ liệu ban đầu thành 3 tập con

Mỗi nhánh biểu diễn một phân vùng giá trị của biến giải thích (nút) vừa chọn

Mỗi lá chứa một tập quan sát mà các giá trị quan sát của biến phản ứng tập trung chủ yếu vào một mức (biến phân hạng) hoặc một miền giá trị hẹp (biến liên tục)

Định dạng
Số trang	115
Dung lượng	5,19 MB