Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài chính Việt

Với mong muốn "chỉ rõ" một phần công dụng của kiến thức xác suất thống kê áp dụng thực tế, luận văn đã thu thập số liệu kinh doanh của Công ty TNHH MTV Tài chính Việt - Société Générale

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HỒ ĐĂNG

PHÚC

Hà Nội - 2012

Trang 3

MỤC LỤC

LỜI NÓI ĐẦU 2

1 Một số kiến thức chuẩn bị về xác suất……….3

1.1 Phần tử ngẫu nhiên và phân phối xác suất……… 3

1.2 Một số đặc trưng của đại lượng ngẫu nhiên……….6

1.3 Một số phân phối thường gặp……… 8

2 Quá trình ngẫu nhiên………10

2.1 Một số quá trình ngẫu nhiên thường gặp……….12

3 Giới thiệu về hồi quy Poisson……… 13

3.1 Phân bố Poisson……… 13

3.2 Quá trình hồi quy Poisson……… 14

3.3 Mô hình loga tuyến tính cho quá trình Poisson……… 16

4 Mô hình hồi quy Poisson tổng quát……….18

4.1 Ước lượng tham số  ( ', )  ……… 20

4.2 Sự phù hợp của thống kê hợp lý……… 22

4.3 Kiểm định tham số hồi quy, tham số phân tán………23

5 Phân tích hoạt động tín dụng tiêu dùng……… 25

5.1 Mô tả số liệu………25

5.2 Kết quả phân tích……….35

5.3 Một số đề xuất tới lãnh đạo Tổng công ty, chi nhánh Hà Nội 48 KẾT LUẬN……… 50

TÀI LIỆU THAM KHẢO………51

Trang 4

LỜI NÓI ĐẦU

Thống kê ứng dụng là một ngành toán học đã và đang đóng vai trò lớn trong lĩnh vực của đời sống kinh tế, xã hội như sinh học, y tế, tài chính… Nhắc đến thống kê ứng dụng, không thể không nhắc đến các mô hình toán học có yếu tố ngẫu nhiên, mà nhờ chúng ta có thể rút ra những kết luận thống kê có ý nghĩa Tuy nhiên hiện nay, ở Việt Nam thống kê ứng dụng dường như vẫn là "mảnh đất màu mỡ" chưa được khai phá vì nhiều lý do: chúng ta khó khăn trong khâu thu thập và xử lý số liệu, chúng ta đang thiếu

là các chương trình đào tạo cán bộ phân tích thống kê, thiếu sự nhận thức đầy đủ và đúng đắn của các nhà quản lý và các nhà hoạch định chính sách cho xã hội, cho nền kinh tế, và đặc biệt là chúng ta thiếu… kinh phí !

Với mong muốn "chỉ rõ" một phần công dụng của kiến thức xác suất thống kê áp dụng thực tế, luận văn đã thu thập số liệu kinh doanh của Công

ty TNHH MTV Tài chính Việt - Société Générale (SGVF) - Chi nhánh Hà Nội trong 6 tháng (từ tháng 11 năm 2008 đến tháng 4 năm 2009) và sử

dụng mô hình hồi quy Poisson (mô hình cho các quá trình ngẫu nhiên là quá trình đếm) để xem xét sự phụ thuộc của số lượng các sản phẩm cho

vay tiêu dùng của công ty tài chính đó vào các yếu tố khác để đóng góp

những ý kiến có tác dụng nâng cao hiệu quả hoạt động kinh doanh cho Công ty

Luận văn được hoàn thành nhờ có sự giúp đỡ tận tình của PGS.TS Hồ Đăng Phúc, thầy cũng đã luôn động viên em trong suốt quá trình làm luận văn, em xin được gửi lời biết ơn và cảm ơn thầy sâu sắc Tôi cũng xin cảm

ơn lãnh đạo công ty TNHH Tài Chính Việt – Chi nhánh Hà Nội đã đồng ý cung cấp cho tôi toàn bộ số liệu hồ sơ khách hàng của công ty trong 6 tháng Tôi xin cảm ơn gia đình, những người bạn, những người thân yêu luôn động viên tôi giúp tôi cố gắng, đặc biệt chồng tôi là người luôn cảm thông với tôi, cố gắng tạo mọi điều kiện để tôi tiếp tục học tập, thậm chí đã

hỗ trợ bổ sung những kiến thức về các hoạt động tài chính trên thị trường

Trang 5

1 Một số kiến thức chuẩn bị về xác suất

1.1 Phần tử ngẫu nhiên và phân phối xác suất

Ta đã biết rằng, đầu ra một phép thử ngẫu nhiên có thể là một giá trị

số hoặc không có giá trị số Ví dụ, khi tung một đồng xu, kết quả đầu ra thu được là {sấp, ngửa} (đầu ra không phải là số) hay tung một con xúc sắc thì kết quả số chấm thu được ở mặt trên có thể là{1, 2, 3, 4, 5, 6} (đầu ra là số) Tuy nhiên trong thống kê, chúng ta muốn mỗi đầu ra là một đại lượng đo

đạc được, từ đó người ta đưa ra khái niệm biến ngẫu nhiên để gán giá trị số

cho các kết quả của đầu ra của phép thử ngẫu nhiên Cho A là một - đại số

và  là không gian các biến cố thực nghiệm Chẳng hạn, trong ví dụ tung con xúc sắc thì  chính là tập các biến cố {sấp, ngửa} và A là họ các tập con của  Từ đó một biến ngẫu nhiên được định nghĩa như một hàm đo

được từ một không gian xác suất tới một không gian đo được nào đó

Không gian đo được này là một không gian của các giá trị có thể của biến,

và nó thường được lấy là các giá trị thực với  - đại số Borel

Định nghĩa 1 Giả sử (, A, P) là không gian xác suất cơ bản và (E, F) là

thay cho X Trong trường hợp n = 1,

và gọi X là đại lượng ngẫu nhiên

Trong Thống kê, một phân phối xác suất là quy luật cho biết cách gán

xác suất cho mỗi khoảng giá trị của tập số thực, sao cho các tiên đề về xác suất được thoả mãn Một phân phối xác suất là một trường hợp đặc biệt của một khái niệm tổng quát hơn về một độ đo xác suất, là một hàm thoả mãn các tiên đề xác suất của Kolmogorov cho các tập đo được của một không gian đo được

Trang 6

Định nghĩa 2 Phân bố xác suất (hay còn gọi là phân phối xác suất) của

Định nghĩa 3 Hàm phân phối xác suất của phân bố xác suất P X trên R của

X

F P X x P  x

Tất nhiên, hàm phân phối được xác định duy nhất bởi phân bố xác

suất Điều ngược lại cũng đúng Nếu ta biết hàm phân phối F X, thì ta có thể

tính được xác suất P X của các đoạn thẳng đóng và nửa mở của R qua các công

đến phân bố xác suất trên R của nó Các phân bố trên R có thể chia làm 3

loại sau: rời rạc, liên tục và hỗn hợp (nửa rời rạc, nửa liên tục)

Trang 7

Định nghĩa 4 Một phân bố P X trên R được gọi là liên tục nếu như hàm



   

Ta chú ý là hàm mật độ của một phân bố xác suất Px là liên tục tuyệt đối trên R là duy nhất theo nghĩa xác suất nghĩa là nếu Px có hai hàm mật

độ 1,2 thì 1 2 hầu khắp nơi trên R, tức là tập {xR,1(x) 2(x)} có

độ đo Lebesgue bằng 0 Một phân bố xác suất có thể liên tục mà không liên tục tuyệt đối Tuy nhiên trong thực tế, khi người ta nói đến một phân bố liên tục trên R, thường được hiểu là nó liên tục tuyệt đối, tức là được cho bởi một hàm mật độ Ta cũng chú ý thêm hàm mật độ chính bằng đạo hàm của hàm phân phối xác suất (hầu khắp mọi nơi) Một số vấn đề trong thực

tế có thể được mô hình hoá bằng các biến ngẫu nhiên với phân bố xác suất liên tục, ví dụ như nhiệt độ của nước biển, giá dầu hoả, sản lượng điện, trọng lượng của trứng gà…

Một điểm x R được gọi là một điểm hạt của một phân bố xác suất PX

nếu PX{x} > 0 Người ta cũng chỉ ra được kết quả là một phân bố là liên tục khi và chỉ khi nó không điểm hạt

Trong trường hợp phân bố xác suất không liên tục, gọi

AX ={xR Px {x} > 0}

là tập hợp các điểm hạt của phân phối xác suất (tức là tập hợp các điểm gián đoạn của hàm phân phối xác suất) Khi đó AX là tập hữu hạn hoặc cùng lắm là đếm được

Định nghĩa 5 Một phân bố xác suất P X được gọi là rời rạc nếu như nó tập

Trang 8

Đối với mỗi phân phối xác suất rời rạc thì hàm phân phối có dạng hàm bậc thang với các bước nhảy tại các điểm hạt có độ lớn chính bằng giá trị xác suất của điểm hạt đó

1.2 Một số đặc trưng của đại lượng ngẫu nhiên

Khi ta có biến ngẫu nhiên, ta có thể nghiên cứu các tính chất, đặc trưng của nó, để rút ra thông tin và kết luận nào đó Một trong những thông tin quan trọng nhất là giá trị kỳ vọng (giá trị trung bình)

Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X,

ký hiệu là E(X), chính là trung bình cộng có trọng số của biến ngẫu nhiên

đó

Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác

suất trên R thì có cùng kỳ vọng Bởi vậy, thay vì nói về kỳ vọng của biến ngẫu nhiên, ta có thể nói về kỳ vọng của phân bố xác suất trên R

Trong trường hợp không gian xác suất là một tập hợp hữu hạn hoặc đếm được,  ={1, 2 } với xác suất P( i), i P(i)  1thì công thức tính

giá trị kỳ vọng của một biến ngẫu nhiên X là

( ) ( i) ( i)

i

Ví dụ Xét trò chơi đề được tiến hành theo nguyên tắc: Trong 100 số đề sẽ

chỉ có 1 số trúng, 99 số bị trượt Nếu người chơi đề đánh trúng thì được 70 lần số tiền đặt cọc, thua thì mất số tiền đặt cọc Nếu đặt cọc số tiền lúc đầu

là T, thì kỳ vọng số tiền nhận lại được là 0,99 * 0 + 0,01 * 70T = 0,7T Vậy

kỳ vọng lỗ là 0,3T

Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết

dưới dạng phân Lesbesgue của X trên không gian xác suất (, R):



 XdP X

Một số tính chất cơ bản của kỳ vọng là:

Trang 9

+ Kỳ vọng của một bằng số c (biến ngẫu nhiên chỉ nhận một giá trị) chính là bằng số đó

E(c) = c

+ Tính tuyến tính: Nếu X, Y là hai biến ngẫu nhiên và a, b là hai hằng số

thì

E(aX + bY) = aE(X) + bE(Y)

+ Đơn điệu: Nếu X  0 thì E(X) 0 Tổng quát hơn,

Nếu X Y thì E(X) E(Y)

Như vậy, nhắc tới giá trị kỳ vọng ta có thể liên tưởng đến trung bình cộng các giá trị một biến ngẫu nhiên, ngoài ra người ta còn đưa ra một khái niệm giá trị kỳ vọng hình học, ứng với trung bình nhân Ví dụ sau đây cho thấy sự quan trọng của trung bình nhân trên thực tế

Ví dụ: Giả sử giá nhà dao động trong 4 năm như sau Năm đầu tiên

giảm 15 phần trăm, năm thứ hai tăng 35 phần trăm, năm thứ ba giảm 20 phần trăm, năm thứ tư tăng 20 phần trăm Hỏi xem trong 4 năm đó, giá nhà tăng lên (hay giảm đi) trung bình mỗi năm bao nhiêu phần trăm ? Nếu ta lấy trung bình cộng thì được (-15 + 35 - 20 + 20)/4 = 5 phần trăm một năm Nhưng con số đó có phản ánh chính xác sự đi lên của giá nhà trong một năm không?

Nếu gọi giá nhà lúc đầu là X, sau năm đầu giá là (1-0,15)X

Sau năm thứ 2 giá nhà là (1+ 0,35)(1-15)X

Tiếp tục sau năm thứ ba giá nhà là (1-0,20)(1+35)(1-0,15)X

Sau 4 năm giá nhà là (1+0,20)(1-0,20)(1+0,35)(1-0,15)X = 1,1016X

Tức là sau 4 năm giá nhà chỉ tăng 10,16 phần trăm chứ không phải 20 phần trăm như ta tưởng! Từ đó, để có cái nhìn chính xác về mức độ tăng trưởng hàng năm trong giai đoạn 4 năm, cần phải lấy trung bình nhân các con số 1 + 0,20, 1 - 0,20, 1+0,35, 1- 0,15 rồi trừ đi 1 Kết quả là giá nhà có tốc độ tăng trưởng 2,449 phần trăm một năm

Như chúng ta đã biết, nếu có một dãy số dương a1, a2…, an, ai > 0 với mọi i, thì ngoài giá trị trung bình cộng  , chúng ta còn có trung bình

Trang 10

i i

n a p

x e

a ) ( (ln ) /

Chú ý ta có tính chất trung bình nhân luôn không vượt quá trung bình cộng, dấu bằng xảy ra khi các số ai bằng nhau Ta có định nghĩa sau cho kỳ vọng hình học:

Định nghĩa 6 Nếu X là biến ngẫu nhiên chỉ nhận giá trị dương, thì giá trị

kỳ vọng hình học của X, ký hiệu là G(X), được cho bởi công thức sau:





) (X e xp E X e xp X dP G

Ta có tính chất giá trị kỳ vọng hình học luôn không vượt quá giá trị kỳ

vọng G(X) E(X), dấu bằng xảy ra khi và chỉ khi F là hằng số hầu khắp nơi

trên không gian xác suất, tức là tồn tại một số thực dương c sao cho

1.3 Một số phân phối thường gặp

Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế

Định nghĩa 8 Giả sử a, b là hai số thực, với b > a Khi đó phân phối đều

trên đoạn thẳng [a; b] là phân bố liên tục với hàm mật độ xác suất được cho như sau:

x khi

b x a khi a

b x

c a

ho  0

1 ) (



Trang 11

Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b) Trong định nghĩa trên ta có thể thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b)

hoặc nửa đóng, nửa mở cũng được

Ví dụ, vị trí của một người đi trên đường có thể mô hình hoá bằng một biến ngẫu nhiên với phân bố đều, nếu chúng ta không có thông tin gì ngoài thông tin người đi bộ trên quãng đường đó

Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều: Không gian xác suất là một miền của Rn (n2), và xác suất một miền con (n chiều) tỷ lệ thuận với thể tích (n chiều) của miền con đó

Định nghĩa 9 Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với

.

2 2

0,  2= 1 được gọi là chuẩn tắc Phân bố chuẩn là một trong những phân bố quan trọng nhất vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu khá giống phân bố chuẩn

Ví dụ, phân bố chiều cao của đàn ông, phân bố chỉ số IQ, phân bố của giá chứng khoán trong tương lai, v.v… Giá trị trung bình và phương sai của

0 )

(

x khi

x khi e

Các phân phối trên là các phân phối liên tục trên R, sau đây ta đưa ra

Trang 12

Định nghĩa 11 Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với

tham số n, p nếu hàm phân bố xác suất của nó có dạng

P X  k C p p  k n  p

Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị

thức lần lượt là np và np (1-p)

Định nghĩa 12 Một biến ngẫu nhiên Y được gọi là phân phối Poisson với

!

y e

mà ta sẽ bàn kỹ trong phần sau của luận văn

2 Quá trình ngẫu nhiên

Quá trình ngẫu nhiên có thể hiểu là việc xem xét sự tiến triển theo thời gian của một hệ ngẫu nhiên Ví dụ, nếu một hệ ngẫu nhiên diễn tiến theo thời gian mà trong đó tương lai chỉ phụ thuộc vào hiện tại, độc lập với quá khứ ta có quá trình Markov - quá trình được mang tên của một nhà toán học, vật lý học nổi tiếng người Nga đầu thế kỷ XX Quá trình Markov được ứng dụng nhiều trong thương nghiệp, tin học, viễn thông, Hoặc khi nghiên cứu trong các lĩnh vực kinh tế, thị trường chứng khoán, cơ học thống kê,… có những hệ ngẫu nhiên mà quá khứ của nó ảnh hưởng mạnh

mẽ đến sự tiến triển của tương lai, mô hình để xem xét các quá trình này là quá trình dừng

Đối tượng để nghiên cứu quá trình ngẫu nhiên là họ vô hạn các biến

ngẫu nhiên phụ thuộc vào tham số tT nào đó

Trang 13

Giả sử T là một tập vô hạn nào đó Nếu mỗi t  T, X t là biến ngẫu

nhiên thì ta ký hiệu X = {X t , t  T}, và gọi X là hàm ngẫu nhiên (với tham biến t  T) Ta quy ước:

+ Nếu T là tập đếm được thì ta gọi X = {X t , t  T} là quá trình ngẫu

nhiên với tham số rời rạc

+ Nếu T là một khoảng của đường thẳng thực thì X = {X t , t  T} là

quá trình ngẫu nhiên với tham số liên tục trong trường hợp này tham số t đóng vai trò là thời gian

+ Nếu T là một tập con của R d , thì ta gọi X = {X t , t  T} là trường ngẫu nhiên

Định nghĩa 13 Cho không gian xác suất (, A, P), một quá trình ngẫu nhiên với không gian trạng thái X là một tập hợp của các biến ngẫu nhiên với giá trị trong X được đánh số thứ tự bởi một tập hợp T ("thời gian")

biến ngẫu nhiên có giá trị trong X

Một bản sao Y của quá trình X là một quá trình ngẫu nhiên trên cùng một không gian trạng thái, với cùng tập hợp tham số T sao cho

Khi nghiên cứu về quá trình ngẫu nhiên, một trong những khái niệm

then chốt là họ các phân phối hữu hạn chiều của X Nhiều tính chất quan

trọng của quá trình được xác định thông qua các tính chất của họ phân phối hữu hạn chiều này

Giả sử X = {X t , t  T} là quá trình ngẫu nhiên, và I = (t 1 , …, t n ) là tập

con hữu hạn của T Hàm phân phối đồng thời của

được gọi là phân phối hữu hạn chiều của X ứng với I, và tập {F I } được gọi

là họ các phân phối hữu hạn chiều của X

Họ các phân phối hữu hạn chiều thỏa mãn các điều kiện sau:

Trang 14

a) Điều kiện đối xứng, tức là, F(x 1 ,…,x n; t 1 ,…,t n ) không thay đổi khi ta

về mặt thống kê

Các ví dụ quen thuộc của các quá trình được mô phỏng như là các chuỗi ngẫu nhiên bao gồm thị trường chứng khoán và thay đổi của tỉ giá ngoại tệ, các tín hiệu như là lời nói, âm thanh và hình ảnh, dữ liệu y khoa như là EKG, EEG, huyết áp hay nhiệt độ, và các chuyển động ngẫu nhiên như chuyển động Brown hay là các bước ngẫu nhiên Ví dụ của các trường ngẫu nhiên bao gồm các ảnh tĩnh, địa hình ngẫu nhiên, hay là hỗn hợp của các vật liệu không đồng nhất

2.1 Một số quá trình ngẫu nhiên thường gặp

2.1.1 Chuyển động Brown

Một trong những quá trình ngẫu nhiên quan trọng bậc nhất thường gặp, đó là chuyển động Brown (Quá trìnhWiener) Chuyển động Brown (đặt tên theo nhà thực vật học Robert Brown) mô phỏng chuyển động của các hạt trong môi trường lỏng (chất lỏng hoặc khí) và cũng là mô hình toán

Trang 15

học mô phỏng các chuyển động tương tự, thường được gọi là mô hình vật

lý hạt Chuyển động Brown có nhiều ứng dụng thực tế, là một trong những quá trình ngẫu nhiên liên tục đơn giản nhất và thường được dùng để mô phỏng sự dao động của thị trường chứng khoản Chuyển động Brown gắn với quá trình ngẫu nhiên Wiener

Trong toán học, quá trình Wiener là một quá trình ngẫu nhiên liên tục được đặt tên theo Norbert Wiener nó là một trong những quá trình Lesvy (quá trình ngẫu nhiên liên tục phải có giới hạn trái với số gia độc lập đều - nổi tiếng nhất và thường được dùng trong toán học, kinh tế và vật lý Quá

N ) biểu thị phân phối chuẩn với giá trị trung bình  và phương sai 2 Điều kiện quá trình có số gia độc lập có nghĩa là nếu

2 2

1

0 s t s t thì W t1 - W s1 và W t2 - W s2 là những biến ngẫu nhiên độc lập Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trình

Poisson, sẽ được đề cập chi tiết ở mục sau

3 Giới thiệu về hồi quy Poisson

3.1 Phân bố Poisson

Phân phối Poisson là phân phối được đặt theo tên nhà toán học người Pháp Siméon Denis Poisson (1781 - 1840) Như trên ta đã nói, một biến

ngẫu nhiên Y được gọi là có phân phối Poisson với tham số  > 0 nếu nó

nhận các giá trị nguyên y = 0, 1, 2,… với xác suất

Trang 16

Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng:

E(Y) = Var (Y) = Một tính chất quan trọng của phân phối Poisson là tổng của các biến

ngẫu nhiên Poisson độc lập cũng có phân phối Poisson Cụ thể, nếu Y 1 , Y 2 là các biến ngẫu nhiên độc lập, Y i ~ P( ),i i 1; 2 thì Y1Y2 ~P( 1 2) Kết quả này có thể mở rộng cho tổng nhiều hơn hai biến ngẫu nhiên Poisson

Giả sử ta có ni nhóm quan sát có cùng phương sai, ký hiệu Y ij là số

lượng biến cố của quan sát thứ j trong lớp nhóm thứ i Trên các nhóm đó, Y i

là toàn bộ các quan sát của nhóm thứ i Với giả thiết thông thường về tính

độc lập và Y ij ~ P( i) với j = 1,2, ni thì Y i ~ P n( ii)

3.2 Quá trình hồi quy Poisson

Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa

theo sự xuất hiện của các biến cố Một quá trình ngẫu nhiên N(t) là một quá

trình Poisson (thời gian - thuần nhất, một chiều) nếu:

( ) (

k

e k t N t

N P

k



trong đó số  dương là một tham số cố định, được gọi là tham số cường độ,

có nghĩa là, biến ngẫu nhiên N(t+ ) - N(t) mô tả số lần xuất hiện trong

khoảng thời gian [t, t+ ] tuân theo một phân bố Poisson với tham số  Tổng quát hơn, một quá trình Poisson là một quá trình gán cho mỗi khoảng thời gian bị chặn hay mỗi vùng bị chặn trong một không gian nào

đó (chẳng hạn, mặt phẳng Euclid hay không gian Euclid 3 chiều) một số ngẫu nhiên các biến cố, sao cho:

Trang 17

a) Xác suất một biến cố xảy ra trong một khoảng thời gian tỉ lệ với chiều dài khoảng đó (hoặc thể tích của vùng không gian được xét đến) b) Xác suất xảy ra hai hay nhiều hơn các biến cố trong một khoảng thời gian rất nhỏ (hoặc một vùng không gian rất nhỏ) có thể bỏ qua được c) Số lượng xảy ra các biến cố trong các khoảng thời gian (vùng không gian) rời nhau là các đại lượng độc lập với nhau

Từ các điều kiện trên, phân phối xác suất của số lượng các biến cố trong một khoảng thời gian cố định là phân phối Poisson với giá trị trung bình  = t, hằng số  là cường độ xảy ra các biến cố, còn t là chiều dài của khoảng thời gian Quá trình ngẫu nhiên thoả mãn 3 điều kiện, a, b và c, được gọi là quá trình Poisson

Quá trình Poisson là một trong các quá trình Lévy nổi tiếng Các quá

trình Poisson thời gian thuần nhất còn là các ví dụ của các quá trình Markov thời gian liên tục thời gian thuần nhất Một quá trình Poisson một chiều thời gian thuần nhất là một quá trình sinh sản thuần tuý - ví dụ đơn giản nhất về một quá trình sinh - tử Một số ví dụ

Ví dụ 1 Số cuộc điện thoại tới tổng dài trong một khoảng thời gian xác định có thể có một phân bố Poisson, và số cuộc điện thoại tới trong các khoảng thời gian không giao nhau có thể độc lập thống kê với nhau Đây là một quá trình Poisson một chiều Trong các mô hình đơn giản, ta có thể giả thiết một tỉ lệ trung bình là hằng số, ví dụ =12,3 cuộc gọi mỗi phút Trong trường hợp đó, giá trị kỳ vọng của số cuộc gọi trong một khoảng thời gian bất kỳ là tỉ lệ nhân với khoảng thời gian, t Trong các bài toán thực tế phức tạp hơn, người ta sử dụng một hàm tỉ lệ không phải là hằng số: (t) Khi

đó, giá trị kỳ vọng của số cuộc điện thoại trong khoảng giữa thời điểm a và thời điểm b là

b

a(t)dt

Trang 18

Ví dụ 2 Số hạt photon đập vào máy phát hiện photon trong một khoảng

thời gian xác định có thể tuân theo một phân bố Poisson

Ví dụ 3 Số quả bom rơi xuống một khu vực xác định tại London trong

những ngày đầu của Đại chiến Thế giới lần thứ II có thể là một biến ngẫu nhiên với phân bố Poisson, và số bom rơi xuống hai khu vực không giao nhau của thành phố có thể độc lập thống kê Số quả bom rơi xuống một khu vực A là một quá trình Poisson hai chiều trên không gian xác định bởi khu vực A

Ví dụ 4 Các nhà thiên văn học có thể coi số vì sao trong một thể tích vũ trụ

cho trước là một biến ngẫu nhiên với một phân bố Poisson, và coi số sao trong hai vùng không giao nhau của vũ trụ là độc lập thống kê Số sao quan sát được trong một thể tích V nào đó là một quá trình Poisson ba chiều trên không gian xác định bởi thể tích V

3.3 Mô hình loga tuyến tính cho quá trình Poisson

Giả sử ta có một mẫu bao gồm n quan sát Y 1 , Y 2 ,…,Y n là các biến ngẫu

nhiên độc lập có phân phối Poisson, Y i ~ P(i ), ta mong muốn i phụ thuộc vào một véc tơ các biến độc lập, ta có thể bắt đầu bằng mô hình tuyến tính đơn giản

ix i'j (3) Tuy nhiên vế phải của (3) là một số thực bất kỳ trong khi vế trái là giá trị trung bình không âm Phương án thay thế giải quyết vấn đề này là ta nghĩ đến logarit của giá trị trung bình Ta lấy i log (i) và xét mô hình tuyến tính

Trang 19

ie xp x i' j (5)

Để ước lượng các tham số của phân phối Poisson trong mô hình trên, người ta dùng phương pháp ước lượng hợp lý cực đại Trước tiên ta xây

dựng hàm hợp lý là tích các giá trị của biểu thức (2) lấy trên n quan sát độc

lập có phân phối Poisson với tham số i thoả mãn (3), tức là

! )

(

1

i

yi i i n

1

) log(

)

Ở đó i phụ thuộc vào các biến độc lập xi và  là vecto gồm p tham

số được cho ở (3) Lấy đạo hàm riêng hai vế theo từng phần tử của  và cho chúng bằng 0 Nghiệm của các phương trình đó cho ta ước lượng hợp

lý cực đại của mô hình loga tuyến tính Poisson Có thể chỉ ra rằng các nghiệm đó thoả mãn phương trình

X'yY'ˆ (8)

Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể bao gồm hằng số) Y biến đáp ứng, ˆ là một vectơ của giá trị dự báo, được tính toán thông qua ước lượng  ˆ bằng cách lấy exp mũ của dự báo tuyến tính X'ˆ

Một độ đo đánh giá mức độ phù hợp của mô hình với tập giá trị quan sát là độ chệch có dạng

của mô hình

Trang 20

Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của Peason

 

i

i i p

y X



ˆ

) ˆ

2

Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối

khi bình phương với (n-p) bậc tự do Hai độ đo trên được dùng để kiểm

định sự phù hợp của mô hình với dữ liệu quan sát được

4 Mô hình hồi quy Poisson tổng quát

Ta đã biết, mô hình hình hồi quy Poisson đã được sử dụng rộng rãi để phân tích các số liệu đếm Phân phối Poisson được dùng đầu tiên trong bài báo về hồi quy bằng cách cho tham số giá trị trung bình  phụ thuộc vào một số biến khác Tuy nhiên giả thiết phương sai và giá trị trung bình của phân phối Poisson có thể không phù hợp trong một số trường hợp thực tế, khi mà các dữ liệu đếm thường chỉ ra rằng giá trị trung bình mẫu có thể lớn hơn hoặc nhỏ hơn phương sai mẫu Khi phương sai mẫu lớn hơn giá trị trung bình mẫu người ta đề cập đến mô hình có số liệu có độ phân tán dư thừa, và tương tự ta có mô hình có số liệu có độ phân tán thiếu hụt nếu phương sai mẫu nhỏ hơn giá trị trung bình

Phân phối Poisson tổng quát được đưa ra bởi Consul và Jain năm

1973, là phân phối có thể áp dụng cho cả những số liệu đếm có độ phân tán

dư thừa hoặc thiếu hụt và hiển nhiên cả trường hợp bằng nhau Sử dụng phân phối này, Famoye đã đưa ra mô hình hồi quy Poisson tổng quát năm

1993

Trong thực tế có thể xảy ra hiện tượng quan sát bị mất theo dõi có thể rơi vào biến cố cần quan tâm hoặc rơi vào phần bù của biến cố đó Ví dụ tại một điểm bán hàng, ở đây ta quan tâm đến yếu tố khách hàng và sản phẩm được bán ra, khách hàng đến định mua một máy tính, tuy nhiên tại thời

Trang 21

điểm đó cửa hàng mất điện nên khách hàng không mua được sản phẩm, đồng thời ta cũng không biết khách hàng mua sản phẩm nào, hiện tượng mất theo dõi xảy ra Nếu biến cố mất theo dõi đó rơi vào biến cố ta quan tâm thì giá trị trung bình  sẽ giảm đi, ngược lại nếu biến cố mất theo dõi rơi vào phần bù của biến cố ta quan tâm thì  tăng lên Như vậy việc mất theo dõi đối với một quan sát có thể làm các tham số được ước lượng tăng lên hoặc giảm đi so với giá trị thực của nó Famoye và Wang (2004) đã đưa

ra mô hình hồi quy Poisson tổng quát bị mất theo dõi, mô hình được áp dụng cho trường hợp tập số liệu bị mất theo dõi và đồng thời phương sai mẫu không bằng giá trị trung bình mẫu

Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động của p biến mô tả (x i1 , x i2 ,…x ip ) Mô hình hồi quy Poisson

tổng quát được xây dựng bởi Famoye nói rằng phân phối của Y i lấy điều

kiện theo (x i1 , x i2 ,…x ip ) và được định nghĩa bằng

i y

với x 1 = (1, x i1 ,… x ip ) là véctơ (p + 1) 1 chiều, i 0 là giá trị trung bình

phụ thuộc của Y i với điều kiện x i Ta cũng có phân tích phổ biến cho ilà

Ở đây  (0,1, p)là một véc tơ p + 1 chiều của các tham số hồi

quy, tham số  là một độ đo của hàm mật độ Khi  = 0 mô hình hồi quy Poisson tổng quát ở (10) trở thành mô hình hồi quy Poisson bình thường Với  > 0 mô hình hồi quy Poisson tổng quát có thể sử dụng cho mô hình

có số liệu đếm có độ phân tán vượt trội, tương tự  < 0, mô hình hồi quy Poisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu hụt Với một vài quan sát trong tập số liệu, giá trị Y có thể bị mất theo dõi,

Trang 22

từ đó mô hình hồi quy Poisson tổng quát mất theo dõi được Faymoye và Wang đề xuất năm 2004

Nếu quan sát không bị mất theo dõi thì Y i = y i

Nếu quan sát mất theo dõi thì Y i  y i , và phân phối được áp dụng cho

số liệu mẫu là phân phối nhị phân d i được xác định như sau: d i = 1 nếu

i

i y

Y  và d i = 0 nếu ngược lại

Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi:

0

( , | ) ( ) 1 ( )

i i

i

d y

Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được

sắp xếp trong véctơ   (' ,), và nó có thể được ước lượng bằng phương pháp hợp lý cực đại như trình bày tiếp sau đây

4.1 Ước lượng tham số   (' ,)

Hàm hợp lý của (13) được cho bởi

i i

y LL

1

) 1 ( ) 1 log(

) 1 ( 1

log ) 1 ( )

, ,

y j i

i

j f d

0

1

0 ( ) 1

Bằng cách lấy đạo hàm riêng theo từng tham số và cho chúng bằng 0, ta thu được

0 )) ( 1

(

) ) ( ( )

) 1 ( )(

1 ( )

, ,

(

1

1 0

y j i n

i

i i

i i i i

i i

j f

j f d

x

y d y

Trang 23

i i

i

i i i

y

y y y

d y

LL

1

2 ) ) 1 (

) (

) 1 (

) 1 ( ) ) 1 ( )(

1 ( )

, ,

(

) ) ( (

0

1 0

i

j f

Trong đó:

) 1 (

) ( ) ( )

(

2 i i

i x

j j f j

) ( 1

) 1 ( ) 1 (

) ( ) ( )

(

2

i

i i i

j

j j j

j f j

Hessian, H là ma trận vuông cấp p+2 Toàn bộ ma trận Hessian, được ký

hiệu là các đạo hàm riêng cấp hai, được cho bởi:

) '

) , , ( ( ) '

) , , ( ( )

(

2

2 2

22 21

12 11

i i

y LL

H H

i i i

i

x x

y d

y LL

H

1

' 3

2

) 1 (

2 1

( 1 ( '

) , ,

( 1

(

) '

) ( ( )

'

) ( ( )) ( 1

1 0 1

0 1

0 2

y j y

j y

j

j f

j f j

f j

i i i i i

x

y d

y LL

H

1

3 2

) 1 (

) (

( 1 ( 2 ) , , (

Trang 24

, ))

( 1

(

) ) ( ( )

) ( ( )

) ( ( )) ( 1

1 0 1

0 1

0 2

y j y

j y

j

j f

j f j

f j

i i

i i i

y

y y y d

y LL

H

1

3

2 1 2 1 2 2 2 2

2

) 1

(

) (

2 ) 1 (

) 1 ( )

1 ( ( 1 ( )

, , (

( 1

(

) ) ( ( )

) ( ( )) ( 1

1 0

2 1

y j y

j

j f

j f j

f j

f

H21= H'12

, )

) 1 (

) ( ) ) 1 (

2 1

( ) ( '

)

2 3

2

i i i

i i

i

x x j

j j

f j

i i

i

i i

x j

j

j j j j

j j

f

j

f

2 2

3 2

) 1 (

( ) 1

) 1 ( 1

(

( ) 1 ( )

1 (

) ( 2 )

2 2 2 2 2 2

2

) 1 (

) ( ) 1

) 1 ( 1

( )

1 (

( 2 ) 1 (

) 1 ( )

1 ( ) (

)

(

i

i i i

i i

i

j

j j j j

j

j j j j

2

) ˆ ( ˆ

0

Trang 25

Ở đây ( ˆ0, ,ˆ ) , ( , ,ˆ ˆ )

LL   y LL   y lần lượt là các hàm loga hợp lý được tính toán từ mô hình được hạn chế và không hạn chế các tham số đưa vào

Với giả thuyết không (21), thống kê D trên có phân phố 2 với p bậc tự do

4.3 Kiểm định tham số hồi quy và các tham số phân tán

Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồi quy Poisson tổng quát được xây dựng chính xác và phù hợp với tập số liệu thì ước lượng hợp lý cực đại ˆ (ˆ ' ,ˆ )'cực đại hàm loga hợp lý của mô hình luon tồn tại với   (' ,)' và thu được kết quả tiệm cận chuẩn sau:

 ((1/ ) ( ˆ , ˆ )) ),

; 0 ( ) ˆ

0 :

; 0 :

, ˆ ( (

Nếu giả thiết H 0 đúng, D có phân phối 2 với một bậc tự do

Kiểm định các tham số hồi quy

Để kiểm định các hệ số mũ J, j = 1, 2, …, p ta có bài toán

H : J = 0; H1: J 0 Thống kê cho giả thuyết không là

Z





Trang 26

(  ˆ , ) Dưới giả thuyết không, thống kê

Z có phân bố tiệm cận chuẩn

Định dạng
Số trang	53
Dung lượng	0,99 MB