Với mong muốn "chỉ rõ" một phần công dụng của kiến thức xác suất thống kê áp dụng thực tế, luận văn đã thu thập số liệu kinh doanh của Công ty TNHH MTV Tài chính Việt - Société Générale
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HỒ ĐĂNG
PHÚC
Hà Nội - 2012
Trang 3MỤC LỤC
LỜI NÓI ĐẦU 2
1 Một số kiến thức chuẩn bị về xác suất……….3
1.1 Phần tử ngẫu nhiên và phân phối xác suất……… 3
1.2 Một số đặc trưng của đại lượng ngẫu nhiên……….6
1.3 Một số phân phối thường gặp……… 8
2 Quá trình ngẫu nhiên………10
2.1 Một số quá trình ngẫu nhiên thường gặp……….12
3 Giới thiệu về hồi quy Poisson……… 13
3.1 Phân bố Poisson……… 13
3.2 Quá trình hồi quy Poisson……… 14
3.3 Mô hình loga tuyến tính cho quá trình Poisson……… 16
4 Mô hình hồi quy Poisson tổng quát……….18
4.1 Ước lượng tham số ( ', ) ……… 20
4.2 Sự phù hợp của thống kê hợp lý……… 22
4.3 Kiểm định tham số hồi quy, tham số phân tán………23
5 Phân tích hoạt động tín dụng tiêu dùng……… 25
5.1 Mô tả số liệu………25
5.2 Kết quả phân tích……….35
5.3 Một số đề xuất tới lãnh đạo Tổng công ty, chi nhánh Hà Nội 48 KẾT LUẬN……… 50
TÀI LIỆU THAM KHẢO………51
Trang 4LỜI NÓI ĐẦU
Thống kê ứng dụng là một ngành toán học đã và đang đóng vai trò lớn trong lĩnh vực của đời sống kinh tế, xã hội như sinh học, y tế, tài chính… Nhắc đến thống kê ứng dụng, không thể không nhắc đến các mô hình toán học có yếu tố ngẫu nhiên, mà nhờ chúng ta có thể rút ra những kết luận thống kê có ý nghĩa Tuy nhiên hiện nay, ở Việt Nam thống kê ứng dụng dường như vẫn là "mảnh đất màu mỡ" chưa được khai phá vì nhiều lý do: chúng ta khó khăn trong khâu thu thập và xử lý số liệu, chúng ta đang thiếu
là các chương trình đào tạo cán bộ phân tích thống kê, thiếu sự nhận thức đầy đủ và đúng đắn của các nhà quản lý và các nhà hoạch định chính sách cho xã hội, cho nền kinh tế, và đặc biệt là chúng ta thiếu… kinh phí !
Với mong muốn "chỉ rõ" một phần công dụng của kiến thức xác suất thống kê áp dụng thực tế, luận văn đã thu thập số liệu kinh doanh của Công
ty TNHH MTV Tài chính Việt - Société Générale (SGVF) - Chi nhánh Hà Nội trong 6 tháng (từ tháng 11 năm 2008 đến tháng 4 năm 2009) và sử
dụng mô hình hồi quy Poisson (mô hình cho các quá trình ngẫu nhiên là quá trình đếm) để xem xét sự phụ thuộc của số lượng các sản phẩm cho
vay tiêu dùng của công ty tài chính đó vào các yếu tố khác để đóng góp
những ý kiến có tác dụng nâng cao hiệu quả hoạt động kinh doanh cho Công ty
Luận văn được hoàn thành nhờ có sự giúp đỡ tận tình của PGS.TS Hồ Đăng Phúc, thầy cũng đã luôn động viên em trong suốt quá trình làm luận văn, em xin được gửi lời biết ơn và cảm ơn thầy sâu sắc Tôi cũng xin cảm
ơn lãnh đạo công ty TNHH Tài Chính Việt – Chi nhánh Hà Nội đã đồng ý cung cấp cho tôi toàn bộ số liệu hồ sơ khách hàng của công ty trong 6 tháng Tôi xin cảm ơn gia đình, những người bạn, những người thân yêu luôn động viên tôi giúp tôi cố gắng, đặc biệt chồng tôi là người luôn cảm thông với tôi, cố gắng tạo mọi điều kiện để tôi tiếp tục học tập, thậm chí đã
hỗ trợ bổ sung những kiến thức về các hoạt động tài chính trên thị trường
Trang 51 Một số kiến thức chuẩn bị về xác suất
1.1 Phần tử ngẫu nhiên và phân phối xác suất
Ta đã biết rằng, đầu ra một phép thử ngẫu nhiên có thể là một giá trị
số hoặc không có giá trị số Ví dụ, khi tung một đồng xu, kết quả đầu ra thu được là {sấp, ngửa} (đầu ra không phải là số) hay tung một con xúc sắc thì kết quả số chấm thu được ở mặt trên có thể là{1, 2, 3, 4, 5, 6} (đầu ra là số) Tuy nhiên trong thống kê, chúng ta muốn mỗi đầu ra là một đại lượng đo
đạc được, từ đó người ta đưa ra khái niệm biến ngẫu nhiên để gán giá trị số
cho các kết quả của đầu ra của phép thử ngẫu nhiên Cho A là một - đại số
và là không gian các biến cố thực nghiệm Chẳng hạn, trong ví dụ tung con xúc sắc thì chính là tập các biến cố {sấp, ngửa} và A là họ các tập con của Từ đó một biến ngẫu nhiên được định nghĩa như một hàm đo
được từ một không gian xác suất tới một không gian đo được nào đó
Không gian đo được này là một không gian của các giá trị có thể của biến,
và nó thường được lấy là các giá trị thực với - đại số Borel
Định nghĩa 1 Giả sử (, A, P) là không gian xác suất cơ bản và (E, F) là
thay cho X Trong trường hợp n = 1,
và gọi X là đại lượng ngẫu nhiên
Trong Thống kê, một phân phối xác suất là quy luật cho biết cách gán
xác suất cho mỗi khoảng giá trị của tập số thực, sao cho các tiên đề về xác suất được thoả mãn Một phân phối xác suất là một trường hợp đặc biệt của một khái niệm tổng quát hơn về một độ đo xác suất, là một hàm thoả mãn các tiên đề xác suất của Kolmogorov cho các tập đo được của một không gian đo được
Trang 6Định nghĩa 2 Phân bố xác suất (hay còn gọi là phân phối xác suất) của
Định nghĩa 3 Hàm phân phối xác suất của phân bố xác suất P X trên R của
X
F P X x P x
Tất nhiên, hàm phân phối được xác định duy nhất bởi phân bố xác
suất Điều ngược lại cũng đúng Nếu ta biết hàm phân phối F X, thì ta có thể
tính được xác suất P X của các đoạn thẳng đóng và nửa mở của R qua các công
đến phân bố xác suất trên R của nó Các phân bố trên R có thể chia làm 3
loại sau: rời rạc, liên tục và hỗn hợp (nửa rời rạc, nửa liên tục)
Trang 7Định nghĩa 4 Một phân bố P X trên R được gọi là liên tục nếu như hàm
Ta chú ý là hàm mật độ của một phân bố xác suất Px là liên tục tuyệt đối trên R là duy nhất theo nghĩa xác suất nghĩa là nếu Px có hai hàm mật
độ 1,2 thì 1 2 hầu khắp nơi trên R, tức là tập {xR,1(x) 2(x)} có
độ đo Lebesgue bằng 0 Một phân bố xác suất có thể liên tục mà không liên tục tuyệt đối Tuy nhiên trong thực tế, khi người ta nói đến một phân bố liên tục trên R, thường được hiểu là nó liên tục tuyệt đối, tức là được cho bởi một hàm mật độ Ta cũng chú ý thêm hàm mật độ chính bằng đạo hàm của hàm phân phối xác suất (hầu khắp mọi nơi) Một số vấn đề trong thực
tế có thể được mô hình hoá bằng các biến ngẫu nhiên với phân bố xác suất liên tục, ví dụ như nhiệt độ của nước biển, giá dầu hoả, sản lượng điện, trọng lượng của trứng gà…
Một điểm x R được gọi là một điểm hạt của một phân bố xác suất PX
nếu PX{x} > 0 Người ta cũng chỉ ra được kết quả là một phân bố là liên tục khi và chỉ khi nó không điểm hạt
Trong trường hợp phân bố xác suất không liên tục, gọi
AX ={xR Px {x} > 0}
là tập hợp các điểm hạt của phân phối xác suất (tức là tập hợp các điểm gián đoạn của hàm phân phối xác suất) Khi đó AX là tập hữu hạn hoặc cùng lắm là đếm được
Định nghĩa 5 Một phân bố xác suất P X được gọi là rời rạc nếu như nó tập
Trang 8Đối với mỗi phân phối xác suất rời rạc thì hàm phân phối có dạng hàm bậc thang với các bước nhảy tại các điểm hạt có độ lớn chính bằng giá trị xác suất của điểm hạt đó
1.2 Một số đặc trưng của đại lượng ngẫu nhiên
Khi ta có biến ngẫu nhiên, ta có thể nghiên cứu các tính chất, đặc trưng của nó, để rút ra thông tin và kết luận nào đó Một trong những thông tin quan trọng nhất là giá trị kỳ vọng (giá trị trung bình)
Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X,
ký hiệu là E(X), chính là trung bình cộng có trọng số của biến ngẫu nhiên
đó
Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác
suất trên R thì có cùng kỳ vọng Bởi vậy, thay vì nói về kỳ vọng của biến ngẫu nhiên, ta có thể nói về kỳ vọng của phân bố xác suất trên R
Trong trường hợp không gian xác suất là một tập hợp hữu hạn hoặc đếm được, ={1, 2 } với xác suất P( i), i P(i) 1thì công thức tính
giá trị kỳ vọng của một biến ngẫu nhiên X là
( ) ( i) ( i)
i
Ví dụ Xét trò chơi đề được tiến hành theo nguyên tắc: Trong 100 số đề sẽ
chỉ có 1 số trúng, 99 số bị trượt Nếu người chơi đề đánh trúng thì được 70 lần số tiền đặt cọc, thua thì mất số tiền đặt cọc Nếu đặt cọc số tiền lúc đầu
là T, thì kỳ vọng số tiền nhận lại được là 0,99 * 0 + 0,01 * 70T = 0,7T Vậy
kỳ vọng lỗ là 0,3T
Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết
dưới dạng phân Lesbesgue của X trên không gian xác suất (, R):
XdP X
Một số tính chất cơ bản của kỳ vọng là:
Trang 9+ Kỳ vọng của một bằng số c (biến ngẫu nhiên chỉ nhận một giá trị) chính là bằng số đó
E(c) = c
+ Tính tuyến tính: Nếu X, Y là hai biến ngẫu nhiên và a, b là hai hằng số
thì
E(aX + bY) = aE(X) + bE(Y)
+ Đơn điệu: Nếu X 0 thì E(X) 0 Tổng quát hơn,
Nếu X Y thì E(X) E(Y)
Như vậy, nhắc tới giá trị kỳ vọng ta có thể liên tưởng đến trung bình cộng các giá trị một biến ngẫu nhiên, ngoài ra người ta còn đưa ra một khái niệm giá trị kỳ vọng hình học, ứng với trung bình nhân Ví dụ sau đây cho thấy sự quan trọng của trung bình nhân trên thực tế
Ví dụ: Giả sử giá nhà dao động trong 4 năm như sau Năm đầu tiên
giảm 15 phần trăm, năm thứ hai tăng 35 phần trăm, năm thứ ba giảm 20 phần trăm, năm thứ tư tăng 20 phần trăm Hỏi xem trong 4 năm đó, giá nhà tăng lên (hay giảm đi) trung bình mỗi năm bao nhiêu phần trăm ? Nếu ta lấy trung bình cộng thì được (-15 + 35 - 20 + 20)/4 = 5 phần trăm một năm Nhưng con số đó có phản ánh chính xác sự đi lên của giá nhà trong một năm không?
Nếu gọi giá nhà lúc đầu là X, sau năm đầu giá là (1-0,15)X
Sau năm thứ 2 giá nhà là (1+ 0,35)(1-15)X
Tiếp tục sau năm thứ ba giá nhà là (1-0,20)(1+35)(1-0,15)X
Sau 4 năm giá nhà là (1+0,20)(1-0,20)(1+0,35)(1-0,15)X = 1,1016X
Tức là sau 4 năm giá nhà chỉ tăng 10,16 phần trăm chứ không phải 20 phần trăm như ta tưởng! Từ đó, để có cái nhìn chính xác về mức độ tăng trưởng hàng năm trong giai đoạn 4 năm, cần phải lấy trung bình nhân các con số 1 + 0,20, 1 - 0,20, 1+0,35, 1- 0,15 rồi trừ đi 1 Kết quả là giá nhà có tốc độ tăng trưởng 2,449 phần trăm một năm
Như chúng ta đã biết, nếu có một dãy số dương a1, a2…, an, ai > 0 với mọi i, thì ngoài giá trị trung bình cộng , chúng ta còn có trung bình
Trang 10i i
n a p
x e
a ) ( (ln ) /
Chú ý ta có tính chất trung bình nhân luôn không vượt quá trung bình cộng, dấu bằng xảy ra khi các số ai bằng nhau Ta có định nghĩa sau cho kỳ vọng hình học:
Định nghĩa 6 Nếu X là biến ngẫu nhiên chỉ nhận giá trị dương, thì giá trị
kỳ vọng hình học của X, ký hiệu là G(X), được cho bởi công thức sau:
) (X e xp E X e xp X dP G
Ta có tính chất giá trị kỳ vọng hình học luôn không vượt quá giá trị kỳ
vọng G(X) E(X), dấu bằng xảy ra khi và chỉ khi F là hằng số hầu khắp nơi
trên không gian xác suất, tức là tồn tại một số thực dương c sao cho
1.3 Một số phân phối thường gặp
Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế
Định nghĩa 8 Giả sử a, b là hai số thực, với b > a Khi đó phân phối đều
trên đoạn thẳng [a; b] là phân bố liên tục với hàm mật độ xác suất được cho như sau:
x khi
b x a khi a
b x
c a
ho 0
1 ) (
Trang 11Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b) Trong định nghĩa trên ta có thể thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b)
hoặc nửa đóng, nửa mở cũng được
Ví dụ, vị trí của một người đi trên đường có thể mô hình hoá bằng một biến ngẫu nhiên với phân bố đều, nếu chúng ta không có thông tin gì ngoài thông tin người đi bộ trên quãng đường đó
Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều: Không gian xác suất là một miền của Rn (n2), và xác suất một miền con (n chiều) tỷ lệ thuận với thể tích (n chiều) của miền con đó
Định nghĩa 9 Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với
.
2 2
2 2
0, 2= 1 được gọi là chuẩn tắc Phân bố chuẩn là một trong những phân bố quan trọng nhất vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu khá giống phân bố chuẩn
Ví dụ, phân bố chiều cao của đàn ông, phân bố chỉ số IQ, phân bố của giá chứng khoán trong tương lai, v.v… Giá trị trung bình và phương sai của
0 )
(
x khi
x khi e
Các phân phối trên là các phân phối liên tục trên R, sau đây ta đưa ra
Trang 12Định nghĩa 11 Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với
tham số n, p nếu hàm phân bố xác suất của nó có dạng
P X k C p p k n p
Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị
thức lần lượt là np và np (1-p)
Định nghĩa 12 Một biến ngẫu nhiên Y được gọi là phân phối Poisson với
!
y e
mà ta sẽ bàn kỹ trong phần sau của luận văn
2 Quá trình ngẫu nhiên
Quá trình ngẫu nhiên có thể hiểu là việc xem xét sự tiến triển theo thời gian của một hệ ngẫu nhiên Ví dụ, nếu một hệ ngẫu nhiên diễn tiến theo thời gian mà trong đó tương lai chỉ phụ thuộc vào hiện tại, độc lập với quá khứ ta có quá trình Markov - quá trình được mang tên của một nhà toán học, vật lý học nổi tiếng người Nga đầu thế kỷ XX Quá trình Markov được ứng dụng nhiều trong thương nghiệp, tin học, viễn thông, Hoặc khi nghiên cứu trong các lĩnh vực kinh tế, thị trường chứng khoán, cơ học thống kê,… có những hệ ngẫu nhiên mà quá khứ của nó ảnh hưởng mạnh
mẽ đến sự tiến triển của tương lai, mô hình để xem xét các quá trình này là quá trình dừng
Đối tượng để nghiên cứu quá trình ngẫu nhiên là họ vô hạn các biến
ngẫu nhiên phụ thuộc vào tham số tT nào đó
Trang 13Giả sử T là một tập vô hạn nào đó Nếu mỗi t T, X t là biến ngẫu
nhiên thì ta ký hiệu X = {X t , t T}, và gọi X là hàm ngẫu nhiên (với tham biến t T) Ta quy ước:
+ Nếu T là tập đếm được thì ta gọi X = {X t , t T} là quá trình ngẫu
nhiên với tham số rời rạc
+ Nếu T là một khoảng của đường thẳng thực thì X = {X t , t T} là
quá trình ngẫu nhiên với tham số liên tục trong trường hợp này tham số t đóng vai trò là thời gian
+ Nếu T là một tập con của R d , thì ta gọi X = {X t , t T} là trường ngẫu nhiên
Định nghĩa 13 Cho không gian xác suất (, A, P), một quá trình ngẫu nhiên với không gian trạng thái X là một tập hợp của các biến ngẫu nhiên với giá trị trong X được đánh số thứ tự bởi một tập hợp T ("thời gian")
biến ngẫu nhiên có giá trị trong X
Một bản sao Y của quá trình X là một quá trình ngẫu nhiên trên cùng một không gian trạng thái, với cùng tập hợp tham số T sao cho
Khi nghiên cứu về quá trình ngẫu nhiên, một trong những khái niệm
then chốt là họ các phân phối hữu hạn chiều của X Nhiều tính chất quan
trọng của quá trình được xác định thông qua các tính chất của họ phân phối hữu hạn chiều này
Giả sử X = {X t , t T} là quá trình ngẫu nhiên, và I = (t 1 , …, t n ) là tập
con hữu hạn của T Hàm phân phối đồng thời của
được gọi là phân phối hữu hạn chiều của X ứng với I, và tập {F I } được gọi
là họ các phân phối hữu hạn chiều của X
Họ các phân phối hữu hạn chiều thỏa mãn các điều kiện sau:
Trang 14a) Điều kiện đối xứng, tức là, F(x 1 ,…,x n; t 1 ,…,t n ) không thay đổi khi ta
về mặt thống kê
Các ví dụ quen thuộc của các quá trình được mô phỏng như là các chuỗi ngẫu nhiên bao gồm thị trường chứng khoán và thay đổi của tỉ giá ngoại tệ, các tín hiệu như là lời nói, âm thanh và hình ảnh, dữ liệu y khoa như là EKG, EEG, huyết áp hay nhiệt độ, và các chuyển động ngẫu nhiên như chuyển động Brown hay là các bước ngẫu nhiên Ví dụ của các trường ngẫu nhiên bao gồm các ảnh tĩnh, địa hình ngẫu nhiên, hay là hỗn hợp của các vật liệu không đồng nhất
2.1 Một số quá trình ngẫu nhiên thường gặp
2.1.1 Chuyển động Brown
Một trong những quá trình ngẫu nhiên quan trọng bậc nhất thường gặp, đó là chuyển động Brown (Quá trìnhWiener) Chuyển động Brown (đặt tên theo nhà thực vật học Robert Brown) mô phỏng chuyển động của các hạt trong môi trường lỏng (chất lỏng hoặc khí) và cũng là mô hình toán
Trang 15học mô phỏng các chuyển động tương tự, thường được gọi là mô hình vật
lý hạt Chuyển động Brown có nhiều ứng dụng thực tế, là một trong những quá trình ngẫu nhiên liên tục đơn giản nhất và thường được dùng để mô phỏng sự dao động của thị trường chứng khoản Chuyển động Brown gắn với quá trình ngẫu nhiên Wiener
Trong toán học, quá trình Wiener là một quá trình ngẫu nhiên liên tục được đặt tên theo Norbert Wiener nó là một trong những quá trình Lesvy (quá trình ngẫu nhiên liên tục phải có giới hạn trái với số gia độc lập đều - nổi tiếng nhất và thường được dùng trong toán học, kinh tế và vật lý Quá
N ) biểu thị phân phối chuẩn với giá trị trung bình và phương sai 2 Điều kiện quá trình có số gia độc lập có nghĩa là nếu
2 2
1
1
0 s t s t thì W t1 - W s1 và W t2 - W s2 là những biến ngẫu nhiên độc lập Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trình
Poisson, sẽ được đề cập chi tiết ở mục sau
3 Giới thiệu về hồi quy Poisson
3.1 Phân bố Poisson
Phân phối Poisson là phân phối được đặt theo tên nhà toán học người Pháp Siméon Denis Poisson (1781 - 1840) Như trên ta đã nói, một biến
ngẫu nhiên Y được gọi là có phân phối Poisson với tham số > 0 nếu nó
nhận các giá trị nguyên y = 0, 1, 2,… với xác suất
Trang 16Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng:
E(Y) = Var (Y) = Một tính chất quan trọng của phân phối Poisson là tổng của các biến
ngẫu nhiên Poisson độc lập cũng có phân phối Poisson Cụ thể, nếu Y 1 , Y 2 là các biến ngẫu nhiên độc lập, Y i ~ P( ),i i 1; 2 thì Y1Y2 ~P( 1 2) Kết quả này có thể mở rộng cho tổng nhiều hơn hai biến ngẫu nhiên Poisson
Giả sử ta có ni nhóm quan sát có cùng phương sai, ký hiệu Y ij là số
lượng biến cố của quan sát thứ j trong lớp nhóm thứ i Trên các nhóm đó, Y i
là toàn bộ các quan sát của nhóm thứ i Với giả thiết thông thường về tính
độc lập và Y ij ~ P( i) với j = 1,2, ni thì Y i ~ P n( ii)
3.2 Quá trình hồi quy Poisson
Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa
theo sự xuất hiện của các biến cố Một quá trình ngẫu nhiên N(t) là một quá
trình Poisson (thời gian - thuần nhất, một chiều) nếu:
( ) (
k
e k t N t
N P
k
trong đó số dương là một tham số cố định, được gọi là tham số cường độ,
có nghĩa là, biến ngẫu nhiên N(t+ ) - N(t) mô tả số lần xuất hiện trong
khoảng thời gian [t, t+ ] tuân theo một phân bố Poisson với tham số Tổng quát hơn, một quá trình Poisson là một quá trình gán cho mỗi khoảng thời gian bị chặn hay mỗi vùng bị chặn trong một không gian nào
đó (chẳng hạn, mặt phẳng Euclid hay không gian Euclid 3 chiều) một số ngẫu nhiên các biến cố, sao cho:
Trang 17a) Xác suất một biến cố xảy ra trong một khoảng thời gian tỉ lệ với chiều dài khoảng đó (hoặc thể tích của vùng không gian được xét đến) b) Xác suất xảy ra hai hay nhiều hơn các biến cố trong một khoảng thời gian rất nhỏ (hoặc một vùng không gian rất nhỏ) có thể bỏ qua được c) Số lượng xảy ra các biến cố trong các khoảng thời gian (vùng không gian) rời nhau là các đại lượng độc lập với nhau
Từ các điều kiện trên, phân phối xác suất của số lượng các biến cố trong một khoảng thời gian cố định là phân phối Poisson với giá trị trung bình = t, hằng số là cường độ xảy ra các biến cố, còn t là chiều dài của khoảng thời gian Quá trình ngẫu nhiên thoả mãn 3 điều kiện, a, b và c, được gọi là quá trình Poisson
Quá trình Poisson là một trong các quá trình Lévy nổi tiếng Các quá
trình Poisson thời gian thuần nhất còn là các ví dụ của các quá trình Markov thời gian liên tục thời gian thuần nhất Một quá trình Poisson một chiều thời gian thuần nhất là một quá trình sinh sản thuần tuý - ví dụ đơn giản nhất về một quá trình sinh - tử Một số ví dụ
Ví dụ 1 Số cuộc điện thoại tới tổng dài trong một khoảng thời gian xác định có thể có một phân bố Poisson, và số cuộc điện thoại tới trong các khoảng thời gian không giao nhau có thể độc lập thống kê với nhau Đây là một quá trình Poisson một chiều Trong các mô hình đơn giản, ta có thể giả thiết một tỉ lệ trung bình là hằng số, ví dụ =12,3 cuộc gọi mỗi phút Trong trường hợp đó, giá trị kỳ vọng của số cuộc gọi trong một khoảng thời gian bất kỳ là tỉ lệ nhân với khoảng thời gian, t Trong các bài toán thực tế phức tạp hơn, người ta sử dụng một hàm tỉ lệ không phải là hằng số: (t) Khi
đó, giá trị kỳ vọng của số cuộc điện thoại trong khoảng giữa thời điểm a và thời điểm b là
b
a(t)dt
Trang 18Ví dụ 2 Số hạt photon đập vào máy phát hiện photon trong một khoảng
thời gian xác định có thể tuân theo một phân bố Poisson
Ví dụ 3 Số quả bom rơi xuống một khu vực xác định tại London trong
những ngày đầu của Đại chiến Thế giới lần thứ II có thể là một biến ngẫu nhiên với phân bố Poisson, và số bom rơi xuống hai khu vực không giao nhau của thành phố có thể độc lập thống kê Số quả bom rơi xuống một khu vực A là một quá trình Poisson hai chiều trên không gian xác định bởi khu vực A
Ví dụ 4 Các nhà thiên văn học có thể coi số vì sao trong một thể tích vũ trụ
cho trước là một biến ngẫu nhiên với một phân bố Poisson, và coi số sao trong hai vùng không giao nhau của vũ trụ là độc lập thống kê Số sao quan sát được trong một thể tích V nào đó là một quá trình Poisson ba chiều trên không gian xác định bởi thể tích V
3.3 Mô hình loga tuyến tính cho quá trình Poisson
Giả sử ta có một mẫu bao gồm n quan sát Y 1 , Y 2 ,…,Y n là các biến ngẫu
nhiên độc lập có phân phối Poisson, Y i ~ P(i ), ta mong muốn i phụ thuộc vào một véc tơ các biến độc lập, ta có thể bắt đầu bằng mô hình tuyến tính đơn giản
ix i'j (3) Tuy nhiên vế phải của (3) là một số thực bất kỳ trong khi vế trái là giá trị trung bình không âm Phương án thay thế giải quyết vấn đề này là ta nghĩ đến logarit của giá trị trung bình Ta lấy i log (i) và xét mô hình tuyến tính
Trang 19ie xp x i' j (5)
Để ước lượng các tham số của phân phối Poisson trong mô hình trên, người ta dùng phương pháp ước lượng hợp lý cực đại Trước tiên ta xây
dựng hàm hợp lý là tích các giá trị của biểu thức (2) lấy trên n quan sát độc
lập có phân phối Poisson với tham số i thoả mãn (3), tức là
! )
(
1
i
yi i i n
1
) log(
)
Ở đó i phụ thuộc vào các biến độc lập xi và là vecto gồm p tham
số được cho ở (3) Lấy đạo hàm riêng hai vế theo từng phần tử của và cho chúng bằng 0 Nghiệm của các phương trình đó cho ta ước lượng hợp
lý cực đại của mô hình loga tuyến tính Poisson Có thể chỉ ra rằng các nghiệm đó thoả mãn phương trình
X'yY'ˆ (8)
Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể bao gồm hằng số) Y biến đáp ứng, ˆ là một vectơ của giá trị dự báo, được tính toán thông qua ước lượng ˆ bằng cách lấy exp mũ của dự báo tuyến tính X'ˆ
Một độ đo đánh giá mức độ phù hợp của mô hình với tập giá trị quan sát là độ chệch có dạng
của mô hình
Trang 20Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của Peason
i
i i p
y X
ˆ
) ˆ
2
Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối
khi bình phương với (n-p) bậc tự do Hai độ đo trên được dùng để kiểm
định sự phù hợp của mô hình với dữ liệu quan sát được
4 Mô hình hồi quy Poisson tổng quát
Ta đã biết, mô hình hình hồi quy Poisson đã được sử dụng rộng rãi để phân tích các số liệu đếm Phân phối Poisson được dùng đầu tiên trong bài báo về hồi quy bằng cách cho tham số giá trị trung bình phụ thuộc vào một số biến khác Tuy nhiên giả thiết phương sai và giá trị trung bình của phân phối Poisson có thể không phù hợp trong một số trường hợp thực tế, khi mà các dữ liệu đếm thường chỉ ra rằng giá trị trung bình mẫu có thể lớn hơn hoặc nhỏ hơn phương sai mẫu Khi phương sai mẫu lớn hơn giá trị trung bình mẫu người ta đề cập đến mô hình có số liệu có độ phân tán dư thừa, và tương tự ta có mô hình có số liệu có độ phân tán thiếu hụt nếu phương sai mẫu nhỏ hơn giá trị trung bình
Phân phối Poisson tổng quát được đưa ra bởi Consul và Jain năm
1973, là phân phối có thể áp dụng cho cả những số liệu đếm có độ phân tán
dư thừa hoặc thiếu hụt và hiển nhiên cả trường hợp bằng nhau Sử dụng phân phối này, Famoye đã đưa ra mô hình hồi quy Poisson tổng quát năm
1993
Trong thực tế có thể xảy ra hiện tượng quan sát bị mất theo dõi có thể rơi vào biến cố cần quan tâm hoặc rơi vào phần bù của biến cố đó Ví dụ tại một điểm bán hàng, ở đây ta quan tâm đến yếu tố khách hàng và sản phẩm được bán ra, khách hàng đến định mua một máy tính, tuy nhiên tại thời
Trang 21điểm đó cửa hàng mất điện nên khách hàng không mua được sản phẩm, đồng thời ta cũng không biết khách hàng mua sản phẩm nào, hiện tượng mất theo dõi xảy ra Nếu biến cố mất theo dõi đó rơi vào biến cố ta quan tâm thì giá trị trung bình sẽ giảm đi, ngược lại nếu biến cố mất theo dõi rơi vào phần bù của biến cố ta quan tâm thì tăng lên Như vậy việc mất theo dõi đối với một quan sát có thể làm các tham số được ước lượng tăng lên hoặc giảm đi so với giá trị thực của nó Famoye và Wang (2004) đã đưa
ra mô hình hồi quy Poisson tổng quát bị mất theo dõi, mô hình được áp dụng cho trường hợp tập số liệu bị mất theo dõi và đồng thời phương sai mẫu không bằng giá trị trung bình mẫu
Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động của p biến mô tả (x i1 , x i2 ,…x ip ) Mô hình hồi quy Poisson
tổng quát được xây dựng bởi Famoye nói rằng phân phối của Y i lấy điều
kiện theo (x i1 , x i2 ,…x ip ) và được định nghĩa bằng
i y
với x 1 = (1, x i1 ,… x ip ) là véctơ (p + 1) 1 chiều, i 0 là giá trị trung bình
phụ thuộc của Y i với điều kiện x i Ta cũng có phân tích phổ biến cho ilà
Ở đây (0,1, p)là một véc tơ p + 1 chiều của các tham số hồi
quy, tham số là một độ đo của hàm mật độ Khi = 0 mô hình hồi quy Poisson tổng quát ở (10) trở thành mô hình hồi quy Poisson bình thường Với > 0 mô hình hồi quy Poisson tổng quát có thể sử dụng cho mô hình
có số liệu đếm có độ phân tán vượt trội, tương tự < 0, mô hình hồi quy Poisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu hụt Với một vài quan sát trong tập số liệu, giá trị Y có thể bị mất theo dõi,
Trang 22từ đó mô hình hồi quy Poisson tổng quát mất theo dõi được Faymoye và Wang đề xuất năm 2004
Nếu quan sát không bị mất theo dõi thì Y i = y i
Nếu quan sát mất theo dõi thì Y i y i , và phân phối được áp dụng cho
số liệu mẫu là phân phối nhị phân d i được xác định như sau: d i = 1 nếu
i
i y
Y và d i = 0 nếu ngược lại
Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi:
0
( , | ) ( ) 1 ( )
i i
i
d y
Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được
sắp xếp trong véctơ (' ,), và nó có thể được ước lượng bằng phương pháp hợp lý cực đại như trình bày tiếp sau đây
4.1 Ước lượng tham số (' ,)
Hàm hợp lý của (13) được cho bởi
i i
i i
y LL
1
) 1 ( ) 1 log(
) 1 ( 1
log ) 1 ( )
, ,
y j i
i
j f d
0
1
0 ( ) 1
Bằng cách lấy đạo hàm riêng theo từng tham số và cho chúng bằng 0, ta thu được
0 )) ( 1
(
) ) ( ( )
) 1 ( )(
1 ( )
, ,
(
1
1 0
1 0
y j i n
i
i i
i i i i
i i
j f
j f d
x
y d y
Trang 23i i
i
i i i
y
y y y
d y
LL
1
2 ) ) 1 (
) (
) 1 (
) 1 ( ) ) 1 ( )(
1 ( )
, ,
(
) ) ( (
0
1 0
i
j f
j f
Trong đó:
) 1 (
) ( ) ( )
(
2 i i
i x
j j f j
) ( 1
) 1 ( ) 1 (
) ( ) ( )
(
2
i
i i i
j
j j j
j f j
Hessian, H là ma trận vuông cấp p+2 Toàn bộ ma trận Hessian, được ký
hiệu là các đạo hàm riêng cấp hai, được cho bởi:
) '
) , , ( ( ) '
) , , ( ( )
(
2
2 2
2 2
22 21
12 11
i i
y LL
y LL
y LL
y LL
H H
H H
i i i
i
x x
y d
y LL
H
1
' 3
2
) 1 (
2 1
( 1 ( '
) , ,
( 1
(
) '
) ( ( )
) ( ( )
'
) ( ( )) ( 1
1 0 1
0 1
0 2
y j y
j y
j
j f
j f j
f j
f j
i i i i i
x
y d
y LL
H
1
3 2
) 1 (
) (
( 1 ( 2 ) , , (
Trang 24, ))
( 1
(
) ) ( ( )
) ( ( )
) ( ( )) ( 1
1 0 1
0 1
0 2
y j y
j y
j
j f
j f j
f j
f j
i i
i i i
y
y y y d
y LL
H
1
3
2 1 2 1 2 2 2 2
2
) 1
(
) (
2 ) 1 (
) 1 ( )
1 ( ( 1 ( )
, , (
( 1
(
) ) ( ( )
) ( ( )) ( 1
1 0
2 1
y j y
j
j f
j f j
f j
f
H21= H'12
, )
) 1 (
) ( ) ) 1 (
2 1
( ) ( '
)
2 3
2
i i i
i i
i
i
x x j
j j
f j
i i
i i
i i
i
i i
x j
j
j j j j
j j
f
j
f
2 2
3 2
) 1 (
( ) 1
) 1 ( 1
(
( ) 1 ( )
1 (
) ( 2 )
2 2 2 2 2 2
2
) 1 (
) ( ) 1
) 1 ( 1
( )
1 (
( 2 ) 1 (
) 1 ( )
1 ( ) (
)
(
i
i i i
i i
i i
i
j
j j j j
j
j j j j
2
) ˆ ( ˆ
0
Trang 25Ở đây ( ˆ0, ,ˆ ) , ( , ,ˆ ˆ )
LL y LL y lần lượt là các hàm loga hợp lý được tính toán từ mô hình được hạn chế và không hạn chế các tham số đưa vào
Với giả thuyết không (21), thống kê D trên có phân phố 2 với p bậc tự do
4.3 Kiểm định tham số hồi quy và các tham số phân tán
Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồi quy Poisson tổng quát được xây dựng chính xác và phù hợp với tập số liệu thì ước lượng hợp lý cực đại ˆ (ˆ ' ,ˆ )'cực đại hàm loga hợp lý của mô hình luon tồn tại với (' ,)' và thu được kết quả tiệm cận chuẩn sau:
((1/ ) ( ˆ , ˆ )) ),
; 0 ( ) ˆ
0 :
; 0 :
, ˆ ( (
Nếu giả thiết H 0 đúng, D có phân phối 2 với một bậc tự do
Kiểm định các tham số hồi quy
Để kiểm định các hệ số mũ J, j = 1, 2, …, p ta có bài toán
H : J = 0; H1: J 0 Thống kê cho giả thuyết không là
Z
Trang 26( ˆ , ) Dưới giả thuyết không, thống kê
Z có phân bố tiệm cận chuẩn