Với mong muốn "chỉ rõ" một phần công dụng của kiến thức xác suấtthống kê áp dụng thực tế, luận văn đã thu thập số liệu kinh doanh của Công ty TNHH MTV Tài chính Việt - Société Générale S
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HỒ
ĐĂNG PHÚC
Hà Nội - 2012
Trang 3MỤC LỤC
LỜI NÓI ĐẦU
1 Một số kiến thức chuẩn bị về xácsuất……….3 1.1 Phần tử ngẫu nhiên và
phân phối xác suất……… 31.2 Một số đặc trưng của đại lượng ngẫu nhiên……….61.3 Một số phân phối thường gặp……… 8
2 Quá trình ngẫunhiên………10 2.1 Một số
quá trình ngẫu nhiên thường gặp……….12
3 Giới thiệu về hồi quyPoisson……… 13 3.1 Phân bố
Poisson……… 133.2 Quá trình hồi quy Poisson……… 143.3 Mô hình loga tuyến tính cho quá trình Poisson……… 16
4 Mô hình hồi quy Poisson tổngquát……….18 4.1 Ước lượng tham số (
4.2 Sự phù hợp của thống kê hợp lý……… 224.3 Kiểm định tham số hồi quy, tham số phân tán………23
5 Phân tích hoạt động tín dụng tiêudùng……… 25 5.1 Mô tả sốliệu………255.2 Kết quả phân tích……….355.3 Một số đề xuất tới lãnh đạo Tổng công ty, chi nhánh Hà Nội 48
KẾT LUẬN……… 50TÀI LIỆU THAM KHẢO………51
Trang 42
Trang 5LỜI NÓI ĐẦU
Thống kê ứng dụng là một ngành toán học đã và đang đóng vai trò lớntrong lĩnh vực của đời sống kinh tế, xã hội như sinh học, y tế, tài chính…Nhắc đến thống kê ứng dụng, không thể không nhắc đến các mô hình toánhọc có yếu tố ngẫu nhiên, mà nhờ chúng ta có thể rút ra những kết luậnthống kê có ý nghĩa Tuy nhiên hiện nay, ở Việt Nam thống kê ứng dụngdường như vẫn là "mảnh đất màu mỡ" chưa được khai phá vì nhiều lý do:chúng ta khó khăn trong khâu thu thập và xử lý số liệu, chúng ta đang thiếu
là các chương trình đào tạo cán bộ phân tích thống kê, thiếu sự nhận thứcđầy đủ và đúng đắn của các nhà quản lý và các nhà hoạch định chính sáchcho xã hội, cho nền kinh tế, và đặc biệt là chúng ta thiếu… kinh phí !
Với mong muốn "chỉ rõ" một phần công dụng của kiến thức xác suấtthống kê áp dụng thực tế, luận văn đã thu thập số liệu kinh doanh của Công
ty TNHH MTV Tài chính Việt - Société Générale (SGVF) - Chi nhánh HàNội trong 6 tháng (từ tháng 11 năm 2008 đến tháng 4 năm 2009) và sử dụng
mô hình hồi quy Poisson (mô hình cho các quá trình ngẫu nhiên là quá
trình đếm) để xem xét sự phụ thuộc của số lượng các sản phẩm cho vay
tiêu dùng của công ty tài chính đó vào các yếu tố khác để đóng góp những
ý kiến có tác dụng nâng cao hiệu quả hoạt động kinh doanh cho Công ty.Luận văn được hoàn thành nhờ có sự giúp đỡ tận tình của PGS.TS HồĐăng Phúc, thầy cũng đã luôn động viên em trong suốt quá trình làm luậnvăn, em xin được gửi lời biết ơn và cảm ơn thầy sâu sắc Tôi cũng xin cảm
ơn lãnh đạo công ty TNHH Tài Chính Việt – Chi nhánh Hà Nội đã đồng ýcung cấp cho tôi toàn bộ số liệu hồ sơ khách hàng của công ty trong 6tháng Tôi xin cảm ơn gia đình, những người bạn, những người thân yêuluôn động viên tôi giúp tôi cố gắng, đặc biệt chồng tôi là người luôn cảmthông với tôi, cố gắng tạo mọi điều kiện để tôi tiếp tục học tập, thậm chí đã
hỗ trợ bổ sung những kiến thức về các hoạt động tài chính trên thị trường
3
Trang 61 Một số kiến thức chuẩn bị về xác suất
1.1 Phần tử ngẫu nhiên và phân phối xác suất
Ta đã biết rằng, đầu ra một phép thử ngẫu nhiên có thể là một giá trị
số hoặc không có giá trị số Ví dụ, khi tung một đồng xu, kết quả đầu ra thuđược là {sấp, ngửa} (đầu ra không phải là số) hay tung một con xúc sắc thìkết quả số chấm thu được ở mặt trên có thể là{1, 2, 3, 4, 5, 6} (đầu ra là số).Tuy nhiên trong thống kê, chúng ta muốn mỗi đầu ra là một đại lượng đo
đạc được, từ đó người ta đưa ra khái niệm biến ngẫu nhiên để gán giá trị số
cho các kết quả của đầu ra của phép thử ngẫu nhiên Cho A là một - đại số
và là không gian các biến cố thực nghiệm Chẳng hạn, trong ví dụ tungcon xúc sắc thì chính là tập các biến cố {sấp, ngửa} và A là họ các tậpcon của Từ đó một biến ngẫu nhiên được định nghĩa như một hàm đo
được từ một không gian xác suất tới một không gian đo được nào đó.
Không gian đo được này là một không gian của các giá trị có thể của biến,
và nó thường được lấy là các giá trị thực với - đại số Borel
Định nghĩa 1 Giả sử ( , A, P) là không gian xác suất cơ bản và (E, F) là
Trong Thống kê, một phân phối xác suất là quy luật cho biết cách gán
xác suất cho mỗi khoảng giá trị của tập số thực, sao cho các tiên đề về xácsuất được thoả mãn Một phân phối xác suất là một trường hợp đặc biệt củamột khái niệm tổng quát hơn về một độ đo xác suất, là một hàm thoả mãncác tiên đề xác suất của Kolmogorov cho các tập đo được của một khônggian đo được
Trang 7Định nghĩa 2 Phân bố xác suất (hay còn gọi là phân phối xác suất) của
Định nghĩa 3 Hàm phân phối xác suất của phân bố xác suất P X trên R của
F X : P( X x ) P ( ( , x])
Tất nhiên, hàm phân phối được xác định duy nhất bởi phân bố xác
suất Điều ngược lại cũng đúng Nếu ta biết hàm phân phối F X, thì ta có thể
tính được xác suất P X của các đoạn thẳng đóng và nửa mở của R qua các
đến phân bố xác suất trên R của nó Các phân bố trên R có thể chia làm 3
loại sau: rời rạc, liên tục và hỗn hợp (nửa rời rạc, nửa liên tục)
lim
x a
Trang 85
Trang 9Định nghĩa 4 Một phân bố P X trên R được gọi là liên tục nếu như hàm
F X ( a ) P X ( , a ) aX ( x )dx
Ta chú ý là hàm mật độ của một phân bố xác suất Px là liên tục tuyệt
đối trên R là duy nhất theo nghĩa xác suất nghĩa là nếu Px có hai hàm mật
độ 1 , 2 thì 1 2 hầu khắp nơi trên R, tức là tập { x R, 1 (x) 2 (x) } có
độ đo Lebesgue bằng 0 Một phân bố xác suất có thể liên tục mà không liêntục tuyệt đối Tuy nhiên trong thực tế, khi người ta nói đến một phân bố liêntục trên R, thường được hiểu là nó liên tục tuyệt đối, tức là được cho bởimột hàm mật độ Ta cũng chú ý thêm hàm mật độ chính bằng đạo hàm củahàm phân phối xác suất (hầu khắp mọi nơi) Một số vấn đề trong thực tế cóthể được mô hình hoá bằng các biến ngẫu nhiên với phân bố xác suất liêntục, ví dụ như nhiệt độ của nước biển, giá dầu hoả, sản lượng điện, trọnglượng của trứng gà…
Một điểm x R được gọi là một điểm hạt của một phân bố xác suất PX
nếu PX{x} > 0 Người ta cũng chỉ ra được kết quả là một phân bố là liên tụckhi và chỉ khi nó không điểm hạt
Trong trường hợp phân bố xác suất không liên tục, gọi
AX ={ xR Px { x } > 0}
là tập hợp các điểm hạt của phân phối xác suất (tức là tập hợp các điểm
gián đoạn của hàm phân phối xác suất) Khi đó AX là tập hữu hạn hoặccùng lắm là đếm được
Định nghĩa 5 Một phân bố xác suất P X được gọi là rời rạc nếu như nó tập
6
Trang 10Đối với mỗi phân phối xác suất rời rạc thì hàm phân phối có dạng hàmbậc thang với các bước nhảy tại các điểm hạt có độ lớn chính bằng giá trịxác suất của điểm hạt đó.
1.2 Một số đặc trưng của đại lượng ngẫu nhiên
Khi ta có biến ngẫu nhiên, ta có thể nghiên cứu các tính chất, đặctrưng của nó, để rút ra thông tin và kết luận nào đó Một trong những thôngtin quan trọng nhất là giá trị kỳ vọng (giá trị trung bình)
Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X,
ký hiệu là E(X), chính là trung bình cộng có trọng số của biến ngẫu nhiên
đó
Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác
suất trên R thì có cùng kỳ vọng Bởi vậy, thay vì nói về kỳ vọng của biến ngẫu nhiên, ta có thể nói về kỳ vọng của phân bố xác suất trên R.
Trong trường hợp không gian xác suất là một tập hợp hữu hạn hoặcđếm được, ={ 1 , 2 } với xác suất P (i), i P(i ) 1thì công thức tính
giá trị kỳ vọng của một biến ngẫu nhiên X là
E ( X ) X ( i ) P(i )
i
Ví dụ Xét trò chơi đề được tiến hành theo nguyên tắc: Trong 100 số đề sẽ
chỉ có 1 số trúng, 99 số bị trượt Nếu người chơi đề đánh trúng thì được 70lần số tiền đặt cọc, thua thì mất số tiền đặt cọc Nếu đặt cọc số tiền lúc đầu
là T, thì kỳ vọng số tiền nhận lại được là 0,99 * 0 + 0,01 * 70T = 0,7T Vậy
kỳ vọng lỗ là 0,3T
Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết
dưới dạng phân Lesbesgue của X trên không gian xác suất ( , R):
Một số tính chất cơ bản của kỳ vọng là:
Trang 11+ Kỳ vọng của một bằng số c (biến ngẫu nhiên chỉ nhận một giá trị) chính là bằng số đó
E(c) = c
+ Tính tuyến tính: Nếu X, Y là hai biến ngẫu nhiên và a, b là hai hằng số
thì
E(aX + bY) = aE(X) + bE(Y)
+ Đơn điệu: Nếu X 0 thì E(X) 0 Tổng quát hơn,
Nếu X Y thì E(X) E(Y)
Như vậy, nhắc tới giá trị kỳ vọng ta có thể liên tưởng đến trung bìnhcộng các giá trị một biến ngẫu nhiên, ngoài ra người ta còn đưa ra một kháiniệm giá trị kỳ vọng hình học, ứng với trung bình nhân Ví dụ sau đây chothấy sự quan trọng của trung bình nhân trên thực tế
Ví dụ: Giả sử giá nhà dao động trong 4 năm như sau Năm đầu tiên
giảm 15 phần trăm, năm thứ hai tăng 35 phần trăm, năm thứ ba giảm 20phần trăm, năm thứ tư tăng 20 phần trăm Hỏi xem trong 4 năm đó, giá nhàtăng lên (hay giảm đi) trung bình mỗi năm bao nhiêu phần trăm ? Nếu ta lấytrung bình cộng thì được (-15 + 35 - 20 + 20)/4 = 5 phần trăm một năm.Nhưng con số đó có phản ánh chính xác sự đi lên của giá nhà trong mộtnăm không?
Nếu gọi giá nhà lúc đầu là X, sau năm đầu giá là (1-0,15)X.
Sau năm thứ 2 giá nhà là (1+ 0,35)(1-15)X.
Tiếp tục sau năm thứ ba giá nhà là (1-0,20)(1+35)(1-0,15)X.
Sau 4 năm giá nhà là (1+0,20)(1-0,20)(1+0,35)(1-0,15)X = 1,1016X.
Tức là sau 4 năm giá nhà chỉ tăng 10,16 phần trăm chứ không phải 20 phầntrăm như ta tưởng! Từ đó, để có cái nhìn chính xác về mức độ tăng trưởnghàng năm trong giai đoạn 4 năm, cần phải lấy trung bình nhân các con số 1
+ 0,20, 1 - 0,20, 1+0,35, 1- 0,15 rồi trừ đi 1 Kết quả là giá nhà có tốc độ
tăng trưởng 2,449 phần trăm một năm
Như chúng ta đã biết, nếu có một dãy số dương a1, a2…, an, ai > 0 vớimọi i, thì ngoài giá trị trung bình cộng a i / n , chúng ta còn có trung bình
8
Trang 12nhân: , trung bình nhân có thể được định nghĩa qua trung bình cộng,
qua hàm logarihm ln và hàm ngược của hàm ln, tức là hàm exp:
(ai )1/n e x p((ln a i ) / n )
i
Chú ý ta có tính chất trung bình nhân luôn không vượt quá trung bình
cộng, dấu bằng xảy ra khi các số ai bằng nhau Ta có định nghĩa sau cho kỳvọng hình học:
Định nghĩa 6 Nếu X là biến ngẫu nhiên chỉ nhận giá trị dương, thì giá trị
kỳ vọng hình học của X, ký hiệu là G(X), được cho bởi công thức sau:
G( X ) e xp(E(ln X )) e xp( ln( X )dP).
Ta có tính chất giá trị kỳ vọng hình học luôn không vượt quá giá trị kỳ
vọng G(X) E(X), dấu bằng xảy ra khi và chỉ khi F là hằng số hầu khắp nơi trên không gian xác suất, tức là tồn tại một số thực dương c sao cho
còn D ( X ) được gọi là độ lệch tiêu chuẩn của X.
1.3 Một số phân phối thường gặp
Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế
Định nghĩa 8 Giả sử a, b là hai số thực, với b > a Khi đó phân phối đều
trên đoạn thẳng [a; b] là phân bố liên tục với hàm mật độ xác suất được cho như sau:
Trang 139
Trang 14Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b) Trong định nghĩa trên ta có thể thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b)
hoặc nửa đóng, nửa mở cũng được
Ví dụ, vị trí của một người đi trên đường có thể mô hình hoá bằng mộtbiến ngẫu nhiên với phân bố đều, nếu chúng ta không có thông tin gì ngoàithông tin người đi bộ trên quãng đường đó
Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều:
Không gian xác suất là một miền của Rn (n 2), và xác suất một miền con(n chiều) tỷ lệ thuận với thể tích (n chiều) của miền con đó
Định nghĩa 9 Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với
(x)
Ký hiệu phân phối chuẩn trên đây là N( , 2 ), phân bố chuẩn với =
0, 2 = 1 được gọi là chuẩn tắc Phân bố chuẩn là một trong những phân bố
quan trọng nhất vì nhiều phân bố xác suất gặp trong thực tế có dáng điệukhá giống phân bố chuẩn
Ví dụ, phân bố chiều cao của đàn ông, phân bố chỉ số IQ, phân bố củagiá chứng khoán trong tương lai, v.v… Giá trị trung bình và phương sai của
phân bố chuẩn N( , 2 ) lần lượt là , 2
Định nghĩa 10 Phân bố mũ với tham số là phân bố xác suất liên tục
tuyệt đối trên R cho bởi hàm mật độ sau:
Các phân phối trên là các phân phối liên tục trên R, sau đây ta đưa ra
một số phân phối đặc trưng trong trường hợp các phân phối rời rạc
trung bình
Trang 15Định nghĩa 11 Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với
tham số n, p nếu hàm phân bố xác suất của nó có dạng
P( X k ) C n k p k (1 p ) n k ; k 0,1, 2 , n ; 0 p 1
Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị
thức lần lượt là np và np (1-p)
Định nghĩa 12 Một biến ngẫu nhiên Y được gọi là phân phối Poisson với
P Y y
Phân phối Poisson là giới hạn của phân bố nhị thức với tham số p =
/ n và n, khi n tiến tới vô cùng Trong lý thuyết xác suất, nhà toán họcPoisson được biết đến nhiều nhất bởi phân bố Poisson, quá trình Poisson mà ta
sẽ bàn kỹ trong phần sau của luận văn
2 Quá trình ngẫu nhiên
Quá trình ngẫu nhiên có thể hiểu là việc xem xét sự tiến triển theo thờigian của một hệ ngẫu nhiên Ví dụ, nếu một hệ ngẫu nhiên diễn tiến theothời gian mà trong đó tương lai chỉ phụ thuộc vào hiện tại, độc lập với quákhứ ta có quá trình Markov - quá trình được mang tên của một nhà toánhọc, vật lý học nổi tiếng người Nga đầu thế kỷ XX Quá trình Markov đượcứng dụng nhiều trong thương nghiệp, tin học, viễn thông, Hoặc khinghiên cứu trong các lĩnh vực kinh tế, thị trường chứng khoán, cơ họcthống kê,… có những hệ ngẫu nhiên mà quá khứ của nó ảnh hưởng mạnh
mẽ đến sự tiến triển của tương lai, mô hình để xem xét các quá trình này làquá trình dừng
Đối tượng để nghiên cứu quá trình ngẫu nhiên là họ vô hạn các biến
ngẫu nhiên phụ thuộc vào tham số tT nào đó.
11
Trang 16Giả sử T là một tập vô hạn nào đó Nếu mỗi t T, X t là biến ngẫu
nhiên thì ta ký hiệu X = {X t , t T}, và gọi X là hàm ngẫu nhiên (với tham biến t T) Ta quy ước:
+ Nếu T là tập đếm được thì ta gọi X = {X t , t T} là quá trình ngẫu
nhiên với tham số rời rạc
+ Nếu T là một khoảng của đường thẳng thực thì X = {X t , t
Định nghĩa 13 Cho không gian xác suất ( , A, P), một quá trình ngẫu
nhiên với không gian trạng thái X là một tập hợp của các biến ngẫu nhiên với giá trị trong X được đánh số thứ tự bởi một tập hợp T ("thời gian").
biến ngẫu nhiên có giá trị trong X.
Một bản sao Y của quá trình X là một quá trình ngẫu nhiên trên cùng một không gian trạng thái, với cùng tập hợp tham số T sao cho
Khi nghiên cứu về quá trình ngẫu nhiên, một trong những khái niệm
then chốt là họ các phân phối hữu hạn chiều của X Nhiều tính chất quan
trọng của quá trình được xác định thông qua các tính chất của họ phân phốihữu hạn chiều này
Giả sử X = {X t , t T} là quá trình ngẫu nhiên, và I = (t 1 , …, t n ) là tập
con hữu hạn của T Hàm phân phối đồng thời của X t1 , , Xt n:
F I ( x1 , , x n ) F ( x1 , , x n ; t1 , , t n ) P{ X t1 x1 , , X t n x n}
được gọi là phân phối hữu hạn chiều của X ứng với I, và tập {F I } được gọi
là họ các phân phối hữu hạn chiều của X.
Họ các phân phối hữu hạn chiều thỏa mãn các điều kiện sau:
Trang 17a) Điều kiện đối xứng, tức là, F(x 1 ,…,x n; t 1 ,…,t n ) không thay đổi
về mặt thống kê
Các ví dụ quen thuộc của các quá trình được mô phỏng như là cácchuỗi ngẫu nhiên bao gồm thị trường chứng khoán và thay đổi của tỉ giángoại tệ, các tín hiệu như là lời nói, âm thanh và hình ảnh, dữ liệu y khoanhư là EKG, EEG, huyết áp hay nhiệt độ, và các chuyển động ngẫu nhiênnhư chuyển động Brown hay là các bước ngẫu nhiên Ví dụ của các trườngngẫu nhiên bao gồm các ảnh tĩnh, địa hình ngẫu nhiên, hay là hỗn hợp củacác vật liệu không đồng nhất
2.1 Một số quá trình ngẫu nhiên thường gặp
2.1.1 Chuyển động Brown
Một trong những quá trình ngẫu nhiên quan trọng bậc nhất thườnggặp, đó là chuyển động Brown (Quá trìnhWiener) Chuyển động Brown(đặt tên theo nhà thực vật học Robert Brown) mô phỏng chuyển động củacác hạt trong môi trường lỏng (chất lỏng hoặc khí) và cũng là mô hình toán
13
Trang 18học mô phỏng các chuyển động tương tự, thường được gọi là mô hình vật
lý hạt Chuyển động Brown có nhiều ứng dụng thực tế, là một trong nhữngquá trình ngẫu nhiên liên tục đơn giản nhất và thường được dùng để môphỏng sự dao động của thị trường chứng khoản Chuyển động Brown gắnvới quá trình ngẫu nhiên Wiener
Trong toán học, quá trình Wiener là một quá trình ngẫu nhiên liên tụcđược đặt tên theo Norbert Wiener nó là một trong những quá trình Lesvy(quá trình ngẫu nhiên liên tục phải có giới hạn trái với số gia độc lập đều -nổi tiếng nhất và thường được dùng trong toán học, kinh tế và vật lý Quá
phương sai 2 Điều kiện quá trình có số gia độc lập có nghĩa là nếu 0 s 1
t1 s 2 t 2thìW t1-W s1vàW t2-W s2lànhững biếnngẫunhiênđộclập
Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trìnhPoisson, sẽ được đề cập chi tiết ở mục sau
3 Giới thiệu về hồi quy Poisson
3.1 Phân bố Poisson
Phân phối Poisson là phân phối được đặt theo tên nhà toán học ngườiPháp Siméon Denis Poisson (1781 - 1840) Như trên ta đã nói, một biến
ngẫu nhiên Y được gọi là có phân phối Poisson với tham số > 0 nếu nó
nhận các giá trị nguyên y = 0, 1, 2,… với xác suất
P Y y
Trang 1914
Trang 20Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng:
Một tính chất quan trọng của phân phối Poisson là tổng của các biến
ngẫu nhiên Poisson độc lập cũng có phân phối Poisson Cụ thể, nếu Y 1 , Y 2
là các biến ngẫu nhiên độc lập, Yi ~ P (i ), i 1; 2 thì Y1Y2 ~ P( 1 2 ) Kếtquả này có thể mở rộng cho tổng nhiều hơn hai biến ngẫu nhiên Poisson.Giả sử ta có ni nhóm quan sát có cùng phương sai, ký hiệu Y ij là số
lượng biến cố của quan sát thứ j trong lớp nhóm thứ i Trên các nhóm đó, Y i
là toàn bộ các quan sát của nhóm thứ i Với giả thiết thông thường về tính
độc lập và Y ij ~ P( i) với j = 1,2, n i thì Y i ~ P (n ii )
3.2 Quá trình hồi quy Poisson
Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa
theo sự xuất hiện của các biến cố Một quá trình ngẫu nhiên N(t) là một quá
trình Poisson (thời gian - thuần nhất, một chiều) nếu:
trong đó số dương là một tham số cố định, được gọi là tham số cường độ,
có nghĩa là, biến ngẫu nhiên N(t+ ) - N(t) mô tả số lần xuất hiện trong khoảng thời gian [t, t+ ] tuân theo một phân bố Poisson với tham số Tổng quát hơn, một quá trình Poisson là một quá trình gán cho mỗikhoảng thời gian bị chặn hay mỗi vùng bị chặn trong một không gian nào
đó (chẳng hạn, mặt phẳng Euclid hay không gian Euclid 3 chiều) một sốngẫu nhiên các biến cố, sao cho:
Trang 21a) Xác suất một biến cố xảy ra trong một khoảng thời gian tỉ lệ với
chiều dài khoảng đó (hoặc thể tích của vùng không gian được xét đến)
b) Xác suất xảy ra hai hay nhiều hơn các biến cố trong một khoảng thời gian rất nhỏ (hoặc một vùng không gian rất nhỏ) có thể bỏ qua được
c) Số lượng xảy ra các biến cố trong các khoảng thời gian (vùng không gian) rời nhau là các đại lượng độc lập với nhau
Từ các điều kiện trên, phân phối xác suất của số lượng các biến cốtrong một khoảng thời gian cố định là phân phối Poisson với giá trị trungbình = t , hằng số là cường độ xảy ra các biến cố, còn t là chiều dài củakhoảng thời gian Quá trình ngẫu nhiên thoả mãn 3 điều kiện, a, b và c,được gọi là quá trình Poisson
Quá trình Poisson là một trong các quá trình Lévy nổi tiếng Các quá
trình Poisson thời gian thuần nhất còn là các ví dụ của các quá trình Markovthời gian liên tục thời gian thuần nhất Một quá trình Poisson một chiều thờigian thuần nhất là một quá trình sinh sản thuần tuý - ví dụ đơn giản nhất vềmột quá trình sinh - tử Một số ví dụ
Ví dụ 1 Số cuộc điện thoại tới tổng dài trong một khoảng thời gian xácđịnh có thể có một phân bố Poisson, và số cuộc điện thoại tới trong cáckhoảng thời gian không giao nhau có thể độc lập thống kê với nhau Đây làmột quá trình Poisson một chiều Trong các mô hình đơn giản, ta có thể giảthiết một tỉ lệ trung bình là hằng số, ví dụ =12,3 cuộc gọi mỗi phút Trongtrường hợp đó, giá trị kỳ vọng của số cuộc gọi trong một khoảng thời gianbất kỳ là tỉ lệ nhân với khoảng thời gian, t Trong các bài toán thực tế phứctạp hơn, người ta sử dụng một hàm tỉ lệ không phải là hằng số: (t) Khi
đó, giá trị kỳ vọng của số cuộc điện thoại trong khoảng giữa thời điểm a vàthời điểm b là
a b (t) dt.
16
Trang 22Ví dụ 2 Số hạt photon đập vào máy phát hiện photon trong một khoảngthời gian xác định có thể tuân theo một phân bố Poisson.
Ví dụ 3 Số quả bom rơi xuống một khu vực xác định tại London trongnhững ngày đầu của Đại chiến Thế giới lần thứ II có thể là một biến ngẫunhiên với phân bố Poisson, và số bom rơi xuống hai khu vực không giaonhau của thành phố có thể độc lập thống kê Số quả bom rơi xuống một khuvực A là một quá trình Poisson hai chiều trên không gian xác định bởi khuvực A
Ví dụ 4 Các nhà thiên văn học có thể coi số vì sao trong một thể tích vũ trụ
cho trước là một biến ngẫu nhiên với một phân bố Poisson, và coi số saotrong hai vùng không giao nhau của vũ trụ là độc lập thống kê Số sao quansát được trong một thể tích V nào đó là một quá trình Poisson ba chiều trênkhông gian xác định bởi thể tích V
3.3 Mô hình loga tuyến tính cho quá trình Poisson
Giả sử ta có một mẫu bao gồm n quan sát Y 1 , Y 2 ,…,Y n là các biến ngẫu
nhiên độc lập có phân phối Poisson, Y i ~ P( i ), ta mong muốn i phụ thuộcvào một véc tơ các biến độc lập, ta có thể bắt đầu bằng mô hình tuyến tínhđơn giản
Trong mô hình này j biểu diễn sự thay đổi của loga giá trị trung bình
ứng với mỗi thay đổi của xj Lấy luỹ thừa cơ số e hai vế của (4) ta thu được
mô hình
i log (i )
Trang 23i e xp x i' j
Để ước lượng các tham số của phân phối Poisson trong mô hình trên,người ta dùng phương pháp ước lượng hợp lý cực đại Trước tiên ta xây
dựng hàm hợp lý là tích các giá trị của biểu thức (2) lấy trên n quan sát độc
lập có phân phối Poisson với tham số i thoả mãn (3), tức là
n
Lấy loga hai vế ta có
LogL( ) y i
Ở đó i phụ thuộc vào các biến độc lập xi và
số được cho ở (3) Lấy đạo hàm riêng hai vế theo từng phần tử của và chochúng bằng 0 Nghiệm của các phương trình đó cho ta ước lượng hợp lýcực đại của mô hình loga tuyến tính Poisson Có thể chỉ ra rằng các nghiệm
đó thoả mãn phương trình
X ' y Y ' ˆ
Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể bao gồm hằng số) Y biến đáp ứng, ˆ là một vectơ của
giá trị dự báo, được tính toán thông qua ước lượng ˆ bằng cách lấy exp mũ
của dự báo tuyến tính X ' ˆ
Một độ đo đánh giá mức độ phù hợp của
của mô hình
Trang 2418
Trang 25Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương củaPeason
X 2 (y i ˆi )2
Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối
khi bình phương với (n-p) bậc tự do Hai độ đo trên được dùng để kiểm
định sự phù hợp của mô hình với dữ liệu quan sát được
4 Mô hình hồi quy Poisson tổng quát
Ta đã biết, mô hình hình hồi quy Poisson đã được sử dụng rộng rãi đểphân tích các số liệu đếm Phân phối Poisson được dùng đầu tiên trong bàibáo về hồi quy bằng cách cho tham số giá trị trung bình phụ thuộc vàomột số biến khác Tuy nhiên giả thiết phương sai và giá trị trung bình củaphân phối Poisson có thể không phù hợp trong một số trường hợp thực tế,khi mà các dữ liệu đếm thường chỉ ra rằng giá trị trung bình mẫu có thể lớnhơn hoặc nhỏ hơn phương sai mẫu Khi phương sai mẫu lớn hơn giá trịtrung bình mẫu người ta đề cập đến mô hình có số liệu có độ phân tán dưthừa, và tương tự ta có mô hình có số liệu có độ phân tán thiếu hụt nếuphương sai mẫu nhỏ hơn giá trị trung bình
Phân phối Poisson tổng quát được đưa ra bởi Consul và Jain năm
1973, là phân phối có thể áp dụng cho cả những số liệu đếm có độ phân tán
dư thừa hoặc thiếu hụt và hiển nhiên cả trường hợp bằng nhau Sử dụngphân phối này, Famoye đã đưa ra mô hình hồi quy Poisson tổng quát năm1993
Trong thực tế có thể xảy ra hiện tượng quan sát bị mất theo dõi có thểrơi vào biến cố cần quan tâm hoặc rơi vào phần bù của biến cố đó Ví dụ tạimột điểm bán hàng, ở đây ta quan tâm đến yếu tố khách hàng và sản phẩmđược bán ra, khách hàng đến định mua một máy tính, tuy nhiên tại thời
19
Trang 26điểm đó cửa hàng mất điện nên khách hàng không mua được sản phẩm,đồng thời ta cũng không biết khách hàng mua sản phẩm nào, hiện tượngmất theo dõi xảy ra Nếu biến cố mất theo dõi đó rơi vào biến cố ta quantâm thì giá trị trung bình sẽ giảm đi, ngược lại nếu biến cố mất theo dõirơi vào phần bù của biến cố ta quan tâm thì tăng lên Như vậy việc mấttheo dõi đối với một quan sát có thể làm các tham số được ước lượng tănglên hoặc giảm đi so với giá trị thực của nó Famoye và Wang (2004) đã đưa
ra mô hình hồi quy Poisson tổng quát bị mất theo dõi, mô hình được ápdụng cho trường hợp tập số liệu bị mất theo dõi và đồng thời phương saimẫu không bằng giá trị trung bình mẫu
Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động của p biến mô tả (x i1 , x i2 ,…x ip ) Mô hình hồi quy Poisson
tổng quát được xây dựng bởi Famoye nói rằng phân phối của Y i lấy điều
kiện theo (x i1 , x i2 ,…x ip ) và được định nghĩa bằng
P (Y y | x ) f ( y
i
với x 1 = (1, x i1 ,… x ip ) là véctơ (p + 1) 1 chiều, i
phụ thuộc của Y i với điều kiện x i Ta cũng có phân tích phổ biến cho i là
Ở đây ( 0 , 1 , p ) là một véc tơ p + 1 chiều của các tham số hồi
quy, tham số là một độ đo của hàm mật độ Khi = 0 mô hình hồi quyPoisson tổng quát ở (10) trở thành mô hình hồi quy Poisson bình thường.Với > 0 mô hình hồi quy Poisson tổng quát có thể sử dụng cho mô hình
có số liệu đếm có độ phân tán vượt trội, tương tự < 0, mô hình hồi quyPoisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu
Trang 2720
Trang 28từ đó mô hình hồi quy Poisson tổng quát mất theo dõi được Faymoye vàWang đề xuất năm 2004.
Nếu quan sát không bị mất theo dõi thì Y i = y i
Nếu quan sát mất theo dõi thì Y i y i , và phân phối được áp dụng cho
số liệu mẫu là phân phối nhị phân d i được xác định như sau: d i = 1 nếu
Y i yi vàd i =0 nếu ngược lại
Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi:
1d
p ( y i , d i | x i ) f ( y i )
Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được
sắp xếp trong véctơ (',) , và nó có thể được ước lượng bằng phươngpháp hợp lý cực đại như trình bày tiếp sau đây
Hàm hợp lý của (13) được cho bởi
L ( , , y i )
Hàm log hợp lý là:
LL ( , .y i ) (1 d i ) log f ( y i ) d i log[(1 f ( j)]
Thay công thức hàm mật độ ở (13) vào (15) ta thu được
LL(,, y
i
Trang 29Hệ phương trình hợp lý trên không tuyến tính với các tham số
chúng được giải bằng cách dùng phương pháp lặp Newtơn - Raphson
Lấy đạo hàm riêng của (16) ta nhận được ma trận thông tin Fisher bằng cách lấy kỳ vọng
của hiệu các đạo hàm cấp hai Ma trận
nghịch đảo của cho ta các phương sai của ước lượng hợp lý cực đại.Phương sai của ước lượng hợp lý cực đại có thể thu được từ ma trận
Hessian, H là ma trận vuông cấp p+2 Toàn bộ ma trận Hessian, được ký
hiệu là các đạo hàm riêng cấp hai, được cho bởi:
Trang 31cực đại ( ', )' , và có nghịch đảo âm thì ta sẽ nhận được ma trận phương
sai - hiệp phương sai được ký hiệu bởi S
4.2 Sự phù hợp của thống kê hợp lý
Trang 32Để kiểm tra sự phù hợp của mô hình CGPS, cũng giống trường hợp
hồi quy Poisson, ta dùng tỉ số hợp lý để kiểm tra mô hình, bài toán kiểm
định giả thuyết của chúng ta là
Thống kê tỉ lệ hợp lý có dạng
D 2( LL
23
Trang 33Ở đây LL ( ˆ0 , ˆ , y i ) R , LL( ˆ , ˆ, y i )U lần lượt là các hàm loga hợp lý được tính toán từ mô hình được hạn chế và không hạn chế các tham số đưa vào.
Với giả thuyết không (21), thống kê D trên có phân phố 2 với p bậc tự do.
4.3 Kiểm định tham số hồi quy và các tham số phân tán
Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồiquy Poisson tổng quát được xây dựng chính xác và phù hợp với tập số liệu
thì ước lượng hợp lý cực đại (
luon tồn tại với (',)' và thu được kết quả tiệm cận chuẩn sau:
Từ đó giúp ta có các kết luận về các hệ số hồi quy và các tham sốphân tán
Kiểm định hệ số phân tán
Hiện tượng mất theo dõi có thể ảnh hưởng đến mô hình không, môhình cũng có thể dẫn tới mô hình hồi quy Poisson tổng quát, ta có bài toánkiểm định
Nếu giả thiết H 0 đúng, D có phân phối 2 với một bậc tự do
Kiểm định các tham số hồi quy
Để kiểm định các hệ số mũ J , j = 1, 2, …, p ta có bài toán
H: J =0;H1: J 0
Thống kê cho giả thuyết không là
ˆ
Z
Trang 3424
Trang 35Ở đây, ˆ j mle là ước lượng hợp lý cực đại của hệ số J , s( ˆ j mle ) là sai sốchuẩn của các ước lượng này, được xác định từ ước lượng của ma trận
phương sai – hiệp phương sai, S2 ( ˆ , ) Dưới giả thuyết không, thống
kê Z có phân bố tiệm cận chuẩn
25
Trang 365 Phân tích hoạt động tín dụng tiêu dùng
5.1 Mô tả số liệu
Chương này có định hướng tới việc sử dụng mô hình hồi quy Poisson
để phân tích thực trạng của một loại hình tín dụng đang được ưa chuộng ở
Việt Nam, tín dụng tiêu dùng tại công ty TNHH MTV TÀI CHÍNH VIỆT –
SOCIÉTÉ GÉNÉRALE SG VIETFINANCE , chi nhánh Hà Nội
Tập đoàn Société là một trong những tập đoàn tài chính hàng đầu ởChâu Âu, Société Générale trở thành một tập đoàn vững chắc với lịch sửhoạt động gần 150 năm mà tiền thân là ngân hàng được thành lập vào ngày
4 tháng 5 năm 1864, ngày được Napoleon ký cấp phép, dẫn đầu trong 3 lĩnhvực lớn là: Dịch vụ tài chính, Quản lý đầu tư Toàn cầu và Ngân hàng Để
mở đầu cho sự mở rộng không ngừng trên thị trường quốc tế, tập đoànthành lập mở văn phòng thường trực tại Luân Đôn năm 1871 Năm 1913tập đoàn đã có hơn 1000 chi nhánh và 122.000 cổ đông, năm 1920 SociétéGénérale đã trở thành tập đoàn dẫn đầu tại Pháp, năm 1940 SociétéGénérale mở chi nhánh tại New York và Buenos Aires Đến năm 1954Société Générale đã được quốc hữu hoá nhưng đã có trên 40 năm thuộcquyền sở hữu của một cổ đông duy nhất là Nhà nước Pháp Kể từ khi ra đờiđến nay, tập đoàn vẫn không ngừng mở rộng hoạt động của mình sang cácnước Đông Âu, châu Á, Việt Nam được lựa chọn là điểm đến cho sự phát
triển ngành tín dụng tiêu dùng của tập đoàn tài chính từ năm 2007.
Tháng 5 năm 2007 Société Générale đề nghị ngân hàng nhà nước ViệtNam cấp phép và vận hành công ty tài chính tín dụng khách hàng phi ngânhàng dưới tên gọi là: “Công ty TNHH MTV Tài chính Việt SociétéGénérale – SG VietFinance”, tháng 9 năm 2007 công ty khai trương hoạtđộng tại Việt Nam
+ Tên công ty: Công ty TNHH MTV Tài chính Việt Société Générale
– SG VietFinance viết tắt là SGVF