Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt Chu Thị Hồng Đăng Trường Đại học Khoa học Tự nhiên Luận văn Thạc sĩ ngành: Lý thuyết xác suất và thống kê;
Trang 1Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt
Chu Thị Hồng Đăng
Trường Đại học Khoa học Tự nhiên Luận văn Thạc sĩ ngành: Lý thuyết xác suất và thống kê; Mã số: 60 46 15
Người hướng dẫn: PGS.TS Hồ Đăng Phúc
Năm bảo vệ: 2012
Abstract: Trình bày một số kiến thức chuẩn bị về xác suất: phần tử ngẫu nhiên và
phân phối xác suất; một số đặc trưng của đại lượng ngẫu nhiên; một số phân phối thường gặp Nghiên cứu quá trình ngẫu nhiên: một số quá trình ngẫu nhiên thường gặp Giới thiệu về hồi quy Poisson Mô hình hồi quy Poisson tổng quát Phân tích hoạt
động tín dụng tiêu dùng
Keywords: Toán học; Phân tích thống kê; Hoạt động kinh doanh; Công ty Tài chính
Việt
Content
1 Một số kiến thức chuẩn bị về xác suất
1.1 Phần tử ngẫu nhiên và phân phối xác suất
Định nghĩa 1 Giả sử (, A, P) là không gian xác suất cơ bản và (E, F) là không gian đo
được Ta gọi X : E là một biến ngẫu nhiên nếu nó là một ánh xạ đo được (tức là X -1 (F)
A)
Đặc biệt, nếu E = R n
và F = B n là - đại số Borel của R n thì ta gọi X là véc tơ ngẫu nhiên n chiều và viết X thay cho X Trong trường hợp n = 1, ta viết X thay cho X
và gọi X
là đại lượng ngẫu nhiên
Định nghĩa 2 Phân bố xác suất (hay còn gọi là phân phối xác suất) của một biến ngẫu nhiên
X (trên R) là phân bố xác suất P X trên R, với - đại số là - đại số Borel B của R, cho bởi công sau:
P F (B) = P(X -1 (B)
với mọi tập con B của R nằm trong - đại số B
Định nghĩa 3 Hàm phân phối xác suất của phân bố xác suất P X trên R của một biến ngẫu nhiên X là hàm Fx: R [0; 1] cho bởi công thức
FX : P X x ( ) P (( , ]) x
Trang 2Định lý 1 Hàm phân phối F X của một phân bố xác suất tuỳ ý trên R thoả mãn 4 tính chất sau:
1 Đơn điệu không giảm: F X (x)F X (y) với mọi x y
2 Liên tục bên phải: lim0 F X(x)F X(x) với mọi x,
3.limxF X(x)0
Ngược lại, mọi hàm số thực trên R thoả mãn 4 tính chất trên là hàm phân phối của một phân bố xác suất trên R
Định nghĩa 4 Một phân bố P X trên R được gọi là liên tục nếu như hàm phân phối xác suất
F X là hàm liên tục trên R Nó được gọi là liên tục tuyệt đối nếu như tồn tại một hàm
sốX:RR khả tích và không âm, sao cho với mọi a R ta có
F a X( ) P X( , )a a X( )x dx
Hàm X : R R + thoả mãn như trên gọi là hàm mật độ của P X.
Định nghĩa 5 Một phân bố xác suất P X được gọi là rời rạc nếu như nó tập trung trên các
điểm hạt của nó: P X (A X ) = 1, P X (R\ A X ) = 0
1.2 Một số đặc trưng của đại lượng ngẫu nhiên
Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X, ký hiệu là E(X),
chính là trung bình cộng có trọng số của biến ngẫu nhiên đó
Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác suất trên R thì có
cùng kỳ vọng Bởi vậy, thay vì nói về kỳ vọng của biến ngẫu nhiên, ta có thể nói về kỳ vọng
của phân bố xác suất trên R Trong trường hợp không gian xác suất là một tập hợp hữu hạn
hoặc đếm được, ={1,2 } với xác suất P(i),i P(i)1thì công thức tính giá trị kỳ
vọng của một biến ngẫu nhiên X là
( ) ( i) ( i)
i
E X X P
Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết dưới dạng phân
Lesbesgue của X trên không gian xác suất (, R):
X
E ( )
Định nghĩa 7 Phương sai của biến ngẫu nhiên X là đại lượng:
D(X) = E[X-E(X)] 2
còn D X( ) được gọi là độ lệch tiêu chuẩn của X
1.3 Một số phân phối thường gặp
Trang 3Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế
Định nghĩa 8 Giả sử a, b là hai số thực, với b > a Khi đó phân phối đều trên đoạn thẳng [a;
b] là phân bố liên tục với hàm mật độ xác suất được cho như sau:
b x a
x khi
b x a khi a
b x
c a
ho 0
1 )
(
Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b) Trong định nghĩa trên ta có thể thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b) hoặc nửa đóng, nửa mở cũng được
Ví dụ, vị trí của một người đi trên đường có thể mô hình hoá bằng một biến ngẫu nhiên với phân bố đều, nếu chúng ta không có thông tin gì ngoài thông tin người đi bộ trên quãng đường đó
Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều: Không gian xác suất là một miền của Rn (n2), và xác suất một miền con (n chiều) tỷ lệ thuận với thể tích (n chiều) của miền con đó
Định nghĩa 9 Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với trung bình và độ lệch chuẩn là phân bố liên tục với hàm mật độ sau:
.
2 2
2 2
x
x e xp
Ký hiệu phân phối chuẩn trên đây là N(,2), phân bố chuẩn với = 0, 2= 1 được gọi là chuẩn tắc Phân bố chuẩn là một trong những phân bố quan trọng nhất vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu khá giống phân bố chuẩn
Định nghĩa 10 Phân bố mũ với tham số là phân bố xác suất liên tục tuyệt đối trên R cho bởi hàm mật độ sau:
0 0
0 )
(
x khi x khi e
x
x
Định nghĩa 11 Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với tham số n, p nếu
hàm phân bố xác suất của nó có dạng
P X k C p p k n p
Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị thức lần lượt là np và
np (1-p)
Định nghĩa 12 Một biến ngẫu nhiên Y được gọi là phân phối Poisson với tham số >0 nếu
nó nhận các giá trị nguyên y = 0, 1, 2,… với xác suất
!
y
e
y
(1)
Trang 4Khi đó ta ký hiệu Y P( )
Phân phối Poisson là giới hạn của phân bố nhị thức với tham số p = / n và n, khi n tiến tới vô cùng
2 Quá trình ngẫu nhiên
2.1 Một số quá trình ngẫu nhiên thường gặp
Chuyển động Brown
Quá trình Wiener W t có ba đặc điểm:
1 W 0 = 0
2 W t liên tục hầu chắc chắn
3 W t có số gia độc lập với phân phối W t - W s ~ N(0, t - s) (với 0 s t)
, (
N ) biểu thị phân phối chuẩn với giá trị trung bình và phương sai 2 Điều kiện quá trình có số gia độc lập có nghĩa là nếu 0s1t1s2t2 thì W t1 - W s1 và W t2-
W s2 là những biến ngẫu nhiên độc lập
Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trình Poisson, sẽ được đề cập
chi tiết ở mục sau
3 Giới thiệu về hồi quy Poisson
3.1 Phân bố Poisson
Phân phối Poisson là phân phối được đặt theo tên nhà toán học người Pháp Siméon
Denis Poisson (1781 - 1840) Như trên ta đã nói, một biến ngẫu nhiên Y được gọi là có phân
phối Poisson với tham số > 0 nếu nó nhận các giá trị nguyên y = 0, 1, 2,… với xác suất
!
y
e
P Y y
y
Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng:
E(Y) = Var (Y) =
Một tính chất quan trọng của phân phối Poisson là tổng của các biến ngẫu nhiên
Poisson độc lập cũng có phân phối Poisson Cụ thể, nếu Y 1 , Y 2 là các biến ngẫu nhiên độc lập,
i
Y ~ P( ),i i1; 2 thì Y1Y2 ~P( 1 2) Kết quả này có thể mở rộng cho tổng nhiều hơn hai biến ngẫu nhiên Poisson
Giả sử ta có ni nhóm quan sát có cùng phương sai, ký hiệu Y ij là số lượng biến cố của
quan sát thứ j trong lớp nhóm thứ i Trên các nhóm đó, Y i là toàn bộ các quan sát của nhóm
thứ i Với giả thiết thông thường về tính độc lập và Y ij ~ P(i) với j = 1,2, n i thì Y i ~ ( P n ii)
3.2 Quá trình hồi quy Poisson
Trang 5Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa theo sự xuất hiện
của các biến cố Một quá trình ngẫu nhiên N(t) là một quá trình Poisson (thời gian - thuần
nhất, một chiều) nếu:
1 N (0) = 0
2 Số các biến cố xảy ra trong hai khoảng thời gian không giao nhau là các biến ngẫu nhiên độc lập
3 Xác suất của số biến cố trong một khoảng con [t, t + ] nào đó được cho bởi công thức
! ) ( ))
( ) (
k e k t N t
N P
k
trong đó số dương là một tham số cố định, được gọi là tham số cường độ, có nghĩa là, biến
ngẫu nhiên N(t+ ) - N(t) mô tả số lần xuất hiện trong khoảng thời gian [t, t+ ] tuân theo một phân bố Poisson với tham số
3.3 Mô hình loga tuyến tính cho quá trình Poisson
Giả sử ta có một mẫu bao gồm n quan sát Y 1 , Y 2 ,…,Y n là các biến ngẫu nhiên độc lập có
phân phối Poisson, Y i ~ P(i ), ta mong muốn i phụ thuộc vào một véc tơ các biến độc lập,
ta có thể bắt đầu bằng mô hình tuyến tính đơn giản
Tuy nhiên vế phải của (3) là một số thực bất kỳ trong khi vế trái là giá trị trung bình không âm Phương án thay thế giải quyết vấn đề này là ta nghĩ đến logarit của giá trị trung bình Ta lấy ilog(i) và xét mô hình tuyến tính
i x i'j
)
Trong mô hình này jbiểu diễn sự thay đổi của loga giá trị trung bình ứng với mỗi thay đổi của xj Lấy luỹ thừa cơ số e hai vế của (4) ta thu được mô hình
ie xp x i'j (5)
Để ước lượng các tham số của phân phối Poisson trong mô hình trên, người ta dùng phương pháp ước lượng hợp lý cực đại Trước tiên ta xây dựng hàm hợp lý là tích các giá trị
của biểu thức (2) lấy trên n quan sát độc lập có phân phối Poisson với tham số i thoả mãn (3), tức là
! )
( 1
i yi i i n
i y e
L
Lấy loga hai vế ta có
Trang 6
i
i i i
y LogL
1
) log(
)
Ở đó i phục thuộc vào các biến độc lập xi và là vecto gồm p tham số được cho ở (3) Lấy đạo hàm riêng hai vế theo từng phần tử của và cho chúng bằng 0 Nghiệm của các phương trình đó cho ta ước lượng hợp lý cực đại của mô hình loga tuyến tính Poisson Có thể chỉ ra rằng các nghiệm đó thoả mãn phương trình
X'yY'ˆ (8)
Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể bao gồm hằng số) Y biến đáp ứng, ˆ là một vectơ của giá trị dự báo, được tính toán thông qua ước lượng ˆ bằng cách lấy exp mũ của dự báo tuyến tính X'ˆ
Một độ đo đánh giá mức độ phù hợp của mô hình với tập giá trị quan sát là độ chệch có dạng
n
i
i i i i
i y y y
D
1
ˆ ( ) ˆ log(
Với cỡ mẫu lớn, D là đại lượng có phân phối xấp xỉ phân phối khi bình phương với
(n-p) bậc tự do, ở đây n là số lượng quan sát, p số lượng tham số Do vậy D thường được sử
dụng trực tiếp để kiểm tra tính đúng đắn của mô hình
Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của Peason
i i i p
y X
ˆ ) ˆ
2
Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối khi bình phương
với (n-p) bậc tự do Hai độ đo trên được dùng để kiểm định sự phù hợp của mô hình với dữ
liệu quan sát được
4 Mô hình hồi quy Poisson tổng quát
Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động của p biến mô tả (x i1 , x i2 ,…x ip ) Mô hình hồi quy Poisson tổng quát được xây dựng bởi
Famoye nói rằng phân phối của Y i lấy điều kiện theo (x i1 , x i2 ,…x ip ) và được định nghĩa bằng
i
y
i i i i i
i i i
y i = 0,1,…
với x 1 = (1, x i1 ,… x ip ) là véctơ (p + 1) 1 chiều, i 0 là giá trị trung bình phụ thuộc của Y i với điều kiện x i Ta cũng có phân tích phổ biến cho ilà
Trang 7E Y x( |i i)i e xp x( i t) (11)
Phương sai của Y được cho bởi
/
V a r Y x (12)
Ở đây (0,1, p)là một véc tơ p + 1 chiều của các tham số hồi quy, tham số
là một độ đo của hàm mật độ Khi = 0 mô hình hồi quy Poisson tổng quát ở (10) trở thành
mô hình hồi quy Poisson bình thường Với > 0 mô hình hồi quy Poisson tổng quát có thể
sử dụng cho mô hình có số liệu đếm có độ phân tán vượt trội, tương tự < 0, mô hình hồi quy Poisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu hụt Với một vài quan sát trong tập số liệu, giá trị Yi có thể bị mất theo dõi, từ đó mô hình hồi quy Poisson tổng quát mất theo dõi được Faymoye và Wang đề xuất năm 2004
Nếu quan sát không bị mất theo dõi thì Y i = y i
Nếu quan sát mất theo dõi thì Y i y i , và phân phối được áp dụng cho số liệu mẫu là
phân phối nhị phân d i được xác định như sau: d i = 1 nếu Yi yi và d i = 0 nếu ngược lại
Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi:
0
i i
i
d y
d
i i i i
j
Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được sắp xếp trong
véctơ (',), và nó có thể được ước lượng bằng phương pháp hợp lý cực đại như trình bày tiếp sau đây
4.1 Ước lượng tham số (',)
Hàm hợp lý của (13) được cho bởi
i
y n
i i
L y f y f j
Hàm log hợp lý là:
i
y
LL y d f y d f j
Thay công thức hàm mật độ ở (13) vào (15) ta thu được
n
i i i
i i
i i
y LL
1
) 1 ( ) 1 log(
) 1 ( 1
log ) 1 ( )
, ,
(
n j
y j i
i
j f d
0
1
0 ( ) 1
Bằng cách lấy đạo hàm riêng theo từng tham số và cho chúng bằng 0, ta thu được
Trang 80 )) ( 1
(
) ) ( (
) ) 1 ( )(
1 ( )
, ,
(
1
1 0 1 0
1
n
i
y j y j i n
i
i i i i i i
i i
j f j f d
x y
d y
(17)
n
i i i i i i i i i i
y y y y
d y
LL
1
2 ) ) 1 (
) (
) 1 (
) 1 ( ) ) 1 ( )(
1 ( )
, ,
(
0
)) ( 1
(
) ) ( (
0 1 0
n
j y j
i i
i
j f j f
Trong đó:
) 1 (
) ( ) ( )
(
2 i i i
x j
j f j
f
(19)
, ) 1 (
) ( 1
) 1 ( ) 1 (
) ( ) ( )
(
2
i i i i
j j j j
j f j
f
(20)
Hệ phương trình hợp lý trên không tuyến tính với các tham số ,, chúng được giải bằng cách dùng phương pháp lặp Newtơn - Raphson
Lấy đạo hàm riêng của (16) ta nhận được ma trận thông tin Fisher I(,) bằng cách lấy kỳ vọng của hiệu các đạo hàm cấp hai Ma trận nghịch đảo của I(,) cho ta các phương sai của ước lượng hợp lý cực đại Phương sai của ước lượng hợp lý cực đại có thể thu được từ
ma trận Hessian, H là ma trận vuông cấp p+2 Toàn bộ ma trận Hessian, được ký hiệu là các
đạo hàm riêng cấp hai, được cho bởi:
) ) , , ( ( ) ) , , ( (
) ' ) , , ( ( ) ' ) , , ( ( )
(
2 2 2
2 2
22 21 12 11
i i
i i
y LL
y LL
y LL
y LL
H H H H
Ở đây,
n
i
i i i i
i i i
i
x x y d
y LL
H
1
' 3
2
) 1 ( 2 1
( 1 ( '
) , ,
, ))
( 1
(
) ' ) ( ( )
) ( ( )
' ) ( ( )) ( 1
(
0
2 1
0
1 0 1
0 1
0 2
n
j y
j
y j y
j y
j
j f
j f j
f j
f j
f
n
i
i i i i i i i
x y
d y
LL H
1
3 2
) 1 (
) (
( 1 ( 2 ) , , (
Trang 9, ))
( 1
(
) ) ( ( )
) ( ( )
) ( ( )) ( 1
(
0
2 1
0
1 0 1
0 1
0 2
n
j y
j
y j y
j y
j
j f
j f j
f j
f j
f
n
i i i
i i i i i
y y y y
d y
LL H
1
3 2 1 2 1 2
2 2
2 2
) 1 (
) (
2 ) 1 (
) 1 ( )
1 ( ( 1 ( )
, , (
, ))
( 1
(
) ) ( ( )
) ( ( )) ( 1
(
0
2 1
0
1 0
2 1
2
n
j y
j
y j y
j
j f
j f j
f j
f
H21= H'12
, )
) 1 (
) ( ) ) 1 (
2 1
( ) ( '
)
2 3
2
i i i
i i
i i
x x j
j j
f j
f
i i i i i
i i
i i
i i
x j
j j j j j
j j
f
j
f
2 2
3 2
) 1 ( ( ) 1 ) 1 ( 1
( ( ) 1 ( )
1 (
) ( 2 )
(
)
(
2 3
2 2 2 2 2 2
2
) 1 (
) ( ) 1 ) 1 ( 1
( )
1 ( ( 2 ) 1 (
) 1 ( )
1 ( ) (
)
(
i i i i
i i
i i
i
j j j j j
j j j j j
f
j
f
Trong trường hợp ma trận Hessian được tính toán tại ước lượng hợp lý cực đại )'
ˆ
,
'
(
, và có nghịch đảo âm thì ta sẽ nhận được ma trận phương sai - hiệp phương sai được ký hiệu bởi 2 1
) ˆ ( ˆ
,
ˆ
4.2 Sự phù hợp của thống kê hợp lý
Để kiểm tra sự phù hợp của mô hình CGPS, cũng giống trường hợp hồi quy Poisson, ta dùng tỉ số hợp lý để kiểm tra mô hình, bài toán kiểm định giả thuyết của chúng ta là
0
Thống kê tỉ lệ hợp lý có dạng
2( ( ˆ0, ,ˆ ) ( , ,ˆ ˆ ) )
i R i U
Ở đây LL( ˆ0, ,ˆ y i) ,R LL( , , ˆ ˆ y i U) lần lượt là các hàm loga hợp lý được tính toán từ
mô hình được hạn chế và không hạn chế các tham số đưa vào Với giả thuyết không (21),
thống kê D trên có phân phố 2 với p bậc tự do
4.3 Kiểm định tham số hồi quy và các tham số phân tán
Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồi quy Poisson tổng quát được xây dựng chính xác và phù hợp với tập số liệu thì ước lượng hợp lý cực
Trang 10đạiˆ (ˆ',ˆ)'cực đại hàm loga hợp lý của mô hình luon tồn tại với (',)' và thu được kết quả tiệm cận chuẩn sau:
((1/ ) (ˆ,ˆ)) ),
; 0 ( ) ˆ
n
Từ đó giúp ta có các kết luận về các hệ số hồi quy và các tham số phân tán
Kiểm định hệ số phân tán
Hiện tượng mất theo dõi có thể ảnh hưởng đến mô hình không, mô hình cũng có thể dẫn tới
mô hình hồi quy Poisson tổng quát, ta có bài toán kiểm định
0 :
; 0 :
0 H
Đây là bài toán điểm định sự quan trọng của tham số Sự xuất hiện của trong mô
hình hồi quy Poisson tổng quát được khẳng định nếu giả thuyết H 0 bị bác bỏ, thống kê sử
dụng cho H 0 là:
)
) , ˆ ( )
, ˆ ( (
Nếu giả thiết H 0 đúng, D có phân phối 2 với một bậc tự do
Kiểm định các tham số hồi quy
Để kiểm định các hệ số mũ J, j = 1, 2, …, p ta có bài toán
H : J = 0; H1: J 0 Thống kê cho giả thuyết không là
ˆ
(
ˆ
)
j mle
mle J
Z
s
Ở đây, ˆ
j mle
là ước lượng hợp lý cực đại của hệ số J, s( ˆ
j mle
) là sai số chuẩn của các ước lượng này, được xác định từ ước lượng của ma trận phương sai – hiệp phương sai, S2
( ˆ , ) Dưới giả thuyết không, thống kê Z có phân bố tiệm cận chuẩn
5 Phân tích hoạt động tín dụng tiêu dùng
5.1 Mô tả số liệu
Số lượng sản phẩm khách hàng mua và có tham gia dịch vụ cho vay của công ty là nhân
tố chính để đánh giá được hiệu quả kinh doanh của công ty, và cũng góp phần đánh giá hiệu quả kinh doanh của các đại lý bán hàng liên kết Do vậy, trong mô hình, biến quan sát phụ thuộc Y được chọn là tổng số sản phẩm được bán bằng dịch vụ cho vay trả góp trong một đơn
vị thời gian tại một địa điểm bán hàng