1 .GI ỚI THI ỆU
2. TỔ NG QUAN CÁC NGHIÊ NC ỨU TRƯỚC ĐÂY
3.4 PHƯƠNG PHÁP NGHIÊN CỨU
Số liệu sau khi được thu thập và sau khi tiến hành sơ lọc sẽ được phân tích bằng cả hai phương pháp, phân tích đơn biến và phân tích đa biến, các bảng thống kê mô tả cho chúng ta cái nhìn khái qt sơ lược và đặc tính của các cơng ty ở trong mẫu. Sau đó ta sử dụng kiểm định T-Test cho từng mẫu độc lập để xem xét sự khác biệt giữa giá trị trung bình giữa hai nhóm cơng ty có phịng ngừa rủi ro và khơng có phịng ngừa rủi ro trong mẫu. Kiểm định T-Test mẫu độc lập cho phép tính tốn sự khác biệt mang ý nghĩa thống kê giữa các mẫu nhỏ và các tham số khơng có mối liên hệ với nhau. Liên quan đến phân tích đa biến, hồi quy logistic được sử dụng khi biến phụ thuộc là biến nhị phân (giới hạn, rời rạc và khơng liên tục).
3.4.1 PHÂN TÍCH ĐƠN BIẾN
Là dạng kiểm định sử dụng khi giá trị trung bình và độ lệch chuẩn chưa biết, và hai nhóm riêng biệt đang được so sánh. Ta dùng kiểm định T-Test. Cho hai quần thể
độc lập 1 và 2 với giá trị trung bình 𝜇𝜇1 và 𝜇𝜇2 và phương sai 𝜇𝜇2 chưa biết, để tìm hiểu xem 𝜇𝜇1 và 𝜇𝜇2 có khác nhau hay khơng ta lấy mẫu n1 và n2 từ hai quần thể đó, sau đó
ta có thể đo lường được các biến số:
Nhóm 1 Nhóm 2 Số đối tượng n1 n2 Trung bình 𝜇𝜇1 𝜇𝜇2 Phương sai 𝜇𝜇2 1 𝜇𝜇2 2 Độ lệch chuẩn S1 S2
Giả thuyết: H0: ∆ = 𝜇𝜇1 - 𝜇𝜇2 = 0 hay 𝜇𝜇1 = 𝜇𝜇2
Trong điều kiện không biết các giá trị trung bình và phương sai của quần thể, ước số thích hợp nhất quần thể chính là giá trị trung bình ��1 và 𝜇𝜇2 của mẫu 1 và mẫu 2, và trong trường hợp này độ khác biệt giữa hai giá trị trung bình ∆ chính là:
�� = ��1 − 𝜇𝜇2
Vì lấy mẫu nên d có thể biến thiên từ mẫu này sang mẫu khác nên vấn đề là ta sẽ đi tìm phương sai của d, và vì hai mẫu hồn tồn là độc lập nên hiệp phương sai sẽ bằng khơng vì vậy ta có suy ra phương sai của d là:
2 𝜇𝜇 = 𝜇𝜇2 + 𝜇𝜇2 và độ lệch chuẩn ���� = ���2 + 𝜇𝜇2
Nhưng vì những ước số đều dựa vào mẫu, cho nên ta phải điều chỉnh bằng cách chia phương sai cho số cỡ mẫu:
�𝜇�𝜇𝜇𝜇 = ���
2 + � �2
��1 ��2
Kiểm định T-Test là tỷ số giữa d trên SEd :
� � =
��
�𝜇�𝜇��
Ta có thể xem cơng thức trên là tỉ số của “tín hiệu” (signal) và “nhiễu” (SEd).
d phản ánh độ khác biệt giữa 2 nhóm, và SEd phản ánh độ nhiễu của d, nếu tỉ số t
cao chúng ta có bằng chứng nói tín hiệu nhiều hơn nhiễu (tức có ý nghĩa thống kê); nếu tỉ số t thấp dưới 1 chẳng hạn, chúng ta nói có bằng chứng để phát biểu tín hiệu thấp hơn nhiễu, và do đó độ khác biệt khơng có ý nghĩa thống kê.
Theo chứng minh của nhà thống kê học William Gossett, người phát kiến kiểm định t, nếu hai quần thể khơng khác nhau, thì giá trị của t tùy thuộc vào số cỡ mẫu (hay còn gọi là bậc tự do degrees of freedom), và có cơng thức như sau:
Bậc tự do : df = n1 + n2 - 2
𝜇
𝜇 1 2 1 2
Nếu giá trị (value) của t-test nằm ngồi khoảng tin cậy trên thì ta có thể nói rằng độ khác biệt giữa hai quần thể có ý nghĩa thống kê.
Bậc tự
do df dao động trong khoảngXác suất 95% tỉ số t sẽ dao động trong khoảngXác suất 99% tỉ số t sẽ
5 -2,57 đến 2,57 -4,03 đến 4,03 10 -2,23 đến 2,23 -3,17 đến 3,17 14 -2,14 đến 2,14 -2,98 đến 2,98 16 -2,12 đến 2,12 -2,92 đến 2,29 18 -2,10 đến 2,10 -2,88 đến 2,88 20 -2,08 đến 2,08 -2,84 đến 2,84 24 -2,06 đến 2,06 -2,80 đến 2,80 30 -2,04 đến 2,04 -2,75 đến 2,75 34 -2,03 đến 2,03 -2,73 đến 2,73 40 -2,02 đến 2,02 -2,70 đến 2,70 50 -2,01 đến 2,01 -2,68 đến 2,68 60 -2,0 đến 2,0 -2,66 đến 2,66 70 -2,0 đến 2,0 -2,65 đến 2,65 80 -2,0 đến 2,0 -2,64 đến 2,64 90 -1,99 đến 1,99 -2,64 đến 2,64 100 -1,98 đến 1,98 -2,64 đến 2,64 500 -1,96 đến 1,96 -2,64 đến 2,64 1000 -1,96 đến 1,96 -2,64 đến 2,64 Bảng 3.4 Tỉ số t cho từng bậc tự do để bác bỏ H0
3.4.2 PHÂN TÍCH ĐA BIẾN
Hồi quy logistic là mơ hình hồi quy đặc biệt khi biến phụ thuộc là một biến nhị phân chỉ nhận hai giá trị 0 và 1 . Mơ hình hồi quy này được sử dụng để dự đoán xác suất để xảy ra một sự việc dựa vào thông tin các biến độc lập trong mơ hình Xác suất : là khả năng xảy ra vụ việc ký hiệu là : P
Khi chúng ta có biến phụ thuộc chỉ có hai lựa chọn Y = 1 và Y = 0 , xác suất để sự việc đó xảy ra kí hiệu P (Y = 1) = P, và ta sử dụng đại lượng quen thuộc là
Odds của sự việc xảy ra chứ không phải là xác suất để sự việc đó xảy ra:
𝜇𝜇𝜇𝜇𝜇𝜇𝜇𝜇 =
��
1 − 𝜇𝜇
(1)
Như vậy theo cơng thức này thì Odds là một hàm số theo P, và Odds sẽ lớn hơn hoặc bằng 0 và sẽ không xác định khi P = 1
Từ (1) ta có :
𝜇𝜇 =
��������
𝜇𝜇𝜇𝜇𝜇𝜇𝜇𝜇 + 1
Như vậy xác suất P là một hàm số theo Odds, nếu ta có P là xác suất xảy ra sự kiện thì (1 − P) là xác suất không xảy ra sự kiện, xác suất P được đo lường như sau : 𝜇𝜇 = 1 1 + 𝜇𝜇−𝜇𝜇𝜇𝜇 = 1 1 + ��−(��0+��1 ��1+��2 𝜇𝜇2+⋯���� 𝜇𝜇𝜇𝜇 ) Với �� = ��0 + 𝜇𝜇1 ��1 + 𝜇𝜇2 𝜇𝜇2 + ⋯ 𝜇𝜇�� 𝜇𝜇𝜇𝜇 ; 𝜇𝜇� � ∈ (−∞ , +∞) , ��� � ∈ (0,1), �𝜇𝜇𝜇 (�1��,����)
Odds của hai trường hợp trên sẽ là:
�������� = ���� = 1 − 𝜇𝜇𝜇𝜇 1 + ����� � 1 + 𝜇𝜇−𝜇𝜇𝜇𝜇 = ����� �
Lấy log cơ số e của Odds ta có dạng hàm mơ hình hồi quy Logit:
��𝜇𝜇 ��� �= ln �