Nhóm mình có 5 thành viên gồm có:+ Bùi Thị Hồng Nhung+ Trần Thị Linh+ Trần Thị Thanh Tâm+ Nguyễn Thị Anh Thư+ Nguyễn Gia Thanh Hiện tại nhóm chúng mình đã phân chia nhiệm vụ cho mỗi ngườ
Trang 2MỤC LỤC
Phần I/ GIỚI THIỆU CHUNG 3
1 Lời mở đầu 3
2.Mục tiêu của bài tiểu luận: 3
3 Đối tượng và phạm vi nghiên cứu: 3
4 Phương pháp nghiên cứu: 3
Phần II/ NỘI DUNG CHÍNH 4
A/ PHÂN TÍCH THỐNG KÊ MÔ TẢ 4
I Đặt vấn đề: 4
II Phân tích thống kê mô tả: 5
1 Đối với biến phần trăm người lái xe dưới 21 tuổi được cấp bằng lái: 5
2 Đối với biến tỷ lệ tai nạn giao thông trên mỗi 1000 bằng lái xe: 6 B/ SỬ DỤNG HỒI QUY ĐỂ PHÂN TÍCH DỮ LIỆU 7
I Dự đoán quan hệ: 7
II Xác định quan hệ : 8
III Kiểm định tính có ý nghĩa của hàm hồi quy: 8
1 Khoảng tin cậy về hệ số độ dốc/ hệ số góc: 8
2 Kiểm định ý nghĩa của hệ số độ dốc 9
IV Kiểm tra tính đúng đắn của mô hình hồi quy tuyến tính: 9
1.Kiểm tra phần dư: 9
2.Kiểm tra sự vi phạm giả định phương sai phần dư bằng nhau 10
Phần III/ KẾT LUẬN: 12
Trang 3Phần I/ GIỚI THIỆU CHUNG
1 Lời mở đầu
Xin chào cô và các bạn, sau đây là phần trình bày về bài tiểu luận của nhóm chúng mình Nhóm mình có 5 thành viên gồm có:
+ Bùi Thị Hồng Nhung
+ Trần Thị Linh
+ Trần Thị Thanh Tâm
+ Nguyễn Thị Anh Thư
+ Nguyễn Gia Thanh
Hiện tại nhóm chúng mình đã phân chia nhiệm vụ cho mỗi người và chi tiết nhiệm vụ của mỗi bạn như sau:
+ Bùi Thị Hồng Nhung (Sử dụng hồi quy để phân tích dữ liệu)
+ Trần Thị Linh (Thống kê mô tả)
+ Trần Thị Thanh Tâm (Làm slide)
+ Nguyễn Thị Anh Thư (Giới Thiệu chung)
+ Nguyễn Gia Thanh (Kết luận và đưa ra giải pháp)
Lý do chọn đề tài: Chúng mình muốn tập trung nghiên cứu và phân tích kĩ lưỡng về số
liệu của phần trăm người dưới 21 tuổi được cấp bằng lái xe liệu có liên quan tới tỷ lệ tai nạn trên 1000 bằng lái tại 42 thành phố ở Hoa Kỳ dựa trên các số liệu sẵn có từ Bộ Giao Thông Vận Tải Hoa Kỳ Qua đây có thể biết thêm chi tiết về tỷ lệ tài xế dưới 21 tuổi được cấp phép trên mỗi 1000 giấy phép tại nơi đây
2.Mục tiêu của bài tiểu luận:
Mục tiêu của bài tiểu luận của chúng mình là nhằm nghiên cứu về mối quan hệ giữa tỷ lệ tai nạn chết người và tỷ lệ tài xế dưới 21 tuổi Qua đó có thể đưa ra các giải pháp để tỷ lệ tai nạn có thể giảm xuống hoặc giảm tỷ lệ tài xế dưới 21 tuổi nhằm nâng cao chất lượng giao thông ở Hoa Kỳ
3 Đối tượng và phạm vi nghiên cứu:
+ Đối tượng nghiên cứu: Tài xế lái xe dưới 21 tuổi và tỷ lệ số vụ tai nạ giao thông trên
1000 bằng lái xe
+ Phạm vi nghiên cứu: Bài gồm 2 biến dựa trên số liệu có sẵn của Bộ Giao Thông Vận Tải Hoa Kỳ nghiên cứu về số vụ tai nạn chết người ở trên mỗi 1000 giấy phép và tỷ lệ người lái xe dưới 21 tuổi được cấp phép trong một mẫu ở 42 thành phố của Hoa Kỳ Các
dữ liệu đã được thu thập trong khoảng thời gian một năm trở lại đây
4 Phương pháp nghiên cứu:
+ Sử dụng phần mềm Excel để đồ họa hóa số liệu và các công cụ kiểm định
+ Sử dụng hồi quy có sẵn trong phần mềm Excel để đưa ra nhận xét và đánh giá
Trang 4Phần II/ NỘI DUNG CHÍNH
A/ PHÂN TÍCH THỐNG KÊ MÔ TẢ
I Đặt vấn đề:
Trong một nghiên cứu về an toàn giao thông của Bộ Giao thông Vận tải Hoa Kỳ đã thu thập dữ liệu về số vụ tai nạn chết người trên mỗi 1.000 giấy phép và tỷ lệ người lái xe dưới 21 tuổi được cấp phép trong một mẫu gồm 42 thành phố Dữ liệu được thu thập trong khoảng thời gian một năm
Phần trăm người
dưới 21 tuổi được
cấp bằng
Tỷ lệ tai nạn trên mỗi 1000 bằng được cấp
Phần trăm người dưới 21 tuổi được cấp bằng
Tỷ lệ tai nạn trên mỗi 1000 bằng được cấp
Từ bảng dữ liệu đã cho, ta nhận thấy rằng dường như có sự liên quan giữa phần trăm người có bằng lái xe dưới 21 tuổi và tỷ lệ tai nạn giao thông trên mỗi 1000 bằng lái xe
Để biết được dự đoán này có đúng hay không, ta sẽ sử dụng phân tích hồi quy để tìm ra được sự tương quan này, nếu nhận định này là đúng trên cơ sở khoa học thì ta sẽ có giải pháp và phương hướng để giảm tỉ lệ tai nạn giao thông trong tương lại Trước tiên, ta sẽ
sử dụng thống kê mô tả để đưa ra các nhận xét về bảng dữ liệu
Trang 5II Phân tích thống kê mô tả:
1 Đối với biến phần trăm người lái xe dưới 21 tuổi được cấp bằng lái:
Đây là biến dữ liệu định lượng nên ta sẽ sử dụng bảng phân phối tần số để phân tích và biểu đồ Histogram minh họa cho biến này
Phần trăm người lái xe dưới 21 tuổi được cấp
phép Tần số Tần số (%) Tần số tích lũy (%)
BẢNG PHÂN PHỐI TẦN SỐ CỦA PHẦN TRĂM NGƯỜI LÁI XE DƯỚI 21 TUỔI
ĐƯỢC CẤP BẰNG LÁI Nhận xét: Phần trăm người lái xe dưới 21 tuổi được cấp phép rơi vào mức 8-9 là nhiều nhất; ở mức 16-18, 12-13, 14-15 thường xuyên hơn và thấp nhất ở mức 10-11
8-9 10-11 12-13 14-15 16-18 More
0
2
4
6
8
10
12
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
11
7
0
Percent Under 21
Frequency Cumulative %
BIỂU ĐỒ HISTOGRAM CỦA PHẦN TRĂM NGƯỜI LÁI XE DƯỚI 21 TUỔI ĐƯỢC
CẤP PHÉP Nhận xét chung:
Trang 6- Biểu đồ có dạng nghiêng hoàn toàn về một phía (giảm dần từ trái qua phải) – tức tần số người lái xe dưới 21 tuổi được cấp phép giảm dần khi tỷ lệ được cấp phép tăng lên
- Phần trăm người lái xe dưới 21 tuổi được cấp phép trong một mẫu gồm 42 thành phố có tần số cao nhất ở mức tỷ lệ 8-9 và thấp hơn ở các mức tỷ lệ 10-11, 12-13, 14-15, 16-18 Tuy nhiên, ở các mức tỷ lệ cao thì có tần số gần bằng và bằng nhau Từ đó, có thể thấy tỷ
lệ người lái xe dưới 21 tuổi được cấp phép rất ít biến động
2 Đối với biến tỷ lệ tai nạn giao thông trên mỗi 1000 bằng lái xe:
BIỂU ĐỒ BOX PLOT SỐ VỤ TAI NẠN CHẾT NGƯỜI TRÊN MỖI 1.000 GIẤP
PHÉP Phân phối dữ liệu lệch phải
IQR = 1.83225
Lower = Q1 - 1.5*IQR = -1.756375
Upper = Q3 + 1.5*IQR = 5.572625
- Bộ dữ liệu không có giá trị đột biến
Giá trị nhỏ nhất MIN = 0.039, Giá trị lớn nhất MAX = 4.1
Tứ phân vị thứ nhất Q1 = 0.992; Tứ phân vị thứ hai (Trung vị) Me = 1.881; Tứ phân vị thứ ba Q3 = 2.82425 90909
Trang 750% số vụ tai nạn chết người trên mỗi 1.000 giấy phép nằm trong khoảng từ 0.992 đến 2.82425 (IQR = 1.83225)
B/ SỬ DỤNG HỒI QUY ĐỂ PHÂN TÍCH DỮ LIỆU
I Dự đoán quan hệ:
Nhận xét ban đầu: nhìn vào bảng dữ liệu chúng ta phán đoán rằng tỷ lệ phần trăm người
có bằng lái xe dưới 21 tuổi càng cao thì tỷ lệ tai nạn gây chết người trên mỗi 1000 bằng lái
xe càng tăng Ở đây, biến Y sẽ là tỷ lệ tai nạn trên mỗi 1000 bằng lái và biến X là phần trăm người có bằng lái xe dưới 21 tuổi Biểu đồ scatter plot dưới dây là minh họa cho phần dự đoán
0 5 10 15 20 25 30 35 40 45 50
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
D báo mốối quan h gi a biếốn X và Yự ệ ữ
Trang 8Mối quan hệ giữa phần trăm người có bằng lái dưới 21 tuổi và tỷ lệ tại nạn trên
1000 bàng lái xe có quan hệ chặt chẽ Theo lý thuyết, phần trăm người có bằng lái
xe dưới 21 tuổi tác động lên tỷ lệ gây tai nạn giao thông
II. Xác định quan hệ :
Tính toán các kết quả hồi quy bẳng Excel:
Dựa vào bảng kết quả ta thấy:
- Phương trình hồi quy có dạng: ˆy 1,6 0, 287x
- Điều này có nghĩa là: nếu tăng x lên 1 đơn vị thì y sẽ tăng thêm 0,287 đơn vị gắn với dữ liệu thì có nghĩa rằng cứ tăng tỉ lệ người có bằng lái xe dưới 21 tuổi lên 1% thì tỷ lệ tai nạn chết người trên mỗi 1000 bàng lái sẽ tăng thêm 0,287 đơn vị
- Điểm xuất phát của mô hình b 0 = - 1.6 cho thấy các nhân tố khác làm giảm tỷ lệ là – 1.6
- Multiple R = 0.84 cho thấy mối quan hệ giữa các biến là tương đối chặt chẽ
- 2
R= 0.7 cho thấy trong 100% sự biến động của tỷ lệ gây tai nạn thì có 70% biến động là do phần trăm người có bằng lái xe dưới 21 tuổi, còn 30% là do các yếu tố ngẫu nhiên và các yếu tố khác không có trong mô hình
III Kiểm định tính có ý nghĩa của hàm hồi quy:
1 Khoảng tin cậy về hệ số độ dốc/ hệ số góc :
Giả định Y phân phối chuẩn thì kết quả là các ước lượng b0 và b1 cũng phân phối chuẩn, người ta chứng minh được trung bình và phương sai của b1 bằng:
( )
E b b 0,287
Trang 9Khoảng tin cậy cho hệ số độ dốc được xác định như sau:
Khoảng tin cậy 100(1 )%cho hệ số góc b1 t(n 2; /2).Sb1
Từ đây ta tính được Sb 1= 0,029; t(40;0,025)= 2,021
Với độ tin cậy 95%, nằm trong khoảng: 0,287± 0,059 (phù hợp với chỉ số Lower 95%
và Upper 95% )
2 Kiểm định ý nghĩa của hệ số độ dốc
Cặp giả thuyết cần kiểm định: : = 0; : ≠0
Có p-value < 0,05 nên ta có thể bác bỏ và chấp nhận với giá trị của là 0.287
IV Kiểm tra tính đúng đắn của mô hình hồi quy tuyến tính:
1.Kiểm tra phần dư:
Ta có biểu đồ Residual Plot
Nhận thấy rằng các chấm phân tán không theo một quy luật nhất định nên mô hình chúng
ta đang xây dựng là mô hình Đúng
Trang 106 8 10 12 14 16 18 20 -1.5
-1 -0.5 0 0.5 1 1.5 2
X Variable 1 Residual Plot
X Variable 1
2.Kiểm tra sự vi phạm giả định phương sai phần dư bằng nhau
Cách 1: Dùng đồ thị thể hiện theo
-1.5
-1
-0.5
0
0.5
1
1.5
2
Residual
Từ đây ta có thể thấy rằng có vẻ như không có sự tương quan giữa các phần dư, bởi vì các chấm xuất hiện một cách không ngẫu nhiên xung quanh trục 0 của nó và chúng ta không có vấn đề về phương sai thay đổi
Cách 2: Sử dụng kiểm định Park:
Bước 1: Ước lượng hồi quy gốc
Bước 2: Tính sai số sau đó lấy bình phương rồi lấy
Bước 3: Ước lượng mô hình: = +
Trang 11Bước 4: Kiểm định ý nghĩa thống kê của Nếu có ý nghĩa thống kê chứng tỏ mô hình ban đầu có phương sai sai số thay đổi
2
0 2
1 2
0,17
: 0
: 0
0,79
a
H a
H a
p value
Chưa có cơ sở bác bỏ rằng không có ý nghĩa thống kê chứng tỏ mô hình ban đầu có phương sai sai số bằng nhau
Ngoài ra, phần dư của chúng ta cần phải tuân theo phân phối chuẩn, muốn biết được điều này chúng ta sẽ sử dụng biểu đồ Histogram để xem phần dư có tuân theo phân phối chuẩn hay không
0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Nhìn vào thấy rằng biểu đồ có dạng quả chuông – dạng của phân phối chuẩn, từ đây ta
có thể khằng định được rằng dữ liệu đã cho không có sự vi phạm về phần dư và mô hình đã cho là một mô hình tốt
Trang 12Phần III/ KẾT LUẬN:
- Mối quan hệ giữa hai biến này rất chặt chẽ, phần trăm người có bằng lái xe dưới 21 tuổi tác động lên tỷ lệ gây tai nạn giao thông Cụ thể là hai biến này đồng biến, cứ phần trăm người có bằng lái xe 21 tuổi tăng 1% thì tỷ lệ tai nạn trên mỗi 1000 bằng lái xe tăng 0,287 đơn vị
- Về việc xây dựng mô hình hồi quy cho bài toán này là việc lựa chọn hoàn toàn đúng Xét về kiểm định tính bao gồm khoảng tin cậy về hệ số độ dốc/hệ số góc có
độ tin cậy 95% phù hợp với chỉ số Lower và Upper Xét về kiểm tra phần dư qua biểu đồ Residual Plot thì ta thấy được các chấm phân tán không theo một quy luật nhất định và kiểm tra sự vi phạm giả định phương sai phần dư bằng nhau là không
có vấn đề về phương sai Xét khi sử dụng biểu đồ Histogram thì phần dư thuộc dạng biểu đồ của phân phối chuẩn Từ tất cả các yếu tố trên rút ra được mô hình chúng ta chọn và xây dựng là một mô hình tốt
- Giải pháp : Bộ Giao thông và Vận tải nên nâng cao chất lượng các bài kiểm tra cấp bằng lái xe Ví dụ như tăng độ khó các bộ câu hỏi cũng như kiểm tra định kì lại bằng lái xe khoảng 5 năm/1 lần, và tăng hình phạt đối với những người lái xe chưa
có đủ giấy tờ ( nhất là chưa có bằng lái xe), hoặc có thể nâng độ tuổi được cấp bằng lái xe