BÀI 1: Tìm một dữ liệu định lượng A và một dữ liệu định tính B thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1 Thực hiện phương pháp phân tổ dữ liệu A.. 3 Tính các đặc trưng m
Trang 1Sinh viên thực hiện:
1.Nguyễn Văn Cường 1410462
Trang 2BÀI 1:
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu
đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A)
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 96% (A)
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
BÀI LÀM:
+ Dạng bài: Thống kê mô tả.
+ Dữ liệu A : Thống kê sản lượng tiêu thụ điện năm 2010 qua từng tháng
Sản lượng điện tiêu thụ năm 2010
a) Thực hiện phương pháp phân tổ dữ liệu (A):
+Nhập dữ liệu (A) vào Excel
Trang 3+ Xác định số tổ cần chia k = (
Chọn ô E1 nhập vào biểu thức =CEILING((2*COUNT(B3:B14))^0.33,1)
Ta được kết quả k=3
+ Xác định trị số khoảng cách h theo công thức h =
Chọn ô D3 nhập vào biểu thức =CEILING((MAX(B3:B14)-MIN(B3:B14))/E1,1)
+ Nhập vào các ô từ A16 tới A18
+Chọn chức năng Data/ Data Analysis/Histogram
- Input Range: địa chỉ tuyệt đối chứa dư liệu
- Bin Range: địa chỉ chứa bảng phân nhóm
- Output options: vị trí xuất kết quả
- Confidence Level for Mean: độ tin cậy cho trung bình
- Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số
+Ta nhập các giá trị như trong bảng
Trang 4+ Ta nhận được bảng giá trị như sau
|
+ Ta có thể chỉnh sửa lại như sau
b) Vẽ đồ thị phân phối tần số và đa giác tần số (A)
* Vẽ đồ thị phân phối tần số:
+Quét chọn bảng tần số B2:B4
+Dùng chức năng Insert Column Chart trên menu Insert
+Nhấp chuột phải vào bảng chọn Select Data chỉnh sửa những thông số cần thiết
Trang 5+Sau khi chỉnh sửa ta có
*Vẽ đa giác tần số (A)
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:
+Quét chọn A9:B13, dùng chức năng Insert Line Chart trên menu Insert
+ Nhấp chuột phải vào bảng mới có, chọn Select Data chỉnh sửa thông số cần thiết
Trang 6+ Sau khi chỉnh sửa ta có
c) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A).
+ Chọn chức năng Data/Data Analysis/Descriptive Statistics
-Input Range: địa chỉ tuyệt đối chứa dư liệu
-Output options: vị trí xuất kết quả
-Confidence Level for Mean: độ tin cậy cho trung bình
+ Nhập vào bảng các số liệu cần thiết
Trang 7+Kết quả nhận được
Trang 8d) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị:
Nhập dữ liệu và bảng tính :
Tính tỉ lệ sinh viên cho các ngành:
+Nhập vào C3: =B3/$B$9, copy cho các ô còn lại
Vẽ biểu đồ đứng thể hiện số lượng sinh viên ở các chuyên ngành:
+ Quét chọn cột Số sinh viên (B3:B8)
+ Dùng chức năng Insert /Insert Column Chart/2-D Column trên menu Insert
Trang 9 Kết quả thu được:
Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành
+ Quét chọn cột Số sinh viên (C3:C8)
+ Dùng chức năng Insert/Insert Pie/2-D Pie trên menu Insert
Kết quả thu được:
Bài 2:
Trang 10Hai máy cùng gia công một loại chi tiết Để kiểm tra xem 2 máy này có củng độ chính xác như nhau haykhông, người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, đem đo và thu được kết quả sau (đơn vị mm):
Có thể cho rằng 2 máy có độ chính xác như nhau hay không, với mức ý nghĩa 2%? Giả thiết rằng kích thước chi tiết có phân phối chuẩn.
Nhận dạng bài toán: Đây là bài toán so sánh hai phương sai
Cơ sở lí thuyết: Trắc nghiệm so sánh hai phương sai thường được áp dụng để so sánh
độ chính xác của hai phương pháp định lượng khác nhau
So sánh 2 phương sai: Áp dụng F-Test Two-Sample for Variances:
Dùng lệnh Data Analysis -> F-Test Two-Sample for Variances
Trang 11Trong hộp thoại F-Test Two-Sample for Variances, lần lượt ấn định các chi tiết:
- Tọa độ của dữ liệu 1 (Variable 1 Range), tọa độ của dữ liệu 2 (Variable 2 Range),
- Nhãn dữ liệu (Labels),
- Ngưỡng tin cậy (Alpha)
Trang 12Kết quả thu được:
Gọi là phương sai của chi tiết làm từ máy A.
là phương sai của chi tiết làm từ máy B.
Giả thiết kiểm định H0: “Hai máy có độ chính xác như nhau” Giả thiết đối H1: “Hai máy có độ chính xác khác nhau”.
Trang 13BÀI 3: Theo giới thiệu của nhà phân phối , mức tiêu thụ nhiên liệu trung bình của 4 loại xe ô tô là nhưnhau Sau một thời gian chạy xe, người ta đo đạt lại trên các quãng đường như nhau thì kết quảnhư sau :
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai haynhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình)
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay
tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)
T
k i i
2 1
Trang 14k N
n j n
H 0 :1 2 k “Các giá trị trung bình bằng nhau”
H 1 :i j “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê: F=
MSE MSF
Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0
Hệ số xác định R-square và ý nghĩa của nó
X12
X22
.
…
…
X1i
X2i
.
…
…
X1p
X2p
.
- TSS ( Total sum of squares) : tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Xki và giá trị trung bình mẫu chung của chúng Ký hiệu :
p i n
ki
n k p i n n
n
X
Ta có :
Trang 15T Q
X X
i
i i
k ki
- MSS (Model sum of squares) : là tổng bình phương các sai lệch giữa các giá trị trung bình mẫu của các
nhóm quan sát ( phân theo mức nhân tố i) và trung bình mẫu
i
i i
T n
T n
X X MSS
2 2
2
- R 2 : là tỷ lệ hay số phần trăm chiếm trong tổng số 100% của toàn bộ sai lệch của Xki so với giá trị trung bình của chúng R 2 được sử dụng để đo mức độ ảnh hưởng của các nhân tố chứa trong mô hình đối với sự biến động của các giá trị của biến ngẫu nhiên X xung quanh giá trị trung bình của nó R 2 được gọi là hệ
số xác định của mô hình phân tích phương sai, đó cũng chính là mức độ thích hợp của mô hình R 2 càng lớn mô hình càng thích hợp , càng giải thích được nhiều hơn sự biến động của các giá trị biến ngẫu nhiên
X dưới tác động của các nhân tố có trong mô hình.
Kiểm định phương sai một yếu tố :
Đây là bài toán phân tích phương sai một yếu tố, mức tiêu thụ nhiên liệu trung bình phụ thuộc vào loại
xe Giả thiết H 0 : µ 1 = µ 2 = µ 3= µ 4 ; tức mức tiêu thụ nhiên liệu trung bình là bằng nhau
Nhập dữ liệu vào bảng:
Áp dụng Anova: Single Factor
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis.
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: Single Factor lần lượt ấn định
Phạm vi đầu vào (Input range)
Cách xắp xếp theo hàng hay cột (Group by)
Nhấn dử liệu (Labels in fisrt row/column)
Phạm vi đầu ra (Output range)
Trang 16Bảng Anova:
Trang 17 Kết luận:
Miền bác bỏ : Wα=( Fα(k-1;N-k),+∞) = (3.234466,+∞)
Từ giá trị trong bảng Anova:
F= 1.284075 < Fα= 3.234466 => Không thể bác bỏ giả thuyết H0
=> Mức tiêu thụ nhiên liệu của 4 loại xe là như nhau
Hệ số xác định R2 và ý nghĩa của nó :
SST SSF
R 2
Trang 18Hệ số xác định R2 = 0.138309 Ý nghĩa : Nhân tố loại xe ảnh hưỡng 13.83% đến mức tiêu thụ nhiên liệu của từng loại xe ( hay 13.83% sự khác biệt về mức tiêu thụ nhiên liệu trung bình cũa từng loại xe).
người đươc đòi hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống Kết quả được cho như sau :
Mức độ thỏa mãn
Trang 19Thành phố Rất thỏa mãn Tương đối Không
Nhận xét: Đây là bài toán kiểm định giả thuyết vể tỷ lệ
Giả thuyết H 0: Mức độ thỏa mãn giữa các thành phố như nhau
Giả thuyết H 1 : Mức độ thỏa mãn giữa các thành phố khác nhau
THỰC HIỆN BÀI TOÁN BẰNG EXCEL
Trang 21 Biện luận: P(X > χ2
)=3,5299.10-13
< 0,03 Bác bỏ giả thuyết H0
Kết luận: Vậy mức độ thỏa mãn giữa các thành phố là khác nhau
Trang 22Bài 5:
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1/ Tìm hệ số tương quan giữa X,Y.
2/ Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3/ Tìm hệ số xác định R 2
4/ Tìm sai số chuẩn của ước lượng.
Bài làm
* Dạng bài: Hồi quy tuyến tính đa tham số.
* Số liệu thu thập được:
1 Tìm hệ số tương quan giữa X, Y
a Cơ sở lý thuyết
- Sự phân rích tương quan khảo sát khuynh hướng và mức độ của sự liên quan, trong sự
phân tích hồi quy xác định sự liên quan định lượng giữa hai biến số ngẫu nhiên Y và X Hệ sốtương quan có thể được ước tính bởi biểu thức:
Trang 23- Hệ số tương quan được dùng trong việc đánh giá mức độ liên quan
Giá trị |R| Mức độ
<0,70 Nghèo nàn0,70 – 0,80 Khá0,80 – 0,90 Tốt
>0,90 Xuất sắc
b Áp dụng MS-EXCEL
* Nhập dữ liệu trên vào bảng tính MS-EXCEL
* Sử dụng “Correlation”
- Nhấp lần lượt Data – Data Analysis
- Chọn chương trình “Correlation” trong hộp thoại Data Analysis rồi nhấn nút
OK
- Trong hộp thoại “Correlation” lần lượt ấn định các chi tiết như hình sau, sau đó
nhấn OK:
Trang 24* Kết quả:
- Từ bảng kết quả trả về ta rút ra được hệ số tương quan giữa 2 đại lượng X (Tiết
diện ruột) và Y (Dòng điện cho phép) là R X,Y =0,9837.
Trắc nghiệm t
- Giả thiết: H0: βi = 0 “Các hệ số hồi quy không có ý nghĩa”
H1: βi ≠ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”
- Giả thiết: H0: βi = 0 “Phương trình hồi quy không thích hợp”
H1: βi ≠ 0 “Phương trình hồi quy thích hợp” với ít nhất vài Bi
- Giá trị thống kê:
MSR F
- Nhấp lần lượt Data – Data Analysis
- Chọn chương trình “Regression” trong hộp thoại Data Analysis rồi nhấn nút
OK
Trang 25- Trong hộp thoại “Regression” lần lượt ấn định các chi tiết như hình sau, sau đó
nhấn OK:
Trang 26* Kết quả:
- Từ kết quả thu được ta viết được Phương trình hồi quy ŶX = f(X)
Trắc nghiệm t:
Giả thiết: H0: βi = 0 “Hệ số hồi quy không có ý nghĩa”
H1: βi ≠ 0 “Hệ số hồi quy có ý nghĩa”
Do t0 = 5,6399 > t0,05 = 2,365 Bác bỏ giả thiết H 0
Do t1 = 18,1218 > t0,05 = 2.365 Bác bỏ giả thiết H 0
Trang 27Trắc nghiệm F:
Giả thiết: H0: βi = 0 “Hệ số hồi quy không thích hợp”
H1: βi ≠ 0 “Hệ số hồi quy thích hợp”
Do F = 328,3986 > F0,05(1,10) = 242 Bác bỏ giả thiết H 0
Vậy cả hai hệ số 27,1782(B0) và 3,2022(B1) của phương trình hồi quy
ŶX = 27,1782 + 3,2022X đều có ý nghĩa thống kê Nói cách khác, phương trình hồi quy này
thích hợp.
-Kết luận: Quan hệ giữa X và Y được xem như quan hệ tuyến tính.
- Ước lượng đường hồi quy tuyến tính Y theo X bằng hình vẽ chính là đồ thị phân tán Line Fit
Plot:
3 Tìm hệ số xác định R 2
Dựa vào bảng SUMMARY OUTPUT ta có kết quả hệ số xác định R 2 = 0.9676.
4 Tìm sai số chuẩn của ước lượng
Dựa vào bảng SUMMARY OUTPUT ta có kết quả sai số chuẩn của ước lượng là S =
13,5368.