3
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không.
Dạng bài: thống kê mô tả.
Khảo sát thời gian hoàn thành sản phẩm mạch điện của 36 sinh viên trong quá trình thực tập Điện điện tử đã được thực hiện, với bảng số liệu ghi lại thời gian hoàn thành tính bằng phút.
Dữ liệu định tính: Kết quả khao sat ngẫu nhiên 60 sinh viên có thành thạo một ngôn ngữ lập trình nào đó hay không (1: thanh thao, 0: không thanh thao)
Bài làm: Sử dụng dữ liệu A.
+ Xác định số tổ cần chia: k = (2 xn) 3
Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3).
+ Xác định trị số khoảng cách h theo công thức: h = (Xmax−Xmin)
Chọn ô A7 nhập vào biểu thức =(MAX(A2:I5)-MIN(A2:I5))/4.
+ Ta xác định được các cận trên và cận dưới các tổ lần lượt là: Tổ 1: 12 – 16.
Nhập vào các ô từ A8 đến A11 lần lượt các giá trị:
Chọn chức năng Data/ Data Analysis/Histogram.
+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Bin Range: địa chỉ chứa bảng phân nhóm.
+ Output options: vị trí xuất kết quả.
+ Confidence Level for Mean: độ tin cậy cho trung bình.
+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số.
Ta được kết quả: ( đã chỉnh sửa khung Khoảng thời gian ( Bin)).
2 Vẽ đồ thị phân phối tần số và đa giác tần số (A):
_ Vẽ đồ thị phân phối tần số:
+ Quét chọn bảng tần số
+ Dùng chức năng Insert Column Chart trên menu Insert.
_ Vẽ đa giác tần số:
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:
+ Quét chọn B12:B18, dùng chức năng Insert Line Chart trên menu Insert
+ Quét chọn B12:B18, dùng chức năng Insert 2D – column trên menu Insert
3.Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A).
_ Nhập dữ liệu vào bảng tính:
Chọn chức năng Data/Data Analysis/Descriptive Statistics.
+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Output options: vị trí xuất kết quả.
+ Confidence Level for Mean: độ tin cậy cho trung bình.
Dữ liệu định tính được thu thập từ cuộc khảo sát ngẫu nhiên 60 sinh viên về khả năng thành thạo một ngôn ngữ lập trình Kết quả cho thấy có hai phân loại: sinh viên thành thạo (1) và không thành thạo (0) Để trực quan hóa dữ liệu này, các đồ thị phân loại sẽ được sử dụng nhằm giúp người đọc dễ dàng hiểu rõ hơn về tỷ lệ sinh viên có kỹ năng lập trình trong nhóm khảo sát.
Bảng phân phối tần số, tần suất: x n f
Biêu đô phân phôi tân sô:
5 Hãy kiểm định xem dữ liệu (A) hoặc (B) có́ phù hợp với 1 phân bố xác suất nào đó́ hay không.
Kiểm định A: Với mức ý nghĩa 4%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? (độ tin cậy 96%)
Giả thuyết kiểm định H 0 : Mẫu phù hợp với phân phối chuẩn.
Giả thuyết đối kiểm định H1: Mẫu không phù hợp với phân phối chuẩn.
Tính các đặc trưng mẫu: n = 36 x = 19.4167 s ^ = 4.2582=(STDEVP(A1:A36))
+ x là ước lượng hợp lý cực đại cho a => a.4167 + s ^2 là ước lượng hợp lý cực đại cho 2 => σ = 4.2582
(16;20) 11 =NORM.S.DIST((20-D5)/D6,TRUE)- NORM.S.DIST((16-
(20;24) 10 =NORM.S.DIST((24-D5)/D6,TRUE) - NORM.S.DIST((20-
Vậy dữ liệu A phù hợp với phân phối chuẩn.
15
Hai máy được sử dụng để gia công cùng một loại chi tiết Để đánh giá độ chính xác của hai máy này, người ta đã lấy ngẫu nhiên 7 chi tiết từ mỗi máy và tiến hành đo đạc Kết quả thu được sẽ giúp so sánh độ chính xác giữa hai máy (đơn vị mm).
Có thể cho rằng 2 máy có độ chính xác như nhau hay không, với mức ý nghĩa 2%?
Giả thiết rằng kích thước chi tiết có phân phối chuẩn.
Dạng bài: Kiểm định giảthuyết cho phương sai hai tổng thể.
Công cụ: F-Test Two-Sample for Variances.
Để kiểm định sự đồng đều giữa hai tổng thể, chúng ta áp dụng phương pháp kiểm định phương sai cho hai tổng thể độc lập dựa trên đại lượng F.
Trong đó: S 1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n 1
Phương sai của mẫu thứ hai, ký hiệu là S2, được tính từ mẫu có cỡ n 2 Để xác định mẫu nào là mẫu thứ nhất và mẫu thứ hai, trong quá trình tính toán đại lượng F, giá trị phương sai lớn hơn sẽ được đặt ở tử số, và mẫu tương ứng với phương sai đó sẽ được coi là mẫu thứ nhất.
- Giả thiết đặt ra là kiểm định hai bên:
Nếu tỉ số F rất lớn hoặc rất nhỏ, điều này cho thấy hai phương sai tổng thể khó có thể bằng nhau Ngược lại, nếu tỉ số F gần bằng 1, chúng ta có bằng chứng ủng hộ giả thuyết H0 Khi tổng thể được giả định có phân phối bình thường, tỉ lệ F sẽ tuân theo phân phối xác suất gọi là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc vào hai giá trị bậc tự do: bậc tự do tử số (d1 = n1 - 1) liên quan đến mẫu thứ nhất và bậc tự do mẫu số (d2 = n2 - 1) liên quan đến mẫu thứ hai.
Quy tắc bác bỏ giả thuyết 0 trong kiểm định hai bên khi d1 = n1 - 1 và d2 = n2 - 1 với mức ý nghĩa α là: bác bỏ giả thuyết 0 nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên FU = Fdf1;df2;α/2 của phân phối F hoặc nhỏ hơn giá trị tới hạn dưới FL = Fdf1;df2;α/2.
F tt Fdf1;df2;α/2
Nếu chúng ta kiểm định bên phải:
Quy tắc bác bỏ o là khi:
Nếu F Chấp nhận giả thuyết Ho với xác suất (1-α)100%.
Vào Data/ Data Analysis/ F-Test Two-Sample for Variances.
Chọn các mục như hình:
+ Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2.
+ Output options: vị trí xuất kết quả.
+ Apha: mức ý nghĩa α (chọn tại ô alpha).
H o: σ 1 2 = σ 2 2 “Độ chính xác chi tiết của 2 máy là giống nhau”.Độ chính xác chi tiết của 2 máy là giống nhau”.
H 1: σ 1 2 ≠ σ 2 2 “Độ chính xác chi tiết của 2 máy là giống nhau”.Độ chính xác chi tiết của 2 máy là khác nhau”.
Chấp nhận Ho , bác bỏ H 1
Kết luận : Độ chính xác chi tiết của máy là giống nhau.
18
Theo thông tin từ nhà phân phối, mức tiêu thụ nhiên liệu trung bình của bốn loại xe ô tô là tương đương Sau một thời gian sử dụng, kết quả đo lường trên các quãng đường giống nhau cho thấy sự nhất quán trong hiệu suất tiêu thụ nhiên liệu của các loại xe này.
Loại xe Mức tiêu thụ nhiên liệu
Có thể đánh giá mức tiêu thụ nhiên liệu của bốn loại xe này có tương đồng hay không với mức ý nghĩa 4% Cần xác định hệ số xác định R² trong bài toán này và làm rõ ý nghĩa của nó.
Dạng bài: Kiểm định giá trị trung bình một nhân tố.
Phương pháp giải: Phân tích phương sai một nhân tố.
Công cụ giải: Anova single factor.
Giả sử nhân tố A có k mức X, X , …, X với Xj có phân phối chuẩn N(a,σ 2 )
Với mức ý nghĩa α ta kiểm định giả thiết:
- H 0 : a 1 =a 2 =…=a k Đặt: H 1 : “Độ chính xác chi tiết của 2 máy là giống nhau”.Tồn tại j 1 ≠j 2 sao cho a j1 ≠a j2 k
1 k T k x n x ij n Tx ij Tj v ới j 1 i 1 j 1 i 1 j 1
Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor: k
Tổng bình phương độ lệch do sai số Sum of Squares for Error k n j
Tổng bình phương độ lệch chung Total Sum of Squares:
( x ij x) 2 hay SST=SSF+SSE
Trung bình bình phương của nhân tố Mean Square for Error:
Trong đó, k-1 là bậc tự do của nhân tố.k 1
Trung bình bình phương của sai số Mean Square for Error:
Bậc tự do Trung bình
Tỷ số F phương bình phương
Nhân tố SSF k-1 MSF MSF/MSE
So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở tử số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận:
- Nếu F > F lý thuyết, ta bác bỏ H o
Hệ số xác định R² SST là tỷ lệ phần trăm thể hiện mức độ sai lệch của Xij so với giá trị trung bình, chiếm 100% tổng số sai lệch.
20 o Chọn các thư mục như hình: o Input Range: địa chỉ tuyệt đối chứa dữ liệu. o Output options: vị trí xuất kết quả. o Alpha: mức ý nghĩa α.
H 0 : Mức tiêu thụ nhiện liệu 4 loại xe là giống nhau.
H 1 : Mức tiêu thụ nhiên liệu 4 loại xe là khác nhau.
Vì F = 1.284075 < F critical = 3.234466 nên ta giả thiết H 0 đúng.
Vậy mức tiêu thụ nhiên liệu của 4 loại xe là giống nhau.
Tính hệ số xác định R 2 :
Từ bảng “Độ chính xác chi tiết của 2 máy là giống nhau”.Anova: Single Factor” ta tính được hệ số tương quan R 2 theo công thức:
Thực hiện trên Excel: o Chọn ô đưa ra kết quả của R 2 o Nhập công thức: 0/B23 Ta thu được kết quả sau:
Hệ số xác định R² = 0.138 cho thấy yếu tố nơi lấy mẫu chỉ ảnh hưởng 13.8% đến mức tiêu thụ nhiên liệu của các loại xe.
23
Một cuộc điều tra xã hội học đã được thực hiện tại năm thành phố A, B, C, D và E, nhằm đánh giá mức độ thỏa mãn của cư dân đối với nơi họ sinh sống Kết quả cho thấy sự khác biệt rõ rệt trong cảm nhận của người dân về chất lượng cuộc sống tại từng thành phố.
Thành phố Mức độ thỏa mãn
Rất thỏa Tương đối Không mãn
Với mức ý nghĩa = 3% Hãy kiểm định xem mức độ thỏa mãn có phân bố giống nhau ở 5 thành phố trên hay không?
Dạng bài: kiểm định giả thiết về tỷ lệ.
Phương pháp giải: Áp dụng kiểm định chi bình phương χ 2
Công cụ giải: hàm CHITEST trên
EXCEL Cơ sở lý thuyết:
Kiểm định chi bình phương (χ²) là một phương pháp thống kê dùng để kiểm tra giả thuyết về sự tương đồng giữa các máy hoặc dữ liệu Khi áp dụng, nếu giả thuyết không đúng, thống kê kiểm định sẽ tuân theo phân bố χ² Phương pháp này thường được sử dụng để xác định độ chính xác và sự khác biệt giữa các nhóm dữ liệu.
Kiểm định chi bình phương Pearsom
Kiểm định chi bình phương Yates.
Kiểm định chi bình phương Mantel-
-Dạng thống kê kiểm định thông dụng nhất là:
2( o e ) 2 e -Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.
-Xét một bộ A gồm r tính trạng, A= ( 1 , 2r ), trong đó mỗi cá thể của tập hợp
-Gọi p i (i=1, 2, …r) là tỉ lệ cá thể tính trạng I trong tập hợp chính H Khi đó vecto π= ( 1 , 2 , … r ) được gọi là phân bố của A trong tập hợp chính H.
-Giả sử (p 1 , p 2 , … p r ) là phân bố của ( 1 , 2 , r ) trong tập hợp chính H và (q 1 , q 2 ,
…q r ) là phân bố của A= ( 1 , 2 , r ) trong tập hợp chính Y Ta nói ( 1 , 2 , r ) có phân bố như nhau trong X và Y nếu (p 1 , p 2 ,…p r )= (q 1 ,q 2 ,…q r )p 1 =q 1 ,…p r =q r
-Chúng ta muốn kiểm định xem A= ( 1 , 2 , , r ) có cùng phân số trong X và
Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y.
-Tổng quát hơn, giả sử ta có k tập hợp chính H 1 , H 2 , H k gọi π i = p 1 i , p 2 i ,…p r i là phân bố của A =( 1 , 2 , r ) trong tập hợp chính i
-Ta muốn kiểm định giả thuyết sau:
H o : π 1 = π 2 = … = π k (Các phân bố này là như nhau trên các tập hợp chính i )
-Chú ý rằng tương đương với hệ đẳng thức sau:
-Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn từ tập hợp chính i được gọi là ngẫu nhiên thứ i (i = 1, 2, , k).
-Giả sử trong mẫu ngẫu nhiên thứ i: -Có 1i cá thể có tính trạng 1
2i cá thể có tính trạng 2
……… ri cá thể có tính trạng r
-Như vậy 0j là kích thước của mẫu thứ j, còn j0 là tổng số cá thể có tính trạng
I trong toàn bộ k mẫu đang xét: n r n k i 1 i 0 j 1 n 0 j là tổng số tất cả các cá thế của k mẫu đang xét
- Nếu giả thuyết o là đúng nghĩa là: p 1 1= p 1 2=…=p 1 k p 2 1= p 2 2=…=p 2 k
-Thì các tỷ lệ chung p 1 ,p 2 ,…p r được ước lượng bởi i n
Để ước lượng xác suất một cá thể có tính trạng j trong mẫu thứ j, công thức được sử dụng là: p(i) = n(ij) / n(0j), trong đó n(ij) là số cá thể mang tính trạng j và n(0j) là tổng số cá thể trong mẫu.
Các tần số lý thuyết (TSLT) được ký hiệu là (i 1, 2, , r ; j 1, 2, k), trong khi các số ij ij được gọi là các tần số quan sát (TSQS) Quyết định bác bỏ giả thuyết không (o) được đưa ra khi các TSLT có sự khác biệt bất thường so với TSQS.
25 Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó ta dùng kiểm định 2 (chi-quared): i 1 j 1
2 ij ^ r c ij n ij với n n ij : tần số thực nghiệm: ij : tần số lý thuyết của ô (i, j): r: số hàng; c: số cột
Dùng hầm CHITEST (actual_range, expected_range).
Nếu: P(X > 2 ) > thì chấp nhân o và ngược lại.
Nhận xét: Đây là bài toán kiểm định giả thuyết về tỷ lệ.
Giải thuyết H o : Tỷ lệ mức độ thỏa mãn của 5 thành phố là giống nhau.
Nhập giá trị vào bảng tính.
Tổng cột: Chọn A8, nhập =SUM(B2:B7), rồi Enter, dùng con trỏ kéo sang các dòng khác.
Tổng hàng: Chọn E3, nhập =SUM(B3:D3), rồi Enter, dùng con trỏ kéo.
Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng.
Để tính toán trong bảng, bạn cần thực hiện các bước sau: Đầu tiên, chọn ô B13 và nhập công thức $B$8/$E$8, sau đó nhấn Enter và kéo con trỏ xuống đến dòng 17 Tiếp theo, chọn ô C13, nhập $C$8/$E$8, nhấn Enter và kéo xuống dòng 17 Tương tự, chọn ô D13, nhập $D$8/$E$8, nhấn Enter và kéo xuống dòng 17 Sau đó, áp dụng hàm CHITEST để tính giá trị lớn hơn 2 Cuối cùng, chọn ô A20, nhập công thức =CHITEST(B3:D7,B13:D17) và nhấn Enter để hoàn tất.
Kết luận: mức độ thỏa mãn ở 5 thành phố trên là không giống nhau
29
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X, Y.
2) Quan hệ giữa X, Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.
3) Tìm sai số chuẩn của ước lượng.
Khảo sát lượng dầu tiêu thụ trung bình của một động cơ làm việc trong 14 lần khác nhau ( mặc định độ tin cậy 95%).
Bài làm: o Cơ sở lí thuyết : Hệ số tương quan :
Nếu R > 0 thì X, Y tương quan thuận.
Nếu R < 0 thì X, Y tương quan nghịch.
Nếu R = 0 thì X, Y không tương quan.
Nếu | R |= 1 thì X, Y có quan hệ hàm bậc nhất.
Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh).
Nếu | R |→ 0 thì X, Y có tương quan không chặt (tương quan yếu) Nhập dữ liệu và tính toán:
Chọn chức năng Data/Data Analysis/Correlation.
Ta có hệ số tương quan là R = 0,991711 chứng tỏ giữa thời gian và lượng dầu tiêu thụ có quan hệ khá chặc chẽ và có tương quan thuận.
2) Quan hệ giữa X,Y có́ được coi như quan hệ tuyến tính hay không? Nếu có́, hãy ước lượng đường hồi quy tuyến tính Y theo X
Giả thiết H0: X và Y không có tương quan tuyến tính:
Tính T: chọn ô F4 và nhập biểu thức SQRT(14-2)/SQRT(1-F3^2).
Tính c: chọn ô F5 và nhập biểu thức =TINV(0.05,12) (c là phân vị mức α/2=0.025 của phân bố Student với n-2 bậc tự do).
Vì |T| > c nên bác bỏ giả thiết H 0
Vậy: X và Y có tương quan tuyến tính.
Ước lượng đường hồi quy tuyến tính Y theo X
Phương trình hồi quy tuyến tính: y´ s =a+bx ,a=r S
+ Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0).
+ H1: Hệ số hồi quy có ý nghĩa (≠0).
H1: “Độ chính xác chi tiết của 2 máy là giống nhau”.Phương trình hồi quy tuyến tính thích hợp”.
+ Trắc nghiệm F < F ,1 ,n-2 : chấp nhận H 0 Thực hiện trên Excel:
Nhập số liệu vào bảng tính:
Hệ số hồi quy: 1,49E-05=1,49.10 -5 < 0.05 Hệ số tự do không có ý nghĩa.
4,6E-12 = 4,6.10 -12 < 0.05 Hệ số của x không có ý nghĩa.
Phương trình hồi quy tuyến tính này không thích hợp vì 4,6E-12=4,6.10 -12 < 0.05.
3) Tìm sai số chuẩn của ước lượng:
Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai số. chuẩn của ước lượng:
- Đối với biến tự do: SE = 19,1892.