Giáo trình: Chương I: Thống kê
Cao Hào Thi 13 Chương 2 THỐNG KÊ Thống kê là một khoa học có mục đích thu thập, xếp đặt và phân tích các dữ liệu về một tập hợp gồm các phân tử cùng loại 2.1 TẬP HỢP CHÍNH VÀ MẪU (Population and Sample) 2.1.1 Tập hợp chính (tập hợp tổng quát, tổng thể) Tập hợp chính là tập hợp tất cả các đối tượng mà ta quan tâm nghiên cứu trong một vấn đề nào đó. Số phần tử của tập hợp chính được ký hiệu là N. 2.1.2 Mẫu Mẫu là tập hợp con của tập hợp chính. Mẫu gồm một số hữu hạn n phần tử. Số n được gọi là cỡ mẫu: Tập hợp chính = {x1,x2…xN} Mẫu = {x1,x2…xn} 2.1.3 Cách chọn mẫu Có nhiều cách chọn mẫu khác nhau, nhưng nguyên tắc quan trọng nhất là làm sao mẫu phải phản ảnh trung thực tập hợp chính. Các cách chọn mẫu thường dùng: • Chọn mẫu ngẫu nhiên : đó là cách chọn n phần tử từ tập hợp chính N phần tử sao cho mỗi tổ hợp trong nNC tổ hợp đều có cùng khả năng được chọn như nhau. • Cách chọn máy móc. • Cách chọn phân lớp • Cách chọn hàng loạt • Cách chọn kết hợp (nhiều bậc) 2.2 BẢNG KÊ VÀ BIỂU ĐỒ Để mô tả các dữ liệu một cách cụ thể ta dùng bảng kê và các biểu đồ. 2.2.1 Bảng kê (Table) • Xếp đặt các dữ liệu vào một bảng theo một qui tắc nào đó ta được một bảng kê. • Bảng kê thường bắt đầu bằng tiêu đề và chấm dứt bằng một xuất xứ. + Tiêu đề : Mô tả đơn giản nội dung của bảng kê + Xuất xứ : Ghi nguồn gốc các dữ liệu trong bảng kê. Cao Hào Thi 14 Thí dụ: Bảng 2.1: Diện tích các đại dương trên thế giới Đại dương Diện tích (triệu km²) Thái Bình Dương Đại Tây Dương Ấn Độ Dương Nam Băng Dương Bắc Băng Dương 183 106,7 73,8 19,7 12,4 nguồn : Liên Hiệp Quốc 2.2.2 Biểu đồ Để có ấn tượng rõ và mạnh hơn về dữ liệu người ta trình bày dữ liệu bằng các biểu đồ: a) Biểu đồ hình thanh (Bar chart) Biểu đồ hình thanh dọc Biểu đồ hình thanh ngang b) Biểu đồ hình gẫy khúc (Line Chart) Biểu đồ này thích hợp với việc biểu diễn một sự liên hệ giữa hai đại lượng với nhau: Dieän tích (trieäu km²)183106.773.819.712.40 50 100 150 200TBDDTDADDNBDBBDDieän tích (trieäu km²)183106.773.819.712.4050100150200TBD DTD ADD NBD BBD Cao Ho Thi 15 18.51919.52020.52121.52222.52323.5123456789101112 Nhit trung bỡnh ti Lt nm 1969 c) 2.2.2.3 Biu hỡnh trũn (Pie Chart) Dieọn tớch (%)TBDDTDADDNBDBBD Biu hỡnh trũn l mt vũng trũn chia thnh nhiu hỡnh qut. C hỡnh trũn tng trng ton th i lng, mi hỡnh qut tng trng mt thnh phn m gúc tõm t l vi s d kin thuc thnh phn ú. 2.3 TN S Nu mi bin c s ng A thuc tp hp bin c no y cú th t tng ng vi mt i lng xỏc nh X = X(A), thỡ X c gi l mt bin ngu nhiờn. Bin ngu nhiờn X cú th xem nh hm ca bin c A vi min xỏc nh l . Cỏc bin ngu nhiờn c ký hiu bng cỏc ch ln X,Y,Z cũn cỏc giỏ tr ca chỳng c ký hiu bng cỏc ch nh x,y,z Bin ngu nhiờn c chia ra l bin ngu nhiờn ri rc v bin ngu nhiờn liờn tc.* * - Nu cỏc giỏ tr m bin ngu nhiờn X cho trc cú th lp thnh dóy s ri rc cỏc s x1,x2,xn (dóy hu hn hay vụ hn) thỡ chớnh bin ngu nhiờn X c gi l bin ngu nhiờn ri rc. - Nu cỏc giỏ tr m bin ngu nhiờn X cho trc cú th lp y ton b khong hu hn hay vụ hn [a,b] ca trc s thỡ bin ngu nhiờn X c gi l bin ngu nhiờn liờn tc. Cao Hào Thi 16 2.3.1 Tần số (Frequency) • Gọi xi là các giá trị quan sát được của biến ngẫu nhiên X (i = 1,2,…l) • Số lần xuất hiện của giá trị xi trong khối dữ liệu được gọi là tần số của xi và được ký hiệu là fi. nflii=∑=1 với n là cỡ mẫu 2.3.2 Tần số tương đối (Relative frequency, tần suất) Tỉ số giữa tần số fi và cỡ mẫu n gọi là tần số tương đối nfi nfWii= 11=∑=liWi 2.3.3 Tần số tích lũy (Cumulative Frequency) Tần số tích lũy của một giá trị xi là tổng số tần số của giá trị này với tần số của các giá trị nhỏ hơn xi. 2.3.4 Bảng phân phối tần số Bảng phân phối tần số là bảng thiết lập sự tương quan giữa các giá trị xi của biến ngẫu nhiên X và các tần số của xi. Tùy thuộc vào loại tần số ta có: • Bảng phân phối tần số • Bảng phân phối tần số tương đối (Bảng phân phối thống kê) • Bảng phân phối tần số tích lũy. Thí dụ: • Bảng phân phối tần số tương đối của biến ngẫu nhiên rời rạc. X x1 x2 x3 … xl Wi w1 w2 w3… wl • Bảng phân phối tần số của biến ngẫu nhiên liên tục. X [ξo, ξ1) [ξ1, ξ2) [ξ2, ξ3) … [ξl-1, ξl) fi f1 f2 f3 . f l 2.3.5 Đa giác phân phối và biểu đồ tổ chức a) Đa giác phân phối Đối với biến ngẫu nhiên rời rạc, để dễ nhận biết người ta trình bày phân phối thống kê của biến ngẫu nhiên rời rạc dưới dạng đa giác phân phối. Muốn vậy, ta biểu diễn các điểm liên tiếp (x1,w1),(x2,w2)…(xl,wl) trên mặt phẳng tọa độ và nối chúng bằng các đoạn thẳng. Cao Hào Thi 17 x1 x2 xi xl b) Biểu đồ tổ chức Là biểu đồ thiết lập sự liên hệ giữa tần số (hay tần số tương đối) và các khoảng chia mà các giá trị của biến ngẫu nhiên rơi vào đó. X [ξo, ξ1) [ξ1, ξ2) … [ξi-1, ξi) [ξl-1, ξl) fi f1 f2 … fi fl yi = fi/h h = ξi - ξi-1 = Const Si = yi * h = fi Si = fi Ghi chú : Đối với tần số tương đối yi = wi/hi và Si = Wi y yi fi/h 0 ξ ξi-1 ξi ξl-1 ξl X Wi X Cao Hào Thi 18 Thí dụ: Trong kết quả của phép thử biến ngẫu nhiên X lấy các giá trị sau đây: ξ1 = 2 ξ2 = 5 ξ3 = 7 ξ4 =1 ξ5 =10 ξ6 = 5 ξ7 = 9 ξ8 = 6 ξ9 = 8 ξ10 = 6 ξ11 = 2 ξ12 = 3 ξ13 = 7 ξ14 = 6 ξ15 = 8 ξ16 = 3 ξ17 = 8 ξ10 = 10 ξ19 = 6 ξ20 = 7 ξ21 = 3 ξ22 = 9 ξ23 = 4 ξ24 = 5 ξ25 = 6 1. Lập bảng phân phối tần số: 2. Xây dựng bảng phân phối thống kê 3. Vẽ đa giác phân phối Giải : 1. Cỡ mẫu n = 2, tần số fi và tần số tích lũyΣf X 1 2 3 4 5 6 7 8 9 10 fi Fi 1 2 3 1 3 5 3 3 2 2 1 3 6 7 10 15 18 21 23 25 2. X 1 2 3 4 5 6 7 8 9 10 Wi=nfi 0.04 0.08 0.12 0.04 0.12 0.2 0.12 0.12 0.08 0.08 Σ wi = 1 00.020.040.060.080.10.120.140.160.180.212345678910wX Cao Hào Thi 19 2.4 SỐ ĐỊNH TÂM (Measure of Central Tendency) Số định tâm của nhóm dữ liệu là số đại diện cho tất cả các dữ liệu đó, nó thể hiện vai trò trung tâm của nhóm dữ liệu. Có các loại số định tâm sau: số trung bình (Mean), trung bình trọng số (Weighted mean), số trung vị (Median) và số yếu vị (Mode). 2.4.1 Số trung bình (Mean, kỳ vọng) a) Số trung bình của tập hợp chính (Population Mean) NxNii∑==1µ b) Số trung bình của mẫu (Sample Mean) nxxnii∑==1 2.4.2 Số trung bình trọng số (Weighted Mean) ∑∑===NiiNiiiwxw11.µ wi : trọng số 2.4.3 Số trung vị (Median) • Số trung vị của khối Dữ liệu là số mà phân nửa giá trị quan sát được của khối Dữ liệu nhỏ hơn nó và phân nữa giá trị quan sát lớn hơn nó. • Gọi n là số giá trị quan sát được (đối với biến ngẫu nhiên rời rạc) 9 Nếu n là số lẻ thì số trung vị là số có thứ tự (n+1)/2. Nó chính là số có vị trí ở giữa khối Dữ liệu. 9 Nếu n là số chẵn thì số trung vị là trung bình cộng của hai số có thứ tự 2n và 2n+1 2.4.4 Số yếu vị (Mode) Số yếu vị của khối Dữ liệu là số có tần số lớn nhất Thí dụ: Cho khối dữ kiện 0 1 0 2 5 2 5 2 3 3 5 6 4 Tìm số trung bình, số trung vị và số yếu vị của khối Dữ liệu. Giải : Cao Hào Thi 20 Ta có bảng phân phối tần số : X 0 1 2 3 4 5 6 Tần số fi 2 1 3 2 1 3 1 Số trung bình (Mean) X= ∑∑==7171iiiiifxf = 923,21361534132231102=++++++ xxxxxxx Số trung vị (Median): Cỡ mẫu n = 13 lẻ => (n+1)/2 = 7 0 0 1 2 2 2 3 3 4 5 5 5 6 ⇒ Số trung vị là số có thứ tự 7, nghĩa là số trung vị là 3 Số yếu vị là 2 và 5 có tần số lớn nhất là 3 Số trung vị, số yếu vị không bị lệ thuộc vào các Dữ liệu có trị số thái quá. 2.5 SỐ PHÂN TÁN (Measure of Dispersion) Số phân tán dùng để thể hiện sự khác biệt giữa các số trong dữ liệu đối với số định tâm. 2.5.1 Phương sai (Variance) a) Phương sai của tập hợp chính (Population Variance) 212122)(µµσ−=−=∑∑==NxNxNiiNii b) Phương sai của mẫu (Sample Variance) 1)(122−−=∑=nxxSnii 2.5.2 Độ lệch chuẩn (Standard Deviation) a) Độ lệch chuẩn của tập hợp chính (Population Standard Deviation) ()∑µ−=σ=σ221ixN b) Độ lệch chuẩn của mẫu (Sample Standard Deiation) Cao Hào Thi 21 ∑−−==22)(11xxnssi c) Ý nghĩa của độ lệch chuẩn s Qui tắc kinh nghiệm (Empirical Rule for Standard Desiation) Đối với một khối dữ liệu, sẽ có hơn 90% các giá trị của Dữ liệu ở trong khoảng µ±3 s Qui tắc Tchebycher (Tchebycher’s Rule) Đối với khối Dữ liệu của tập hợp chính có số trung bình là µ và độ lệch chuẩn s, sẽ có ít nhất 100(1 - 1/m²)% giá trị của dữ liệu nằm trong khoảng µ ± ms m 1,5 2 2,5 3 100(1-1/m²)% 55,6% 75% 84% 88,9% Qui tắc đối với khối dữ liệu có phân bố hình chuông (Rule for Bell Shaped Data) Đối với khối dữ liệu có dạng phân bố hình chuông thì : 9 Khoảng 68% các giá trị của dữ liệu nằm ở khoảng µ ± s 9 Khoảng 95% các giá trị của dữ liệu nằm ở khoảng µ ± 2 s 9 Khoảng 100% các giá trị của dữ liệu nằm ở khoảng µ ± 3s 68%95%µ+σµ−σµµ+2σµ−2σ 2.5.3 Hàng số (khoảng, Range) Trong một khối dữ liệu, hàng số là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất. Thí dụ : Hàng số của khối dữ liệu 6, 7, 9, 3, 5, 2 là 9 – 2 = 7 2.5.4 Hàng số tứ phân (Interquartile Range) a) Số tứ phân Trong 1 khối dữ liệu xếp thứ tự lớn dần, các số tứ phân là các số Q1, Q2, Q3 chia khối dữ liệu lần lượt thành 4 phần có tần số bằng nhau. Cao Hào Thi 22 Q1 Q2 Q3 N/4 N/2 3N/4 N Nhận xét: Q2 là số trung vị (median) b) Hàng số tứ phân Là hiệu số Q3 - Q1 c) Độ lệch tứ phân Là phân nửa của hàng số tứ phân: Q = (Q3-Q1)/2 Thí dụ : Cho khối dữ liệu xếp theo thứ tự lớn dần 1 1 2 3 3 3 5 5 6 6 7 9 10 11 11 Số tứ phân thứ 1 là Q1 = 3 Số tứ phân thứ 2 là Q2 = 5 Số tứ phân thứ 3 là Q3 = 9 Hàng số tứ phân là Q3 - Q1 = 9 - 3 = 6 Độ lệch tứ phân Q = (Q3 - Q1)/2 = (9-3)/2 = 3 . Cao Hào Thi 13 Chương 2 THỐNG KÊ Thống kê là một khoa học có mục đích thu thập, xếp đặt và phân tích các. kết hợp (nhiều bậc) 2.2 BẢNG KÊ VÀ BIỂU ĐỒ Để mô tả các dữ liệu một cách cụ thể ta dùng bảng kê và các biểu đồ. 2.2.1 Bảng kê (Table) • Xếp đặt các dữ