Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
134,8 KB
Nội dung
Gv. Cao Hào Thi CHƯƠNG 2 THỐNG KÊ Thống kê là một khoa học có mục đích thu thập, xếp đặt và phân tích các dữ liệu về một tập hợp gồm các phân tử cùng loại 2.1. TẬP HP CHÍNH VÀ MẪU (Populations and Sample) 2.1.1. Tập hợp chính (tập hợp tổng quát, tổng thể) Tập hợp chính là tập hợp tất cả các đối tượng mà ta quan tâm nghiên cứu trong một vấn đề nào đó. Số phần tử của tập hợp chính được ký hiệu là N. 2.1.2. Mẫu Mẫu là tập hợp con của tập hợp chính. Mẫu gồm một số hữu hạn n phần tử. Số n được gọi là cỡ mẫu: Tập hợp chính = {x 1 ,x 2 …x N } Mẫu = {x 1 ,x 2 …x n } 2.1.3. Cách chọn mẫu Có nhiều cách chọn mẫu khác nhau, nhưng nguyên tắc quan trọng nhất là làm sao mẫu phải phản ảnh trung thực tập hợp chính. Các cách chọn mẫu thường dùng: • Chọn mẫu ngẫu nhiên : đó là cách chọn n phần tử từ tập hợp chính N phần tử sao cho mỗi tổ hợp trong C n N tổ hợp đều có cùng khả năng được chọn như nhau. • Cách chọn máy móc. • Cách chọn phân lớp • Cách chọn hàng loạt • Cách chọn kết hợp (nhiều bậc) 2.2. BẢNG KÊ VÀ BIỂU ĐỒ Để mô tả các dữ liệu một cách cụ thể ta dùng bảng kê và các biểu đồ. 2.2.1. Bảng kê (Table) • Xếp đặt các dữ liệu vào một bảng theo một qui tắc nào đó ta được một bảng kê. • Bảng kê thường bắt đầu bằng tiêu đề và chấm dứt bằng một xuất xứ. + Tiêu đề : Mô tả đơn giản nội dung của bảng kê + Xuất xứ : Ghi nguồn gốc các dữ liệu trong bảng kê. Thí dụ Bảng 2.1: Diện tích các đại dương trên thế giới Gv. Cao Hào Thi 2 Đại dương Diện tích (triệu km²) Thái Bình Dương Đại Tây Dương Ấn Độ Dương Nam Băng Dương Bắc Băng Dương 183 106,7 73,8 19,7 12,4 Xuất xứ : Liên Hiệp Quốc 2.2.2. Biểu đồ Để có một ấn tượng rõ và mạnh hơn về các dữ liệu người ta trình bày các dữ liệu bằng các biểu đồ: 2.2.2.1. Biểu đồ hình thanh (Bar chart) • Biểu đồ hình thanh dọc • Biểu đồ hình thanh ngang Diện tích (triệu km²) 183 106.7 73.8 19.7 12.4 0 50 100 150 200 TBD DTD ADD NBD BBD Diện tích (triệu km²) 183 106.7 73.8 19.7 12.4 0 50 100 150 200 TBD DTD ADD NBD BBD Gv. Cao Hào Thi 3 2.2.2.2. Biểu đồ hình gẫy khúc (Line Chart) Biểu đồ này thích hợp với việc biểu diễn một sự liên hệ giữa hai đại lượng với nhau: 18.5 19 19.5 20 20.5 21 21.5 22 22.5 23 23.5 123456789101112 Nhiệt độ trung bình tại Đà Lạt năm 1969 2.2.2.3 Biểu đồ hình tròn (Pie Chart) Diện tích (triệu km²) TBD DTD ADD NBD BBD Biểu đồ hình tròn là một vòng tròn chia thành nhiều hình quạt. Cả hình tròn tượng trưng toàn thể đại lượng, mỗi hình quạt tương trưng một thành phần mà góc ở tâm tỷ lệ với số dữ kiện thuộc thành phần đó. 2.3. TẦN SỐ • Nếu mỗi biến cố sơ đẳng A thuộc tập hợp biến cố ω nào đấy có thể đặt tương ứng với một đại lượng xác đònh X = X(A), thì X được gọi là một biến ngẫu nhiên. Biến ngẫu nhiên X có thể xem như hàm của biến cố A với miền xác đònh là ω. • Các biến ngẫu nhiên được ký hiệu bằng các chữ lớn X,Y,Z … còn các giá trò của chúng được ký hiệu bằng các chữ nhỏ x,y,z… Gv. Cao Hào Thi 4 • Biến ngẫu nhiên được chia ra là biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục. * 2.3.1. Tần số (Frequency) • Gọi x i là các giá trò quan sát được của biến ngẫu nhiên X (i = 1,2,…l) • Số lần xuất hiện của giá trò xi trong khối dữ liệu được gọi là tần số của x i và được ký hiệu là f i . • fi n i l = ∑ = 1 với n là cỡ mẫu 2.3.2. Tần số tương đối (Relative frequency, tần suất) • Tỉ số giữa tần số f i và cỡ mẫu n gọi là tần số tương đối n f i • 1 1 = ∑ = l i Wi 2.3.3. Tần số tích lũy (Cumulative Frequency) Tần số tích lũy của một giá trò x i là tổng số tần số của giá trò này với tần số của các giá trò nhỏ hơn x i . 2.3.4. Bảng phân phối tần số Bảng phân phối tần số là bảng thiết lập sự tương quan giữa các giá trò x i của biến ngẫu nhiên X và các tần số của x i . Tùy thuộc vào loại tần số ta có: • Bảng phân phối tần số • Bảng phân phối tần số tương đối (Bảng phân phối thống kê) • Bảng phân phối tần số tích lũy. Thí dụ: • Bảng phân phối tần số tương đối của biến ngẫu nhiên rời rạc. X x 1 x 2 x 3 … x l W i w 1 w 2 w 3 … w l • Bảng phân phối tần số của biến ngẫu nhiên liên tục. * - Nếu các giá trò mà biến ngẫu nhiên X cho trước có thể lập thành dãy số rời rạc các số x 1 ,x 2 …,x n (dãy hữu hạn hay vô hạn) thì chính biến ngẫu nhiên X được gọi là biến ngẫu nhiên rời rạc. - Nếu các giá trò mà biến ngẫu nhiên X cho trước có thể lấp đầy toàn bộ khoảng hữu hạn hay vô hạn ]a,b[ của trục số thì biến ngẫu nhiên X được gọi là biến ngẫu nhiên liên tục. W i = n f i Gv. Cao Hào Thi 5 X [ξ o , ξ 1 ) [ξ 1 , ξ 2 ) [ξ 2 , ξ 3 ) … [ξ l-1 , ξ l ) f I f 1 f 2 f 3 f l 2.3.5. Đa giác phân phối và biểu đồ tổ chức 2.3.5.1. Đa giác phân phối Đối với biến ngẫu nhiên rời rạc, để dễ nhận biết người ta trình bày phân phối thống kê của biến ngẫu nhiên rời rạc dưới dạng đa giác phân phối. Muốn vậy, ta biểu diễn các điểm liên tiếp (x 1 ,w 1 ),(x 2 ,w 2 )…(x l ,w l ) trên mặt phẳng tọa độ và nối chúng bằng các đoạn thẳng. x1 x2 xi xl 2.3.5.2 Biểu đồ tổ chức Là biểu đồ thiết lập sự liên hệ giữa tần số (hay tần số tương đối) và các khoảng chia mà các giá trò của biến ngẫu nhiên rơi vào đó. X [ ξ o , ξ 1 ) [ξ 1 , ξ 2 ) … [ξ i-1 , ξ i ) [ξ l-1 , ξ l ) f i f 1 f 2 … f i f l y i = f i /h y y i f i /h 0 ξ ξ i-1 ξ i ξ l-1 ξ l X W i X Gv. Cao Hào Thi 6 h = ξ i - ξ i-1 = Const S i = y i * h = f i S i = f i Ghi chú : Đối với tần số tương đối y i = w i /h i và S i = W i Thí dụ: Trong kết quả của phép thử biến ngẫu nhiên X lấy các giá trò sau đây: ξ 1 = 2 ξ 2 = 5 ξ 3 = 7 ξ 4 =1 ξ 5 =10 ξ 6 = 5 ξ 7 = 9 ξ 8 = 6 ξ 9 = 8 ξ 10 = 6 ξ 11 = 2 ξ 12 = 3 ξ 13 = 7 ξ 14 = 6 ξ 15 = 8 ξ 16 = 3 ξ 17 = 8 ξ 10 = 10 ξ 19 = 6 ξ 20 = 7 ξ 21 = 3 ξ 22 = 9 ξ 23 = 4 ξ 24 = 5 ξ 25 = 6 1. Lập bảng phân phối tần số: 2. Xây dựng bảng phân phối thống kê 3. Vẽ đa giác phân phối Giải : Cỡ mẫu n = 25 1. X 1 2 3 4 5 6 7 8 9 10 f i 1 2 3 1 3 5 3 3 2 2 1 3 6 7 10 15 18 21 23 25 Σ f i = n = 25 2. X 1 2 3 4 5 6 7 8 9 10 W i = n f i 0.04 0.08 0.12 0.04 0.12 0.2 0.12 0.12 0.08 0.08 Σ w i = 1 3. Tần số tích lũ y Gv. Cao Hào Thi 7 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 12345678910 w X 2.4. SỐ ĐỊNH TÂM (Measure of Central Tendency) Số đònh tâm của nhóm dữ liệu là số đại diện cho tất cả các dữ liệu đó, nó thể hiện vai trò trung tâm của nhóm dữ liệu. Có các loại số đònh tâm sau: số trung bình (Mean), trung bình trọng số (Weighted mean) số trung vò (Median) và số yếu vò (Mode). 2.4.1. Số trung bình (Mean, kỳ vọng) 2.4.1.1 Số trung bình của tập hợp chính (Population Mean) µ = x N i i N = ∑ 1 2.4.1.2. Số trung bình của mẫu (Sample Mean) x = x n i i n = ∑ 1 2.4.2. Số trung bình trọng số (Weighted Mean) µ = wx w ii i N i i N . = = ∑ ∑ 1 1 w i : trọng số 2.4.3. Số trung vò (Median) • Số trung vò của khối Dữ liệu là số mà phân nửa giá trò quan sát được của khối Dữ liệu nhỏ hơn nó và phân nữa giá trò quan sát đã lớn hơn nó. • Gọi n là số giá trò quan sát được (đối với biến ngẫu nhiên rời rạc) Gv. Cao Hào Thi 8 ¾ Nếu n là số lẻ thì số trung vò là số có thứ tự (n+1)/2. Nó chính là số có vò trí ở giữa khối Dữ liệu. ¾ Nếu n là số chẵn thì số trung vò là trung bình cộng của hai số có thứ tự n/2 và 2 n +1 2.4.4. Số yếu vò (Mode) Số yếu vò của khối Dữ liệu là số có tần số lớn nhất. Thí dụ: Cho khối dữ kiện: 0 1 0 2 5 2 5 2 3 3 5 6 4 Tìm số trung bình, số trung vò và số yếu vò của khối Dữ liệu. Giải : Ta có bảng phân phối tần số : X 0 1 2 3 4 5 6 Tần số fi 2 1 3 2 1 3 1 • Số trung bình (Mean) x = fixi fi i i = = ∑ ∑ 1 7 1 7 = 2 0 11 32 2 3 14 35 16 13 2923 xxx xx xx++++++ = . • Số trung vò (Median) Cỡ mẫu n = 13 lẻ => (n+1)/2 = 7 0 0 1 2 2 2 3 3 4 5 5 5 6 Số trung vò là số có thứ tự 7, nghóa là số trung vò là 3 • Số yếu vò là 2 và 5 có tần số lớn nhất là 3 • Số trung vò, số yếu vò không bò lệ thuộc vào các Dữ liệu có trò số thái quá. 2.5. SỐ PHÂN TÁN (Measure of Dispersion) Số phân tán dùng để thể hiện sự khác biệt giữa các số trong khối Dữ liệu đối với số đònh tâm. 2.5.1. Phương sai (Variance) 2.5.1.1. Phương sai của tập hợp chính (Population Variance) σ ² = 2 1 2 1 2 µ−= µ− ∑∑ == N x N )x( N i i N i i Gv. Cao Hào Thi 9 2.5.1.2. Phương sai của mẫu (Sample Variance) S² = 1 1 2 − − ∑ = n )xx( n i i 2.5.2. Độ lệch chuẩn (Standard Deviation) 2.5.2.1. Độ lệch chuẩn của tập hợp chính (Population Standard Deviation) () ∑ µ−=σ=σ 2 2 1 i x N 2.5.2.2. Độ lệch chuẩn của mẫu (Sample Standard Deiation) S = ∑ − − = 22 1 1 )xx( n s i 2.5.2.3. Ý nghóa của độ lệch chuẩn σ a. Qui tắc kinh nghiệm (Empirical Rule for Standard Desiation) Đối với một khối dữ liệu, sẽ có hơn 90% các giá trò của Dữ liệu ở trong khoảng µ±3 σ b. Qui tắc Tchebycher (Tchebycher’s Rule) Đối với khối Dữ liệu của tập hợp chính có số trung bình là µ và độ lệch chuẩn σ, sẽ có ít nhất 100(1 - 1/m²)% giá trò của dữ liệu nằm trong khoảng µ ± mσ m 1.5 2 2.5 3 100(1-1/m²)% 55.6% 75% 84% 88.9% c. Qui tắc đối với khối dữ liệu có phân bố hình chuông (Rule for Bell Shaped Data) Đối với khối dữ liệu có dạng phân bố hình chuông thì : • Khoảng 68% các giá trò của dữ liệu nằm ở khoảng µ ± σ • Khoảng 95% các giá trò của dữ liệu nằm ở khoảng µ ± 2 σ • Khoảng 100% các giá trò của dữ liệu nằm ở khoảng µ ± 3σ Gv. Cao Hào Thi 10 2.5.3. Hàng số (khoảng, Range) Trong một khối dữ liệu, hằng số là hiệu số giữa giá trò lớn nhất và giá trò nhỏ nhất. Thí dụ : Hàng số của khối dữ liệu 6, 7, 9, 3, 5, 2 là 9 – 2 = 7 2.5.4. Hàng số tứ phân (Interquartile Range) 2.5.4.1. Số tứ phân Trong 1 khối dữ liệu xếp thứ tự lớn dần, các số tứ phân là các số Q 1 , Q 2 , Q 3 chia khối dữ liệu lần lượt thành 4 phần có tần số bằng nhau. Q 1 Q 2 Q 3 N/4 N/2 3N/4 N Nhận xét: Q 2 là số trung vò (median) 2.5.4.2. Hàng số tứ phân Là hiệu số Q 3 - Q 1 2.5.4.3. Độ lệch tứ phân Là phân nửa của hàng số tứ phân Q = (Q 3 -Q 1 )/2 Thí dụ : Cho khối dữ liệu xếp theo thứ tự lớn dần 1, 1, 2, 3 , 3, 3, 5 , 5 , 6, 6, 7, 9 , 10, 11, 11 Số tứ phân thứ 1 là Q 1 = 3 Số tứ phân thứ 2 là Q 2 = 5 Số tứ phân thứ 3 là Q 3 = 9 Hàng số tích phân là Q 3 - Q 1 = 9 - 3 = 6 ≈68% Tần số X µ+1σ µ-1σ µ 0 [...]...ẹoọ leọch tửự phaõn Q = (Q3 - Q1) /2 = (9-3) /2 = 3 11 Gv Cao Haứo Thi . một sự liên hệ giữa hai đại lượng với nhau: 18.5 19 19.5 20 20 .5 21 21 .5 22 22 .5 23 23 .5 123 4567891011 12 Nhiệt độ trung bình tại Đà Lạt năm 1969 2. 2 .2. 3 Biểu đồ hình tròn (Pie Chart) Diện. bảng phân phối thống kê 3. Vẽ đa giác phân phối Giải : Cỡ mẫu n = 25 1. X 1 2 3 4 5 6 7 8 9 10 f i 1 2 3 1 3 5 3 3 2 2 1 3 6 7 10 15 18 21 23 25 Σ f i = n = 25 2. X 1 2 3 4 5 6 7 8. ξ 11 = 2 ξ 12 = 3 ξ 13 = 7 ξ 14 = 6 ξ 15 = 8 ξ 16 = 3 ξ 17 = 8 ξ 10 = 10 ξ 19 = 6 ξ 20 = 7 ξ 21 = 3 ξ 22 = 9 ξ 23 = 4 ξ 24 = 5 ξ 25 = 6 1. Lập bảng phân phối tần s : 2. Xây