CHƯƠNG 5: MƠ TẢ TÍNH BIẾN THIÊN CỦA DỮ LIỆU SỐ ĐO LƯỜNG TÍNH BIẾN THIÊN CỦA BIẾN ĐỊNH LƯỢNG 5.1 TIẾP CẬN BẰNG TRỰC QUAN 4.2 KHOẢNG 4.3 PHƯƠNG SAI 4.4 ĐỘ LỆCH CHUẨN: DIỄN GIẢI 4.5 ĐỘ LỆCH CHUẨN: SUY LUẬN 4.6 ĐỘ LỆCH CHUẨN: SỐ ĐO KHOẢNG CÁCH 4.7 SỐ ĐO LƯỜNG TÍNH BIẾN THIÊN CỦA BIẾN ĐỊNH TÍNH Tóm tắt/thuật ngữ quan trọng/bài tập ơn Tổng quan Hiểu biết số trung bình phần quan trọng việc mô tả số liệu tưởng tượnt, bạn muốn lội qua suối, biết chiều sâu trung bình suối 03 feet Trong trường hợp việc nắm độ sâu thay đổi suối khoảng 03 sải điều quan trọng Chương bàn đến loại số đo tính biến thiên Mỗi số đo sử dụng trường hợp đặc biệt, nhiên độ lệch chuẩn phương sai hai số có vai trị quan trọng tương tự trung bình thống kê mô tả suy luận Chương đề cập phần đến suy luận thống kê phân biệt độ lệch chuẩn mẫu dân số Hãy tưởng tượng bạn sống giới tất người nhau, hay nói cách khác người người khơng có khác biệt; thống kê không tồn giới Khi đó, khơng cần sử dụng kỹ thuật thống kê chương trước kể kỹ thuật chương để mô tả nhóm người cần mơ tả số hình dung tồn nhóm người Tuy nhiên, thực tế thống kê tồn tiếp tục phát triển người khác biệt trường hợp có hai người giống hệt tồn Thơng thường tóm tắt số liệu, cần mô tả số đo tập trung chẳng hạn trung bình số đo biến thiên, nghĩa số đo đo lường khác biệt cá thể quan sát phân phối Chương trình bày số số đo phân tán khoảng, khoảng trung tứ vị, phương sai đặc biệt độ lệch chuẩn SỐ ĐO LƯỜNG PHÂN TÁN CỦA BIẾN ĐỊNH LƯỢNG 5.1 TIẾP CẬN THEO CÁCH TRỰC QUAN Chúng ta tiếp cận khái niệm phân tán cách trực quan Nhìn vào hình 5.1 có ba phân phối có quan sát, giá trị trung bình (giá trị 10) có độ phân tán khác (đừng quan tâm đến giá trị ô vuông tô đen, chúng trình bày sau) Trước đọc tiếp, xếp thứ từ thấp đến cao mức phân tán phân phối Một cách trực quan thấy phân phối A phân tán nhất, sau đến phân phối B cuối phân phối C phân tán nhiều Nếu chưa chắn, nhìn tiếp vào giá trị quan sát phân phối Chúng ta nhận thấy, phân phối A, phân phối phân tán nhất, tất quan sát có giá trị 10; phân phối B, phân tán có giá trị giá trị 11 phân phối C, phân tán nhiều có giá trị 8, hai giá trị 9, hai giá trị 11 giá trị 12 5.2 KHOẢNG Một số phân tán xác khơng giúp tóm tắt số liệu mà dùng thống kê định lượng sau Một số đo phân tán khoảng Khoảng hiệu số giá trị lớn giá trị nhỏ Trong hình 5.1, phân phối phân tán (phân phối A) có khoảng (từ 10 đến 10); phân phối phân tán (phân phối B) có khoảng (từ 11 đến 9); phân phối phân tán nhiều (phân tán C) có khoảng (từ 12 đến 8) Điều phù hợp với nhận xét trực quan ban đầu Khoảng số đo phân tán có ích, dễ tính toán dễ hiểu Một số điểm yếu khoảng Khoảng có số điểm yếu Đầu tiên, giá trị khoảng phụ thuộc vào quan sát-giá trị lớn giá trị nhỏ nhất, khơng thể khai thác thơng tin từ quan sát lại Thứ hai Giá trị khoảng có xu hướng gia tăng tổng số quan sát gia tăng Thực vậy, quan sát chiều cao người, giá trị khoảng từ 6-8 inch Nhưng quan sát 60 người giá trị từ 14-16 inch Các số liệu lớn thường chứa giá trị cực nhỏ cực lớn; điều làm ảnh hưởng đến giá trị khoảng Như vậy, ta thấy khoảng số đo chịu tác động kích cỡ quan sát 5.3 PHƯƠNG SAI Mặc dù khoảng số đo phụ quan trọng khoảng khoảng trung tứ vị (mô tả chi tiết mục 5.11) chiếm vị trí quan trọng việc mơ tả tính biến thiên, lại nhà thống kê sử dụng Số đo sử dụng nhiều phương sai bậc hai phương sai độ lệch chuẩn chúng xem số đo phép tốn thống kê phức tạp Do tầm quan trọng phương sai độ lệch chuẩn đo lường tính biến thiên tương tự trung bình dùng để đo lường độ tập trung Nếu sử dụng cơng thức tính trình bày phần sau tính giá trị phương sai cho phân phối hình 5.1 Khi đó, hình A, có sai lệch nhất, có phương sai 0.00; hình B có phương sai 1.71 hình C, sai lệch nhiều nhất, có phương sai 1.71 Các giá trị phù hợp với nhận định trực quan ban đầu Xây dựng cách tính phương sai Để hiểu rõ phương sai, xây dựng lại cách tính phương sai Mặc dù số đo tính biến thiên, coi phương sai trung bình, nghĩa điểm phân phối Đối với trung bình , cách tính lấy giá trị quan sát cộng lại chia cho tổng số quan sát Còn phương sai, giá trị gốc quan sát biểu diễn dạng hiệu số giá trị quan sát trung bình phân phối Đối với phân phối hình 5.1, giá trị quan sát (được biểu diễn trục hoành) thay hiệu số giá trị quan sát trung bình 10, sau giá trị tượng trưng giá trị ô vuông tô đen phân phối Ví dụ cụ thể, phân phối C, có giá trị trùng với giá trị trung bình 10, bốn giá trị lệch đơn vị so với trung bình ( hai giá trị hai giá trị 11); hai giá trị (một giá trị giá trị 12) lệch hai đơn vị so với trung bình Các giá trị tạo thành tập hợp giá trị lệch chuẩn so với trung bình bao gồm: giá trị 0, hai giá trị 1, giá trị -2, giá trị Trung bình sai lệch khơng có ý nghĩa Nếu ta tính trung bình sai lệch, trung bình khơng có ý nghĩa tổng sai lệch ln Hay nói cách khác, tổng sai lệch âm sai lệch dương cộng lại 0, cho dù giá trị phân phối có biến thiên Trung bình bình phương sai lệch Trước tính phương sai tất dấu âm giá trị sai lệch phải triệt tiêu Muốn vậy, phải bình phương sai lệch, sau cộng bình phương sai lệch chia cho tổng sai lệch ta trung bình tổng bình phương sai lệch, hay cịn gọi phương sai 5.4 ĐIỂM HẠN CHẾ CỦA PHƯƠNG SAI Trong ví dụ trọng lượng nam sinh viên lớp thống kê trình bày chương 1, thấy trung bình trọng lượng 169.51 pound phương sai tính 533.83 pound bình phương Vấn đề đặt phương sai lại có đơn vị tính pound bình phương Sự cần thiết độ lệch chuẩn Để tránh bị nhầm lẫn, cần việc lấy bậc hai phương sai Con số tính gọi độ lệch chuẩn, mơ tả tính biến thiên dựa giá trị gốc đo lường Lấy ví dụ, độ lệch chuẩn phân phối trọng lượng bậc hai 533.83 23.10 pound Phương sai đóng vai trị đặc biệt thống kế cao cấp, trình bày chương 11, 23, 25 26 sách Tuy nhiên phương sai mang tính chất bước đệm để tính số đo thơng dụng độ lệch chuẩn 5.5 DIỄN GIẢI ĐỘ LỆCH CHUẨN Chúng ta xem độ lệch chuẩn trung bình cộng giá trị quan sát lệch hai phía so với trung bình Đối với phân phối C hình 5.1, bậc hai phương sai 1.71 có độ lệch chuẩn 1.31 Như vậy, độ lệch chuẩn 1.31 trung bình cộng bảy quan sát phân phối C (8, 9, 9, 10, 11, 11, 12) lệch hai phía trung bình 10 hay nói cách khác, độ lệch chuẩn 1.31 trung bình cộng sai lệch phân phối C, bao gồm sai lệch 0, bốn sai lệch 1, sai lệch Độ lệch chuẩn ln sai lệch so với trung bình cộng thật Khi tính tốn, độ lệch chuẩn ln lớn từ 10 đến 20% so với trung bình cộng thật sai lệch (hay cịn gọi trung bình cộng sai lệch tuyệt đối tính cách lấy sai lệch loại bỏ dấu cộng lại) Tuy nhiên, sử dụng độ lệch chuẩn để làm số đo trung bình cộng sai lệch 5.6 MỘT SỐ SUY LUẬN TỪ ĐỘ LỆCH CHUẨN Phần lớn quan sát nằm độ lệch chuẩn Đối với hầu hết phân phối tần suất, phần lớn (thường 68%) quan sát nằm âm độ lệch chuẩn dương độ lệch chuẩn Suy luận áp dụng cho phân phối hình 5.1 Lấy ví dụ, phân phối C có độ lệch, có độ lệch nằm khoảng độ lệch chuẩn (1.31) hai phía trung bình Hay nói cách khác, độ lệch lệch nhỏ 1.31 trung bình Chúng ta áp dụng cách tương tự phân phối tần suất khác ví dụ hai phân phối hình 5.2 Phân phối phân phối điểm IQ lớp trung bình điểm IQ 105 độ lệch chuẩn (S) 15 Theo cách tính trên, đa số điểm IQ học sinh lớp nằm khoảng cộng trừ độ lệch chuẩn, tức khoảng từ 90-120 Tương tự vậy, phân phối phân phối thời gian học tuần sinh viên cao đẳng tính có trung bình 27 độ lệch chuẩn 10 đa số thời gian học nằm khoảng cộng trừ độ lệch chuẩn tức từ 17 đến 37 Chỉ có số giá trị lệch hai độ lệch chuẩn Độ lệch chuẩn dùng để suy luận cực trị hay đuôi phân phối tần suất: Đối với hầu hết phân phối tần suất, có số giá trị (thường vào khoảng 5%) tổng số giá trị nằm cộng trừ hai độ lệch chuẩn Hãy áp dụng suy luận cho phân phối hình 5.1 Ví dụ số độ lệch hình C khơng có độ lệch nằm cộng trừ hai độ lệch chuẩn (2 x 1.31=2.62) Trong phân phối IQ học sinh lớp 4, có số điểm IQ nằm ngồi cộng trừ hai độ lệch chuẩn (2 x15=30) nghĩa nhỏ 75 (105-30) lớn 135 (105 + 30) Còn phân phối thời gian học có số giá trị nằm ngồi cộng trừ hai độ lệch chuẩn (2 x10=20) tức nhỏ (27-20) lớn 47 (27+20) Suy luận chung cho phân phối Hai suy luận nêu khơng phụ thuộc vào hình dạng phân phối tần suất Trong hình 5.2, phân phối điểm IQ phân phối cân phân phối thời gian học tuần phân phối lệch dương Thật ra, phân phối điểm IQ gần phân phối lý thuyết, hay cịn gọi phân phối bình thường (phân phối trình bày chương chương 7) Chúng ta nhận thấy suy luận xác áp dụng cho phân phối bình thường phần sau Bài tập 5.1 Phân phối tiền lương hàng năm nhân viên cơng ty A có trung bình $ 70.000 độ lệch chuẩn $5.000 (a) Đa số tiền lương nằm khoảng giá trị nào? (b) Một phần nhỏ giá trị tiền lương nhỏ giá trị nào? (c) Một phần nhỏ giá trị tiền lương lớn giá trị nào? 5.7 ĐỘ LỆCH CHUẨN: SỐ ĐO KHOẢNG CÁCH Giữa trung bình độ lệch chuẩn có điểm khác biệt quan trọng Trung bình số đo vị trí độ lệch chuẩn số đo khoảng cách (về hai phía trung bình phân phối) Hình 5.3 trình bày phân phối trọng lượng nam sinh viên lớp thống kê trình bày hình 3.1 ta cần lưu ý trung bình 169.5 pound có vị trí cụ thể trục hồnh: nằm vị trí vị trí tương ứng với giá trị 169.5 poound Mặt khác, độ lệch chuẩn 23.10 pound khơng có vị trí cụ thể trục hoành Nếu sử dụng độ lệch chuẩn số đo khoảng cách hai bên trung bình, ta diễn tả trọng lượng sinh viên cách trung bình hai độ lệch chuẩn, hay trọng lượng sinh viên cách trung bình 2/3 độ lệch chuẩn vv… Giá trị độ lệch chuẩn số âm Các khoảng lệch chuẩn xuất phát từ trung bình diễn tả lệch dương hay lệch âm trung bình Tuy nhiên cần lưu ý độ lệch chuẩn dương khơng số âm (bởi lệch âm bình phương dấu) Dấu âm đứng trước độ lệch chuẩn ví dụ dùng để ½ đơn vị độ lệch chuẩn (luôn dương) phải lấy trung bình trừ để xác định trọng lượng vị trí ½ độ lệch chuẩn trọng lượng trung bình Cụ thể hơn, diễn giải trọng lượng 158 pound ... Mặc dù khoảng số đo phụ quan trọng khoảng khoảng trung tứ vị (mô tả chi tiết mục 5.11) chiếm vị trí quan trọng việc mơ tả tính biến thiên, lại nhà thống kê sử dụng Số đo sử dụng nhiều phương sai... dựng cách tính phương sai Để hiểu rõ phương sai, xây dựng lại cách tính phương sai Mặc dù số đo tính biến thiên, coi phương sai trung bình, nghĩa điểm phân phối Đối với trung bình , cách tính lấy... phương sai lại có đơn vị tính pound bình phương Sự cần thiết độ lệch chuẩn Để tránh bị nhầm lẫn, cần việc lấy bậc hai phương sai Con số tính gọi độ lệch chuẩn, mơ tả tính biến thiên dựa giá trị gốc