1. Trang chủ
  2. » Thể loại khác

Số đo lường độ tập trung và phân tán

37 289 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Bài SỐ ĐO LƯỜNG ĐỘ TẬP TRUNG VÀ PHÂN TÁN Nhà DTH thường dùng số phương pháp để tóm tắt số liệu Trong học phân phối tần suất, tỷ số, tỷ lệ, tỷ suất Trong này, học số đo lường tập trung đo lường phân tán Một số đo lường tập trung số mô tả tốt đặc tính chẳng hạn tuổi, chiều cao nhóm người Một số đo phân tán đo lường khác biệt cá thể với với số đo tập trung Một số số đo tập trung phân tán trình bày Mỗi số có vai trị quan trọng tóm tắt liệu YTCC Mục tiêu học Sau học, học viên có thể: Tính diễn giải số đo lường tập trung : — Trung bình cộng — Trung vị — Yếu vị — Trung bình nhân Chọn sử dụng số đo tập trung Tính diễn giải số đo lường phân tán : — Khoảng — Khoảng tứ vị — Phương sai — Độ lệch chuẩn — Khoảng tin cậy (đối với trung bình ) Chọn sử dụng số đo phân tán BÀN LUẬN THÊM VỀ PHÂN PHỐI TẦN SUẤT Trong 2, bàn phân phối tần suất, bảng trình bày giá trị biến số quan sát biến Khi biến có giá trị ( nhỏ 10) liệt kê giá trị riêng rẻ Nhưng số giá trị lớn 10 , thường phải nhóm giá trị Những nhóm giá trị gọi phân lớp (cách chọn phân lớp trình bày 4) Mỗi phân phối tần suất sử dụng từ 4-8 phân lớp Bảng 3.1a trình bày phân phối tần suất biến “số ly nước trung bình uống tuần” bao gồm phân lớp Lưu ý bảng 3.1a phân lớp không trùng lắp, nghĩa phân lớp bao gồm giá trị “ không uống ly nào” “uống ly nước”, phân lớp hai gồm “uống ly nước” “uống ly nước, phân lớp tiếtp theo gồm hai giá trị Khi điền giá trị vào bảng phân phối tần suất, cần lưu ý xử lý số liệu phân số Ví dụ, người uống 1.8 ly nước xếp vàp phân lớp nào? Nhìn chung, điền giá trị thập phân bảng phân phối tần suất, thường có quy tắc làm trịn sau: − Nếu phần dư lớn 0.5 làm trịn số ( ví dụ 6.6 thành 7) − Nếu phần dư nhỏ 0.5, bỏ số lẻ (ví dụ 6.4 thành 6) − Nếu phần dư 0.5, số lẻ làm trịn lên 01 đơn vị ( ví dụ 5.5 6.5 thành 6) Theo quy tắc trên, người uống 1.8 ly nước xếp vào phân lớp hai thuộc bảng 3.1a Vì vậy, phân lớp hai chứa giá trị >= 1.5 < 3.5 ly nước, hay 1.5-3.499999 ly nước Các giới hạn gọi giới hạn thật nhóm Vậy, giới hạn thật khoảng1521 bao nhiêu? Bảng 3.1b trình bày giới hạn thật phân lớp sử dụng bảng 3.1a Giới hạn thật khoảng 15-21 14.5-21.49999….Chúng ta cần biết giới hạn thật phân lớp để tính số số đo tập trung từ phân phối tần suất Tuổi biến liên quan đến thời gian khơng tn theo quy tắc làm trịn Chúng ta khơng làm trịn tuổi Một người ln giữ tuổi định từ sinh nhật năm sinh nhật năm sau Ví dụ người ln có tuổi 16 người sinh nhật lần thứ 17 Bảng 3.2 trình bày phân phối tần suất số ca tự tử theo tuổi phân theo phân lớp Những ca tự tử 17 tuổi tháng tuổi thuộc phân lớp nào? Họ xếp vào phân lớp 5-14 Như vậy, trình bày phân phối tần suất dạng bảng Chúng ta trình bày phân phối tần suất dạng đồ thị Ví dụ hình 3.1 trình bày phân phối tần suất dạng đồ thị Các vẽ phân phối đồ thị trình bày Tuy nhiên, đồ thị sử dụng hình 3.1 để minh họa ba đặc tính trọng tâm phân phối tần suất: vị trí trung tâm, sai lệch, độ cong TÍNH CHẤT CỦA PHÂN PHỐI TẦN SUẤT Khi vẽ đồ thị phân phối tần suất, thường thấy đồ thị giống hình 3.2 Trong hình, phần lớn đồ thị tập trung quanh giá trị trung tâm Việc tập trung gọi định vị trung tâm hay mật độ tập trung phân phối tần suất Giá trị mà phân phối tập trung xung quanh đặc trưng quan trọng phân phối Khi biết giá trị này, mơ tả tất liệu phân phối Chúng ta tính giá trị trung tâm số cách cách cho giá trị khác Các giá trị trung tâm gọi chung số đo tập trung Trong số này, thường sử dụng ba số sau điều tra dịch tễ: trung bình cộng, trung vị yếu vị Một số số đo thơng dụng khoảng trung bình nhân Hình 3.3 trình bày ba đồ thị hình dạng giống có vị trí trung tâm khác Chúng ta bàn đến số đo tập trung kỹ sau trình bày tính chất cịn lại phân phối tần suất Tính chất thứ hai phân phối tần suất sai lệch hay phân tán, nghĩa phân phối có số liệu trải hai bên vị trí trung tâm Một số số đo phân tán dùng dịch tễ khoảng, phương sai độ lệch chuẩn Sự phân tán phân phối tần suất độc lập với vị trí trung tâm Điều minh họa đồ thị 3.4 ba đồ thị ba phân phối tần suất lý thuyết có vị trí trung tâm lại có mức độ phân tán khác Tính chất thứ ba phân phối tần suất hình dạng Đồ thị phân phối lý thuyết hình 3.2 hình 3.3 đồ thị cân đối Phân phối tần suất số đặc điểm người đồ thị cân đối Tuy nhiên, đồ thị phân phối số ca tự tử ( hình 3.1) có hình dạng không cân đối Một phân phối không cân đối gọi phân phối lệch Một phân phối có vị trí trung tâm bên trái đồ thị nằm bên phải gọi đồ thị “lệch dương “ “bị lệch sang phải” Trong hình 3.5 phân phối A gọi lệch dương Ngược lại phân phối có đồ thị mà vị trí trung tâm nằm bên phải đuôi nằm trái gọi “lệch âm” hay “lệch sang trái” Trong hình 3.5 phân phối C lệch âm Hình dạng đồ thị phân phối hình 3.1 thuộc dạng nào? Đồ thị phân phối C hình 3.1 đồ thị lệch dương Việc tập trung cân đối giá trị xung quanh vị trí tập trung (thường có nhiều phân phối tần suất) gọi phân phối bình thường Đường cong hình tháp chng biểu diễn phân phối bình thường gọi đường cong bình thường Phân phối bình thường sở nhiều phép kiểm thống kê nhằm rút kết luận từ số liệu Để sử dụng phép kiểm liệu phải có phân phối bình thường tức đồ thị phải đường cong bình thường MỘT SỐ LƯU Ý VỀ MẶT THỐNG KÊ Trước đọc tiếp, cần lưu ý số ghi trình bày bảng 3.3 Trong học này, diễn giải ghi dạng công thức cuối trang Phụ lục B tóm tắt tồn cơng thức sử dụng học SỐ ĐO VỊ TRÍ TRUNG TÂM Chúng ta sử dụng số đo vị trí trung tâm để tóm tắt tồn liệu dịch tễ Chẳng hạn để trình bày thơng tin số chết tự tử Mỹ năm 1987 (dữ liệu bảng 3.2) nói “ tuổi trung vị người Mỹ tự tử vào năm 1987 41.9 tuổi” Ngoài sử dụng số đo vị trí trung tâm tính tốn khác Việc sử dụng loại số đo tập trung tùy thuộc vào đặc tính phân phối, chẳng hạn hình dạng phân phối, mục đích sử dụng Trong phần học cách lựa chọn, tính sử dụng số đo tập trung Trong phần học công thức tính số đo lường tập trung dựa liệu cá nhân TRUNG BÌNH CỘNG Trung bình cộng số đo tập trung sử dụng nhiều nhất, trung bình đại số thường gọi tắt trung bình hay mức trung bình Về mặt ký hiệu trung bình cộng ký hiệu x Cơng thức tính trung bình Diễn giải cơng thức: x trung bình tổng x chia cho n Ví dụ Trong vụ dịch viêm gan A, người có triệu chứng lâm sàng vào khoảng 24-31 ngày sau tiếp xúc Trong ví dụ tính trung bình thời gian ủ bệnh dịch viêm gan A Thời gian ủ bệnh bệnh nhân 29, 31, 24, 29, 30, 25 ngày Để tính tử số, cộng quan sát : Σxi = 29 + 31 + 24 + 29 + 30 + 25 = 168 Để tính mẫu số, đếm số quan sát n = Để tính trung bình lấy tử số (tổng số quan sát ) chia cho mẫu số (số quan sát) Như vậy, trung bình thời gian ủ bệnh vụ dịch 28 ngày Ví dụ Sau danh sách ca bệnh gồm biến với 11 bệnh nhân Chúng ta tính trung bình cho biến (A-E) (danh sách ca bệnh dùng ví dụ khác phần tập học này) 10 2,3 Tìm Q1, trung vị Q3 Q1 =(6+1)/4 = 1.75, Q1 nằm vị trí ¾ quan sát thứ quan sát thứ hai Q1 = 24 + 3/4(25–24) = 24.75 Trung vị = (n+1)/2 = 7/2 = 3.5, trung vị = (29+29)/2 = 29 Q3 = 3(6+1)/4 = 5.25, Q3 nằm vị trí ¼ quan sát thứ thứ Q3 = 30 + ¼ of (31–30) = 30.25 Khoảng trung tứ vị = 30.25–24.75 = 5.5 ngày Lưu ý khoảng cách trung vị khoảng tứ vị thứ 29–24.75 = 4.25 Ngược lại khoảng cách khoảng tứ vị thứ ba trung vị 30.25–29 = 1.25 Điều cho thấy số liệu bị lệch phía số nhỏ ( lệch trái) Chúng ta kiểm tra cách quan sát quan sát Phương pháp phương pháp để tính khoảng tứ vị Nhiều phương pháp nhiều phần mềm khác cho nhiều kết khác Nhìn chung sử dụng khoảng tứ vị khoảng trung tứ vị để mơ tả tính biến thiên sử dụng trung vị số đo tập trung Chúng ta sử dụng độ lệch chuẩn sử dụng trung bình Sau năm số cần phải tóm tắt phân phối: (1) Quan sát nhỏ (tối thiểu ) (2) Khoảng tứ vị thứ (3) Trung vị (4) Khoảng tứ vị thứ ba (5) Quan sát lớn ( tối đa) Những giá trị mô tả tốt tập trung, phân tán hình dạng phân phối Năm giá trị dùng để vẽ biểu đồ hộp, đồ thị minh họa số liệu trình bày Bài tập 3.5 Xác đinh khoảng tứ vị thứ nhất, thứ ba, khoảng trung tứ vị tập hợp số liệu sau: 0, 3, 0, 7, 2, 1, 0, 1, 5, 2, 4, 2, 8, 1, 3, 0, 1, 2, Đáp án trang 166 23 PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN Như trình bày lấy quan sát trừ cho trung bình sau cộng hiệu số lại ta giá trị Khái niệm lấy quan sát trừ cho trung bình sở cho hai số đo phân tán phương sai độ lệch chuẩn Đối với hai số đo này, bình phương hiệu số để khử dấu âm Sau cộng tổng bình phương hiệu số chia cho n-1 ta trung bình bình phương hiệu số Trung bình phương sai Lấy bặc hai phương sai ta giá trị gọi độ lệch chuẩn Sau phép tính thực ví dụ cho trước Phương sai hay độ lệch chuẩn đo lường sai lệch hay phân tán quan sát xung quanh trung bình phân phối Phương sai trung bình bình phương hiệu số quan sát trung bình Nó ký hiệu s Độ lệch chuẩn bậc hai phương sai ký hiệu s Cơng thức tính hai loại số đo sau: Cơng thức tính phương sai độ lệch chuẩn Chúng ta tính phương sai độ lệch chuẩn công thức áp dụng cho tập hợp số liệu lớn Chúng ta có cách tính hai loại số đo cơng thức khác khơng địi hỏi phải tính trung bình Cơng thức gọi cơng thức tính tốn Chúng ta so sánh Σxi2 (Σxi)2 Ký hiệu đầu cho biết bình phương quan sát tổng giá trị bình phương Ký hiệu thứ hai dùng để tính tổng quan sát sau bình phương tổng Chúng ta lấy ví dụ hai loại cơng thức trên: cơng thức định nghĩa cơng thức tính tốn: 24 Ví dụ Dùng cơng thức định nghĩa tính phương sai độ lệch chuẩn cho dãy số biến C sau : 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Tính trung bình (sử dụng cột 1) Lấy quan sát trừ cho trung bình sai lệch so với trung bình(cột thứ hai ) 3.Bình phương sai lệch (cột thứ 3) Tính tổng bình phương độ sai lệch (cột thứ 3) Chia tổng bình phương sai lệch cho n-1 phương sai Lấy bậc hai phương sai độ lệch chuẩn 25 Ví Dụ Dùng cơng thức tính tốn tính phương sai độ lệch chuẩn cho số liệu ví dụ Tính Σx2i cách bình phương quan sát tính tổng bình phương ( cột thứ 2) Tính (Σxi)2 cách tính tổng quan sát sau bình phương tổng (cột thứ 1) Tính tử số : Tính mẫu số cách lấy n-1 nhân cho n : Tính phương sai cách chia tử cho mẫu số: Tính độ lệch chuẩn cách lấy bậc hai phương sai : Để minh họa mối quan hệ độ lệch chuẩn trung bình so với đường cong bình thường, lấy ví dụ liệu có phân phối bình thường hình 3.8 68.3% khu vực đường cong bình thường nằm trung bình ± độ lệch chuẩn tức nằm khoảng độ lệch chuẩn trung bình độ lệch chuẩn trung bình Tương tự ta có 95.5% khu vực nằm trung bình ± độ lệch chuẩn 99.7% khu vực nằm trung bình ± độ lệch chuẩn Ngồi ta có 95% khu vực nằm trung bình ± 1.96 độ lệch chuẩn 26 Trung bình độ lệch chuẩn dùng để tóm tắt liệu có phân phối bình thường Ví dụ, có mức cholesterol huyết mẫu gồm vài ngàn người đàn ông độ tuổi 30 Chúng ta liệt kê tất mức cholesterol cho người đàn ơng, trình bày bảng phân phối tần suất đơn giản báo cáo giá trị trung bình độ lệch chuẩn Phân phối tần suất trình bày bảng 3.4 Chúng ta tóm tắt thêm cho tập hợp liệu cách báo cáo trung bình 213 độ lệch chuẩn 42 27 Bài tập 3.6 Tính độ lệch chuẩn tập hợp số liệu sau 0, 3, 0, 7, 2, 1, 0, 1, 5, 2, 4, 2, 8, 1, 3, 0, 1, 2, Đáp án trang 166 Bài tập 3.7 Xem lại biến A, B, C ví dụ trang 137 Biến phân tán so với trung bình? Hay nói cách khác biến có độ lệch chuẩn nhỏ nhất? Để trả lời câu hỏi trên, tính độ lệch chuẩn biến A biến B Độ lệch chuẩn biến C 3.3 (xem lại trang 137) So sánh trung bình độ lệch chuẩn biến Đáp án trang 166 Tóm lại số đo phân tán mô tả phân tán giá trị quan sát biến liên tục Số đo phân tán đơn giản khoảng tính từ giá trị tối đa tối thiểu Khoảng thường bị ảnh hưởng cực trị nằm hai bên bên đồ thị Đối với số liệu phân phối bình thường, độ lệch chuẩn thường dùng với trung bình cộng Độ lệch chuẩn phản ánh giá trị quan sát tập trung xung quanh trung bình Đối với phân phối bình thường khoảng cách từ âm độ lệch chuẩn đến dương độ lệch chuẩn tượng trưng cho 68.3% số liệu 95% số liệu nằm khoảng từ -1.96 độ lệch chuẩn đến +1.96 độ lệch chuẩn Đối với số liệu bị lệch, khoảng trung tứ vị sử dụng với trung vị Khoảng trung tứ vị tượng trưng cho khoảng cách từ khoảng tứ vị thứ ( phần trăm thứ 25) khoảng tứ vị thứ ba (phần trăm thứ 75) 28 GIỚI THIỆU VỀ THỐNG KÊ PHÂN TÍCH Đơi sử dụng số đo tập trung phân tán để mô tả tập hợp số liệu Khi số liệu đại diện cho mẫu rút từ dân số thường muốn suy luận từ mẫu cho toàn dân số-hay nói cách khác đưa suy luận từ số liệu Có nhiều phương pháp thống kê để làm điều Trong phần tìm hiểu số phương pháp rút kết luận từ số liệu có phân phối bình thường Khi đưa suy luận, dựa kết mối quan hệ độ lệch chuẩn trung bình so với đường cong bình thường Chúng ta dùng mối quan hệ trình bày hình 3.9 để rút suy luận số liệu Khi đồ thị phân phối tần suất có dạng bình thường giả thuyết dân số chứa số liệu có phân phối bình thường Chúng ta giả sử lấy tất quan sát từ dân số, tìm thấy 68.3%, 95.5% 99.7% dân số nằm trung bình 1,2,3 độ lệch chuẩn Chúng ta giả thuyết 95% dân số nằm trung bình +-1.96 độ lệch chuẩn SAI SỐ CHUẨN CỦA TRUNG BÌNH Suy luận dân số thường dựa quan sát Trung bình mẫu khơng với trung bình dân số Trong thực tế, lấy nhiều mẫu nhiều giá trị trung bình khác Các trung bình tuân theo phân phối bình thường Chúng ta dùng vài giá trị trung bình để tạo thành tập hợp số liệu tìm trung bình trung bình Trung bình trung bình gần với trung bình dân số Chúng ta tính độ lệch chuẩn phân phối trung bình gọi sai số chuẩn trung bình hay đơn giản sai số chuẩn Sai số chuẩn nhỏ trung bình mẫu trung bình thật dân số Chúng ta tính sai số chuẩn trung bình từ mẫu nhất, mà khơng phải lấy nhiều mẫu, sau tính trung bình tính độ lệch chuẩn trung bình Độ lệch chuẩn sai số chuẩn trung bình khơng nên nhầm lẫn Độ lệch chuẩn số đo tính biến thiên hay phân tán tập hợp quan sát có trung bình Sai số chuẩn số đo tính biến thiên hay phân tán trung bình mẫu so với trung bình thật dân số Cơng thức ước lượng sai số chuẩn Sai số chuẩn trung bình = SE= s n Lưu ý sai số chuẩn bị ảnh hưởng hai yếu tố độ lệch chuẩn kích cỡ nghiên cứu Các quan sát sai lệch nhiều quanh trung bình, mức độ sai lệch trung bình cao sai số chuẩn lớn Kích cỡ dân số lớn trung bình có độ tin cậy cao sai số chuẩn nhỏ Ví dụ Các nhà nghiên cứu sức khỏe bệnh nghề nghiệp đo lường chiều cao mẫu gồm 80 người đàn ông làm việc nhà máy sản xuất, nhà máy P Chiều cao trung bình 69.713 inches, với độ lệch chuẩn 1.870 inches Hãy tính sai số chuẩn trung bình chiều cao công nhân nhà máy P 29 Sai số chuẩn trung bình = SE= s n = 1.870 80 = 0.209 Bài tập 3.8 Mức cholesterol huyết 4,462 người đàn ơng trình bày bảng 3.4 trung bình mức cholesterol 213 với độ lệch chuẩn 42 Hãy tính sai số chuẩn mức cholesterol người đàn ông nghiên cứu Đáp án trang 167 GIỚI HẠN ĐỘ TIN CẬY (KHOẢNG TIN CẬY) Với cỡ mẫu tối thiểu 30, trung bình, sai số chuẩn kiến thức khu vực đường cong bình thường, ước lượng giới hạn mà trung bình dân số nằm khoảng xác định giới hạn tin cậy Trong ví dụ chiều cao cơng nhân trên, chiều cao trung bình cơng nhân 69.713 tính sai số chuẩn trung bình 0.209 Chúng ta lấy trung bình cộng trừ cho sai số chuẩn Trừ : 69.713 - 0.209 =69.504 Cộng : 69.713+0.209 = 69.922 Ta kết chiều cao +-1 sai số chuẩn bên trung bình quan sát Trong hình 3.10 khu vực tơ đen giới hạn chứa 68.3% khu vực đường cong bình thường Điều có nghĩa tính chiều cao nhiều mẫu bao gồm 80 nam làm việc nhà máy P, trơng đợi 68.3% trung bình mẫu nằm 69.504 inch 69.922 inch Từ xác nhận có 68.3% độ tin cậy trung bình dân số thực nằm giới hạn Hay nói cách khác trung bình thực có sác xuất 68.3% nằm giới hạn Trong YTCC cần nhiều độ tin cậy so với thống kê mô tả Thường thiết lập độ tin cậy 95% Các nhà DTH thường diễn giải khoảng tin cậy 95% khoảng giá trị phù hợp với số liệu 30 Cơng thức tính khoảng tin cậy 95% cho trung bình Như trình bày trên, 95% số liệu nằm –1.96 độ lệch chuẩn +1.96 độ lệch chuẩn hai bên trung bình Chúng ta sử dụng kiến thức để tính khoảng tin cậy 95% Giới hạn tin cậy 95% = Giới hạn tin cậy 95% = Để sử dụng công thức trên, trước hết nhân 1.96 lần sai số chuẩn trung bình để tính khoảng cách trung bình 1.96 độ lệch chuẩn Sau lấy trung bình trừ cho khoảng cách ta giới hạn lấy trung bình cộng cho khoảng cách giới hạn Nói tóm lại, trung bình thật có xác suất 95% nằm giới hạn tính Về mặt dịch tễ diễn giải kết cách nói số liệu mẫu phù hợp với trung bình thật nằm giới hạn Độ rộng khoảng tin cậy cho thấy ước lượng xác đến đâu nghĩa tin tưởng suy luận cho dân số từ mẫu Ví dụ Tính khoảng tin cậy 95% cơng nhân nhà máy P Giới hạn tin cậy = 69.713–(1.96)(0.209) = 69.713–0.410 = 69.303 Giới hạn tin cậy = 69.713+(1.96)(0.209) = 69.713+0.410 = 70.123 Các giới hạn có 95% xác suất chứa trung bình dân số (trung bình chiều cao thật cơng nhân nhà máy P) giải thích mặt dịch tễ học điều có nghĩa số liệu mẫu phù hợp với chiều cao trung bình thật nằm 69.3 70.1 inches Lưu ý 31 khoảng tin cậu 95% nhỏ (dưới inch) cho thấy ước lượng xác trung bình chiều cao dân số Bài tập 3.9 Sử dụng số liệu tập 3.8 Hãy tính khoảng tin cậy 95 % lượng cholesterol huyết người đàn ông nghiên cứu Đáp án trang 168 Trung bình khơng phải số tính khoảng tin cậy Khoảng tin cậy tính cho tỷ số, tỷ suất, tỷ số nguy cơ, tỷ số số chênh số đo khác muốn rút suy luận dân số từ mẫu Việc diễn giải khoảng tin cậy tương tự với trung bình: (1) khoảng nhỏ, ước lượng giá trị dân số xác (và giá trị nghiên cứu cao việc ước lượng giá trị dân số) (2) khoảng giá trị khoảng tin cậy khoảng giá trị dân số phù hợp so với số liệu từ mẫu từ nghiên cứu LỰA CHỌN SỐ ĐO TẬP TRUNG VÀ PHÂN TÁN Trong dịch tễ sử dụng tất số đo tập trung phân tán để mô tả tập hợp số liệu để so sánh hai nhiều tập hợp số liệu với nhau, sử dụng tất số đo tập hợp số liệu Chúng ta lựa chọn số đo tập trung dựa số liệu phân phối Chúng ta lựa chọn số đo phân tán dựa số đo tập trung sử dụng Bởi phân phối bình thường dạng cân đối hồn chỉnh, trung bình, trung vị yếu vị có giá trị hình 3.11 Trong thực tế, tập hợp số liệu tương đối nhỏ đạt hình dạng lý tưởng giá trị trung bình, trung vị, yếu vị thường khác Khi phải quuyết định giá trị đại 32 diện cho toàn tập hợp số liệu Phần lớn phép kiểm thống kê kỹ thuật phân tích dựa trung bình cộng Vì vậy, thường chọn trung bình trung vị yếu vị Khi sử dụng trung bình sử dụng độ lệch chuẩn làm số đo phân tán Tuy nhiên trung bình bị ảnh hưởng cực trị bị lệch phía xuất cực trị phân phối hình 3.11 Chúng ta nói hướng mà số liệu bị lệch cách so sánh trung bình trung vị Trung bình bị kéo xa khỏi trung vị phía bị lệch Khi số liệu bị lệch thường dùng trung vị khơng bị ảnh hưởng cực trị Khi sử dụng trung vị sử dụng khoảng trung tứ vị làm số đo phân tán Tuy nhiên, số đo thường ích cho phân tích số liệu có phép kiểm thống kê kỹ thuật phân tích dựa giá trị Yếu vị số đo sử dụng ba loại số đo tập trung Một số tập hợp khơng có có yếu vị Yếu vị thường khơng sử dụng để tính thống kê phức tạp Tuy nhiên, yếu vị giúp mơ tả số tập hợp số liệu Đơi cần có kết hợp ba số liệu để mô tả tập hợp số liệu Chúng ta xem tập hợp số liệu tiền sử hút thuốc 200 người trình bày bảng 3.6 33 Khi phân tích bảng 3.6 có kết sau: Trung bình = 5.4 Trung vị = Yếu vị = Giá trị tối thiểu = Giá trị tối đa = 40 Khoảng giá trị = 0-40 Khoảng trung tứ vị = 8.8 (0.0 −8.8) Độ lệch chuẩn = 9.5 Tất kết khơng tóm tắt tốt số liệu Gần ¾ sinh viên tham gia nghiên cứu, tượng trưng cho yếu vị, người không hút thuốc Nếu báo cáo theo 58 người hút thuốc, ta thông tin tốt Trong số 58 (29%) người hút thuốc: Trung bình = 18.5 Trung vị = 19.5 Yếu vị = 20 Giá trị tối thiểu = Giá trị tối đa = 40 Khoảng giá trị = 2-40 Khoảng trung tứ vị = 8.5 (13.7-22.25) Độ lệch chuẩn = 8.0 Như thơng tin tóm tắt tốt sau: “142 (71%) sinh viên không hút thuốc Trong số 58 người hút thuốc (29%), trung bình hút gói ngày (trung bình=18.5, trung vị=19.5) Khoảng giá trị từ 2-40 điếu ngày, ½ số người hút thuốc từ 14-22 điếu /ngày 34 TÓM TẮT Phân phối tần suất, số đo tập trung phân tán công cụ hữu hiệu để tóm tắt đặc tính chiều cao, huyết áp tâm trương , thời gian ủ bệnh số lần giao hợp bạn tình Một số đặc tính số IQ tuân theo phân phối bình thường hình chng cân đối dân số Các đặc tính cịn lại lệch phải (các hướng cực trị lớn ) hay lệch trái (các đuôi hướng cực trị nhỏ) Một số đặc tính phân phối bình thường lại mang số cực trị hay số ngoại lai Một số đặc tính kết xét nghiệm với nồng độ pha loãng tuân theo dạng logarit Cuối số đặc tính tuân theo dạng khác ( chẳng hạn phân phối đồng dạng) hay tuân theo hình dạng cố định Kiểu số liệu đặc biệt quan trọng việc lựa chọn số đo tập trung phân tán Số đo tập trung số tượng trưng cho trung tâm giá trị quan sát Các số đo tập trung khác tượng trưng cho trọng tâm theo cách khác Trung bình cộng tượng trưng cho trung tâm trọng lượng hay điểm cân tất số liệu Trung vị tượng trưng cho điểm số liệu nửa số liệu nhỏ nửa số liệu lớn trung vị Yếu vị tượng trưng cho đỉnh giá trị phổ biến Trung bình nhân tương tự trung bình cộng dùng cho thang đo logarit Số đo phân tán mô tả phát tán hay biến thiên phân phối quan sát Khoảng giá trị đo lường mức độ trải rộng giá trị từ giá trị nhỏ giá trị lớn Độ lệch chuẩn sử dụng với trung bình cộng phản ánh mức độ tập trung giá trị xung quanh trung bình Đối với phân phối bình thường 95% số liệu nằm –1.96 độ lệch chuẩn +1.96 độ lệch chuẩn Khoảng trung tứ vị sử dụng kèm với trung vị tượng trưng cho khoảng cách từ phần trăm thứ 25 phần trăm thứ 75 hay gần điểm 50 % số liệu Số liệu có phân phối bình thường thường tóm tắt trung bình cộng trung vị Số liệu bị lệch có vài giá trị lớn thường tóm tắt trung vị khoảng trung tứ vị Số liệu đo thang logarit thường tóm tắt trung bình nhân Yếu vị khoảng giá trị dùng để tóm tắt bổ sung cho loại số liệu chúng báo cáo riêng biệt Thống kê suy luận việc suy kết từ mẫu cho trước dân số lấy mẫu Trung bình mẫu số đo tốt để ước lượng trung bình dân số có mẫu nên việc ước lượng thiếu xác Khoảng tin cậy xác định có độ tin cậy ước lượng xác Khoảng tin cậy đối trung bình dựa sai số chuẩn trung bình Sai số chuẩn dựa tính biến thiên số liệu (độ lệch chuẩn) kích cỡ mẫu Trong dịch tễ học, khoảng tin cậy 95% thông dụng nhất: 95% số lần trung bình dân số rơi vào khoảng từ -1.96 sai số chuẩn +1.96 sai số chuẩn ( giới hạn giới hạn khoảng) Khoảng tin cậy khơng áp dụng cho trung bình mà cịn sử dụng cho số đo khác tỷ lệ, tỷ suất, tỷ số nguy cơ, tỷ số sô chênh số đo dịch tễ khác 35 BÀI TẬP ÔN Bài tập 3.10 Số liệu bảng 3.7 trình bày mẫu khảo sát hàm lượng chì máu Jamaica a Tóm tắt liệu bảng phân phối tần suất b Tính trung bình cộng liệu c Xác định trung vị khoảng trung tứ vị d Tính giới hạn khoảng tin cậy 95% trung bình e Câu hỏi phụ: tính trung bình nhân sử dụng hàm lượng chì dạng logarit trình bày bảng 3.7 Đáp án tập 3.10 trang 36 Tài liệu tham khảo Center for Disease Control Health status of Vietnam veterans Volume 3: Medical Examination 1989 Matte TD, Figuera JP, Ostrowski S, et al Lead poisoning among household members exposed o lead-acid battery repair shops in Kingston, Jamaica Int J Epidemiol 1989;18:874-881 National Center for Health Statistics Advance Report of Final Mortality Statistics, 1987 Monthly Vital Statistics Report, Vol 38 no.5 Supplement Hyattsville, MD, PHS 1989 p.21.205 37 ... gần trung tâm 2) đồ thị phân tán hai bên đỉnh Để mô tả đỉnh đồ thị, dùng số đo tập trung Để mô tả phân phối phân tán nào, sử dụng số đo phân tán Chúng ta thuờng sử dụng số đo tập trung kèm với số. .. tập hợp số liệu để so sánh hai nhiều tập hợp số liệu với nhau, sử dụng tất số đo tập hợp số liệu Chúng ta lựa chọn số đo tập trung dựa số liệu phân phối Chúng ta lựa chọn số đo phân tán dựa số. .. dân số) (2) khoảng giá trị khoảng tin cậy khoảng giá trị dân số phù hợp so với số liệu từ mẫu từ nghiên cứu LỰA CHỌN SỐ ĐO TẬP TRUNG VÀ PHÂN TÁN Trong dịch tễ sử dụng tất số đo tập trung phân tán

Ngày đăng: 26/09/2021, 22:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w