Thống kê tham số và phi tham số

16 22 0
Thống kê tham số và phi tham số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

GIỚI THIỆU Mục đích phần giới thiệu nhằm cung cấp cho người đọc nhìn tổng quát thuật ngữ bản, khái niệm, phương pháp sử dụng lónh vực thống kê mô tả thiết kế thử nghiệm Cụ thể, phần trình bày nội dung sau: a) cách tính toán số tập trung, biến thiên, độ lệch, độ cong; b) mô tả số liệu phương pháp trực quan; c) phân phối bình thường; d) kiểm định giả thuyết; e) thiết kế thử nghiệm Về phần nội dung người đọc cung cấp thông tin cần thiết để vừa hiểu vừa áp dụng phương pháp thống kê đề cập sách Cuối phần giới thiệu phần tóm tắt tất phương pháp đề cập trước “bảng định” giúp người đọc chọn lựa phương pháp thống kê thích hợp Thống kê mô tả thống kê suy luận Thuật ngữ thống kê (statistic) bắt nguồn từ chữ Latinh La Mã có nghóa “trạng thái” “số học trạng thái” (có nghóa tình trạng nhà nước hay quốc gia) Nói theo cách khoa học hơn, thống kê lónh vực toán học dùng để tóm tắt phân tích số liệu lónh vực thống kê chia thành hai nhánh lớn thống kê mô tả (descriptive statistic) thống kê suy luận (inferential statistic) Thống kê mô tả nhánh thống kê số liệu sử dụng cho mục đích mô tả không dùng để đưa dự đoán Vì vậy, thống kê mô tả bao gồm phương phá, cách thức trình bày tóm tắt số liệu Cách thức sử dụng nhiều thống kê mô tả vẽ đồ thị, lập bảng tính toán số tập trung phân tán Đo lường kết hợp hay tương quan (measures of association or correlation), đề cập sách này, hầu hết nguồn cho phương pháp thống kê mô tả, phương pháp dùng để mô tả mối liên hệ hai nhiều biến Một biến (variable) đặc tính đối tượng hay sinh vật có biến thiên- nghóa xét đến đặc tính đối tượng hay sinh vật giống hệt Một số ví dụ biến màu sắc, cân nặng, giới tính, số thông minh vv… Thống kê suy luận (inferential statistic) sử dụng số liệu để rút kết luận hay đưa dự đoán Cụ thể, thống kê suy luận số liệu mẫu dùng để rút kết luận cho dân số dùng để rút mẫu Trong dân số (population) bao gồm tổng toàn chủ thể hay đối tượng có chung số đặc điểm, mẫu (sample) tập hợp chủ thể hay đối tượng rút từ dân số Để kết luận dân số có ý nghóa, mẫu phải thật đại diện cho dân số Vì vậy, mẫu lý tưởng mẫu ngẫu nhiên (random sample) Một mẫu ngẫu nhiên phải thoả điều kiện sau: a) chủ thể hay đối tượng dân số phải có hội chọn lựa vào mẫu nhau; b) việc lựa chọn chủ thể/đối tượng hoàn toàn độc lập so với đối tượng kia; c) mẫu định, mẫu tương tự rút từ dân số có hội xuất Tuy nhiên thực tế khó chọn mẫu ngẫu nhiên lý khách quan và/hoặc đạo đức Chính khó chọn nên nhà nghiên cứu gặp phải giới hạn muốn rút kết luận cho dân số Số thống kê tham số Một số thống kê (statistic) đặc tính mẫu, chẳng hạn số trung bình (cũng gọi trung bình (mean) ) tham số đặc tính dân số (chẳng hạn trung bình toàn dân số) Một số thống kê dùng thống kê mô tả thống kê suy luận Ví dụ sử dụng trung bình nhóm (nhóm đại diện cho mẫu) để tóm tắt số liệu trung bình cho nhóm số trung bình mang tính thống kê mô tả Nhưng sử dụng số trung bình để ước lượng số trung bình dân số lớn mà nhóm rút số trung bình sử dụng cho mục đích thống kê suy luận Con số thống kê sử dụng cho thống kê mô tả thống kê suy luận số đo lường độ tập trung (measures of central tendency) (trung bình số đó) số đo lường mức độ phân tán ( mearsures of variability) Trong thống kê mô tả, giá trị số thống kê (chẳng hạn trung bình mẫu) sử dụng để rút kết luận cho tham số dân số mà mẫu rút từ (ví dụ trung bình dân số) Tất phương pháp thống kê suy luận đề cập sách sử dụng số thống kê nhiều mẫu để đưa kết luận hay dự đoán cho dân số mà mẫu rút từ Sai số mẫu (sampling error) khác biệt giá trị số thống kê tham số mà số thống kê dùng để ước lượng tham số Chính sai số mà số thống kê không xác tham số mà ước lượng Mẫu lớn sai số mẫu nhỏ, nghóa khả người nghiên cứu ước lượng gần với tham số cao Khi áp dụng số liệu từ mẫu để ước lượng cho tham số số thống kê phải không sai lệch (unbiased) Mặc dù, sai số mẫu kèm với số thống kê không sai lệch, số thống kê không sai lệch giúp đưa ước lượng xác cho tham số Còn sử dụng số thống kê sai lệch (biased statistic) sai số mẫu ngày tăng lên Hay nói cách xác hơn, số thống kê không sai lệch (hay gọi tố ước lượng không sai lệch (unbiased estimator)) số mà vọng trị (expected value) tương đương với tham số mà ước lượng Vọng trị số thống kê tính toán dựa tiền đề sau đây: số vô hạn mẫu với kích cỡ rút từ dân số, mẫu tính giá trị số thống kê Trung bình cộng giá trị trở thành vọng trị của số thống kê Phân phối dùng để mô tả giá trị số thống kê vọng trị gọi phân phối mẫu (sampling distribution) Mức đo lường Thường thông tin lượng hoá mục đích nghiên cứu phân loại tuỳ vào mức đo lường mà số liệu đại diện Sự khác biệt mức đo lường đưa đến thông tin khác cho dù số liệu tính toán Một hệ thống phân loại số liệu áp dụng nhiều ngành khoa học Stevens (1946) đưa giới thiệu mục Các nhà thống kê thường khái niệm hoá cách tổng quát số liệu bốn dạng sau đây: số liệu danh định (nominal data) (hay gọi số liệu phân loại (categorical data)), số liệu thứ tự (ordinal data (hay gọi số liệu thứ tự-xếp hạng (rank-order data), số liệu khoảng (interval data), số liệu tỷ lệ (ratio data) Khi từ mức đo lường thấp nhất, số liệu danh định, đến số liệu cao nhất, số liệu tỷ lệ, lượng thông tin thu từ số phương pháp toán học sử dụng tăng theo mức đo lường Mỗi mức đo lường trình bày kỹ sau đây: a) Mức đo lường danh định/phân loại: mức này, số sử dụng với mục đích xác nhận điều chỉnh toán họa Một ví dụ số bảo hiểm xã hội người mang tính chất nhận dạng người áp dụng phương pháp toán học số (ví dụ cộng, trừ , nhân, chia ) b) Mức đo lường thứ tự: thang đo thứ tự, số tượng trưng cho thứ tự hạng, không đưa thông tin khác biệt thứ hạng Vì vậy, thứ tự kết thúc vòng đua đua ngựa biến thứ tự Giả dụ, ngựa A kết thúc vòng đua nhanh ngựa B vào giây ngựa B trước ngựa C vài phút, thứ tự ngựa nhì chẳng cho biết thông tin việc biết khoảng cách ngựa về nhì ngắn khoảng cách ngựa ba nhì dài c) Mức đo lường khoảng: thang đo khoảng không xem xét đến thứ tự số mà mô tả khác biệt số đo lường tương đương khác biệt lượng thuộc tính đo lường Điều có nghóa, số IQ xem thang đo khoảng, điểm khác biệt số IQ người có số IQ 100 101 với điểm khác biệt số IQ người có số IQ 140 141 Tuy nhiên số nhà tâm lý học không chấp nhận điều để tăng lên điểm từ 140 lên 141 cần nhiều thông minh để tăng điểm từ 100 lên 101 Nếu theo nhà tâm lý học, điểm khác biệt không phản ánh toàn khác biệt thang đo khoảng Mặc dù số IQ số đặc tính khác người thường đo lường phép kiểm tâm lý học (ví dụ lo âu, chểnh mảng, tự ti…) xem số liệu khoảng, nhiều nhà nghiên cứu cho phải xếp đặc tính vào loại số liệu thứ tự Họ đưa nhận xét dựa việc số đo lường thuộc tính không thoả điều kiện số liệu khoảng nói Cần lưu ý thang đo khoảng giá trị giống thang đo tỷ lệ trình bày Nếu sử dụng giá trị để gán cho ngườ hay đối tượng việc gán mang tính chất tùy ý Vì vậy, trường hợp số IQ đặt câu hỏi liệu có người thật có số IQ hay không? Thật người gán cho số IQ họ thực phép kiểm số IQ Kém nghóa họ không trả lời câu hỏi test mà họ trả lời số câu hỏi đạt số điểm mà người xây dựng phép kiểm IQ gán cho giá trị d) Mức đo lường tỷ lệ: tương tự thang đo lường khoảng, thang đo tỷ lệ mô tả khác biệt số đo lường tương đương với khác biệt lượng thuộc tính đo lường Tuy nhiên khác thang đo khoảng chỗ chứa giá trị có giá trị 0, nên đưa câu nhận xét mang tính tỷ lệ có ý nghóa thuộc tính hay biến Một số ví dụ thang đo tỷ lệ số đo vật lý cân nặng, chiều cao, mức đường huyết, hay số hành vi số lần hắt người, số lần trẻ khóc… Các số đo mang giá trị (cân nặng =0, chiều cao =0…) đưa nhận xét mang tính tỷ lệ có ý nghóa (chẳng hạn Ann nặng gấp hai lần Joan, đường hyết Phil cao gấp 100 lần đường huyết Sam) Biến liên tục biến rời rạc Khi sử dụng số cho người hay vật đó, hầu hết trường hợp giả sử số biến thiên Chính chúng biến thiên nên có giá trị Vì lý đó, đo lường người ta thừơng gọi biến (variable) Như đề cập trên, biến phân loại theo bốn mức đo lường Ngược với biến số (constant) có giá trị không thay đổi Một số ví dụ số số toán học pi e, số ngày tuần, số ngày tháng 4… Một biến phân thành biến liên tục hay rời rạc Một biến liên tục (continuous variable) có giá trị nằm khoảng giới hạn giá trị biến Ngược lại biến rời rạc (discrete variable) có số giá trị mà Chẳng hạn nhiệt độ biến liên tục biến vừa có giá trị số nguyên vừa có giá trị số thập phân nằm khoảng định Về mặt lý thuyết, có vô số giá trị nhiệt độ, nhiên đo số giá trị bị hạn chế đọ xác máy đo Số mặt xúc xắc lại biến rời rạc xúc xắc có mặt nên số giá trị từ 1-6 Số đo lường khuynh hướng tập trung Như đề cập từ đầu phần giới thiệu, số thống kê thường sử dụng số đo lường khuynh hướng tập trung đo lường khuynh hướng phân tán Trong mục này, trình bày số đo lường khuynh hướng phân tán trung vị, yếu vị, trung bình, Yếu vị yếu vị (the mode) giá trị xuất nhiều phân phối giá trị Yếu vị mẫu gọi số thống kê yếu vị dân số lại gọi tham số Trong dãy số sau 0, 1, 2, 5, 5, 8, 10 số yếu vị xuất hai lần Nếu phân phối có nhiều giá trị xuất với tần suất cao nhất, phân phối có nhiều yếu vị Như vậy, dãy số 0, 1, 2, 3, 4, có tất yếu vị số xuất với tần suất cao lần Một phân phối có nhiều yếu vị gọi phân phối đa yếu vị (multimodal distribution) (ngược lại với phân phối có yếu vị gọi phân phối đơn yếu vị (unimodal distribution) Nếu phân phối có hai yếu vị gọi phân phối nhị yếu vị (bimodal distribution) Dãy số 0, 5, 5, 8, 9, 9, 10 gọi phân phối nhị yếu vị số số xuất lần Con số yếu vị sử dụng số thống kê mô tả phân phối tần suất Một phân phối tần suất (frequency distribution) bảng tóm tắt số liệu, liệt kê giá trị phân phối Ví dụ, bảng 1.1 bảng phân phối tần suất cho phân phối A bao gồm 20 quan sát Bảng 1.1 gồm hai cột cột bên trái (X) cột mô tả giá trị từ 22-96 phân phối Cột thứ hai mô tả tần suất giá trị Chúng ta lập bảng phân phối tần suất liệt kê tất giá trị quan sát (20 giá trị) Tuy nhiên cách làm không sử dụng làm rối mắt người đọc, đặc biệt trường hợp số quan sát lớn (ví dụ 1000) Phân phối A: 22, 55, 60, 61, 61, 62, 62, 63, 63, 67, 71, 71, 72, 72, 72, 74, 74, 76, 82, 96 Bảng 1.1: bảng phân phối tần suất phân phối A X | Freq + -22 | 55 | 60 | 61 | 62 | 63 | 67 | 71 | 72 | 74 | 76 | 82 | 96 | + Total | 20 Bên cạnh việc trình bày số liệu dạng bảng, nhà nghiên cứu trình bày số liệu dạng đồ thị Thật vậy, nhà nghiên cứu sử dụng đồ thị số liệu để giúp cho việc tiến hành phân tích thống kê sau Lý để vẽ đồ thị thông qua đồ thị, nhà nghiên cứu xác định số tính chất quan trọng giúp cho việc xác định phương pháp phân tích thích hợp Thường đặc tính rõ ràng cho nhà nghiên cứu- đặc biệt trường hợp số liệu lớn và/hoặc người nghiên cứu thiếu kinh nghiệm việc phân tích thống kê Một phương pháp trìnhbày số liệu trực quan sử dụng đa giác tần suất (frequency polygon) Cần ý đa giác tần suất gồm hai trục trục tung trục hoành Trục hoành (abscissa) biểu diễn giá trị phân phối Trên trục hoành có dấu hiệu -/ /-, ý muốn nói nhà nghiên cứu quan tâm đến giá trị giá trị đó, giá trị nằm từ đến giá trị không vẽ đồ thị Trục tung (ordinate) hiển thị tần suất giá trị tương ứng Để chuẩn hoác số liệu đồ thị, số nhà khoa học đề nghị chiều dài trục tung ¾ chiều dài trục hoành Đa giác tuần suất bao gồm loạt dòng kẻ nối điểm lại với Một điểm đồ thị tượng trưng cho điểm giao giá trị tần suất tương ứng giá trị Khi đa giác tần suất di chuyển dọc theo chiều dài trục hoành, điều dó có nghóa giá trị Điểm cao đồ thị yếu vị phân phối Trung vị trung vị (median) điểm phân phối Nếu số giá trị phân phối số lẻ (odd number), để xác định trung vị làm sau:  Sắp xếp giá trị theo thứ tự từ thấp đến cao  Lấy tổng số giá trị chi  Thêm 0.5 vào kết phép chia ta vị trí thứ tự (ordinal position ) trung vị  Từ vị trí thứ tự trung vị xác định trung vị giá trị nằm vị trí Ví dụ: có dãy số 6, 8, 9, 13, 16 lấy 5/2= 2.5 Thêm 0.5 vào 2.5 vị trí thứ tự trung vị tương ứng với giá trị Nếu số giá trị phân phối số chẵn (even number), xác định trung vị cách sau:  Sắp xếp giá trị theo thứ tự từ thấp đến cao  Lấy tổng số giá trị chia cho  Kết phép chia số lớn kế số hai vị trí thứ tự trung vị  Xác định hai giá trị nằm hai vị trí thứ tự  Cộng hai giá trị chia cho giá trị trung vị Ví dụ ta có dãy số sau: 6, 8, 9, 12, 13, 16 lấy 6/2=3 Như hai vị trí thứ tự số trung vị Nằm vị trí hai giá trị 12 Vậy ta lấy 9+12)/2=10.5 trung vị phân phối Trung bình trung bình (hay gọi trung bình số học (arithmetic mean)) giá trị trung bình phân phối Thông thường trung bình sử dụng thống kê mô tả áp dụng cho số liệu khoảng số liệu tỷ lệ Chúng ta tính trung bình cho mẫu trung bình cho dân số Tuy nhiên thực tế trung bình dân số không tính trực tiếp mà phải ước lượng dựa thống kê phân tích Số đo lường phân tán Trong mục bàn luận đến số số đo lường mức độ phân tán số liệu, quan trọng hai số độ lệch chuẩn phương sai a) Phạm vi phạm vi (range) khác biệt giá trị lớn giá trị nhỏ phân phối Vì dãy số 2, 3, 5, 6, 7, 12, phạm vi khác biệt giá trị 12 2, suy phạm vi=122=10 Một số người đề nghị cộng thêm vào phạm vi, phạm vi 11 phạm vi sử dụng thống kê mô tả, lại sử dụng thống kê phân tích b) Quantile, phần trăm, thập vị tứ vị Quantile số đo lường chia phân phối thành nhiều điểm phần trăm Ví dụ quantile percentile decile Phần trăm (percentile) chia phân phối thành nhiều đoạn phần trăm (hay đoạn có tỷ lệ 0.01 phân phối) Một giá trị phần trăm cụ thể tương ứng với điểm phân phối mà phần trăm giá trị nằm điểm hay rơi vào điểm Vì vậy, số IQ 115 rơi vào vị trí phần trăm thứ 84, điều có nghóa 84% dân số có số IQ 115 nhỏ Thứ hạng phần trăm (percentile rank) dùng để percentile-hay nói cách khác số IQ 115 có thứ hạng phần trăm 84 Thập vị (decile) chia phân phối thành đoạn có độ dài 10% (hay đoạn 0.10 phân phối) Một phân phối chia thành 10 đoạn giới hạn đoạn phần trăm thứ 10, phần trăm thứ 20… Vì giá trị tương đương phần trăm thứ 10 rơi vào giới hạn đoạn thập vị Khoảng trung thập vị (interdecile range) khác biệt giá trị phần trăm thứ 90 phần trăm thứ 10 Tứ vị (quartile) chia phân phối thành đoạn có độ dài 25% Một phân phối gồm đoạn tứ vị, 25 %, 50%, 75% 100% Vì giá trị tương ứng với vị trí phần trăm thứ 25 rơi vào giới hạn đoạn tứ vị phân phối Khoảng trung tứ vị (interquatile range) khác biệt giá trị vị trí phần trăm thứ 75 giá trị vị trí phần trăm thứ 25 Khoảng trung thập vị trung tứ vị thường sử dụng để mô tả tính phân tán Người ta thường sử dụng hai khoảng trường hợp người nghiên cứu muốn loại bỏ giá trị gọi ngoại lai c) Phương sai độ lệch chuẩn hai số đo lường độ phân tán sử dụng nhiều thống kê mô tả lẫn thống kê phân tích Hai số có liên hệ với nhau, độ lệch chuẩn bậc hai phương sai Giống trung bình trung vị, độ lệch chuẩn phương sai sử dụng cho số liệu khoảng tỷ lệ Phương sai (variance) định nghóa trung bình bình phương khác biệt giá trị so với trung bình phân phối Đọc giả nên lưu ý điểm sau phương sai độ lệch chuẩn:  Giá trị phương sai độ lệch chuẩn không số âm Nếu tính số âm, tính sai kết phương sai độ lệch chuẩn Còn giá trị phương sai độ lệch chuẩn không chứng tỏ tất giá trị giống  Mẫu lớn khác biệt phương sai (độ lệch chuẩn ) dùng thống kê mô tả phương sai (độ lệch chuẩn ) dùng thống kê phân tích giảm Trước kết thúc phần bàn luận phương sai độ lệch chuẩn cần ý đến khái niệm hiệu lực, khả năng, độ bền Hiệu lực (efficiency) liên quan đến câu hỏi liệu số thống kê có bị sai lệch hay không Một số thống kê có hiệu lực (efficiency statistic) chứng minh ước lượng xác tham số số thống kê khác dùng để ước lượng tham số Một ví dụ trường hợp mức tương đối trung bình mẫu trung vị mẫu dùng để ước lượng cho phân phối dân số cân đối (trong phâ phối dân số cân đối giá trị trung bình trung vị nhau) Mặc dù hai số trung bình trung vị mẫu dùng làm tố ước lượng trung bình phân phối dân số cân đối, trung bình mẫu số ước lượng có hiệu lực cao trung vị mẫu, trung bình mẫu có sai số chuẩn nhỏ trung vị mẫu Nói cách đơn giản hơn, mẫu có kích thước định, mức phân tán trung bình mẫu nhỏ mức phân tán trung vị mẫu hay nói cách khác, giá trị trung bình mẫu tập trung xung quanh trung bình dân số nhiều giá trị trung vị mẫu tập trung xung quanh trung vị dân số Tương tự vậy, phương sai mẫu độc lệch chuẩn mẫu số thống kê có hiệu lực, mức sai số chuẩn chúng nhỏ bất lỳ số thống kê khác dùng để ước lượng cho phương sai độ lệch chuẩn dân số Một số ước lượng có khả (sufficieny estimator) số sử dụng tất thông tin mẫu để ước lượng cho tham số Đối với số thống kê mô tả tập trung, trung bình số ước lượng có khả Trong đó, trung vị yếu vị số ước lượng có khả trung vị sử dụng số phân phối mẫu yếu vị sử dụng số xuất nhiều phân phối mẫu số mô tả tính phân tán, có phương sai độ lệch chuẩn số có khả Phạm vi, giá trị khoảng trung tứ vị khả chúng sử dụng giá trị cụ thể mà Cuối cùng, trung bình , phương sai, độ lệch chuẩn tượng trưng cho số ước lượng bền vững (consistent estimator) Một số gọi ước lượng bền vững mẫu tăng, xác suất ước lượng xác tham số tương ứng tăng theo d) Hệ số biến thiên số đo lường tính biến thiên sử dụng tương quan biến thiên (coefficient variation) Bởi giá trị độ lệch chuẩn phương sai hàm trực tiếp tính toán phạm vi giá trị mẫu/dân số, mô tả tính biến thiên đề cập đến kích cỡ trung bình phân phối Bằng cách này, so sánh giá trị phương sai độ lệch chuẩn phân phối khác hoàn toàn trung bình và/hoặc sử dụng đơn vị đo lường khác Hệ số biến thiên ký hiệu CV tính cách lấy độ lệch chuẩn mẫu chia cho trung bình mẫu biết trung bình độ lệch chuẩn dân số tính CV cho dân số Sau ví dụ minh hoạ cách tính CV: Ta có thu nhập hàng tháng nước A =40 jaspar với độ lệch chuẩn 10 jaspar, thu nhập hàng tháng nước B 2000 roc với độ lệch chuẩn 100 roc Cần ý quốc gia sử dụng đơn vị đo tiền tệ khác (roc jaspar) Chúng ta tính CV A = 10/40 = 0.25, CVB =100/2000 = 0.05 số CV đơn số tỷ lệ đơn vị tiền tệ sử dụng nước Nói cách khác, 0.25 tỷ lệ 0.25 0.25 jaspar 0.05 tỷ lệ 0.05 0.05 roc Khi lấy CVA/ CVB = 0.25/0.05 = 5, ta thấy thu nhập hàng tháng nước A biến thiên gấp năm lần thu nhập hàng tháng nước B tính dạng phần trăm ta kết luận thu nhập nước A biến thiên gấp 500% nước B trường hợp lấy độc lệch chuẩn nước B chia cho độ lệch chuẩn thu nhập nước A ( 100/10 =10), kết luận thu nhập nước B thu nhập biến thiên gấp 10 lần nước A kết luận sai lầm Lý sai lầm công thức tính độ lệch chuẩn không tính đến khác biệt đơn vị tiền tệ hai nước Số đo lường đọ cong độ lệch Bên cạnh trung bình phương sai, có hai số khác sử dụng thống kê mô tả độ cong độ lệch Hays Winkler sử dụng khái niệm momen để mô tả vọng trị lực khác biến ngẫu nhiên Theo học, trung bình momen thứ nhất, phương sai momen thứ hai trung bình, độ lệch momen thứ ba ( mũ ba trung bình -ký hiệu m3 ) độ cong mô momen thứ tư trung bình (mũ trung bình-ký hiệu m4) Độ lệch độ cong sử dụng để xác định độ phù hợp mô hình (goodness of fit) số loại phân phối-hầu hết phân phối bình thường Một số phép kiểm sử dụng độ phù hợp mô hình test 4, test 5, test 7, test Độ lệch độ lệch (skewness) số phản ánh mức độ cân đối phân phối Một phân phối cân đối nửa phân phối hình ảnh tương phản nửa lại Phân phối dạng chuông úp hay phân phối bình thường ví dụ phân phối cân đối Khi phân phối không cân đối phân chia tỷ lệ giá trị không giá trị nằm tập trung nhiều bên phải hay bên trái phân phối Khi tất đường nối điểm đa giác tần suất không bi gãy khúc liền mạch với phân phối có dạng phân phối cân đối hay không cân đối Một phân phối tần suất lý thuyết (theoretical frequency distribution) đồ thị tần suất phân phối dân số Đồ thị có trục hoành giá trị phân phối trục tung tần suất giá trị Đôi giá trị trục tung xác suất tần suất, người ta gọi phân phối tần suất lý thuết phân phối xác suất lý thuyết (theoretical probability distribution) Tuy nhiên nên gọi xác giá trị trục tung giá trị mật độ người ta hay dùng hàm mật độ xác xuất (probability density function) để mô tả phân phối xác suất lý thuyết Trong phần bàn luận độ lệch, giả sử tất phân phối phân phối đơn yếu vị mà Trong phân phối đơn yếu vị, đồ thị có phần: đuôi trái (left tail), thân (hump), đuôi phải (right tail) Khi số lượng giá trị phân phối hai đuôi phân phối gọi phân phối cân (symmetrical distribution) Trong trường hợp giá trị dồn bên trái đồ thị, nghóa phần thân lệch bên trái, gọi phân phối lệch dương (positively skewed distribution) Ngược lại phần thân lệch bên phải gọi phân phối lệch âm (negatively skewed distribution) Trong phân phối đơn yếu vị cân đối, trung bình, trung vị yếu vị có giá trị Trong phân phối lệch âm, trung bình có giá trị bé sau đến trung vị cuối yếu vị có giá trị lớn (mean  median  mode) Trong phân phối lệch dương, yếu vị có giá trị nhỏ đến trung vị cuối trung bình có giá trị lớn (mode  median mean) Trong phân phối đơn yếu vị cân đối, trung bình số đo tập trung tốt sử dụng thông tin tốt Trong phân phối lệch, trung vị số tập trung sử dụng tốt Một phương pháp đơn giản để ước lượng độ lệch cho mẫu tính giá trị sk, ký hiệu hệ số lệch pearson (Pearsonian coefficiency of skewness) Giá trị sk chạy từ –3 +3 giá trị sk =0 chứng tỏ phân phối cân đối Nếu sk âm phân phối lệch âm trị tuyệt đối sk lớn phân phối lệch âm Nếu sk dương phân phối lệch dương sk lớn phân phối dương Như nói trên, độ lệch momen thứ ba trung bình có đơn vị dạng mũ ba nên người ta dùng số thống kê khác đơn vị ký hiệu g1 , dùng để ước lượng tham số dân số γ , để mô tả độ lệch Nếu g1 =0 phân phối cân đối, g1 dương phân phối lệch dương, g1 âm phân phối lệch âm Mặc dù phân phối bình thường phân phối cân đối, tất phân phối cân đối phân phối bình thường Ví dụ phân phối không bình thường cân đối phân phối t phân phối nhị yếu vị Phương pháp để ước lượng giá trị g1 bị lệch so với giá trị mô tả phép kiểm mẫu ước lượng độ lệch dân số Kết phép kiểm này, với kết phép kiểm mẫu ước lượng độ cong dân số sử dụng phép kiểm tính bình thường D’Agostono-Pearson để ước lượng mức phù hợp mô hình tính bình thường (nghóa số liệu mẫu có phải rút từ dân số phân phối bình thường hay không) Độ cong ... thống kê tham số mà số thống kê dùng để ước lượng tham số Chính sai số mà số thống kê không xác tham số mà ước lượng Mẫu lớn sai số mẫu nhỏ, nghóa khả người nghiên cứu ước lượng gần với tham số cao... Một số thống kê (statistic) đặc tính mẫu, chẳng hạn số trung bình (cũng gọi trung bình (mean) ) tham số đặc tính dân số (chẳng hạn trung bình toàn dân số) Một số thống kê dùng thống kê mô tả thống. .. tham số cao Khi áp dụng số liệu từ mẫu để ước lượng cho tham số số thống kê phải không sai lệch (unbiased) Mặc dù, sai số mẫu kèm với số thống kê không sai lệch, số thống kê không sai lệch giúp

Ngày đăng: 29/09/2021, 08:00

Mục lục

  • Số thống kê và tham số

  • Biến liên tục và biến rời rạc

  • Số đo lường khuynh hướng tập trung

    • Bảng 1.1: bảng phân phối tần suất của phân phối A

      • Số đo lường phân tán

        • Số đo lường đọ cong và độ lệch

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan