công cụ phân tích tiêu chuẩn của thống kê suy luận

Ví dụ: Trong tập dữ liệu chọn Population là các sinh viên của ba trường trung học ở Hoa Kỳ nhưng để khảo sát toàn bộ sinh viên của ba trường đại học ở Hoa Kỳ thì mất rất nhiều thời gian

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC GIÁO DỤC

Trang 2

LỜI CẢM ƠN

Trong thời gian nghiên cứu và hoàn thành tiểu luận, em đã nhận được sự giúp đỡ nhiệt tình của cô giáo và các bạn học viên trong lớp Qua đây, em xin bày tỏ lòng biết ơn sâu sắc tới các thầy, cô trong tổ phương pháp dạy học và đặc biệt là GS.TS

Vũ Trọng Lưỡng- người đã định hướng đề tài và tận tình chỉ bảo, giúp đỡ em hoàn thiện học phần này

Do thời gian và kiến thức có hạn, tiểu luận không tránh khỏi có những hạn chế và thiếu sót nhất định Em kính mong nhận được sự đóng góp ý kiến của thầy và các bạnhọc viên để tiểu luận của em được hoàn thiện hơn

Em xin chân thành cảm ơn!

Trang 3

I Khái niệm cơ bản về thống kê 4

1 Định nghĩa về Thống kê: 4

2 Các loại Thống kê: 5

3 Phân loại các nghiên cứu Thống kê: 6

II Thống kê mô tả 7

1 Biến số & Dữ liệu 7

2 Tổ chức Dữ liệu định tính 8

2.1 Frequency Table 8

2.2 Relative - Frequency Distributions 9

2.3 Pie Charts 10

3 Tổ chức Dữ liệu định lượng 11

4 Measures of Center 17

4.1 Mean - Trung bình 17

4.2 Median - Trung vị 17

4.3 Mode - Yếu vị 18

5 Measures of Variation 18

5.1 Range 18

5.2 Standard Deviation 18

III Suy luận thống kê 19

1 Định nghĩa thống kê suy luận 19

2 Công cụ phân tích tiêu chuẩn của thống kê suy luận 20

2.1 Kiểm định giả thuyết 20

2.2 Khoảng tin cậy (CIs) 20

2.3 Phân tích hồi quy 21

3 Kết quả thống kê suy luận: 21

Trang 4

I Khái niệm cơ bản về thống kê

1 Định nghĩa về Thống kê:

Dưới đây là 2 định nghĩa phổ biến của Thống Kê:

- Thống kê là những dữ kiện hay dữ liệu, xuất hiện dưới dạng

số hoặc không phải dạng số, được tổ chức và tóm tắt, để cung cấp thông tin hữu ích và dễ tiếp cận cho một chủ đề cụ thế nào đó

- Thống kê là khoa học về tổ chức và tóm tắt thông tin dạng số hoặc không phải dạng số

Nhiệm vụ của các nhà thống kê là phân tích dữ liệu nhằm mục đích tổng quát hóa và đưa ra các kết luận

- Thống kê suy luận

Trước khi tìm hiểu về Thống kê suy luận thì chúng ta sẽ đi qua khái niệm về Population, Sample và Census

Population là toàn bộ phần tử hay đối tượng được cho là có mặt trong nghiên cứu, trong khi đó Sample chỉ là một phần trong đó, mình hay gọi là một tập con (subset)

Trang 5

Ví dụ: Trong tập dữ liệu chọn Population là các sinh viên của ba trường trung học ở Hoa Kỳ nhưng để khảo sát toàn bộ sinh viên của

ba trường đại học ở Hoa Kỳ thì mất rất nhiều thời gian và chi phí vì vậy cần chọn Sample là 1000 sinh viên bất kì khảo sát từ đó sẽ thựchiện thống kê suy luận để đưa ra kết luận đại diện cho toàn bộ sinh viên của ba trường trung học ở Hoa Kỳ

Từ ví dụ trên ta có thể đưa ra khái niệm tổng quát về Thống kê suy luận như sau: Thống kê suy luận bao gồm các phương pháp rút

ra và đo lường độ tin cậy của các kết luận về tổng thể dựa trên thông tin thu được từ một mẫu của tổng thể

- Thống kê mô tả và thống kê suy luận có mối liên hệ chặt chẽ với nhau Phải luôn luôn sử dụng các kỹ thuật của thống kê mô tả để tổ chức, tóm tắt các thông tin thu được từ tập Sample trước khi thực hiện thống kê suy luận Hơn nữa nhờ thống kê mô tả cho bạn thông tin về đặc điểm, tính chất của Sample, giúp bạn hiểu rõ dữ liệu hơn, dẫn đến việc lựa chọn các phương pháp phân tích suy luận phù hợp

3 Phân loại các nghiên cứu Thống kê:

Nếu như mục đích của nghiên cứu là kiểm tra và khám phá thông tin, những đặc điểm đặc biệt, thông tin hữu ích có trong bản thân dữliệu thôi thì đây là nghiên cứu thiên hướng mô tả (Descriptive Statistics)

Trang 6

Tuy nhiên nếu như dữ liệu thu thập được là

một Sample thuộc Population nào đấy, sau đó sử dụng chúng để đưa ra kết luận cho Population thì nó là Thống kê suy luận

II Thống kê mô tả

1 Biến số & Dữ liệu

Tập dữ liệu sử dụng: K ết quả học tập của học sinh

Trước khi đi vào mô tả dữ liệu thì chúng ta cần nắm rõ một vài khái niệm cơ bản trước

- Variable - Biến số: một đặc điểm thay đổi từ người này sang người khác hay vật nay sang vật khác, ví dụ như chiều cao, câng nặng, số lượng cặp sinh đôi, giới tính, tình trạng hôn nhân và màu mắt Chúng ta có các loại biến sau:

+ Qualitative - Biến định tính: Biến số mà giá trị của nó ko ở dạng

số như tình trạng học vẫn, Giới tính là Nam và Nữ, đây không phải là

dữ liệu dạng số

+ Quantitative - Biến định lượng: Biến số mà giá trị nó ở dạng số Nhưng trong nhánh này sẽ chia làm 2 dạng là Discrete (Rời rạc) và Continous (Liên tục), biến rời rạc là biến có giá trị nguyên và số lượng của chúng có thể đếm được ví dụ như Số lượng cặp sinh đôi,

số lượng trẻ em cả nước, trong khi đó biến liên tục tồn tại dưới dạng

Trang 7

khoảng, và giá trị của biến có thể là bất kì giá trị nào trong khoảng

đó

Ví dụ: Điểm số của một bài kiểu tra trong khoảng từ 50 đến 100

- Các giá trị của biến bất kì gọi là Data, một giá trị nằm trong Data gọi là Observation (Điểm số của 1 sinh viên bất kì là 87) Tập hợp dữ liệu của nhiều biến được gọi là Dataset Tương tự với biến chúng ta sẽ có qualitative data, quantitative data, discrete data, và continuous data

2 Tổ chức Dữ liệu định tính

Việc đầu tiên bạn làm trong phần mô tả này là tổ chức chúng thành các bảng, biểu đồ hoặc đồ thị để nắm được những ý chính của dữ liệu, nói cho dễ hiểu là bạn tóm tắt nó lại cho dễ hiểu đó

2.1 Frequency Table

- Bước 1: Lấy ra danh sách giá trị không bị trùng của tập dữ liệu, ởtệp dữ liệu: K ết quả học tập của học sinh ta có 6 giá trị không bị trùng của biến định tính “Trình độ học vấn” là “Một số trường cao đẳng”, “Bằng Cao đẳng”, “Bằng cử nhân”, “Trung học phổ thông”,

“Một số trường trung học” và “Bằng thạc sĩ”; tương tự với biến định tính “Giới tính” thì chỉ có 2 giá trị không bị trùng là “Nam” và “Nữ”;

Trang 8

với biến định tính “Bữa ăn trưa” thì chỉ có 2 giá trị không bị trùng là

“Chuẩn” và “Miễn phí/giảm giá”

- Bước 2: Đếm số lần xuất hiện của mỗi giá trị không bị trùng của

biến định tính “Trình độ học vẫn của phụ huynh” trong tập dữ liệu

được chọn

Frequency Table

Qua Frequency Table cho thấy trong tập dữ liệu thu thập

- Số lần suất hiện của “Một số trường cao đẳng” là lớn nhất với

224 lần, tiếp theo là “Trung học phổ thông” với 215 lần và ít nhất là

“Bằng thạc sĩ” với 75 lần

- Số sinh viên nam và sinh viên nữ gần bằng nhau trong đó số

lượng sinh viên nam lớn hơn với 508 sinh viên nam và 492 sinh viên

nữ

- Toàn bộ sinh viên trong tập dữ liệu đầu đăng kí ăn tại cantin

trong đó số sinh viên đăng kí theo diện sinh viên bình thường là 660

sinh viên và số sinh viên được hưởng chính sách miễn phí hoặc giảm

giá là 340 sinh viên

2.2 Relative - Frequency Distributions

Trang 9

Tương tự như Frequency Table, Relative frequency sẽ hiển thị phần trăm trên tổng số thay vì là số lần xuất hiện Bạn chỉ cần lấy frequency chia cho tổng số dòng dữ liệu có trong bảng.

Relative frequency Table Qua Relative frequency Table cho trong tập biến định tính đang xét tần số suất hiện của “Một số trường cao đẳng” là lớn nhất với tỉ

lệ 0.224 và ít nhất là “Bằng thạc sĩ” với tỉ lệ 0.075

2.3 Pie Charts

Trang 10

Chế độ ăn trưa

Chuẩn Khuyến mãi/giảm giáBiểu đồ tròn các biến định tính

3 Tổ chức Dữ liệu định lượng

Trang 11

Đối với dữ liệu định lượng trước tiên chúng ta sẽ nhóm dữ liệu lại thành các class - nhóm hay lớp (còn được gọi là categories hay là bins) và sau đó làm việc với chúng như dữ liệu định tính Có 3 nguyên tắc chung để bạn nhóm dữ liệu định lượng thành class:

- Số lượng class phải không quá nhiều cũng không quá ít, quá ít sẽdẫn tới việc bỏ qua các đặc điểm khác biệt giữa các class, quá nhiều thì lại làm cho mình khó quan sát và đôi khi không thấy được tính tương đồng

- Mỗi điểm dữ liệu (observation) phải thuộc một class duy nhất

- Trong trường hợp khả thi, tất cả các lớp nên có cùng số phần tử, trong trường hợp lý tưởng nhé bạn

Một số phương pháp được sử dụng để nhóm dữ liệu thành các class: single-value grouping, limit grouping, và cutpoint grouping vớiđặc điểm cụ thể như sau:

- Single-value grouping: phương pháp này xem mỗi điểm dữ liệu làmột class, nó chỉ thích hợp với tập dữ liệu có ít unique value (giá trị không trùng lặp) và ở dạng rời rạc (discrete) không phải continous (liên tục)

- Limit grouping: Trong trường hợp dữ liệu quá nhiều thì chúng ta

sẽ không sử dụng phương pháp Single Point được, vừa không thể thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì không thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp Chỉ dùng cho dữ liệu dạng rời rạc, có thể đếm được

- Cutpoint grouping: Trong trường hợp dữ liệu quá nhiều thì chúng

ta sẽ không sử dụng phương pháp Single Point được, vừa không thể

Trang 12

thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì không thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp Chỉ dùng cho dữ liệu dạng liên tục

Với tệp dữ liệu: K ết quả học tập của học sinh vì số điểm của một học sinh có thể trải đều từ 1 đến 100 nên chung ta sẽ sử dụng phương pháp limit grouping

Trang 13

Điểm số của các học sinh từng môn học Qua cách nhóm và sử lý số liệu như trên ta có thể dễ dàng lọc ra các nhóm thông tin như sau

- Số điểm của các sinh viên tập trung vào khoảng từ 61-70 điểm

và 71-80 điểm

- Không có sinh viên nào bị điểm từ 0 đến 10 điểm

- Số sinh viên đạt điểm từ 91-100 điểm chiếm 6-8% trên tổng số sinh viên tham gia khảo sát

Biểu đồ

Cũng giống như dữ liệu định tính, chúng ta có thể biểu diễn dữ liệu định lượng dưới dạng biểu đồ giúp cho việc quan sát trở nên trực quan sinh động hơn dễ dàng nắm bắt được các thông tin quan trọng

Có 3 phương pháp phổ biến là histograms, dotplots, và leaf:

- Histogram biểu diễn class trên trục x và tần suất (relative frequencies, percents) ở trục y, nói đơn giản bạn sẽ vẽ barchart với

dữ liệu tần suất nhưng thay vì cách xa nhau thì chúng sẽ được đặt sát lại và sắp xếp theo độ lớn tăng dần

Trang 14

- Dotplots một dạng biểu diễn hình học cho dữ liệu định lượng nữa

là Dotplot, mỗi observation sẽ được biểu diễn thành 1 điểm tương

ứng với trục hoành, nếu có 2 giá trị bằng nhau thì chúng sẽ xếp

chồng lên nhau Dotplot thường được sử dụng với tập dữ liệu nhỏ

vừa phải, nhìn vào đây bạn sẽ dễ nhận thấy các cụm dữ liệu hay

outliers

- Stem-and-leaf: giống Histogram nhưng thay vì hiển thì chiều dài

cột thì ở đây sẽ hiển thị cụ thể số liệu

Trong trường hợp tệp dữ liệu: K ết quả học tập của học sinh thì

chọn phương pháp Histograms sẽ giúp người nhìn dễ dàng so sánh

giữa các khoảng điểm số của sinh viên:

- Điểm toán:

0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0

Trang 15

0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0

- Tỉ lệ sinh viên có điểm toán không đạt yêu cầu 40 thấp 5%

- Tỉ lệ sinh viên đạt điểm toán giỏi và xuất sắc 80 khoảng 22%

- Nhóm điểm toán từ 60 – 80 chiếm tỉ lệ cao nhất 45%

- Điểm đọc

Trang 16

0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0

- Tỉ lệ sinh viên có điểm đọc không đạt yêu cầu 40 thấp 5%

- Tỉ lệ sinh viên đạt điểm đọc giỏi và xuất sắc 80 khoảng 25%

- Nhóm điểm đọc từ 60 – 80 chiếm tỉ lệ cao nhất 50%

Trang 17

- Điểm viết

0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0

- Tỉ lệ sinh viên có điểm viết không đạt yêu cầu 40 thấp 5%

- Tỉ lệ sinh viên đạt điểm viết giỏi và xuất sắc 80 khoảng 25%

Trang 18

- Nhóm điểm viết từ 60 – 80 chiếm tỉ lệ cao nhất 45%

4 Measures of Center

Các chỉ số thể hiện giá trị trung tâm, giá trị tiêu biểu hay bạn có

thể gọi là giá trị đại diện cho phần đông dữ liệu, có nhiều cách chọn

giá trị đại diện ví dụ như: Mean - Trung bình, Median - Trung vị,

Mode Các chỉ số này được gọi là Mesuares of Central

Tendency hay Measures of Center với mục đích chọn ra giá trị tiêu

biểu, đủ điều kiện đại diện cho phần lớn các giá trị có trong tập dữ

liệu

4.1 Mean - Trung bình

Mean được hiểu như giá trị trung bình

điểm toán, điểm đọc, điểm viết của sinh

viên trong tập số liệu thu thập được lần

lượt là 67.81, 70.382 và 69.14

Qua đó cho thấy đọc có điểm trung bình cao nhất trong 3 môn Và

điểm trung bình của cả 3 môn của sinh viên năm trong khoảng 70

điểm

4.2 Median - Trung vị

Trung vị là giá trị nằm ở trung tâm

thật sự, khác với trung bình ở phía trên,

đầu tiên bạn sẽ sắp xếp dữ liệu theo thứ

tự tăng dần sau đó chọn ra giá trị trung tâm bằng công thức

1 2

n với

n là tổng số lượng dữ liệu bạn có

Trang 19

Trong tập số liệu thu thập được có n 1000 nên suy ra vị trí của

median sẽ là

1000 1

500.5

2 lúc này bạn sẽ có median bằng giá trị tại

vị trí số 500 và số 501 cộng lại chia đôi

4.3 Mode - Yếu vị

Mode chính là giá trị có tần suất xuất

hiện nhiều nhất

Lưu ý: Nếu 2 giá trị có cùng tần suất

và cùng lớn nhất thì chúng ta có 2 Mode, nếu như không có giá trị nào xuất hiện hơn 1 lần thì tập dữ liệu ấy không có Mode Mode sử dụng được với cả dữ liệu định tính và định lượng

5.1 Range

Range là hiệu số giữa giá trị lớn nhất và

nhỏ nhất (range = max-min)

5.2 Standard Deviation

Trang 20

Standard Deviation (Độ lệch chuẩn - Std) cho ta biết được khoảng cách trung bình (độ phân tán) của các điểm dữ liệu so với giá trị trung bình (Mean) Nếu độ lệch chuẩn thấp tức là dữ liệu có tính biến động thấp và ngược lại.

Độ lêch chuẩn được tính bằng căn bậc hai của Phương sai - Variance Cách tướng phương sai như sau:

- Tìm giá trị trung bình - Mean

- Với mỗi điểm dữ liệu bạn lấy

giá trị đó trừ đi Mean và bình

phương chúng lên

- Cộng tất cả kết quả từ bước trước chia cho số lượng dữ liệu khảo sát (n)

- Variance of "điểm toán"

III Suy luận thống kê

1 Định nghĩa thống kê suy luận

Thống kê suy luận (inferential statistics): bao gồm các phương pháp ước lượng các đặc trưng của tổng thể, phân tích mối liên

hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên

cơ sở thu thập thông tin từ kết quả quan sát mẫu

Thống kê suy luận là tất cả về khái quát hóa từ mẫu đến quần thể,tức là lấy dữ liệu từ một mẫu và đưa ra các suy luận về quần thể lớnhơn mà từ đó mẫu được rút ra Mục tiêu của thống kê suy luận là rút

ra kết luận từ một mẫu và khái quát hóa chúng thành một quần thể,

và mẫu phải phản ánh chính xác quần thể đó Ở cấp độ rộng, các bạn cần phải làm như sau:

- Xác định quần thể chúng ta đang nghiên cứu

Trang 21

- Vẽ một mẫu đại diện từ quần thể đó.

- Sử dụng các phân tích kết hợp lấy mẫu lỗi

Lấy mẫu ngẫu nhiên giúp chắc chắn rằng mẫu đại diện cho tổng thể Đây là quá trình quan trọng tạo ra số liệu thống kê, chẳng hạn như giá trị trung bình,… Tuy nhiên, việc thu thập một mẫu thực sự ngẫu nhiên có thể là một quá trình phức tạp Ngược lại, lấy mẫu có sẵn sẽ dễ thu thập hơn, nhưng sẽ khó lấy mẫu đại diện và kết quả cũng ít chính xác hơn

2 Công cụ phân tích tiêu chuẩn của thống kê suy luận

Các phương pháp phổ biến nhất trong thống kê suy luận là kiểm định giả thuyết, khoảng tin cậy và phân tích hồi quy

2.1 Kiểm định giả thuyết

- Phương pháp kiểm tra giả thuyết sử dụng dữ liệu mẫu trả lời các câu hỏi như sau:

- Quần thể có ý nghĩa lớn hơn hay nhỏ hơn so với một giá trị cụ thể?

- Là phương tiện của hai hoặc nhiều quần thể khác nhau?

Ví dụ: Nếu chúng ta kiểm tra chất lượng của sinh viên bằng cách

so sánh kết quả các bài kiểm tra trong nhóm nghiên cứu và kiểu soát Các thử nghiệm giả thuyết có thể cho biết kết quả học tập củasinh viên trong mẫu có khả năng tồn tại trong toàn quần thể (sinh viên của 3 trường đại học) hay không

Tất nhiên, chúng ta không muốn sử dụng kết quả nếu nó chỉ có hiệu quả trong một mẫu cụ thể Thay vào đó, chúng ta cần bằng chứng cho thấy nó sẽ hữu ích trong toàn bộ sinh viên Các thử

Tiêu đề	Công Cụ Phân Tích Tiêu Chuẩn Của Thống Kê Suy Luận
Tác giả	Phạm Cẩm Tú
Người hướng dẫn	GS.TS. Vũ Trọng Lưỡng
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Giáo Dục
Thể loại	tiểu luận
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	27
Dung lượng	1,13 MB