Ví dụ: Trong tập dữ liệu chọn Population là các sinh viên của ba trường trung học ở Hoa Kỳ nhưng để khảo sát toàn bộ sinh viên của ba trường đại học ở Hoa Kỳ thì mất rất nhiều thời gian
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC GIÁO DỤC
Trang 2LỜI CẢM ƠN
Trong thời gian nghiên cứu và hoàn thành tiểu luận, em đã nhận được sự giúp đỡ nhiệt tình của cô giáo và các bạn học viên trong lớp Qua đây, em xin bày tỏ lòng biết ơn sâu sắc tới các thầy, cô trong tổ phương pháp dạy học và đặc biệt là GS.TS
Vũ Trọng Lưỡng- người đã định hướng đề tài và tận tình chỉ bảo, giúp đỡ em hoàn thiện học phần này
Do thời gian và kiến thức có hạn, tiểu luận không tránh khỏi có những hạn chế và thiếu sót nhất định Em kính mong nhận được sự đóng góp ý kiến của thầy và các bạnhọc viên để tiểu luận của em được hoàn thiện hơn
Em xin chân thành cảm ơn!
Trang 3I Khái niệm cơ bản về thống kê 4
1 Định nghĩa về Thống kê: 4
2 Các loại Thống kê: 5
3 Phân loại các nghiên cứu Thống kê: 6
II Thống kê mô tả 7
1 Biến số & Dữ liệu 7
2 Tổ chức Dữ liệu định tính 8
2.1 Frequency Table 8
2.2 Relative - Frequency Distributions 9
2.3 Pie Charts 10
3 Tổ chức Dữ liệu định lượng 11
4 Measures of Center 17
4.1 Mean - Trung bình 17
4.2 Median - Trung vị 17
4.3 Mode - Yếu vị 18
5 Measures of Variation 18
5.1 Range 18
5.2 Standard Deviation 18
III Suy luận thống kê 19
1 Định nghĩa thống kê suy luận 19
2 Công cụ phân tích tiêu chuẩn của thống kê suy luận 20
2.1 Kiểm định giả thuyết 20
2.2 Khoảng tin cậy (CIs) 20
2.3 Phân tích hồi quy 21
3 Kết quả thống kê suy luận: 21
Trang 4I Khái niệm cơ bản về thống kê
1 Định nghĩa về Thống kê:
Dưới đây là 2 định nghĩa phổ biến của Thống Kê:
- Thống kê là những dữ kiện hay dữ liệu, xuất hiện dưới dạng
số hoặc không phải dạng số, được tổ chức và tóm tắt, để cung cấp thông tin hữu ích và dễ tiếp cận cho một chủ đề cụ thế nào đó
- Thống kê là khoa học về tổ chức và tóm tắt thông tin dạng số hoặc không phải dạng số
Nhiệm vụ của các nhà thống kê là phân tích dữ liệu nhằm mục đích tổng quát hóa và đưa ra các kết luận
- Thống kê suy luận
Trước khi tìm hiểu về Thống kê suy luận thì chúng ta sẽ đi qua khái niệm về Population, Sample và Census
Population là toàn bộ phần tử hay đối tượng được cho là có mặt trong nghiên cứu, trong khi đó Sample chỉ là một phần trong đó, mình hay gọi là một tập con (subset)
Trang 5Ví dụ: Trong tập dữ liệu chọn Population là các sinh viên của ba trường trung học ở Hoa Kỳ nhưng để khảo sát toàn bộ sinh viên của
ba trường đại học ở Hoa Kỳ thì mất rất nhiều thời gian và chi phí vì vậy cần chọn Sample là 1000 sinh viên bất kì khảo sát từ đó sẽ thựchiện thống kê suy luận để đưa ra kết luận đại diện cho toàn bộ sinh viên của ba trường trung học ở Hoa Kỳ
Từ ví dụ trên ta có thể đưa ra khái niệm tổng quát về Thống kê suy luận như sau: Thống kê suy luận bao gồm các phương pháp rút
ra và đo lường độ tin cậy của các kết luận về tổng thể dựa trên thông tin thu được từ một mẫu của tổng thể
- Thống kê mô tả và thống kê suy luận có mối liên hệ chặt chẽ với nhau Phải luôn luôn sử dụng các kỹ thuật của thống kê mô tả để tổ chức, tóm tắt các thông tin thu được từ tập Sample trước khi thực hiện thống kê suy luận Hơn nữa nhờ thống kê mô tả cho bạn thông tin về đặc điểm, tính chất của Sample, giúp bạn hiểu rõ dữ liệu hơn, dẫn đến việc lựa chọn các phương pháp phân tích suy luận phù hợp
3 Phân loại các nghiên cứu Thống kê:
Nếu như mục đích của nghiên cứu là kiểm tra và khám phá thông tin, những đặc điểm đặc biệt, thông tin hữu ích có trong bản thân dữliệu thôi thì đây là nghiên cứu thiên hướng mô tả (Descriptive Statistics)
Trang 6Tuy nhiên nếu như dữ liệu thu thập được là
một Sample thuộc Population nào đấy, sau đó sử dụng chúng để đưa ra kết luận cho Population thì nó là Thống kê suy luận
II Thống kê mô tả
1 Biến số & Dữ liệu
Tập dữ liệu sử dụng: K ết quả học tập của học sinh
Trước khi đi vào mô tả dữ liệu thì chúng ta cần nắm rõ một vài khái niệm cơ bản trước
- Variable - Biến số: một đặc điểm thay đổi từ người này sang người khác hay vật nay sang vật khác, ví dụ như chiều cao, câng nặng, số lượng cặp sinh đôi, giới tính, tình trạng hôn nhân và màu mắt Chúng ta có các loại biến sau:
+ Qualitative - Biến định tính: Biến số mà giá trị của nó ko ở dạng
số như tình trạng học vẫn, Giới tính là Nam và Nữ, đây không phải là
dữ liệu dạng số
+ Quantitative - Biến định lượng: Biến số mà giá trị nó ở dạng số Nhưng trong nhánh này sẽ chia làm 2 dạng là Discrete (Rời rạc) và Continous (Liên tục), biến rời rạc là biến có giá trị nguyên và số lượng của chúng có thể đếm được ví dụ như Số lượng cặp sinh đôi,
số lượng trẻ em cả nước, trong khi đó biến liên tục tồn tại dưới dạng
Trang 7khoảng, và giá trị của biến có thể là bất kì giá trị nào trong khoảng
đó
Ví dụ: Điểm số của một bài kiểu tra trong khoảng từ 50 đến 100
- Các giá trị của biến bất kì gọi là Data, một giá trị nằm trong Data gọi là Observation (Điểm số của 1 sinh viên bất kì là 87) Tập hợp dữ liệu của nhiều biến được gọi là Dataset Tương tự với biến chúng ta sẽ có qualitative data, quantitative data, discrete data, và continuous data
2 Tổ chức Dữ liệu định tính
Việc đầu tiên bạn làm trong phần mô tả này là tổ chức chúng thành các bảng, biểu đồ hoặc đồ thị để nắm được những ý chính của dữ liệu, nói cho dễ hiểu là bạn tóm tắt nó lại cho dễ hiểu đó
2.1 Frequency Table
- Bước 1: Lấy ra danh sách giá trị không bị trùng của tập dữ liệu, ởtệp dữ liệu: K ết quả học tập của học sinh ta có 6 giá trị không bị trùng của biến định tính “Trình độ học vấn” là “Một số trường cao đẳng”, “Bằng Cao đẳng”, “Bằng cử nhân”, “Trung học phổ thông”,
“Một số trường trung học” và “Bằng thạc sĩ”; tương tự với biến định tính “Giới tính” thì chỉ có 2 giá trị không bị trùng là “Nam” và “Nữ”;
Trang 8với biến định tính “Bữa ăn trưa” thì chỉ có 2 giá trị không bị trùng là
“Chuẩn” và “Miễn phí/giảm giá”
- Bước 2: Đếm số lần xuất hiện của mỗi giá trị không bị trùng của
biến định tính “Trình độ học vẫn của phụ huynh” trong tập dữ liệu
được chọn
Frequency Table
Qua Frequency Table cho thấy trong tập dữ liệu thu thập
- Số lần suất hiện của “Một số trường cao đẳng” là lớn nhất với
224 lần, tiếp theo là “Trung học phổ thông” với 215 lần và ít nhất là
“Bằng thạc sĩ” với 75 lần
- Số sinh viên nam và sinh viên nữ gần bằng nhau trong đó số
lượng sinh viên nam lớn hơn với 508 sinh viên nam và 492 sinh viên
nữ
- Toàn bộ sinh viên trong tập dữ liệu đầu đăng kí ăn tại cantin
trong đó số sinh viên đăng kí theo diện sinh viên bình thường là 660
sinh viên và số sinh viên được hưởng chính sách miễn phí hoặc giảm
giá là 340 sinh viên
2.2 Relative - Frequency Distributions
Trang 9Tương tự như Frequency Table, Relative frequency sẽ hiển thị phần trăm trên tổng số thay vì là số lần xuất hiện Bạn chỉ cần lấy frequency chia cho tổng số dòng dữ liệu có trong bảng.
Relative frequency Table Qua Relative frequency Table cho trong tập biến định tính đang xét tần số suất hiện của “Một số trường cao đẳng” là lớn nhất với tỉ
lệ 0.224 và ít nhất là “Bằng thạc sĩ” với tỉ lệ 0.075
2.3 Pie Charts
Trang 10Chế độ ăn trưa
Chuẩn Khuyến mãi/giảm giáBiểu đồ tròn các biến định tính
3 Tổ chức Dữ liệu định lượng
Trang 11Đối với dữ liệu định lượng trước tiên chúng ta sẽ nhóm dữ liệu lại thành các class - nhóm hay lớp (còn được gọi là categories hay là bins) và sau đó làm việc với chúng như dữ liệu định tính Có 3 nguyên tắc chung để bạn nhóm dữ liệu định lượng thành class:
- Số lượng class phải không quá nhiều cũng không quá ít, quá ít sẽdẫn tới việc bỏ qua các đặc điểm khác biệt giữa các class, quá nhiều thì lại làm cho mình khó quan sát và đôi khi không thấy được tính tương đồng
- Mỗi điểm dữ liệu (observation) phải thuộc một class duy nhất
- Trong trường hợp khả thi, tất cả các lớp nên có cùng số phần tử, trong trường hợp lý tưởng nhé bạn
Một số phương pháp được sử dụng để nhóm dữ liệu thành các class: single-value grouping, limit grouping, và cutpoint grouping vớiđặc điểm cụ thể như sau:
- Single-value grouping: phương pháp này xem mỗi điểm dữ liệu làmột class, nó chỉ thích hợp với tập dữ liệu có ít unique value (giá trị không trùng lặp) và ở dạng rời rạc (discrete) không phải continous (liên tục)
- Limit grouping: Trong trường hợp dữ liệu quá nhiều thì chúng ta
sẽ không sử dụng phương pháp Single Point được, vừa không thể thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì không thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp Chỉ dùng cho dữ liệu dạng rời rạc, có thể đếm được
- Cutpoint grouping: Trong trường hợp dữ liệu quá nhiều thì chúng
ta sẽ không sử dụng phương pháp Single Point được, vừa không thể
Trang 12thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì không thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp Chỉ dùng cho dữ liệu dạng liên tục
Với tệp dữ liệu: K ết quả học tập của học sinh vì số điểm của một học sinh có thể trải đều từ 1 đến 100 nên chung ta sẽ sử dụng phương pháp limit grouping
Trang 13Điểm số của các học sinh từng môn học Qua cách nhóm và sử lý số liệu như trên ta có thể dễ dàng lọc ra các nhóm thông tin như sau
- Số điểm của các sinh viên tập trung vào khoảng từ 61-70 điểm
và 71-80 điểm
- Không có sinh viên nào bị điểm từ 0 đến 10 điểm
- Số sinh viên đạt điểm từ 91-100 điểm chiếm 6-8% trên tổng số sinh viên tham gia khảo sát
Biểu đồ
Cũng giống như dữ liệu định tính, chúng ta có thể biểu diễn dữ liệu định lượng dưới dạng biểu đồ giúp cho việc quan sát trở nên trực quan sinh động hơn dễ dàng nắm bắt được các thông tin quan trọng
Có 3 phương pháp phổ biến là histograms, dotplots, và leaf:
- Histogram biểu diễn class trên trục x và tần suất (relative frequencies, percents) ở trục y, nói đơn giản bạn sẽ vẽ barchart với
dữ liệu tần suất nhưng thay vì cách xa nhau thì chúng sẽ được đặt sát lại và sắp xếp theo độ lớn tăng dần
Trang 14- Dotplots một dạng biểu diễn hình học cho dữ liệu định lượng nữa
là Dotplot, mỗi observation sẽ được biểu diễn thành 1 điểm tương
ứng với trục hoành, nếu có 2 giá trị bằng nhau thì chúng sẽ xếp
chồng lên nhau Dotplot thường được sử dụng với tập dữ liệu nhỏ
vừa phải, nhìn vào đây bạn sẽ dễ nhận thấy các cụm dữ liệu hay
outliers
- Stem-and-leaf: giống Histogram nhưng thay vì hiển thì chiều dài
cột thì ở đây sẽ hiển thị cụ thể số liệu
Trong trường hợp tệp dữ liệu: K ết quả học tập của học sinh thì
chọn phương pháp Histograms sẽ giúp người nhìn dễ dàng so sánh
giữa các khoảng điểm số của sinh viên:
- Điểm toán:
0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0
Trang 150-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0
- Tỉ lệ sinh viên có điểm toán không đạt yêu cầu 40 thấp 5%
- Tỉ lệ sinh viên đạt điểm toán giỏi và xuất sắc 80 khoảng 22%
- Nhóm điểm toán từ 60 – 80 chiếm tỉ lệ cao nhất 45%
- Điểm đọc
Trang 160-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0
- Tỉ lệ sinh viên có điểm đọc không đạt yêu cầu 40 thấp 5%
- Tỉ lệ sinh viên đạt điểm đọc giỏi và xuất sắc 80 khoảng 25%
- Nhóm điểm đọc từ 60 – 80 chiếm tỉ lệ cao nhất 50%
Trang 17- Điểm viết
0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 0
- Tỉ lệ sinh viên có điểm viết không đạt yêu cầu 40 thấp 5%
- Tỉ lệ sinh viên đạt điểm viết giỏi và xuất sắc 80 khoảng 25%
Trang 18- Nhóm điểm viết từ 60 – 80 chiếm tỉ lệ cao nhất 45%
4 Measures of Center
Các chỉ số thể hiện giá trị trung tâm, giá trị tiêu biểu hay bạn có
thể gọi là giá trị đại diện cho phần đông dữ liệu, có nhiều cách chọn
giá trị đại diện ví dụ như: Mean - Trung bình, Median - Trung vị,
Mode Các chỉ số này được gọi là Mesuares of Central
Tendency hay Measures of Center với mục đích chọn ra giá trị tiêu
biểu, đủ điều kiện đại diện cho phần lớn các giá trị có trong tập dữ
liệu
4.1 Mean - Trung bình
Mean được hiểu như giá trị trung bình
điểm toán, điểm đọc, điểm viết của sinh
viên trong tập số liệu thu thập được lần
lượt là 67.81, 70.382 và 69.14
Qua đó cho thấy đọc có điểm trung bình cao nhất trong 3 môn Và
điểm trung bình của cả 3 môn của sinh viên năm trong khoảng 70
điểm
4.2 Median - Trung vị
Trung vị là giá trị nằm ở trung tâm
thật sự, khác với trung bình ở phía trên,
đầu tiên bạn sẽ sắp xếp dữ liệu theo thứ
tự tăng dần sau đó chọn ra giá trị trung tâm bằng công thức
1 2
n với
n là tổng số lượng dữ liệu bạn có
Trang 19Trong tập số liệu thu thập được có n 1000 nên suy ra vị trí của
median sẽ là
1000 1
500.5
2 lúc này bạn sẽ có median bằng giá trị tại
vị trí số 500 và số 501 cộng lại chia đôi
4.3 Mode - Yếu vị
Mode chính là giá trị có tần suất xuất
hiện nhiều nhất
Lưu ý: Nếu 2 giá trị có cùng tần suất
và cùng lớn nhất thì chúng ta có 2 Mode, nếu như không có giá trị nào xuất hiện hơn 1 lần thì tập dữ liệu ấy không có Mode Mode sử dụng được với cả dữ liệu định tính và định lượng
5.1 Range
Range là hiệu số giữa giá trị lớn nhất và
nhỏ nhất (range = max-min)
5.2 Standard Deviation
Trang 20Standard Deviation (Độ lệch chuẩn - Std) cho ta biết được khoảng cách trung bình (độ phân tán) của các điểm dữ liệu so với giá trị trung bình (Mean) Nếu độ lệch chuẩn thấp tức là dữ liệu có tính biến động thấp và ngược lại.
Độ lêch chuẩn được tính bằng căn bậc hai của Phương sai - Variance Cách tướng phương sai như sau:
- Tìm giá trị trung bình - Mean
- Với mỗi điểm dữ liệu bạn lấy
giá trị đó trừ đi Mean và bình
phương chúng lên
- Cộng tất cả kết quả từ bước trước chia cho số lượng dữ liệu khảo sát (n)
- Variance of "điểm toán"
III Suy luận thống kê
1 Định nghĩa thống kê suy luận
Thống kê suy luận (inferential statistics): bao gồm các phương pháp ước lượng các đặc trưng của tổng thể, phân tích mối liên
hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên
cơ sở thu thập thông tin từ kết quả quan sát mẫu
Thống kê suy luận là tất cả về khái quát hóa từ mẫu đến quần thể,tức là lấy dữ liệu từ một mẫu và đưa ra các suy luận về quần thể lớnhơn mà từ đó mẫu được rút ra Mục tiêu của thống kê suy luận là rút
ra kết luận từ một mẫu và khái quát hóa chúng thành một quần thể,
và mẫu phải phản ánh chính xác quần thể đó Ở cấp độ rộng, các bạn cần phải làm như sau:
- Xác định quần thể chúng ta đang nghiên cứu
Trang 21- Vẽ một mẫu đại diện từ quần thể đó.
- Sử dụng các phân tích kết hợp lấy mẫu lỗi
Lấy mẫu ngẫu nhiên giúp chắc chắn rằng mẫu đại diện cho tổng thể Đây là quá trình quan trọng tạo ra số liệu thống kê, chẳng hạn như giá trị trung bình,… Tuy nhiên, việc thu thập một mẫu thực sự ngẫu nhiên có thể là một quá trình phức tạp Ngược lại, lấy mẫu có sẵn sẽ dễ thu thập hơn, nhưng sẽ khó lấy mẫu đại diện và kết quả cũng ít chính xác hơn
2 Công cụ phân tích tiêu chuẩn của thống kê suy luận
Các phương pháp phổ biến nhất trong thống kê suy luận là kiểm định giả thuyết, khoảng tin cậy và phân tích hồi quy
2.1 Kiểm định giả thuyết
- Phương pháp kiểm tra giả thuyết sử dụng dữ liệu mẫu trả lời các câu hỏi như sau:
- Quần thể có ý nghĩa lớn hơn hay nhỏ hơn so với một giá trị cụ thể?
- Là phương tiện của hai hoặc nhiều quần thể khác nhau?
Ví dụ: Nếu chúng ta kiểm tra chất lượng của sinh viên bằng cách
so sánh kết quả các bài kiểm tra trong nhóm nghiên cứu và kiểu soát Các thử nghiệm giả thuyết có thể cho biết kết quả học tập củasinh viên trong mẫu có khả năng tồn tại trong toàn quần thể (sinh viên của 3 trường đại học) hay không
Tất nhiên, chúng ta không muốn sử dụng kết quả nếu nó chỉ có hiệu quả trong một mẫu cụ thể Thay vào đó, chúng ta cần bằng chứng cho thấy nó sẽ hữu ích trong toàn bộ sinh viên Các thử