Mục tiêu Nhằm hiểu được các thuộc tính cơ bản của tập dữ liệu, bao gồm số lượng quan sát, số lượng biến, loại dữ liệu của các biến, và các thống kê mô tả như giá trị trung bình, độ lệch
TỔNG QUAN
Lĩnh vực nghiên cứu liên quan đến việc mô tả bộ dữ liệu bằng Stata là thống kê mô tả
Thống kê mô tả là một nhánh của thống kê tập trung vào việc mô tả các thuộc tính cơ bản của dữ liệu Bao gồm: giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất và lớn nhất, phân phối Các thống kê mô tả thường được sử dụng để: hiểu được mức độ trung tâm, độ biến động, và phạm vi của dữ liệu; xác định các vấn đề tiềm ẩn trong dữ liệu, chẳng hạn như các giá trị bất thường hoặc không hợp lệ; so sánh các tập dữ liệu khác nhau Việc mô tả bộ dữ liệu bằng Stata các thống kê mô tả sẽ được sử dụng để hiểu các thuộc tính cơ bản của dữ liệu, giúp hiểu được mức độ trung tâm, độ biến động, và phạm vi của dữ liệu Nhà nghiên cứu cũng sẽ sử dụng các thống kê này để xác định các vấn đề tiềm ẩn trong dữ liệu Lĩnh vực nghiên cứu này có ý nghĩa thực tiễn quan trọng Việc hiểu các thuộc tính cơ bản của dữ liệu là cần thiết để phân tích dữ liệu một cách hiệu quả Phân tích dữ liệu có thể được sử dụng để đưa ra các quyết định quan trọng trong nhiều lĩnh vực khác nhau, chẳng hạn như kinh doanh, khoa học, và y tế.
PHƯƠNG PHÁP NGHIÊN CỨU
Cách thu thập dữ liệu
Trong trường hợp đề bài yêu cầu mô tả bộ dữ liệu bằng Stata, dữ liệu được thu thập bằng cách nhập dữ liệu từ một nguồn thứ cấp, chẳng hạn như một tập dữ liệu được công bố hoặc một tập dữ liệu được cung cấp bởi một tổ chức Dữ liệu được thu thập bằng cách nhập dữ liệu từ một tập dữ liệu được công bố trên trang web của Stata Tập dữ liệu này có tên là "data.csv" và chứa thông tin cần thiết lOMoARcPSD|15978022
Các công cụ sử dụng
Các công cụ được sử dụng để phân tích dữ liệu là Stata Stata là một phần mềm thống kê được sử dụng rộng rãi trong các lĩnh vực khoa học, xã hội, và kinh doanh.
KẾT QUẢ NGHIÊN CỨU
Lệnh Describe
Lệnh "describe" trong Stata là một trong những lệnh cơ bản được sử dụng để hiển thị thông tin mô tả về dữ liệu trong bộ dữ liệu hiện tại Khi chạy lệnh này, Stata sẽ hiển thị các thông tin như tên biến, nhãn biến, kiểu dữ liệu, số quan sát, giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất và lớn nhất của từng biến Giúp người dùng có cái nhìn tổng quan về các biến trong tập dữ liệu
Cú pháp: rất đơn giản, gõ lệnh “describe” hoặc chỉ cần gõ 3 chữ đầu tiên “des"
Sau khi chạy lệnh, ta được kết quả như sau:
7 Theo các thông tin được hiển thị, tập dữ liệu gồm có:
- Tổng số quan sát (Observations): 680
- Danh sách các biến cùng với các thông tin như:
- Kiểu dữ liệu (Storage type): byte (số nguyên), double (số thực), str4 (chuỗi) - Cách hiển thị giá trị của biến (Display format): %10.0g (chuỗi định dạng giá trị số nguyên, tối đa 10 ký tự, kiểu định dạng số thực), %9s (tối đa 9 ký tự, kiểu định dạng chuỗi)
- Các giá trị nhãn đã gán (Value label)
- Tên nhãn của biến (Variable label)
Lệnh list
Lệnh list trong stata được sử dụng để hiển thị thông tin chi tiết trong bộ dữ liệu Đây là một lệnh cơ bản và hữu ích để xem thông tin bằng cách chỉ định tùy ý các biến và quan sát trong tập dữ liệu
Cú pháp sử dụng câu lệnh list như sau: list [biến] [quan sát] [if condition]
- Câu lệnh hiển thị toàn bộ quan sát cho tất cả các biến: lOMoARcPSD|15978022
(danh sách kéo dài đến STT cuối cùng 680) Ở câu lệnh này, màn hình chính sẽ hiển thị tất cả các quan sát, tất cả các biến trong bộ dữ liệu
- Hiển thị các biến A B C cho tất cả quan sát:
9 danh sách kéo dài đến STT cuối cùng 680
Màn hình chính hiển thị các biến A, B, C cho tất cả các quan sát trong bộ dữ liệu (từ 1 đến 680)
Hiển thị các quan sát từ 1 đến 15 cho tất cả các biến:
10 Nhập cú pháp list in a/b và nhấn enter để hiển thị dữ liệu từ quan sát a đến quan sát b.
- Hiển thị biến A, B từ 1 đến 10:
Downloaded by Quang Quang (khoa31141020806@gmail.com)
11 Tương tự các ví dụ trên, đây là sự kết hợp giữa câu lệnh chỉ ra biến cụ thể A, B và quan sát từ a đến b.
- Hiển thị các quan sát từ 1 đến 20 thỏa mãn điều kiện “A>30”:
Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022
12 Ví dụ cuối cùng, câu lệnh chỉ hiển thị các quan sát từ a đến b và điều kiện biến A>30.
Lệnh Codebook
Lệnhcodebook trong Stata cung cấp thông tin chi tiết về các biến trong dữ liệu Nó cho biết về tên biến, loại biến, nhãn biến và các giá trị có thể của biến Ngoài ra, lệnh codebook còn cho biết về khoảng giá trị (range), giá trị rỗng (missing), và giá trị trùng (unique values) của các biến Ví dụ, bạn có thể sử dụng lệnh codebook varname để xem thông tin chi tiết về biến varname Đây là lệnh thay thế tối ưu cho Describe, cho biết nhiều kết quả mong muốn hơn như là:
– Format của biến (type) –Số quan sát bị missing – Khoảng dữ liệu
– Giá trị nhỏ nhất và giá trị lớn nhất (range)
– Các giá trị thống kê mô tả như là giá trị trung bình (mean), độ lệch chuẩn (std Dev), các giá trị phân vị (percentiles)"
Cú pháp: Rất đơn giản, ta chỉ cần gõ lệnh “codebook” và câu lệnh này không có cú pháp gõ tắt
Ta được kết quả của từng biến mà ta quan sát: ( có kết quả của các biến từ A đến K nhưng ta chỉ lấy tượng trưng cho 2 biến A và B).
Downloaded by Quang Quang (khoa31141020806@gmail.com)
13 Ví dụ khi mô tả của biến A ta dùng lệnh sau:
Kết quả ta thu được:
- Loại giá trị của A (type) là dạng số (Numeric) có kiểu dữ liệu là byte - Khoảng giá trị (Range) chạy từ 2 - 32
- Các giá trị bị trùng lặp (Unique values) là 29 giá trị
Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022
14 - Giá trị bị bỏ sót hoặc rỗng ( Missing) là 0 trong tổng số 680 row
-Các giá trị phân vị (percentiles) cho biết vị trí tương đối của các giá trị dữ liệu trong phân phối của biến Một phân vị thứ p cho biết giá trị mà p% số liệu quan sát nhỏ hơn hoặc bằng nó:
Có 10% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 18 Có 25% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 24 Có 50% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 28 Có 75% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 30 Có 90% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 31
Lệnh Summarize
Lệnh summarize (viết tắt là sum, su) dùng để lập bảng thống kê mô tả bao gồm: tên biến, số quan sát, giá trị trung bình mẫu, độ lệch chuẩn của mẫu, giá trị nhỏ nhất, giá trị lớn nhất
Cửa sổ command là nơi bạn gõ lệnh vào Ví dụ bạn gõ lệnh summarize thì kết quả như sau:
Downloaded by Quang Quang (khoa31141020806@gmail.com)
15 Theo như hiển thị ở bảng, theo thứ tự từ trái qua phải: cột 1 cho biết tên các biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 cho biết giá trị nhỏ nhất và cột 6 cho biết giá trị lớn nhất
Theo bảng dữ liệu thầy đã giao, nhóm sẽ miêu tả lại khái quát các biến đó như sau:
- Biến A có 679 quan sát, giá trị trung bình 26.1458, giá trị sai số tiêu chuẩn là 5.45896, giá trị nhỏ nhất là 2 và giá trị lớn nhất là 32
- Biến E có 679 quan sát, giá trị trung bình 25.88807, giá trị sai số tiêu chuẩn là 4.71261, giá trị nhỏ nhất là 10 và giá trị lớn nhất là 39…
Lệnh summarize cho phép ta có được các thông tin liên quan đến dữ kiện thống kê của một biến (số lượng quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất/nhỏ nhất)
Vì vậy, lệnh này rất hay được sử dụng để mô tả số liệu thống kê của một biến.
Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022
16 chọn ‘detail’ vào cuối câu lệnh Ở đây là chọn một biến bất kỳ là A để làm miêu tả chi tiết cụ thể như sau:
Bảng trên, nêu rõ tất cả các mô tả chi tiết nhất về biến phụ thuộc A Các thành phần được sắp xếp theo mức độ phần trăm.
L ệ nh Tabulate
Lệnh “Tabulate” trong Stata là một công cụ mạnh mẽ để tạo bảng tần số và thống kê tóm tắt Nó có thể được sử dụng để tạo các bảng một chiều, hai chiều và thậm chí cao hơn và nó cung cấp nhiều tùy chọn để tùy chỉnh đầu ra Một trong những cách sử dụng phổ biến nhất của “Tabulate” là tạo bảng tần số một chiều Loại bảng này hiển thị số lần mỗi giá trị của một biến xuất hiện trong tập dữ liệu
Downloaded by Quang Quang (khoa31141020806@gmail.com)
Các cột freq, percent và Cum lần lược là tần suất xuất hiện, tỉ lệ xuất hiện và tần suất tích lũy Từ các cột của bảng trên có thể cho ta thấy giá trị nào xuất hiện nhiều nhất, tỉ lệ chiếm,….
Bảng tần số hai chiều cũng rất phổ biến Các bảng này hiển thị số lần mỗi sự kết hợp giá trị của hai biến xuất hiện trong tập dữ liệu
Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022
Từ 2 bảng 2 chiều trên ta có thể thấy số lượng học sinh là Freshman hay Sophomore đối với mỗi giá trị attend Tổng số học sinh là freshman thì thấp hơn Sophomore
“Tabulate” là một lệnh rất linh hoạt và có thể được sử dụng để tạo nhiều loại bảng và số liệu thống kê Nó là một công cụ cần thiết cho bất kỳ người dùng Stata nào
Một số bảng có thể được tạo khi dùng “Tabulate”:
Bảng tần số: Các bảng này hiển thị số lần mỗi giá trị của một biến xuất hiện trong tập dữ liệu
Bảng thống kê tóm tắt: Các bảng này hiển thị các số liệu thống kê tóm tắt khác nhau cho một hoặc nhiều biến, chẳng hạn như giá trị trung bình, độ lệch chuẩn, mức tối thiểu và tối đa
Downloaded by Quang Quang (khoa31141020806@gmail.com)
19 Bảng chéo: Các bảng này cho thấy mối quan hệ giữa hai hoặc nhiều biến
Bảng kết hợp: Các bảng này cho thấy mức độ liên kết giữa hai hoặc nhiều biến lập bảng cũng có thể được sử dụng để tạo các kiểm trả thống kê khác nhau, chẳng hạn như kiểm tra chi bình phương và kiểm tra độ chính xác của Fisher
Nhìn chung, lập bảng là một công cụ rất mạnh để phân tích dữ liệu trong Stata Nó có thể được sử dụng để tạo ra nhiều loại bảng và thống kê khác nhau, đồng thời có thể được sử dụng để kiểm tra các giả thuyết về dữ liệu.
L ệ nh By
Lệnh "by" trong Stata được sử dụng để thực hiện các phép tính hoặc phân tích dữ liệu trên các nhóm con dựa trên một biến xác định Lệnh này thường được sử dụng để thực hiện các phân tích tập trung vào từng nhóm con riêng biệt trong dữ liệu của bạn
Cấu trúc lệnh: by [biến nhóm]: [lệnh]
Trong đó : - [biến nhóm] là biến mà bạn muốn sử dụng để phân chia dữ liệu thành các nhóm con Đây là biến mà Stata sử dụng để xác định các nhóm riêng biệt
- [lệnh] là lệnh hoặc phép tính mà bạn muốn thực hiện trên mỗi nhóm con Đối với bộ dữ liệu “Attend” ta có thể thấy đây là một bộ dữ liệu bao gồm các thông tin về mô tả về hiệu suất học tập và sự tham gia của sinh viên trong một kỳ học cụ thể theo các khía cạnh như tham gia lớp học, điểm số, phần trăm hoàn thành bài tập và các yếu tố khác Nó có thể giúp các nhà nghiên cứu, giáo viên hoặc quản lý trường học hiểu hơn về hiệu suất và tham gia của sinh viên và có thể hỗ trợ trong việc đưa ra quyết định và chính sách học tập liên quan Cụ thể, nó bao gồm các biến dữ liệu sau:
- attend: Đây là số buổi/lớp học mà một sinh viên đã tham dự trong một kỳ học, và giá trị này được tính trong số tổng cộng 32 buổi/lớp Điều này có thể được sử dụng để đo lường mức độ tham gia của sinh viên trong các lớp học
- termGPA: Đây là điểm trung bình của một sinh viên trong kỳ học đó Nó đo lường hiệu suất học tập của sinh viên trong kỳ học cụ thể
- priGPA: Điểm trung bình tích lũy của sinh viên trước khi bắt đầu kỳ học đó Nó cho biết điểm trung bình của sinh viên tích lũy từ các kỳ học trước đó
- ACT: Điểm số ACT, một bài kiểm tra chuẩn hóa thường được sử dụng cho đánh giá năng lực của sinh viên trong nhiều trường đại học ở Mỹ
- final: Điểm số cuối kỳ, đo lường hiệu suất của sinh viên trong bài kiểm tra cuối kỳ
- atndrte: Đây là phần trăm lớp học mà một sinh viên đã tham dự trong tổng số 32 lớp Điều này cũng đo lường mức độ tham gia của sinh viên
Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022
- soph: Biến này bằng 1 nếu sinh viên đó là sinh viên năm thứ hai và 0 nếu không phải
- skipped: Số lớp học bị bỏ qua bởi sinh viên trong kỳ học Điều này có thể cho thấy mức độ vắng mặt của sinh viên
- stndfnl: Biến này có thể là một biến được tạo ra từ điểm cuối kỳ (final) bằng cách chuẩn hóa theo trung bình (mean) và độ lệch chuẩn (standard deviation - sd) Nó có thể được sử dụng để so sánh hiệu suất của sinh viên trong bài kiểm tra cuối kỳ với hiệu suất trung bình và phân phối của bài kiểm tra đó
TH1: Trong trường hợp này, chúng ta có thể sử dụng lệnh BY để mô tả dữ liệu trên một biến xác định đó là “Attend” từ đó mở rộng ra và tập trung các nhóm con trong dữ liệu đó là 32 nhóm Với số lượng Observation khá lớn nên ta chỉ xét 2 nhóm con đầu tiên đó là biến Attend = 2 và Attend = 3
Chẳng hạn, ta sử dụng lệnh Sum để tính toán thống kê tóm tắt cơ bản về các biến số trong bộ dữ liệu dựa trên 2 nhóm con như sau:
Downloaded by Quang Quang (khoa31141020806@gmail.com)
21 Tuy nhiên Stata yêu cầu dữ liệu được sắp xếp đúng thứ tự trước khi thực hiện phân tích thống kê nên ta phải sắp xếp lại bằng lệnh Sort trước tiên Sau khi gõ dòng lệnh: by attend: sum termGPA priGPA ACT final atndrte hwrte skipped
Ta thu được kết quả như bảng trên
Với Attend = 2 và Attend = 3, ta có thể biết được các thống kê như sau:
- Observation: các biến chỉ có 1 giá trị quan sát duy nhất
- Mean: vì chỉ có 1 quan sát nên giá trị trung bình cũng chính bằng chính giá trị của biến đó
- Standard Deviation: không có kết quả cho tham số này bởi vì chỉ có 1 quan sát
- Min - Max: tương tự như tham số trên
Như vậy với giá trị quan sát bằng 1 ta vẫn chưa khai thác được sâu bộ dữ liệu này nên có thể chuyển qua Attend = 32:
Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022
22 Nhận xét chi tiết: Các biến đều có số lượng quan sát là 66 và giá trị Min-Max trong Table có khoảng cách không quá chênh lệch nhau termGPA:
- Mean: Khoảng 3.179, cho thấy điểm trung bình của sinh viên trong kỳ học này khá cao
- Std dev : Xấp xỉ 0.497, cho thấy phân tán của điểm trung bình không quá lớn priGPA:
- Mean: Khoảng 2.965, cho thấy điểm trung bình tích lũy của sinh viên trước kỳ học không quá cao
- Std dev : Xấp xỉ 0.511, cho thấy phân tán của điểm trung bình tích lũy
- Mean: Khoảng 21.985, cho thấy điểm số trung bình của bài kiểm tra chuẩn hóa ACT tương đối cao
- Std dev.: Xấp xỉ 3.735, cho thấy sự biến động trong điểm số ACT final:
- Mean: Khoảng 27.833, cho thấy điểm số trung bình trong bài kiểm tra cuối kỳ - Std dev : Xấp xỉ 4.972, cho thấy sự biến động trong điểm số cuối kỳ atndrte:
- Mean: 100%, cho thấy tất cả sinh viên đều đã tham dự tất cả các lớp học
- Std dev: 0, có nghĩa là không có sự biến động, tất cả sinh viên đều có tỷ lệ tham dự 100% hwrte:
- Không có thông tin (No observations) skipped:
- Mean: 0, cho thấy không có lớp học nào bị bỏ qua bởi sinh viên trong kỳ học này
- Std dev: 0, không có sự biến động
- Tóm lại điều này cho thấy rằng trong mẫu dữ liệu 66 sinh viên, điểm trung bình (GPA) và điểm số ACT có vẻ khá cao và gần nhau, trong khi tỷ lệ tham dự lớp học là 100% cho tất cả sinh viên và không có lớp học nào bị bỏ qua
Downloaded by Quang Quang (khoa31141020806@gmail.com)
TH2: Mô tả dữ liệu dựa trên biến xác định “Frosh” chia thành 2 nhóm con là sinh viên năm nhất và sinh viên không phải năm nhất
Ta muốn biết thêm các thông tin khác bổ sung về điểm Cuối Kỳ (Final) so với lệnh
“Sum” thì có thể sử dụng lệnh “sum [Biến], detail” để khai thác dữ liệu từ 2 nhóm con nói trên như sau: by frosh: sum final, detail
Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022
Nhóm "frosh = 0" có trung vị là 26.0, trong khi nhóm "frosh = 1" có trung vị là 24.5
Trung vị là giá trị trung tâm của dữ liệu và cho thấy giá trị mà 50% của quan sát thấp hơn nó Điều này cho thấy rằng nhóm "frosh = 0" có một trung bình GPA cao hơn so với nhóm "frosh = 1."
Nhóm "frosh = 0" có giá trị trung bình GPA là 26.11708, trong khi nhóm "frosh = 1" có giá trị trung bình là 25.13291 Trung bình là giá trị trung bình của dữ liệu, và kết quả này cũng cho thấy rằng nhóm "frosh = 0" có giá trị trung bình GPA cao hơn so với nhóm
"frosh = 1." Độ Lệch Chuẩn (Std dev.): Độ lệch chuẩn đo lường mức độ phân tán của dữ liệu Trong trường hợp này, nhóm "frosh
= 0" có độ lệch chuẩn là 4.810217, trong khi nhóm "frosh = 1" có độ lệch chuẩn là 4.303908 Cả hai nhóm có độ lệch chuẩn tương tự, cho thấy rằng mức độ biến động trong GPA không khác biệt lớn giữa các nhóm
Phương sai đo lường độ biến động của dữ liệu Nhóm "frosh = 0" có phương sai là 23.13819, trong khi nhóm "frosh = 1" có phương sai là 18.52362 Phương sai của nhóm
"frosh = 0" lớn hơn, cho thấy mức độ biến động trong GPA cao hơn so với nhóm "frosh 1."
Nhóm "frosh = 0" (sinh viên không phải là năm nhất):
Q1 (25%): 23 Điều này có nghĩa là 25% thấp nhất của dữ liệu có giá trị thấp hơn hoặc bằng 23
Median (50%): 26.0 Đây là giá trị trung tâm của dữ liệu khi được sắp xếp 50% của quan sát có giá trị thấp hơn hoặc bằng 26.0
Q3 (75%): 30 Điều này có nghĩa là 75% thấp nhất của dữ liệu có giá trị thấp hơn hoặc bằng 30
Q1 là 23 và Q3 là 30, cho thấy rằng 50% của sinh viên không phải là năm nhất có GPA từ 23 đến 30
Nhóm "frosh = 1" (sinh viên năm nhất):
Downloaded by Quang Quang (khoa31141020806@gmail.com)
25 Q1 (25%): 22 Điều này có nghĩa là 25% thấp nhất của dữ liệu có giá trị thấp hơn hoặc bằng 22
Median (50%): 24.5 50% của quan sát có giá trị thấp hơn hoặc bằng 24.5
Q3 (75%): 28 Điều này có nghĩa là 75% thấp nhất của dữ liệu có giá trị thấp hơn hoặc bằng 28
Q1 là 22 và Q3 là 28, cho thấy rằng 50% của sinh viên năm nhất có GPA từ 22 đến 28
Những nhận xét trên chỉ ra sự khác biệt trong phân phối điểm Final (Cuối kỳ) giữa hai nhóm "frosh = 0" và "frosh = 1." Nhóm "frosh = 0" có giá trị trung bình và trung vị GPA cao hơn, đồng thời có phương sai lớn hơn, cho thấy mức độ biến động trong GPA cao hơn so với nhóm "frosh = 1." Tuy nhiên, độ lệch chuẩn là tương đối tương tự cho cả hai nhóm
Lệnh Graph box
- Kì này: Phương sai là 0.5428468
- Kì trước: Phương sai là 0.2971469
Phương sai của kì này lớn hơn đáng kể so với kì trước, cũng cho thấy sự biến động lớn hơn trong điểm GPA
- Điểm GPA tại phân vị 50% (trung vị) của kì này (2.67) cao hơn so với kì trước (2.56)
- Điểm GPA tại phân vị 75% của kì này (3.12) cũng cao hơn so với kì trước (2.95)
Tóm lại, điểm GPA kì này có trung bình và phương sai cao hơn so với kì trước, và phân phối điểm có sự biến động lớn hơn Các phân vị 50% và 75% của kì này đều cao hơn so với kì trước, cho thấy một phần sinh viên có điểm GPA cao hơn trong kì này.