Hướng dẫn sử dụng lệnh Codebook và lệnh Summarize trong phần mềm Stata để thực hiện thống kê mô tả

MỤC LỤC

Lệnh Codebook

Lệnhcodebook trong Stata cung cấp thông tin chi tiết về các biến trong dữ liệu. Nó cho biết về tên biến, loại biến, nhãn biến và các giá trị có thể của biến. Ví dụ, bạn có thể sử dụng lệnh codebook varname để xem thông tin chi tiết về biến varname.

– Các giá trị thống kê mô tả như là giá trị trung bình (mean), độ lệch chuẩn (std. Cỳ phỏp: Rất đơn giản, ta chỉ cần gừ lệnh “codebook” và cõu lệnh này khụng cú cỳ phỏp gừ tắt. Ta được kết quả của từng biến mà ta quan sát: ( có kết quả của các biến từ A đến K nhưng ta chỉ lấy tượng trưng cho 2 biến A và B).

-Các giá trị phân vị (percentiles) cho biết vị trí tương đối của các giá trị dữ liệu trong phân phối của biến.

Lệnh Summarize

15 Theo như hiển thị ở bảng, theo thứ tự từ trái qua phải: cột 1 cho biết tên các biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 cho biết giá trị nhỏ nhất và cột 6 cho biết giá trị lớn nhất. Lệnh summarize cho phép ta có được các thông tin liên quan đến dữ kiện thống kê của một biến (số lượng quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất/nhỏ nhất). Vì vậy, lệnh này rất hay được sử dụng để mô tả số liệu thống kê của một biến.

Bảng trờn, nờu rừ tất cả cỏc mụ tả chi tiết nhất về biến phụ thuộc A.

L ệ nh Tabulate

“Tabulate” là một lệnh rất linh hoạt và có thể được sử dụng để tạo nhiều loại bảng và số liệu thống kê. Nó có thể được sử dụng để tạo ra nhiều loại bảng và thống kê khác nhau, đồng thời có thể được sử dụng để kiểm tra các giả thuyết về dữ liệu. Lệnh "by" trong Stata được sử dụng để thực hiện các phép tính hoặc phân tích dữ liệu trên các nhóm con dựa trên một biến xác định.

Lệnh này thường được sử dụng để thực hiện các phân tích tập trung vào từng nhóm con riêng biệt trong dữ liệu của bạn. Đối với bộ dữ liệu “Attend” ta có thể thấy đây là một bộ dữ liệu bao gồm các thông tin về mô tả về hiệu suất học tập và sự tham gia của sinh viên trong một kỳ học cụ thể theo các khía cạnh như tham gia lớp học, điểm số, phần trăm hoàn thành bài tập và các yếu tố khác. Nó có thể giúp các nhà nghiên cứu, giáo viên hoặc quản lý trường học hiểu hơn về hiệu suất và tham gia của sinh viên và có thể hỗ trợ trong việc đưa ra quyết định và chính sách học tập liên quan.

- attend: Đây là số buổi/lớp học mà một sinh viên đã tham dự trong một kỳ học, và giá trị này được tính trong số tổng cộng 32 buổi/lớp. - ACT: Điểm số ACT, một bài kiểm tra chuẩn hóa thường được sử dụng cho đánh giá năng lực của sinh viên trong nhiều trường đại học ở Mỹ. - stndfnl: Biến này có thể là một biến được tạo ra từ điểm cuối kỳ (final) bằng cách chuẩn hóa theo trung bình (mean) và độ lệch chuẩn (standard deviation - sd).

Nó có thể được sử dụng để so sánh hiệu suất của sinh viên trong bài kiểm tra cuối kỳ với hiệu suất trung bình và phân phối của bài kiểm tra đó. TH1: Trong trường hợp này, chúng ta có thể sử dụng lệnh BY để mô tả dữ liệu trên một biến xác định đó là “Attend” từ đó mở rộng ra và tập trung các nhóm con trong dữ liệu đó là 32 nhóm. 21 Tuy nhiên Stata yêu cầu dữ liệu được sắp xếp đúng thứ tự trước khi thực hiện phân tích thống kờ nờn ta phải sắp xếp lại bằng lệnh Sort trước tiờn.

22 Nhận xét chi tiết: Các biến đều có số lượng quan sát là 66 và giá trị Min-Max trong Table có khoảng cách không quá chênh lệch nhau. Tóm lại điều này cho thấy rằng trong mẫu dữ liệu 66 sinh viên, điểm trung bình (GPA) và điểm số ACT có vẻ khá cao và gần nhau, trong khi tỷ lệ tham dự lớp học là 100% cho tất cả sinh viên và không có lớp học nào bị bỏ qua. 23 TH2: Mô tả dữ liệu dựa trên biến xác định “Frosh” chia thành 2 nhóm con là sinh viên năm nhất và sinh viên không phải năm nhất.

Trung bình là giá trị trung bình của dữ liệu, và kết quả này cũng cho thấy rằng nhóm "frosh = 0" có giá trị trung bình GPA cao hơn so với nhóm. Cả hai nhóm có độ lệch chuẩn tương tự, cho thấy rằng mức độ biến động trong GPA không khác biệt lớn giữa các nhóm.

Bảng tần số hai chiều cũng rất phổ biến. Các bảng này hiển thị số lần mỗi sự kết hợp giá  tr ị  c ủ a hai bi ế n xu ấ t hi ệ n trong t ậ p d ữ  li ệ u
Bảng tần số hai chiều cũng rất phổ biến. Các bảng này hiển thị số lần mỗi sự kết hợp giá tr ị c ủ a hai bi ế n xu ấ t hi ệ n trong t ậ p d ữ li ệ u

Lệnh Univar

Điều này có nghĩa là 25% thấp nhất của dữ liệu có giá trị thấp hơn hoặc bằng 22. Điều này có nghĩa là 75% thấp nhất của dữ liệu có giá trị thấp hơn hoặc bằng 28. Vậy sự khác biệt giữa Q1 và Q3 trong cả hai nhóm cho thấy sự biến động trong phân phối GPA.

Lệnh Univar cho phép chúng ta có được các thông tin liên quan đến dữ kiện thống kê của một biến (Số lượng quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn/nhỏ nhất,. Median, Tứ phân vị một/ba).

Lệnh Summarize Detail

- Trung vị của biến attend là 28, trong khi, trung bình là 26, đồng thời giá trị skewness hiển thị là -1,578 cho thấy phân phối của dữ liệu này lệch trái với độ lệch khá cao. Có thể hiểu rằng, dữ liệu về biến attend rất khả quan, số lượng lớp tham gia trong tổng số 32 buổi là rất lớn, việc chuyên cần của các sinh viên trong bộ dữ liệu này khá tốt. - Với độ nhọn bằng 5.69 thì dữ liệu này có nhiều giá trị ngoại lai, số lượng các sinh viên tham gia rất không đồng đều.

- Ta có thể tổng kết là lực học của các sinh viên trong học kỳ này khá đồng đều với nhau và cũng khá cao. - Giá trị trung bình đạt 2.58 cho thấy học lực các kì trước của 680 sinh viên này không quá cao nhưng rất ổn. - Giá trị trung bình và giá trị trung vị xấp xỉ nhau, độ lệch của phân phối rất nhỏ chỉ 0.16, cho thấy phân phối cho biến này gần như đối xứng, độ nhọn dữ liệu là 2.7 <3 cho thấy rằng có phân phối về GPA tích lũy của các sinh viên này có ít giá trị ngoại lai hơn của một phân phối chuẩn.

- Có thể kết luận rằng điểm ACT của các sinh viên ngày khá ổn và đồng đều với nhau. 30 - Các thông số các thể hiện điểm số cuối kỳ của các sinh viên này khá đồng đều. Biến atndrte (số phần trăm trên tổng số buổi sinh viên tham gia) - Trung bình mỗi sinh viên tham gia 81.7% số buổi.

- Đối ứng với số sinh viên tham gia, phần trăm số sinh viên tham gia cúng có 5%. 31 2 biến soph và frosh là biến định danh, ta sẽ không xét đến các giá trị mô tả của hai biến này (số 1 và 0 là đối ứng cho sinh viên năm nhất và khác). 32 Biến skipped (số buổi bị bỏ qua- bằng tổng số buổi trừ số buổi sinh viên đó có tham gia), đây là đối ứng của biến ateend.

Chỉ có 5% số sinh viên không bỏ buổi nào, sinh viên vắng nhiều nhất là vắng 30 buổi.

Lệnh Graph box

Ngoài ra, cũng xuất hiện 11 giá trị ngoại lai (outlier) thể hiện có 11 sinh viên tham gia rất ít buổi học tương đương với việc chỉ tham gia từ 2 đến 5 buổi học trong tổng số 32 buổi học. Trung bình điểm GPA của kì này cao hơn một chút so với kì trước. 35 Độ lệch chuẩn của kì này lớn hơn so với kì trước, cho thấy phân phối điểm GPA trong kì này có sự biến động lớn hơn.

Phương sai của kì này lớn hơn đáng kể so với kì trước, cũng cho thấy sự biến động lớn hơn trong điểm GPA. Tóm lại, điểm GPA kì này có trung bình và phương sai cao hơn so với kì trước, và phân phối điểm có sự biến động lớn hơn. Các phân vị 50% và 75% của kì này đều cao hơn so với kì trước, cho thấy một phần sinh viên có điểm GPA cao hơn trong kì này.