Mục tiêu Nhằm hiểu được các thuộc tính cơ bản của tập dữ liệu, bao gồm số lượng quan sát, số lượng biến, loại dữ liệu của các biến, và các thông kê mô tả như giá trị trung bình, độ lệch
Trang 1MON: THONG KE UNG DUNG
BAO CAO NHOM
DE TAI: THUC HANH THONG KE MO TA BANG PHAN MEM
STATA
Giảng viên hướng dẫn:
Thề Nguyên Hữu Toàn
Trang 2
Ho Chi Minh City, 2023
THANH VIEN NHOM 5
Trang 3
LOI NOI DAU
Bộ môn thống kê ứng dụng từ lâu đã được đưa vào giảng dạy, học tập và nghiên cứu bởi tính thực tê, sự bô ích và những ứng dụng nó mang đên cho cuộc sông của chúng ta Trong quá trình học tập, chúng em đã được học thêm rất nhiều kiến thức để ứng dụng vào thực hành phân tích, đánh giá dữ liệu trực tiếp trên phần mềm Stata
Trong báo cáo này, nhóm chúng em xin trình bày về việc thực hiện một thực nghiệm thống kê mô tá bộ dữ liệu attend.xlsx bằng phần mềm Stata Thông kê mô tả là một phương pháp quan trọng đề khám phá và mô tá dữ liệu một cách chi tiết và tổng quát Với
sự phát triển của công nghệ thông tin, phần mềm Stata đã trở thành công cụ hữu ích trong việc thực hiện các phân tích thống kê và mô tả dữ liệu
Chúng em xin chân thành gửi lời cảm ơn sâu sắc đến giảng viên bộ môn — Th§ Nguyễn Hữu Toản Trong quá trình hoàn thành báo cáo có thê có những thiếu sót, nhóm chúng em
hy vọng sẽ nhận được những lời góp ý vô cùng quý báu để nhóm chúng em kịp thời chỉnh sửa và phát triển hơn trong tương lai
Trang 4
MUC LUC THANH VIEN NHOM LOI NOI DAU
I MODAU
1 Van dé nghién ciru
II TONG QUAN
II PHƯƠNG PHÁP NGHIÊN CỨU
Trang 52 Lý do của bài nghiên cứu
Đầu tiên, nhằm mục đích xác định các đặc điểm phân phối của dữ liệu, góp phần phát triển ly thuyết về phân phối dữ liệu Thứ hai, nghiên cứu nhằm mục đích xác định các vấn đề tiềm ân trong dữ liệu, kết quả đưa ra sẽ giúp đưa ra các biện pháp để xử lý các vấn đề đó
3 Mục tiêu
Nhằm hiểu được các thuộc tính cơ bản của tập dữ liệu, bao gồm số lượng quan sát,
số lượng biến, loại dữ liệu của các biến, và các thông kê mô tả như giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất và lớn nhất, Xác định các vấn đề tiềm ân trong tập dữ liệu, chăng hạn như các giá trị bất thường hoặc không hợp lệ So sánh các biến với nhau dé hiệu mối quan hệ giữa chúng Đề hạn chế các sự ảnh hưởng đến các phân tích thống kê dựa trên giá định dữ liệu phân phối chuẩn hoặc ảnh hưởng đến kết quá phân tích dữ liệu
Lĩnh vực nghiên cứu liên quan đến việc mô tả bộ dữ liệu bằng Stata là thống kê mô tả
Thông kê mô tả là một nhánh của thống kê tập trung vào việc mô tả các thuộc tính cơ bản
của đữ liệu Bao gồm: giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất và lớn nhất, phân
phối Các thống kê mô tả thường được sử dụng để: hiểu được mức độ trung tâm, độ biến động, và phạm vi của dữ liệu; xác định các vận đề tiềm ân trong dữ liệu, chăng hạn như các giá trị bất thường hoặc không hợp lệ; so sánh các tập dữ liệu khác nhau Việc mô tả
bộ dữ liệu bằng Stata các thống kê mô tả sẽ được sử dụng đề hiểu các thuộc tính cơ bản của dữ liệu, giúp hiểu được mức độ trung tâm, độ biến động, và phạm vi của dữ liệu Nhà nghiên cứu cũng sẽ sử dụng các thống kê này dé xác định các vấn đề tiềm ân trong dữ liệu Lĩnh vực nghiên cứu này có ý nghĩa thực tiễn quan trọng Việc hiểu các thuộc tính
cơ bản của dữ liệu là cần thiết dé phân tích đữ liệu một cách hiệu quả Phân tích đữ liệu
có thê được sử dụng để đưa ra các quyết định quan trọng trong nhiều lĩnh vực khác nhau, chăng hạn như kinh doanh, khoa học, và y tẾ
II PHƯƠNG PHÁP NGHIÊN CỨU
1 Cách thu thập dữ liệu:
Trong trường hợp đề bài yêu cầu mô ta bộ dữ liệu bằng Stata, dữ liệu được thu thập bằng cách nhập dữ liệu từ một nguồn thứ cấp, chăng hạn như một tập dữ liệu được công bô hoặc một tập dữ liệu được cung cấp bởi một tô chức Dữ liệu được thu thập bằng cách nhập dữ liệu từ một tập dữ liệu được công bồ trên trang web của Stata Tập dữ liệu này có tên là "data.csv" và chứa thông tin cân thiết
Trang 6
2 Phwong phap phan tich:
Cac lénh describe, codebook, list, tabulate, summarize, by, univar, sum detail, graph box
sẽ được sử dụng để phân tích dữ liệu Các lệnh này sẽ được sử dụng để tính toán va hiển thị các thống kê mô tả của các biến trong tập dữ liệu
về các biến trong tập đữ liệu
Cú pháp: rất đơn gián, gõ lệnh “describe” hoặc chỉ cần gõ 3 chữ đầu tiên “des"
Command describe
Command des
Sau khi chạy lệnh, ta được kết quả như sau:
Trang 7
Theo các thông tin được hiển thị, tập dữ liệu gồm CÓ:
- _ Tổng sô quan sat (Observations): 680
- Téng s6 bién (Variables): 11
- Danh sach cac bién cing véi cdc théng tin nhu:
- Tén bién (Variable name): A, B, C
- Kiéu dit liéu (Storage type): byte (số nguyên), double (s6 thực), str4 (chuỗi)
- Cách hiển thị giá trị cua bién (Display format): %10.0g (chudi dinh dang gia tri số nguyên, tối đa 10 ký tự, kiêu định dạng số thực), %9s (tối đa 9 ký tự, kiêu định đạng chuỗi)
- Cac gia tri nhan da gan (Value label)
- _ Tên nhãn của biến (Variable label)
2 Lệnh List
Lệnh list trong stata được sử dụng dé hién thị thong tin chi tiết trong bộ dữ liệu Đây là một lệnh cơ bản và hữu ích để xem thông tin bằng cách chỉ định tùy ý các biến và quan sát trong tập dữ liệu
Cú pháp sử dụng câu lệnh list như sau:
Trang 8
Ớ câu lệnh nay, man hinh chính sẽ hiển thị tất cá các quan sát, tất cá các biến trong bộ dữ liệu
- Hién thị các biến A B C cho tất cả quan sat:
list ABC
Két qua:
Trang 9
Màn hình chính hiển thị các biến A, B, C cho tất cả các quan sát trong bộ dữ liệu (từ I
Trang 10
Nhập cú pháp list in a/b và nhắn enter dé hién thi dữ liệu từ quan sát a đến quan sát b
- Hiển thị biến A, B tir 1 dén 10:
list A B in 1/10
Két qua:
Trang 11
Tương tự các ví dụ trên, đây là sự kết hợp giữa câu lệnh chỉ ra biến cụ thé A, B va quan sát từ a đên b
- Hiên thị các quan sát từ | dén 20 thỏa mãn điều kiện “A>30”:
Kết quả:
11
Trang 12Vi du cudi củng, câu lệnh chỉ hiển thị các quan sát từ a đến b và điều kiện biến A>30
3 Lệnh Codebook
Lệnh codebook trong Stata cung cấp thông tin chỉ tiết về các biến trong dữ liệu Nó cho biệt về tên biện, loại biên, nhãn biện và các giá trị có thê của biên Ngoài ra, lệnh codebook còn cho biết về khoang gia tri (range), gia tri rong (missing), va gia tri tring (unique values) của các biến Ví dụ, bạn có thê sử dụng lệnh codebook varname dé xem thông tin chỉ tiết về biến varname
Đây là lệnh thay thế tối ưu cho Describe, cho biết nhiều kết quá mong muốn hơn như là:
— Format ctia bién (type)
— Số quan sát bị missing
— Khoảng dữ liệu
~ Giá trị nhỏ nhất và giá trị lớn nhất (range)
— Các giá trị thông kê mô tả như là giá trị trung bình (mean), độ lệch chuẩn (std Dev), các gia tri phan vi (percentiles)"
Cu phap: Rat đơn giản, ta chỉ cần gõ lệnh “codebook” và câu lệnh này không có cú pháp
gõ tắt
Ta được kết quả của từng biến mà ta quan sát: ( có kết quả của các biến từ A đến K nhưng
ta chỉ lây tượng trưng cho 2 biên A va B)
12
Trang 13Ví dụ khi mô tả của biến A ta dùng lệnh sau:
Kết quả ta thu được:
- Loại giá trị của A (type) là dạng số (Numeric) có kiểu dữ liệu là byte
- Khoảng giá trị (Range) chạy từ 2 - 32
- Cac gia tri bi tring lap (Unique values) la 29 gia tn
13
Trang 14- Gia tri trung binh ( Mean) la 26.1471
- Độ lệch chuân (Std dev) la 5.45504
- Giá trị bị bỏ sót hoặc rỗng ( Missing) là 0 trong tong s6 680 row
-Các gia tri phan vi (percentiles) cho biét vi trí tương đối của các giá trị đữ liệu trong phân phôi của biên Một phân vị thứ p cho biệt giá trị mà p4 số liệu quan sát nhỏ hơn hoặc băng nó:
Có 10% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 18
Có 25% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 24
Có 50% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 28
Có 75% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 30
Có 90% giá trị trong dữ liệu của biến A nhỏ hơn hoặc bằng 31
4 Lệnh Summarize
Lénh summarize (viết tắt là sum, su) dùng dé lập bảng thông kê mô tả bao gồm: tên biến,
số quan sát, giá (trị trung bình mau, độ lệch chuân của mẫu, giá trị nhỏ nhất, giá trị lớn nhất
Cửa số command là nơi bạn gõ lệnh vào Ví dụ bạn gõ lệnh summarize
thì kết quả như sau:
14
Trang 15Theo nhu hién thị ở bảng, theo thứ tự từ trái qua phải: cột l cho biết tên các biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 cho biết giá trị nhỏ nhất và cột 6 cho biết giá trị lớn nhất
Theo báng dữ liệu thầy đã giao, nhóm sẽ miêu tá lại khái quát các biến đó như sau:
- Biến A có 679 quan sát, giá trị trung bình 26 1458, giá trị sai số tiêu chuẩn là 5.45896, gia tri nho nhat là 2 và giá trị lớn nhất là 32
- Biến E có 679 quan sát, giá trị trung bình 25.88807, giá trị sai số tiêu chuẩn là 4.71261, giá trị nhỏ nhất là 10 và giá trị lớn nhất 1a 39
Lénh summarize cho phép ta có được các thông tin liên quan đến dữ kiện thông kê của một biến (số lượng quan sat, gia tri trung binh, độ lệch chuẩn, giá trị lớn nhất/nhỏ nhất)
Vì vậy, lệnh này rất hay được sử dụng đề mô tá số liệu thông kê của một biến
Hoặc:
15
Trang 16Nếu ta muốn biết chi tiết hơn về các số liệu thông kê khác của biến đó thì ta thêm tùy
chọn “detail” vào cuôi câu lệnh
Ở đây là chọn một biên bât kỳ là A để làm miêu tả chi tiết cụ thê như sau:
Bảng trên, nêu rõ tất cả các mô tả chỉ tiết nhất về biến phụ thuộc A Các thành phần được sắp xếp theo mức độ phân trăm
5 Lệnh Tabulate
Lénh “Tabulate” trong Stata la một công cụ mạnh mẽ dé tao bang tần số và thống
kê tóm tắt Nó có thé được sử dụng để tạo các bang một chiều, hai chiều và thậm chí cao hơn và nó cung cấp nhiều tùy chọn để tùy chỉnh đầu ra Một trong những cách sử dụng phô biến nhất của ““Tabulate” là tạo bảng tần số một chiều Loại báng này hiển thị số lần
mỗi giá trị của một biến xuất hiện trong tập dữ liệu
16
Trang 17Cac cot freq, percent va Cum lần lược là tần suất xuất hiện, tỉ lệ xuất hiện và tần
suất tích lũy Từ các cột của bảng trên có thê cho ta thấy giá trị nào xuất hiện nhiều nhất,
tỉ lệ chiếm,
Bang tan sé hai chiều cũng rất phố biến Các bảng này hiện thị số lần mỗi sự kết hợp giá trị của hai biến xuất hiện trong tập đữ liệu
17
Trang 18Tu 2 bang 2 chiéu trên ta có thê thấy số lượng học sinh là Freshman hay Sophomore doi với môi giá trị attend Tông sô học sinh là freshman thì thâp hơn Sophomore
“Tabulate” là một lệnh rất linh hoạt và có thê được sử dụng để tạo nhiều loại bảng và số
liệu thông kê Nó là một công cụ cân thiệt cho bât kỳ người dùng Stata nao
Một số bảng có thể được tạo khi dùng “Tabulate”:
Báng tần số: Các bảng này hiên thị số lần mỗi giá trị của một biến xuất hiện trong tap dir
lệu
Bảng thông kê tóm tắt: Các bảng này hiên thị các sô liệu thông kê tóm tắt khác nhau cho một hoặc nhiêu biên, chăng hạn như giá trị trung bình, độ lệch chuân, mức tôi thiêu và toi da
18
Trang 19Bang chéo: Cac bang nay cho thay méi quan hé gitra hai hoac nhiéu bién
Bang ket hop: Cac bang nay cho thay mirc độ liên kết giữa hai hoặc nhiêu biên
lập bảng cũng có thê được sử dụng để tạo các kiểm trả thống kê khác nhau, chăng hạn như kiểm tra chỉ bình phương và kiểm tra độ chính xác của Fisher
Nhìn chung, lap bảng là một công cụ rất mạnh đê phân tích dữ liệu trong Stata Nó có thê được sử dụng dé tao ra nhiều loại bảng và thống kê khác nhau, đồng thời có thể được sử dụng đề kiểm tra các giả thuyết về đữ liệu
6 Lệnh By
Lệnh “by” trong Stata được sử dụng đề thực hiện các phép tính hoặc phân tích đữ liệu trên các nhóm con dựa trên một biến xác định Lệnh này thường được sử dụng đề thực hiện các phân tích tập trung vào từng nhóm con riêng biệt trong dữ liệu của bạn
Cấu trúc lệnh: by [biến nhóm]: [lệnh]
Trong đó :
-_ [biến nhóm] là biển mà bạn muôn sử dụng để phân chia dữ liệu thành các nhóm con Day la bién ma Stata str dung dé xác định các nhóm riêng biệt
Đối với bộ đữ liệu “Attend” ta có thé thay day là một bộ dữ liệu bao gồm các thông tin về
mô tả về hiệu suất học tập và sự tham gia của sinh viên trong một kỷ học cụ thể theo các khía cạnh như tham gia lớp học, điểm số, phần trăm hoàn thành bài tập và các yêu tố khác Nó có thể giúp các nhà nghiên cứu, giáo viên hoặc quản lý trường học hiểu hơn về hiệu suất và tham gia của sinh viên và có thê hỗ trợ trong việc đưa ra quyết định và chính sách học tập liên quan Cụ thé, nó bao gom các biến dữ liệu sau:
- attend: Day 1a s6 budi/lép hoc mà một sinh viên đã tham dự trong một kỳ học, và
giá trị này được tính trong số tổng cộng 32 buôi/lớp Điều này có thể được sử dụng
đê đo lường mức độ tham gia của sinh viên trong các lớp học
- termGPA: Day là điểm trung bình của một sinh viên trong kỳ học đó Nó đo lường hiệu suất học tập của sinh viên trong kỳ học cụ thể
- priGPA: Điểm trung bình tích lũy của sinh viên trước khi bắt đầu kỳ học đó Nó cho biết điểm trung bình của sinh viên tích lũy từ các kỳ học trước đó
giá năng lực của sinh viên trong nhiêu trường đại học ở Mỹ
- _ ñnal: Điểm số cuối kỳ, đo lường hiệu suất của sinh viên trong bài kiểm tra cuối
kỳ
- _ afndrte: Đây là phần trăm lớp học mà một sinh viên đã tham dự trong tông số 32 lớp Điều này cũng đo lường mức độ tham gia của sinh viên
19