Tổng quan về Stattóm tắt số liệu với Stata

Mục lục Trang 1 CHƯƠNG TỔNG QUAN VỀ STATA Loại liệu Cấu trúc lệnh stata [by varlist:] command [varlist| [=exp] [if exp] [in range] [weight] [using filename][, option] [by varlist] Lập lại câu lệnh cho nhóm quan sát giá trị biến varlist Có hai cú pháp by bysort sort ht by ht: summarize weight Sắp xếp biến ht theo thứ tự từ thấp đến cao (bắt buộc muốn sử dụng cú pháp by) Mô tả biến weight (biến định lượng) theo giá trị biến ht by ht, sort: summarize weight Vừa xếp biến ht theo thứ tự từ thấp đến cao mô tả biến weight (biến định lượng) theo giá trị biến ht lệnh bysort ht: summarize weight Vừa xếp biến ht theo thứ tự từ thấp đến cao mô tả biến weight (biến định lượng) theo giá trị biến ht lệnh 2 [varlist] Varlist danh sách tên biến có khoảng trắng Các cách để mơ tả varlist: • Dấu *: truy xuất biến có nhiều ký tự giống • Dấu ~: truy xuất biến có ký tự mong muốn • Dấu ?: tương đương với ký tự Tất biến có kiểu tương tự truy xuất • Dấu -: truy xuất tuất biến nằm khoảng từ biến bên trái sang biến bên phải • _all: truy xuất tất biến số liệu myvar* Truy xuất tất biến bắt đầu chuỗi ký tự myvar my~var Truy xuất biến bắt đầu my kết thúc var my?var Truy xuất biến bắt đầu my kết thúc var với ký tự this-that Truy xuất biến từ biến this đến biến that [= exp] Các mô tả chứa số tốn tử Có kiểu toán tử: toán tử số học, toán tử logic hàm toán học Sau quy ước toán tử này: Toán tử logic : tượng trưng cho mô tả logic true false < hay hay >= : tượng trưng cho “lớn hơn” hay “lớn bằng” 3 == hay ~= : tượng trưng cho “bằng” hay “không bằng” (đừng lẫn lộn dấu gán “=” dấu “==” làm sai câu lệnh) ! & | : tượng trưng cho “không” ; “và” ; “hoặc” Toán tử số học + - */ ^ : tượng trương cho cộng ; trừ; nhân; chia; mũ Hàm toán học sqrt(); exp(); log() : tượng trưng cho hàm toán học substrr(str1, n1, n2) : tượng trưng cho hàm chuỗi Stata [ if exp ] Được sử dụng sau câu lệnh có ý nghóa áp dụng câu lệnh phần tập tin số liệu thỏa mô tả (exp) sau if Ví dụ: list make mpg if mpg>25: liệt kê biến make biến mpg quan sát có giá trị > 25 [range] Trong số lệnh đặc biệt lệnh list, người ta thường sử dụng quy ước phạm vi để liệt kê nhiều quan sát biến lúc thường sử dụng sau mệnh đề in Cụ thể sau: 4 #/# : tượng trưng cho phạm vi từ quan sát # đến quan sát # Ví dụ: list x in 4/6 liệt kê tất quan sát từ quan sát đến quan sát biến x f/# hay #/l : tượng trưng cho phạm vi từ quan sát đầu quan sát # hay từ quan sát # đến quan sát cuối Ví dụ list x in f/79 liệt kê quan sát từ quan sát cuối quan sát 79 -#/# : tượng trưng cho phạm vi từ quan sát trở lên Ví dụ: list -10/1 liệt kê 10 quan sát cuối [weight] Có dạng: fweight, trọng số tần suất (frequency weight): trọng số dùng để xác định số quan sát trùng lắp pweights, hay số lấy mẫu (sampling weights ) trọng số có nghóa nghịch đảo xác suất mà quan sát tính vào thiết kế lấy mẫu aweights, hay trọng số phân tích, (analytic weights) , trọng số tỷ lệ nghịch đảo phương pháp quan sát; nghóa phương sai quan sát thứ j giả định sigma bình phương/w_j, w_j trọng số Về bản, quan sát đại diện trung bình trọng số số nhân tố làm tăng trung bình Đối với hầu hết lệnh, thang đo ghi chép aweight không thích hợp; stata tự động lập lại thang đo 5 cho chúng từ tổng đến N, số quan sát số liệu stata sử dụng chúng iweights, hay trọng số tầm quan trọng ( importance weights), trọng số có nghóa “tầm quan trọng” quan sát số trường hợp nhạy cảm iweight định nghóa thống kê thức; câu lệnh hỗ trợ iweight định nghóa xác làm chúng xử lý Trong hầu hết trường hợp, chúng dự định để sử dụng nhà lập trình muốn sản xuất công thức Chúng ta có số biến liệu chứa trọng số Cú pháp chung command [weighttype=varname] Lấy ví duï: anova y x1 x2 x1*x2 [fweight=pop] regress avgy avgx1 avgx2 [aweight=cellpop] regress y x1 x2 x3 [pweight=1/prob] scatter y x [aweight=y2], mfcolor(none) Lưu ý phải gõ vào dấu ngoặc vuông 6 Stata cho phép chữ viết tắt; fw cho fweight, aw cho aweight … Bạn gõ anova y x1 x2 x1*x2 [fw=pop] regress avgy avgx1 avgx2 [aw=cellpop] regress y x1 x2 x3 [pw=1/prob] scatter y x [aw=y2], mfcolor(none) Thêm vào đó, lệnh có ý kiến riêng lọai trọng số “tự nhiên” Nếu bạn gõ: regress avgy avgx1 avgx2 [w=cellpop] Câu lệnh nói với bạn loại trọng số giả định biểu diễn yêu cầu thể bạn địng rõ cho lọai trọng số Có số dạng đồng nghóa số lọai trọng số feight xem tần suất (chữ viết tắt tần suất) aeight xem cellsize (viết tắt cell): anova y x1 x2 x1*x2 [freq=pop] 7 regress avgy avgx1 avgx2 [cell=cellpop] fweights Trọng số tần suất nhằm ám đến liệu lập lại Trọng số nói với câu lệnh có quan sát quan sát thật đại diện fweights cho phép liệu lưu trữ more parsimoniously Biến có trọng số chứa phần nguyên dương Kết lệnh tương tự thể bạn nhân đôi quan sát nhiên lần chạy lệnh trọng số pweights Trọng số lấy mẫu ám nghịch đảo xác suất mà quan sát lựa chọn Các câu lệnh cho phép pweigh cung cấp option cụm () Những kết hợp để sản sinh ước đóan liệu lấy mẫu cụm aweights Trọng số aweights phân tích phù hợp bạn giải với liệu chứa số trung bình Ví dụ, bạn có trung bình thu nhập trung bình đặc tính nhóm người Biến có trọng số chứa số người có trung bình tính tóan (hay số tỷ lệ với lượng đó) iweights Trọng số định nghóa thức phân lọai tất Trọng số phản ánh 8 tầm quan trọng quan sát lệnh hỗ trợ trọng số định nghóa xác làm trọng số xử lý [using filename] Phần dùng số lệnh, ví dụ infile outfile Sau sử dụng, bạn xác định tên file Bạn xác định tên file ngoặc đơn chứa khoảng trắng hay ký tự đặc biệt Ví dụ: infile a b c using \mydata\myfile.raw [option] Option nhận diện nhờ dấu phẩy cuối dấu phẩy liệt kê lựa chọn kết tiếp với khỏang cách: tabulate r c, chi2 row col Trong ví dụ này: tabulate lệnh r and c tên chi2, row, and col option biến 9 Không có dấu phẩy option .hầu hết option toggles – chúng ám có thứ hay không thực Cả ba lựa chọn ví dụ toggle Một số option có đối số Phụ thuộc vào option hỏi số nhất, chuỗi hay biến hay vài biến (một varlist) hay vài số Ví dụ: tabulate r c, chi2 row col sqreg y x1 x2, q(.25 75) reps(100) anova y x1 x2 c1 c2 c3, cont(x1 x2) scatter length weight, xlab(1750 2000 to 4750) title("My graph") 1.3 NHẬP-CHUYỂN ĐỔI-XUẤT TẬP TIN SỐ LIỆU Nhập tập tin số lieäu Stata sử dụng lệnh input cho phép nhập trực tiếp số liệu Stata Cú pháp input varnames Nhập tên biến Ví dụ 10 10 Gõ tên lệnh nhấn OK, Stata thị tất thông tin liên quan đến lệnh mô tả, cách dùng option… CÁC GHI CHÚ KHÁC Lệnh more Trong trình Stata chạy câu lệnh, kết lệnh dài, Stata thị phần kết hình Result Khi đó, cuối hình Result xuất dòng lệnh sau more— Dòng lệnh thông báo kết chưa hiển thị hết Để thị nội dung phần kết thực ba cách sau: Gõ phím trắng để xem câu trả lời hình Gõ l hay enter để xem dòng tiếp Gõ q để ngừng không kết để người sử dụng thực câu lệnh Khi hình xuất Break—- màu đỏ để thông báo điều Quản lý Bộ nhớ Trong nhiều trường hợp, file số liệu mà bạn tải để xử lý có dung lượng lớn so với Bộ nhớ mà Stata dành để xử lý số liệu Trong trường hợp đó, Stata xuất thông báo cửa sổ Stata Results No room to add more observations R(901); 21 21 Khi phải thay đổi số lượng nhớ cấp cho khu vực liệu; Stata đề nghị thiết lập nhớ tối thiểu gấp lần hay ½ lần kích thước file bạn muốn tải vào nhớ máy tính Chúng ta thực điều câu lệnh : set memory #m Trong #m tượng trưng cho số megabyte nhớ mà bạn muốn cài đặt cho Stata cho lớn file số liệu mà bạn muốn xử lý Nếu muốn Stata nhớ giới hạn nhớ thiết lập để sử dụng cho file khác thực câu lệnh: set memory #m, permanently Ngoài muốn tìm hiểu việc sử dụng nhớ Stata, bạn dùng lệnh memory query memory Các loại biến số Stata Stata có loại biến số khác float = số thực với độ xác lên đến 8.5 số thập phân double = số thực với độ xác lên đến 16.5 số thập phân byte = số nguyên từ -127 đến 100 int = số nguyên từ -32.767 đến 32.740 long = số nguyên từ -2.147.483.467 and 2.147.483.620 string = chuỗi từ đến 80 ký tự phiên Intercooled Stata, từ đến 244 ký tự Stata/SE Stata/MP 22 22 PHÂN TÍCH CỤM (CLUSTER ANALYSIS) Câu lệnh egen svar=std(var) Ghi Trong trường hợp biến khơng đơn vị đo lường phải chuẩn hóa biến lệnh cluster singlelinkage name(sl) cluster thích Option name đặt tên cho distance completelinkage name(cl) cluster sl varlist, Tính complete linkage distance cho biến giải thích Option name đặt tên cho averagelinkage name(al) cluster std varlist, Tính simple linkage distance cho biến giải distance cl y1-y5, Tính average linkage distance cho biến giải thích Option name đặt tên cho distance kmeans name(cluster#) varlist, al k(#) Tính kmean cho biến giải thích Sự khác biện phương pháp với phương pháp simple, complete average linkage chỗ kmean quy định số nhóm từ đầu (option k(#)) sau kiểm định xem số nhóm phù hợp cluster stop distancetype, rule(duda) Kiểm định số nhóm cho phương pháp groups(#/#) simple, complete and average clustering Option rule(duda) định Stata tính số Duda va Hart Số nhóm phù hợp cho số liệu có số Duda and Hart lớn số Duda and Hart pseudo T-squared nhỏ Option groups: định số nhóm kiểm định 23 23 Ví dụ muốn kiểm nhóm group (1/5) Kiểm định số nhóm phương pháp kmean cluster stop cluster# cách tính số Calinski and Harabasz Nếu số nhóm có số Calinski and cluster gen varname=groups(5), Harabasz lớn chọn nhóm Tạo biến có số nhóm với số nhóm có Duda name(cl) and Hart nhỏ chọn bước kiểm định table varname, contents(mean var1 nhóm Liệt kê trung bình biến cho nhóm mean var2 mean var3…) quan sát để mơ tả đặc điểm nhóm quan sát tabstat varlist, by(cluster#) nototal Lệnh tabstat dùng trường hợp số biến giải format(%4.1f) thích lớn biến trở lên Ví dụ: cluster singlelinkage y1-y5, name(sl) cluster completelinkage y1-y5, name(cl) cluster averagelinkage y1-y5, name(al) cluster dendrogram cluster stop sl, rule(duda) groups(1/5) + -+ | | Duda/Hart | Number of | | | pseudo | | clusters | Je(2)/Je(1) | T-squared | | -+ -+ -| | | 0.9512 | 1.54 | | | 0.9357 | 1.99 | 24 24 | | 0.9430 | 1.69 | | | 0.9327 | 1.95 | | | 0.9380 | 1.72 | + -+ Chạy kiểm định Duda and Hart cho thấy khơng có số nhóm có số Duda khác biệt rõ rệt Đây điểm yếu phương pháp khoảng cách đơn thường gom nhóm dựa theo đặc điểm giống đối tượng cluster stop cl, rule(duda) groups(1/5) + -+ | | Duda/Hart | Number of | | | pseudo | | clusters | Je(2)/Je(1) | T-squared | | -+ -+ -| | | 0.6685 | 14.88 | | | 0.6073 | 7.11 | | 0.5603 | 13.34 | | 0.3356 | 7.92 | | | 0.7006 | 2.56 | | | + -+ Chạy kiểm định Duda and Hart cho phương pháp clustering complete cho thấy số nhóm hợp lý Duda index lớn Duda pseudo nhỏ 25 25 cluster stop al, rule(duda) groups(1/5) + -+ | | Duda/Hart | Number of | | | pseudo | | clusters | Je(2)/Je(1) | T-squared | | -+ -+ -| | | 0.6722 | 14.63 | | | 0.7192 | 9.37 | | | 0.5959 | 2.03 | | | 0.7200 | 7.39 | | | 0.3731 | 3.36 | + -+ Chạy kiểm định Duda and Hart cho phương pháp average distance cho thấy số nhóm (Duda index pseudo nhỏ nhất) (Duda index lớn nhất) cluster gen g5cl=groups(5), name(cl) Tạo biến g5cl biến có nhóm complete distance methods egen stemp = std(temp) egen smanuf= std(manuf) egen spop= std(pop) egen swind= std(wind) egen sprecip= std(precip) egen sdays= std(days) Chuẩn hóa biến temp, manuf, pop, wind, precip, days cho đơn vị trước chạy clustering cluster kmeans stemp smanuf spop swind sprecip sdays, k(2) name(cluster2) cluster kmeans stemp smanuf spop swind sprecip sdays, k(3) name(cluster3) 26 26 cluster kmeans stemp smanuf spop swind sprecip sdays, k(4) name(cluster4) cluster kmeans stemp smanuf spop swind sprecip sdays, k(5) name(cluster5) Tạo số nhóm 2, 3, 4, phương pháp kmean cluster stop cluster2 + -+ | | Calinski/ | | Number of | Harabasz | | clusters | pseudo-F | | -+ -| | | 11.31 | + -+ cluster stop cluster3 + -+ | | Calinski/ | | Number of | Harabasz | | clusters | pseudo-F | | -+ -| | | 10.17 | cluster stop cluster4 + -+ | | Calinski/ | | Number of | Harabasz | | clusters | pseudo-F | | -+ -| | | 7.64 | + -+ cluster stop cluster5 27 27 + -+ | | Calinski/ | | Number of | Harabasz | | clusters | pseudo-F | | -+ -| | | 16.55 | + -+ Trong số nhóm số nhóm có hệ số Calinski Harabaz cao 16,55 Như số nhóm phù hợp với liệu table cluster5, contents(mean so2 sd so2) format(%4.1f) cluster5 | mean(so2) sd(so2) + 1| 23.5 16.8 2| 89.5 29.0 3| 15.6 7.4 4| 20.3 9.3 5| 41.3 23.9 -Liệt kê trung bình sd nồng độ SO2 nhóm cho thấy nhóm nhóm có nồng độ SO2 cao 28 28 anova so2 cluster5 Number of obs = Root MSE 41 = 17.349 Source | Partial SS df R-squared = 0.5083 Adj R-squared = 0.4537 MS F Prob > F -+ -Model | 11202.3691 2800.59228 9.30 0.0000 2800.59228 9.30 0.0000 | cluster5 | 11202.3691 | Residual | 10835.5333 36 300.987037 -+ -Total | 22037.9024 40 550.947561 Phép kiểm ANOVA cho thấy nhóm có khác biệt nồng độ SO2 29 29 VẼ ĐƯỜNG CONG DỊCH TỄ findit epicurve Tìm câu lệnh để vẽ epicurve mạng epicurve ngaykp Vẽ đường cong dịch với ngày kp twoway (area tb_qn date, bcolor(yellow)) (rarea tb_qn tb2sd_qn date, bcolor(red)) (line mac_qn date, clwidth(thick) clcolor(green)) Vẽ đường trung bình, trung bình + 2SD năm trước đường mô tả số ca mắc theo tuần Option clwidth để tăng độ dày đường số ca mắc, clcolor dùng để lựa chọn màu sắc cho đường ca mắc Đồ thị area để vẽ vùng từ trục hồnh đến trung bình cịn đồ thị rarea để vẽ vùng từ trung bình trung bình + 2SD 30 30 PHÂN TÍCH SỨC MẠNH (POWER ANALYSIS Ví dụ: power twomeans 35 37, sd(10) power(0.80) Performing iteration Estimated sample sizes for a two-sample means test t test assuming sd1 = sd2 = sd Ho: m2 = m1 versus Ha: m2 != m1 Study parameters: alpha = 0.0500 power = delta = 0.8000 2.8071 m1 = 35.0000 m2 = 37.0000 sd = 10.0000 Estimated sample sizes: N= N per group = 788 394 • 35 37: trung bình ước lượng hai nhóm • sd (10): độ lệch chuẩn hai nhóm ước lượng 10 • power (0.8): ước lượng sức mạnh = 80% Tức có nghĩa 80% nghiên cứu phát khác biệt có ý nghĩa thống kê hai trung bình • delta (d) = 2,81: effect size Hay nói cách khác mức độ tương quan hai trung bình • N per group =394: cỡ mẫu ước lượng cho nhóm 31 31 power twomeans 35 (36 37 38), sd(10) power(0.80) Performing iteration Estimated sample sizes for a two-sample means test t test assuming sd1 = sd2 = sd Ho: m2 = m1 versus Ha: m2 != m1 + -+ | alpha power N N1 N2 delta m1 m2 sd | | -| | 05 3142 1571 1571 2.803 | 05 788 394 394 2.807 35 37 10 | | 05 352 176 176 2.814 35 38 10 | • • • • 35 36 Ước lượng cỡ mẫu với trung bình nhóm thay đổi khác Với m2 =36 cỡ mẫu cho nhóm lên đến 1571 Với m2=37 cỡ mẫu cho nhóm giảm xuống cịn 394 Với m2=38 cỡ mẫu cho nhóm 176 power twomeans 35 37, sd(10) power(0.80) nratio(3) Performing iteration Estimated sample sizes for a two-sample means test t test assuming sd1 = sd2 = sd Ho: m2 = m1 versus Ha: m2 != m1 Study parameters: alpha = 32 10 | 0.0500 32 power = delta = 0.8000 2.8089 m1 = 35.0000 m2 = 37.0000 sd = 10.0000 N2/N1 = 3.0000 Estimated sample sizes: N= 1052 N1 = 263 N2 = 789 • nratio(3): tỷ lệ cỡ mẫu hai nhóm 1:3 Nhóm can thiệp (n1) có cỡ mẫu cịn nhóm chứng có cỡ mẫu gấp lần 33 33 power twomeans 35 37, sd(10) n(1000) Estimated power for a two-sample means test t test assuming sd1 = sd2 = sd Ho: m2 = m1 versus Ha: m2 != m1 Study parameters: alpha = N= 0.0500 1000 N per group = delta = 500 3.1623 m1 = 35.0000 m2 = 37.0000 sd = 10.0000 Estimated power: power = 0.8848 • ước lượng sức mạnh sau có cỡ mẫu 1000 power twomeans 35, sd(10) power(0.80) n(200) Performing iteration Estimated experimental-group mean for a two-sample means test t test assuming sd1 = sd2 = sd Ho: m2 = m1 versus Ha: m2 != m1; m2 > m1 Study parameters: alpha = 0.0500 power = N= N per group = 34 0.8000 200 100 34 m1 = 35.0000 sd = 10.0000 Estimated effect size and experimental-group mean: delta = 2.8153 m2 = 38.9814 • biết trung bình, biết kích cỡ cho nhóm tính delta trung bình cho nhóm cịn lại 35 35 ... đo 5 cho chúng từ tổng đến N, số quan sát số liệu stata sử dụng chúng iweights, hay trọng số tầm quan trọng ( importance weights), trọng số có nghóa “tầm quan trọng” quan sát số trường hợp nhạy... nhớ Stata, bạn dùng lệnh memory query memory Các loại biến số Stata Stata có loại biến số khác float = số thực với độ xác lên đến 8.5 số thập phân double = số thực với độ xác lên đến 16.5 số thập... TIN SỐ LIỆU Nhập tập tin số liệu Stata sử dụng lệnh input cho phép nhập trực tiếp số liệu Stata Cú pháp input varnames Nhập tên biến Ví dụ 10 10 input id sex age adm 25 Chuyển đổi tập tin số liệu

Định dạng
Số trang	35
Dung lượng	205,08 KB
File đính kèm	89. METHODSSTATA MANUAL.rar (4 MB)