Bài giảng Phương pháp nghiên cứu khoa học - Bài 19: Khởi động Stata giới thiệu quy trình khởi động Stata, mô tả giao diện của chương trình Stata, cách cách để thực hiện lệnh trong chương trình Stata, lưu lại kết quả phân tích.
Khởi động Stata Khởi động Stata Khởi động chương trình STATA cách nhấp vào nút Start :: All Programs :: Medistat :: Stata nhấp vào biểu tượng (icon) Stata Desktop hình Mơ tả giao diện chương trình Stata Giao diện Stata với cửa sổ: bao gồm: Thanh tiêu đề với dòng chữ "Intercooled Stata 6.0" Thanh menu với menu File (đóng mở tập tin); Edit (hiệu chỉnh); Prefs (Tùy chọn); Data (Số liệu) Graphics (Đồ họa) Statistics (Thống kê) User (Người dùng) Window (mở cửa sổ) Help (Trợ giúp) Thanh công cụ (toolbar) Thanh công cụ gồm 12 nút công cụ (1- Open file; 2- Save; 3- Print Results; 4- Begin (Close) log; 5- Start Viewer (Bring Viewer to Front) ; 6- Bring results window to Front 7-Bring graph windows to Front; 8- Do-file Editor; 9-Data Editor; 10-Data Browser; 11-Clear - more - Condition 12- Break) Ý nghĩa công cụ sau: 1- Open file (mở tập tin) 2- Save (Lưu tập tin) 3- Print Results (In kết quả) 4- Begin (Close) log: (Bắt đầu (Kết thúc) ghi biên kết quả) 5- Start Viewer (Bring Viewer to Front) : Bắt đầu sử dụng cửa sổ Viewer 6- Bring results window to Front : (Đưa cửa sổ kết trước) 7-Bring graph windows to Front (Đưa cửa sổ đồ họa trước) 8- Do-file Editor: (Biên soạn tập tin chương trình - file) 9-Data Editor: Biên tập số liệu (sửa chữa, thêm bớt số liệu) 10-Data Browser: Duyệt số liệu (xem không sửa chữa) 11-Clear - more - Condition (Xóa lệnh more để tiếp tục thực chương trình) 12- Break: (Ngưng tập tin chương trình) Bốn cửa sổ liệt kê theo ngược chiều kim đồng hồ bao gồm Cửa sổ Command (cửa sổ lệnh) Cửa sổ Result (cửa sổ Kết quả) Cửa sổ Review (cửa sổ Lưu trữ) Cửa sổ Variables (cửa số Biến số) Cách cách để thực lệnh chương trình Stata Có hai cách để thực lệnh chương trình Stata: Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command) hay sử dụng trỏ chuột để chọn trình đơn (menu) giao diện đồ họa (Graphic Interface) Dùng bàn phím để gõ lệnh Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command) Đây cách sử dụng Stata người chun nghiệp cho phép thực tất lệnh Stata cách nhanh chóng với đầy đủ chức phụ lệnh Tuy nhiên phương pháp khơng thích hợp cho người sử dụng địi hỏi người dùng phải thuộc câu lệnh cú pháp Con trỏ chuột với giao diện đồ họa (Graphic Interface) Có thể dùng chuột thực lệnh nhằm thao tác số liệu (menu Data), vẽ đồ thị (menu Graphics) phân tích số liệu (menu Statistics) Phương pháp sử dụng chuột menu phương pháp dễ sử dụng nên ưu tiên trình bày tài liệu Lưu lại kết phân tích Kết phân tích thể cửa sổ Stata Result cửa sổ có trượt dọc cho phép xem lại kết phân tích cũ Tuy nhiên để tránh gây nhầm lẫn cho người phân tích, cửa sổ lưu lại kết gần Do muốn lưu trữ lại tồn kết phân tích cần phải mở cửa sổ log cách nhấp vào nút công cụ Stata Log nằm vị trí thứ tư từ trái cơng cụ Khi cửa sổ Open Stata Log mở ra, nhập tên tập tin lưu trữ (log file) vào hộp văn File name Giả sử chọn tập tin "baitap.smcl" gõ "baitap" vào hộp File Name nhấp OK Khi cửa số kết (Stata results) thông báo biết biên kết phân tích lưu tập tin "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl" log using "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl" log: D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl log type: smcl opened on: 10 Oct 2004, 12:01:34 Sau bạn thực bước phân tích Khi muốn xem lại biên (kết phân tích) nhấp vào nút công cụ log lần để cửa sổ Stata Log Options Sau chọn vào nút chọn View snapshot of log file nhấp vào nút lệnh OK để xem biên Khi muốn chấm dứt việc ghi biên (kết phân tích) nhấp vào nút công cụ log để cửa sổ Stata Log Options Sau chọn vào nút chọn Close log file nhấp vào nút OK Lời khuyên: Người sử dụng Stata có kinh nghiệm sau mở tập tin số liệu luôn mở tập tin log trước tiến hành phân tích thống kê để khơng bỏ kết q trình phân tích Mơ tả số liệu với Stata 8.0 for Windows Chương hướng dẫn bạn phương pháp mô tả số liệu với phần mềm Stata 8.0 sử dụng số liệu ivf.dta có thư mục C:\DATA sau bạn cài đặt tập tin số liệu mẫu Thông thường trước mô tả số liệu cần thực bước chuẩn bị việc thao tác số liệu (data processing) Công tác chuẩn bị bao gồm việc mở tập tin số liệu, mở tập tin log (Open log file), khảo sát số liệu có ghi có biến số nghiên cứu đề cương nghiên cứu (chủ yếu mục tiêu nghiên cứu) để giúp việc phân loại biến số Việc thao tác số liệu việc rà soát số liệu có bị sai sót hay nhầm lẫn hay không, tạo biến số theo yêu cầu phân tích tiến hành việc dán nhãn số liệu để giúp cho việc hiểu rõ số liệu đọc kết phân tích thống kê Trước tiên khởi động Stata theo cách hướng dẫn chương Khởi động Stata Sau thực tập đến cho công tác chuẩn bị tập đến cho công tác thao tác số liệu 1- Mở tập tin ivf_v.dta mở tập tin log Khởi động cửa sổ Use New Data cách cách: - Nhấn nút công cụ mở file ( - Chọn menu File :: Open vị trí cơng cụ) Sau cửa sổ Use New Data Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa thích hợp dùng chuột nhấp vào thư mục để chọn thư mục có chứa số liệu (thông thường tập tin số liệu nằm thư mục C:\Data) Tìm tập tin số liệu ivf_v.dta, nhấp đúp vào tên tập tin để mở tập tin (hoặc nhấp vào tập tin để tên tập tin rơi vào hộp File Name sau nhấp vào nút lệnh Open để mở tập tin) Để lưu trữ lại tồn kết phân tích thực hiện, cần nhớ nhấp vào nút công cụ Stata Log nằm vị trí thứ tư từ trái công cụ để bắt đầu log kết (begin log) Máy tính hộp thoại Begin Logging Stata Output để chọn tên tập tin (File name) thư mục lưu (Save In) tập tin log Thí dụ muốn lưu tập tin log với tên ivf_v.smcl vào thư mục c:\data; nhập vào thông tin Khảo sát biến số tập tin nghiên cứu mục tiêu nghiên cứu để phân loại biến số Hướng dẫn: Để xem liệt kê biến số nhấn phím chức F3 hay sử dụng menu (nhấp vào menu Data :: Describe data :: Describe variable in memory) để xem biến số số liệu Chúng ta xem danh sách biến số liệt kê sau: describe Contains data from C:\DATA\ivf_v.dta obs: vars: 641 15 Aug 2006 15:27 size: 20,512 (99.8% of memory free) variable name storage type display format value label variable label maso float %9.0g ma so tuoime tangha float %9.0g float %9.0g tuoi me (nam) tang huyet ap thai ki - 1=tang tuoithai float %9.0g ha, 0=khong tang tuoi thai (tuan) gioi tlsosinh float float %9.0g %9.0g gioi tinh tre - 1=trai, 0=gai luong so sinh (gram) nghenghiep float %9.0g nghe nghiep me - 1=tu do, 2=cong nhan, 3=vien chuc Sorted by: maso Giả sử từ đề cương nghiên cứu biết tập tin số liệu 641 đứa trẻ sinh từ bà mẹ thụ thai ống nghiệm (in-vitro fertilisation) với mục tiêu nghiên cứu xem tuổi thai tăng huyết áp thai kì có ảnh hưởng lên trọng lượng thai hay khơng Cách lí giải số liệu minh họa STT Tên biến Ý nghĩa biến Phân loại biến số: (Độc lập hay Phụ thuộc) – (Định tính hay định lượng) Maso Mã số Tuoime Tuổi mẹ (năm tuổi) Tangha Tăng huyết áp thai kì 1= có 0= khơng Tuoithai Tuổi thai (tính theo tuần) Gioi Giới tính trẻ 1=trai 0=gái Tlsosinh Trọng lượng sinh tính theo grams Nghenghiep Nghề nghiệp mẹ 1=tự 2=công nhân 3=viên chức Làm để xem số liệu Hướng dẫn: Có thể xem số liệu cách: - Dùng nút lệnh Data Browser (vị trí 11 tính từ bên trái công cụ) - Dùng menu Data :: Data browser (read-only editor) Sử dụng Data Browser cho phép nhìn số liệu lưới (như chương trình Excel) khơng cho phép in số liệu Muốn nhìn số liệu sổ kết xuất (output) để sau in sử dụng menu Data:: Describe Data :: List data Hãy thực thống kê mô tả tất biến số số liệu này: Hướng dẫn: trước tiên phải xác định biến số biến số định lượng biến số biến số định tính Sau thực thống kê mô tả cho biến số: biến định lượng, thực lệnh summarize để để có trung bình độ lệch chuẩn, biến định tính thực lệnh tab1 để có bảng phân phối tần suất biến số Trong số liệu có biến tuoime, tuoithai, tlsosinh biến định lượng Để mô tả biến số sử dụng menu Statistics :: Summaries, tables, & tests :: Summary Statistics Sau hộp thoại Summarize ra, thực bước sau: Bước 1: Đặt trỏ vào hộp văn Variables Bước 2: Di chuyển trỏ vào cửa sổ Variables, nhấp vào biến cần mô tả thống kê (tuoime, tuoithai, tlsosinh) để tên biến xuất hộp văn Variables Bước 3: Nhấp vào nút lệnh OK Kết trình bày nhưu sau: summarize tuoime tuoithai tlsosinh Variable | Obs Mean Std Dev Min Max -+ -tuoime | 641 33.97192 3.87046 23 43 tuoithai | 641 38.68725 2.329931 24.69 42.35 tlsosinh | 641 3129.137 652.7827 630 4650 Các biến số định tính bao gồm tang_ha (tăng huyết áp), gioi (giới tính trẻ), nghenghiep (nghề nghiệp mẹ) Để tóm tắt biến số định tính (tang_ha, gioi, nghenghiep) sử dụng menu Statistics :: Summaries, tables & test :: Tables :: Multiple one-way tables - Bước 12: Ở hộp Define label names tiếp tục chọn nhãn nghenghiep, nhấp vào nút lệnh Add để hộp nhập liệu Add value - Bước 13: Nhập vào hộp văn value - Bước 14: nhập vien chuc vào hộp văn Text - Bước 15: Nhấp vào nút lệnh OK hộp nhập liệu Add Value Khi hộp nhập liệu Add Value biến Ta có kết sau: - Bước 16: Để hoàn tất việc tạo nhãn ta nhấn vào nút lệnh Close Dán nhãn giá trị (Assign value label) cho biến gioi, tang_ha, nghenghiep Sau dã tạo nhãn, dán nhãn giá trị cho biến số cách dùng menu Data :: Labels & Notes :: Assign value label to variable Khi hộp thoại labels value – Attach value label để dán nhãn cho biến số cần thực bước sau: - Bước 1: Đặt trỏ vào hộp văn Variable - Bước 2: Đưa trỏ vào cửa sổ Variable nhấp vào biến gioi để tên biến xuất hộp văn Variable - Bước 3: Đưa trỏ vào nhãn sex hộp văn Attach value label để dán nhãn sex vào tên biến sex - Bước 4: Nhấp vào nút lệnh Submit để thực việc dán nhãn Để tiếp tục thực tương tự để dán nhãn tang_ha cho biến tang_ha, tiến hành bước sau: - Bước 5: Đặt trỏ vào hộp văn Variable - Bước 6: Đưa trỏ vào cửa sổ Variable nhấp vào biến gioi để tên biến xuất hộp văn Variable - Bước 7: Đưa trỏ vào nhãn sex hộp văn Attach value label để dán nhãn sex vào tên biến sex - Bước 8: Nhấp vào nút lệnh Submit để thực việc dán nhãn Để tiếp tục thực tương tự để dán nhãn nghenghiep cho biến nghenghiep, tiến hành bước sau: - Bước 9: Đặt trỏ vào hộp văn Variable - Bước 10: Đưa trỏ vào cửa sổ Variable nhấp vào biến gioi để tên biến xuất hộp văn Variable - Bước 11: Đưa trỏ vào nhãn sex hộp văn Attach value label để dán nhãn sex vào tên biến sex - Bước 12: Nhấp vào nút lệnh OK để thực việc dán nhãn Cần lưu ý, lần dán nhãn trước nhấp vào nút lệnh submit để hoàn thành việc dán nhãn khơng đóng cửa sổ label values Sau dán nhãn nghenghiep cho biến nghenghiep, không cần dán nhãn tiếp tục nên nhấp vào nút lệnh OK để đóng cửa sổ label values sau hồn thành việc dán nhãn Lập bảng phân phối tần suất cho biến số định tính sau dán nhãn cho biến Hướng dẫn: Các biến số định tính dán nhãn bao gồm tang_ha sex matagegp gestcat Để tóm tắt biến số định tính (tang_ha sex matagegp gestcat) sử dụng menu Statistics :: Summaries, tables & test :: Tables :: Multiple one-way tables Khi hộp thoại tab1 – One-way tables ra, tiến hành bước (1) đặt trỏ vào hộp Categorical value (2) Nhấp vào cửa sổ variable để chọn biến số tiến hành phân tích (3) Nhấp vào nút lệnh OK Kết xuất sau: tab1 gioi tang_ha nghenghiep -> tabulation of gioi gioi tinh | tre - | 1=trai, | 0=gai | Freq Percent Cum + gai | 315 49.14 49.14 trai | 326 50.86 100.00 + Total | 641 100.00 -> tabulation of tang_ha tang huyet ap | thai ki - | 1=tang ha, | 0=khong tang | | Freq Percent Cum + huyet ap bt | 552 86.12 86.12 huyet ap tang | 89 13.88 100.00 + Total | 641 100.00 -> tabulation of nghenghiep nghe nghiep | me - 1=tu | do, 2=cong | nhan, | 3=vien chuc | Freq Percent Cum + tu | 104 16.22 16.22 cong nhan | 238 37.13 53.35 vien chuc | 299 46.65 100.00 + Total | 641 100.00 Vẽ tổ chức đồ (histogram) biến trọng lượng sơ sinh (tlsosinh) Hướng dẫn: Để vẽ tổ chức đồ, ta phải sử dụng menu Graphics :: Histogram Khi hộp thoại histogram ra, thực bước sau: Bước 1: đặt trỏ vào hộp văn Variable Bước 2: đưa trỏ vào cửa sổ Variables nhấp vào biến tlsosinh để đưa biến vào hộp văn Variable Bước – Bước 4: nhằm để xác định tổ chức đồ giá trị 600 (Lower limit of first bin) khoảng (bin) có độ rộng 300 (Width of bins) Bước 5: Cho biết tổ chức đồ ghi nhận tỉ lệ khoảng giá trị cách nhấp vào nút chọn Fraction Nếu muốn thể mật độ phân phối, nhấp vào nút chọn Density, muốn thể tần suất nhấp vào nút chọn Frequency Mối liên hệ hàm phân phối sau: Tỉ lệ (Fraction) = Tần suất (Frequency) / Cỡ mẫu (N) Mật độ (Density) = Tỉ lệ (Fraction) / Độ rộng khoảng chia (Width of bins) Kết trình bày hình sau 25 Fraction 15 05 1000 2000 3000 luong so sinh (gram) 4000 5000 Đồ thị cho thấy hình dạng phân phối số liệu, nhiên thay đổi thưc việc chia khoảng cho trục hoành, ghi cho trục hoành, chia khoảng cho trục tung ghi cho trục tung Giả sử muốn thực yêu cầu chia khoảng ghi sau: • Trục hồnh phải có khoảng giá trị từ 600 đến 4800 (biên độ 4200) Chúng ta muốn chia làm khoảng có độ lớn 300 cần thiết phải có 14 khoảng Chúng ta muốn ghi giá trị từ 600 đến 4200 nhãn giá trị cách 600 gram • Trục hồnh ghi "trong luong so sinh (gram) cua 641 tre" • Trục tung có khoảng giá trị đến 0.3, ghi nhãn cho giá trị nhãn cách 0.1 • Trục tung ghi "tỉ lệ" (chứ fraction) Các bước để thực chia khoảng ghi cho trục hoàng (trục X) sau: Bước 1: Nhấp vào Tab X-axis Bước 2: Để nhập ghi cho trục hoành, Ở hộp văn Title, nhập vào ghi "trong luong so sinh (gram) cua 641 tre" Bước 3: Để chia khoảng cho trục hoành, hộp văn Rule, nhập vào 600(600)4800 Nguyên tắc quy tắc là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo Các bước để thực chia khoảng ghi cho trục hoàng (trục Y) sau: Bước 4: Nhấp vào Tab Y-axis Bước 5: Để nhập ghi cho trục tung, Ở hộp văn Title, nhập vào ghi "Ti le" Bước 6: Để chia khoảng cho trục hoành, hộp văn Rule, nhập vào 0(0.1)0.3 Nguyên tắc quy tắc là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo Bước 7: Nhấp vào nút lệnh OK cuối cửa sổ để hoàn tất .3 Tỉlệ 600 1200 1800 2400 3000 3600 4200 4800 Trọng lư ợng sơ sinh (gram) c ủ a 641 trẻ Chúng ta vẽ đồ thị xuất (p-p plot) để xem biến số tlsosinh có tn theo phân phối bình thường Hướng dẫn: Sử dụng menu Graph – Distributional graph - normal quantile plot Khi cửa sổ qnorm ra, tiến hành bước sau: Bước 1: đặt trỏ vào hộp văn Variable Bước 2: đưa trỏ vào cửa sổ Variables nhấp vào biến tlsosinh để đưa biến vào hộp văn Variable Bước 3: Đánh dấu vào hộp kiểm: Show grid at percentiles: Bước 4: Nhấp vào nút lệnh OK Kết sau: Nếu phân phối bình thường đường cong phân phối (đường nét đậm) trùng với đường chéo hình chữ nhật (đường thẳng mảnh) Nếu phân phối lệch âm xác suất 0,5 đường cong phân phối nằm bên trái đường chéo Nếu phân phối lệch dương xác suất 0,5 đường cong phân phối nằm bên phải đường chéo Nếu độ dốc đường cong phân phối lớn (1) có nghĩa phân phối thực nghiệm tăng chậm phân phối bình thường, đường cong phân phối nhỏ (1) có nghĩa đường cong thực nghiệm tăng nhanh phân phối bình thường 05 Frac tion 15 Như vậy, phân phối trọng sơ sinh bị lệch trái khoảng trọng lượng thấp, phân phối trọng lượng sơ sinh tăng chậm phân phối chuẩn Ở khoảng trọng lượng cao trọng lương sơ sinh tăng nhanh phân phối chuẩn 1000 2000 3000 tro ng luong so sinh (gram) 4000 5000 ... tiên khởi động Stata theo cách hướng dẫn chương Khởi động Stata Sau thực tập đến cho công tác chuẩn bị tập đến cho công tác thao tác số liệu 1- Mở tập tin ivf_v.dta mở tập tin log Khởi động cửa... mở tập tin log (Open log file), khảo sát số liệu có ghi có biến số nghiên cứu đề cương nghiên cứu (chủ yếu mục tiêu nghiên cứu) để giúp việc phân loại biến số Việc thao tác số liệu việc rà sốt... gõ lệnh vào cửa sổ lệnh (Stata Command) Đây cách sử dụng Stata người chun nghiệp cho phép thực tất lệnh Stata cách nhanh chóng với đầy đủ chức phụ lệnh Tuy nhiên phương pháp khơng thích hợp cho