Hướng dẫn sử dụng chương trình Stata 8

ë ®©y biÕn reg7 cã 7 gi¸ trÞ tõ 1 ®Õn 7 t−¬ng øng víi 7 biÕn gi¶ tõ region1 ®Õn region7 sÏ ®−îc t¹o ra. BiÕn region1 nhËn gi¸ trÞ b»ng 1 nÕu nh− biÕn reg7 nhËn gi¸ trÞ 1, nÕu kh«ng th× b»ng 0. T−¬ng tù biÕn region7 nhËn gi¸ trÞ 1 nÕu nh− biÕn reg7 b»ng 7. LÖnh nµy cho phÐp t¹o biÕn míi theo gi¸ trÞ cña hµm sè ®−îc chØ ra bëi fcn. BiÕn míi nµy sÏ nhËn gi¸ trÞ cè ®Þnh cho mäi quan s¸t.

Tổ chức lưu trữ dữ liệu trong Stata (Dataset in Stata)

Stata là phần mềm thống kê sử dụng để quản lý, phân tích số liệu và vẽ đồ thị Stata cho phép lưu trữ thông tin về các đặc điểm của các đối tượng nghiên cứu Số liệu lưu trữ trong Stata có thể được hiển thị d−ới dạng bảng nh− ví dụ sau: maho tenchuho quymoho thunhapbq

Mỗi một hàng ngang của bảng số liệu được gọi là một quan sát, hay một bản ghi (record) lưu trữ số liệu về một đối tượng nghiên cứu ở ví dụ trên có 3 quan sát lưu trữ số liệu về Mi hộ (maho); Tên chủ hộ (tenchuho); Quy mô hộ (quymoho); Thu nhập bình quân (thunhapbq) của 3 hộ gia đình

Thông tin về đối tượng nghiên cứu được thu thập và lưu trữ theo các đặc điểm của chúng Các đặc điểm này đ−ợc gọi là biến Biến đ−ợc xem là các cột của bảng số liệu ở ví dụ trên có 4 biến, với tên là maho, tenchuho, quymoho, và thunhapbq Tên biến dài từ 1 đến 32 ký tự, đ−ợc bắt đầu chữ hoặc dấu gạch dưới (_) Tên biến chỉ bao gồm chữ, sỗ và dấu gạch dưới Các ký tự đặc biệt khác không thể dùng để đặt tên cho biến

Biến xác định (identifying variables)

Thông thường trong các biến sẽ có các biến dùng để nhận dạng quan sát, được gọi là biến xác định Nhờ có các biến xác định này mà các quan sát có thể phân biệt đ−ợc với nhau Mỗi một quan sát có một giá trị của các biến này ở ví dụ trên, biến xác định là maho, đối với mỗi một quan sát biến maho nhận một giá trị

Các đặc điểm của biến

Các biến có thể đ−ợc gán nhin (chú thích) Ví dụ biến maho có thể đ−ợc gán nhin là “Mi hộ”

Biến có thể được định dạng (format) là biến số và biến ký tự với các loại lưu trữ khác nhau Biến số có thể lưu trữ dưới loại byte; int; long; float; double Còn biến ký tự thì có thể lưu trữ dưới dạng str1 đến str80 cho các độ dài khác nhau

KiÓu lưu tr÷ dạng số

Giá trị nhỏ nhất Giá trị lớn nhất Kiểu byte 1 -127 126 Số nguyên int 2 -32,767 32,766 Số nguyên long 4 -2,147,483,647 2,147,483,646 Số nguyên float 4 -10^36 10^36 Sè thùc double 8 -10^308 10^308 Sè thùc

Các biến số có thể bao gồm các biến rời rạc và liên tục Các biến nh− là quy mô hộ gia đình, giới tính chủ hộ, vùng địa lý, trình độ giáo dục là các biến rời rạc (discrete) (hay còn gọi là biến phân loại

(categorical)) Các biến này có thể được lưu trữ dưới dạng byte, int, và long Các biến liên tục (continuous) như thu nhập, chi tiêu của hộ thì lưu trữ dưới dạng float hoặc double

Biến ký tự (string) dùng để lưu trữ các loại ký tự Ví dụ biến tenchuho là biến kiểu ký tự dùng để lưu trữ tên của chủ hộ

KiÓu lưu tr÷ dạng chữ

Byte Độ dài lớn nhất str1 1 1 str2 2 2

Khởi động và thoát khỏi Stata (Open and exit)

Stata được khởi động tương tự như các chương trình tin học ứng dụng khác, bằng cách kích vào biểu t−ợng của tệp wstata.exe trong Windows explorer, hoặc chọn bằng cách chọn Start -> Program -> Stata Ch−ơng trình đ−ợc thoát ra bằng lệnh exit từ cửa sổ lệnh Stata Command, hoặc tuỳ chọn exit trong thực đơn (menu) File

3 Giao diện Stata 8 (Stata interface) 1

Sau khi Stata đ−ợc khởi động, giao diện của Stata sẽ đ−ợc hiện lên, bao gồm thanh thực đơn (menu bar) ở trên cùng, dưới đó là thanh công cụ (tool bar) và các cửa sổ (windows)

Các cửa sổ của Stata

Các cửa sổ của Stata đ−ợc mở ra bằng việc lựa chọn các tuỳ chọn ở thanh thực đơn Windows (menu bar) Các cửa sổ này bao gồm:

Results Hiển thị các lệnh và kết quả

Graph Hiển thị đồ thị

Viewer Hiển thị cửa sổ trợ giúp (help) và hiển thị nội dung các file văn bản (text) Command Dùng để gõ các câu lệnh

Review Hiển thị các lệnh đi thực hiện

Variables Hiển thị danh sách các biến của tệp số liệu

Data editor Hiển thị và sửa chữa số liệu d−ới dạng bảng

Do-file editor Hiển thị cửa sổ để soạn thảo chương trình

Thanh thực đơn (Menu bar)

Bằng cách kích vào thanh thực đơn và các tuỳ chọn trong đó, Stata sẽ thực hiện các lệnh khác nhau Thanh thực đơn bao gồm các nhóm lệnh sau đây:

Open Mở file số liệu

View Xem các file của Stata trong cửa sổ Viewer

Save Lưu file số liệu

Save as Lưu file số liệu dưới tên mới

File name Chọn tên file để đ−a vào cửa sổ lệnh

Log Đóng, mở, xem lại log file

Save graph Lưu giữ file đồ thị

Print graph In đồ thị

Print results In kết quả

Copy text Sao chép văn bản (text)

Copy tables Sao chép bảng biểu

Table copy options Lựa chọn sao chép bảng số liệu

Graph copy options Lựa chọn sao chép đồ thị (không có trong Stata 7)

Prefs Các tuỳ chọn về màu sắc, phông chữ, và kích cỡ

Results Mở cửa sổ kết quả

Graph Mở cửa sổ đồ thị

Log Mở cửa sổ log file

Viewer Mở cửa sổ trợ giúp (help) và xem nội dung file

Command Mở cửa sổ câu lệnh

Review Mở cửa sổ các lệnh đi thực hiện

Variables Mở cửa sổ danh sách các biến của tệp số liệu

Help/Search Mở cửa sổ trợ giúp (help)

Data editor Mở cửa để xem số liệu lưu trữ dưới dạng bảng

Do-file editor Mở cửa sổ viết ch−ơng trình

Help Các trợ giúp liên quan đến việc sử dụng Stata

Thanh công cụ (tool bar)

Các tuỳ chọn trên thanh công cụ đ−ợc thiết kế để thực hiện các lệnh thông dụng của Stata Nếu chúng ta di chuyển con trỏ đến các nút này thì sẽ hiện lên các câu huớng dẫn, bao gồm:

Open (use) Mở file số liệu Stata

Save Lưu trữ file số liệu ra đĩa

Print results In nội dung của cửa sổ kết quả

Begin log Mở, đóng và xem nội dung của file log

Start viewer Mở cửa sổ trợ trợ (help)

Bring Dialog Window to font Đ−a cửa sổ hộp thoại ra phía tr−ớc

Bring Result Window to font Đ−a cửa sổ kết quả ra phía tr−ớc

Bring Graph Window to font Đưa cửa sổ vẽ đồ thị ra phía trước

Do-file editor Mở cửa sổ soạn thảo ch−ơng trình

Data editor Mở cửa sổ sửa chữa số liệu

Data browser Mở cửa sổ xem số liệu

Clear –more- condition Tắt lệnh more

Break Dừng việc thực hiện lệnh hoặc ch−ơng trình

4 Nhập và lưu dữ liệu (Use, input and and save)

Mở tệp số liệu đang có:

Tệp số liệu Stata có thể đ−ợc mở bằng lựa chọn Open trên thực đơn File; hoặc nút Open (use) trên thanh công cụ tool bar

Nếu file số liệu có dung l−ợng lớn thì chúng ta phải thiết lập bộ nhớ cần dùng cho Stata bằng lệnh: set memory #[k|m]

VÝ dô: set mem 32m set mem 32000k

Có một số cách để nhập số liệu từ bàn phím vào bộ nhớ của Stata

- Sử dụng cửa sổ Stata editor để nhập số liệu Hoặc từ cửa sổ command, gõ lệnh edit Sau đó nhập số liệu theo kiểu biểu bảng trong cửa sổ này

Stata cho phép nhập số liệu từ các file cơ sở dữ liệu khác Trước hết các file số liệu này cần được lưu trữ d−ới dạng text (có thể bằng ch−ơng trình Excel), các quan sát đ−ợc các nhau 1 dòng và các giá trị cách nhau 1 dẫu phẩy (commas) hoặc dấu cách (tab) Sau đó dùng lệnh copy và paste để nhập số liệu này vào Stata

Việc lưu trữ số liệu có thể thực hiện bằng các tùy chọn Save và Save as ở trong thanh thực đơn (menu bar); hoặc nút Save trên thanh công cụ (tool bar)

Chú ý: Xem thêm lệnh infile và outfile

Ch−ơng II: Khai thác dữ liệu

1 Cấu trúc lệnh trong Stata (Stata command syntax)

Cấu trúc cơ bản của một lệnh trong Stata nh− sau:

[by danh sách biến:] Cú pháp lệnh [danh sách biến] [biểu thức] [điều kiện] [phạm vi] [quyền số] [, tuỳ chọn]

Trong phần H−ớng dẫn s− dụng (Help) của Stata, cú pháp lệnh trình bày bằng tiếng Anh nh− sau: [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

Trong đó dấu ngoặc vuông ký hiệu các tuỳ chọn

- Các câu lệnh Stata đ−ợc viết bằng chữ th−ờng

- Đối với tên biến, Stata phân biệt chữ viết th−ờng với chữ viết hoa Ví dụ, trong cùng một tệp số liệu, biến “Ho_ten” và biến “ho_ten” là 2 biến khác nhau

- Các tuỳ chọn đ−ợc ký hiệu trong dấu ngoặc vuông [ ] Các tuỳ chọn này có thể có hoặc không trong câu lệnh Các tham số bắt buộc (tên biến) đ−ợc đặt trong dấu ngoặc < > Các câu lệnh sẽ không thực hiện đ−ợc nếu các tham số bắt buộc này không đ−ợc khai báo

- Một số lệnh Stata cho phép viết tắt Ví dụ lệnh summarize có thể viết tắt là sum Trong cuốn tài liệu này phần gạch chân dưới cú pháp của câu lệnh là cú pháp “viết tắt” của câu lệnh đó

- Các ví dụ trong cuốn tài liệu này sử dụng số liệu Điều tra Mức sống dân c− năm 1998 do Tổng cục Thống kê tiến hành Trong đó Tệp chi tiêu tổng hợp Hhexp98n.dta thường xuyên được sử dông by danh sách biến (by varlist): Stata sẽ thực hiện câu lệnh với theo từng giá trị đ−ợc chỉ ra bởi danh sách biến Biến đ−ợc chỉ ra bởi danh sách biến đ−ợc yêu cầu sẵp xếp tr−ớc khi thực hiện lệnh

Variable | Obs Mean Std Dev Min Max

Dùng thanh công cụ menu bar

Chỉ ra danh sách các biến chịu tác động của câu lệnh Nếu nh− không có biến nào đ−ợc chỉ ra thì lệnh Stata sẽ có tác dụng lên tất cả các biến (all variables)

Lệnh sum này hiển thị thống kê cơ bản của tất cả các biến trong tệp số liệu Điều kiện (if exp)

Stata chỉ thực hiện câu lệnh đối với các quan sát mà giá trị của nó cho kết quả của biểu thức là đúng

Lệnh này chỉ có tác dụng đối với các quan sát mà biến reg7 có giá trị bằng 1

Chỉ ra phạm vi các quan sát chịu tác động của câu lệnh Range (phạm vi) có thể có các dạng sau: sum poor in 10 Tính giá trị trung bình của biến poor cho quan sát 10 (chính bằng giá trị của biến poor tại quan sát thứ 10) sum poor in 10/100 Tính giá trị trung bình của biến poor cho quan sát từ 10 đến 100 sum poor in f/100 Tính giá trị trung bình của biến poor cho quan sát từ đầu tiên đến 100 sum poor in 100/l Tính giá trị trung bình của biến poor cho quan sát từ thứ 100 đến quan sát cuối cùng QuyÒn sè (weight)

Cho phép tính toán sủ dụng quyền số Tuỳ chọn về quyền số sẽ đ−ợc trình bày kỹ ở mục 5 của ch−ơng này

Nhiều câu lệnh Stata cho phép các tuỳ chọn riêng Các tuỳ chọn này đ−ợc chỉ ra sau dấu phẩy

Lệnh sum có tuỳ chọn là detail, cho phép tính toán thêm một số thống kê khác ngoài giá trị trung bình và độ lệnh chuẩn

sum rlpcex1, detail comp.M&Reg price adj.pc tot exp

- Stata cho phép viết tắt các lệnh và tùy chọn Trong tài liệu này, phần gạch chân d−ới các lệnh có nghĩa là lệnh đó có thể viết tắt bằng ký tự trong phần gạch chân này Ví dụ nh− lệnh use có nghĩa là có thể đ−ợc viết tắt bởi u

- Cú pháp của các câu lệnh trong tài liệu này được viết bằng tiếng Anh, cho phép người đọc có thể đối chiếu với phần hướng dẫn sử dụng trong Stata

2.Toán tử và hàm số (Operators and functions)

Các toán tử trong Stata đ−ợc ký hiệu nh− sau:

Trong biểu thức dấu == đ−ợc dùng cho việc kiểm định biểu thức, ví dụ nh− đ−ợc dùng sau lệnh if Còn dấu = đ−ợc dùng cho lệnh tạo biến

VÝ dô: gen RRD=0 replace RRD=1 if reg8==1

Hàm số th−ờng đ−ợc dùng trong biểu thức (exp) của câu lệnh Stata Nếu coi Y là một hàm số của f(X1,

X2,…, Xn) thì lệnh về hàm số trong Stata sẽ tính giá trị của Y nếu cho các giá trị của Xi Stata có 8 loại hàm số:

Các hàm toán học Hàm thống kê Hàm cho số ngẫu nhiên Hàm liên quan đến dẫy ký tự Hàm đặc biệt

Hàm ngày tháng Hàm chuỗi thời gian Hàm ma trận

VÝ dô: gen absxs(x) gen log_exp=log(rlpcex1)

Các ký hiệu cụ thể về các hàm số này có thể xem ở mục help functions

3 Mô tả dữ liệu (Data reporting)

3.1 Xoá bộ nhớ của Stata

Lệnh này xoá các dữ liệu trong bộ nhớ của Stata, bắt đầu cho một file làm việc mới

3.2 H−ớng dẫn sử dụng lệnh Stata

Cú pháp: help

Lệnh này hiển thị hướng dẫn sử dụng các lệnh Stata, lệnh Stata cần phải được gõ đầy đủ và chính xác

help sum help for sum not found try help contents or search sum

- help for summarize (manual: [R] summarize)

Chúng ta có thể tìm h−ớng dẫn sử dụng theo từ khoá bằng lệnh search Lệnh search có thể đ−ợc thực hiện bằng tuỳ chọn Search ở thực đơn help

Chúng ta cũng có thể dùng cửa sổ lệnh bằng menu bar

Cú pháp: describe [danh sách biến]

Cấu trúc lệnh trong Stata (Stata command syntax)