Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 1 TRÍCH DỮ LIỆU TỪ STATA oOo Lưu ý cài phần mềm Stata ở chế độ Intercooled và các lệnh là chữ thường Tài liệu này chỉ hướng dẫn nhanh về cách truy xuất và lọc dữ liệu từ các cơ sở dữ liệu được lưu dưới định dạng của Stata (.dta), để từ đó có thể ra các điều kiện trích dữ liệu và xuất sang định dạng của khác phần mềm khác như SPSS, Excel,… 1. Khởi động & thoát Stata Vào thực đơn Start > chọn Program > chọn Stata > chọn Intercooled Stata 7 Giao diện chính của chương trình Stata như hình bên dưới, tùy theo phiên bản sẽ có thay đổi chút ít, phiên bản Stata 7.0 thì có: - Thanh thực đơn chính - Thanh công cụ chính, chứa các nút lệnh thường hay sử dụng - Cửa sổ Review chứa các lệnh mà bạn đã sử dụng vào trước đó - Cửa sổ Variables chứa các biến trong tập tin .dta đang mở - Cửa sổ Stata Results chứa kết quả sau khi thực hiện các l ệnh - Cửa sổ Stata Command để nhập các lệnh cho chương trình Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 2 Để thoát khỏi Stata bạn vào thực đơn File > chọn Exit Trong cửa sổ vừa mở trên gõ thử các lệnh sau: - Lệnh dir + <Enter> để xem các tập tin trong thư mục lưu trữ - Lệnh memory + <Enter> để xem bộ nhớ của máy 2. Mở tập tin .dta Đối với phiên bản Stata 7.0 trước khi mở một tập tin thì bạn phải cấp phát bộ nhớ tương ứng với dung lượng c ủa tập tin B1. Để mở tập tin thì trước nhất phải đặt bộ nhớ dành cho tập tin bằng lệnh set memory <Bộ nhớ> Ví dụ: set mem 16M Æ Dành sẵn bộ nhớ 16 Megabyte cho tập tin set mem 64K Æ Dành sẵn bộ nhớ 64 Kilobyte cho tập tin Các lệnh có thể viết tắt lại như ví dụ trên. Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 3 B2. Sau khi khai báo bộ nhớ thì bạn có thể dùng lệnh use <đường dẫn và tên tập tin> để mở tập tin .dta hoặc cách dễ hơn là vào thực đơn File > chọn Open và chọn tập tin để mở. B3. Vào thực đơn Window> chọn Data Editor để vào chế độ chỉnh sửa dữ liệu hoặc để sao chép dữ liệu sang Excel/ SPSS/ Eviews bằng cách chọn vùng dữ liệu và chọn Copy. Tuy nhiên cách Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 4 này rất hạn chế vì dữ liệu lưu trữ trong tập tin .dta thông thường rất lớn (thường là vài trăm ngàn dòng và đôi khi là vài triệu dòng) nên không thể copy sang Excel được. Ngoài ra một Sheet trong Excel lại chỉ có thể chứa được 65536 dòng nên không thể chứa các bảng dữ liệu lớn được. Do vậy, để chạy các mô hình phân tích dữ liệu thì hoặc là xử lý trực tiếp trong Stata hoặ c trích các dữ liệu cần thiết để xuất ra các định dạng khác (thông thường là .csv) để từ đó có thể nhập trở lại các phần mềm xử lý số liệu thông dụng khác. B4. Trích lọc dữ liệu và xuất sang định dạng .csv để các phần mềm khác có thể đọc được Ví dụ: outsheet c4_1 c4_2 c4_3 c4_4 if c4_2>30 using ketqua.csv, comma Î Xuất 4 biến c4_1, c4_2, c4_3 và c4_4 sao cho trong đó biến c4_2 có giá trị lớn hơn 30 và lưu vào tập tin tên là ketqua.csv và các biến, các giá trị cách nhau bằng dấu phẩy. Lưu ý: - Lệnh dùng tất cả chữ thường - Lệnh using dùng để lưu file Hình bên dưới là kết quả xuất sang tập tin .csv và dùng phần mềm Excel để mở ra (Tập tin xuất ra được lưu mặc định tại C:\Data nếu các bạn không có hiệu chỉnh nào khác) Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 5 Một số lệnh cơ bản gen <tên biến> = <giá trị/ biểu thức> Æ Tạo biến mới chứa giá trị drop <tên biến> Æ Xóa biến/ quan sát replace <tên biến> = <tên biến>|<giá trị/ biểu thức> Æ Đổi giá trị của biến Lệnh lọc dữ liệu if exp if có thể dùng chung với hầu hết các lệnh khác của Stata exp là một biểu thứcví dụ như age>21 Ví dụ . list make mpg if mpg>25 . list make mpg if mpg>25 & mpg<30 . list make mpg if mpg>25 | mpg<10 . regress mpg weight displ if foreign==1 Lưu ý phép so sánh bằng trong Stata là == (hai dấu = liền nhau) Xuất dữ liệu Stata thành file outsheet [varlist] using filename [if exp] [in range] [, nonames nolabel noquote comma replace ] outsheet ghi dữ liệu có phân cách nhau bằng tab, dấu phẩy đây là các ký hiệu phân cách mà rất nhiều phần xử lý dữ liệu khác có thể hiểu được Nếu có đặt tên tập tin mà không có phần mở rộng thì .out được dùng mặc định Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 6 nonames để chỉ thị không xuất tên các biến, thường các tên này ở dòng dầu tiên của tập tin kết xuất. nolabel để chỉ thị các giá trị số trong tên của các biến nhãn cũng được kết xuất noquote để chỉ thị các biến chứa chuỗi không đặt trong dấu ngoặc kép trong tập tin kết xuất comma để chỉ thị dấu phẩm được dùng làm dấu phân cách giữa các biến (bỏ trống thì mặc định là dùng tab để phân cách) replace để chỉ thị sẽ ghi tập tin kết xuất đè lên tập tin có sẵn nếu có. Ví dụ . outsheet using tosend . outsheet using tosend, replace Các toán tử Quan hệ Số học Luận lý (cho giá trị số hoặc chuỗi) + addition ~ not > greater than - subtraction | or < less than * multiplication & and >= > or equal / division <= < or equal ^ power == equal + string concatenation ~= not equal Lưu ý phép so sánh bằng trong Stata là == (hai dấu = liền nhau) Ví dụ . generate newvar = oldvar*myvar-3 . replace myvar = this/that if thatvar==3 Xóa biến hoặc quan sát drop varlist drop if exp drop in range [if exp] keep varlist keep if exp keep in range [if exp] clear by : có thể dùng may be used with the second syntax of drop and the second syntax of keep; Description drop loại bỏ biến hoặc quan sát ra khỏi tập dữ liệu trong bộ nhớ. keep giống như drop, tuy nhiên cần phải xác định tên biến và loại quan sát cần giữ lại clear xóa các lệnh đã nhập vào Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 7 Ví dụ . drop if age<21 . drop in 1/33 . keep if age>=21 . keep in 34/l . sort site . by site: keep if _n==1 . clear . trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong 1 TRÍCH DỮ LIỆU TỪ STATA oOo Lưu ý cài phần mềm Stata ở chế độ Intercooled và các lệnh là chữ thường Tài liệu. hướng dẫn nhanh về cách truy xuất và lọc dữ liệu từ các cơ sở dữ liệu được lưu dưới định dạng của Stata (.dta), để từ đó có thể ra các điều kiện trích dữ liệu và xuất sang định dạng của khác phần. liệu hoặc để sao chép dữ liệu sang Excel/ SPSS/ Eviews bằng cách chọn vùng dữ liệu và chọn Copy. Tuy nhiên cách Chương trình Giảng dạy Kinh tế Fulbright Trích dữ liệu từ Stata Trần Thanh Phong