Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 456 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
456
Dung lượng
7,19 MB
Nội dung
1 Kinh Tế Lượng Ứng Dụng Với (Phiên ngày 15/07/2017) Nguyễn Chí Dũng phantichdinhluong.wordpress.com Nguyễn Chí Dũng phantichdinhluong.wordpress.com Lời Nói Đầu Tại dùng R? Với nhiều cơng cụ cho tích liệu mà bạn lựa chọn Eviews, Stata, SPSS – AMOS, Excel, SPLUS, MATLAB rõ ràng câu hỏi phải dùng R? Có năm lí để bạn lựa chọn R Thứ nhất, với tư cách công cụ cho nghiên cứu thống kê – kinh tế lượng, lực phân tích R khơng thua phần mềm thống kê có, chí nhiều tình cịn làm tốt Chẳng hạn, phân tích liệu mảng (Panel Data) cân nhắc Stata Eviews Stata có lực phân tích đa dạng linh động so với Eviews Còn bạn thực phân tích thống kê đa biến phân tích EFA, CFA bạn có xu hướng chọn Stata SPSS – AMOS chúng linh hoạt tiện lợi Tuy nhiên, dùng R bạn chẳng cần phải đắn đo vấn đề này: thực tất phân tích mà phần mềm thống kê thương mại làm làm tốt Thứ hai, R cịn ngơn ngữ lập trình hồn thiện định hướng cho tính tốn thống kê, phân tích liệu Nó cho phép bạn xây dựng hàm, câu lệnh để giải nhóm nhiệm vụ phân tích đặc thù chia sẻ chúng mạng Chẳng hạn, có kiểm định mới, mơ hình phương diện lý thuyết đăng tạp chí chun nghành đó, bạn hồn tồn viết chương trình nhằm biến kiểm định mới, mơ hình dạng lý thuyết thành hàm cụ thể R Nếu kiểm tra cộng đồng người sử dụng khơng có lỗi, hàm mà bạn viết thừa nhận sử dụng rộng rãi Thứ ba, với tư cách công cụ phân tích liệu nói chung, R cịn công cụ cho Data Mining, Big Data, Data Visualization Machine Learning Tơi lấy ví dụ Data Visualization hình ảnh ấn tượng đây: Hình ảnh vẽ R dựa số liệu thu thập chuyến bay hãng hàng khơng lớn giới Dựa vào hình ảnh bạn thấy trung tâm mạng nhện Bắc Mĩ Châu Âu – đầu mối nhộn nhịp vận tải hàng không Nếu vào màu sắc (mỗi hãng hàng khơng màu) bạn thấy rõ thị trường hàng khơng Suy rộng là, với tư cách nhà nghiên cứu thị trường, xu hướng xã hội, Nguyễn Chí Dũng phantichdinhluong.wordpress.com hay buộc liệu phải lên tiếng, phải cung cấp cho ta thông tin đáng giá R hồn tồn cơng cụ thích hợp cho bạn lựa chọn Một ví dụ sử dụng liệu từ Google Scholar, hình ảnh hóa (Data Visualization) thị phần R từ năm 1995 đến 2011 dựa truy vấn tìm kiếm sau: Dữ liệu cần thiết đễ vẽ đồ thị gửi kèm với tài liệu Thứ tư, sử dụng R nghiên cứu phân tích liệu xu hướng ngày phổ biến, nghiên cứu thống kê – kinh tế lượng Hiện R giảng dạy sử dụng cơng cụ phân tích liệu nhiều trường đại học lớn, có uy tín lĩnh vực Mĩ Châu Âu Đây lý đo xứng đáng để bạn chọn R Cuối cùng, trường đại học sớm hay muộn khơng thể dùng phần mềm chùa sớm chuyển sang sử dụng phần mềm miễn phí Hiện có số trường đại học sử dụng R cho việc giảng dạy thống kê kinh tế lượng Đối tượng bạn đọc tài liệu ai? Đây chắn câu hỏi mà phải trả lời trước ki viết tài liệu Đối tượng bạn đọc mà hướng đến trước hết bạn học khối nghành kinh tế nói chung có nhu cầu sử dụng R công cụ nghiên cứu – thực hành thống kê kinh tế lượng Tất nhiên bạn đọc không thuộc khối kinh tế thu nhiều lợi ích sử dụng tài liệu Ngồi ra, bạn người phóng khống, ưa thích đẹp xác chắn R trở thành người bạn đồng hành lâu dài bạn bạn chọn cho nghề nghiệp mà buộc liệu phải nói điều có ích Ví dụ, khơng giống số phần mềm thương mại khơ cứng khác (và bạn chẳng biến tính toán sao) thực hồi quy OLS bạn làm thao tác R khơng vậy, hồi quy OLS bạn có hàng chục cách thức khác Về xác, theo tơi biết tận phiên Stata mà dùng (Version 14) tính R2 với liệu mảng, Stata báo kết sai Với R điều khơng có Vì bạn biết bước tính tốn muốn cách xem trực tiếp dịng mã lệnh Nguyễn Chí Dũng phantichdinhluong.wordpress.com Bạn cần có để sử R với tài liệu này? Trước hết cần nói khơng phải tài liệu kinh tế lượng Nó hướng dẫn sử dụng R với áp dụng cho kinh tế lượng, không đề cập nhiều đến lý thuyết (mặc dù có số tình tơi có nhắc lại lý thuyết) Tơi mặc định bạn có kiến thức tảng thống kê kinh tế lượng Ngồi tơi khuyến cáo bạn nên sử dụng tài liệu kèm với Giáo Trình Kinh Tế Lượng in năm 2012 tác giả Nguyễn Quang Dong Nguyễn Thị Minh Đại Học Kinh Tế Quốc Dân (NEU) Kinh tế lượng tác giả Nguyễn Thành Cả Nguyễn Thị Ngọc Miên thuộc đại học Kinh Tế Thành Phố Hồ Chí Minh (UEH) Ngồi ra, từ chương trở giáo trình NEU sử dụng nhiều liệu từ sách Introductory Econometrics: A Modern Approach Wooldridge (2013) nên gửi kèm bạn sách để tham khảo đối chiếu Sử dụng R có khó khơng? Tơi nói ngắn gọn này: không Và tin bạn thành thạo R mức tối thiểu, bạn có xu hướng không sử dụng phần mềm thống kê thương mại khác Vì sao? Vì bạn hiểu bạn làm Tuy nhiên người tự học nên tơi có lời khun: R khơng phải kiểu “mì ăn liền” Eviews, SPSS, hay Stata – phần mềm mà bạn chủ yếu kích chuột, kích chuột có kết R có chút khắt khe yêu cầu bạn hai thứ: (1) thận trọng việc gõ câu lệnh, (2) bước Theo kinh nghiệm nhiều người khác, người sử dụng R, bạn khơng thể học theo lối nhảy cóc Là tài liệu định hướng thực hành nên khía cạnh lý thuyết (nhất cơng thức, chứng minh) trọng tâm tài liệu Trong tình cần tham chiếu lại lý thuyết cách rõ ràng rõ số trang bao nhiêu, sách hay nghiên cứu Tất nhiên, sách nước tơi sử để cập đến hai giáo trình kinh tế lượng đại học Kinh Tế Quốc Dân Kinh Tế Thành Phố Hồ Chí Minh Ngồi tơi mặc định người sử dụng có kiến thức kinh tế lượng thống kê Kết cấu tài liệu Dự kiến viết tài liệu thành hai tập Tập tương ứng với học phần kinh tế lượng giảng NEU UEH Tuy nhiên phần có thêm số nội dung mà chương trình học EUH khơng có hồi quy phân vị, Logistic, Probit, Poisson, mơ hình có biến kiểm duyệt, mơ hình hồi quy với biến cơng cụ, phân tích liệu bảng (hay liệu tổng hợp) Tập hai tương ứng với nội dung phân tích chuỗi liệu thời gian số mơ hình quen thuộc ARCH, GARCH, VAR, BVAR Dữ liệu sử dụng cho tài liệu Một nguyên tắc chủ đạo viết tài liệu sử dụng data có nguồn gốc rõ ràng đáng tin cậy Điều đảm bảo bạn kiểm tra, đối chiếu kết phân tích thu cần Một lí tơi tin khơng thể học tốt kinh tế lượng không am hiểu mức độ tối thiểu liệu mà sử dụng Tất số liệu sử dụng tài liệu Nguyễn Chí Dũng phantichdinhluong.wordpress.com bạn dễ dàng lấy Internet Tuy nhiên để thuận tiện tơi gửi tồn chúng tài liệu Cụ thể, số liệu sử dụng tài liệu đến từ nguồn chủ yếu đây: Các số liệu từ Giáo Trình Kinh Tế Lượng tác giả Nguyễn Quang Dong Nguyễn Thị Minh NEU dạng file Eviews (gửi kèm tài liệu này) Các số liệu từ sách Kinh tế lượng tác giả Nguyễn Thành Cả Nguyễn Thị Ngọc Miên UEH cung cấp tại: https://sites.google.com/site/kinhteluongttkueh/home Bộ số liệu CPS 1988 kèm với gói AER Bộ số liệu engel kèm gói quantreg Ngồi cịn có số liệu khác sử dụng tích hợp (có sẵn) số gói phân tích R Một số số liệu (file Stata) lấy từ Econometrics by Example in năm 2011 Gujarati Bộ số liệu panel1.dta (file Stata) sử dụng chương 10 cho phân tích liệu mảng lấy từ Econometric Analysis of Panel Data in năm 2005 Baltagi Một số liệu lấy từ số giáo trình điển hình khác kinh tế lượng Introductory Econometrics: A Modern Approach ấn năm 2013 Wooldridge, Applied Logistic Regression ấn năm 2013 Hosmer Lemeshow số sách khác Các liệu dạng file Stata Một số liệu sử dụng số nghiên cứu nước sử dụng lại nhiều giáo trình kinh tế lượng giới Về văn phong tài liệu Trước công bố tài liệu gửi cho nhiều bạn đọc thẩm định trước Ý kiến phản hồi tài liệu chủ yếu hai khía cạnh sau Một là, văn phong bình dân với chứng từ việc sử dụng nhiều đại từ “chúng ta”, “các bạn” Việc có cân nhắc trước viết Sự thực thay viết “Chúng ta tính kiểm định F trực tiếp sau ” “Tính trực tiếp kiểm định F sau ” việc tơi làm Nhưng tơi thấy viết kiểu tài liệu trở nên “kém thân thiện” Tơi hồn tồn viết tài liệu theo xung hướng trang trọng điển hình sách giáo trình Tuy nhiên, tơi thích kiểu “thân thiện” nên để nguyên phong cách ngơn ngữ Có lẽ tơi bị ảnh hưởng từ A Field – số tác giả yêu thích Chẳng hạn, sách thống kê tác giả có tên Discovering statistics using SPSS: (and sex and drugs and rock 'n' roll) – dịch : Khám phá thống kê sử dụng SPSS: (và tình dục, ma túy, nhạc Rock – Roll) Hai là, giải thích chi tiết Về điểm tơi cần giải thích sau Đối tượng bạn đọc tài liệu có mức độ học hiểu thống kê – kinh tế lượng mức độ khác nhau: từ người đào tạo thống kê – kinh tế lượng khoa Toán đại học Kinh Tế Quốc Dân bạn đọc không chuyên thống kê Nên viết chi tiết, khía cạnh thực hành, điều tơi muốn hướng tới Điều cịn dựa kinh nghiệm thân học cách sử dụng R: lỗi nhỏ thao tác làm cho câu lệnh hay tồn chương trình khơng vận hành Mà tìm khơng Bạn đọc thấy điều sách R vừa tái Việt Nam T.S Nguyễn Văn Tuấn (in cuối năm 2015) Rõ ràng ông viết sách ngắn đọng Nhưng ông không làm Nguyễn Chí Dũng phantichdinhluong.wordpress.com Các sai sót Dù cẩn thận cố gắng, tơi tin tài liệu cịn có thiếu sót Do tơi mong nhận phản hồi bạn tài liệu Dựa phản hồi tơi hiệu chỉnh hồn thiện tài liệu cho lần đánh máy sau Trợ giúp từ người viết tài liệu Trong tình bạn gặp trục trặc (như thiếu data chẳng hạn) hay có phê phán tài liệu, bạn nhận hỗ trợ phản hồi cách nhanh chóng từ qua ba cách thức sau (theo thứ tự ưu tiên cập nhật giảm dần): Website gồm viết phân tích liệu nói chung kinh tế lượng nói riêng tại: http://rpubs.com/chidungkt Các viết mục có nhãn KTLR bạn phản hồi Tơi cố gắng cập nhật, trả lời phản hồi nhanh Gửi câu hỏi đến địa chỉ: https://phantichdinhluong.wordpress.com/ Đây Blog thành lập để trao đổi thắc mắc R Do chưa có kinh nghiệm dùng Blog nên giao diện cịn chưa tiện dụng xấu Tuy nhiên khơng quan trọng chắn cải thiện Cách khuyến khích Tài liệu làm cập nhật tháng lần tại: http://www.mediafire.com/download/3lg8bsfbu6csq8d/KinhTeLuongUngDungVoiR.rar Lời cảm ơn Tất nhiên, thứ xây dựng từ chân không Người viết tài liệu hưởng lợi từ động viên, định hướng, cơng sức nhiệt tình nhiều người tơi muốn nói lời cảm ơn chân thành tới họ Trước hết, Thầy Lê Đức Hồng (Viện Ngân Hàng – Tài Chính, đại học Kinh Tế Quốc Dân) – người giúp đỡ nhiều mặt (và người bạn) Thầy tạo cho ý R thông qua sách tuyệt vời Analysis of Financial Time Series Ruey S Tsay Ngồi ra, tơi gián tiếp hưởng lợi từ: (1) T.S Nguyễn Văn Tuấn viện nghiên cứu Garvan (Australia) – người nhiệt thành cổ vũ cho việc sử dụng R nghiên cứu phân tích việc cơng bố tài liệu tiếng Việt R qua Blog vào năm 2004, (2) T.S Daniel Zelterman (Yale University) – người gửi cho nhiều liệu từ nghiên cứu ông cho Applied Multivariate Statistics with R, (3) T.S Hadley Wickham (Rice University) – người hào phóng gửi cho tơi mềm sách ggplot2 - Elegant Graphics for Data Analysis cịn q trình in ấn mà khơng suy nghĩ vấn đề quyền Nhiều kiến thức thu sử dụng gói ggplot2 từ sách sử dụng để viết phần chương tài liệu Tơi muốn nói lời cảm ơn đến bố - mẹ, bạn bè thân hữu tạo điều kiện giúp đỡ tơi hồn thành tài liệu họ khơng ý thức điều Cuối cùng, tơi muốn nói lời cảm ơn đến tất bạn – người quan tâm sử dụng tập tài liệu Nguyễn Chí Dũng phantichdinhluong.wordpress.com Nguyễn Chí Dũng phantichdinhluong.wordpress.com Mục Lục Chương 1: R với tư cách công cụ nghiên cứu kinh tế lượng 18 1.1 Tổng quan R 18 1.2 Cài đặt R, Rstudio Packages cần thiết 19 1.2.1 Cài đặt R cho cho Windows 19 1.2.2 Cài đặt Rstudio 20 1.2.3 Cài đặt packages 21 1.2.4 Yêu cầu Package cụ thể trình diện 22 1.2.5 Sử dụng Rmarkdown để trao đổi, công bố kết Internet với Rpub 23 1.2.6 Cập nhật phiên R 26 1.3 Trợ giúp từ R 26 1.4 Xem danh sách gói cài đặt số lượng gói R 29 1.5 Các quy ước sử R cho phân tích 29 1.6 Tổng kết chương mở đầu 30 Chương 2: Môi trường làm việc R 31 2.1 Nhập liệu trực tiếp vào R 31 2.2 Hiệu chỉnh liệu 32 2.3 Đọc liệu từ file sẵn có định dạng khác nhau, từ nguồn bên vào R 32 2.3.1 Đọc liệu từ file Eviews 33 2.3.2 Đọc liệu từ Stata 34 2.3.3 Đọc liệu từ SPSS 35 2.3.4 Đọc liệu từ Matlab SAS 37 2.3.5 Đọc liệu từ Excel 37 2.3.6 Đọc liệu định dạng txt 38 2.3.7 Đọc liệu định dạng csv 38 2.3.8 Đọc nhiều file liệu lúc 38 2.3.9 Đọc liệu cung cấp World Bank với gói WDI 40 2.3.9.1 Giới thiệu số liệu cung cấp WB 40 2.3.9.2 Lấy liệu cung cấp WB vào R với gói WDI 41 2.3.10 Đọc liệu tài từ Internet với gói quantmod 47 2.3.11 Đọc liệu kích thước lớn 52 2.3.12 Đọc sẵn có thuộc gói R 54 Nguyễn Chí Dũng phantichdinhluong.wordpress.com 10 2.4 Quản lý liệu, đổi tên, hiệu chỉnh liệu hàm gói base 55 2.4.1 Tạo data frame 56 2.4.2 Dán lại nhãn cho quan sát thuộc số liệu từ dạng số thành ki tự factor 57 2.4.3 Dán lại nhãn cho quan sát từ dạng kí tự thành dạng số 59 2.4.4 Ghép liệu vào data frame sẵn có 59 2.4.5 Trích liệu từ data frame có sẵn với dấu [] 61 2.4.5.1 Trích xuất liệu theo cột 61 2.4.5.2 Trích xuất liệu theo hàng 61 2.4.5.3 Trích xuất liệu đồng thời theo hàng cột 62 2.4.6 Trích liệu từ data frame có sẵn lệnh subset() 62 2.4.7 Lấy mẫu ngẫu nhiên 62 2.5 Quản lý liệu, hiệu chỉnh liệu hàm gói tidyverse 63 2.5.1 Tổ chức liệu dạng tibble 64 2.5.2 Lọc liệu với lệnh filter 67 2.5.3 Chọn cột biến với lệnh select 67 2.5.4 Đổi tên biến với lệnh rename 68 2.5.5 Sắp xếp lại theo giá trị tăng dần hay giảm dần với lệnh arrange 68 2.5.6 Tạo biến với lệnh mutate transmute 68 2.5.7 Lấy ngẫu nhiên số quan sát với lệnh sample_n sample_frac 69 2.5.8 Lấy không ngẫu nhiên số quan sát với lệnh slice 69 2.5.9 Loại dòng trùng lệnh distinct 69 2.5.10 Hợp liệu lệnh bind_rows bind_cols 70 2.5.11 Dán lại nhãn cho quan sát với hàm recode() recode_factor() 71 2.5.12 Dán lại nhãn cho quan sát với hàm if_else case_when 73 2.5.13 Chuyển từ dạng wide sang long cho nghiên cứu liệu bảng với lệnh gather 74 2.5.14 Hợp có điều kiện theo cột cho liệu 76 2.6 Toán tử tẩu thuốc pipe (%>%) 79 2.7 Tính thống kê với số liệu PISA sử dụng gói dplyr 81 2.8 Lưu liệu có R thành file Excel, Stata 85 2.9 Lưu kết quả, lệnh thực Objects để sử dụng cho lần sau 86 2.10 Thực tính tốn thơng thường, đại số tuyến tính 87 2.11 Mô liệu 93 2.12 Viết trình bày R code cách 95 Nguyễn Chí Dũng phantichdinhluong.wordpress.com 442 15.5 Các biến cấu thành nhân tố, đặt tên cho nhân tố kiểm định Cronbach Alpha Các phân tích có nhân tố rút Để biết nhân tố cấu thành từ biến sử dụng phép xoay Varimax Câu lệnh loại bỏ (khơng hiển thị) biến có hệ sổ tải (Factor Loadings) bé 0.3: pc2