Nhập số liệu

Một phần của tài liệu TÀI LIỆU HƯỚNG DẪN HỌC TẬP TIN HỌC ỨNG DỤNG TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP. HỒ CHÍ MINH KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ (Trang 137)

Việc nhập số liệu nhằm cung cấp bộ dữ liệu phục vụ cho việc phân tích dữ liệu. Các nguyên tắc khi thực hiện nhập dữ liệu là phải kiểm tra sự lặp lại hoặc các giá trị không có ý nghĩa, hạn chế đến mức thấp nhất các lỗi nhập liệu, chọn chiến lược nhập liệu phù hợp và làm sạch dữ liệu.

Trang 131 Phương pháp thực hiện đó là: (1) Trước tiên, tiến hành nhập liệu, kiểm tra và xử lý một số lỗi trên Excel. (2) Sau đó, chuyển dữ liệu từ Excel sang SPSS để phân tích.

Có thể chọn một trong các chiến lược nhập dữ liệu sau đây: - Nhập toàn bộ số liệu hai lần bởi hai người độc lập.

- Nhập toàn bộ số liệu hai lần bởi cùng một người. - Nhập số liệu một lần, và nhập 20% ngẫu nhiên lần hai. - Nhập toàn bộ số liệu một lần duy nhất…

5.2 Các phần mềm phân tích dữ liệu thông dụng 5.2.1 Excel

MS Excel được sử dụng rộng rãi trong kế toán, phân tích thống kê, phân tích kinh doanh…

Các đặc điểm của Excel đó là thực hiện nhiều phép tính phức tạp, có thư viện hàm phong phú, chuyên sâu về thống kê, tích hợp nhiều công cụ phân tích, xử lý số liệu. Ngoài ra, Excel còn có chức năng quản trị cơ sở dữ liệu, biểu đồ…

Các công cụ của Excel sử dụng phân tích dữ liệu bao gồm Goal Seek, Data Table, Solver, Scenario Manager, Analysis ToolPak, Currency Tool, VBA…

5.2.2 SPSS

SPSS (Statistical Package for the Social Sciences) là phần mềm thống kê được sử dụng rộng rãi trong các nghiên cứu điều tra xã hội học và kinh tế lượng.

SPSS được phát triển từ năm 1968 tại Đại học Stanford, có bản thương mại từ năm 1975. Năm 2009, SPSS được IBM mua lại. SPSS hoạt động trên các hệ điều hành Windows, Mac OS, Linux, Unix,… Phiên bản mới nhất tính đến thời điểm tháng 02/2018 là SPSS 25.

Các ưu điểm của SPSS là giao diện thân thiện, dễ sử dụng, thực hiện thao tác tính toán đơn giản, hỗ trợ xử lý và phân tích dữ liệu, có thế mạnh về phân tích nhân tố, phương sai, hồi quy… và khả năng lập bảng biểu dữ liệu, báo cáo đa dạng, linh hoạt.

Các nhược điểm của SPSS là không có khả năng lập trình, không cho phép xử lý cùng lúc nhiều tập tin dữ liệu, thiếu một số chức năng phân tích thống kê chuyên sâu…

5.2.3 Eviews

EViews (Econometric Views) là phần mềm kinh tế lượng.

Các đặc điểm của Eviews là sử dụng các dữ liệu có sẵn - dữ liệu thứ cấp, dùng cho dữ liệu chuỗi, dữ liệu chéo, dữ liệu mảng…, thao tác linh hoạt, quản lý dễ dàng, kết quả nhanh. Phiên bản mới nhất tính đến thời điểm tháng 02/2018 là EViews 10.

Các ứng dụng của Eviews bao gồm Thống kê mô tả dữ liệu, phân tích tác động của các yếu tố kinh tế, dự báo cho tương lai yếu tố cần nghiên cứu, thực hiện xếp hạng tín dụng trong ngân hàng, tính giá trị rủi ro cổ phiếu dựa trên tỉ suất sinh lời, phân tích tương quan giữa các yếu tố kinh tế…

5.2.4 STATA

STATA (Data Analysis and Statistical Software) là phần mềm sử dụng trong kinh tế lượng và thống kê.

Các đặc điểm của STATA là kết hợp tính dễ sử dụng với sức mạnh thống kê, thực hiện thao tác bằng lệnh, soạn thảo chương trình. STATA không cho phép xử lý cùng lúc

Trang 132

nhiều tập tin dữ liệu, thế mạnh của STATA là phân tích hồi qui. Phiên bản mới nhất tính đến thời điểm tháng 02/2018 là Stata 16.

Các ứng dụng của STATA bao gồm quản lý dữ liệu, phân tích thống kê, vẽ đồ thị, thực hiện mô phỏng, hiệu chỉnh chức năng…

5.2.5 Ngôn ngữ R

R là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán và đồ họa thống kê. Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme. R do Ross Ihaka và Robert Gentleman tạo ra tại Đại học Auckland, New Zealand, đến nay do R Development Core Team chịu trách nhiệm phát triển. Tên của ngôn ngữ một phần lấy từ chữ cái đầu của hai tác giả (Robert Gentleman và Ross Ihaka).

Ngôn ngữ R đã trở thành một tiêu chuẩn trên thực tế (de facto) giữa các nhà thống kê cho thấy sự phát triển của phần mềm thống kê, và được sử dụng rộng rãi để phát triển phần mềm thống kê và phân tích dữ liệu.

R là một bộ phận của dự án GNU. Mã nguồn của nó được công bố tự do theo Giấy phép Công cộng GNU, và có các phiên bản dịch sẵn cho nhiều hệ điều hành khác nhau. R sử dụng giao diện dòng lệnh, tuy cũng có một vài giao diện đồ họa người dùng dành cho nó.

Các tính năng của ngôn ngữ R:

R có chứa nhiều loại kỹ thuật thống kê (mô hình hóa tuyến tính và phi tuyến, kiểm thử thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm, v.v.) và đồ họa. R được thiết kế xoay quanh một ngôn ngữ máy thực thụ, và nó cho phép người dùng thêm các tính năng bổ sung bằng cách định nghĩa các hàm mới.

R cũng có tính mở rộng cao bằng cách sử dụng các gói cho người dùng đưa lên cho một số chức năng và lĩnh vực nghiên cứu cụ thể. Do được thừa hưởng từ S, R có nền tảng lập trình hướng đối tượng mạnh hơn đa số các ngôn ngữ tính toán thống kê khác. Việc mở rộng R cũng dễ dàng nhờ các luật đóng khối từ vựng.

Một điểm mạnh khác của R là nền tảng đồ họa của nó, có thể tạo ra những đồ thị chất lượng cao cùng các biểu tượng toán học. R cũng có định dạng văn bản riêng tương tự như LaTeX, dùng để cung cấp tài liệu hướng dẫn toàn diện, có trực tuyến ở các định dạng khác nhau và cả bản in.

Dù R được dùng chủ yếu bởi những nhà thống kê và những người sử dụng khác đòi hỏi một môi trường tính toán thống kê và phát triển phần mềm, nó cũng có thể dùng làm một công cụ tính toán ma trận tổng quát với các kết quả đo đạc cạnh tranh so với GNU Octave và đối thủ thương mại của nó, MATLAB.

Giao diện RWeka đã được thêm vào phần mềm khai phá dữ liệu phổ biến Weka, cho phép đọc/ghi định dạng arff vì vậy cho phép sử dụng tính năng khai phá dữ liệu trong Weka và thống kê trong R.

5.3 Ứng dụng SPSS trong phân tích dữ liệu cơ bản 5.3.1 Giới thiệu SPSS 5.3.1 Giới thiệu SPSS

5.3.1.1 Khởi động SPSS

Khởi động SPSS bằng một trong những cách sau đây:

Trang 133 Cách 2: Chọn mở chương trình SPSS từ thực đơn Start.

Sau đó, hộp thoại IBM SPSS Statistics 21 sẽ hiển thị như bên dưới:

Hình 166: Hộp thoại IBM SPSS Statistics 21

5.3.1.2 Giao diện SPSS

Giao diện phần mềm SPSS có các thành phần sau đây:

Data Editor: dạng bảng tính để định nghĩa, nhập, hiệu chỉnh và thể hiện dữ liệu.

Viewer: thể hiện kết quả phân tích dữ liệu.

Multidimention pivot table kết quả dạng bảng trụ.

High revolution graphics kết quả phân tích dạng đồ thị.

Database access truy xuất dữ liệu CSDL bên ngoài SPSS.

Data transformation biến đổi dữ liệu gốc cho phù hợp với mục đích nghiên cứu.

Các thẻ lệnh trên màn hình giao diện SPSS:

Thẻ Data: Định nghĩa đặc trưng của biến; kiểm tra tính hợp lệ của dữ liệu; sắp xếp,

biến đổi biến/quan sát; phân tách/kết hợp Hình 167: SPSS - Thẻ Data

Mở hướng dẫn sử dụng Mở Data Editor Thực hiện Script có sẵn

Tạo Script mới Mở tập tin dữ liệu không phải là SPSS Mở tập tin dữ liệu có

Trang 134

các tập tin dữ liệu…

Thẻ Transform: Tạo biến mới từ biến có sẵn; thiết lập các chuỗi dữ liệu thời gian; xử lý các trường hợp quan sát thiếu dữ liệu…

Hình 168: SPSS - Thẻ Transform Thẻ Analyze: Các công cụ phân tích dữ

liệu (phân tích thống kê mô tả, kiểm định trung bình tổng thể, phân tích tương quan, phân tích hồi quy, kiểm định tham số/phi tham số…)…

Thẻ Graph: có tính năng xây dựng các loại biểu đồ khác nhau như Bar, 3-D Bar, Pie, Area, Box-Plot, Population, Scatter/Dot,…

Hình 169: SPSS - Thẻ Graphs

Hình 170: SPSS - Thẻ Analyze

5.3.1.3 Làm việc với tập tin SPSS

Các định dạng tập tin SPSS bao gồm: Tập tin dữ liệu có dạng như sau *.sav hoặc

*.sys; tập tin cú pháp có dạng *.sps; tập tin kết quả có dạng *.spv; tập tin script có dạng

*.wwd hoặc *.sbs.

SPSS còn đọc tập tin từ các định dạng khác như *.xls (phần mềm Excel), *.txt (phần mềm Text), *.dta (phần mềm Stata), *.wf1 (phần mềm EViews), ...

Trang 135

a. Tạo mới tập tin SPSS:

Có hai cách để thực hiện tạo mới tập tin SPSS:

Cách 1: Khởi động SPSS => chọn Type in data từ các lựa chọn bên phải để thực hiện tạo một tập tin mới. Sau đó, nhấn nút OK.

Cách 2: Từ cửa sổ hiện có của SPSS, chọn thẻ lệnh File New Data.

Sau khi thực hiện một trong hai thao tác trên, màn hình sau đây sẽ xuất hiện:

Hình 171: Màn hình Data Editor

Bây giờ, người dùng đã tạo một tệp mới, có thể nhập dữ liệu và định nghĩa các biến.

b. Mở tập tin SPSS có sẵn:

Có thể thực hiện mở tập tin SPSS có sẵn theo một trong các cách sau đây:

- Cách 1: Nhấn hai lần vào biểu tượng của tập tin SPSS.

- Cách 2: Khởi động SPSS, chọn

Open an existing data source,

rồi nhấn nút OK.

- Cách 3: Từ cửa sổ hiện có của SPSS, chọn thẻ lệnh File

OpenData.

Khi thực hiện xong các thao tác trong cách 2 và cách 3, màn hình sau đây sẽ xuất hiện để chọn tập tin SPSS có sẵn muốn mở.

Hình 172: SPSS - Hộp thoại Open Data

c. Lưu tập tin SPSS:

Trang 136

- Cách 1: Đối với tập tin SPSS đang mở, nhấn tổ hợp phím Ctrl + S.

- Cách 2: Đối với tập tin SPSS mới, vào thẻ lệnh File

Save, màn hình Save Data As xuất hiện, hãy nhập tên tập tin vào ô File Name, rồi nhấn nút Save.

Hình 173: Hộp thoại Save Data As

5.3.1.4 Làm việc với Data Editor

Data Editor thể hiện như một bảng tính, trên màn hình Data Editor có hai thẻ lệnh nằm phía trái bên dưới màn hình là Data View và Variable View.

Data View thể hiện trị số dữ liệu thực hoặc các nhãn trị số được xác định.

Các thao tác hiệu chỉnh dữ liệu đối với Data View bao gồm thay đổi trị số của dữ liệu, cắt, sao chép, dán các trị số, thêm/xóa các đối tượng, thêm/xóa các biến, thay đổi thứ tự các biến,…

Variable View thể hiện thông tin định nghĩa biến bao gồm nhãn biến, nhãn trị số biến, loại dữ liệu, thang đo, và các trị số khuyết thiếu.

Trang 137

Hình 175: Màn hình Variable View

Các quy tắc khai báo biến:

Tên biến: Khi thực hiện đặt tên cho biến phải thực hiện các lưu ý như sau:

1. Tên bắt đầu bằng một ký chữ, các ký tự còn lại có thể là chữ, số, hoặc ký tự đặc biệt (@, #, _, $), và không kết thúc bởi dấu chấm (.).

2. Biến không trùng lắp, không phân biệt chữ hoa/thường. 3. Độ dài biến không quá 8 ký tự.

Kiểu dữ liệu:

1. Xác định loại dữ liệu với từng biến.

2. Mặc định là kiểu số (chiều dài 8, 2 số thập phân).

Hình 176: Hộp thoại Variable Type

Nhãn trị số của biến: Nhãn trị số của biến chỉ định nhãn mô tả đối với từng trị số của biến và có chiều dài tối đa 60…

Trang 138

Hình 177: Hộp thoại Value Labels

5.3.1.5 Làm việc với Viewer

Viewer thể hiện kết quả ứng với thao tác/thủ tục trên dữ liệu. Các tính năng của Viewer bao gồm hỗ trợ xem kết quả thao tác trên dữ liệu, điều khiển cách thức hiển thị kết quả, lưu kết quả tài liệu theo tổ chức, định dạng thích hợp,…

Trang 139

5.3.1.6 Tiếng Việt trong SPSS

Để thực hiện thay đổi phông chữ, kích cỡ chữ trong tập tin dữ liệu, vào thẻ lệnh

View Fonts thì màn hình Fonts sẽ xuất hiện, thực hiện các thao tác hiệu chỉnh rồi nhấn nút OK để hoàn thành.

Hình 179: Hộp thoại Font

5.3.1.7 Thay đổi mặc định của chương trình

Để thay đổi mặc định của chương trình SPSS, vào thẻ lệnh EditOptions, màn hình Options xuất hiện, tiến hành thay đổi thông số theo ý muốn, sau đó nhấn nút Apply

để áp dụng những thay đổi mới thực hiện, rồi nhấn nút OK để kết thúc.

Trang 140

5.3.2 Xử lý dữ liệu

5.3.2.1 Chuyển đổi giátrị biến bằng công cụ (Recode)

Mục đích: Có rất nhiều lý do cần phải sử dụng công cụ mã hóa biến (Recode). Một trong những lý do phổ biến sử dụng đến tính năng này là chúng ta sử dụng chúng để biến đổi từ một biến định lượng (biến liên tục) sang một biến định tính (biến phân loại).

Giả sử có dữ liệu về điểm thi của 70 bạn sinh viên được ghi nhận bằng biến liên tục exam_score, ta có nhu cầu thống kê và sắp xếp lại dữ liệu này với quy tắc.

Old value Xếp vào nhóm Giá trị biến mới

Dưới 40 Rớt 1

Từ 40-49 Yếu 2

Từ 50-59 Trung Bình 3

Từ 60-69 Khá 4

Từ 70 trở lên Giỏi 5

Để thực hiện biến đổi tạo ra biến mới và sắp xếp lại giá trị biến, vào thẻ lệnh

Transform > Recode into Different Variables. Hộp thoại Recode into Different Variables sẽ xuất hiện.

Kéo thả biến exam_score bên cột trái vào cột Numeric Variable -> Output Variable hoặc nhấn chọn biến và nhấn nút , sẽ thấy kết quả như sau:

Hình 181: Hộp thoại Recode into Different Variables

Tại khu vực Output Variable, đặt tên biến mới vào ô Name và nhãn cho biến vào ô Label. Sau đó bấm nút Change, kết quả tiếp theo sẽ như hình dưới:

Trang 141

Hình 182: Hộp thoại Recode into Different Variables - Đặt tên cho biến output

Nhấp vào nút Old and New Values để mở hộp thoại Old and New Values. Trong hộp thoại này, sẽ tiến hành định nghĩa lại các giá trị cho biến mới dựa trên biến cũ. Bên tay trái sẽ thực hiện nhập các giá trị của biến cũ và ứng với bên tay phải là giá trị của biến mới.

Hình 183: Hộp thoại Recode into Different Variable: Old and New Values (1)

Với các giá trị nhỏ 40 của biến exam_score, thực hiện như hình dưới và nhấn vào nút Add.

Trang 142

Hình 184: Hộp thoại Recode into Different Variable: Old and New Values (2)

Sau khi nhấp nút add, các giá trị nhỏ hơn 40 trong biến exam_score sẽ nhận giá trị là 1 trong biến mới (Rank).

Hình 185: Hộp thoại Recode into Different Variable: Old and New Values (3)

Đối với các khoảng giá trị chúng ta chọn Range và nhập giá trị hai đầu khoảng. Khoảng giá trị từ 40-49 sẽ nhận giá trị hai trong biến mới, nhập như sau và nhấp nút

Trang 143

Hình 186: Hộp thoại Recode into Different Variable: Old and New Values (4)

Tiếp tục như thế với các khoảng giá trị còn lại.

Hình 187: Hộp thoại Recode into Different Variable: Old and New Values (5)

Trang 144

Hình 188: Hộp thoại Recode into Different Variable: Old and New Values (6)

Hình 189: Hộp thoại Recode into Different Variable: Old and New Values (7)

Sau khi đã thiết lập xong việc biến đổi dữ liệu, chúng ta nhấp vào nút Continue. Chúng ta sẽ quay trở lại hộp thoại Recode into Different Variables, lúc này hộp thoại sẽ có các thông tin như hình.

Trang 145

Hình 190: Hộp thoại Recode into Different Variable: Old and New Values (8)

Nhấp nút OK, SPSS sẽ thực hiện xử lý và cho ra kết quả bằng dòng lệnh xuất hiện trong cửa sổ Output.

RECODE exam_score (Lowest thru 39=1) (40 thru 49=2) (50 thru 59=3) (60 thru 69=4) (70 thru Highest=5) INTO Rank.

VARIABLE LABELS Rank 'Xep loai'. EXECUTE.

Cuối cùng, kiểm tra lại và tiến hành đặt lại nhãn (Label) cho các giá trị của biến mới.

Trang 146

5.3.2.2 Tạo biến giả - Dummy Variable

Mục đích là tạo ra biến có 2 giá trị (Dichotomy) từ biến dạng phân loại (Category) có nhiều giá trị. Đây là một trong những kỹ thuật xử lý dữ liệu ban đầu rất phổ biến để

Một phần của tài liệu TÀI LIỆU HƯỚNG DẪN HỌC TẬP TIN HỌC ỨNG DỤNG TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP. HỒ CHÍ MINH KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ (Trang 137)

Tải bản đầy đủ (PDF)

(199 trang)