1. Trang chủ
  2. » Cao đẳng - Đại học

BT2 Phân tích dữ liệu kinh doanh

69 89 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 5,57 MB

Nội dung

Bài 2. (Chapter 7) Dùng ngôn ngữ R và SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với các tập tin dữ liệu: CadSoft Technical Support Response Times Vacation Survey Pile Foundation Bài 2b Dữ liệu thực tế tùy chọn của Việt Nam

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO LAB Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH Giảng viên hướng dẫn: TS Nguyễn Đình Thn Nhóm thực hiện: Nhóm 5Girls: - Nguyễn Thị Cẩm Hoài – 17520499 - Phạm Huỳnh Mỹ Hạnh – 17520433 - Hồ Thị Ngọc Huyền – 17520596 - Trương Thị Mỹ Linh – 17520692 - Trà Thảo Nguyên - 17520831 TP HCM, Ngày 12 tháng 03 năm 2020 Mục lục I BÀI 2: CADSOFT TECHNICAL SUPPORT RESPONSE TIMES 1.Sử dụng R thực phép tính Suy diễn Thống kê (Statistical Inference): 1.1 Nhập liệu: - Dùng lệnh setwd() để chuyển thư mục chứa file csv cần phân tích - Dùng lệnh read.csv() để nhập liệu vào gán cho tên lab2a - Lưu lại dùng lệnh attach() để đọc liệu thực thi - Kiểm tra liệu 1.2 Kiểm định trung bình tổng thể (One sample Hypothesis Test): - Giả thuyết đặt sau: H0: Giá trị trung bình biến Time min.=20 H1: Giá trị trung bình biến Time min.≠20 - Sử dụng lệnh t.test() để kiểm định với: • Time biến số cần kiểm định • Mu=20 giá trị giả thuyết - Nhận xét: Trong lệnh Time biến số cần kiểm định, mu=20 giá trị giả thiết R trình bày trị số t = 0.64987, với 43 bậc tự R cho biết độ tin cậy 95% Time từ 15.98474 đến 27.83344 (thời gian 20 nằm khoảng tin cậy này) Trị số p=0.519>α=0.05 Vậy ta bác bỏ giả thuyết H0 Sử dụng SPSS thực phép tính Suy diễn Thống kê (Statistical Inference): 2.1 Nhập liệu: - Để tạo dataset chọn New Dataset, chọn OK - Chọn File -> Open -> Data để mở file Cadsoft technical support response times - Tiếp tục chọn file Cadsoft technical support response times.xlxs, OK - Chọn Read variable names from the first row of data, OK - Nhập liệu xong 2.2 Kiểm định trung bình tổng thể (One sample Hypothesis Test): - Giả thuyết đặt sau: H0: Giá trị trung bình biến Time min.=20 H1: Giá trị trung bình biến Time min.≠20 - Chọn Analyze -> Compare Means->One-Sample T Test - Tiếp tục chọn cột cần kiểm định vào Test variable giá trị kiểm định vào Test Value - Vào Option kiểm tra mức ý nghĩa - - - Sau nhấn OK ta kết sau Nhận xét: Trong bảng One-Sample Statistics tính tốn thống kê Time(min) • Mẫu: N=44 • Giá trị trung bình: Mean=21.909 • Độ lệch chuẩn: Std Deviation=19.4862 • Sai số tiêu chuẩn giá trị trung bình: Std Error Mean=2.9377 Trong bảng One-Sample Test kết kiểm định thu • Giá trị t =0.650 • Bậc tự do: df=n-1=43 • Giá trị p-value: Sig.=0.519 • Khoảng cách Giá trị trung bình giá trị kiểm định: Mean Difference=1.9091 - • Khoảng tin cậy cho độ chênh lệch trung bình tổng thể t Test Value [-4.015; 7.833], điều cho thấy thời giant trung bình phải lớn 20 Sig.=0.519 >α=0.05 bác bỏ H0 II BÀI 2: VACATION SURVEY Sử dụng SPSS thực phép tính Suy diễn Thống kê (Statistical Inference): 1.1.Kiểm định trung bình tổng thể: 1.1.1 Có thể cho độ tuổi trung bình khách du lịch (ký hiệu µ) 35 hay không? - Cặp giả thuyết đặt sau: H0: µ = 35 H1: µ # 35 - Tiến hành: Analyze  Compare Means  One-Sample T Test 10 - Đưa biến Age vào khung Test Variable, khai báo giá trị cần so sánh trung bình tổng thể vào ô Test Value - Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau ấn Continue OK Nhận xét: - P có giá trị nhỏ (< α = 0.05) điều có nghĩa ta bác bỏ giả thuyết H0, tức Năng suất lúa vụ mùa khác 2.Dùng ngơn ngữ SSPS thực phép tính Suy diễn Thống kê (Statistical Inference) với tập tin liệu thực tế Viêt Nam: “lúa.xlsx” 2.1 Kiểm định trung bình tổng thể 2.1.1 Có thể cho suất lúa trung bình vụ mùa 50 tạ/ha Cặp giả thuyết đặt ra: H0: µ = 50 H1: µ ≠ 50 Tiến hành: - 55 Chọn Analyze Compare Means One-Sample T Test 56 - Đưa biến Năng suất vào khung Test Variable nhập giá trị cần kiểm định vào ô Test Value - Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau chọn Continue OK Kết quả: Nhận xét: - Trong bảng One-Sample Statistic, ta có giá trị trung bình mẫu 51.381 độ lệch chuẩn 9.4076 - Trong bảng One-Sample Test, biến Năng suất (tạ/ha) có khơng gian mẫu N = 48 nên df = 47, giá trị kiểm định t = 1.017, giá trị p-value (Sig.(2-tailed)) cho - kiểm định hai phía 0.314 > 5% nên ta chấp nhận giả thuyết H0 Sự khác biệt trung bình = trung bình mẫu – trung bình giả thuyết = 51.381 – 50 = 1.381 Khoảng tin cậy 95% cho khác biệt với giá trị cần kiểm định từ 57 -1.35  4.113 Từ với độ tin 95%, khoảng tin cậy suất lúa (48.65;54.113), thấy suất lúa trung bình = 50 nằm khoảng tin cậy nên ta chấp nhật giả thuyết H0 2.1.2 Có thể cho sản lượng lúa trung bình vụ mùa 15 triệu Cặp giả thuyết đặt ra: H0: µ = 15000 H1: µ ≠ 15000 Tiến hành: làm tương tự suất Kết quả: Nhận xét: - Trong bảng One-Sample Statistic, ta có giá trị trung bình mẫu 14165.861 độ lệch chuẩn 4322.2619 - Trong bảng One-Sample Test, biến Năng suất (tạ/ha) có khơng gian mẫu N = 48 nên df = 47, giá trị kiểm định t = -1.337, giá trị p-value (Sig.(2-tailed)) cho - kiểm định hai phía 0.188 > 5% nên ta chấp nhận giả thuyết H0 Sự khác biệt trung bình = trung bình mẫu – trung bình giả thuyết = 15000 – 14165.861 = 834.139 Khoảng tin cậy 95% cho khác biệt với giá trị cần kiểm định từ -2089.183  420.925 Từ với độ tin 95%, khoảng tin cậy suất lúa (12910.817;15420.925), thấy suất lúa trung bình = 15000 nằm khoảng tin cậy nên ta chấp nhận giả thuyết H0 58 2.2 Kiểm định trung bình hai tổng thể 2.2.1 Có thể cho suất lúa vụ mùa không? Cặp giả thuyết đặt ra: H0: µ1 = µ2 H1: µ1 ≠ µ2 Tiến hành: Trước tiên cần tạo biến nhóm mới, biến nhóm tập liệu bao gồm văn dài Trong SPSS, a two-sample t-test phải thực với biến nhóm có chứa giá trị số văn ngắn Vì vậy, cần tạo biến có giá trị cho vụ mùa Hè Thu cho vụ mùa Đông Xuân, gọi biến giả - 59 Vào Transform -> Recode into Different Variables Chọn Mùa vụ vào ô Input Variable -> Output variable 60 Nhập Name Label nhấn nút Change Kích chuột vào Old and New values Mã hóa lại nhóm thành 2, nhập Hè thu vào hộp Old value nhập vào New Value Sau đó, nhấn Add 61 Làm tương tự với Đông xuân Bấm Continue nhấn OK để kết thúc trình 62 Ta kết sau: Để tiến hành Two-Sample T-Test: - Vào Analyze/Compare Means/Independent Samples T-Test 63 - Đưa biến định lượng muốn kiểm định (Năng suất (tạ/ha)) vào khung Test Variable Đưa biến định tính muốn chia thành nhóm vào khung Grouping Variable: 64 - Chọn nút Define Groups để chỉ định nhóm cần so sánh với nhau, ta cần so sánh nhóm Hè thu có giá trị nhóm Đơng xn giá trị nên ta nhập vào Group nhập vào Group - Sau chọn Continue OK Kết quả: 65 Nhận xét: - Kết ta có Sig kiểm định Levene (kiểm định F) 0.67 > 0.05 phương sai tổng thể không khác nhau, ta sử dụng kết kiểm định t dịng Equal variances assumed - Ta có kiểm định t Sig = 0.00 0.05 phương sai tổng thể khơng khác nhau, ta sử dụng kết kiểm định t dịng Equal variances assumed - Ta có kiểm định t Sig = 0.00 setwd() để chuyển R thư mục cứa file VacationSurvey.csv cần phân tích 30 Dùng lệnh read.csv() để nhập liệu gán vào biến lab2 - Dùng lệnh attach() để đọc liệu thực... nhập liệu gán vào biến bf2 (bf2 = Pile Foundation BT2) - Dùng lệnh attach() để đọc liệu thực thi - Xem cột liệu - Gõ tên biến vừa lưu liệu để xem liệu nhập vào - Dùng lệnh summary() để đưa số thông

Ngày đăng: 22/08/2020, 15:58

TỪ KHÓA LIÊN QUAN

w