1. Trang chủ
  2. » Cao đẳng - Đại học

BT5 Phân tích dữ liệu kinh doanh

41 67 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 3,48 MB

Nội dung

Bài 5a: Dùng ngôn ngữ R và SPSS thực hiện các phép tính Dự báo với tập tin dữ liệu Tablet Computer Sales Coal Production Gas Electric Tính và giải thích ý nghĩa của các giá trị cho bởi các bảng trong chapter 10 Bài 5b Dữ liệu thực tế tùy chọn của Việt Nam

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO LAB Giảng viên hướng dẫn: TS NGUYỄN ĐÌNH THN Nhóm sinh viên thực hiện: 17520433 – PHẠM HUỲNH MỸ HẠNH 17520499 - NGUYỄN THỊ CẨM HOÀI 17520596 – HỒ THỊ NGỌC HUYỀN 17520692- TRƯƠNG THỊ MỸ LINH 17520831 – TRÀ THẢO NGUN Mơn học: Phân tích liệu kinh doanh Lớp: IS403.K21 TP Hồ Chí Minh, tháng năm 2020 Tiểu luận GVHD: TS Nguyễn Đình Thuân Mục lục Tiểu luận GVHD: TS Nguyễn Đình Thuân DÙNG NGƠN NGỮ R VÀ SPSS THỰC HIỆN CÁC PHÉP TÍNH DỰ BÁO VỚI TẬP TIN DỮ LIỆU: TABLET COMPUTER SALES Đặt vấn đề: Dự đoán doanh số bán Tablet Computer tuần 1.1 Sử dụng SPSS Tiến hành: Analyze -> Forecasting -> Create Models Đưa biến cần dự báo là Units Sold vào Dependent Variables, chọn Method là Expert Modeler Tiểu luận GVHD: TS Nguyễn Đình Thuân Tiểu luận GVHD: TS Nguyễn Đình Thuân Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE mơ hình, đánh dấu chọn Display forecasts để thể kết dự báo màn hình Viewer Tiểu luận GVHD: TS Nguyễn Đình Thuân Chọn Tab Plots, đánh dấu Forecasts, Fit values, Confidence intervals for forecasts và Confidence intervals for fit values để vẽ đường biểu diễn giá trị dự báo, giá trị thực tế và khoảng giá trị dự báo lên đồ thị nhằm đánh giá độ xác Tiểu luận GVHD: TS Nguyễn Đình Thuân Chọn Tab Options, nhấp chọn First case after end of estimation period through a specified date và nhập 20 (giá trị từ 1-20 tương ứng từ tuần 1-20, bảng đã có dữ liệu đến tuần 17, ở ta dự báo tuần 18, 19 và 20) Tiểu luận GVHD: TS Nguyễn Đình Thuân Bấm OK để thực và thu được kết sau Ở Bảng Model Statistics, ta thấy RMSE 17,933 Nếu muốn so sánh độ xác giữa mơ hình dự báo, chúng ta chọn mơ hình nào có RMSE nhỏ Bảng Forecast cho thấy kết dự báo điểm và kết dự báo khoảng ở độ tin cậy 95% Ví dụ, ở tuần 19 (tương ứng với 19), số lượng máy tính bảng bán theo kết dự báo điểm là 61 máy; sử dụng báo khoảng, số lượng máy tính bán đạt ở mức từ 27 đến 94 máy Đường biểu diễn giá trị Tiểu luận GVHD: TS Nguyễn Đình Thuân Màu đỏ - Observed - là giá trị thực tế số lượng máy tính bảng bán từ tuần đến tuần 17 (từ 1-17) Màu xanh dương (trước 18) - Fit - là giá trị trung bình khoảng số lượng máy tính bảng bán từ tuần đến tuần 17 Hai đường nét đứt là khoảng giá trị số lượng máy tính bảng bán được Màu xanh dương (sau 18) - Forecast - là giá trị dự báo số lượng máy tính bảng bán được tuần 18, 19 và 20 Tiểu luận GVHD: TS Nguyễn Đình Thn 1.2 Sử dụng ngơn ngữ R 1.2.1 Chuẩn bị dữ liệu Nhập dữ liệu: Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến df Dùng lệnh attach() để đọc dữ liệu thực thi Xem dữ liệu 10 Tiểu luận GVHD: TS Nguyễn Đình Thn • Đưa biến cần dự báo là Gas Use, Electric Use vào Dependent Variables, chọn Method là Expert Modeler • Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE mơ hình, đánh dấu chọn Display forecasts để thể kết dự báo màn hình • Chọn Tab Plots, đánh dấu Forecasts, Fit values, Confidence intervals for forecasts và Confidence intervals for fit values để vẽ đường biểu diễn giá trị dự báo, giá trị thực tế và khoảng giá trị dự báo lên đồ thị nhằm đánh giá độ xác 27 Tiểu luận GVHD: TS Nguyễn Đình Thn • Chọn Tab Options Chọn First case after end of estimation period through a specified date và nhập năm cần dự đốn vào Year và số lượng tháng cần dự đốn (từ đến 12) vào Month Chọn OK 3.1.3 Kết quả, nhận xét và giải thích 28 Tiểu luận GVHD: TS Nguyễn Đình Thn • Ở bảng Model Statistics, ta thấy RMSE Gas-Use (Model 1) = 15.915, và RMSE Electric Use (Model 2) = 31.158 Nếu muốn so sánh độ xác giữa mơ hình dự báo, chúng ta chọn mơ hình nào có RMSE nhỏ • Ở bảng Forecast cho thấy kết dự báo điểm và kết dự báo khoảng ở độ tin 95% Ví dụ ở tháng năm (tức tháng năm sau): + Lượng gas sử dụng là 238; sử dụng dự báo khoảng, lượng gas sử dụng khoảng từ 205 đến 271 + Lượng điện sử dụng là 1029; sử dụng dự báo khoảng, lượng điện sử dụng khoảng từ 964 đến 1094 29 Tiểu luận GVHD: TS Nguyễn Đình Thuân • Màu đỏ - Observed – là giá trị thực tế lượng gas hoặc lượng điện sử dụng từ tháng năm đến tháng 12 năm • Màu xanh dương (trước Jan 3) – Fit – là giá trị trung bình khoảng lượng gas lượng điện sử dụng từ tháng đến tháng 12 năm thứ • Hai đường nét đứt là khoảng giá trị lượng gas lượng điện sử dụng • Màu xanh dương (từ Jan 3) – Forecast – là giá trị dự báo lượng gas lượng điện sử dụng từ tháng đến tháng 12 năm 3.2 Sử dụng R 3.2.1 Đặt vấn đề: Dự đoán lượng gas và lượng điện sử dụng 12 tháng 3.2.2 Tiến hành: • Trước thực phép tính dự báo, ta cần chuyển dữ liệu từ dạng numberic vector sang dạng R time series object Ta dùng hàm ts(vector, start=, end=, frequency=) Cột Gas Use Cột Electric Use • Tính tốn HoltWinter, ta dùng lệnh HoltWinter(object) Cột Gas Use Cột Electric Use • Dự đốn lượng gas, lượng điện sử dụng năm (tức là 12 tháng), ta dùng lệnh forecast(object,h= ) h là số giai đoạn cần dự báo Lượng gas 30 Tiểu luận GVHD: TS Nguyễn Đình Thuân Lượng điện 3.2.3 Nhận xét và giải thích • Kết câu lệnh forecast cho thấy kết dự báo điểm ở độ tin 95% Ví dụ ở tháng năm (tức tháng năm sau): + Lượng gas sử dụng là 219.50685 + Lượng điện sử dụng là 967.7526 31 Tiểu luận GVHD: TS Nguyễn Đình Thuân DỮ LIỆU THỰC TẾ TÙY CHỌN CỦA VIỆT NAM Dữ liệu được lấy từ trang https://www.gso.gov.vn/ số lượng khách du lịch quốc tế theo từng năm 4.1 Sử dụng R 4.1.1 Đọc tập tin dữ liệu “data.xlsx” 4.1.2 Thực phép tính dự báo − Trước thực phép tính dự báo, ta cần chuyển dữ liệu từ dạng numberic vector sang dạng R time series object − Dùng hàm ts(vector, start=, end=, frequency=) 32 Tiểu luận GVHD: TS Nguyễn Đình Thuân − Tính tốn Moving Average Forecasting + Ta sử dụng hàm ft = forecast::ma(lab5$Internationalvisitors, 3, true) + Nếu kết có giá trị NA, để loại bỏ giá trị này, dùng hàm: − Tính tốn Exponential Smoothing 4.2 Sử dụng SPSS: Bài toán đặt ra: Dự báo lượng khách du lịch nước ngoài năm 2018, 2019 và 2020 từ dữ liệu 4.2.1 Tiến hành: - Analyze -> Forecasting -> Create Models - Đưa biến cần dự báo là Khách quốc tế vào Dependent Variables, chọn Method là Expert Modeler 33 Tiểu luận - GVHD: TS Nguyễn Đình Thuân Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE mơ hình, đánh dấu chọn Display forecasts để thể kết dự báo màn hình Viewer 34 Tiểu luận - GVHD: TS Nguyễn Đình Thuân Chọn Tab Plots, đánh dấu Forecasts, Fit values, Confidence intervals for forecasts và Confidence intervals for fit values để vẽ đường biểu diễn giá trị dự báo, giá trị thực tế và khoảng giá trị dự báo lên đồ thị nhằm đánh giá độ xác 35 Tiểu luận - GVHD: TS Nguyễn Đình Thuân Chọn Tab Options, nhấp chọn First case after end of estimation period through a specified date và nhập vào year giá trị 2020 (trong bảng đã có dữ liệu đến năm 20017, ở chúng em dự báo năm 2018, 2019 và 2020) 36 Tiểu luận GVHD: TS Nguyễn Đình Thuân 4.2.2 Kết và nhận xét: 37 Tiểu luận - GVHD: TS Nguyễn Đình Thuân Bảng Model Statistic: RMSE 736.26 Nếu muốn so sánh độ xác giữa mơ hình dự báo chọn mơ hình nào có RMSE nhỏ Bảng Forecast: cho thấy kết dự báo điểm và kết dự báo khoảng ở độ tin cậy 95% Ví dụ vào năm 2020, lượng khách du lịch quốc tế được dự đốn là 14472.6 (Nghìn người), cịn dự báo khoảng đạt ở khoảng từ 12897.2 (Nghìn người) đến 16047.9(Nghìn người) 38 Tiểu luận - GVHD: TS Nguyễn Đình Thuân Trong đồ thị ta thấy: • Màu đỏ - Observed - là giá trị thực tế lượng khách du lịch quốc tế khoảng thời gian năm 2000 đến 2017 • Màu xanh dương nhạt- Fit - là giá trị trung bình khoảng lượng khách du lịch quốc tế khoảng thời gian năm 2000 đến 2017 • Hai đường nét đứt là khoảng giá trị khoảng lượng khách du lịch quốc tế • Màu xanh dương đậm- Forecast - là giá trị dự báo khoảng lượng khách du lịch quốc tế đạt được năm 2018, 2019 và 2020 39 Tiểu luận GVHD: TS Nguyễn Đình Thn BẢNG PHÂN CƠNG CƠNG VIỆC Thành Viên Hồ Thị Ngọc Huyền - 17520596 Phạm Huỳnh Mỹ Hạnh - 17520443 Trà Thảo Nguyên - 17520831 Nguyễn Thị Cẩm Hoài - 17520499 Trương Thị Mỹ Linh - 17520692 Công việc Dữ liệu GAS & ELECTRIC Dữ liệu TABLET COMPUTER SALES Dữ liệu Coal Production Dữ liệu VN SPSS Dữ liệu VN R 40 Tiểu luận GVHD: TS Nguyễn Đình Thuân TÀI LIỆU THAM KHẢO [1] https://www.youtube.com/watch?v=FcxY-Cheb6Y [2] https://www.google.com/search?q=h%E1%BB%93i+quy+logistic+tr %C3%AAn+R&oq=h%E1%BB %93i+&aqs=chrome.0.69i59l2j35i39j69i57j46j69i61l3.5592j0j7&sourceid=chrome&ie= UTF-8 [3] http://www.bomonnoiydhue.edu.vn/upload/file/lstk15_logistic.pdf [4] Into the R language.pdf [5] https://rpubs.com/ 41 ... 17520692 Công việc Dữ liệu GAS & ELECTRIC Dữ liệu TABLET COMPUTER SALES Dữ liệu Coal Production Dữ liệu VN SPSS Dữ liệu VN R 40 Tiểu luận GVHD: TS Nguyễn Đình Thuân TÀI LIỆU THAM KHẢO [1] https://www.youtube.com/watch?v=FcxY-Cheb6Y... tính Dự báo với tập tin liệu Coal Production 2.2.1 Chuẩn bị dữ liệu Nhập dữ liệu: Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến df Dùng lệnh attach() để đọc dữ liệu thực thi 19 Tiểu... ngơn ngữ R 1.2.1 Chuẩn bị dữ liệu Nhập dữ liệu: Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến df Dùng lệnh attach() để đọc dữ liệu thực thi Xem dữ liệu 10 Tiểu luận GVHD: TS Nguyễn

Ngày đăng: 22/08/2020, 16:13

HÌNH ẢNH LIÊN QUAN

Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer  - BT5 Phân tích dữ liệu kinh doanh
h ọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer (Trang 5)
Ở Bảng Model Statistics, ta có thể thấy RMSE bằng 17,933. Nếu muốn so sánh độ chính xác giữa các mô hình dự báo, chúng ta sẽ chọn mô hình nào có RMSE nhỏ hơn - BT5 Phân tích dữ liệu kinh doanh
ng Model Statistics, ta có thể thấy RMSE bằng 17,933. Nếu muốn so sánh độ chính xác giữa các mô hình dự báo, chúng ta sẽ chọn mô hình nào có RMSE nhỏ hơn (Trang 8)
Màu đỏ - Observed - là giá trị thực tế về số lượng máy tính bảng bán từ tuần 1 đến tuần 17 (từ 1-17). - BT5 Phân tích dữ liệu kinh doanh
a ̀u đỏ - Observed - là giá trị thực tế về số lượng máy tính bảng bán từ tuần 1 đến tuần 17 (từ 1-17) (Trang 9)
Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer  - BT5 Phân tích dữ liệu kinh doanh
h ọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer (Trang 15)
Ở Bảng Model Statistics, ta có thể thấy RMSE bằng 33877983,70. Nếu muốn so sánh độ chính xác giữa các mô hình dự báo, chúng ta sẽ chọn mô hình nào có RMSE nhỏ hơn - BT5 Phân tích dữ liệu kinh doanh
ng Model Statistics, ta có thể thấy RMSE bằng 33877983,70. Nếu muốn so sánh độ chính xác giữa các mô hình dự báo, chúng ta sẽ chọn mô hình nào có RMSE nhỏ hơn (Trang 19)
Đây là mô hình dự báo các giá trị tương lai gần của dữ liệu Time Series. Mô hình mới này cần ba thông số p, d và q - BT5 Phân tích dữ liệu kinh doanh
y là mô hình dự báo các giá trị tương lai gần của dữ liệu Time Series. Mô hình mới này cần ba thông số p, d và q (Trang 20)
Ba thông số đó là ARIMA(0,1,1) với p= 0, d= 1 và q= 1. Đây là một mô hình hỗn hợp của AR và MA. - BT5 Phân tích dữ liệu kinh doanh
a thông số đó là ARIMA(0,1,1) với p= 0, d= 1 và q= 1. Đây là một mô hình hỗn hợp của AR và MA (Trang 21)
• Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo ra màn hình - BT5 Phân tích dữ liệu kinh doanh
h ọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo ra màn hình (Trang 27)
• Ở bảng Model Statistics, ta có thể thấy RMSE của Gas-Use (Model 1) = 15.915, và RMSE của Electric Use (Model 2) = 31.158 - BT5 Phân tích dữ liệu kinh doanh
b ảng Model Statistics, ta có thể thấy RMSE của Gas-Use (Model 1) = 15.915, và RMSE của Electric Use (Model 2) = 31.158 (Trang 29)
- Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer. - BT5 Phân tích dữ liệu kinh doanh
h ọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer (Trang 34)
- Bảng Forecast: cho thấy kết quả dự báo điểm và kết quả dự báo khoảng ở độ tin cậy 95% - BT5 Phân tích dữ liệu kinh doanh
ng Forecast: cho thấy kết quả dự báo điểm và kết quả dự báo khoảng ở độ tin cậy 95% (Trang 38)
- Bảng Model Statistic: RMSE bằng 736.26. Nếu muốn so sánh độ chính xác giữa các mô hình dự báo thì chọn mô hình nào có RMSE nhỏ hơn. - BT5 Phân tích dữ liệu kinh doanh
ng Model Statistic: RMSE bằng 736.26. Nếu muốn so sánh độ chính xác giữa các mô hình dự báo thì chọn mô hình nào có RMSE nhỏ hơn (Trang 38)

TỪ KHÓA LIÊN QUAN

w