1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Hệ thống thông tin quản lý: Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện

182 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TÓM TẮT NỘI DUNG LUẬN VĂN Luận văn này thực hiện nhằm mục đích xác định phương pháp nào đưa ra kết quả dự báo dữ liệu chuỗi thời gian tối ưu nhất trong ba phương pháp: 1 Kỹ thuật làm trơ

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS.TS DƯƠNG TUẤN ANH (Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1 : TS CAO HÀO THI (Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 2 : PGS.TS VŨ THANH NGUYÊN (Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 25 tháng 12 năm 2012

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 TS Nguyễn Văn Minh Mẫn (CT)

2 TS Cao Hào Thi (PB1) 3 PGS.TS Vũ Thanh Nguyên (PB2) 4 PGS.TS Dương Tuấn Anh (UV) 5 TS Bùi Hoài Thắng (TK)

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

TS NGUYỄN VĂN MINH MẪN

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: HỒ THỊ DUYÊN ………MSHV: 10320907

Ngày, tháng, năm sinh: 30/01/1987 ……… Nơi sinh: Phú Yên

Chuyên ngành: Hệ thống thông tin quản lý………Mã số : 603448

I TÊN ĐỀ TÀI: Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện

II NHIỆM VỤ VÀ NỘI DUNG: 1 Nghiên cứu các mô hình thống kê, cụ thể ba phương pháp: kỹ thuật làm trơn, mô hình ARIMA và mô hình mùa SARIMA cho dự báo dữ liệu chuỗi thời gian 2 Nghiên cứu phần mềm R để dự báo chuỗi thời gian 3 Áp dụng và so sánh hiệu quả của ba phương pháp: kỹ thuật làm trơn, mô hình ARIMA và mô hình mùa SARIMA vào việc dự báo doanh thu của bệnh viện III NGÀY GIAO NHIỆM VỤ : 02/07/2012 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2012 V CÁN BỘ HƯỚNG DẪN: PGS.TS DƯƠNG TUẤN ANH Tp HCM, ngày tháng năm 20

CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký)

PGS.TS DƯƠNG TUẤN ANH

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

TRƯỞNG KHOA

(Họ tên và chữ ký)

Trang 4

LỜI CÁM ƠN

Lời đầu tiên trong luận văn này tôi xin gửi lời cám ơn chân thành đến thầy PGS TS Dương Tuấn Anh, thầy đã dành nhiều thời gian và tâm huyết hướng dẫn tôi trong thời gian thực hiện luận văn tốt nghiệp

Tôi xin gửi lời cảm ơn đến quý thầy cô đã giảng dạy và truyền đạt những kiến thức hữu ích cho tôi trong suốt thời gian tham gia học tập tại trường Đại học Bách Khoa thành phố Hồ Chí Minh

Tôi xin chân thành cám ơn các anh chị đồng nghiệp đã tạo điều kiện giúp đỡ tôi trong việc thu thập dữ liệu thực hiện luận văn này

Cuối cùng tôi xin cám ơn đến gia đình và bạn bè đã động viên giúp đỡ tôi trong quá trình thực hiện luận văn này

TP.HCM, ngày 30 tháng 11 năm 2012 Học viên cao học khóa 2010

Hồ Thị Duyên

Trang 5

TÓM TẮT NỘI DUNG LUẬN VĂN

Luận văn này thực hiện nhằm mục đích xác định phương pháp nào đưa ra kết quả dự báo dữ liệu chuỗi thời gian tối ưu nhất trong ba phương pháp: (1) Kỹ thuật làm trơn, (2) Mô hình ARIMA và (3) Mô hình mùa (SARIMA)

Phương pháp nghiên cứu được thực hiện bởi phương pháp định lượng Trong luận văn này, tác giả sẽ đi sâu vào nghiên cứu: (1) Lý thuyết của dữ liệu chuỗi thời gian, (2) Ba phương pháp hỗ trợ thực hiện dự báo dữ liệu chuỗi thời gian và (3) Tìm hiểu và sử dụng ngôn ngữ R Bên cạnh việc nghiên cứu các lý thuyết, thì luận văn cũng tiến hành áp dụng lý thuyết đã nghiên cứu vào hai tập dữ liệu được thu thập từ hai đơn vị trong lĩnh vực bệnh viện tại thành phố Hồ Chí Minh

Đánh giá và đưa ra kết luận từ nghiên cứu thực nghiệm về mô hình dự báo nào cho kết quả tối ưu nhất Kết quả này sẽ là tư liệu tham khảo hữu hiệu cho các đơn vị trong lĩnh vực y tế - bệnh viện và các doanh nghiệp khác ngoài ngành, có nhu cầu về việc phân tích dữ liệu chuỗi thời gian trong lựa chọn phương pháp và ngôn ngữ hỗ trợ thực hiện

Trang 6

ABSTRACT

This thesis aims to determine the best method for forecasting of the data time series in hospital from three methods: (1) Exponential Smoothing, (2) ARIMA model and (3) Seasonal Model (SARIMA)

The method research is implemented by Quantitative Methods In this thesis, I will go to deep into researching: (1) Theory of the data time series, (2) Three methods support for implement of the data time series, and (3) Learn and use the language R Besides the research of theory, the thesis also conducts applied the research theory into two data sets were collected from two units in the hospital in Ho Chi Minh city

Evaluate and draw conclusions from real research about the best choice of the three forecasting models These result will be usefull reference material for the units in the hospitals and other industries, there is need for data time series analysis in the selection of the method and language support implemention

Trang 7

DANH MỤC CHỮ VIẾT TẮT

ACF : Hàm tự tương quan AIC : Akaike’s Information Criterion ARIMA: Integrated Autoregressive Moving Average PACF : Hàm tự tương quan riêng phần

PKDK : Phòng khám đa khoa TTYT : Trung tâm y tế SARIMA: Seasonal ARIMA

Trang 8

LỜI CAM ĐOAN

Tôi xin cam đoan rằng toàn bộ những nội dung và số liệu trong luận văn này do tôi tự nghiên cứu và thực hiện Những dữ liệu được thu thập và xử lý một cách khách quan và trung thực

Trang 9

CHƯƠNG 1: GIỚI THIỆU 1

1.1 Giới thiệu đề tài 1

1.1.1 Giới thiệu tổng quan về tình hình ứng dụng dự báo chuỗi thời gian 1

1.1.2 Tổng quan về tình hình dự báo chuỗi thời gian tại Việt Nam 4

CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN 8

2.1 Mô hình Neural Network 8

2.2 Các mô hình phân tích thống kê 9

2.2.1 Các mô hình xu thế 9

2.2.2 Dự báo bằng phương pháp phân tích 11

Trang 10

2.2.3 Dự báo bằng phân tích hồi quy 12

2.2.4 Các mô hình dự báo bằng phương pháp Box – Jenkins 13

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 15

3.1 Phương pháp nghiên cứu 15

3.1.1 Phương pháp dự báo 15

3.1.2 Phương pháp luận của dự báo định lượng 16

3.1.3 Nguồn dữ liệu 18

3.2 Phần mềm hỗ trợ 19

CHƯƠNG 4: CƠ SỞ LÝ THUYẾT 21

4.1 Dự báo chuỗi thời gian 21

4.1.1 Khái niệm dãy số chuỗi thời gian 21

4.1.2 Phân tích biến động các thành phần của dãy số thời gian 22

4.2 Đánh giá độ chính xác của dự báo 24

4.2.1 Phân chia mẫu 24

4.2.2 Các thước đo độ chính xác của mô hình dự báo 24

4.3 Các mô hình nghiên cứu 26

4.4.2 Cấu trúc lệnh của ngôn ngữ R 40

CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM 43

5.1 Nguồn dữ liệu 43

Trang 11

5.1.1 Phòng khám đa khoa 43

5.1.2 Trung tâm y tế 48

5.2 Tập dữ liệu Phòng khám đa khoa 52

5.2.1 Phương pháp kỹ thuật làm trơn 52

5.2.2 Mô hình ARIMA 64

5.2.3 Mô hình mùa SARIMA 74

5.2.4 Đánh giá các phương pháp 82

5.3 Tập dữ liệu Trung tâm y tế 83

5.3.1 Phương pháp kỹ thuật làm trơn 83

5.3.2 Mô hình ARIMA 83

5.3.3 Mô hình mùa SARIMA 89

5.3.4 Đánh giá các phương pháp 94

5.4 Kết quả nghiên cứu 94

CHƯƠNG 6: KẾT LUẬN VÀ KIẾN NGHỊ 96

6.1 Kết quả nghiên cứu 96

6.1.1 Tóm tắt lại nội dung nghiên cứu 96

6.1.2 Kết luận 96

6.2 Kiến nghị 97

6.3 Hạn chế và hướng nghiên cứu tiếp theo 97

6.3.1 Hạn chế 97

6.3.2 Hướng nghiên cứu tiếp theo 98

THƯ MỤC THAM KHẢO 99Phụ lục A: DỮ LIỆU PKDK và TTYT A1Phụ lục B: DỮ LIỆU PKDK - MÔ HÌNH ARIMA B1

Trang 12

Phụ lục C: DỮ LIỆU PKĐK – MÔ HÌNH SARIMA C1Phụ lục D: DỮ LIỆU TTYT –KỸ THUẬT LÀM TRƠN MŨ D1Phụ lục E: DỮ LIỆU TTYT – MÔ HÌNH ARIMA E1Phụ lục F: DỮ LIỆU TTYT – MÔ HÌNH SARIMA F1Phụ lục G: HÀM G1Phụ lục H: THƯ VIỆN HỖ TRỢ H1LÝ LỊCH TRÍCH NGANG I1

Trang 13

Bảng 5.1 Thống kê mô tả dữ liệu PKDK 44

Bảng 5.2 Thông tin tần số của doanh thu PKDK 46

Bảng 5.3 Thống kê mô tả dữ liệu TTYT 49

Bảng 5.4 Thông tin tần số của doanh thu TTYT 51

Bảng 5.5 So sánh AIC của các mô hình ARIMA đề xuất đối với dữ liệu PKDK mẫu 71

Bảng 5.6 Đánh giá kết quả dự báo của mô hình ARIMA(3,2,3) - PKDK 72

Bảng 5.7 Đánh giá kết quả dự báo của các mô hình ARIMA đề xuất - PKDK 73

Bảng 5.8 So sánh AIC của các mô hình SARIMA đề xuất đối với dữ liệu PKDK mẫu 79

Bảng 5.9 Đánh giá kết quả dự báo của mô hình SARIMA(0,1,0)(1,1,1)12 - PKDK80Bảng 5.10 Đánh giá kết quả dự báo của các mô hình SARIMA đề xuất - PKDK 81

Bảng 5.11 Đánh giá kết quả dự báo của các phương pháp - PKDK 82

Bảng 5.12 Đánh giá kết quả dự báo của các mô hình ARIMA đề xuất - TTYT 89

Bảng 5.13 Đánh giá kết quả dự báo của các mô hình SARIMA đề xuất - TTYT 93

Bảng 5.14 Đánh giá kết quả dự báo của các phương pháp - TTYT 94

Trang 14

DANH MỤC HÌNH

Hình 1.1 Tỷ lệ % người dùng của các phần mềm phân tích dữ liệu (2010-2011) 2

Hình 1.2 Tình hình sử dụng các công cụ phần mềm 3

Hình 1.3 Sử dụng phần mềm miễn phí tại các khu vực trên thế giới 3

Hình 2.1 Kiến trúc của một ANN cho dự báo chuỗi thời gian với 3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo) ([4]) 8

Hình 2.2 Dự báo (2001-2020) số lượng người bị gãy xương tại Northern Ireland của những người trên 50 tuổi và phân theo giới tính.([6]) 10

Hình 2.3 Dự báo số lượng bệnh nhân (từ tháng 109 - 132)[5] 14

Hình 3.1 Phương pháp luận của dự báo chuỗi thời gian [3] 17

Hình 4.1 Doanh thu theo quý của Johnson & Johnson, (1960-I, 1980-IV) [13] 21

Hình 5.1 Biểu đồ doanh thu PKDK (01/2009 – 06/2012) 45

Hình 5.2 Biểu đồ thể hiện tần số và phân phối chuẩn của doanh thu PKDK 46

Hình 5.3 Biểu đồ tương quan của doanh thu PKDK (01/2009-06/2012) 47

Hình 5.4 Biểu đồ Doanh thu TTYT (01/2007 – 12/2010) 49

Hình 5.5 Biểu đồ thể hiện tần số và phân phối chuẩn của doanh thu TTYT 51

Hình 5.6 Biểu đồ tương quan của doanh thu TTYT 52

Hình 5.7 Biểu đồ dữ liệu doanh thu PKDK đã được làm trơn bằng phương pháp trung bình di động với n=5 53

Hình 5.8 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK theo phương pháp làm trơn mũ Holt 54

Hình 5.9 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK tại 35 điểm theo phương pháp làm trơn mũ Holt 55

Hình 5.10 Biểu đồ về các ước lượng xu hướng và ước lượng mức độ của phương pháp làm trơn mũ Holt 56

Hình 5.11 Biểu đồ dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK theo phương pháp làm trơn mũ Holt 57

Hình 5.12 Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương pháp làm trơn mũ Holt 58

Trang 15

Hình 5.13 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK theo

phương pháp làm trơn mũ Winters 59

Hình 5.14 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK tại 35 điểm theo phương pháp làm trơn mũ Winters 60

Hình 5.15 Biểu đồ về các ước lượng xu hướng, ước lượng mức độ và ước lượng mùa vụ của phương pháp làm trơn mũ Winters 61

Hình 5.16 Biểu đồ dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK theo phương pháp làm trơn mũ Winters 62

Hình 5.17 Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương pháp làm trơn mũ Winters 63

Hình 5.18 Biểu đồ doanh thu PKDK của 35 điểm 64

Hình 5.19 Biểu đồ doanh thu PKDK (01/2009 – 11/2011) 65

Hình 5.20 Biểu đồ tương quan của doanh thu PKDK (01/2009-11/2011) 66

Hình 5.21 Biểu đồ dữ liệu doanh thu PKDK mẫu sau khi lấy sai phân bậc 1 67

Hình 5.22 Biểu đồ dữ liệu doanh thu PKDK mẫu sau khi lấy sai phân bậc 2 67

Hình 5.23 Biểu đồ tương quan và tương quan riêng phần của dữ liệu PKDK mẫu áp dụng cho mô hình ARIMA 68

Hình 5.24 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê Ljung-Box theo mô hình ARIMA thứ nhất 70

Hình 5.25 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK theo mô hình ARIMA(3,2,3) 72

Hình 5.26 Biểu đồ doanh thu PKDK mẫu (theo số điểm) trước và sau khi lấy sai phân bậc 1 75

Hình 5.27 Biểu đồ doanh thu PKDK mẫu (theo thời gian) trước và sau khi lấy sai phân bậc 1 75

Hình 5.28 Biểu đồ dữ liệu PKDK sau khi lấy sai phân bậc 2 76

Hình 5.29 Biểu đồ tương quan và tương quan riêng phần của dữ liệu PKDK mẫu áp dụng cho mô hình SARIMA 77

Hình 5.30 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê Ljung-Box theo mô hình SARIMA(0,1,0)(1,1,1)12 78

Trang 16

Hình 5.31 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian

tiếp theo của doanh thu PKDK theo mô hình SARIMA(0,1,0)(1,1,1)12 80

Hình 5.32 Biểu đồ doanh thu TTYT của 40 điểm 84

Hình 5.33 Biểu đồ doanh thu TTYT (01/2007 – 4/2010) 84

Hình 5.34 Biểu đồ tương quan của doanh thu TTYT (01/2007-04/2010) 85

Hình 5.35 Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 1 86

Hình 5.36 Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 2 87

Hình 5.37 Biểu đồ tương quan và tương quan riêng phần của dữ liệu TTYT mẫu áp dụng cho mô hình ARIMA 87

Hình 5.38 Biểu đồ doanh thu TTYT mẫu (theo số điểm) trước và sau khi lấy log 90

Hình 5.39 Biểu đồ doanh thu TTYT mẫu (theo thời gian) trước và sau khi lấy log 90Hình 5.40 Biểu đồ dữ liệu TTYT sau khi lấy log và sai phân bậc 1 91

Hình 5.41 Biểu đồ dữ liệu TTYT sau khi lấy log và sai phân bậc 2 91

Hình 5.42 Biểu đồ tương quan và tương quan riêng phần của dữ liệu TTYT mẫu áp dụng cho mô hình SARIMA 92

Trang 17

CHƯƠNG 1: GIỚI THIỆU

1.1 Giới thiệu đề tài 1.1.1 Giới thiệu tổng quan về tình hình ứng dụng dự báo chuỗi thời gian

Trong bối cảnh hiện nay, sự phát triển của tất cả các mặt đời sống xã hội cho đến nền kinh tế, nó đã thúc đẩy các doanh nghiệp phải luôn luôn tự hoàn thiện mình hơn nữa để đáp ứng với nhu cầu gia tăng của xã hội Mặc dù ngành công nghệ thông tin đã song hành cùng với các doanh nghiệp để hỗ trợ các tác nghiệp từ mức thấp nhất đến mức cao nhất, từ cấp nhân viên cho tới cấp lãnh đạo Đa phần các doanh nghiệp phát triển phần mềm thường xây dựng để hỗ trợ các tác nghiệp hằng ngày, và ít chú trọng phát triển những phần mềm hỗ trợ ra quyết định cho các cấp lãnh đạo

Khi mà các phần mềm hỗ trợ tác nghiệp đã được vận hành ổn định cùng với sự phát triển của các doanh nghiệp, vấn đề đặt ra ở đây là những dữ liệu phát sinh đó phải giải quyết như thế nào Trước khi có sự giúp đỡ mạnh mẽ của công nghệ thông tin, thì vấn đề này đã được nghiên cứu bằng các phương pháp toán học Đối với những dữ liệu lớn như ngày nay thì những phương pháp đó được tin học hóa bằng những phần mềm chuyên dụng để hỗ trợ phân tích những dữ liệu đó Việc sử dụng các phần mềm này cơ bản đã giúp cho các doanh nghiệp tiết kiệm thời gian để phân tích số liệu, nó cung cấp khung nhìn tổng quan nhất đối với sự phát triển theo các mốc thời gian từ quá khứ đến thời điểm hiện tại Một trong những tính năng thu hút nhiều nhà quản lý của các doanh nghiệp là việc phân tích dữ liệu về khách hàng, nhóm hàng, , và đặc biệt hơn nữa là tính năng có thể dự đoán được những kết quả trong tương lai

Sự phát triển của ngành công nghệ thông tin đóng vai trò rất quan trọng đối với sự phát triển của nền kinh tế Vì vậy, nên các doanh nghiệp phát triển lĩnh vực này luôn luôn tạo ra những phần mềm hỗ trợ tối đa Điều đó có thể thấy được nhu cầu về tình hình sử dụng công nghệ thông tin trong lĩnh vực phân tích dữ liệu

Trang 18

K Poll ([16])có một khảo sát với số lượng người tham gia là 1103 người, trong đó 43% sử dụng phần mềm thương mại, 32% sử dụng phần mềm miễn phí và 25% cả hai Ba phần mềm phổ biến nhất của năm 2011 là RapidMiner, R và Excel

Hình 1.1 Tỷ lệ % người dùng của các phần mềm phân tích dữ liệu (2010-2011)

(Nguồn: 2011, Top analysis, data mining tool) [16] Tình hình sử dụng phần mềm thương mại, miễn phí và cả hai loại phần mềm này ở các khu vực trên thế giới Khu vực Tây Âu, Châu Á và Châu Mỹ Latin là ba khu vực có tỷ lệ sử dụng phần mềm miễn phí chiếm tỷ lệ khá cao hơn so với các khu vực khác

Trang 19

Hình 1.2 Tình hình sử dụng các công cụ phần mềm

(Nguồn: 2011, Top analysis, data mining tool) [16] Các nước trong khu vực Tây Âu là khu vực chiếm tỷ lệ cao nhất so với các khu còn lại về việc sử dụng các công cụ miễn phí

Hình 1.3 Sử dụng phần mềm miễn phí tại các khu vực trên thế giới

(Nguồn: 2011, Top analysis, data mining tool) [16]

Trang 20

1.1.2 Tổng quan về tình hình dự báo chuỗi thời gian tại Việt Nam

Sự phát triển của nền kinh tế Việt Nam có những biến đổi đáng kể bằng chứng là các doanh nghiệp vừa và nhỏ tới những doanh nghiệp lớn đều sử dụng công nghệ thông tin để hỗ trợ các công việc hằng ngày Những dữ liệu thu thập từ những gì mà doanh nghiệp hoạt động, thì những chủ doanh nghiệp thường có nhu cầu xem xét và dựa vào kinh nghiệm thực tế của mình, để đưa ra những quyết định trong công tác quản lý doanh nghiệp Những phần mềm hiện tại mà các doanh nghiệp dùng để hỗ trợ, thông thường thì chỉ có những báo cáo mang ý nghĩa thống kê Mặc dù những doanh nghiệp này đã cố gắng phát triển và tích hợp vào hệ thống phần mềm hiện có, nhưng những báo cáo này cũng chưa đáp ứng được nhu cầu phân tích chuyên sâu để có thể đưa ra quyết định Sản phẩm Accnet BA của Công ty cổ phần tin học Lạc Việt là phần mềm chuyên dùng đề hỗ trợ đủ các loại báo cáo về tài chính, thế nhưng vẫn chưa đáp ứng được các năng như phân tích dữ liệu: phân tích liên quan về nhóm khách hàng, nhà cung cấp, …

Mặc dù, các doanh nghiệp nước ngoài cũng đã giới thiệu những gói phần mềm có tích hợp phần phân tích dữ liệu, nhưng chi phí cao, thời gian triển khai tương đối lâu, quy trình thực hiện phức tạp IBM có giới thiệu gói sản phẩm là IBM Cognos 10.1 tới thị trường Việt Nam nhưng hiện tại chỉ mới có Ngân hàng Á Châu – ACB triển khai thành công, nhưng xét về tính năng dự báo thì vẫn chưa thể nào bằng những phần mềm chuyên về phân tích dữ liệu

Tại Việt Nam, lĩnh vực dự báo chuỗi thời gian ngày càng được chú trọng phát triển, đặc biệt ở các mảng: marketing, dự báo doanh thu theo thời gian, phân tích nhu cầu tồn kho của các sản phẩm, … Đa phần các doanh nghiệp có quy mô lớn mới có khái niệm về việc sử dụng các ứng dụng liên quan đến việc phân tích dữ liệu và dự báo chuỗi thời gian cho các hoạt động của doanh nghiệp Một số các doanh nghiệp đã sử dụng: CoopMart, Prudential, Bảo hiểm Bảo Việt, NamVietBank, VietinBank, … Để đáp ứng được vấn đề về phân tích dữ liệu là việc hình thành các trung tâm hoạt động chuyên về phân tích dữ liệu: VIDAC (Trung tâm thông tin và phân tích số liệu Việt Nam), Cedzo (Trung tâm tư vấn doanh nghiệp và phát triển kinh tế vùng), …

Trang 21

Dự báo dữ liệu chuỗi thời gian là một vấn đề được nghiên cứu trong thời gian dài Và là một trong những thành phần quan trọng trong hoạt động nghiên cứu phát triển của tổ chức, bởi vì những dữ liệu từ quá khứ đến hiện tại thường được dùng để cung cấp cho các mô hình quyết định Mô hình dự báo nhu cầu về khách du lịch ghé thăm trong tương lai, hay là mô hình tồn kho yêu cầu ước tính được nhu cầu cần hàng trong thời gian dự kiến, hay là mô hình dự báo nhóm bệnh theo mùa, dự đoán về thị trường chứng khoán, doanh thu…

Dữ liệu chuỗi thời gian là dữ liệu mà các biến quan sát được thu thập theo thời gian với tần suất nhất định tùy theo đặc tính của đối tượng nghiên cứu Dữ liệu chuỗi thời gian được thu thập từ nhiều nguồn khác nhau: các giao dịch của nghiệp vụ, quan sát môi trường, …

• Thu thập theo thời gian với tần suất [3]: o Theo ngày, tuần: chứng khoán, giá vàng, tỷ giá ngoại tệ, … o Theo tháng: doanh thu, năng suất sản xuất, tỷ lệ lạm phát, tỷ lệ thất nghiệp,

… o Theo năm: doanh thu, năng suất sản xuất, ngân sách chính phủ, tốc độ tăng

trưởng GDP, … o Dự báo chuỗi thời gian được áp dụng vào một số vấn đề liên quan [4]: Dự

báo kinh tế, Dự báo doanh thu bán hàng, Phân tích ngân sách, Phân tích thị trường chứng khoán, Dự đoán về năng suất, Quy trình và quản lý chất lượng, Kiểm kê học, Dự báo khối lượng công việc, Dự báo về dân số, …

Đối với ngành y của Việt Nam cũng đã quan tâm đến vấn đề phân tích dữ liệu, cụ thể là tại các trường Đại học Y Dược đều được đào tạo các môn học liên

Trang 22

quan đến phân tích số liệu và biểu đồ bằng phần mềm R Dự báo chuỗi thời gian ứng dụng cho các công việc liên quan đến ngành y thì chưa được chú trọng nhiều Các lĩnh vực được phát triển song hành cùng với sự phát triển của công nghệ đều liên quan đến lĩnh vực kinh tế, nhưng lĩnh vực về y cụ thể là những công tác quản lý trong bệnh viện vẫn đang được triển khai Những đối tượng cần thiết đưa vào áp dụng như: doanh thu từ các hoạt động khám chữa bệnh, dự báo sự gia tăng khám bệnh đối với các nhóm bệnh, hiệu suất làm việc của các nhân viên bệnh viện… => Đó là những lý do mà chúng tôi chọn đề tài “Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện”

Đề tài tiến hành thực hiện dựa trên ba phương pháp dùng để phân tích dữ liệu chuỗi thời gian: phương pháp kỹ thuật làm trơn mũ, mô hình ARIMA và mô hình mùa SARIMA

Trang 23

1.6 Bố cục luận văn

Bố cục của luận văn này bao gồm sáu chương sau:

Chương I: Giới thiệu – Giới thiệu tổng quan về dự báo chuỗi thời gian được ứng dụng ở các lĩnh vực, lý do nghiên cứu, mục tiêu nghiên cứu, ý nghĩa thực tiễn, phạm vi và giới hạn của đề tài

Chương II: Các công trình liên quan – Trình bày các công trình nghiên cứu liên quan đến dự báo chuỗi thời gian trong lĩnh vực quản lý bệnh viện

Chương III: Phương pháp nghiên cứu – Trình bày phương pháp nghiên cứu và công cụ hỗ trợ quá trình thực hiện luận văn

Chương IV: Cơ sở lý thuyết – Trình bày cơ sở lý thuyết được sử dụng để giải quyết các vấn đề bài toán của luận văn Ở chương này giới thiệu những thước đo dự báo chuỗi thời gian, kỹ thuật làm trơn, mô hình ARIMA, mô hình mùa SARIMA, phần mềm R

Chương V: Kết quả thực nghiệm – Trình bày kết quả nghiên cứu thực nghiệm

Chương VI: Kết luận và kiến nghị – Trình bày kết luận từ kết quả nghiên cứu, nêu lên những hạn chế và hướng nghiên cứu tiếp theo

Trang 24

CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

Dự báo chuỗi thời gian là một trong những vực được nghiên cứu trong thời gian gần đây Như đã giới thiệu ở chương I thì dự báo chuỗi thời gian là một trong những vấn đề quan trọng đối với tất cả các lĩnh vực: kinh tế, xã hội, giáo dục, bệnh viện,… Hiện có nhiều công trình nghiên cứu các khía cạnh liên quan đến các lĩnh vực đã nêu

Trong luận văn có thể chia thành các nhóm chính trong dự báo chuỗi thời gian được phân thành hai nhánh: mô hình Neural Network và các mô hình phân tích trong thống kê

2.1 Mô hình Neural Network

Mạng nơ-ron nhân tạo (ANN) là một lĩnh vực nghiên cứu rất lớn trong lĩnh vực trí

tuệ nhân tạo, ANN được xem như một hệ thống kết nối tập hợp các ngõ vào (inputs)

đến tập hợp các ngõ ra (outputs) qua một hay nhiều lớp nơ-ron, các lớp này được

gọi là các lớp ẩn Việc xác định có bao nhiêu ngõ vào, ngõ ra, số lớp ẩn cũng như

số lượng nơ-ron của mỗi lớp tạo thành kiến trúc của mạng Kiến trúc của một ANN cho dự báo chuỗi thời gian được mô phỏng ở Hình 2.1 với

3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo)

Hình 2.1 Kiến trúc của một ANN cho dự báo chuỗi thời gian với 3 ngõ vào, một lớp

ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo) ([4])

Trang 25

Trong ngữ cảnh chuỗi thời gian, ngõ ra là giá trị của chuỗi thời gian được dự báo,

chuỗi thời gian và các biến giải thích khác Đối với các ANN một lớp ẩn có H nơ-ron, phương trình tổng quát để tính giá trị dự

báo xt (ngõ ra) sử dụng đến các mẫu quan sát quá khứ , , …,  làm ngõ vào được viết dưới dạng sau:

     



    



Trong đó:

nơ-ron lớp ẩn •  là trọng số kết nối trực tiế giữa ngõ vào hằng số và ngõ ra, •  và   là các trọng số của các kết nối khác giữa các ngõ vào và các nơ-

ron lớp ẩn giữa các nơ-ron lớp ẩn với ngõ ra • và  là hai hàm kích hoạt lần lượt được sử dụng tại ngõ ra và tại các nơ-ron

lớp ẩn ANN được áp dụng trong dự báo chuỗi thời gian bởi rất nhiều nhà nghiên cứu C.Yeh và các cộng sự năm 2008 ([4]) đã sử dụng mô hình mạng nơ-ron nhân tạo để dự báo về chi tiêu y tế tại Đài Loan

E.Hadavandi và các cộng sự năm 2011 ([5]) đã phát triển mô hình mạng nơ-ron để ứng dụng cho việc dự báo số lượng bệnh nhân tới khám tại bệnh viện

2.2 Các mô hình phân tích thống kê 2.2.1 Các mô hình xu thế

Trang 26

thích) Phần này giới thiệu hai mô hình xu thế thường được sử dụng trong phân tích,

dự báo kinh tế, xã hội Đó là Mô hình xu thế tuyến tính và Mô hình tăng trưởng mũ

Bảng 2.1 Các hàm xu thế

T R O Beringer và các cộng sự năm 2000 ([6]) đã tiến hành nghiên cứu xu hướng và dự báo số lượng người bị gãy xương của các bệnh nhân tại Northern Ireland Phân tích độ tuổi và giới tính được thực hiện hồi qui tuyến tính, hồi qui Poisson và các hàm xu thế

Hình 2.2 Dự báo (2001-2020) số lượng người bị gãy xương tại Northern Ireland của

những người trên 50 tuổi và phân theo giới tính.([6])

STT Mô hình Phương trình Hình thức tuyến tính

1 Linear (tuyến tính)

1

oY=b+b t

Y=b e ln( ) ln( )Y = bo +b t1

Trang 27

Biểu đồ Hình 2.2 thể hiện cả dữ liệu quá khứ và dữ liệu dự đoán số người bị gãy xương đến năm 2016, dựa vào dữ liệu từ năm 1985 đến năm 1997 của nam và nữ từ độ tuổi 50 trở lên và sử dụng ba phương pháp trên để dự đoán

2.2.2 Dự báo bằng phương pháp phân tích

Các phương pháp phân tích (Decomposition methods) hay các mô hình phân tích chuỗi thời gian (Time-series decomposition medols) được sử dụng cả trong dự báo

ngắn hạn và dài hạn Phương pháp này là một trong những phương pháp ra đời sớm nhất trong lịch sử của các kỹ thuật dự báo, và hiện nay vẫn còn được sử dụng phổ biến ở các nước phát triển Phân tích chuỗi thời gian cổ điển là cách thức thực hiện chủ yếu dựa trên nền tảng của các phương pháp trung bình di động và dự báo theo hàm xu thế

Robert Champion và các cộng sự năm 2007 ([7]), nghiên cứu về dự báo số ngày điều trị nội trú cho mỗi tháng của bệnh nhân tại tiểu bang Victoria, Úc Để thực hiện nghiên cứu này, nhóm tác giả sử dụng kỹ thuật làm trơn và mô hình ARIMA, nhưng trong quá trình thực hiện đã sử dụng kết hợp với phương pháp phân tích có yếu tố mùa vụ để tìm ra số lượng bệnh nhân cho mỗi giờ của tuần

Bốn thành phần của chuỗi thời gian:

Xu thế: là thành phần thể hiện sự tăng (hoặc giảm) ẩn bên trong của một

chuỗi thời gian Thành phần này thường được ký hiệu là Tr, hay T

Chu kỳ là một chuỗi những sự dao động giống như hình sóng và sự dao

động này sẽ lặp lại sau một thời kỳ dài hơn một năm Ký hiệu chu kỳ là CI, hay C

Mùa: những dao động mùa vụ rất thường được tìm thấy với dữ liệu theo

quý, theo tháng, hoặc thậm chí theo tuần nếu chỉ có dữ liệu theo năm thì không có biến động mùa Sự dao động mùa vụ liên quan đến kiểu thay đổi khá ổn định xuất hiện hàng năm hoặc kiểu thay đổi đó lại được lặp lại ở năm sau, và các năm sau nữa Yếu tố mùa xảy ra do ảnh hưởng của thời tiết, các sự kiện hàng năm kiên quan đến lịch như nghỉ hè, ngày lễ Ký hiệu mùa là Sn, hay S

Ngẫu nhiên/ bất thường: thành phần ngẫu nhiên bao gồm những thay đổi

ngẫu nhiên, hay không dự đoán được Thành phần bất thường này xuất hiện có thể

Trang 28

do ảnh hưởng của tin đồn, thiên tai, động đất, … Ký hiệu ngẫu nhiên/bất thường là

2.2.3 Dự báo bằng phân tích hồi quy

J.Boyle và các cộng sự năm 2008([2]), dự báo số lượng bệnh nhân nhập viện Dự báo này được nhóm tác giả phân tích dữ liệu và dự báo dữ liệu bằng phân tích

hồi quy (Regression) Dữ liệu được tạo ra từ mô hình này sẽ được so sánh với dữ

liệu nhập liệu trên 6 tháng Phương pháp này thực hiện hiệu quả với 11 biến giả để

mô hình biến hàng tháng (MAPE=1.79%)

Mô hình hồi quy đơn

Phân tích hồi quy có thể giúp cho người phân tích: ước lượng giá trị trung bình của biến phụ thuộc khi cho trước giá trị một hoặc các biến giải thích; kiểm định các giả thuyết về bản chất của sự phụ thuộc giữa biến độc lập và biến phụ thuộc; dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các biến giải thích; dự báo tác động biên hoặc độ co giãn của một biến độc lập lên biến phụ thuộc thông qua hệ số hồi quy

Mô hình hồi quy tuyến tính cổ điển

Trong đó:

Trang 29

E(Yt) là giá trị trung bình có điều kiện của Yt theo Xt, và β1, β2là các tham số chưa

biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào thời điểm t của biến quan sát)

Mô hình hồi quy bội

Thông thường trong các mối quan hệ kinh tế hay quản trị, biến phụ thuộc, Y,

phụ thuộc vào nhiều biến giải thích khác nhau Mô hình hồi quy bội được thể hiện như sau:

Trong đó, β1 là hệ số cắt, β2 , …, βk là các hệ số hồi quy riêng, ut là hạng nhiễu ngẫu

nhiên, và t là quan sát thứ t, n là quy mô toàn bộ của tổng thể

2.2.4 Các mô hình dự báo bằng phương pháp Box – Jenkins

Mô hình ARIMA liên quan đến mô hình tự hồi quy (AR) và mô hình trung

bình di động (MA) Biến Yt của mô hình AR chỉ ảnh hưởng bởi hạng nhiễu trắng ut,

và cũng chịu ảnh hưởng bới các biến Yt-1, Yt-2, Yt-3, … thường được tạo ra MA(q) Nếu mô hình MA(1), Yt đại diện không chỉ chịu ảnh hưởng của nhiễu trắng, mà

bằng cách nào đó có mối liên hệ với các giá trị Yt-1, Yt-2, Yt-3.[4]

Nếu biến Yt có mối liên hệ với các giá trị Yt-1, Yt-2, Yt-3, …và các giá trị hạng

nhiễu trắng ut-1, ut-2, ut-3, …, mô hình này gọi mô ARMA(p,q) Nếu mô hình ARMA

không được chấp nhận, vi phân lần “d” có thể được dùng để tạo ra sự chấp thuận,

sau đó ta có được mô hình ARIMA(p,d,q) Được diễn tả bởi hai phương trình sau:

Trang 30

nơ-nhóm tác giả này kết luận mô hình ARIMA dự báo cho ra kết quả tốt hơn mô hình mạng nơ-ron nhân tạo về dự báo chi tiêu y tế

E.P.C.Kao và G.G.Tung năm 1980 ([8]) đã sử dụng mô hình ARIMA để dự báo nhu cầu về các dịch vụ chăm sóc sức khỏe bệnh nhân Dự báo số lượng bệnh nhân khám các dịch vụ chịu ảnh hưởng theo mùa, dự đoán này có thể dự đoán theo hàng tháng

Hình 2.3 Dự báo số lượng bệnh nhân (từ tháng 109 - 132)[5]

Biểu đồ Hình 2.3 thể hiện giá trị thực tế và giá trị dự báo từ tháng thứ 109 đến tháng thứ 132, với vùng giới hạn tin cậy có thể xảy ra của mô hình ARIMA trong việc dự báo số lượng bệnh nhân đến khám là 95%

Trang 31

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU

Chương này trình bày phương pháp nghiên cứu và giới thiệu về ngôn ngữ hỗ trợ trong suốt quá trình thực hiện nghiên cứu thực nghiệm

3.1 Phương pháp nghiên cứu

Phương pháp luận của dự báo chuỗi thời gian được đề cập trong cuốn sách [3] về dự

o Nhóm các phương pháp chính thức được chia thành phương pháp định tính và phương pháp định lượng

 Các phương pháp định tính dựa vào kinh nghiệm và phán đoán của những chuyên viên, những người quản lý và những chuyên gia Theo Dayananda chia dự báo định tính thành hai nhóm:

• Các phương pháp thu thập thông tin dự báo từ các cá nhân liên quan đến đối tượng dự báo, bao gồm khảo sát thị trường và tổng hợp lực lượng bán hàng

• Các phương pháp dựa vào các ý kiến của nhóm chuyên gia am hiểu về lĩnh vực cần dự báo, bao gồm ý kiến ban quản lý, phương pháp Delphi, kỹ thuật nhóm định danh, và các kỹ thuật khác

 Các phương pháp định lượng dựa vào các mô hình toán và giả định dữ liệu quá khứ cũng như các yếu tố liên quan khác có thể được kết hợp để đưa ra các dự báo đáng tin cậy ở tương lai Chia thành các nhóm: các mô hình chuỗi thời gian và các mô hình nhân quả

Trang 32

3.1.2 Phương pháp luận của dự báo định lượng

Phân loại phương pháp luận của dự báo định lượng

Phương pháp luận của dự báo định lượng • Phương pháp luận của dự báo chuỗi thời gian: dự báo các giai đoạn quá khứ

và dự báo các giai đoạn tương lai • Phương pháp luận của dự báo nhân quả: xuất phát từ mục tiêu dự báo, người

làm dự báo cần dựa trên các lý thuyết, các kinh nghiệm có liên quan, các kinh nghiệm của chuyên gia trong lĩnh vực nghiên cứu, … Bước kế tiếp, xác định các biến số có thể ảnh hưởng đến biến cần dự báo Bước tiếp theo sẽ tiến hành thu thập dữ liệu, xây dựng, ước lượng mô hình, kiểm định giả thuyết và thực hiện dự báo

Trang 33

Hình 3.1 Phương pháp luận của dự báo chuỗi thời gian [3]

Quy trình thực hiện dự báo chuỗi thời gian

• Xác định mục tiêu dự báo: xác định các mục tiêu liên quan đến các quyết định cần dựa vào kết quả dự báo

• Xác định biến số cần dự báo: sau khi xác định mục tiêu dự báo thì cần phải xác định chính xác sẽ dự báo điều gì

• Nhận dạng các khía cạnh thời gian: xét tới yếu tố độ dài của thời gian dự báo

Trang 34

• Thu thập và phân tích dữ liệu: dữ liệu dùng để phân tích có thể lấy từ bên trong hoặc bên ngoài tổ chức

• Lựa chọn mô hình: phụ thuộc vào biến số dự báo là gì • Đánh giá mô hình: sau khi xác định mô hình dự báo, bước tiếp theo là đánh

giá mô hình có phù hợp hay không • Chuẩn bị dự báo

• Trình bày kết quả dự báo • Theo dõi kết quả dự báo

3.1.3 Nguồn dữ liệu

Giới thiệu các tập dữ liệu

• Tập dữ liệu được dùng để dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện của luận văn này là của hai đơn vị:

o Phòng khám đa khoa khu công nghiệp Tân Bình o Trung tâm y tế dự phòng – thành phố Hồ Chí Minh • Mỗi tập dữ liệu dùng để phân tích sẽ được chia làm 2 tập con gồm:

o Tập dữ liệu dùng để ước lượng, số lượng dòng dữ liệu bằng 85% so với tổng số dòng dữ liệu gốc (tính từ thời điểm bắt đầu)

o Tập dữ liệu dùng để kiểm định, đánh giá với số lượng dòng dữ liệu còn lại là 15% so với tổng số dòng dữ liệu (phần dữ liệu còn lại sau khi lấy dùng để thực hiện các ước lượng)

• Đơn vị tính trị giá doanh thu của hai tập dữ liệu là triệu VNĐ Dữ liệu của hai đơn vị này có thể tra cứu ở phụ lục A

Phòng khám đa khoa

Tập dữ liệu của Phòng khám đa khoa khu công nghiệp Tân Bình được thành lập vào những tháng cuối năm 2007 Phòng khám thành lập với mục đích đáp ứng nhu cầu khám chữa bệnh cho công nhân viên và các hộ dân sống trong khu công nghiệp Tân Bình Một số hoạt động đem lại doanh thu bao gồm: khám chữa bệnh và bán thuốc Khám chưa bệnh: khám lâm sàng và cận lâm sàng

Trang 35

Tập dữ liệu về doanh thu phòng khám đa khoa khu công nghiệp Tân Bình được thu thập từ 01/2009 đến 06/2012

Trung tâm y tế

Dữ liệu doanh thu của Trung tâm y tế liên quan chủ yếu tới các hoạt động xét nghiệm và khám bệnh Là một trong những trung tâm lớn chuyên về các hoạt động xét nghiệm

Tập dữ liệu về doanh thu trung tâm y tế được thu thập từ 01/2007 đến 12/2010

3.2 Phần mềm hỗ trợ

R là một ngôn ngữ và môi trường lập trình hỗ trợ cho các phân tích thống kê và vẽ đồ thị Nó được tạo ra từ dự án GNU( bởi hai nhà thống kê học Ross Ihaka và Robert Gentleman vào năm 1996), nó cũng giống như ngôn ngữ S và môi trường phát triển tạo ra tại phòng thí nghiệm Bell (tên trước đó là AT&T, nay là Lucent Technologies) bởi John Chambers và các công sự Ngôn ngữ R và S tuy có những điểm khác nhau, nhưng đoạn mã của S có thể hiện ngôn ngữ R mà không cần chỉnh sửa [17]

R cung cấp rất nhiều dạng thống kê (mô hình tuyến tính và phi tuyến, kiểm tra thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm, …) và kỹ thuật đồ họa, và có thể mở rộng

R là phần mềm miễn phí, ngoài ra còn cho phép người dùng có thể mở rộng thêm các gói “packages” Nó biên dịch và chạy trên nhiều nền tảng UNIX và các hệ thống tương tự (bao gồm FreeBSD và Linux), Windows và hệ điều hành MacOS

Theo Wikipedia [18], các phương pháp dự báo được sử dụng trong phân tích dữ liệu chuỗi thời gian của một số phần mềm:

Trang 36

Bảng 3.1 Ứng dụng các phương pháp dự báo của các phần mềm (miễn phí hoặc thương

mại)

test

Cointegration testVAR

Multivariate ARCH

Open source

EViews Yes Yes Yes Yes Yes Yes No

SAS Yes Yes Yes Yes Yes Yes No

Stata Yes Yes Yes Yes Yes Yes No

Theo bảng thống kê này, phần mềm R là phần mềm miễn phí với đầy đủ các tính năng như những phần mềm thương mại khác về phân tích dữ liệu thông dụng như: Eview, SAS, Stata, SPSS Những phần mềm này được các trường đại học nghiên cứu và đưa vào công tác giảng dạy, chi phí của những phần mềm này khá đắt

Qua quá trình từng làm việc tiếp xúc với các phần mềm phân tích dữ liệu kể trên, tôi thấy phần mềm R đáp ứng được tất cả những yêu cầu mà các phần mềm thương mại cung cấp R là phần mềm miễn phí, nhưng với những tính năng mà nó đem lại trong việc phân tích dữ liệu chuỗi thời gian không thua kém những phần mềm phải trả phí bản quyền Đó là một trong những lý do lựa chọn công cụ hỗ trợ thực hiện luận văn này

Tải phần mềm và tài liệu hướng dẫn sử dụng phần mềm R tại website:

http://cran.R-project.org

Thông tin về phần mềm R được sử dụng trong luận văn này: “R version

2.15.1 (2012-06-22), Copyright (C) 2012 The R Foundation for Statistical Computing”

Trang 37

CHƯƠNG 4: CƠ SỞ LÝ THUYẾT

Trong chương này, ta sẽ trình bày một số lý thuyết liên quan đến kỹ thuật làm trơn, mô hình tự hồi qui kết hợp trung bình di động ARIMA và mô hình mùa SARIMA (những khái niệm cơ bản và đặc điểm của chuỗi dữ liệu thời gian, các bước thực hiện, cách chọn mô hình) Ngoài ra cũng giới thiệu một số câu lệnh của phần mềm R được sử dụng để giải quyết bài toán trong luận văn này

4.1 Dự báo chuỗi thời gian 4.1.1 Khái niệm dãy số chuỗi thời gian

Dãy số thời gian

Chuỗi thời gian là một tập hợp các quan sát xt, mỗi một quan sát được ghi

nhận tại thời điểm t cụ thể Chuỗi thời gian rời rạc là tập thời gian được quan sát

thực hiện là một hợp rời rạc [9]

Dữ liệu chuỗi thời gian bao gồm các quan sát trên một đơn vị kinh tế tại

nhiều thời điểm Số liệu thu thập được sẽ tạo thành một dãy số thời gian.[10]

Dãy số thời gian là một dãy các giá trị của hiện tượng nghiên cứu được sắp xếp theo thứ tự thời gian.[11]

Theo tác giả R.H Shumway và cộng sự (2011)[12] cho rằng, việc phân tích các dữ liệu thực nghiệm được thu thập tại các thời điểm khác nhau đã dẫn đến các vấn đề mới và độc đáo trong mô hình thống kê và suy luận

Hình 4.1 Doanh thu theo quý của Johnson & Johnson, (1960-I, 1980-IV) [13]

Trang 38

4.1.2 Phân tích biến động các thành phần của dãy số thời gian

Giả sử ta có dãy số thời gian dựa trên mô hình nhân: Y = T.S.C.I Phần này ta sẽ đề

cập đến việc xem xét biến động từng yếu tố thành phần của dãy số[11]

Biến động mùa vụ

Số trung bình di động có tác dụng hạn chế, loại bỏ các biến động ngẫu nhiên Tính chất này được ứng dụng trong việc tính toán các chỉ số thời vụ nhằm thể hiện biến động thời vụ của dãy số thời gian

Dãy số trung bình di động tính được sẽ chỉ bao hàm yếu tố xu hướng và chu kỳ vì yếu tố thời vụ và ngẫu nhiên xem như đã bị loại bỏ bởi cách tính trung bình di động Do đó, nếu đem chia từng giá trị của dãy số gốc cho các giá trị tương ứng của dãy số trung bình di động ta sẽ tách riêng được ảnh hưởng của yếu tố thời vụ và ngẫu nhiên

Bằng ký hiệu, ta có:

!

! : Giá trị quan sát ở thời điểm t

Bước tiếp theo loại bỏ yếu tố ngẫu nhiên bằng cách tính chỉ số thời vụ trung bình quý (nếu số liệu hàng quý), hoặc chỉ số thời vụ trung bình tháng (nếu số liệu hàng tháng).Cuối cùng, cần điều chỉnh các chỉ số thời vụ quý (hoặc tháng) sao cho trung bình của chúng bằng 100

Trang 39

!%

$#%&% $%&

(4.2)

Từ dãy số đã loại bỏ yếu tố thời vụ, ta chọn và xác định các tham số của hàm số thích hợp để thể hiện một cách tốt nhất xu hướng biến động của hiện tượng (phương pháp hàm xu thế)

Biến động chu kỳ

Yếu tố biến động chu kỳ được thể hiện thông quan các chỉ số chu kỳ Để tính chỉ số chu kỳ, trước hết ta chia các giá trị của dãy số đã loại bỏ biến động thời vụ cho các giá trị của yếu tố xu hướng tương ứng nhằm loại bỏ yếu tố xu hướng, nghĩa là:

$#&# $&

Biến động ngẫu nhiên

Sau khi đã có tất cả các yếu tố T, S, C, ta xác định biến động ngẫu nhiên theo

công thức:

& # &!

Với:

Ii: chỉ số thể hiện yếu tố ngẫu nhiên

Y: giá trị thực tế của hiện tượng

IS: chỉ số thời vụ

IC : chỉ số chu kỳ

Trang 40

Tóm lại, quá trình phân tích các yếu tố thành phần của dãy số thời gian theo

mô hình nhân, Y=T.S.C.I, bao gồm những bước sau:

• Xác định chỉ số thời vụ • Loại bỏ thời vụ để xác định yếu tố xu hướng • Loại bỏ xu hướng để xem xét yếu tố chu kỳ • Cuối cùng, xác định yếu tố ngẫu nhiên

4.2 Đánh giá độ chính xác của dự báo 4.2.1 Phân chia mẫu

Như chúng ta đã biết mô hình hồi quy tốt là mô hình có khả năng dự báo chính xác Chênh lệch giữa số liệu thực tế với số liệu dự báo càng nhỏ thì khả năng dự báo của mô hình càng chính xác Tuy nhiên, để đánh giá mức độ chính xác trong dự báo của mô hình hồi quy, ta cần thiết phải có số liệu thực tế để đối chiếu với số liệu dự báo từ mô hình Để thực hiện điều này, ta phải thu thập thêm số liệu thực tế mới phát sinh

Tập dữ liệu sau khi thu thập được từ thực tế sẽ được chia làm hai tập con: • Mẫu con thứ nhất được dùng để ước lượng mô hình hồi quy, được gọi là mẫu

khởi động (hay mẫu khởi tạo, mẫu khởi đầu) • Mẫu con thứ hai được sử dụng để kiểm tra độ chính xác xác giá trị dự báo

của mô hình hồi quy từ mẫu khởi động, được gọi là mẫu kiểm tra (test set)

4.2.2 Các thước đo độ chính xác của mô hình dự báo

Sai số dự báo

Sai số dự báo là một thước đo tìm hiểu giá trị dự báo sẽ gần với giá trị thực tế bao nhiêu Trong thực tế sai số dự báo là chênh lệch giữa những giá trị thực tế và giá trị dự báo tương ứng

Ngày đăng: 25/09/2024, 00:39