TÓM TẮT NỘI DUNG LUẬN VĂN Luận văn này thực hiện nhằm mục đích xác định phương pháp nào đưa ra kết quả dự báo dữ liệu chuỗi thời gian tối ưu nhất trong ba phương pháp: 1 Kỹ thuật làm trơ
GIỚI THIỆU
Giới thiệu đề tài
1.1.1 Giới thiệu tổng quan về tình hình ứng dụng dự báo chuỗi thời gian
Trong bối cảnh hiện nay, sự phát triển của tất cả các mặt đời sống xã hội cho đến nền kinh tế, nó đã thúc đẩy các doanh nghiệp phải luôn luôn tự hoàn thiện mình hơn nữa để đáp ứng với nhu cầu gia tăng của xã hội Mặc dù ngành công nghệ thông tin đã song hành cùng với các doanh nghiệp để hỗ trợ các tác nghiệp từ mức thấp nhất đến mức cao nhất, từ cấp nhân viên cho tới cấp lãnh đạo Đa phần các doanh nghiệp phát triển phần mềm thường xây dựng để hỗ trợ các tác nghiệp hằng ngày, và ít chú trọng phát triển những phần mềm hỗ trợ ra quyết định cho các cấp lãnh đạo
Khi doanh nghiệp sử dụng các phần mềm hỗ trợ, vấn đề dữ liệu phát sinh trở nên cấp thiết Trước đây, toán học hỗ trợ giải quyết dữ liệu nhưng ngày nay, các phương pháp tin học hóa được áp dụng thông qua phần mềm phân tích Phần mềm này tiết kiệm thời gian, cung cấp góc nhìn tổng quan về sự phát triển theo thời gian Tính năng đặc biệt là phân tích dữ liệu khách hàng, nhóm hàng và dự đoán kết quả tương lai, thu hút sự quan tâm của nhiều nhà quản lý.
Sự phát triển của ngành công nghệ thông tin đóng vai trò rất quan trọng đối với sự phát triển của nền kinh tế Vì vậy, nên các doanh nghiệp phát triển lĩnh vực này luôn luôn tạo ra những phần mềm hỗ trợ tối đa Điều đó có thể thấy được nhu cầu về tình hình sử dụng công nghệ thông tin trong lĩnh vực phân tích dữ liệu
K Poll ([16])có một khảo sát với số lượng người tham gia là 1103 người, trong đó 43% sử dụng phần mềm thương mại, 32% sử dụng phần mềm miễn phí và 25% cả hai Ba phần mềm phổ biến nhất của năm 2011 là RapidMiner, R và Excel
Hình 1.1 Tỷ lệ % người dùng của các phần mềm phân tích dữ liệu (2010-2011)
(Nguồn: 2011, Top analysis, data mining tool) [16]
Tình hình sử dụng phần mềm thương mại, miễn phí và cả hai loại phần mềm này ở các khu vực trên thế giới Khu vực Tây Âu, Châu Á và Châu Mỹ Latin là ba khu vực có tỷ lệ sử dụng phần mềm miễn phí chiếm tỷ lệ khá cao hơn so với các khu vực khác
Hình 1.2 Tình hình sử dụng các công cụ phần mềm
(Nguồn: 2011, Top analysis, data mining tool) [16]
Các nước trong khu vực Tây Âu là khu vực chiếm tỷ lệ cao nhất so với các khu còn lại về việc sử dụng các công cụ miễn phí
Hình 1.3 Sử dụng phần mềm miễn phí tại các khu vực trên thế giới
(Nguồn: 2011, Top analysis, data mining tool) [16]
1.1.2 Tổng quan về tình hình dự báo chuỗi thời gian tại Việt Nam
Sự phát triển của nền kinh tế Việt Nam có những biến đổi đáng kể bằng chứng là các doanh nghiệp vừa và nhỏ tới những doanh nghiệp lớn đều sử dụng công nghệ thông tin để hỗ trợ các công việc hằng ngày Những dữ liệu thu thập từ những gì mà doanh nghiệp hoạt động, thì những chủ doanh nghiệp thường có nhu cầu xem xét và dựa vào kinh nghiệm thực tế của mình, để đưa ra những quyết định trong công tác quản lý doanh nghiệp Những phần mềm hiện tại mà các doanh nghiệp dùng để hỗ trợ, thông thường thì chỉ có những báo cáo mang ý nghĩa thống kê Mặc dù những doanh nghiệp này đã cố gắng phát triển và tích hợp vào hệ thống phần mềm hiện có, nhưng những báo cáo này cũng chưa đáp ứng được nhu cầu phân tích chuyên sâu để có thể đưa ra quyết định Sản phẩm Accnet BA của Công ty cổ phần tin học Lạc Việt là phần mềm chuyên dùng đề hỗ trợ đủ các loại báo cáo về tài chính, thế nhưng vẫn chưa đáp ứng được các năng như phân tích dữ liệu: phân tích liên quan về nhóm khách hàng, nhà cung cấp, …
Mặc dù các doanh nghiệp nước ngoài cũng đã cung cấp các gói phần mềm tích hợp phân tích dữ liệu, nhưng chi phí triển khai cao, thời gian tương đối lâu và quy trình thực hiện phức tạp IBM đã giới thiệu gói sản phẩm Cognos 10.1 tại Việt Nam, nhưng hiện nay chỉ có Ngân hàng Á Châu (ACB) triển khai thành công Tuy nhiên, về tính năng dự báo, sản phẩm này vẫn còn hạn chế so với các phần mềm chuyên về phân tích dữ liệu.
Tại Việt Nam, lĩnh vực dự báo chuỗi thời gian ngày càng được chú trọng phát triển, đặc biệt ở các mảng: marketing, dự báo doanh thu theo thời gian, phân tích nhu cầu tồn kho của các sản phẩm, … Đa phần các doanh nghiệp có quy mô lớn mới có khái niệm về việc sử dụng các ứng dụng liên quan đến việc phân tích dữ liệu và dự báo chuỗi thời gian cho các hoạt động của doanh nghiệp Một số các doanh nghiệp đã sử dụng: CoopMart, Prudential, Bảo hiểm Bảo Việt, NamVietBank, VietinBank, … Để đáp ứng được vấn đề về phân tích dữ liệu là việc hình thành các trung tâm hoạt động chuyên về phân tích dữ liệu: VIDAC (Trung tâm thông tin và phân tích số liệu Việt Nam), Cedzo (Trung tâm tư vấn doanh nghiệp và phát triển kinh tế vùng), …
Cơ sở hình thành đề tài
Dự báo là quá trình tạo ra quyết định cho một vấn đề nào đó cho tương lai dựa trên dữ liệu lịch sử phát triển [1]
Dự báo nắm giữ vai trò thiết yếu trong mọi khía cạnh quản lý bệnh viện, liên quan tới lập kế hoạch hoạt động, quản lý giường bệnh và quản lý nguồn lực.
Dự báo dữ liệu chuỗi thời gian là một vấn đề được nghiên cứu trong thời gian dài Và là một trong những thành phần quan trọng trong hoạt động nghiên cứu phát triển của tổ chức, bởi vì những dữ liệu từ quá khứ đến hiện tại thường được dùng để cung cấp cho các mô hình quyết định Mô hình dự báo nhu cầu về khách du lịch ghé thăm trong tương lai, hay là mô hình tồn kho yêu cầu ước tính được nhu cầu cần hàng trong thời gian dự kiến, hay là mô hình dự báo nhóm bệnh theo mùa, dự đoán về thị trường chứng khoán, doanh thu…
Dữ liệu chuỗi thời gian là dữ liệu mà các biến quan sát được thu thập theo thời gian với tần suất nhất định tùy theo đặc tính của đối tượng nghiên cứu Dữ liệu chuỗi thời gian được thu thập từ nhiều nguồn khác nhau: các giao dịch của nghiệp vụ, quan sát môi trường, …
• Thu thập theo thời gian với tần suất [3]: o Theo ngày, tuần: chứng khoán, giá vàng, tỷ giá ngoại tệ, … o Theo tháng: doanh thu, năng suất sản xuất, tỷ lệ lạm phát, tỷ lệ thất nghiệp,
… o Theo năm: doanh thu, năng suất sản xuất, ngân sách chính phủ, tốc độ tăng trưởng GDP, … o Dự báo chuỗi thời gian được áp dụng vào một số vấn đề liên quan [4]: Dự báo kinh tế, Dự báo doanh thu bán hàng, Phân tích ngân sách, Phân tích thị trường chứng khoán, Dự đoán về năng suất, Quy trình và quản lý chất lượng, Kiểm kê học, Dự báo khối lượng công việc, Dự báo về dân số, … Đối với ngành y của Việt Nam cũng đã quan tâm đến vấn đề phân tích dữ liệu, cụ thể là tại các trường Đại học Y Dược đều được đào tạo các môn học liên quan đến phân tích số liệu và biểu đồ bằng phần mềm R Dự báo chuỗi thời gian ứng dụng cho các công việc liên quan đến ngành y thì chưa được chú trọng nhiều Các lĩnh vực được phát triển song hành cùng với sự phát triển của công nghệ đều liên quan đến lĩnh vực kinh tế, nhưng lĩnh vực về y cụ thể là những công tác quản lý trong bệnh viện vẫn đang được triển khai Những đối tượng cần thiết đưa vào áp dụng như: doanh thu từ các hoạt động khám chữa bệnh, dự báo sự gia tăng khám bệnh đối với các nhóm bệnh, hiệu suất làm việc của các nhân viên bệnh viện…
=> Đó là những lý do mà chúng tôi chọn đề tài “Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện”.
Mục tiêu đề tài
Nghiên cứu các mô hình thống kê, cụ thể ba phương pháp: kỹ thuật làm trơn, mô hình ARIMA và mô hình mùa SARIMA cho dự báo dữ liệu chuỗi thời gian
Nghiên cứu phần mềm R để dự báo chuỗi thời gian Áp dụng ba phương pháp: kỹ thuật làm trơn, mô hình ARIMA và mô hình mùa SARIMA vào việc dự báo doanh thu của bệnh viện So sánh hiệu quả của ba phương pháp này.
Ý nghĩa đề tài
Chỉ ra được phương pháp thực hiện tối ưu trong việc dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Giới thiệu thêm một công cụ hỗ trợ phân tích dữ liệu chuỗi thời gian tiện dụng và không tốn chi phí mà đem lại hiệu quả.
Phạm vi và giới hạn đề tài
Nghiên cứu được thực hiện trên hai tập dữ liệu thuộc hai đơn vị khác nhau là Phòng khám đa khoa và Trung tâm y tế, đều tại Thành phố Hồ Chí Minh Nghiên cứu phân tích dữ liệu chuỗi thời gian bằng ba phương pháp: kỹ thuật làm trơn mũ, mô hình ARIMA, mô hình mùa SARIMA.
Bố cục luận văn
Bố cục của luận văn này bao gồm sáu chương sau:
Chương I: Giới thiệu – Giới thiệu tổng quan về dự báo chuỗi thời gian được ứng dụng ở các lĩnh vực, lý do nghiên cứu, mục tiêu nghiên cứu, ý nghĩa thực tiễn, phạm vi và giới hạn của đề tài
Chương II: Các công trình liên quan – Trình bày các công trình nghiên cứu liên quan đến dự báo chuỗi thời gian trong lĩnh vực quản lý bệnh viện
Chương III: Phương pháp nghiên cứu – Trình bày phương pháp nghiên cứu và công cụ hỗ trợ quá trình thực hiện luận văn
Chương IV: Cơ sở lý thuyết – Trình bày cơ sở lý thuyết được sử dụng để giải quyết các vấn đề bài toán của luận văn Ở chương này giới thiệu những thước đo dự báo chuỗi thời gian, kỹ thuật làm trơn, mô hình ARIMA, mô hình mùa SARIMA, phần mềm R
Chương V: Kết quả thực nghiệm – Trình bày kết quả nghiên cứu thực nghiệm
Chương VI: Kết luận và kiến nghị – Trình bày kết luận từ kết quả nghiên cứu, nêu lên những hạn chế và hướng nghiên cứu tiếp theo.
CÁC CÔNG TRÌNH LIÊN QUAN
Mô hình Neural Network
Mạng nơ-ron nhân tạo (ANN) là một lĩnh vực nghiên cứu rất lớn trong lĩnh vực trí tuệ nhân tạo, ANN được xem như một hệ thống kết nối tập hợp các ngõ vào (inputs) đến tập hợp các ngõ ra (outputs) qua một hay nhiều lớp nơ-ron, các lớp này được gọi là các lớp ẩn Việc xác định có bao nhiêu ngõ vào, ngõ ra, số lớp ẩn cũng như số lượng nơ-ron của mỗi lớp tạo thành kiến trúc của mạng
Kiến trúc của một ANN cho dự báo chuỗi thời gian được mô phỏng ở Hình 2.1 với
3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo)
Hình 2.1 Kiến trúc của một ANN cho dự báo chuỗi thời gian với 3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo) ([4])
Trong ngữ cảnh chuỗi thời gian, ngõ ra là giá trị của chuỗi thời gian được dự báo, ngõ vào có thể là có giá trị quan sát trước thời điểm dự báo (xác định bởi độ trễ) của chuỗi thời gian và các biến giải thích khác Đối với các ANN một lớp ẩn có H nơ-ron, phương trình tổng quát để tính giá trị dự báo x t (ngõ ra) sử dụng đến các mẫu quan sát quá khứ , , …, làm ngõ vào được viết dưới dạng sau:
• ,,…, biểu thị các trọng số cho kết nối giữa hằng số ngõ vào và các nơ- ron lớp ẩn
• là trọng số kết nối trực tiế giữa ngõ vào hằng số và ngõ ra,
• và là các trọng số của các kết nối khác giữa các ngõ vào và các nơ- ron lớp ẩn giữa các nơ-ron lớp ẩn với ngõ ra
• và là hai hàm kích hoạt lần lượt được sử dụng tại ngõ ra và tại các nơ-ron lớp ẩn
ANN được áp dụng trong dự báo chuỗi thời gian bởi rất nhiều nhà nghiên cứu C.Yeh và các cộng sự năm 2008 ([4]) đã sử dụng mô hình mạng nơ-ron nhân tạo để dự báo về chi tiêu y tế tại Đài Loan
E.Hadavandi và các cộng sự năm 2011 ([5]) đã phát triển mô hình mạng nơ-ron để ứng dụng cho việc dự báo số lượng bệnh nhân tới khám tại bệnh viện.
Các mô hình phân tích thống kê
2.2.1 Các mô hình xu thế
Tổng quan về hàm xu thế
Xu hướng thể hiện sự biến động lên hoặc xuống của dữ liệu theo thời gian Xu hướng này được xây dựng dựa trên đường thẳng (xu hướng tuyến tính) hoặc các dạng đường cong toán học (xu hướng phi tuyến tính) Phân tích hồi quy giúp xác định mối quan hệ giữa giá trị Y tại thời điểm t và thời gian t, được sử dụng như một biến dự đoán Trong phân tích và dự báo kinh tế, xã hội, có hai mô hình xu hướng phổ biến là Mô hình xu hướng tuyến tính và Mô hình tăng trưởng mũ.
Bảng 2.1 Các hàm xu thế
T R O Beringer và các cộng sự năm 2000 ([6]) đã tiến hành nghiên cứu xu hướng và dự báo số lượng người bị gãy xương của các bệnh nhân tại Northern Ireland Phân tích độ tuổi và giới tính được thực hiện hồi qui tuyến tính, hồi qui Poisson và các hàm xu thế
Hình 2.2 Dự báo (2001-2020) số lượng người bị gãy xương tại Northern Ireland của những người trên 50 tuổi và phân theo giới tính.([6])
STT Mô hình Phương trình Hình thức tuyến tính
5 Exponential growth (tăng trưởng mũ) 0 1 b t
Biểu đồ Hình 2.2 thể hiện cả dữ liệu quá khứ và dữ liệu dự đoán số người bị gãy xương đến năm 2016, dựa vào dữ liệu từ năm 1985 đến năm 1997 của nam và nữ từ độ tuổi 50 trở lên và sử dụng ba phương pháp trên để dự đoán
2.2.2 Dự báo bằng phương pháp phân tích
Các phương pháp phân tích (Decomposition methods) hay các mô hình phân tích chuỗi thời gian (Time-series decomposition medols) được sử dụng cả trong dự báo ngắn hạn và dài hạn Phương pháp này là một trong những phương pháp ra đời sớm nhất trong lịch sử của các kỹ thuật dự báo, và hiện nay vẫn còn được sử dụng phổ biến ở các nước phát triển Phân tích chuỗi thời gian cổ điển là cách thức thực hiện chủ yếu dựa trên nền tảng của các phương pháp trung bình di động và dự báo theo hàm xu thế
Robert Champion và các cộng sự năm 2007 ([7]), nghiên cứu về dự báo số ngày điều trị nội trú cho mỗi tháng của bệnh nhân tại tiểu bang Victoria, Úc Để thực hiện nghiên cứu này, nhóm tác giả sử dụng kỹ thuật làm trơn và mô hình ARIMA, nhưng trong quá trình thực hiện đã sử dụng kết hợp với phương pháp phân tích có yếu tố mùa vụ để tìm ra số lượng bệnh nhân cho mỗi giờ của tuần
Bốn thành phần của chuỗi thời gian:
Xu thế: là thành phần thể hiện sự tăng (hoặc giảm) ẩn bên trong của một chuỗi thời gian Thành phần này thường được ký hiệu là Tr, hay T
Chu kỳ là một chuỗi những sự dao động giống như hình sóng và sự dao động này sẽ lặp lại sau một thời kỳ dài hơn một năm Ký hiệu chu kỳ là CI, hay C
Mùa: những dao động mùa vụ rất thường được tìm thấy với dữ liệu theo quý, theo tháng, hoặc thậm chí theo tuần nếu chỉ có dữ liệu theo năm thì không có biến động mùa Sự dao động mùa vụ liên quan đến kiểu thay đổi khá ổn định xuất hiện hàng năm hoặc kiểu thay đổi đó lại được lặp lại ở năm sau, và các năm sau nữa Yếu tố mùa xảy ra do ảnh hưởng của thời tiết, các sự kiện hàng năm kiên quan đến lịch như nghỉ hè, ngày lễ Ký hiệu mùa là Sn, hay S
Ngẫu nhiên/ bất thường: thành phần ngẫu nhiên bao gồm những thay đổi ngẫu nhiên, hay không dự đoán được Thành phần bất thường này xuất hiện có thể do ảnh hưởng của tin đồn, thiên tai, động đất, … Ký hiệu ngẫu nhiên/bất thường là
Phương pháp phân tích được thể hiện ở hai mô hình: mô hình nhân tính và mô hình cộng tính
Mô hình nhân tính xem các giá trị của một chuỗi thời gian (biến Y) được tạo thành bởi tích số của từng thành phần Tr, Cl, Sn, Ir
Mô hình cộng tính xem các giá trị của một chuỗi thời gian (biến Y) được tạo thành bởi tổng của các thành phần Tr, Cl, Sn, Ir
Mô hình nhân tính sẽ phù hợp khi sự biến thiên của chuỗi thời gian tăng dần theo thứ tự của thời gian Mô hình cộng tính có hiệu quả khi chuỗi dữ liệu đang được phân tích có sự biến thiên xấp xỉ đều nhau suốt độ dài của chuỗi thời gian
2.2.3 Dự báo bằng phân tích hồi quy
J.Boyle và các cộng sự năm 2008([2]), dự báo số lượng bệnh nhân nhập viện
Để dự báo nhu cầu, nhóm tác giả đã sử dụng phân tích hồi quy để phân tích và dự đoán dữ liệu Dữ liệu do mô hình tạo ra sau đó được so sánh với dữ liệu đầu vào trong khoảng thời gian 6 tháng Phương pháp này cho kết quả chính xác với 11 biến số, mô hình MAPE hàng tháng đạt 1,79%.
Mô hình hồi quy đơn
Phân tích hồi quy có thể giúp cho người phân tích: ước lượng giá trị trung bình của biến phụ thuộc khi cho trước giá trị một hoặc các biến giải thích; kiểm định các giả thuyết về bản chất của sự phụ thuộc giữa biến độc lập và biến phụ thuộc; dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các biến giải thích; dự báo tác động biên hoặc độ co giãn của một biến độc lập lên biến phụ thuộc thông qua hệ số hồi quy
Mô hình hồi quy tuyến tính cổ điển
E(Y t ) là giá trị trung bình có điều kiện của Y t theo X t , và β 1, β 2 là các tham số chưa biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào thời điểm t của biến quan sát)
Mô hình hồi quy bội
Thông thường trong các mối quan hệ kinh tế hay quản trị, biến phụ thuộc, Y, phụ thuộc vào nhiều biến giải thích khác nhau Mô hình hồi quy bội được thể hiện như sau:
Trong đó, β 1 là hệ số cắt, β 2 , …, β k là các hệ số hồi quy riêng, u t là hạng nhiễu ngẫu nhiên, và t là quan sát thứ t, n là quy mô toàn bộ của tổng thể
2.2.4 Các mô hình dự báo bằng phương pháp Box – Jenkins
Mô hình ARIMA là sự kết hợp giữa mô hình tự hồi quy (AR) và mô hình trung bình di động (MA) Trong mô hình AR, biến $Y_t$ chỉ chịu tác động bởi nhiễu trắng $u_t$ và các biến trễ của chính nó như $Y_{t-1}, Y_{t-2}, Y_{t-3}, $ Mô hình MA thường được biểu diễn dưới dạng MA(q).
Nếu mô hình MA(1), Y t đại diện không chỉ chịu ảnh hưởng của nhiễu trắng, mà bằng cách nào đó có mối liên hệ với các giá trị Y t-1 , Y t-2 , Y t-3 [4]
PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp nghiên cứu
Phương pháp luận của dự báo chuỗi thời gian được đề cập trong cuốn sách [3] về dự báo và phân tích dữ liệu trong kinh tế và tài chính, nội dung cơ bản như sau:
Phương pháp dự báo: chia thành nhóm các phương pháp chính thức và nhóm các phương pháp không chính thức o Nhóm các phương pháp không chính thức phần lớn dựa vào trực giác, cảm tính, phụ thuộc vào kinh nghiệm và khả năng phán đoán của cá nhân Phương pháp này áp dụng khi dự liệu không có đủ thời gian, dữ liệu o Nhóm các phương pháp chính thức được chia thành phương pháp định tính và phương pháp định lượng
Các phương pháp định tính dựa vào kinh nghiệm và phán đoán của những chuyên viên, những người quản lý và những chuyên gia Theo Dayananda chia dự báo định tính thành hai nhóm:
• Các phương pháp thu thập thông tin dự báo từ các cá nhân liên quan đến đối tượng dự báo, bao gồm khảo sát thị trường và tổng hợp lực lượng bán hàng
• Các phương pháp dựa vào các ý kiến của nhóm chuyên gia am hiểu về lĩnh vực cần dự báo, bao gồm ý kiến ban quản lý, phương pháp Delphi, kỹ thuật nhóm định danh, và các kỹ thuật khác
Các phương pháp định lượng dựa vào các mô hình toán và giả định dữ liệu quá khứ cũng như các yếu tố liên quan khác có thể được kết hợp để đưa ra các dự báo đáng tin cậy ở tương lai Chia thành các nhóm: các mô hình chuỗi thời gian và các mô hình nhân quả
3.1.2 Phương pháp luận của dự báo định lượng
Phân lo ạ i ph ươ ng pháp lu ậ n c ủ a d ự báo đị nh l ượ ng
Phương pháp luận của dự báo định lượng
• Phương pháp luận của dự báo chuỗi thời gian: dự báo các giai đoạn quá khứ và dự báo các giai đoạn tương lai
• Phương pháp luận của dự báo nhân quả: xuất phát từ mục tiêu dự báo, người làm dự báo cần dựa trên các lý thuyết, các kinh nghiệm có liên quan, các kinh nghiệm của chuyên gia trong lĩnh vực nghiên cứu, … Bước kế tiếp, xác định các biến số có thể ảnh hưởng đến biến cần dự báo Bước tiếp theo sẽ tiến hành thu thập dữ liệu, xây dựng, ước lượng mô hình, kiểm định giả thuyết và thực hiện dự báo
Hình 3.1 Phương pháp luận của dự báo chuỗi thời gian [3]
Quy trình th ự c hi ệ n d ự báo chu ỗ i th ờ i gian
• Xác định mục tiêu dự báo: xác định các mục tiêu liên quan đến các quyết định cần dựa vào kết quả dự báo
• Xác định biến số cần dự báo: sau khi xác định mục tiêu dự báo thì cần phải xác định chính xác sẽ dự báo điều gì
• Nhận dạng các khía cạnh thời gian: xét tới yếu tố độ dài của thời gian dự báo
• Thu thập và phân tích dữ liệu: dữ liệu dùng để phân tích có thể lấy từ bên trong hoặc bên ngoài tổ chức
• Lựa chọn mô hình: phụ thuộc vào biến số dự báo là gì
• Đánh giá mô hình: sau khi xác định mô hình dự báo, bước tiếp theo là đánh giá mô hình có phù hợp hay không
• Trình bày kết quả dự báo
• Theo dõi kết quả dự báo
• Tập dữ liệu được dùng để dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện của luận văn này là của hai đơn vị: o Phòng khám đa khoa khu công nghiệp Tân Bình o Trung tâm y tế dự phòng – thành phố Hồ Chí Minh
Mỗi tập dữ liệu sử dụng trong phân tích được chia thành hai tập dữ liệu con: tập dữ liệu ước lượng với số lượng dòng dữ liệu chiếm 85% tổng số dòng dữ liệu gốc (tính từ thời điểm bắt đầu) và tập dữ liệu kiểm định với số lượng dòng dữ liệu chiếm 15% tổng số dòng dữ liệu gốc (phần dữ liệu còn lại sau khi lấy để thực hiện ước lượng).
• Đơn vị tính trị giá doanh thu của hai tập dữ liệu là triệu VNĐ Dữ liệu của hai đơn vị này có thể tra cứu ở phụ lục A
Tập dữ liệu của Phòng khám đa khoa khu công nghiệp Tân Bình được thành lập vào những tháng cuối năm 2007 Phòng khám thành lập với mục đích đáp ứng nhu cầu khám chữa bệnh cho công nhân viên và các hộ dân sống trong khu công nghiệp Tân Bình Một số hoạt động đem lại doanh thu bao gồm: khám chữa bệnh và bán thuốc Khám chưa bệnh: khám lâm sàng và cận lâm sàng
Tập dữ liệu về doanh thu phòng khám đa khoa khu công nghiệp Tân Bình được thu thập từ 01/2009 đến 06/2012
Dữ liệu doanh thu của Trung tâm y tế liên quan chủ yếu tới các hoạt động xét nghiệm và khám bệnh Là một trong những trung tâm lớn chuyên về các hoạt động xét nghiệm
Tập dữ liệu về doanh thu trung tâm y tế được thu thập từ 01/2007 đến 12/2010.
Phần mềm hỗ trợ
R là một ngôn ngữ và môi trường lập trình hỗ trợ cho các phân tích thống kê và vẽ đồ thị Nó được tạo ra từ dự án GNU( bởi hai nhà thống kê học Ross Ihaka và Robert Gentleman vào năm 1996), nó cũng giống như ngôn ngữ S và môi trường phát triển tạo ra tại phòng thí nghiệm Bell (tên trước đó là AT&T, nay là Lucent Technologies) bởi John Chambers và các công sự Ngôn ngữ R và S tuy có những điểm khác nhau, nhưng đoạn mã của S có thể hiện ngôn ngữ R mà không cần chỉnh sửa [17]
R cung cấp nhiều dạng thống kê (mô hình tuyến tính và phi tuyến, kiểm tra thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm, ), nhiều kỹ thuật đồ họa tiên tiến và khả năng mở rộng cao.
Phần mềm R hoàn toàn miễn phí và có thể tùy chỉnh thông qua các gói mở rộng "packages" Nó có khả năng biên dịch và chạy trên nhiều nền tảng UNIX và các hệ thống tương tự như FreeBSD và Linux, cũng như Windows và hệ điều hành MacOS.
Theo Wikipedia [18], các phương pháp dự báo được sử dụng trong phân tích dữ liệu chuỗi thời gian của một số phần mềm:
Bảng 3.1 Ứng dụng các phương pháp dự báo của các phần mềm (miễn phí hoặc thương mại)
Product ARIMA GARCH Unit root test
EViews Yes Yes Yes Yes Yes Yes No
R Yes Yes Yes Yes Yes Yes Yes
SAS Yes Yes Yes Yes Yes Yes No
Stata Yes Yes Yes Yes Yes Yes No
Theo bảng thống kê này, phần mềm R là phần mềm miễn phí với đầy đủ các tính năng như những phần mềm thương mại khác về phân tích dữ liệu thông dụng như: Eview, SAS, Stata, SPSS Những phần mềm này được các trường đại học nghiên cứu và đưa vào công tác giảng dạy, chi phí của những phần mềm này khá đắt
Qua quá trình từng làm việc tiếp xúc với các phần mềm phân tích dữ liệu kể trên, tôi thấy phần mềm R đáp ứng được tất cả những yêu cầu mà các phần mềm thương mại cung cấp R là phần mềm miễn phí, nhưng với những tính năng mà nó đem lại trong việc phân tích dữ liệu chuỗi thời gian không thua kém những phần mềm phải trả phí bản quyền Đó là một trong những lý do lựa chọn công cụ hỗ trợ thực hiện luận văn này
Tải phần mềm và tài liệu hướng dẫn sử dụng phần mềm R tại website: http://cran.R-project.org
Thông tin về phần mềm R được sử dụng trong luận văn này: “R version
2.15.1 (2012-06-22), Copyright (C) 2012 The R Foundation for Statistical Computing”.
CƠ SỞ LÝ THUYẾT
Dự báo chuỗi thời gian
4.1.1 Khái niệm dãy số chuỗi thời gian
Chuỗi thời gian là một tập hợp các quan sát được thực hiện tại các thời điểm cụ thể Chuỗi thời gian rời rạc là một loại chuỗi thời gian trong đó các quan sát được thực hiện tại các thời điểm cách đều nhau, tạo thành một tập hợp rời rạc.
Dữ liệu chuỗi thời gian bao gồm các quan sát trên một đơn vị kinh tế tại nhiều thời điểm Số liệu thu thập được sẽ tạo thành một dãy số thời gian.[10]
Dãy số thời gian là một dãy các giá trị của hiện tượng nghiên cứu được sắp xếp theo thứ tự thời gian.[11]
Các phân tích dữ liệu thực nghiệm thu thập tại các thời điểm khác nhau đã đặt ra những thách thức thống kê và suy luận mới, tạo ra nhu cầu phát triển các phương pháp mô hình hóa và suy luận phù hợp.
Hình 4.1 Doanh thu theo quý của Johnson & Johnson, (1960-I, 1980-IV) [13]
4.1.2 Phân tích biến động các thành phần của dãy số thời gian
Giả sử ta có dãy số thời gian dựa trên mô hình nhân: Y = T.S.C.I Phần này ta sẽ đề cập đến việc xem xét biến động từng yếu tố thành phần của dãy số[11]
Số trung bình di động đóng vai trò hạn chế sự biến động ngẫu nhiên, loại bỏ những yếu tố không tuân theo quy luật chung Nhờ đặc tính này, số trung bình di động được ứng dụng để tính toán các chỉ số thời vụ, từ đó thể hiện biến động có tính theo mùa trong dãy số thời gian.
Dãy số trung bình di động tính được sẽ chỉ bao hàm yếu tố xu hướng và chu kỳ vì yếu tố thời vụ và ngẫu nhiên xem như đã bị loại bỏ bởi cách tính trung bình di động Do đó, nếu đem chia từng giá trị của dãy số gốc cho các giá trị tương ứng của dãy số trung bình di động ta sẽ tách riêng được ảnh hưởng của yếu tố thời vụ và ngẫu nhiên
Bằng ký hiệu, ta có:
! : Giá trị quan sát ở thời điểm t
! " : Số trung bình di động ứng với giá trị quan sát ở thời điểm t
Bước tiếp theo loại bỏ yếu tố ngẫu nhiên bằng cách tính chỉ số thời vụ trung bình quý (nếu số liệu hàng quý), hoặc chỉ số thời vụ trung bình tháng (nếu số liệu hàng tháng).Cuối cùng, cần điều chỉnh các chỉ số thời vụ quý (hoặc tháng) sao cho trung bình của chúng bằng 100
Bi ế n độ ng xu h ướ ng Để thể hiện xu hướng của dãy số thời gian có tính chất thời vụ, trước hết ta phải loại bỏ yếu tố thời vụ khỏi dãy số Để loại bỏ biến động thời vụ, ta chia các giá trị thực tế của dãy số cho các chỉ số thời vụ tương ứng
Từ dãy số đã loại bỏ yếu tố thời vụ, ta chọn và xác định các tham số của hàm số thích hợp để thể hiện một cách tốt nhất xu hướng biến động của hiện tượng (phương pháp hàm xu thế)
Yếu tố biến động chu kỳ được thể hiện thông quan các chỉ số chu kỳ Để tính chỉ số chu kỳ, trước hết ta chia các giá trị của dãy số đã loại bỏ biến động thời vụ cho các giá trị của yếu tố xu hướng tương ứng nhằm loại bỏ yếu tố xu hướng, nghĩa là:
Sau đó loại bỏ yếu tố ngẫu nhiên (I) bằng cách dung các chỉ số chu kỳ (I C ) theo cách tính trung bình di động
Không giống như biến động thời vụ xảy ra tương đối đều đặn với chu kỳ 1 năm, biến động chu kỳ khá phức tạp – đôi khi thất thường – cả về biên độ (độ lớn) lẫn chu kỳ biến động, vì thế rất khó, nếu không nói là không thể tiến đoán được Điều đó gây nhiều khó khăn cho việc dự đoán tương lai của hiện tượng
Bi ế n độ ng ng ẫ u nhiên
Sau khi đã có tất cả các yếu tố T, S, C, ta xác định biến động ngẫu nhiên theo công thức:
I i : chỉ số thể hiện yếu tố ngẫu nhiên
Y: giá trị thực tế của hiện tượng
Tóm lại, quá trình phân tích các yếu tố thành phần của dãy số thời gian theo mô hình nhân, Y=T.S.C.I, bao gồm những bước sau:
• Xác định chỉ số thời vụ
• Loại bỏ thời vụ để xác định yếu tố xu hướng
• Loại bỏ xu hướng để xem xét yếu tố chu kỳ
• Cuối cùng, xác định yếu tố ngẫu nhiên.
Đánh giá độ chính xác của dự báo
Độ chính xác của mô hình hồi quy thể hiện qua khả năng dự đoán kết quả gần với thực tế Khoảng chênh lệch càng nhỏ, độ chính xác dự báo càng cao Để đánh giá độ chính xác, cần so sánh dữ liệu dự báo với dữ liệu thực tế Do đó, việc thu thập thêm dữ liệu thực tế mới phát sinh là cần thiết cho quá trình đánh giá này.
Tập dữ liệu sau khi thu thập được từ thực tế sẽ được chia làm hai tập con:
• Mẫu con thứ nhất được dùng để ước lượng mô hình hồi quy, được gọi là mẫu khởi động (hay mẫu khởi tạo, mẫu khởi đầu)
• Mẫu con thứ hai được sử dụng để kiểm tra độ chính xác xác giá trị dự báo của mô hình hồi quy từ mẫu khởi động, được gọi là mẫu kiểm tra (test set)
4.2.2 Các thước đo độ chính xác của mô hình dự báo
Sai số dự báo là một thước đo tìm hiểu giá trị dự báo sẽ gần với giá trị thực tế bao nhiêu Trong thực tế sai số dự báo là chênh lệch giữa những giá trị thực tế và giá trị dự báo tương ứng
* là sai số dự báo trong giai đoạn t
! là giá trị thực tế trong giai đoạn t
!, là giá trị dự báo
Nếu một mô hình dự báo được đánh giá là tốt thì sai số dự báo phải tương đối nhỏ
Sai s ố trung bình (Mean Error: ME)
Trong đó: n là số quan sát của biến dự báo đã đực ước lượng (!, )
Sai s ố ph ầ n tr ă m trung bình (Mean Percentage Error: MPE)
ME và MPE ít được sử dụng để đo lường độ chính xác của dự báo vì các sai số lớn có giá trị dương có thể bị triệt tiêu bởi các sai số lớn có giá trị âm Thật vậy, một mô hình xấu có thể có ME và MPE bằng không Tuy nhiên, ME và MPE lại rất hữu ích trong việc đo lường sự sai lệch của dự báo Một dự báo có ME hay MPE âm có thể cho biết mô hình dự báo đang dự báo quá cao, ngược lại, ME hay MPE dương có thể cho biết mô hình dự báo đang dự báo quá thấp
Sai s ố tuy ệ t đố i trung bình (Mean Absolute Error)
MAE là một thước đo rất hữu ích khi người phân tích muốn đo lường sai số dự báo có cùng đơn vị tính với dữ liệu gốc
Sai s ố ph ầ n tr ă m tuy ệ t đố i trung bình (Mean Absolute Percentage Error)
MAPE là thước đo hữu ích khi độ lớn của biến dự báo có ý nghĩa quan trọng trong việc đánh giá mức độ chính xác của dự báo MAPE cho một chỉ số về độ lớn của sai số dự báo so với giá trị thực của biến số Phương pháp này đặc biệt hữu ích khi Y t có giá trị lớn Ngoài ra, MAPE cũng có thể được dùng để so sánh các phương pháp giống hoặc khác nhau cho hai chuỗi dữ liệu hoàn toàn khác nhau
Sai s ố bình ph ươ ng trung bình (MSE)
Do các sai số được bình phương, nên thước đo MSE dường như "trừng phạt" những sai số dự báo lớn Điều này rất quan trọng để đánh giá độ chính xác của mô hình Ví dụ, một phương pháp có nhiều sai số nhỏ nhưng có một vài sai số lớn bất thường có thể dẫn đến kết quả MSE cao hơn đáng kể so với một phương pháp có sai số nhỏ hơn nhưng ít sai số lớn hơn.
C ă n b ậ c hai c ủ a sai s ố bình ph ươ ng trung bình (Root Mean Squared Error)
Mô hình dự báo thô giản đơn
Trong đó, !,9 là giá trị dự báo ở giai đoạn t+1 trên cơ sở giá trị thực tế ở giai đoạn t Giá trị dự báo thô giản đơn của mỗi giai đoạn đơn giản chỉ là giá trị quan sát của giai đoạn ngay trước đó Như vậy, 100% trọng số được gán cho giá trị hiện tại của dữ liệu (Y t ) khi dự báo cho giai đoạn t+1 Thực vậy, rất nhiều người trong chúng ta hiện đang áp dụng phương pháp dự báo thô giản đơn trong công việc kinh doanh hàng ngày của mình nhưng lại không nghĩ đó là một phương pháp dự báo.
Các mô hình nghiên cứu
Kỹ thuật làm trơn là một tập hợp các phương pháp được sử dụng để làm mịn dữ liệu theo thời gian, giảm nhiễu và phương sai ngẫu nhiên Các phương pháp khác nhau được sử dụng tùy thuộc vào đặc điểm của dữ liệu, chẳng hạn như sự hiện diện hoặc không có xu hướng hoặc tính thời vụ trong chuỗi số.
Ph ươ ng pháp làm tr ơ n m ũ gi ả n đơ n
Phương pháp làm trơn mũ giản đơn thường được sử dụng trong dự đoán ngắn hạn đối với dãy số thời gian không có xu hướng hoặc biến động thời vụ rõ rệt
Mục tiêu đặt ra, ở thời điểm t nào đó, là dựa vào các giá trị thực tế đã biết để ước lượng giá trị hiện tại (thời điểm t) của hiện tượng, và dùng giá trị hiện tại này để dự đoán giá trị tương lai (thời điểm t+1)
Phương pháp làm trơn mũ giản đơn dựa trên cơ sở lấy trung bình tất cả các giá trị quá khứ của chuỗi dữ liệu dưới dạng trọng số giảm dần theo hàm mũ Quan sát gần nhất (với giá trị dự báo) nhận trọng số α (với 0 + # = (4.14) Ước lượng xu thế (độ dốc):
Dự báo p giai đoạn trong tương lai:
L t = Giá trị làm trơn mũ mới (hoặc giá trị ước lượng trung bình hiện tại) : = Hệ số làm trơn mũ của giá trị trung bình (0< : + > = ;1 + ?=# (4.18) Ước lượng giá trị chỉ số mùa
Dự báo p gia đoạn trong tương lai
L t = Giá trị làm trơn mũ mới (hoặc giá trị ước lượng trung bình hiện tại) : = Hệ số làm trơn mũ của giá trị trung bình (0< : #Số lượng dữ liệu dùng để phân tích
> estPK.period = as.integer(lim*nbv/100); estPK.period
> # Số lượng dữ liệu dùng để kiểm định kết quả dự đoán từ các mô hình
> valPK.period = nbv - estPK.period; valPK.period
> #Chia tập dữ liệu dùng để ước tính cho phương pháp kỹ thuật làm trơn, mô hình ARIMA và mô hình mùa SARIMA
> futurePK=window(DTPK,start6); seriesPK=window(DTPK,end5)
> futurePK1 = ts(futurePK, start=c(2011,12), freq); futurePK1 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
> seriesPK1 = ts(seriesPK, start=c(2009,1), freq); seriesPK1 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
Bảng 5.1 Thống kê mô tả dữ liệu PKDK
> #Thông tin thống kê của tập dữ liệu
Min 1st Qu Median Mean 3rd Qu Max
445 895 1232 1323 1786 2333 Ý nghĩa của kết quả thống kê của tập dữ liệu: o Giá trị doanh thu đạt thấp nhất là 445 triệu VNĐ (Min = 445) o Giá trị doanh thu đạt cao nhất là 2333 triệu VNĐ (Max = 2333) o Giá trị trung vị bằng 1232 có nghĩa là 50% số tháng có trị giá doanh thu 1232 triệu VNĐ trợ xuống (hoặc trở lên) (Median = 1232) o Giá trị trung bình của tập dữ liệu này là 1232 triệu VNĐ (Mean = 1232) o Với kết quả thống kê này, ta thấy có hai chỉ số “1st Qu.” và “3rd Qu.” có nghĩa là first quartile - Phần tư thứ nhất (tương đương với vị trí 25%) và third quartile - Phần tư thứ ba (tương đương vị trí 75%)
Phần tư thứ nhất = 895, điều này có nghĩa là có 25% số tháng có trị giá doanh thu đạt bằng hoặc thấp hơn 895 triệu VNĐ
Phần tư thứ ba = 1786, điều này có nghĩa là có 75% số tháng có trị giá doanh thu đạt bằng hoặc thấp hơn 1786 triệu VNĐ
> #Vẽ biểu đồ doanh thu PKDK
> plot(ts(DTPK,start=c(2009,1),freq), ylab='Doanh thu', type="l")
Hình 5.1 Biểu đồ doanh thu PKDK (01/2009 – 06/2012)
Biểu đồ thể hiện sự vận động của doanh thu PKDK trong khoảng thời gian (2009 - 2012) o Doanh thu của PKDK có xu hướng tăng qua các năm, nhìn biểu đồ thấy rõ xu hướng tăng từ năm 2009 so với 2010, 2010 so với 2011 và 2011 so với
2012 o Doanh thu hoạt động của từng quý của các năm cũng có những quy luật riêng:
Quý 1 (từ tháng 1 đến tháng 3):
• Trong quý 1, tháng 1 là tháng có doanh thu thấp nhất so với 2 tháng còn lại, và tháng 2 thấp hơn tháng 3 Quý 1 doanh thu có xu hướng tăng
Quý 2 (từ tháng 4 đến tháng 6): doanh thu các tháng của quý có biểu hiện tăng giảm nhẹ
Quý 3 (từ tháng 7 đến tháng 9): doanh thu có xu hướng tăng giảm tương tự như quý 2 nhưng trị giá thì cao hơn
Quý 4 (từ tháng 10 đến 12): doanh thu có xu hướng giảm
> #Vẽ đồ thị phân tán mô tả doanh thu PKDK
> #Vẽ biểu đồ thống kê tần suất
> hist(DTPK,col = "light blue")
> #Vẽ biểu đồ phân phối chuẩn
> qqnorm(DTPK);qqline(DTPK, col = 'red')
Hình 5.2 Biểu đồ thể hiện tần số và phân phối chuẩn của doanh thu PKDK
Cả hai biểu đồ thể hiện tần số và biểu đồ phân phối chuẩn của doanh thu PKDK đều không có đạng phân phối chuẩn
Bảng 5.2 Thông tin tần số của doanh thu PKDK
> hist(DTPK, plotSE)$breaks; hist(DTPK, plotSE)$counts [1] 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400
[1] 3 3 10 3 6 5 1 4 3 4 o Tần số lặp lại của các tháng có trị giá doanh thu trong [800:1000] có tần số lặp lại cao nhất là 10 lần o Tần số lặp lại của các tháng có trị giá doanh thu [1200:1400] có tần số lặp lại cao thứ hai là 6 lần
Tần suất xuất hiện của các tháng có doanh thu nằm trong khoảng [1400:1600] là cao thứ ba với 5 lần lặp lại Trong khi đó, các khoản doanh thu trong các khoảng [400:600], [600:800], [1000:1200] và [1800:2000] đều xuất hiện 3 lần Trái ngược với tần suất cao, các khoảng doanh thu [2000:2200] và [2200:2400] chỉ xuất hiện 1 lần, cho thấy tần suất thấp Đáng chú ý là không có tháng nào có doanh thu trong khoảng [1600:1800].
> #Vẽ giản đồ tự tương quan
Hình 5.3 Biểu đồ tương quan của doanh thu PKDK (01/2009-06/2012)
Biểu đồ tự tương quan cho thấy ACF giảm rất chậm, ACF tới 13 độ trễ đều nằm ngoài giới hạn tin cậy
5.1.2 Trung tâm y tế Đọ c d ữ li ệ u vào R và phân chia d ữ li ệ u
Load dữ liệu doanh thu Trung tâm y tế từ file csv vào phần mềm
Phân chia dữ liệu gốc thành 2 tập dữ liệu dùng để ước lượng cho các phương pháp (kỹ thuật làm trơn mũ, mô hình ARIMA và mô hình mùa SARIMA) và kiểm tra độ chính xác từ các phương pháp Tỷ lệ phân chia giữa tập dữ liệu dùng để ước lượng từ các phương pháp và tập dữ liệu kiểm tra độ chính xác so với tập dữ liệu gốc lần lượt là 85% và15%
> # Load Dữ liệu phân tích TTYT từ file csv vào R
> DTYTe DTYTe[1:10,] #10 dòng dữ liệu đầu tiên
> #Tạo tập dữ liệu doanh thu TTYT lấy giá trị cột hai từ DTYTe
> nyt = length(DTYT); nyt #Số lượng tập dữ liệu
> lim = 85 #Tỷ lệ % Số lượng dữ liệu dùng để phân tích
> # Số lượng dữ liệu dùng để phân tích
> estYT.period = as.integer(lim*nyt/100); estYT.period
> # Số lượng dữ liệu dùng để kiểm định kết quả dự đoán từ các mô hình
> valYT.period = nyt - estYT.period; valYT.period
> futureYT=window(DTYT,startA); seriesYT=window(DTYT,end@)
> futureYT1 = ts(futureYT, start=c(2010,5), freq); futureYT1 May Jun Jul Aug Sep Oct Nov Dec
> seriesYT1 = ts(seriesYT, start=c(2007,1), freq); seriesYT1 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
Bảng 5.3 Thống kê mô tả dữ liệu TTYT
> summary(DTYT) #Thông tin thống kê của tập dữ liệu
Min 1st Qu Median Mean 3rd Qu Max
Giá trị doanh thu thấp nhất là 649 triệu VNĐ, cao nhất là 4325 triệu VNĐ Giá trị trung vị là 1847 triệu VNĐ, nghĩa là 50% số tháng có doanh thu từ 1847 triệu VNĐ trở lên Giá trị trung bình là 1838 triệu VNĐ Ngoài ra, tập dữ liệu còn có hai chỉ số "1st Qu." và "3rd Qu." tương ứng với tứ phân vị thứ nhất (vị trí 25%) và tứ phân vị thứ ba (vị trí 75%).
Tứ phân đầu tiên (First quartile) = 1418, điều này có nghĩa là có 25% số tháng có trị giá doanh thu đạt bằng hoặc thấp hơn 1418 triệu VNĐ
Tứ phân thứ ba (Third quartile) = 2114, điều này có nghĩa là có 75% số tháng có trị giá doanh thu đạt bằng hoặc thấp hơn 2114 triệu VNĐ
> #Vẽ biểu đồ doanh thu TTYT
> plot(ts(DTYT,start=c(2007,1),freq), ylab='Doanh thu', type="l)
Hình 5.4 Biểu đồ Doanh thu TTYT (01/2007 – 12/2010)
Biểu đồ thể hiện sự vận động của doanh thu trung tâm y tế trong khoảng thời gian (2007 - 2010)
- Doanh thu của trung tâm y tế có xu hướng tăng qua các năm, cụ thể là ta thấy tại các điểm thấp nhất từng năm đều rơi vào tháng 2, nhưng tháng 2 của năm 2007 thấp hơn 2008 Thứ tự xếp hạng doanh thu của tháng 2 trong các năm là: 2/2007
- Doanh thu của các tháng của các năm cũng có xu hướng doanh thu tăng giảm tương tự giống với tháng 2.Doanh thu hoạt động của từng quý của các năm cũng có những quy luật riêng: o Quý 1 (từ tháng 1 đến tháng 3): Doanh thu tháng 1 cao, đến tháng 2 thì doanh thu bắt đầu giảm mạnh nhất trong quý cũng như của năm, qua tháng 3 thì doanh thu bắt đầu tăng Điều này đúng cho cả các năm 2007,
Trong năm 2007, 2008, 2009 và 2010, doanh thu có sự biến động theo từng quý Quý 2 thường chứng kiến doanh thu giảm vào tháng 4 so với tháng 3, sau đó giảm vào tháng 5 và tăng trở lại vào tháng 6 Trong khi đó, xu hướng tăng trưởng trong quý 3 (tháng 7-9) và quý 4 (tháng 10-12) của mỗi năm lại có sự khác biệt.
> qqnorm(DTYT);qqline(DTYT, col = 'red') #Biểu đồ phân phối chuẩn
> hist(DTYT,col = "light blue") #Biểu đồ thống kê tần suất
Hình 5.5 Biểu đồ thể hiện tần số và phân phối chuẩn của doanh thu TTYT
Cả hai biểu đồ thể hiện tần số và biểu đồ phân phối chuẩn của doanh thu PKDK đều không có đạng phân phối chuẩn
Bảng 5.4 Thông tin tần số của doanh thu TTYT
> hist(DTYT, plotSE)$breaks; hist(DTYT, plotSE)$counts [1] 500 1000 1500 2000 2500 3000 3500 4000 4500
Tần suất doanh thu được phân bổ chủ yếu ở các tháng có doanh thu từ 1000 đến 1500 đồng, chiếm 16 lần xuất hiện Tiếp đến là các tháng có doanh thu từ 1500 đến 2000 đồng với tần suất 11 lần và từ 500 đến 1000 đồng đạt 8 lần xuất hiện Ở mức doanh thu cao hơn, tần suất giảm dần; cụ thể là các tháng có doanh thu từ 2000 đến 2500 đồng là 6 lần và hiếm nhất là mức doanh thu từ 2500 đến 3000 đồng với chỉ 2 lần xuất hiện.
> #Vẽ giản đồ tự tương quan
Hình 5.6 Biểu đồ tương quan của doanh thu TTYTBiểu đồ tương quan cho thấy ACF tại các độ trễ 1, 2, 4, 5, 6, 11 và 13 đều nằm ngoài giới hạn tin cậy.
Tập dữ liệu Phòng khám đa khoa
5.2.1 Phương pháp kỹ thuật làm trơn
Trước khi sử dụng các phương pháp làm trơn, việc đầu tiên là ta phải load thư việc TTR trong gói TTR và forecast trong gói forecast
Biểu đồ dữ liệu doanh thu phòng khám đã được làm trơn bằng phương pháp trung bình di động với n = 5
> plot(smPK,type="l", main='Biểu đồ dữ liệu PKDK sau khi làm trơn')
Hình 5.7 Biểu đồ dữ liệu doanh thu PKDK đã được làm trơn bằng phương pháp trung bình di động với n=5 Dựa vào Hình 5.7, ta có thể thấy xu hướng của dữ liệu doanh thu PKDK Nhìn chung, dữ liệu có xu hướng tăng mặc dù có hai giai đầu các năm 2010 và 2011 Vì dữ liệu có xu hướng nên ta sẽ áp dụng mô hình làm trơn theo hàm mũ bằng phương pháp làm trơn mũ Holt và phương pháp làm trơn mũ Holt-Winters
K ỹ thu ậ t làm tr ơ n m ũ Holt Để sử dụng phương pháp làm trơn mũ Holt thì ta sử dụng hàm HoltWinters() và thiết lập gamma = FALSE.
> #Mô hình kỹ thuật làm trơn mũ Holt
> modelHoltPK1 modelHoltPK1$fitted[1:5,] xhat level trend
Vẽ biểu đồ cho giá trị làm trơn
> #Biểu đồ doanh thu thực tế so với doanh thu dự đoán từ mô hình
> plot(modelHoltPK1,type="l", main='Doanh thu thực tế & Doanh thu theo Mô hình modelHoltPK1')
Hình 5.8 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK theo phương pháp làm trơn mũ Holt Biểu đồ cho thấy khoảng chênh lệnh giữa giá trị làm trơn và giá trị thực tế có những khoảng gần nhau (ví dụ 02/2010 đến 04/2010) nhưng cũng có những khoảng xa nhau (ví dụ tháng 10/2009 đến 01/2010)
Doanh thu thuc te & Doanh thu theo mo hinh modelHoltPK1
So sánh dữ liệu thật và dữ liệu làm trơn
Vẽ chung đường làm trơn và đường dữ liệu thực tế bằng cách thống nhất một trục tọa độ dùng chung cho cả 2 đường, giá trị lớn nhất và nhỏ nhất của 2 đường để làm trục tọa độ y
> #Giá trị nhỏ nhất của tập dữ liệu thật và dữ liệu làm trơn
> yminPK1 = Min(seriesPK1,modelHoltPK1$fitted[1:estPK.period]); yminPK1
> ##Giá trị lớn nhất của tập dữ liệu thật và dữ liệu làm trơn
> ymaxPK1 = Max(seriesPK1,modelHoltPK1$fitted[1:estPK.period]); ymaxPK1
> #Biểu đồ dữ liệu thật
> plot(seriesPK1, col="blue", ylim=c(yminPK1,ymaxPK1),type="l", ylab="Doanh thu")
> par(new=TRUE) #Hàm kết nối hai biểu đồ
> #Biểu đồ dữ liệu làm trơn theo mô hình Holt
> plot(modelHoltPK1$fitted[1:35], col=2, axesSE, type="l", ylab = "Doanh thu", xlab="Time", ylim=c(yminPK1,ymaxPK1)
Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK tại 35 điểm được biểu thị theo phương pháp làm trơn mũ Holt nêu rõ sự phụ thuộc của giá trị doanh thu thực vào các giá trị cực đại, cực tiểu và ước lượng Khoảng chênh lệch giữa các giá trị này được thể hiện rõ ràng trên biểu đồ.
Vẽ biểu đồ về các ước lượng xu hướng và ước lượng mức độ, ta thực hiện như sau:
Hình 5.10 Biểu đồ về các ước lượng xu hướng và ước lượng mức độ của phương pháp làm trơn mũ Holt
Dự báo chuỗi thời gian Để thực hiện dự báo doanh thu từ phương pháp làm trơn mũ Holt ta thực hiện các đoạn lệnh và kết quả thu được tương ứng như sau:
> #Tập giá trị dự đoán từ mô hình, với khoảng dự đoán = số lượng dữ liệu để kiểm định valPK.period
> HoltResultPK1=forecast.HoltWinters(modelHoltPK1,h= valPK.period)
> HoltResultPK1$residuals[1:5] #5 giá trị đầu của sai số dự báo [1] -8.00000 -37.39811 85.05513 -140.99562 -167.58261
> HoltResultPK1 #Kết quả dự báo từ mô hình
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
> plot(HoltResultPK1, ylab='Doanh thu', xlab='Time')
Hình 5.11 Biểu đồ dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK theo phương pháp làm trơn mũ Holt Biểu đồ thể hiện giá trị doanh thu ước lượng từ mô hình, khu vực màu cam là khu vực ước đoán ở mức 95% và màu vàng là khu vực 80%
So sánh giá trị dự báo và giá trị thực tế
Ta cũng thực hiện tương tự giống với cách so sánh giá trị làm trơn và giá trị thật, thực hiện bằng các đoạn lệnh sau:
> plot(futurePK1 , type="l", ylim=c(yminPK11,ymaxPK11), ylab =
> plot(ForecastHoltPK1,col=2, axesSE, type="l", ylab="Doanh thu", xlab="Time", ylim=c(yminPK11,ymaxPK11), main="PKDK: Actual
Hình 5.12 Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương pháp làm trơn mũ Holt Biểu đồ thể hiện giá trị dự báo trong 7 tháng theo phương pháp làm trơn mũ Holt với giá trị thực tế để kiểm định: qua biểu đồ này ta thấy giá trị ước đoán và giá trị kiểm định lại không khớp với nhau Đường thể hiện giá trị dự đoán màu đỏ cho thấy dữ liệu chỉ dựa vào những kết quả cho trước, nên xu hướng là không đổi và ngày càng tăng Đánh giá dữ liệu Đánh giá mô hình sử dụng hàm criteriaForecast(), hàm này có thể tham khảo tại phụ lục G, và thực hiện như sau:
MAE MSE RMSE MAPE MPE 1.698302e+02 5.013489e+04 2.239082e+02 8.755515e-02 -4.873609e-02
K ỹ thu ậ t làm tr ơ n m ũ Winters Để sử dụng phương pháp làm trơn mũ Winters thì ta sử dụng hàm HoltWinters()như sau:
> #Mô hình kỹ thuật làm trơn mũ Holt-Winters
Holt-Winters exponential smoothing with trend and additive
Smoothing parameters: alpha: 0.02614712 beta : 1 gamma: 1
Kết quả trả ra từ R cho thấy hai giá trị phù hợp cho trọng số làm trơn α và β, với α=0.026, β=1 và γ=1 Với β=1 và γ=1, điều này thể hiện yếu tố xu hướng và yếu tố mùa vụ tác động mạnh đến doanh thu xuất hiện khá rõ với trị giá của hệ số tương đối cao, và hệ số α=0.026 cho thấy dữ liệu ít chịu tác động bởi yếu tố giá trị trung bình Để xem giá trị ước lượng mức độ và ước lượng xu hướng thì ta kiểm tra bằng cách truy xuất thành phần fitted của đối tượng Winters
> modelHoltPK2$fitted[1:5,] xhat level trend season
> #Biểu đồ doanh thu thực tế so với doanh thu dự đoán từ mô hình
> plot(modelHoltPK2,type="l", main='Doanh thu thuc te & Doanh thu theo Mô hình modelHoltPK2')
Hình 5.13 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK theo phương pháp làm trơn mũ Winters
Phương pháp làm trơn mũ Winters cho thấy sự chênh lệch giữa giá trị làm trơn và trị giá thực tế là gần
So sánh dữ liệu thật và dữ liệu làm trơn
Thực hiện tương tự như cách so sánh dữ liệu thật và dữ liệu làm trơn bằng phương pháp làm trơn mũ Holt
> #Giá trị nhỏ nhất của tập dữ liệu thật và dữ liệu làm trơn
> yminPK2 = Min(seriesPK1,modelHoltPK2$fitted[1:estPK.period]); yminPK2
> #Giá trị lớn nhất của tập dữ liệu thật và dữ liệu làm trơn
> ymaxPK2 = Max(seriesPK1,modelHoltPK2$fitted[1:estPK.period]); ymaxPK2
> #Biểu đồ dữ liệu thật
> plot(seriesPK1, col="blue", ylim=c(yminPK2,ymaxPK2), type="l", ylab='Doanh thu')
> #Hàm kết nối hai biểu đồ dữ liệu thật và dữ liệu làm trơn
> #Biểu đồ dữ liệu làm trơn theo mô hình Holt-Winters
> plot(modelHoltPK2$fitted[1:35], col=2, axesSE, type="l", ylab="Doanh thu", xlab="Time", ylim=c(yminPK2,ymaxPK2)
Biểu đồ 5.14 minh họa sự so sánh giữa giá trị doanh thu thực tế và giá trị doanh thu được làm trơn theo phương pháp làm trơn mũ Winters tại 35 điểm Kết quả cho thấy khoảng cách chênh lệch giữa giá trị doanh thu thực tế và giá trị ước lượng là rất lớn khi thực hiện làm trơn theo phương pháp làm trơn mũ Winters.
Vẽ biểu đồ về các ước lượng xu hướng và ước lượng mức độ, ta thực hiện câu lệnh sau:
Hình 5.15 Biểu đồ về các ước lượng xu hướng, ước lượng mức độ và ước lượng mùa vụ của phương pháp làm trơn mũ Winters
Dự báo chuỗi thời gian
Các câu lệnh và kết quả trả ra tương ứng từng đoạn lệnh được thực hiện như sau:
> #Tập giá trị dự đoán từ mô hình, với khoảng dự đoán = số lượng dữ liệu để kiểm định valPK.period
> HoltResultPK2=forecast.HoltWinters(modelHoltPK2, h=valPK.period)
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
> plot(HoltResultPK2, ylab='Doanh thu', xlab='Time')
Biểu đồ 5.16 mô tả dự báo doanh thu phương pháp làm trơn mũ Winters, cho các khoảng thời gian tiếp theo Biểu đồ gồm các đường màu: đường màu cam biểu diễn vùng ước lượng 95% độ tin cậy và đường màu vàng biểu diễn vùng ước lượng 80% độ tin cậy Giá trị doanh thu ước lượng từ mô hình nằm trong khu vực giữa các đường này.
So sánh giá trị dự báo và giá trị thực tế
Ta cũng thực hiện tương tự giống với cách so sánh giá trị làm trơn và giá trị thật, thực hiện bằng các đoạn lệnh sau:
> win.graph(width=7,height=4,pointsize=9)
> plot(futurePK1 , type="l", ylim=c(yminPK21,ymaxPK21), ylab='Doanh thu')
> plot(ForecastHoltPK2,col=2, axesSE, type="l", ylab="Doanh thu", xlab="Time", ylim=c(yminPK21,ymaxPK21), main="PKDK: Actual
Hình 5.17 Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương pháp làm trơn mũ Winters Biểu đồ thể hiện giá trị dự báo trong 7 tháng theo phương pháp làm trơn mũ Winters với giá trị thực tế để kiểm định: qua biểu đồ này ta thấy giá trị ước đoán (đường màu đỏ) và giá trị kiểm định (màu đen) lại không khớp với nhau Đánh giá dữ liệu Để đánh giá kết quả dự báo so với giá trị thật, trước tiên ta tạo hàm criteriaForecast() tham khảo tại phụ lục G và thực hiện như sau:
MAE MSE RMSE MAPE MPE 1.735483e+02 5.283631e+04 2.298615e+02 8.799934e-02 2.701944e-02 Đ ánh giá ph ươ ng pháp c ủ a k ỹ thu ậ t làm tr ơ n m ũ
> #So sánh kết quả các chỉ tiêu so sánh đánh giá mô hình
> rbind(modelHoltPK1 = valHoltPK1, modelHoltPK2 = valHoltPK2) MAE MSE RMSE MAPE MPE modelHoltPK1 169.8302 50134.89 223.9082 0.08755515 -0.04873609 modelHoltPK2 173.5483 52836.31 229.8615 0.08799934 0.02701944
Phương pháp MAE MSE RMSE MAPE MPE
Dữ liệu phòng khám đa khoa
D o a n h t h u Đối với tập dữ liệu doanh thu phòng khám đa khoa từ 01/2009 đến 06/2012 thì phương pháp làm trơn mũ Holt là phương pháp cho kết quả khả quan nhất với các hệ số đánh giá MAE, MSE, RMSE, MAPE và MPE thấp hơn phương pháp làm trơn mũ Winters
Trước khi sử dụng các mô hình của ARIMA, việc đầu tiên là ta phải load thư viện TSA trong gói TSA và TTR trong gói TTR Hai thư viện TSA và TTR áp dụng cả cho các mô hình SARIMA
Vẽ các biểu đồ doanh thu PKDK dựa theo dữ liệu dùng để áp dụng cho các phương pháp dự báo gồm biểu đồ doanh thu theo số thứ tự của dữ liệu và “Thời gian”
> win.graph(width=6,height=4,pointsize=8)
> plot(seriesPK, type='l', ylab='Doanh thu PKDK')
> plot(seriesPK1, type='l', ylab='Doanh thu PKDK', xlab='Thời gian')
Hình 5.18 Biểu đồ doanh thu PKDK của 35 điểm
Hình 5.19 Biểu đồ doanh thu PKDK (01/2009 – 11/2011)
Biểu đồ thể hiện doanh thu bệnh viện từ 01/2009 đến 11/2011 là chuỗi dữ liệu có xu h ướ ng và tính mùa
- Các tháng từ 01 đến 03 của các năm thường có xu hướng tăng cao
- Các tháng từ 04 đến 06 của các năm thường có xu hướng tăng nhẹ so với 3 tháng đầu năm
- Các tháng từ 07 đến 09 của các năm thường có xu hướng tăng và giảm
- Các tháng từ 10 đến 12 của các năm thường có xu hướng giảm
Tập dữ liệu Trung tâm y tế
Dữ liệu được sử dụng trong các phân tích này được thu thập từ Trung tâm y tế trong khoảng thời gian từ tháng 01/2007 đến tháng 04/2010 Dữ liệu này được sử dụng để đánh giá kết quả dự báo từ tháng 05/2010 đến tháng 12/2010.
5.3.1 Phương pháp kỹ thuật làm trơn
Các bước thực hiện từ việc xác định mô hình, so sánh dữ liệu thật và dữ liệu dự báo, dự báo chuỗi thời gian và đánh giá dữ liệu của các phương pháp kỹ thuật làm trơn mũ (kỹ thuật làm trơn mũ giản đơn, kỹ thuật làm trơn mũ Holt, kỹ thuật làm trơn mũ Winters), được thực hiện tương tự giống với tập dữ liệu PKDK Cách thực hiện được trình bày tại phu lục D Đánh giá các chỉ tiêu dự báo đối với các phương pháp kỹ thuật làm trơn mũ:
> #So sánh kết quả các chỉ tiêu so sánh đánh giá mô hình
> rbind(modelHoltYT1=valHoltYT1, modelHoltYT1=valHoltYT1, modelHoltYT2=valHoltYT2)
MAE MSE RMSE MAPE MPE modelHoltYT1 1310.7303 2617435.6 1617.8491 0.4574768 0.45747675 modelHoltYT2 613.8869 464424.1 681.4867 0.2522695 -0.16129155
Phương pháp MAE MSE RMSE MAPE MPE
Dữ liệu trung tâm y tế
Trong dự đoán giá trị thời gian chuỗi doanh thu trung tâm y tế từ năm 2007 đến 12/2010, phương pháp làm trơn mũ Holt-Winters với các hệ số đánh giá MAE, MSE, RMSE, MAPE và MPE thấp nhất cho kết quả khả quan hơn so với các phương pháp làm trơn khác.
Vẽ các biểu đồ doanh thu TTYT dựa theo dữ liệu dùng để áp dụng cho các phương pháp dự báo gồm biểu đồ doanh thu theo số thứ tự của dữ liệu và “Thời gian”
> win.graph(width=6,height=4,pointsize=9)
> plot(seriesYT, type='l', main='Doanh thu Trung tam y te', ylab='Doanh thu')
> plot(seriesYT1, type='l', main='Doanh thu Trung tam y te', ylab='Doanh thu', xlab='Thoi gian')
Hình 5.32 Biểu đồ doanh thu TTYT của 40 điểm
Hình 5.33 Biểu đồ doanh thu TTYT (01/2007 – 4/2010)
Biểu đồ thể hiện doanh thu trung tâm y tế với 48 mốc thời gian (từ 01/2007 đến 4/2010) là chuỗi dữ liệu có xu h ướ ng và tính mùa
- Doanh thu tháng 01 của các năm (2007->2010) luôn cao hơn doanh thu của tháng 02 Đến tháng 3 thì doanh thu bắt đầu tăng trở lại, sang tháng 4 thì doanh thu giao động giảm nhẹ
- Doanh thu từ 2007 đến năm 2010 có xu hướng tăng
Dựa vào kết quả mô phỏng từ biểu đồ doanh thu PKDK (01/2007 – 4/2010) là chuỗi dữ liệu không dừng vì có yếu tố xu hướng và yếu tố mùa Để kiểm định lại nhận định trên ta tiến hành phân tích biểu đồ giản tự tương quan của tập dữ liệu mẫu bằng những câu lệnh như sau:
Bi ể u đồ t ươ ng quan ACF
> #Vẽ biểu đồ tương quan
Hình 5.34 Biểu đồ tương quan của doanh thu TTYT (01/2007-04/2010)
Hệ số ACF của tập dữ liệu mẫu giảm rất chậm, từ độ trễ 1, 2 và 5 nằm ngoài giới hạn tin cậy
Dựa vào biểu đồ thể hiện doanh thu và biểu đồ hàm tự tương quan, ta có thể kết luận chuỗi thời gian của tập dữ liệu doanh thu TTYT là chuỗi dữ liệu có xu hướng và tính mùa (chuỗi không dừng) Để dự báo doanh thu trong từng tháng thì cần phải có bức tranh khái quát về doanh thu hoạt động các tháng trong tương lai của TTYT, thì ta cần loại bỏ yếu tố xu hướng và mùa vụ của tập dữ liệu này trước khi vận dụng mô hình ARIMA vào
A C F việc dự báo Việc loại bỏ tính xu hướng và mùa vụ của tập dữ liệu ta có thể tiến hành lấy sai phân hoặc log
Lo ạ i b ỏ y ế u t ố xu h ướ ng và mùa v ụ
Phương pháp sử dụng sai phân bậc 1 cho tập dữ liệu
Biểu đồ dữ liệu doanh thu trung tâm y tế sau khi lấy sai phân bậc 1
> #Biểu đồ dữ liệu sau khi lấy sai phân bậc 1
> plot(seriesYT.diff, type='l',main='Dữ liệu sau khi lấy sai phân bậc 1')
Hình 5.35 Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 1
Sau khi lấy sai phân bậc 1, biểu đồ dữ liệu vẫn dao động trong khoảng (-1000,1000) nhưng có nhiều điểm vượt ra ngoài phạm vi này Điều này cho thấy dữ liệu sau khi lấy sai phân bậc 1 vẫn còn chứa yếu tố xu hướng và mùa vụ, chưa được loại bỏ hoàn toàn.
Vì vậy, ta tiếp tục lấy sai phân bậc hai cho tập dữ liệu
> seriesYT.diff2 = diff(diff(seriesYT))
> plot(seriesYT.diff2, type='l',main='Dữ liệu sau khi lấy sai phân bậc 2')
Hình 5.36 Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 2
Sau khi lấy sai phân bậc hai, chuỗi dữ liệu đã dừng (các giá trị dao động quanh giá trị [-3000:3000])
Bi ể u đồ t ươ ng quan ACF và t ươ ng quan riêng ph ầ n PACF c ủ a d ữ li ệ u TTYT m ẫ u sau khi l ấ y sai phân b ậ c 2
> op op plot(seriesYT, ylab = 'seriesYT', type = 'o'); plot(log(seriesYT), ylab = 'Log(seriesYT)', type = 'o')
> mtext("log(seriesYT)levels", line = 2.5, font = 2, cex = 1.2)
> op plot(seriesYT1, ylab = 'seriesYT1', type = 'o'); plot(log(seriesYT1), ylab = 'Log(seriesYT1)', type = 'o')
> mtext("log(seriesYT1)levels", line = 2.5, font = 2, cex = 1.2)
Hình 5.38 Biểu đồ doanh thu TTYT mẫu (theo số điểm) trước và sau khi lấy log
Hình 5.39 Biểu đồ doanh thu TTYT mẫu (theo thời gian) trước và sau khi lấy log
Biểu đồ doanh thu của tập dữ liệu trước và sau khi lấy log cho thấy:
- Biểu đồ doanh thu trước khi lấy log thì chuỗi dữ liệu này là chuỗi chưa dừng
- Biểu đồ doanh thu sau khi lấy log cho thấy chuỗi dữ liệu vấn còn xuất hiện yếu tố xu hướng và yếu tố mùa Vì vậy, bước tiếp theo ta lấy sai phân bậc 1 cho tập dữ liệu sau khi lấy log
Vẽ biểu đồ dữ liệu sau khi lấy log và sai phân bậc 1
> plot(diff(log(seriesYT)), ylab = 'Difference of Log(seriesYT)', type = 'o')
Hình 5.40 Biểu đồ dữ liệu TTYT sau khi lấy log và sai phân bậc 1
Kết quả nghiên cứu
Dựa vào kết quả thực nghiệm của phương pháp kỹ thuật làm trơn mũ, mô hình ARIMA và mô hình mùa SARIMA đối với hai tập dữ liệu Phòng khám đa khoa và Trung tâm y tế, thì mô hình ARIMA cho kết quả dự báo tốt hơn phương pháp kỹ thuật làm trơn mũ Phương pháp kỹ thuật làm trơn là phương pháp đơn giản và dễ sử dụng nhất so với hai phương pháp còn lại, nhưng kết quả lại không tốt bằng phương pháp sử dụng mô hình ARIMA Đối với tập dữ liệu dưới 5 năm nên số lượng yếu tố mùa vụ thể hiện trong các tập dữ liệu tương đối ít, vì vậy kết quả dự báo của mô hình SARIMA đối với hai tập dữ liệu trên là không tốt bằng mô hình ARIMA Để tổng kết lại quá trình thực hiện nghiên cứu thực nghiệm của chương này sẽ được tóm tắt lại ở chương tiếp theo.