BO KHOA HOC CONG NGHE VA MOI TRUONG
CHƯƠNG TRÌNH NHÀ NƯỚC VỀ DIEN TU - TIN HOC - VIEN THONG
BE TAI KHCN-01.09
BAO CAO KET QUA DE TAI KHCN-01.09.04 NGHIEN CUU CAC CONG CU VA
PHUONG PHAP TIEN TIEN
PHUC VU XAY DUNG, THIET KE CAC HE THONG THONG TIN VA DU BAO
-II-
+ Coquanchaquan : BỘ QUỐC PHÒNG
„ Cơ quan chủ tr : HỌC VIÊN KTQS
Trang 3Mục lục Mở đầu Chương I Nhép mén khoa học dự báo 1.1 Bản chất và ứng dụng của dự báo 1.2 Khái niệm về bài toán dự báo 1.3 Các phương pháp dự báo 1.4 Mô hình chuỗi thời gian
Chương II Các phương pháp dự báo đơn giản 2.1 Các phương pháp đơn giản nhất
2.2 Trung bình trượt
2.3 Phân tích hồi qui
2.4 Vài nét về hồi qui phi tuyến Chuong III Phương pháp Ia trơn mũ 3.1 Là trơn mũ đơn cho quá trình hằng số
3.2 Là trơn mũ kép cho quá trình xu thế tuyến tính
3.3 Là trơn mũ bậc cao
3.4 Lựa chọn mô hình và hằng số là trơn
3.5, Là trơn trực tiếp
3.6 Dự báo ‘
Chuong IV Qud trinh tu héi quy - trung bình trượt tổng hỗn hợp
(phương pháp Box ~ Jenkins) 4.1 Một số mô hình dãy số thi gian 4.2 Nhận dạng mô hình 4.3 Ước lượng tham số 4.4 Kiểm tra phù hợp 4.5 Dự báo 4.6 Ví dụ 4.7 Quá trình thời vụ
4.8 Vài nhận xét về quá trình ARIMA Chương V M6 hinh ham chun hố
5.1 Mơ hình hàm chuyển hoá tuyến tính
5.2 Nhận dạng mô hình
5.3 Ước lượng và kiểm tra phù hợp 5.4 Dự báo cho mơ hình hàm chuyển hố
5.5 Mô hình đa dây số thời gian 5.6 Ví dụ
Phụ lục
P.1 Bình phương cực tiểu trọng lượng
P.2 Mức tiêu thụ hộp nhựa theo tuần
Trang 4Dự báo là một trong các công cụ quan trọng của công tác kế hoạch hoá và quản trị kinh doanh Nó cho phép người quản lớ có những số liệu tiên liệu trước về các tham số trong sản xuất kinh doanh ở thời điểm tương lai làm cơ sở soạn thảo ra các kế hoạch, chính sách Chức năng chính của dự báo là tiên lượng trước các đại lượng mà ta quan tâm, trong sẵn xuất kinh doanh là các đại lượng kinh tế, xã hội, từ đó đưa ra các quyết định sản xuất một cách đúng đắn
Để dự báo các khuynh hướng phát triển của các đại lượng kinh tế người ta sử dụng các
mô hình dự báo Mô hình dự báo khuynh hướng phát triển thường là một hàm số phù hợp hơn cả với mục đích dự báo Hàm số của mô hình dự báo có thể đưa ra dưới dạng một hàm mô tả
xu hướng hoặc một hàm mô tả ngẫu nhiên Trên cơ sở các dữ liệu quá khứ ta có thể tìm ra một
quy luật được mô tả bằng một hàm số, quy luật này được dùng để tìm các đại lượng cần quan tâm trong tương lai Bài toán dự báo có hạt nhân là một bài toán tìm mô hình có dạng: N Ww Trong đó:
X-Dữ liệu đầu vào cuả mô hình N-Nhiễu loạn tác động lên mô hình Y-Dữ liệu đầu ra của mô hình
F(X)- La hàm ánh xạ giữa Số liệu đầu ra và_ số liệu đầu ào
Bài tốn tìm mơ hình chính là bài toán khi biết một số hữu hạn thể hiện của X và Y ta cần
phải tìm ra một quy luật F * là đánh giá của hàm F(X) thoả mãn một số yêu cầu nào đó Trong mô hình dự báo với các mục đích kinh tế, X thường chứa vếu tố thời gian ngoài ra còn có các tác động khác như các yếu tố về chính trị, xã hội
Trang 5CHUONG I
NHAP MON KHOA HOC DU BAO
Mục đích của chúng tôi là giới thiệu các phương pháp định lượng được sử dụng trong các hệ thống dự báo mà các trị số dự đoán thu được có vai trò quan trọng trong quá trình ra quyết định Các phương pháp thống kê này phân tích các dữ liệu lịch sử nhằm cung cấp các trị số ước tính cho tương lai Các chương tiếp theo sẽ mô tả bản chất và công dụng của các kỹ thuật dự báo thống kê quan trọng hơn Trong chương này, chúng tôi bàn đến một số khía cạnh dạng quản lý của việc phát triển các hệ thống dự báo: bản chất là công dựng của các hệ thống dự báo, định nghĩa nội dung bài toán dự báo, các phương pháp dự báo được nêu ra để chọn, các tiêu chuẩn đánh giá kết quả và các vấn đề cần quan tâm khác trong quá trình thiết kế hệ thống
1.1 Bản chất và công dụng của dự báo
Dự báo là thành phần chủ yếu của việc ra quyết định trong quá trình quản lý Cái đó không có gì đáng ngạc nhiên, vì hiệu quả cuối cùng của bất kỳ một quyết định nào đểu phụ thuộc vào hậu quả của các sự kiện đi theo sau quyết định Khả năng dự báo các sự kiện thuộc dạng khơng thể kiểm sốt được trước khi ra quyết định cho phép chọn được cái đáng chọn Vì lý do này mà các hệ thống quản ly tiên tiến đều có chức năng dự báo để hoạch định và liểm soát các hoạt động trong tổ chức Sau day là một vài thí dụ về những khả năng ứng dựng dự báo:
dn Ip vat tu tổ 9: Trong khi kiém soát vật tư tổn kho là các phụ tùng dự phòng thay thế trong các cơ sở bảo dưỡng máy bay, thì cần phải có số liệu ước tính về tốc độ sử dụng các phụ tùng này để có kế hoạch mua về Người ta cũng cân ước tính độ sai của dự báo về thời gian toàn bộ về vật tư nhập để lập lại đơn hàng cho các mục cần thiết
Lập kế hoạch sản xuất: Để lập kế hoạch sẵn xuất cho một dây chuyển công nghệ, cần
phải dự báo lượng của phản cần xuất ra cho mỗi đợt giao hàng hằng tháng trong tương lai Tiếp đó là các dự báo về thành phân tiêu hao vào trong các yêu cầu về bán thành phẩm, về các linh kiện đi kèm, về các vật liệu và về lượng lao động v.v để lập kế hoạch cho toàn bộ hệ thống sẵn
xuất ; :
Lap kế hoạch tài chính: Giám đốc điều hành tài chính quan tâm đến tình trạng thanh toán sẽ gặp phải ở công ty của mình VỊ giám đốc này muốn dự đoán việc thanh toán được phân ra theo các mục và được phân ra theo các thời đoạn trong tương lai, coi đó như là một sự trợ giúp cho việc ra các quyết định hiện hành
Lập kế hoạch cán bộ: Giám đốc trung tâm bưu chính thuộc ngành bưu điện cần có dự báo lượng thư hàng giờ và mức đệ phải chia gói thư để lập kế hoạch cán bộ và phân ca kíp một cách có hiệu quả nhất cho công việc này
Quy hoạch các cơ sở dịch vụ: Việc quyết định thành lập các cơ sở dịch vụ mới đòi hồi những dự báo rộng rãi về các hoạt động sử dụng cơ sở dịch vụ Điều này là rất quan trọng cho
việc thiết kế cơ sở dịch vụ và cũng cần cho việc thẩm định đầu tư
Khống chế quá trình: Bằng việc theo dõi các biến số chủ yếu của quá trình và dùng chúng để dự báo diễn biến tương lai của quá trình, cái đó có thể xác định được thời gian tối ưu và phạm vì hoạt động khống chế Thí dụ, một thiết bị xử lý hoá chất có thể làm việc kém hiệu quả
Trang 6-3-khi làm việc liên tục nhiều giờ Khi đó việc dự báo thời gian sống của thiết bị sẽ rất có ích để hoạch định thời gian dừng máy và kế hoạch đại tu
Từ các thí dụ trên, dễ dàng thấy một điều là chúng ta coi dự báo là sự tiên đoán các sự kiện trong tương lai Mục đích của khoa học dự báo là làm giảm bớt rủi ro khi ra quyết định Việc dự báo thường lầm song mức độ sai lầm của dự báo phụ thuộc vào hệ thống dự báo được dùng Bằng cách đầu tư nhiều hơn cho khoa hoc dự báo, chúng ta có thể cải thiện được độ chính xác của dự báo và vì vậy giảm được một số tổn thất gây nên do độ thiếu chắc chắn của quá trình ra quyết định Nói chưng, chỉ phí cho dự báo tăng thì giảm được tốn thất rủi ro Song từ góc độ kinh tế, thì việc tăng chỉ phí cho dự báo chỉ có thể được chấp nhận đến một chừng mực nhất định Do vậy trong thực tế cần quan tâm đến vấn đề: ở một mức đầu tư nào cho dự báo thì tổng
chi phí là tối thiểu Tất nhiên cũng cần lưu ý rằng các phân tích này dựa trên giả định là: một
đôla đầu tư tiếp theo cho dự báo sẽ kém hiệu quả hơn so với việc đầu tư một đôla trước đó 6 bên ngoài một điểm nào đó thì việc đầu tư thêm cho dự báo sẽ chẳng mang lại thêm lợi ích gì Đó là lý do không thể giảm sai lắm của việc dự báo xuống dưới một mức nhất định, cho dù trong quá trình dự báo đã sử dụng các thông tin và công cụ phức tạp như thế nào đi nữa
Vì khoa học dự báo không bao giờ có thể triệt tiêu hoàn toàn các rủi ro nên trong quá
trình ra quyết định phải dứt khoát xem xét tới độ không chắc chắn vốn là hệ quả tất yếu của dự
báo Về mặt nhận thức, thường việc ra quyết định có mối quan hệ với dự báo theo hệ thức: QUYẾT ĐỊNH TRONG THUC TE = QUYẾT ĐỊNH CÓ GIÁ ĐỊNH DỰ BÁO ĐỨNG + SAI SỐ CỦA DỰ BÁO Điều này có ngụ ý nói rằng trong một hệ thống dự báo phải mô tả được sai lắm của dự báo như mô tả dự báo Lý tưởng nhất là quá trình dự báo dẫn đến việc ước định phân bố xác suất của các biến số được dự đoán Điều này cho phép ghép rủi ro vào quá trình ra quyết định một cách khách quan Bản thân dự báo không phải là cứu cánh; mà nó là các phương tiện cho một cứu cánh Hệ thống dự báo là một bộ phận của hệ thống quần lý rộng lớn hơn và được coi như là một hệ thống con, tác động qua lại với các hợp phần khác của hệ thống để xác định một hiệu suất (perfor mance} bao trùm
1.2 Khái niệm về bài toán dự báo
Chúng ta sẽ giả định tổng quát rằng chúng ta có quan hệ với khoa học dự báo để nhằm mục đích hoạch định và lập trình sản xuất hoặc kiểm soát hàng tồn kho, vì vậy vấn để chúng ta quan tâm có liên quan đến việc bán các sản phẩm trong tương lai hoặc việc sử dựng vật liệu trong tương lai Chẳng hạn, chúng ta sẽ coi biến số của vấn để chúng ta quan tâm là một "yêu
cầu (demand)" Đương nhiên cái "demand" này không cần là điển hình (“case") và việc dự báo có
thể là dành cho mục đích khác và gồm các biến số kiểu khác Tuy nhiên bởi có việc cài đặt chung
nên chúng ta có thể nêu các ghi chú riêng để làm do các nguyên tắc có khả năng áp dụng cho
các vấn để khác
Để xác định bài toán dự báo, chúng ta phải bắt đầu với bài toán ra quyết định Thông tin
Trang 7Để xác định cái gì cần dự báo, chúng ta phải xác định các biến số cần được phân tích và được ước đoán Hình dung được mức độ chỉ tiết của yêu cầu là điều rất quan trọng Hệ thống hoạch định sản xuất có thể yêu cầu dự báo vể yêu cầu thiết bị cho mỗi thành phẩm và lập kế hoạch cho phân xưởng và kế hoạch vật tư tổn kho Mặt khác, giám đốc điều hành bán hàng chỉ
cần dự báo về tổng lượng hàng bán tính bằng đôla như là dữ liệu đầu vao cho qua trinh dy thao
ngân sách Trường hợp trước dự báo dựa trên cơ sở đơn chiếc (item basis), trường hợp sau dự báo dựa trên cơ sở kết tập (aggregate basis) Trong khi những cái này là các dạng yêu cầu cuối cùng thì chúng không nhất thiết là các giá trị mà chúng ta sẽ dùng trong quá trình phân tích Trong khi hoạch định sản xuất, chúng ta có thể dự báo ở một mức độ kết tập nào đó, tức là các
họ của các sản phẩm tương tự, tiếp đó phân nhỏ dự báo kết tập cho mức độ đơn chiếc trong việc
tính toán thứ cấp; khi dự báo hàng hoá bán theo đôla, ta phải chọn để dự báo các hợp phần
hàng bán, có thể gặp lại các họ sản phẩm, các hàng bán lúc đầu tính theo cái, sau chuyển sang
tính theo đôla bằng cách dùng giá dự đoán, tiếp đó cộng lại để nhận được tổng lượng hàng bán tính theo đôla
Rất nhiều yếu tố ảnh hưởng đến mức độ chỉ tiết được sử dụng: tính khả dụng của dữ liệu,
độ chính xác có thể đạt được, chi phí cho việc phân tích và các điểm riêng biệt của bộ máy quan
lý Khi việc lựa chọn thích hợp các biến số không rõ ràng, thì người ta cần thử nhiều phương án
và chọn phương án tốt nhất Thông thường việc này được tiến hành trong quá trình phát triển hệ thống dự báo thông qua phương pháp mô phỏng có dùng các dữ liệu lịch sử
Lớp quan trọng thứ hai của việc ra quyết định bao gồm 3 yếu tố thời gian sau: giai đoạn dự báo, tầm xa của dự báo, khoảng dự báo
Giai đoạn dự báo là đơn vị cơ bản của thời gian để tiến hành dự báo Thí dụ, chúng ta mong muốn dự báo theo yêu cầu tuần lễ thì ở đây tuần lễ là giai đoạn dự báo
Tầm xa của dự báo là số lượng các giai đoạn dự báo trong tương lai mà việc dự báo bao
trùm Như vậy chúng ta có thể yêu cầu dự báo cho 10 tuần lễ tiếp theo và chia nhỏ ra theo từng
tuần lễ Giai đoạn dự báo là một tuần lễ và tắm xa của dự báo là 10 tuần lễ
Khoảng dự báo là tân xuất (requencv) để người ta chuẩn bị việc dự báo mới Thường khoảng dự báo cũng là giai đoạn dự báo, như vậy việc dự báo được xem xét lại ở mỗi giai đoạn dự báo trong khi đó sử dụng yêu cầu của giai đoạn hiện ngay phía trước và các thông tin hiện hành khác, coi đó là các dữ liệu cơ sở cho việc xem lại Nếu tầm dự báo luôn luôn có độ dài như nhau tức là T các giai đoạn và việc dự báo được xem xét lại ở từng giai đoạn thì chúng ta nói rằng: chúng ta đang thao tác trên cơ sở tảm dự báo động Trong trường hợp này, mỗi một giai đoạn mà chúng ta dự báo lại yêu cầu đối với mạng lưới T-1 giai đoạn và tạo nên việc dự báo nguyên thủy cho giai đoạn T
Trang 8để xử lý việc rắc rối này, nhưng đôi khi chúng lại làm tăng biên độ của sai lâm dự báo Chẳng hạn
khi dự báo trổ nên ít chính xác hơn với việc tăng tắm xa dự báo, chúng ta cần cải tiến quá trình ra quyết định của chúng ta bằng cách thu ngắn thời gian quyết định toàn bộ, do đó giảm thời
gian dự báo toàn bộ yêu cầu và cho phép phản ứng nhanh hơn với sai lầm của dự báo
Khoảng dự báo thường được xác định bởi cách vận hành của hệ thống xử lớ dữ liệu cung cấp thông tin dựa trên biến số dự báo Nếu lượng hàng bán ra được báo cáo hàng tháng thì nói
chung it có cơ sở để xem xét việc dự báo hằng tuần và khoảng dự báo hằng tháng sẽ là hợp lý
Dẫu không có chênh lệch nhiều lắm, nhưng cũng cần chỉ ra sự khác biệt giữa các dữ liệu
thời đoạn (period data) và các dữ liệu thời điểm (point data) Dữ liệu thời đoạn để biểu thị biến số
theo một giai đoạn, thí dụ như lượng hàng bán ra hằng tháng, nhiệt độ trưng bình trong ngày Dữ liệu thời điểm biểu thị giá trị của biến số ở một khoảnh khắc nhất định, thí dụ lượng vật tư tồn kho lúc cuối tháng, nhiệt độ lúc 12 giờ trưa v.v Sự khác biệt giữa hai kiểu dữ liệu này có ảnh hưởng trước hết tới việc sử dụng kiểu hệ thống thu thập dữ liệu, tiếp đó nó tác động tới kết quả đo lường và xử lý các sai lệch đữ liệu đối với kết quả
Khía cạnh thứ ba của bài toán dự báo liên quan đến hình thức dự báo Chúng ta sẽ thấy ở mục 1.4 sẽ có lợi nếu nhận được biến số đối với vấn để ta quan tâm như là một biến số ngẫu nhiên có phân bố xác suất chưa được biết Bài toán ra quyết định có thể yêu cầu ước định một số đặc tính của phân bố đó, chẳng hạn như trung vị (median), trị số trung bình (mean), hoặc giá trị
có thể hay xâu ra nhất để dùng như là việc dự báo cho biến số Hoặc là với tư cách là số đo của sự không chắc chắn, nó có thể cản đến các trị số ước tính của độ lệch chuẩn, của phân vị (percentile) hoặc có thể là một khoảng có xác suất cao chứa giá trị thực tế Đôi khi có thể có yêu
câu ước đoán dạng của phân bố (thí dụ dạng Poisson, dạng chuẩn, dạng gamma) Thường thì dự
báo sẽ lấy một trong các dạng sau:
1) Một trị số ước tính giá trị kỳ vọng của biến số, cộng với một trị số ước tính độ lệch chuẩn của sai lâm dự báo `
2) Một khoảng có xác suất được khai báo có chứa giá trị tương lai thực tế Khoảng này
được gọi là khoảng dự đoán (prediction interval)
Trong một số trường hợp, chúng ta có thể ít quan tâm hơn đến việc dự đoán giá trị của biến số so với việc dự đoán những sự thay đổi chủ yếu trong quá trình, mà quá trình này có sự tăng biến số Vế sau có thể là một trường hợp trong việc kiểm soát quá trình, khi chúng ta muốn
dự đoán thời gian mà lúc đó quá trình chuyển tới trạng thái ngoài vòng kiểm soát
Độ chính xác của dự báo theo yêu cầu của bài toán ra quyết định sẽ có ảnh hưởng tác động đến hệ thống dự báo Chúng ta đã nói đến mối liên hệ giữa đầu tư cho dự báo và kết quả của dự báo Một đặc điểm quan trọng của một hệ thống quân lý tết là khả năng đạt thành tích tối ưu khi đối mặt với sự không chắc chắn Cải tiến sự chính xác của dự báo thì giảm được sự không chắc chắn, tuy nhiên điều đó có thể không được chấp nhận về mặt kinh tế
Đến thời điểm này, chứng ta đã thảo luận về ảnh hưởng của bài toán ra quyết định đối với hệ thống dự báo Có một số yếu tố khác cũng được xem xét khi xác định bài toán dự báo Trong
Trang 9có các điều kiện là hằng số hoặc là biến thiên chậm theo thời gian thì hệ thống dự báo có thể hoàn toàn khác với hệ thống được yêu cầu khi quá trình rất phiếm định với những biến thiên cơ bản thường xuyên xây ra Vấn đề được nêu trước dẫn đến việc sử dụng rộng rãi các các dữ liệu
lịch sử để dự đoán tương lai còn vấn đề nêu sau thường đòi hỏi nhiều đến các ước định chủ quan và các phương pháp kiểm soát dự báo để phát hiện các biến thiên trong quá trình
Yếu tố khác là tính khả dụng của các dữ liệu Các dữ liệu lịch sử có giá trị khi thiết lập các quy trình dự báo và các quan trắc rương lai phải được dành cho việc xem xét lại kết quả dự báo Số lượng, độ chính xác, tính thời sự của thông tin này là quan trọng Ngoài ra tính điển hình của
các dữ liệu phải được thẩm định Thí dụ cổ điển về vấn đề này là vấn để dự báo yêu cầu của
khách hàng đối với sản phẩm khi công tụ chỉ giữ hồ sơ của các đơn hàng đã được đăng ký trước và các chuyến hàng xuống tàu theo chu kỳ CÃ hai hồ sơ này đều không biểu thị yêu cầu của khách hàng, vì các đơn hàng được đăng ký trước chu kỳ giao hàng mong muốn, chúng mất 9 nghĩa vì việc giao hàng không làm hài lòng khách không được lưu giữ lại và các chuyến gửi hàng không đến đúng lúc khách hàng mong muốn Công tự sẽ phải khởi tạo thủ tục thu thập dữ liệu, đặc biệt nếu cần phải đáp ứng được cái mà khách hàng muốn đưa xuống tàu vào đúng lúc khách hàng mong muốn
Việc dự báo bán hàng bị mù mờ là do có sự khác biệt giữa việc dự báo “cái có thể bán” và
việc dự báo “cái sẽ bán" Vấn để trước là một ước định về các cơ hội khả dụng đối với công tự khi giả định rằng năng lực sản xuất của công ty là không bị giới hạn Đây là loại dự báo cần cho việc hoạch định "product - mix" hỗn hợp sản phẩm) Vấn đề sau phản ánh giới hạn năng lực sản xuất của công tự các quyết định của ban quản lớ và thể hiện kế hoạch hoặc mục tiêu Cái đó được gọi đúng hơn là việc lập dự thảo ngân sách chứ không phải là việc dự báo Chúng ta sẽ kỳ vọng việc các dữ liệu lượng hàng bán có thể tương liên với lượng hàng bán nằm trong bản dự thảo cho nhiều loại hình kinh doanh Đó là lú do mà các nhà quản lớ cố gắng tiếp nhận khoa học dự báo
Cần phải xác định các giới hạn tính toán đối với hệ thống dự báo Khi có không nhiều các
biến số thuộc loại biến số cần dự báo thì có thể dùng các phương pháp phân tích phức tạp nhiều hon là khi có nhiều biến số thuộc loại biến số cần được dự báo Tuy nhiên, trong tình huống cuối phải dành nhiều nỗ lực hơn cho việc phát triển các phương pháp quản lý và sử dụng các dữ liệu
có hiệu quả cao
Hai yếu tố quan trọng trong định nghĩa bài toán dự báo là năng lực tiểm tàng và mối quan tâm của người sẽ làm dự báo và ứng dụng dự báo Lứ tưởng là lượng thông tin lịch sử được phân tích tự động bằng phương pháp thống kê và kết quả dự báo được giới thiệu một cách thích hợp cho người quân lý để hiệu chỉnh nếu có thể Việc đưa quan điểm này vào quá trình dự báo là quan trọng, nhưng đòi hỏi các nhà quản lớ thuận ý tham gia
1.3 Các phương pháp dự báo
Các phương pháp dự báo được phân loại khá đa dạng về mặt định tính hoặc về mặt định lượng tuỳ thuộc vào phạm vi mà các phương pháp toán học và thống kê được dùng ở đó
Trang 10phương pháp kiểu Delphi để nhận được sự nhất trí từ các nhà dự báo tham gia hội thảo Các phương pháp này có thể một phần dựa trên việc điều tra tiếp thị, việc thăm đò khách hàng, các
ước tính về năng lực kinh doanh và các dữ liệu lịch sử, còn một phần dựa trên quá trình có sử dụng lượng thông tin để nhận được dự báo chủ quan
Ngược lại, các quy trình dự báo thống kê chỉ ra một cách rõ ràng dự báo được xác định ra
sao Logic được biểu thị cụ thể và các phép tính là phép tính toán học Chúng bao gồm việc khảo sát các dữ liệu lịch sử để xác định quá trình tạo biến số, tiếp đó giả định rằng quá trình là ổn
định, sở dụng kiến thức đã có dé ngoại suy quá trình trong tương lai Hai kiểu mô hình được dùng
là : mô hình chuỗi thời gian (time sarfes model) và mô hình quan hệ nhân quả (causal model)
Chuỗi thời gian (time series) lA day các giá trị quan trắc được của biến số được sắp xếp theo trình tự thời gian Việc phân tích chuỗi thời gian chỉ sử dụng giá trị lịch sử của biến số cần dự báo để phát triển mơ hình nhằm dự đốn các giá trị tương lai Như vậy, nếu việc khảo sát lượng lốp ôtô bán ra hàng tháng trong quá khứ có dạng tăng tuyến tính, thì mô hình tuyến tính có thể được chọn để biểu thi quá trình và độ dốc tương ứng của quá trình và phần chưa biết sẽ được ước tính từ các dữ liệu lịch sử
Mô hình quan hệ nhân quả khai thác mối quan hệ giữa các chuỗi thời gian của vấn đề cần quan tâm với một hay nhiều chuỗi thời gian khác Nếu các biến số của các quá trình ấy tương liên
với các biến số của vấn để quan tâm, mà ở đó xuất hiện một "nguyên nhân” nào đó cho mối
tương liên này, thì mô hình thống kê có thể được kiến tạo để mô tả mốt quan hệ này Tiếp đó,
khi biết giá trị của các biến số tương liên, người ta có thể dùng mô hình để nhận được dự báo của biến số phụ thuộc Thí dụ việc phân tích có thể làm xuất hiện mối tương liên mạnh giữa lượng lốp ôtô bán hàng tháng với lượng ôtô mới bán hang tháng trong 15 tháng trước Khi đó lượng thông tin về ôtô mới bán ra 14 tháng trước sẽ có ích cho việc sự đoán lượng lốp thay thế được bán ra cho tháng tiếp theo
Một sự hạn chế hiển nhiên đối với việc sử dụng mô hình quan hệ nhân quả là yêu cầu người ta phải biết các biến số độc lập vào thời gian làm dự báo Việc lượng lốp ôtô bán ra tương liên với lượng tiêu thụ ôtô mới trong 15 tháng trước không có ích gì cho việc dự báo lượng lốp bán ra cho 18 tháng trong tương lai Tương tự như vậy thì việc biết lượng lốp bán ra tương liên với giá xăng hiện nay là ít có giá trị Vì chúng ta không biết giá xăng chính xác trong một số tháng tương lai mà theo đó chúng ta muốn dự báo lượng lốp bán ra Một hạn chế khác của việc sử dụng mô hình quan hệ nhân quả là khối lượng tính toán lớn và lượng quản lý dữ liệu cũng lớn so với các dạng mô hình chuỗi thời gian Chúng ta sẽ có dịp trình bày chi tiết hon van dé nay
Trang 11Việc lựa chọn phương pháp dự báo thích hợp bị ảnh hưởng bởi các yếu tố sau nhất là bởi các yếu tố đã được thảo luận ở các mục trên:
1 Dạng của việc dự báo được yêu cầu
Tam dự báo, giai đoạn dự báo và khoảng dự báo Tính khả dụng của dữ liệu Độ chính xác yêu cầu Chi phi cho việc phát triển, lắp đặt và vận hành hệ thống 2 3 4 5 Cách tiến hành quá trình dự báo (mẫu yêu cầu) 6 7 Tính thân thiện của hệ thống 8 Sự nhận thức và sự hợp tác của các nhà quản lớ
Ở đây, tính thân thiện của hệ thống (sự dễ vận hành) bước đầu liên quan tới sự đơn giản trong việc bảo trì hệ thống, vì thông thường do có nhiều các tiết mục được thêm vào hoặc bị xoá đi liên tục người ta mong có được một phương pháp dự báo độc lập với thời gian khi một tiết mục khởi thuỷ được đưa vào hệ thống Có các phương pháp như thế với những ưu điểm đáng kể làm dễ dàng việc bảo trì và vận hành
Các máy tính (computer) đóng một vai trò quan trọng trong hệ thống dự báo hiện đại Chúng tạo ra khả năng lưu trữ, tìn kiếm, kết tập, phá vỡ quần tập, mặt khác chúng quản lý dữ liệu chuỗi thời gian với rất nhiều các biến số Việc phân tích thống kê phức tạp được tiến hành một cách khá dễ dàng với sự trợ giúp của máy tính
1.4 Mô hình chuỗi thời gian
1.4.1 Các đặc tuyến của chuỗi thời gian
Đối với các mục tiêu của chúng ta thì chuỗi thời gian là trình tự các đại lượng thu được
nhờ quan trắc các biến số của vấn để quan tâm Các biến số được quan trắc ở các thời điểm rời
rạc, thường có khoảng cách đều nhau Việc phân tích chuỗi thời gian bao gồm việc mô tâ quá
trình hoặc hiện tượng tạo ra trình tự Để dự báo chuỗi thời gian cần phải biểu thị cách tiến hành
quá trình bằng mô hình tốn học rnà mơ hình có thể kéo dài sang tương lai Yêu cầu mô hình phải đại diện trung thực cho các quan trắc trong bất kỳ một thởi đoạn cục bộ nào gần hiện tại
Chúng ta thường không yêu cầu mô hình biểu thị các quan trắc quá cũ vì chúng rất có thể không
mang đắc điểm của hiện tại và của các quan trắc quá xa trong tương lai, vượt quá thời gian toàn bộ để tiến hành dự báo Mỗi khi m2 hình có ý nghĩa cho quá trình chuỗi thời gian đã được thiết
lap thì một kỹ thuật dự báo thích hợp có thể được khai triển Một vài mẫu đặc tuyến của chuỗi
thời gian được biểu thị trên hình 1.1, trong đó x là quan trắc cho giai đoạn t Trong hình 1.1 (a) biểu diễn mô hình duy trì mức không đổi đối với thời gian, với sự biến thiên từ giai đoạn này sang giai đoạn khác do các nguyên nhân ngẫu nhiên
Mẫu (b) minh họa xu thế về mức của quá trình, như vậy sự biến thiên từ một giai đoạn tới giai đoạn tiếp theo có thể góp phản cho xu thế gia tăng biến thiên ngẫu nhiên Trong (c) thì mức
Trang 12theo mùa Biến thiên theo mùa có thể do một số nguyên nhân tham góp, như thời tiết (yêu câu
giải khát chẳng hạn), ngày kỷ niệm trong năm (thí dụ bưu thiếp lễ Giáng sinh), thủ tục làm việc
(thí dụ báo cáo sơ kết quí) (a) @®) @ (@
Hình 1.1 Các đặc tuyến chuỗi thời gian, (a) quá trình không đổi (constant), (b) có xu thế tuyến tính, (c) theo chu ky, (d) theo kiểu xung (imfrulse), (ƒ) theo hàm số bước nhảy, (ƒ) theo kiểu lên dốc
Hau hết các mô hình chuỗi thời gian đều được triểm khai theo các mẫu sau: không thau đổi (constant), có xu thế (trend), theo chu kỳ (periodic, cụclic) hoặc kết hợp cả 3 mẫu
Cần nói thêm rằng, có những mẫu là kết quả của các thay đổi trong quá trình chính Mẫu
theo kiểu xung được minh họa bằng đường (d) Trong một giai đoạn nào đó quá trình hoạt động ở mức cao hơn trước khi trở lại mức nguyên thuỷ Thí dụ như lượng hang bán ra từ nhà máy A tạm thời tăng lên khi có đình công ở nhà máy B (nhà máy A và B đang cạnh tranh với nhau trong kinh doanh) Ở đường (e) thì biến thiên nhảy tới mức ổn định (permanent) mới, chúng ta gọi đó là kiểu hàm số bước nhảy (step function) Thí dụ, biến thiên này do số khách hàng mới
đến gây ra Mẫu (f) biểu thị quá trình hoạt động ở mức không đổi (constant), đột nhiên chuyển
sang dạng có xu thế (trend) Vì 3 mẫu biến thiên này rất thường gặp trong thực tế, nên cần phải yêu cầu các hệ thống dự báo nhận dạng được các biên thiên ổn định (permanent changes) và sửa
lại các mô hình để theo dõi quá trình mới Đồng thời, cũng cần xây dựng hệ thống dự báo thừa
Trang 13~10-nhận các biến thiên ngẫu nhiên và các biến thiên theo kiểu xung và không chống lại các hiện
tượng này
Trong yêu cầu dự báo sẵn phẩm, cần phải sử dụng các mô hình dự báo khác nhau ứng với các giai đoạn khác nhau của vòng đới sản phẩm Thí dụ, hình 1.2 minh họa vòng đời sản phẩm
có 3 pha tách biệt Phần pha tăng đi theo việc đưa sản phẩm vào, ta có thể biểu diễn quá trình
bằng "mô hình có xu thể” (tuyến tính hoặc bậc hai) Mỗi khi yêu cầu đã có dạng ngang hàng thi chuyển sang mô hình của quá trình không đổi Trong pha cuối, khi lượng hàng bán đang giảm xuống thì "mô hình có xu thế” lại trở thành thích hợp Không đối Giảm "Tăng Hình 1.2 Vòng đời sản phẩm
1.4.2 Biểu diễn chuỗi thời gian
Nhiều mô hình dùng để biểu diễn chuỗi thời gian là các hàm đại số và các hàm siêu việt
của thời gian, đôi khi mô hình gồm cả thành phần đại số và thành phần siêu việt Thí dụ, nếu các quan trắc là các mẫu ngẫu nhiên từ một số phân bố xác suất và nếu trị trung bình của các phân bố này không biến thiên theo thời gian thì chúng ta có thể dùng "mô hình không biến đổi"
y= bre, (1.4.0
x, là yêu cầu trong giai đoạn t, _ b là trị trưng bình chưa biết của quá trình
e là thành phần ngẫu nhiên, đôi khi còn gọi là "tiếng ồn” (noise) trong quá trình Thành phân ngẫu nhiên này có giá trị kỳ vọng bằng 0, và ta thường giả định rằng phương sai của nó là một hằng số, có nghĩa là Eíe) = 0 và Víe) = ơ°e Lưu ý rằng cái đó là tương với khi nói rằng x, là
biến số ngẫu nhiên với trị trung bình b và phương sai là ø?, Phương trình 1.1 là mô hình phù
hợp cho quá trình được minh họa ở hình 1.1 (a)
Để biểu diễn quá trình của hình 1.1 (b), ta giả định rằng trị trung bình của quá trình biến đổi tuyến tính theo thời gian và sử dụng mô hình có xu thế tuyến tính
x, = b, + Oot + & (1.4.2)
b, và bạ là hằng số Lưu ú rằng hệ số góc bạ biểu thi sự biến đổi trong mức trung bình của
yêu cầu từ một giai đoạn tới một giai đoạn tiếp theo
Phương trình (1.4 3) cho một “mô hình có xu thế quần phương”:
X = b, + bot + byt? + & (1.4.3)
Sự biến thiên theo chu kỳ có thể được biểu diễn khi đưa các số hạng siêu việt vào mô hình
Thí dụ:
Trang 14-11-, 27g 2m
x, =b, +b, sín T2 +b, costs +e (1.4.4)
Nó sẽ tính cho tần suất lặp lại 12 chu kỳ
Các mô hình trên có dạng tổng quát sau :
x, = b,2,(t) + baz,lt) + + b(t) + & (1.4.5)
(b,) lA cdc tham sé; {z(t)} la ham s6 cfia t; ¢ a thanh phần ngẫu nhiên
Như vậy, thí dụ trong phương trình (1.4.2) thi z,(t)= 1 va z(t) = t Luu ý rằng phương pháp tạo mô hình này biểu thị giá trị kỳ vọng của quá trình như là một hàm số toán học của t
Thường ta muốn xác định thời điểm bắt đầu và thời điểm kết thúc của chu kỳ T mới xây ra nhất
Tiếp đó ta viết mô hình cho các quan trắc trong chu kỳ T +z như:
Xrz = A(T)}Z4(E) + az(T)zz(t) + + a(T)z(t) +er, (1.4.6)
Bây giờ thì các hệ số được biểu thị béi {a( T )} để thể hiện rằng chúng dựa trên gốc thời gian hiện hành T, vì vậy tách hẳn chúng ra khỏi các hệ số gốc nguyên thuỷ (original-origin) {b,}
Việc luôn luôn duy trì gốc thời gian trên cơ sở hiện hành tạo thuận lợi rất lớn cho việc vận hành hệ thống dự báo Trong các chương tiếp theo mối quan tâm chủ yếu được cho các mô hình ở dạng (1.4.5) Tuy nhiên có những phương pháp tiếp cận hoàn toàn khác để biểu diễn chuỗi
thời gian Ở đó số liệu quan trắc hiện hành x, sẽ được tạo mô hình như là hàm số của các thành phần ngẫu nhiên trước e,, g.¡ , e.; .trong dạng tổng quát sau :
Xp = + Wok + Wiebe † W2Byz + (1.4.7)
Trong đó k và (,} là các hằng số Các mô hình kiểu này được gọi chung là mô hình bộ lọc tuyến tính (linear filter model) Có thể không thật rõ mô hình dạng này biểu diễn chuối thời gian như thế nào Tuy nhiên chứng ta sẽ thấy rằng đối với một số chuỗi thời gian thì phương pháp tiếp cận này thu được kết quả khá tốt Điều đó đặc biệt đúng cho chuỗi thời gian mà trong đó các trị số quan trắc tự tương liên ở mức cao, có nghĩa là ở trong đó các trị số quan trắc không
độc lập với nhau
Một kỹ thuật đơn giẫn trong việc lựa chọn mô hình là cho các dữ liệu lịch sử lên sơ đổ và tìm mẫu (pattems) Như trong bất kỳ một phương pháp phân tích dữ liệu thống kê thì phương pháp đồ thị rất có ích cho việc dự báo Vì mô hình phải thể hiện tương lai gần cho các mục tiêu dự báo, nên chúng ta thường đánh giá các hiệu quả của nó theo cách nó mô tả quá khứ vừa xây ra tốt như thế nào
1.5 Các tiêu chuẩn đánh giá
Có nhiều số đo có thể dùng để đánh giá hiệu quả của hệ thống dự báo Quan trọng hơn cả
là các số đo: độ chính xác của dự báo chi phí cho hệ thống, ích lợi của dữ liệu đầu ra, tính ổn định và đặc tính nhạy biến
Độ chính xác của phương pháp dự báo được xác định bằng việc phân tích các sai lâm dự
báo đã gặp nếu x, là trị số quan trắc thực tế trong giai đoạn t và 8, là trị số dự báo đã được thực hiện ở thời gian trước Sai số dự báo cho giai đoạn t là:
Trang 15-12-Đối với phương pháp dự báo và quá trình đã cho thì sai số dự báo được coi là biến số ngẫu nhiên có trị trung bình E(e) và phương sai o Nếu trị số dự báo là không lệch, E (e) = 0 Trường hợp các trị số dự báo không lệch là những trường hợp đáng mong đợi cho chúng ta, bởi lẽ thông thường trong trường hợp ấy ít khi nhận được các sai số dự báo lớn Từ đây trở về sau thi đại lượng sai số tuyệt đối kỳ vọng :
Efle,|I= Ellx, -%[) (1.5.1)
hoặc sai số bình phương kỳ vọng
Efe? ]=E[(x, -%,)7] (1.5.2)
sẽ được dùng phổ biến như là số đo độ chính xác của dự báo Lưu ý rằng “sai số bình phương kỳ vọng” thường được gọi là "sai số bình phương trị trung bình” (mean squared error}, bằng oS nếu các trị số dự báo là không lệch Có thể chỉ ra những phương pháp hữu hiệu để ước định các số đo nàu hoặc từ sự hoạt động của hệ thống thực hoặc từ mô phỏng khi phân tích độ chính xác của một phương pháp dự báo thì thường dùng trắc nghiệm tín biệu theo dõi (tracking signal test) Ở mỗi giai đoạn, mục đích là để xem dự báo có lệch không Tín hiệu theo dõi là một trị số thống kẽ được tính bằng cách chia một trị ước tính của sai số dự báo kỳ vọng với số đo của biến thiên sai số dự báo như là một trị số ước tính của độ lệch sai số dự báo Nếu hệ thống dự báo thu lượm được các trị số ước tính không lệch, thì tín hiệu theo dõi phải là gần trị số không
Nếu tín hiệu theo đõi lệch khỏi trị số không khá nhiều, thì phải tiến hành tim kiếm để xác định
xem có nên hay không nên sửa mô hình dự báo nhằm biểu thị tốt hơn quá trình chuỗi thời gian
Quá trình này có thể vấp phải sự thay đổi như nêu trong hình 1.3 Lưu ý rằng dạng phân tích
này có thể áp dụng cho dự báo thống kê, cho dự báo đánh giá (judgemental forecast) hoac cho cả hai kết hợp Đương nhiên chỉ phí là một vấn để quan trọng trong khi đánh giá và so sánh các phương pháp dự báo Out-of-control point — Upper control limit 3 = » » Š 1T" >”m——.—.——>—————— a-rnrnsnmsax>sxszaa —= Target Rị ch oo Lower control limit
Hình 1.3 Kiểm định kết quả dự báo
Có loại chỉ phí một lần cho việc phát triển và lắp đặt hệ thống dự báo và loại chi phí định
kỳ cho việc vận hành hệ thống Về khoản chỉ phí vận hành thì các phương pháp dự báo được
Trang 16-13-đem ra cân nhắc có thể khác nhau rất nhiều về chi phí cho việc tìm kiếm dữ liệu, cho việc tinh toán có hiệu quả, và cho việc duy tu hệ thống
Ích lợi của dự báo trong việc nâng cao chất lượng của các quyết sách quản lớ sẽ phụ thuộc vào tính kịp thời và dạng thức của dự báo cũng như phụ thuộc vào độ chính xác của dự báo Chúng ta phải đánh giá các lợi ích với con mắt xem hệ thống quan lý như là một thể thống nhất
Dự báo chỉ là một phần trong thể thống nhất đó Mục đích cuối cùng là làm sao ra được các
quyết định đúng đắn và thường mục đích này có thể đạt được bằng các dự báo không hẳn là hoàn
hảo và tốn kém
Ta còn có thể so sánh các phương pháp dự báo trên cơ sở sự đấp ứng của chúng đối với
các biến thiên ổn định (permanent changes) trong quá trình chuỗi thời gian và các biến thiên kiểu
xung Điểu này có thể thực hiện được thông qua mô phỏng và đối với một số phương pháp thống kê thì bằng cách phân tích toán học
1.6 Cân nhắc trong việc thiết kế hệ thống
Chúng tôi không có ý mô tả thấu đáo vấn đề phát triển và lắp đặt hệ thống dự báo Quá trình này tương tự quá trình đã được dùng để thiết kế nhiều loại hình khác nhau cho các hệ thống
thông tin quản lú Ở đây chúng tôi chỉ nêu một số điều cân nhắc quan trọng trong hệ thống dự báo
Khi chọn khoảng dự báo, cấ có sự cân nhắc giữa việc chịu rủi ro khi không xác định được các biến thiên trong quá trình chuỗi thời gian và các chi phí cho việc xem lại dự báo Nếu chúng ta dự báo không thường xuyên thì chúng ta có thể thao tác cho một giai đoạn dài, theo các kế hoạch dựa trên việc dự báo lỗi thời Mặt khác nếu chúng ta dùng khoảng dự báo ngắn hơn, thì chúng ta thường xuyên phải gánh chịu không những chỉ phí cho việc lập dự báo mà còn phải gánh chịu những chỉ phí cho việc thay đổi kế hoạch để phù hợp với dự báo mới Dự báo thích hợp thường dựa trên sự ổn định của quá trình, các hậu quả của việc dùng dự báo lỗi thời, và các chi phí cho dự báo và lập lại kế hoạch
Các dữ liệu mà hệ thống dự báo yêu cầu là cũng chính là nguyên nhân nảy sinh và lan truyền các sai lệch vì vây phải biên tập để tách bỏ các lỗi, kể cả các lỗi đã rõ và các lỗi còn bán tín bán nghi Các sai lệch nhỏ sẽ không thể định dạng được, nhưng chúng thường ít ảnh hưởng đến việc dự báo Các sai lệch lớn có thể dễ tách bỏ hơn và cũng dễ hiệu chỉnh Đồng thời hệ thống dự báo cũng cần không nhạy cảm với các số liệu quan trắc đặc biệt và bất thường Nếu chúng ta đang dự báo yêu cầu sản phẩm, thì bất kỳ một sự đột biến về lượng hàng bán nào (được xác định là phi tiêu chuẩn hoặc là bất thường) đương nhiên có ảnh hưởng đến lượng hàng tồn kho, nhưng sự đột biến này không được nằm trong dữ liệu dùng cho việc dự báo Thí dụ, giả định một hãng sản xuất cung cấp hang cho nhiều hãng tiêu thụ, khi hãng sản xuất có khách hàng
mới, thì đơn hàng đầu tiên của khách hàng có thể không phải là điển hình, cho các đơn hàng sau
này, vì khách hàng này lần đầu tiên tiến hành kiểm kê hàng tồn kho
Phương pháp mỏ phỏng là kỹ thuật có ích cho việc đánh giá các phương pháp dự báo được đưa ra để lựa chọn Đối với mỗi phương pháp, người ta bắt đầu ở một số thời điểm trước và
mô phỏng giai đoạn dự báo theo từng giai đoạn tới hiện tại Các số đo của sai lệch dự báo có thể
Trang 17-14-sử giả có thể được tạo dựng dựa trên cơ sở các kỳ vọng chủ quan của bản chất tương lai của chuỗi thời gian và được dùng trong việc mô phỏng Phương pháp mô phỏng cũng có ích cho việc xác định các thông số của các kỹ thuật dự báo, như các hằng số san bằng tốt nhất cho các phương pháp theo dạng hàm số mũ và san bằng trực tiếp
Cần phải nghĩ đến hai chức năng sơ cấp của hệ thống dự báo là phát sinh dự báo (forecasting generation) và kiểm soát dự bao (forecast control) Phát sinh dự báo bao gồm việc thu thập dữ liệu để xem lại mô hình dự báo, việc tạo ra dự báo thống kê, việc giới thiệu kết quả cho nhà quân lớ, việc cập nhật các ý kiến của người dùng dự báo Kiểm soát dự báo bao gồm việc kiểm tra quá trình dự báo để phát hiện các điểu kiện nằm ngoài vòng kiểm soát và việc xác định các cơ hội để nâng cao thành tích dự báo Một thành phần chủ yếu của chức năng kiểm soát là việc trắc nghiệm tín hiệu theo dõi đã được mô tả ở mục trên Các khoản mục có bộc lộ tín hiệu theo dõi nằm ngồi vịng kiểm sốt có thể được tách riêng để các nhà quản lớ chú ú đặc biệt và các nỗ lực có thể được hướng về việc hiệu chỉnh mô hình dự báo khi cần thiết Chức năng kiểm soát dự báo còn bao gồm cả việc định kỳ tổng kết thành tích dự báo và giới thiệu kết quả cho các nha quan lý thích hợp Sự phản hồi nay sẽ cổ vũ việc cải thiện hệ thống cả về mặt số lượng và cả về mặt chất lượng
Trang 18-lã-CHƯƠNG II
CÁC PHƯƠNG PHÁP DỰ BÁO ĐƠN GIẢN 2.1 Các phương pháp đơn giản nhất
Giả sử ta có dãy số liệu theo thời gian
XỊ; Xi ‹ : Xe (2.1.1)
ở day x, là giá trị của đại lượng nào đó - còn gọi là mức độ - tại thời kỳ ¡ hoặc thời điểm ¡, mà các thời kỳ hoặc thời điểm này có khoảng cách bằng nhau Khoảng cách thời gian có thể được chọn là năm, quí, tháng, ngày Khi mốc thời gian là thời kừ, ta có dãy số thời kỳ; khi mốc thời gian là thời
điểm ta có dãy số thời điểm Tuy nhiên ta sẽ gọi chung là dãy số thời gian Sau này ta sẽ xót dãy số
thời gian như là dãy số thời kỳ, tuy các kết quả có thể phải thay đổi một chút cho dãy số thời điểm 2.1.1 Dự báo dựa uào giá trị trung bình
Đôi khi trung bình số học ~ 1
x= -@¡+ +Xu) (2.1.2
có thể dùng làm dự báo cho các giá trị tiếp theo của dãy
Khi các mức độ x, không có biến đổi mạnh, (2.1.2) là một dự báo khá tốt Nói chung (2.1.2) không cho ta dự báo chính xác
2.1.2 Dự báo dựa uào lượng biến đổi bình quân
Trong kinh tế, đại lượng 8 =%- Xu fis 2, , n) (2.1.3) gọi là lượng biến đổi thời kỳ ¡, còn gọi là lượng tăng (hoặc giảm) tuyệt đối liên hoàn Thế thi = X_—Xx 8=———— (2.1.4) n-1 sẽ là lượng biến đổi trung bình Từ đó ta có mô hình dự báo Xeu=xv+ Oh, (h = 1, 2, .) (2.1.5)
Trang 19-ỗ= ey (460,2- 256,1) = 68,033
Từ đó
Ñ\„ =Â,„„., =460,2+68,033x1= 528,233 Â is =8„„, =460,2+68,033x2=596,266
2.1.3 Dự báo dựa uào tốc độ phát triển trung bình
Tốc độ phát triển thời kỳ được cho bởi x Y,=——,(=2,3, ,n) (2.1.6) Xi i- Từ định nghĩa cỏa tốc độ phát triển bình quân Y="ÄY:Y: -Ýa (2.1.7) ta CÓ: Y =m-i Từ đó ta có mô hình dự báo sau Ê„,=x,xŒ)",(= L2 ) (2.1.8)
Phương pháp này khá tốt khi tốc độ phát triển thời kỳ xấp xỉ bằng nhau
Ví dụ Dân số của một địa phương năm 1993 là 50.725 người, năm 1998 là 57.116 người
Giả sử tốc độ tăng dân số hàng năm tương đối ổn định Ta có
Từ đó ta có các dự báo dân số của địa phương:
Fio9 =57.116x(1,024)! = 58.487 For =57116x(1,024)* = 62.800
Trang 212.2 Trung bình trượt
Trung bình trượt là phương pháp đặc biệt đơn giấn, nó như một kỹ thuật làm trơn các số liệu bị nhiễu bởi các sai số
2.2.1 Trung bình trượt cho quá trình hằng số
.Giả sử chuỗi thời gian được biểu hiện bằng quá trình hằng
X= b+ (2.2.1)
Trong đó b- hằng số, ¢, dãy các sai số không tương quan, trung bình 0, phương sai ơ?” Giả sử ta có các quan sát từ thời gian gốc đến hiện tại T: xạ, Xxạ, , Xy Sau này ở mục 422.3 ta biết rằng trung bình cộng b= (2.2.2) i oh = Ti
sẽ là ước lượng bình phương cực tiểu cho b, cũng là dự báo cho bất kì thời kì tương lai T++ nào Tuy nhiên, giá trị của tham số b có thể biến đổi một cách chậm chạp Như vậy sẽ là có lí khi ta quan tâm hơn đến những quan sát mới Cách đơn giản nhất là chỉ xét N quan sát mới nhất và tính trưng bình cộng của chúng
1
AM; “3y [Er*®*rSi*s<**r— w—1) (2.2.3)
Ở mỗi thời kỳ, giá trị cũ nhất bị bổ đi còn giá trị mới nhất được đưa thêm vào trung bình
cộng Vì lẽ đó ta gọi My là trung bình trượt đơn N- thời kỳ Dự báo cho thời kỳ tương lai T + v là
#+,=Mr, (v= 1, 2, ) (2.2.4) Công thức
Xx—X
M,=M,_,+ 5 N = (2.2.5) Cho phép ta tính Mạ trực tiếp qua giá trị trước đó Mạ;
Chú ý: Khi kích thước N lớn, trung bình trượt biến đổi chậm theo sự biến đổi của b Khi N
nhỏ, trung bình trượt biến đổi nhanh theo b Tuy nhiên, khi N nhỏ, phương sai DM, = 6? /N
là khá lớn Vì vậy nếu quả thực quá trình là hằng, ta sé dùng N lớn Nếu quá trình là biến đổi, ta sẽ dùng N nhỏ để M; theo kịp sự biến đổi của b Tiếc thay không có qui tắc nào xác định N Đây
là nhược điểm của phương pháp
2.2.2 Trung bình trượt cho quá trình xu thế tuuến tính Bây giờ ta xét mô hình chuỗi thời gian
X.= bị + bạt +e, (t= 1,2 ) (2.2.6)
6 đây bạ, bạ là các tham số chưa biết, bị còn gọi là hệ số chặn, bạ- hệ số góc, s, là các nhiễu không tương quan, có kỳ vọng 0 và phương sai ơ?
Trang 22-19-Theo công thức (2.2 3) hãy lập dãy các trung bình trượt đơn N- thời kỳ
My, Myst: -> Ma (2.2.7)
Trung bình trượt của trung bình trượt đơn (cùng độ dai N) goi la trung bình trượt kép, cụ thể là
1
Ma ay +M,,+ +Mp 4) (2.2.8)
Áp dụng công thức (2.2.5) cho trung bình trượt đơn ta có công thức truy hồi tiện lợi sau đâu cho trung bình trượt kép M; —M:y N Bây giờ ta có thể tìm ước lượng cho b, bạ từ các trung bình trượt Trước hết dễ dàng kiểm tra công thức MỸ = MỸ”, + (2.2.9 N-1 N-1 E(M,)=E(x;)-—5—b, =b, +b, T-—— by E(M!))= E(x,)-(N — Db, =), +6,T-(N - 1) b, Từ đó, một cách logic, có thể lấy ước lượng của hệ số như sau b,=2M;~MÍ—b,„T (2.2.10) b 2 {2] b, =y Mt -M;’) Phương trình dự báo là ˆ 2`
Ene =2M, ~My +7 (M, ~My) (2.2.11)
Chú ú: Ý tưởng của phương pháp trung bình trượt, là có lý nghĩa là nó logic nhưng không dựa
vào bất kỳ một tiêu chuẩn tối ưu nào Tuy nhiên dự báo (2.2.11) là khá gần với dự báo bình phương
cực tiểu dựa vào N- quan sát cuối cùng sẽ xét ở 2Ø 2.3
Ví dụ Hãng sẵn xuất phếu lọc dầu cho động cơ ô tô nhận thấy mức bán ra tăng khá và vẫn còn tăng trong tương lai Số liệu hãng cung cấp điển ở cột 1 và 2 ở bằng 2.2.1
Khi thể hiện trên đồ thị ta thấu dường như số liệu thể hiện xu thế tuyến tính Ta dùng trung
bình trượt kép 5 tuần để dự báo Trung bình trượt tính từ tháng thứ 5, Trung bình trượt bội được
Trang 23-20-Bang 2.2.1
Tháng | Mức Trung bình | Trung bình trượt | Dự báo trước
bán | trượt đơn My kép wer 1 thang x, (T-1) 1 317 2 194 3 312 25 “1,5 4 316 5 322 292,2 6 334 295,6 7 317 310,2 8 356 329,0 9 428 351.4 317.68 402 10 411 369,2 333,08 447 11 494 401,2 354,2 472 12 412 420,2 374,2 489 13 460 441,0 396,6 508 14 395 434,4 413,20 462 15 392 430,6 425,48 438 16 447 421,2 429,48 409 17 452 4292 431,28 426 18 571 451,4 433,36 478 19 517 475,8 441.64 527 20 397 476,8 450,88 516 21 410 469,4 460,52 483 22 579 494,8 473.64 527 23 473 475,2- 478,40 470 24 558 483,4 479,92 489
2.2.3 Là trơn số liệu phi tuyến
Làm trơn một dãy số liệu theo các phương pháp mô tả ở mục 2.2.1, 2.2.2 gọi là trơn tuyến tính Tuy nhiên tình hình sẽ xấu đi rất nhiều nếu ta xét những dãy có số liệu ngoại lai, chẳng hạn:
5.7, 3, 8, 9, 6, 10, 12, 1500, 11, 15, 13, 18, 20
Trang 24-21-Ngay cả số liệu 1500 trong dãy là đúng, nó cũng khác xa với những số liệu khác mà ta rất quan tâm Số liệu này làm cho dãy trung bình trượt tương ứng biến đổi quá nhanh, quá lớn Ta mong muốn có một phép là trơn làm vơ hiệu hố tác động này của số liệu ngoại lai Có thể xét phép là trơn sau
m, = m,(3) = med G1, Xs Xe) (2.2.12)
gọi là median chạy độ dài 3
Áp dụng phép là trơn này với số liệu vừa nêu ta được:
-, 5, 7, 8, 8, 9, 10, 12, 12, 15, 13, 15, 18, - mà là đại diện tốt cho dãy số liệu trên nhưng lại bỏ qua được số hạng 1500
Lặp lại median chạy một lần nữa ta được:
-,-, 7, 8, 8, 9, 10, 12, 12, 13, 15, 15, -, -
Chú ý rằng nếu tiếp tục tính median chạy cho dãy cuối cùng thì không được gì mới hơn Khi ta chạy cùng median chạy để làm trơn số liệu một số liệu ban đầu và cuối bị mất đi Có một cách đơn giản để khắc phục hiện tượng này là copy lại những giá trị đầu và cuối của dãy thu được Ovi dụ trên ta có
5, 7, 3, 8, 9, 6, 10, 12, 1500, 11, 15, 13, 18, 20 5, 5, 7, 8, 8, 9, 10, 10, 12, 12, 15, 13, 15, 18, 20
5, 5,7, 8, 8, 9, 10, 12, 12, 13, 15, 15, 18, 20
Kỹ thuật vừa nêu ở mục này cũng có thể áp dung voi median cé dé dai 5, 7,
LÀ trơn bằng median chạy không được dùng trực tiếp để dự báo Tuy nhiên nó là cách cực kỳ
hữu hiệu để tái tạo dãy số thời gian, loại bỏ số liệu ngoại lai, kỳ dị Sau bước này ta có thể dùng kỹ thuật trung bình trượt hoặc làm các kỹ thuật ở các phần sau để tiến hành dự báo
2.3 Phân tích hồi qui
Phân tích hồi qui là kỹ thuật để mô hình hoá và nghiên cứu mối quan hệ của 2 hay nhiều biến Kỹ thuật này có ứng dụng vô cùng rộng rãi và được nêu ra ở hầu hết các sách cơ sở về thống kê Tác dụng quan trọng của phương pháp hồi qui là dự đoán Tuy nhiên ở giáo trình này chúng tôi trình bày phương pháp hổi qui và những ứng dụng của nó liên quan đến dự báo tức dự đoán các sự kiện ở tương lai
2.3.1 Hồi qui tuyến tính đơn
a) Lập ph ảnh hồi qui
Giả sử chúng ta muén tìm hiểu mối quan hệ giữa hai biến X và Y Chúng nhận giá trị bằng số
và có thể biến đổi Ta tiến hành đo các giá trị xị (có thể trùng nhau) của biến X và y, của biến Y Một
mẫu gồm n cặp đã biết
Oe, Ys bạ, và
Câu hỏi đặt ra là từ những cặp số này rút ra điều gì đó về quan hệ giữa X và Y
Trang 25-22-Bay giờ ta giả thiết biến X là biến độc lập, côn gọi là biến hồi qui, nghĩa là có thể đo được một cách chính xác, hoặc ít nhất là độ chính xác của nó cao hơn rất nhiều độ chính xác của biến Y, có
thể điều khiển được nó, xác định được nó bởi nhà phân tích; còn biến Y là biến phụ thuộc, còn gọi
là biến phân hồi Ta muốn có quan hệ hàm số y = Í(x) phân ánh mối quan hệ giữa hai biến X, Y thông qua những cặp số liệu đã nêu
Ta vẽ n điểm (xạ, vị), , (X„, v,) lên mặt phẳng Tập các điểm này trông như một đám mây
nên gọi là đám mâu các điểm Rõ ràng dạng hàm số f(x) nên chọn tườ thuộc vào đám mây các điểm này theo vị trí, độ phân tán và cũng tuỳ thuộc vào những thông tin khác (ví dụ: từ nghiên cứu định tính, từ các qui luật hoa ly, tir cdc qui luật tâm sinh lớ, từ kinh nghiệm )
Bây giờ ta xét trường hợp đcm giản nhất khi hàm số f(x) có dạng ax + b
Giả sử các giá trị của quan sát (4, w} có thể viết theo mô hình tuyến tính đơn sau đâu
w= a4 + b + 6 (2.3.1)
ở đầy a: hệ số chặn, b- hệ số góc là những tham số chưa biết cản ước lượng, se, được giả thiết là không tương quan, E s, = 0 D s¡ = ø? xe ÍA, BỊ
yw=ax+b gọi là đường hồi qui (tuyến tính) lợ thuyết
Ta sẽ tìm a, b, nói khác ta sẽ ước lượng a, b, sao cho đường hồi qui lý thuyết “gần nhất” với
đám mây điểm trên Một cách dễ dàng được chấp nhận là tim a, b sao cho
> (y,-(ax, +b)? > min (2.3.2)
it
Trang 26
— ie = Ig — 12
X=-yx,; Y=—-Ly,; X¥=- aX nữ yi nữ XY)
Thay phương trình hồi qui lý thuyết, ta được phương trình hồi qui thực nghiệm theo phương pháp BPCT
y=âx+b
b Phương trình ước lượng và dự đoán
Giả sử các hệ số a, b đã được tìm ra theo phương pháp nào đó (chẳng hạn phương pháp bình phương cực tiểu), khi đó nó gọi là hệ số thực nghiệm sẽ ký hiệu bằng cách thêm vào dẫu mũ: 4, b Đường hồi qui tương ứng gọi là đường hồi qui thực nghiệm
$=?(x)=âx+B (2.3.6)
Giá trị âx+B cũng là một ước lượng cho biến phụ thuộc Y khi biến độc lập X nhận giá trị x x nên (2.3.6) cũng có thể xem là phương trình ước lượng, phương trình này còn gọi là phương trình lọc giá trị âx+b còn gọi là giá trị lọc của Y khi biến X nhận giá trị x
Dựa vào phương trình ước lượng có thể làm một số dự đoán
() Trường hợp “nội suy” Phương pháp BPCT áp dụng rất tốt cho trường hợp dự đoán “nội
su” Cụ thể là khi X nhận giá trị xạ e [A, BỊ, giá trị dự đoán của Y là
f(x,)=4x, +6
Nhu vay phương trình (2.3.6) còn gọi là phương trình dự đoán
(°) Trường hợp “dự báo ngoại suy” Ta nhớ lại ở ta đã dùng từ “dự báo” để chỉ những dự đoán cho các giá trị tương lai của chuỗi thời gian Bây giờ xét trường hợp quan trọng của phương trình dự đoán (2.3.6) khi biến độc lập là thời gian
y(Œ=ât+ỗ „ te[0,TỊ (2.3.7)
Đường (2.3.7) còn gọi là đường xu thế Ta coi đường xu thế này vẫn côn tác động trong tương
lai Vi vay khi ngoại suy (2.3.7) ta có thể được những dự báo cho những giá trị thời gian tiếp sau T: T+1.T+2,
Ví dụ Theo dõi chi phi dé bao trì và sửa chữa bốn xe tải của một công tự ta được bảng sau
Bảng 2.3.1
Số xe Tuổi của xe (theo năm) Chỉ phí sửa chữa năm vừa
Trang 27-24-Hãy tìm đường hồi qui biểu thị quan hệ giữa chỉ phí sửa chữa, bảo quản và số năm đã dùng của xe
Công tự vừa mua một xe tải khá tốt bốn năm tuổi Hãy dự đoán năm nay công ty phải chỉ bao
nhiêu cho sửa chữa, bảo dưỡng xe này Giải Lập bằng sau Bảng 2.3.2 Số xe Tudi xe x, | Chỉ phí sửa chữa Xã, x? 101 5 7 35 25 102 3 7 21 9 103 3 6 18 9 104 1 4 4 1 Téng 12 24 78 44 Tit bang ta tinh K=-Dx,-"223; Y=+Yy,=6 n_ ' 4 n' = | XY=— Dixy, =195; 72x) =11 1 Theo công thức (2 3 5) 195-3x6 1,5 6=6-2,25=3,75 Phương trình hồi qui y = 0,75x + 3,75 Dự đoán chỉ phí bảo dưỡng và sửa chữa xe mới mua v(4) = 0,75 x 4 + 3,75 = 6,75 (triệu đồng)
Chú ý Có thể dãy xị, xạ, xạ là dấy số thời gian nhưng đôi khi ta vẫn là có thể coi chúng là
thể hiện của biến độc lập X Chẳng hạn tuy biến X có thể được quan sát một cách độc lập ở những thời điểm liên tiếp cách đều nhau nhưng trong tương lai chúng có thể được qui định bởi nhà phân
tích, có thể điều khiển được giá trị của biến X, sai số của biến X là nhỏ , khi ấu ta vẫn có thể dùng
phương trình dự đoán để dự báo cao giá trị tương lai của Y “Dự báo” trong trường hợp như vậy thực
chất là dự đoán /
Ví dụ Qua mấy năm hoạt động kinh doanh nhà quần lý của công tự nọ thấy rằng có một mối
liên hệ nhất định giữa chỉ phí cho nghiên cứu và triển khai các công nghệ mới, dây chuyển sản xuất
Trang 28này Năm nay ông có ý định dành cho nghiên cứu và triển khai mới 80 triệu đồng Ông có thể hi
vọng lợi nhuận thu được là bao nhiêu Bảng 2.3.3 Năm | Chi phí cho nghiên cứu và triển khai (triệu đồng) Lợi nhuận (Triệu đồng) 1992 20 200 1993 30 250 1994 50 340 1995 40 300 1996 110 400 1997 50 310
Giải Dường như số liệu ở cột 2 của bằng 2.3.3 là chuỗi thời gian Tuy nhiên khi phân tích kỹ hơn ta nhận thấy, dãy số liệu chỉ phí cho nghiên cứu và triển khai có thể coi là thể hiện của biến độc
lập Trong tương lai (năm nay, năm tới ) chí phí này được qui định bởi nhà quản lý Bởi thế lợi
nhuận năm nay, năm tới là “dự báo”, ta vẫn có thể dùng phương trình dự đốn (2.3.6) (chứ khơng phải dự báo ngoại suy 2.3.7)
Tiến hành tương tự như ở ví dụ trước (lập bảng, tính hệ số ), ta thu được phương trình dự đoán là
y= 2x + 200
Trang 29(2.3.10) d Khoảng hợp lý và kiểm định Bay giờ gi thiết thêm rằng e, ở (2.3.1) có phân phối chuẩn Nío, ø?) Phân phối của cả hai đại lượng “=—=—— a = (2.3.11)
đều là chuẩn N(O 1)
Nếu ơ? trong cả hai đại lượng trên được thay bởi ước lượng G” của nó theo (2.3.10) thì cả 2 đại lượng vừa nhận được có phân hối t với n-2 bậc tự do Từ đó khoảng hợp lý 100 (1-œ)% cho a và b tương ứng là: (2.3.12) bet G7 /Syy $.(0-2) Thông thường ta chon o = 0,5; 0,1; 0,05
Trang 30-27-Còn nếu | tạ |= <†„
2 n-2
ta chưa có lý do để coi giả thiết b=0 là không đóng, nghĩa là ta sẽ coi b=0 là không đúng, nghĩa là
ta sẽ cơi =0 Chú ý rằng khi ấy ước lượng â của a không còn theo công thức (2.3.5) nữa, mà
phải được tính lại từ đầu, nghĩa là giả sử quá trình là
)u=a+e®
- „ lẻ
và tìm a theo phương pháp BPCT (dễ thấy a=") y;}
1
ø Kiểm tra sự phù hợp của mô hình hồi qui
Trong bài này chúng ta đã tiến hành lập mô hình hồi qui (còn gọi là lọc) với các giả thiết: - Các sai số s, không tương quan, có kỳ vọng 0 và phương sai 1 để ước lượng tham số mô
hình
- Các sai số e, ~ N (0, ø?) để ước lượng khoảng và kiểm định - Mô hình có dạng đa thức bậc nhất của X
Khi phân tích ta phải xem các giả thiết này có thoả mãn hay không Ta đưa ra vài phương cách giải quyết vấn đề này
Cách 1: Dựa vào hệ số xác định
R2 =§ Šxy
1 Sxx
Dé thay 0 < R* < 1 Ta nói rằng có khoảng 100R?% số liệu được tính theo mô hình
Tất nhiên ta mong muốn R° khá gần 1 Tuy nhiên R? không chỉ định tốt sự phù hợp: có thể R? lớn hơn mà mô hình lại tổi hơn
Cách 2: Dựa vào các độ lệch chuẩn hoá
d, =r, MS, (2.3.14)
r,=(y,Tÿ,)
Trong đó 1
M n-2 (Syy ~Sxy) E
Nếu phần dư {øj} là chuẩn NịO, ø?) thì có khoảng 95% các điểm d, rơi vào đoạn [-2,2] 2.3.2 Hồi qui tuyến tính bội
a Lap phương trình hồi quị
Giả sử ta muốn tìm một quan hệ giữa biến phản hồi Y (trong kinh tế còn goi là mức độ) với một số biến độc lập Xị, X (còn gọi là biến hồi qui) Mô hình dự tưyển là
yob, + byt +X te (2.3.15)
Trang 31ở đây bạ, bị, bạ là các tham số chưa biết, s là thành phần sai lắm ngẫu nhiên Phương trình (2.3.15) còn gọi là phương trình hỏi qui tuyến tính bội
Để tìm các hệ số b, ta tiến hành n quan sát và lập bảng kết quả L Xị X¿ Xk y 1 Xu Xa Xứ Vi 2 Xai Xoo Xa Ye n Xa Xn2 Xnk Ya Bang 2.3.4 Kết quả quan sát
Khi Ay có thể viết lại phương trình hồi qui (2.3.15) dưới dạng quan sát
Vị = Dạ + Dị Xị + + Dụ Xị + B,
= bo + 3 by 46 (23.16)
Những giả thiết về sai số: s; không tương quan, có kỳ vọng 0, c6 phuting sai o”
Ước lượng bình phương cực tiểu (BPCT) của các tham số b, là ước lượng hàm cực tiểu hoá
tổng của bình phương các sai số
Ibạ, bạ, , bu) = x e?
= 2, - 0, +d, by x4)?
Chú ý rằng (2.3.17) là 1 dạng toàn phương của các biến b, nên điểu kiện cần của cực tiểu là
Trang 32b, DY, * à g= » ng Đụ » x4, | Nghiệm của hệ sẽ là 6=G"' g (2.3.20)
Trong đó G1 là ma trận ngược của G Ta không di sâu và sự tổn tại của ma trận ngược này Phương pháp thu nhận b từ việc cực tiểu tổng các bình phương (2.3.17) gọi là phương pháp bình phương cực tiểu (PPBPCT) Phương trình ước lượng (2.3.21) <> MW o> 2 + -Mr fom) »< Phan dư mẫu thứ ¡ là hiệu số Š.,=Y, TỦ, b Dạng ma trận
Những trình bày ở phân a sẽ rất gọn gàng, tiện lợi khi viết nó dưới dạng ma trận Dạng ma
trận giúp cho nhập số liệu vào máy tính thuận lợi cũng như giúp cho sự phát triển tiếp theo về mặt lý thuyết
Giả sử y là n- véc tơ các quan sát, b là (k+1)- véc tơ các tham số chưa biết, e là n- véc tơ các sai số, X là n x (k+1)- ma trận của các biến hồi qui v1 bo e, y= Y2 b= b, = ey Yn b, tạ 1 Xi Xu XK x= | Ky X;; X+x 1 Xị Xạ; Xác Bây giờ ta có thể viết (3.2.16) dưới dạng ma trận y=Xbte (2.3.22)
Phương pháp BPCT đòi hồi giả thiết về sai số s¿ chúng có kỳ vọng 0, phương sai ø? và không tương quan Dưới dạng ma trận điều này có nghĩa là
Ee = 0 và ma trận covarian cấp n xn có dạng
Trang 33~30-“Trong đồ Ï là ma trận đem vị cấp n x n Phương trình (2.3.17) có dạng l(b) = ø` s = fy - Xb)’ (y - Xb) Cực tigu hod ib) đạt được tại ỗ=(XX)'Xy) (2.3.23) Tinh chat 1 E(B)=b (2.3.24)
Điều này tương đương với Eb, =b, nghĩa là bia ước lượng không chệch của b Tính chất 2 Ma trận covarian của ULBPTT là
V=cov(6,)=(X'X)'ø? (2.3.25)
Tính chất 3 Ước lượng của ø? cho bởi
ar TÔ Và ca
Ớ “ap 9) @-ÿ)= n-p (2.3.26)
là ước lượng không chệch của ơ?
c Khoảng cách tin cậy và kiểm định
Trang 34-31-Chú ý: Cũng có những thống kê để kiểm định giả thiết
Hạ: by = bạ= = by =Õ
đối thiết Hạ: có ít nhất một b, z Ô
d Dự đốn và ước lượng
Mơ hình hồi qui được sử dụng hết sức rộng rãi để dự đoán và ước lượng Từ “ước lượng”
muốn nói rằng ước lượng giá trị trung bình của biến phải hồi tại 1 tổ hợp nào đó của các biến hôi qui, nghĩa là EW/| xạ, Xu)
Ở đầu ta cũng cần giả thiết ạ ~ N(O, ø?)
Khi đó khoảng tin cậy 100 (1-œ)% cho trung bình của y tại điểm x = (x, ., x)’ la
12
ytt,, n-p|6? x'(X'X)7 x| a (2.3.40)
2
Giả sử tiến hành 1 quan sát tương lai tại biến hổi qui X = xe = (Xe, , xoa)” Dự đoán cho biến phần hồi Y tại điểm này là J=xyb Khoảng tin cậu với giả thiết chuẩn đã nói get, Í@?d+x@O1s}” (2.3.41) 2P e Tuyến tính hoá một số mỏ hình
+ Giả sử biến phản hồi y có thể biểu diễn dưới dạng
V=ai giữU, , XỘ + + ae OE, MI) FE (2.3.42) Xót các biến mới Zr Kay ee My oe = ie Kay Với các biến mới này ta đưa (2.3.42) về dạng thông thường ỤZa;Z¡ + +ayZ,+e (2.3.43) + Bay giờ giả sử biến phân hồi y biểu diễn dưới dạng y=e e2 hp (2.3.44)
Lấy logarit 2 vế ta được
Y =log9 = ai Xi +a¿X¿ + + ay X; + log e (2.3.45) đưa về dạng tuyến tính thông thường
Như vậy trong rất nhiều trường hợp, dùng phép biến đổi loga (hoặc biến đổi mũ exp) tổ ra
hữu hiệu Tuy nhiên cần phải xét các phản dư cẩn thận Chẳng hạn nếu ở (2.3.45) ta giả thiết s' =
loge có phân phối chuẩn để có thể dùng phương pháp BPCT tìm ước lượng cho các hệ số Thế thì s
Trang 35-32-ở (2.3.4) không có phân phối chuẩn nữa, mà có phân phối loga chuẩn Phép biến đổi ngược không đâm bão tính không chệch Ta sẽ xét ở một ví dụ cụ thể sau nay
f Một số gợi ý để nhận dạng mô hình
Lớp các đa thức là lớp hàm rất rộng, tuy nhiên không phải là tất cả Vả lại sử dụng đa thức để
xấp xỉ thường phải cân nhiều tharn số, điểu mà mỗi nhà phân tích muốn tránh Nhiều khi những dạng hàm khác rất đơn giản nhưng lại xấp xỉ tốt số liệu Sau đây là 1 số gợi ý nếu ta muốn sử dụng mô hình 2 tham số Ta lấy 3 điểm x,, x, xụ với xị, x„ gần nút nhất có thể, x là điểm nào đó trên &%,, xu) Kứ hiệu f(x) HM Có 7 trường hợp hay gặp 1 GE LED pms Fux eVf@) FO), year?
2 Y=ưz+bX ,a=lga, X=lgX,Y=lgŸ
/Eš ts) Fe) y=ab*, Y=a+Bx
7 FY 4%; pee) y=algx +b;Y =ax+b, X=lgx
Ta xét xem xấp xỉ nào trong 7 xấp xỉ trên là tốt nhất rồi chọn hàm xấp xỈ tương ứng Việc chọn x„ x„ là khá tuỷ tiện, giá trị quan sát tương ứng lại là ngẫu nhiên nên có thể ta chưa chọn được mô hình tốt Vì vậu, sau khi xét cẩn thận mô hình vừa chọn mà thấy nó không đạt yêu cầu thì phải xét mô hình nào đó trong 6 mô hình còn lại hoặc phải xét lớp hàm 3 tham số
g Dự báo bằng mô hình hồi qui
Có thể dùng mô hình hồi qui để dự báo khá tốt Khi biến độc lập là thời gian, sau khi đã tìm
được ước lượng cho các tham số ta “ngoại suy” phương trình ước lượng thu nhận được để tìm dự báo cho tương lại Việc ngoại suy đưa đến dự báo không có độ chính xác cao và tâm dự báo tương đối ngắn
Chẳng hạn giả sử biến phản hồi là chuỗi thời gian ụ, là đa thức bậc 2 của thời gian
Ye = bg + byt + bot? +e,
Trang 36
Ta có thể đặt z¡ = t, z; = t? và trở về phương trình
W = bạ + bựZi + bạZ; + & Nếu hàm phan hồi có dạng
Yr = by + byt + bạ sinat + bz coswt + ¢,
mà là biểu diễn tốt của một số quá trình thời vụ Bằng cách đặt
Z¡= †, Z¿ = Sino†, Z¿ = cOs@t
ta cũng đưa về mô hình tuyến tính đã xét
Từ các dãy số liệu của thời gian và y, ta lap các số liệu mới zø; w„ ¡ = 1, , T Sau khi từn được
ước lượng b, ta có thể tính dự báo chẳng hạn với trường hợp đa thức bậc hai
ÿ; =ð, +ô,(T+t)+ổ, (T+t)?
Chú ú Chú ý ở mục 2.3.1 b vẫn còn có giá trị cho trường hợp hồi qui bội, cụ thể là nếu ba,
j=1 ,nÌ i=1, , k có thể là các dãy số thời gian nhưng nếu chúng có thể coi là các biến độc lập
thì ta có thể “dự báo” tốt bằng phương pháp hồi qui
Trái lại, nếu không thể coi một trong các dãy (xạ, j=1, , n} là biến độc lập, chẳng hạn chúng là dãy số thời gian mà nó có sự tương quan cao giữa các phần tử trong cùng một dãy, thì ta phải sử dụng một lược đồ hoàn toàn khác sẽ trình bày ở chương V
Khi các biến độc lập z là hàm có dạng đơn giản của thời gian, ta sẽ dùng phương pháp dự báo khác hiệu quả hơn s trình bày ở 3.4
2.4 Vài nét về hồi qui phi tuyến
Ở 2.3 ta đã giả thiết số liệu của ta tuân theo mô hình tuyến tính (2.3.16) Tuy nhiên giả thiết
tuyến tính tổ ra là một đòi hỏi khắt khe: rất nhiều số liệu thực tế không tuân theo đòi hỏi này Có lẽ do hiểu biết lý thuyết của chúng ta còn cạn hẹp mà buộc lòng trong nhiều trường hợp chúng ta phải sử dụng mô hình tuyến tính để phân tích số liệu Tuy có khó khăn và phức tạp hơn nhiều từ trường hợp tuyến tính sang phi tuyến, sor:g kỹ thuật máy tính cho phép và cổ vũ người ta sử dụng phương
pháp phi tuyến để thu được những mô hình tốt nhất
Giả sử biến độc lập X = Œ, , Xu) va biến phụ thuộc Y tuân theo mô hình phi tuyến sau
Ụ = ẨẦX, , Xm Or, OJ te ˆ (2.4.1) Dang quan sát là
i = Ẩm, Kimi 1, J +e fel) n (2.4.2)
Trong dé f la ham có dạng đã biết của biến độc lap (%1, ., x) (con goi IA bién héi qui, bigén đầu vào- tuỳ mục đích sử dụng) và clia cdc tham sd 9), ., 0, & 1A các sai số ngẫu nhiên được giả thiết là không tương quan, có kỳ vọng Ô phương sai ø?, ơ? chưa biết Fiơn nữa ta giả thiết f là hàm phi tuyến theo tham số 0\, , 9,
Ví dụ Mô hình mũ 2 tham số
Trang 37-y =a + exp (ox)
ở đây biến hồi qui là x, 2 tham số là a, ø
Mô hình Michaelis - Menten được sử dụng rộng rãi trong hoá sinh để lập mô hình vận tốc phân ứng trong những hệ enzym
Vu &
6 day y lA vận tốc phần ứng, X là mật độ khối lượng, Có thể viết (2.4.1) dưới dạng véc tơ như sau y=f, @)+e (2.4.3) trong đó MÃ) je : : Jn © SF (2p aes Xp 6,, , Ổ, y=] |,£=] | và 4zx(@=| |=|- ììà re : Fn, CPD) Faro Xam 3-5) Yn eg, Ước lượng BPCT ổ là ước lượng hàm cực tiểu I(9)=1(8, 8.)=2” 0 —7, (0)? (2.4.4) i=l
Không có công thức để tính ước lượng Ổ Lân đầu tiên Jennrich, R.I Năm 1969 dua ra
phương pháp lặp để tìm Ô Phương pháp này dựa vào khai triển Talo đến cấp 1 của hàm f (6) Để
Trang 381@=Œœ~Z@)œ~/@)) =ơ-/(83 œ-7())~ -2(y- f(8)) J()(0-8)+(0-83 J(83 J()(@-8) al Dé cho 16) cực tiểu thì các đạo hàm riêng 2 phải bằng 0 Giải ra ta được 8~8+[7 (6)J()1'1 @)(-f@)ˆ Ưi vậy nếu 6, là giá trị lặp lại bước ¡ thì giá trị lặp lại tại bước ¡+1 của Ổ là 8, =8, +[J (8)7)] "7 @,)@-£(@,) (2.4.6)
Khi dãy đã hội tụ, tức | 6,„; - 6 | < e đủ bé thi quá trình lặp chdm détt va chon 6=6,,,
Chọn giá trị ban đầu thế nào, biến đổi các tham số ra sao để quá trình lặp hội tụ? Lời giải cho các câu hổi này có thể tìm thấy ở tài liệu [9] Ở đó chúng ta cũng tìm thấy chương trình mẫu cho tính toán ước lượng 8
Ví dụ Mô hình logic tic
_ a
1+exp(B~+t)
Biểu diễn rất tốt các quá trình sinh trưởng Quá trình sinh trưởng là quá trình xuất phát từ 1
điểm nào đó, đầu tiên vận tốc phát triển tăng, đạt cực đại, rồi vận tốc phát triển giảm còn quá trình
Trang 39-36-CHUONG II
PHƯƠNG PHÁP LÀ TRƠN MŨ
Là trơn mũ có lẽ là lớp rộng rãi nhất để là trên chuỗi thời gian rời rạc cho mục đích dự báo tương lai ngắn hạn Phương pháp này hấp dẫn chúng ta bởi tính đơn giản, hiệu quả tính toán, đáp ứng dễ dàng những biến đổi của quá trình cần dự báo và sau hết là độ chính xác chấp nhận được của
nó
3.1 Là trơn mũ đơn cho quá trình hằng số 3.1.1 Xác định phương pháp
Giả sử ta có thể tin rằng mức độ (tiêu thu, bán ra, thu nhập ) trung bình là không đổi theo
thời gian hoặc biến đổi rất chậm Như vậy có thể xét mô hình hằng số
x= b+e, (3.1.1)
Trong đó e, là ngẫu nhiên, E s, = 0, De, = ơ?
Cuối thời kỳ T, ta đã biết các số liệu xị, , xạ, từ đó ta muốn dự báo b và ø? Ta có thể dùng phương pháp trung bình trượt như ở chương trình trước Tuy nhiên ở đây t a dùng phương pháp
khác, gọi là là trơn mũ đơn
Giả sử ở thời kỳ T-1 ta đã có ước lượng b(T- 1)nào đó cho b, ký hiệu là S;; Tất nhiên ta sẽ dùng Sr; làm dự báo một bước tại thời kỳ T-1, nghĩa là
#,(1-)=K(T-)=S,,
Bây giờ ta có thêm một quan sát mới, như vậy ta da biết xạ Thế thì một ước lượng có lớ cho b lúc này (tại T) là số “trung dung” giữa S+.; và xạ:
Sp = 0X + (1-0) Spy (3.1.2)
Phép qui nạp xác định S; bởi công thức (3.1.2) gọi là là trơn mũ đơn S; gọi là giá trị hoặc thống kê) là trơn , lượng điều chỉnh œ gọi là hằng số là trơn
Trang 40-37-Như vậy Sr chính là tổng trung bình trọng lượng của các quan sát quá khứ Các trọng lượng trong ngoặc vuông [ ] lập thành dãy luỹ thừa cơ số 1-œ nên phương pháp gọi là là trơn mũ 3.1.2 Tính chất uà sử dụng phương pháp a) Nếu T đủ lớn sao cho (1-đ)” % gần bằng không thì là trên mũ cho ta ước lượng không chệch E€nzb từ đó ta chọn b(T)=S, va #„,()=Š; , (t=1,2, )
b) Độ chính xác của phương pháp Co;
Như vậy hầu hết sai số dự báo nằm trong +2đ ,
c) Giá trị lớn của œ làm cho là trơn mũ Sr biến đổi nhanh, phụ thuộc mạnh vào tương lai gần Trái lại, giá trị nhỏ của œ làm cho là trơn mũ S; biến đổi chậm, phụ thuộc khá mạnh vào tương lai xa Sự phụ thuộc này xấp xỉ như với trung bình trượt đơn Ñ- thời kỳ với
a
o* N41
Nếu đã có quan sất, có thể dùng trung bình đơn của N quan sát gần nhất
(Xy+ +Xyy)/N
làm ước lượng cho So
Nếu chưa có quan sát nào, ta phải dùng một ước lượng chủ quan (dựa vào các thông tin khác,
dựa vào kinh nghiệm ) để gán giá trị cho Sp
ø) Vi Sạ là ước lượng # đáng tin cậy nên người ta có xu hướng chọn œ, T sao cho trọng lượng của nó nhỏ hơn 0,1;
(1-øœ}f<0,1