Xác định tính chất chặt chẽ của các mối liên hệ giữa các yếu tốvà sử dụng các số liệu đã biết để dự báo sẽ giúp nhà quản lý rất nhiều trong việchoạch định các kế hoạch sản xuất kinh doan
Trang 1KHÓA LUẬN CỬ NHÂN KHOA HỌC
NGÀNH TOÁN – TIN ỨNG DỤNG
VINH 2011
Trang 2Th S NGUYỄN THỊ THANH HIỀN
VINH 2011
Trang 31.2 Mô hình hồi quy phi tuyến 8
Chương 2 Giải các bài toán thống kê trên Microsoft Office Excel
10 2.1 Công cụ Data Analysis 10
2.2 Giải các bài toán thống kê trên Microsoft Office Excel 11
2.3 Một số phương pháp giải khác 25
Kết luận
31
Tài liệu tham khảo
32
Trang 4MỞ ĐẦU
Các yếu tố trong mỗi hoạt động sản xuất kinh doanh luôn có mối liên hệ mậtthiết với nhau Xác định tính chất chặt chẽ của các mối liên hệ giữa các yếu tốvà sử dụng các số liệu đã biết để dự báo sẽ giúp nhà quản lý rất nhiều trong việchoạch định các kế hoạch sản xuất kinh doanh hiện tại cũng như tương lai Thựchiện được điều đó là ta đã đi tìm lời giải cho bài toán thống kê Thống kê là thuthập dữ liệu, nghiên cứu định lượng, tóm tắt thông tin nhằm hỗ trợ tìm hiểu vềmột vấn đề hay một đối tượng nào đó, đưa ra những kết luận dựa trên những sốliệu, ước lượng hiện tại hoặc dự báo tương lai Việc chọn lựa phương pháp đểgiải các bài toán thống kê sao cho các dự báogần đúng nhất là một việc hết sức
quan trọng Trong đó phương pháp hồi quy tương quan đã được Francis Galton
sử dụng vào năm 1886 Trong một bài báo nổi tiếng của mình, ông đã cho rằngmột xu hướng về chiều cao của những đứa trẻ do cha mẹ cao không bình thườnghoặc thấp không bình thường sinh ra, người ta gọi xu hướng này là luật Galton
Trong bài báo của mình Galton dùng cụm từ “regression to mediocrity” qui về
trung bình Từ đó, vấn đề hồi quy được nhiều người quan tâm và hoàn thiện, cácứng dụng của phân tích hồi quy đã có nội dung rộng hơn nhiều
Phân tích hồi quy nghiên cứu mối phụ thuộc của một biến (gọi là biến phụthuộc hay biến được giải thích) với một hay nhiều biến khác (được gọi là (các)biến độc lập hay biến giải thích có giá trị đã biết) nhằm ước lượng và dự báotrung bình của biến phụ thuộc với các giá trị đã biết của (các) biến độc lập
Để giải quyết các bài toán thống kê một cách nhanh chóng, thuận lợi chonhững đối tượng quan tâm đến nó, trong phần mềm ứng dụng Microsoft OfficeExcel có sử dụng các hàm và sử dụng thêm công cụ phân tích dữ liệu DataAnalysis Data Analysis là một chức năng tính toán trong Microsoft OfficeExcel, là công cụ hữu hiệu trong việc giải các bài toán thống kê Data Analysislà sự kết hợp của một số lượng rất nhiều các chương trình Các chương trìnhchức năng của nó bao gồm giao diện người dùng đồ họa, một số ngôn ngữ môhình đại số Data Analysis thực sự là một công cụ mạnh mẽ có thể giải quyết tốt , nhanh
Trang 5chóng các bài toán thống kê Để hiểu biết rõ hơn về phương pháp cũng như cách thứcgiải quyết một bài toán thống kê trên phần mềm Microsoft Office Excel, chúng
tôi lựa chọn đề tài luận văn Ứng dụng phần mềm Microsoft Office Excel để
giải bài toán thống kê Việc sử dụng phần mềm Microsoft Excel để giải các bài
toán thống kê đã được nhiều nhà toán học, nhà kinh tế quan tâm và nhiều tài liệuđề cập đến
Nội dung khóa luận được trình bày thành hai chương.Chương 1: Kiến thức cơ sở
Chương 2: Giải các bài toán thống kê trên Microsoft Office Excel.Khóa luận được trình bày dựa trên những tài liệu giải các bài toán thống kê,các bài toán dự báo kinh tế và những webside về phần mềm Microsoft Exceltrên internet Tuy nhiên, do trình độ bản thân còn hạn chế nên khóa luận khôngtránh khỏi những thiếu sót hoặc chưa hiểu sâu vấn đề Bản thân tác giả rất mongđược sự góp ý, giúp đỡ của các thầy cô giáo và bạn đọc để tác giả có thể hoànthiện hơn bài khóa luận của mình
Tác giả xin chân thành cảm ơn sự giúp đỡ, hướng dẫn tận tình của các thầycô giáo trong tổ Xác suất thống kê và Toán ứng dụng – Khoa Toán, đặc biệt làPGS TS Trần Xuân Sinh và cô giáo Nguyễn Thị Thanh Hiền đã giúp đỡ tác giảhoàn thành khóa luận này
Vinh, tháng 05 năm 2011.
Tác giả
Trang 6
Chương 1 KIẾN THỨC CƠ SỞ1.1 Mô hình hồi quy tuyến tính
1.1.1 Định nghĩa Là mô hình hồi quy nói lên mức phụ thuộc tuyến tính của
một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mô hình hồi quy có dạng tuyến tính đối với các hệ số.
1.1.2 Hồi quy tuyến tính bội 1.1.2.1 Mô hình
Xét đồng thời biến phụ thuộc y với nhiều biến độc lập x 1 , x 2 , …, x k Giả sử tacó bộ số liệu có kích thước n (yi, xi1, …, xik), i = n 1 Kí hiệu X là ma trận số,
liệu của các biến x 1 , x 2 , …, x k
X =
nk nj
n
k j
k j
x x
x
x x
x
x x
x
1
2 2
21
1 1
11
111
,
còn y, ε , và m là véc tơ tương ứng với các biến y i,ε i, mj (i = n 1 , j = k, 0 ) ,
Phương trình hồi quy tuyến tính bội có dạng: y i = m 0 + m 1 x i1 + m 2 x i2 + +m k x ik + ε i , i= n1 ,
hay y = m 0 + m 1 x 1 + m 2 x 2 + + m k x k + ε (1)
Trong đó x 1 , x 2 , , x k là các biến độc lập, y là biến phụ thuộc, các hệ số m 0 , m 1 , m 2 , , m k , là hệ số cần xác định
Các ε i là các biến ngẫu nhiên liên quan trực tiếp và gây ra sự bất định của yi.Ta yêu cầu ε i thỏa mãn 2 điều kiện:
(i) E(ε i ) = 0 ∀ i= n1 ,(ii) E(ε iε j ) = σ2δij
, i, j = n1 ,
Trang 7và ε i được gọi là các nhiễu trắng (ký hiệu δ ii = 0 nếu i ≠ j và =1 nếu i = j) Giả
thiết (i) cho thấy ε i có dạng sai số ngẫu nhiên , còn (ii) yêu cầu chúng ta tạo dãykhông tương quan
Các giá trị quan sát của các biến có thể bố trí theo dạng cột hoặc dạng hàng
1.1.2.2 Ước lượng tham số hồi quy
Sử dụng phương pháp bình phương cực tiểu
Min Q(m 0 , m 1 , …, m k ) = Min∑
=n − − − −
x m x
m m y
1
2 1
(dấu t chỉ phép chuyển vị) Như vậy, nếu kí hiệu û là véc tơ các ước lượng của
m 0 , m 1 , m 2 , , m k. Lấy đạo hàm (2) theo véc tơ m và cho bằng 0 ta được :
= +
+
= +
+
= +
i
i i i
i i
i
i i i
i i i
y x
m x m n m
y x x
x m x m x m
y x x
m x
x m x
m
2 2 1 1 0
1 2
1 2 2
1 1 1 0
2 2
2 2 2 1 1 2 0
với các tổng lấy theo i từ 1 đến n
vùng địa chỉ chứa giá trị đã biết của biến x, const là hằng số Ngầm định nếu
const = 1 (True) thì tính toán hệ số tự do m 0 , nếu const = 0 (False) bỏ qua m 0
(m 0 = 0) Stats là các tham số thống kê Ngầm định stats = 1(True) thì tính các
Trang 8tham số thống kê, nếu stats = 0 (False) thì bỏ qua Các tham số thống kê nếu
+ Hệ số xác định r 2 thuộc [0, 1] nếu r 2 =1 thì có quan hệ hoàn hảo trong mẫu,
nếu r 2 = 0 thì phương trình hồi quy không có tác dụng dự đoán y, sai số của giá
trị y se y
+ Hệ số F là thống kê F, dùng để xác định liệu giữa biến phụ thuộc và các
biến độc lập có quan hệ với nhau hay đó chỉ là thể hiện của tác động ngẫu nhiên
Hệ số df là bậc tự do, dùng để xác định mức tin cậy của mô hình hồi quy + Các hệ số ss reg (regression sum of square) tổng bình phương giá trị hồi quy
và ss resid (residual sum of square ) tổng bình phương độ lệch.
+ Hàm TREND dùng để tính giá trị y theo hàm ước lượng (1) với các bộ giá trị cho trước ( x 1 , x 2 , , x k ), các bộ giá trị này có thể là các quan sát cũ hoặc các
dự báo mới Cú pháp hàm:
=TREND( know_y’s, know_x’s, new_x’s, const) + Trong đó know_y’s, know_x’s là vùng chỉ chứa giá trị tương ứng đã biết của y, x, new_x’s là giá trị mới của x Const là hằng số có giá trị logic Ngầm
định nếu const =1 (True) thì tính toán hệ số tự do m 0 , nếu const =0 (False) thì
m 0 = 0
1.1.3 Hồi quy tuyến tính đơn
Khi hai biến x và y phụ thuộc, ta quan tâm đầu tiên đến quan hệ hàm y = f(x) Nếu hàm f tùy ý, đây là quan hệ rất phức tạp Trong phần này ta giới hạn f có
dạng tuyến tính
y = mx + b, (5)
trong đó m, b là các hằng số thực cần xác định, x là biến độc lập (để đơn giản ta tất định hóa biến X và chuyển cách viết thành x), y là biến phụ thuộc và là biến
Trang 9ngẫu nhiên thể hiện của nó y i là đáp ứng đối với giá trị x i Ta vẫn có bộ mẫu cặpkích thước n là (xi, yi), i = n1 Ta thiết lập mô hình tuyến tính,
y i = mx i + b +ε i , i = n 1 , (6),với ε i là nhiễu trắng thỏa mãn 2 giả thiết ở mục 1.1.2.1.
1.1.3.1 Ước lượng tham số hồi quy
Sử dụng phương pháp bình phương cực tiểu
∂∂
= 0 và
b Q
∂∂
= 0, suy ra
=+
=+
y x x
b x m
Y b X m
2
Ta sẽ có
m =
∑ ∑
−−−
X x
Y y X x
2
)(
))(
Bài giải Gọi X là trọng lượng cơ thể, Y là lượng huyết tương Ở đây n = 8
và các tổng lấy theo i = 81 : ,
Trang 10Từ đó ∑(x i − X)(y i −Y)= 1615,295 – 535.24,02/8 = 8,96; ∑(x i − X)2 = 35983,5 – 5352/8 = 205,38.
∑(y i −Y)2= 72,798 – 20,022/8 = 0,678.và
m =
38,205
96,8
+ Hàm SLOPE ước lượng giá trị m của phương trình (2) Cú pháp: = SLOPE( known_y’s, known_x’s)
Trong đó, known_y’s, known_x’s là vùng địa chỉ chứa giá trị tương ứng y, x + Hàm INTERCEPT ước lượng giá trị của b Cú pháp:
=INTERCEPT( known_y’s, known_x’s) Trong đó, known_y’s, known_x’s là vùng địa chỉ chứa giá trị tương ứng y, x + Hàm FORECAST ước lượng giá trị y khi biết x Cú pháp:
=FORECAST( x, known_ y’s, known_x’s) Trong đó: x là giá trị dùng để dự báo.
known_ y’s, known_x’s là vùng địa chỉ chứa giá trị tương ứng y, x.
1.2 Mô hình hồi quy phi tuyến
Trang 111.2.1 Định nghĩa Là các dạng mô hình hồi quy phi tuyến nói lên mức phụ
thuộc của một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mô hình hồi quy có dạng phi tính đối với các hệ số Chẳng hạn, như hàm sản xuất CobbDouglas, hồi quy Parabol, hồi quy Hyperbol,…
Trong thực tế nếu ta gặp phải những trường hợp mà mức độ phụ thuộc giữahai biến là khá chặt nhưng chủ yếu là phi tuyến, thì khi đó việc dùng hồi quytrung bình tuyến tính để xấp xỉ sẽ khó chấp nhận được, song việc đi tìm quan hệhàm phi tuyến cho phù hợp để xấp xỉ lại là vấn đề khó khăn Trong phạm viphần này ta chỉ đề cập đến các trường hợp phụ thuộc phi tuyến nhưng có thể đưavề tuyến tính được
+ Hàm GROWTH dùng để tính các giá trị y theo (3) với các bộ giá trị (x 1 , x 2 , , x n )
cho trước làm việc hoàn toàn giống hàm TREND Cú pháp : =GROWTH( known_y’s, known_x’s, new_x’s, const ) Trong đó, known_y’s, known_x’s, new_x’s, là các giá trị hoặc vùng địa chỉ đã biết của y, x tương ứng và giá trị mới của x.
Trang 12Const là hằng số Nếu const =1 (True) tính hệ số tự do b, nếu const = 0 (False) bỏ qua hệ số b.
Trang 13Chương 2 GIẢI CÁC BÀI TOÁN THỐNG KÊ TRÊN
MICROSOFT OFFICE EXCEL 2.1 Công cụ Data Analysis
Trình cài đặt thêm Analysis thường có trong gói phần mềm Microsoft Office
Khi cài đặt với lựa chọn Complete (đầy đủ) hoặc khi lựa chọn Custom (theo ý
người sử dụng) với lựa chọn cho Excel là Run all from my computer (cài đặt
Excel với đầy đủ các thành phần).Để cài thêm công cụ Data Analysis, ta tiến hành các bước sau:
Bước 1: Mở một file Excel
Bước 2: Vào thực đơn Tools, chọn Add-Ins (xem hình 2.1)
Hình 2.1 Menu Tools trên thanh công cụ chọn Add-Ins.
Xuất hiện hộp thoại Add-Ins tích vào mục Analysis ToolPak và Analysis
ToolPak –VBA sau đó chọn OK (xem hình 2.2):
Trang 14
Hình 2.2 Hộp thoại Add-Ins chứa các chức năng mở rộng của Excel
Trong trường hợp Microsoft Excel chưa cài đặt công cụ Data Analysis sẽ xuất hiện thông báo, chọn Yes (xem hình 2.3).
Trang 15Hãy tính hàm hồi quy tuyến tính bội dự báo lợi nhuận của doanh nghiệp vàước lượng giá trị lợi nhuận của doanh nghiệp khi giá thành x1 = 0,6 (triệu đồng),chi phí quản lý x2 = 35(triệu đồng), chi phí bán hàng x3 =25(triệu đồng).
Các bước thực hiện để giải bài toán :
Bước 1: Nhập dữ liệu bài toán vào bảng tính dưới dạng sau:
Hình 2.4 Tổ chức bài toán trên bảng tính.
Bước 2: Đánh dấu khối vùng từ C15: F19 để đưa kết quả ra bảng tính bằng
cách nhập công thức:
=LINEST(B5:B13,C5:E13,1,1)
Trang 16Sau đó, kết thúc bằng tổ hợp phím Ctrl + Shift + Enter.
Hàm LINEST dùng để tính hệ số của hàm hồi quy tuyến tính bội.Ta được kếtquả ở bảng sau:
Hình 2.5 Xuất kết quả
Sử dụng hàm TREND để ước lượng giá trị lợi nhuận y
Bước 3: Tính lợi nhuận y tại ô B14 bằng công thức:
=TREND(B5:B13,C5:E13,C14:E14,1)
Sau đó, kết thúc bằng tổ hợp phím Ctrl + Shift + Enter:
Trang 17X 6 10 12 14 16 18 22 24 26 32Y 40 44 46 48 52 58 60 68 74 80
Các bước thực hiện giải bài toán:
Buớc 1: Nhập dữ liệu vào bảng tính ở dạng sau:
Trang 18
Hình 2.7 Tổ chức bài toán trên bảng tính.
Bước 2: Tính hệ số m của phương trình (5) tại ô B15 bằng công thức:
Trang 19
Hình 2.8 Xuất kết quả.
Bước 3: Sử dụng hàm FORECAST ước lượng giá trị Y.
Tính năng suất Y tại ô C13 bằng công thức:
=FORECAST(B13,C3:C12,B3:B12)
Sau đó, kết thúc bằng tổ hợp phím Ctrl + Shift + Enter ta được kết quả ở
bảng sau:
Trang 20sau đó công ty đưa ra thị trường một sản phẩm mới và nhận thấy lượng hàng bánra theo hàm mũ Số đơn vị hàng bán ra Y trong 6 tháng tiếp theo X cho trongbảng sau:
Y 33100 47300 69000 10200
0
150000
220000Hãy ước lượng hàm hồi quy mũ
Trang 21Các bước thực hiện để giải bài toán:
Bước 1: Nhập dữ liệu vào bảng tính như hình 2.10.
Hình 2.10 Tổ chức bài toán trên bảng tính.
Bước 2: Đánh dấu khối vùng từ C10:D14 để đưa kết quả ra bảng tính bằng
cách nhập công thức: =LOGEST(C3:C8,B3:B8,1,1)
Sau đó kết thúc bằng tổ hợp phím Ctrl + Shift + Enter ta được kết quả ở
bảng sau:
Trang 22
Hình 2.11 Xuất kết quả.
Vậy hàm hồi quy mũ dự báo lượng hàng bán ra trong các tháng tiếp theo là:
y = 495,3048.1,463276 x
Để dự báo hồi quy tuyến tính trong Excel ngoài việc sử dụng các hàm của
Excel ta sử dụng trình cài thêm Regression
2.2.2 Sử dụng trình cài thêm Regression để hồi quy và dự báo
Chọn Tool / Data Analysis / Regression / OK Các hộp thoại lần lượt xuất
hiện như hình sau:
Hình 2.11 Hộp thoại chứa các công cụ phân tích dữ liệu.
Trang 23
Hình 2.12 Hộp thoại Regression chứa các thông số của mô hình hồi quy.
2.2.2.1 Một số thuật ngữ trong bảng hộp thoại Regression
• Các lựa chọn nhập dữ liệu vào Input.
Input Y Range Vùng địa chỉ chứa biến phụ thuộc Y.Input X Range Vùng địa chỉ chứa các biến độc lập X.Labels Tích vào mục này để khắng định ô (các ô) đầu tiên
không chứa dữ liệu hồi quy.Constant is Zero Tích vào mục này để khẳng định hệ số tự do của
hàm hồi quy tuyến tính b=0.
Confidence Level
Độ tin cậy của hồi quy (mặc định là 95%) bằng a với a là mức ý nghĩa hay xác suất mắc sai lầmloại một bác bỏ H0 trong khi H0 đúng
Trang 241-• Các lựa chọn kết xuất kết quả Output Option.
Output Range Vùng hoặc ô phía trên bên trái của vùng chứa kết quả.New Worksheet Ply In kết quả ra một sheet khác
New Workbook In kết quả ra một file Excel.Residuals Sai số do ngẫu nhiên
Standardarlized Residuals Chuẩn hóa sai sốResidual plots Đồ thị sai sốLine fit plots Đồ thị hàm hồi quy tuyến tínhNormal Probability Plots Đồ thị xác suất phân phối chuẩn
Ví dụ Tính hàm hồi quy tuyến tính bội với số liệu cho trong bảng dưới :
733,300 3,089 76,200 283,500 15,844750,900 3,503 79,400 274,500 19,835747,600 3,817 77,000 268,000 21,797727,600 3,870 74,000 265,700 24,759694,400 3,706 64,400 259,600 28,093702,600 3,851 63,100 256,800 31,121714,000 4,170 66,300 259,300 32,759717,630 4,378 62,900 263,400 34,556750,000 5,000 66,700 273,100 36,788 Trong đó, Y là thu nhập quốc dân, X1 là sản lượng điện X2 là sản lượng than,X3 là sản lượng lương thực, X4 là sản lượng thép Sử dụng lệnh Tool / Data
Anylysis.
Các bước thực hiện để giải bài toán :
Bước 1 : Nhập dữ liệu bài toán vào bảng tính dưới dạng sau :