1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHÂN TÍCH THỐNG KÊ SỐ LIỆU NGÀNH HÀNG MAY MẶC

33 1,2K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 662,84 KB

Nội dung

PHÂN TÍCH THỐNG KÊ SỐ LIỆU NGÀNH HÀNG MAY MẶC

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN

-o0o -BÁO CÁO BÀI TẬP LỚN MÔN: PHÂN TÍH THỐNG KÊ SỐ LIỆU

ĐỀ TÀI: PHÂN TÍCH THỐNG KÊ SỐ LIỆU NGÀNH HÀNG MAY MẶC

GV hướng dẫn: Ths Nguyễn Phương Nga

Lớp: KHMT3 – K6 Nhóm thực hiện: Nhóm 6

Trang 3

LỜI NÓI ĐẦU

Trước kia việc nghiên cứu, tính toán cho một tập dữ liệu là một công việc tươngđối khó khăn và mất thời gian Nhưng ngày nay, với sự trợ giúp của CNTT thì các côngviệc đó đơn giản hơn rất nhiều, trợ giúp con người trong lĩnh vực phân tích thống kê sốliệu Ngày nay phân tích thống kê được ứng dụng trong thực tiễn đời sống rất nhiều.Người ta có thể dùng các phương pháp thích hợp để dự báo thời tiết, phân tích các thànhphần ảnh hưởng để chế tạo thuốc giúp chữa bệnh cho con người… và rất nhiều lĩnh vựckhác giúp ích cho đời sống con người

Đặc biệt STATGRAPHICScung cấp một hệ thống quản lý dữ liệu, và phân tíchthống kê trong một môi trường đồ họa, sử dụng các trình đơn mô tả (menu) và các hộpthoại (dialogue box) đơn giản để thực hiện hầu hết các công việc cho bạn Phần lớn cácnhiệm vụ có thể được hoàn thiện bằng cách rê và nhắp chuột

Trong phần trình bày này, nhóm chúng em xin đưa ra một số đánh giá, phân tích

về “Tổng mục lưu trữ xuất nhập khẩu của Việt Nam trong các năm” từ 1995-2011,…Bằng việc sử dụng phần mềm STATGRAPHICS

Do thời gian nghiên cứu và sự hiểu biết còn nhiều hạn chế Chính vì vậy bài trìnhbày không tránh được những sai sót, rất mong nhận được sự đóng góp của cô giáo và cácbạn

Và chúng em xin cảm ơn Ths Nguyễn Phương Nga đã tận tình hướng dẫn nhóm

chúng em làm bài báo cáo này

Nhóm chúng em xin chân thành cảm ơn!

Trang 4

• Phương pháp phân tích chuỗi thời gian có 2 phương pháp chính:

• Phương pháp phân rã

• Phương pháp Box – Renkins

1.4.2:Phương pháp phân rã

Trang 5

-Chuỗi số liệu được nghiên cứu tách biệt theo 2 yếu tố:

->Xu thế số liệu(vĩ mô)

->Biến đổi mùa(vi mô)

-Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian dài làtuyến tính, phương trình sẽ xác định bởi

Y=a+bt

Trong đó t biểu thị thời gian ( năm ) và a,b chỉ các thong số được xác định đường thẳngtính được từ phương án BPTT

Trang 6

Gọi Δyi là khoảng cách thẳng đứng từ điểm quan sát (ti, ,Yi) đến đường thẳng cần xác định.Ta định nghĩa hàm mục tiêu

Đây là một hàm 2 biến a và b , để cho D cực trị ( với ý nghĩa vật lí của bài toán ta biết đó

là cực tiểu ) ta phải có

Từ đó:

Giải hệ phương trình trên ta có:

Trang 7

N-> tổng số quan trắc

Chú ý :Trong trường hợp xu thế không phải là tuyến tính , ta có thể xét đến dạng đường

cong hàm mũ y=abt hoặc dạng parabol y = a + bt + ct2

Các thông số a , b, c vẫn xác định dựa vào khái niệm bình phương tối thiểu mà ta vừanghiên cứu ở trên

II:Phân tích đặc điểm dữ liệu

1.Các tham số đặc trưng về sự tập trung của tập số liệu:

1.1:Tần suất(p i ):

Giả thiết 1 tập số liệu kết quả nghiên cứu gồm N dữ liệu, trong đó có ngiá trị Xi (Xi xuất hiện ni lần) ni gọi là tần số của giá trị Xi, khi đó tần xuất củagiá trị Xi được tính như sau:

R = Xmax - Xmin

Ví dụ: tập dữ liệu gồm 10 mẫu

Trang 8

3.93 94 3 94 3 95 3 96 3 98 3 00 4 00 4 03 4 04 4

• Theo công thúc trên : Xmax =4.04

Xmin =3.93

→ R = 4.04 – 3.93 = 0.11

1.4:Số trung vị (Med) và số tứ phần vị (Q):

• Số trung vị( Med) là số đứng giữa tập số liệu đã được sắp xếp theo thứ

tự từ bé tới lớn, chia dãy đó làm 2 phần bằng nhau về số liệu

• Đới với số liệu không nhóm lại :

• Số trung vị của tập N số lẻ được tính theo công thức :Med =

• Số trung vị của tập N số chẵn :Med =

• Số trung vị của tập N giá trị chia hết cho 4:

• Đối với số liệu gộp thành nhiều nhóm :Med=

Ví dụ: cho tập các số X={14,15,19,16,30}

Do số phần tử của tập X là 5, lẻ nên ta áp dụng công thức :

=19

Trang 9

• Phương sai là trung bình tổng của tổng binh phương sai khác giữa các giátrị của tập số liệu so với giá trị trung bình của tập số liệu kết quả thựcnghiệm :

hoặc =Hayhoặc

• Với = N khi N>30 Khi đó ta sử dụng kí hiệu:

• Với = N -1 khi N<30 Khi đó ta sử dụng kí hiệu :

• Phương sai đặc trưng cho sự sai biệt của các số liệu Phương sai càng lớnthì khác biệt càng lớn và ngược lại

• Phương sai biểu diễn độ phân tán của tập số liệu kết quả thực nghiệm đốivới giá trị trung bình Phương sai càng lớn độ phân tán càng lớn và ngượclại

2.2:Độ lệch chuẩn(hoặc )

• Độ lệch chuẩn của 1 tập số liệu kết quả thực nghiệm là giá trị căn bậc 2 trị

số phương sai của nó :

= hoặc =

• Độ lệch chuẩn có ý nghĩa như phương sai

2.3:Độ sai chuẩn ( hoặc S):

• Độ sai chuẩn bằng độ lệch chuẩn chia cho căn bậc 2 của số giá trị kết quảnghiệm:

Trang 10

3:Các đặc trưng phân phối thống kê của tập số liệu:

3.1:Phân phối chuẩn(phân phối chuẩn gauss(u):

Y(X)= với u=

• Xác suất thống kê gắn liền với khái niệm độ tin cậy thống kê (P)

• Độ tin cậy thống kê luôn là 1 số nhỏ hơn hoặc bằng 1

• Nếu kí hiệu Độ không tin cậy thống kê, thì :

P+∝=1 hay P=1-∝ hoặc ∝=P-1

• Trong xác suất người t qui ước :

• Biến cố=0.9999 là biến cố hoàn toàn chắc chắn

• Biến cố có P=0.999 là biến cố hết sức chắc chắn

• Biến cố có P=0.99 là biến cố rất chắc chắn

• Biến cố có P=0.90 là biến cố có chiều hướng chắc chắn

3.2 Phân phối Student(phân phối t)

• Hàm phân phối student có dạng:tf=

• Trong đó : f : là bậc tự do(f=N-1)

B: là hằng số

: là độ lệch chuẩn

• Đối với phân phối student có bảng tra chuẩn Student tính sẵn

Có 2 loại bảng tra giá trị(gọi là bảng phân phối chuẩn của t) Khi giả thiết thống kê đặt

Trang 11

• Thì tra bảng phân vị của • Thì tra bảng phân vị của

• Chuẩn t theo 1 phía • Chuẩn t theo 2 phía

4.Đánh giá tập số liệu kết quả thực nghiệm

4.1Sai số thực nghiệm:

-Có 4 loại sai số thực nghiệm:

Sai số tuyệt đối :

= Xi - = Xi-µSai số tuyệt đối là sự sai khác của 1 số thực nghiệm nào đó với giá trịtrung bình(hoặc giá trị thật) Sai khác này có thể âm hoặc dương

Sai số tương đối :

Sai số ngẫu nhiên :

Trang 12

• Khoảng chính xác tin cậy được tính theo công thức :

∆x(p,f)=

• Trong đó :

P : độ tin cậy thống kê

f : bậc tự do của tập số liệu kết quả thực nghiệm

Sx : độ sai chuẩn

4.4.Khoảng giới hạn tin cậy của 1 tập số liệu kết quả thực nghiệm.

• Được giới hạn trong khoảng :

Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách tuyến tính khităng x, ta có thể chọn một mô hình biểu diễn quan hệ của y theo x bằng cách vẽ mộtđường cũng được “làm khớp ” cho một tập dữ liệu Tuy nhiên vấn đề là: Làm thế nào vẽmột đường đi qua tất cả các điểm, ít nhất là một điểm sẽ lệch đáng kể so với đường thẳngđược làm khớp

Các giải pháp cho vấn đề này:

Xây dựng một mô hình hồi quy tuyến tính đơn giản sao cho giá trị trung bình của ytương ứng với giá trị x Đồ thị làđường thẳng và các điểm đi chệnh so với đường thẳng

do ngẫu nhiên, và bằng e tức là:

y=A+Bx+e

Trang 13

Trong đó A và B là các tham số chưa biết trong xác định mô hình Nếu ta giả sử giátrị kỳ vọng E(e)=0, thì giá trị trung bình của y là:

y=A+Bx

Do đó, xét giá trị trung bình của y tương ứng giá trị của x, đồ thị làđường thẳng

Hồi quy tuyến tính giữa x và y được biểu diễn bằng hàm số có dạng :

y=A+Bx+eTrong đó :

• y là biến phụ thuộc (biến được mô hình hóa còn được gọi là biến đápứng)

• x là biến độc lập

• e là lỗi ngẫu nhiên

• A là hệ số tự do

• B là độ nghiêng của đường thẳng

Để làm khớp một mô hình hồi quy tuyến tính đơn giản với một tập dữ liệu, ta phải tìmước lượng cho biết các tham số A và B của đường trung bình y=A+Bx Cần đưa ra cácgiả định cụ thể về tính chất của nó

1.1.1.Tính A và B theo phương pháp bình phương cực tiểu.

Vấn đề đầu tiên của phân tích hồi quy đơn là tìm ước lượng của A và B của môhình hồi quy dựa trên một dữ liệu mẫu Giả sử chúng ta có một mẫu dữ liệu n điểm dữliệu (x1,y1), (x2,y2),…(xn,yn) Mô hình đường thẳng tương ứng cho các y và x là

y=A+Bx+e

Đường thẳng của các trung bình là E(y) = A+Bx và đường được làm khớp với dữliệu mẫu Như vậy, là một ước lượng của các giá trị trung bình của y, và a, b là ướclượng của A và B tương ứng Đối với một điểm số liệu, nói rằng các điểm (xi,yi), giá trịquan sát của y là yi và các giá trị dựđoán của y sẽ là:

và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:

Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo phươngpháp bình phương cực tiểu của các tham số quần thể A và B và phương trình dự báođược gọi là đường bình phương cực tiểu

Trang 14

Công thức tính toán cho đường bình phương cực tiểu:

1.1.2.Đánh giá phương sai.

Trang 15

Trong hầu hết các tình huống thực tế, phương sai của số ngẫu nhiên e chưa biết vàphải được ước tính từ dữ liệu mẫu Với đo phương sai của cá giá trị y vềđường hồi quy,trực giác ta ước tính bằng cách chia tổng số lỗi SSE cho một số thích hợp.

Trang 16

Một số mô hình:

Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:

Mô hình bậc hai:

Đặt Trở thành mô hình bậc nhất:

Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến

Mô hình tuyến tính đa biến tổng quát

Các giả định cần thiết cho một mô hình hồi quy tuyến tính đa biến

Trong đó e là sai số ngẫu nhiên :

• Đối với các giá trị bất kỳ của x1, x2,…, xk lỗi ngẫu nhiên e có phân bốchuẩn với trung bình bằng 0 và phương sai bằng

• Các lỗi ngẫu nhiên là độc lập

3.Mô hình làm khớp : phương pháp bình phương tối thiểu.

Trang 17

Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản.

Giả sử ta có bảng dữ liệu mẫu:

Y=, X=, b=

Sau đó chúng ta viết biểu biểu thức dưới dạng ma trận sau:

(X’X)b = X’YTrong đó X’ là chuyển vị của X

Suy ra : b = (X’X)-1 XY

4.Kiểm tra năng lực mô hình.

Kiểm tra năng lực của mô hình:

E(y) = B0 + B1x1 + … + Bkxk

H0: Bi=0; Ha: Bi≠0Kiểm định thống kê:

F=

Vùng bác bỏ: F > Fα

5.Đánh giá năng lực mô hình.

Kiểm định một phía:

Trang 18

H0: Bi=0; Ha: Bi<0 (hoặc Bi>0)Kiểm định thống kê

t = Vùng loại bỏ

t < -tα (hoặc t > t α)Trong đó : tα/2 dựa trên [n-(k+1)]=df

n là các số quan sát

k là các số biến độc lập trong mô hình

Kiểm định hai phía:

H0: Bi=0; Ha: Bi≠0Kiểm định thống kê

t = Vùng loại bỏ

t < -tα/2 (hoặc t > tα/2 )Trong đó : tα/2 dựa trên [n-(k+1)]=df

= b0+b1x1*+b2x2*+…+bχxχ*

x*=(1 x1*x2* … xχ*)’ là một giá trị cụ thể của x

s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu

tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]

• Một khoảng dự báo(1-α)100% đối với E(y)

Trang 19

tα/2 sTrong đó:

= b0+b1x1*+b2x2*+…+bχxχ*

x*=(1 x1*x2* … xχ*)’ là một giá trị cụ thể của x

s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu

tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]

2.Phân tích tương quan.

Phân tích tương quan là công cụ thống kê có thể sử dụng để mô tả mức độ cácbiến quan hệ tuyến tính liên quan Khi phân tích mối tương quan được sử dụng khi kếthợp với phân tích hồi quy đểđánh giá mô hình tìm theo bình phương cực tiểu là phùhợp với những dữ liệu hay không Phân tích tương quan cũng có thểđược sử dụngđểđo lường mức độ liên kết giữa hai biến

Hệ số tương quan r đo sự tương quan giữa giá trị x và giá trị y trong mẫu và tương

tự hồi quy tuyến tính, hệ số tương quan tồn tại cho quần thể từđó các điểm dữ liệu

Trang 20

được lựa chọn Các hệ số tương quan quần thểđược ký hiệu là ρ(rho).ρ được tính từcác số liệu thống kê mẫu tương ứng r.

Ý nghĩa của hệ số tương quan :

Hệ số tương quan Ý nghĩa

±0.01 đến ±0.1 Mối tương quan quá thấp, không đáng kể

±0.2 đến ±0.3 Mối tương quan thấp

±0.4 đến ±0.5 Mối tương quan trung bình

±0.6 đến ±0.7 Mối tương quan cao

±0.8 trở lên Mối tương quan rất cao

Cần nhấn mạnh một lần nữa, đây chỉ là những giá trị tham chiếu, nó không cónghĩa là những “tiêu chuẩn vàng” để ứng dụng

Khoảng tin cậy 95% của hệ số tương quan:

Cũng như các thông số thống kê khác như số trung bình và độ lệch chuẩn, hệ sốtương quan cũng chịu ảnh hưởng của dao động giữa các mẫu Do đó, chúng ta cần phảiước tính khoảng tin cậy 95% của hệ số tương quan Xin nhắc lại rằng, chúng ta khôngbiết hệ số tương quan thật (tức là hệ số trong quần thể, và hãy gọi hệ số này là ρ) là baonhiêu, nên phải sử dụng hệ số r để ước tính ρ

Muốn ước tính khoảng tin cậy 95% của ρ, chúng ta cần phải ước tính độ lệchchuẩn của r

Lý thuyết thống kê cho biết độ lệch chuẩn của r là: Khó khăn ở đây, như công thức này cho thấy, là độ lệch chuẩn của r tùy thuộc vào r, tức là mất tính độc lập Do đó,

cần phải tìm một phương pháp khác sao cho khách quan hơn Nhà thống kê học (và cũng

là cha đẻ của khoa học thống kê hiện đại và cha đẻ của lí thuyết di truyền hiện đại)

Ronald A Fisher chứng minh rằng thay vì tính độ lệch chuẩn của r, có thể tính độ lệch chuẩn của một hàm số của r và sẽ đạt được mục tiêu khách quan.

Trang 21

Theo phương pháp của Fisher, trước hết chúng ta cần phải hoán chuyển r sang một chỉ số mới z, qua công thức sau đây:

Và có thể chứng minh độ lệch chuẩn của z là:

Do đó, khoảng tin cậy 95% của z là: z ± 1.96*sz Tất nhiên, sau khi đã ước tính

được khoảng tin cậy 95% của z, chúng ta có thể hoán chuyển ngược lại cho khoảng tincậy 95% của ρ

Kiểm định 2 hệ số tương quan

Giả sử chúng ta có hai hệ số tương quan r1 và r2, làước số của hai hệ sốρ1 và ρ2trong một quần thể.Hai hệ số r1 và r2 được ước tính từ hai mẫu độc lập n1 và n2 đốitượng Để kiểm định giả định rằng ρ1=ρ2 và giả định ρ1≠ρ2 , chúng ta trước hết cầnphải hoán chuyển r thành chỉ số z:

Gọi d = z1 -z 2 , chúng ta có thể chứng minh rằng phương sai của d là:

Hay, nói cách khác, độ lệch chuẩn của d là:

Và kiểm định cho giả thuyết ρ1=ρ2 có thể tính toán chỉ số t như sau:

Có thể chứng minh rằng nếu giả thuyết ρ1=ρ2 là đúng thì t tuân theo luật phân phối chuẩn với trung bình 0 và phương sai 1 Điều này có nghĩa là nếu giá trị của t thấp

hơn -2 hay cao hơn +2, chúng ta có thể nói hai hệ số tương quan khác nhau có ý nghĩathống kê

Trang 22

CHƯƠNG II

ĐỀ XUẤT BÀI TOÁN

I Tập dữ liệu

- Tập dữ liệu được lấy từ trang web của tổng cục thống kê Việt Nam

http://www.gso.gov.vnvề sản lượng len, sợi, bông; tổng doanh thu của 3 sản phẩm và nhiệt độ trung bình từ năm 2001 tới năm 2012

II Phương hướng giải quyết bài toán

- Giải quyết bài toán bằng phương pháp

xu thế với sự hỗ trợ của phần mêm

STATGRAPHIC

- Lần lượt phân tích Các biến X1, X2, X3 Dự báo số liệu các năm tới của từng sản phẩm

- Đánh giá sự ảnhhưởng của nhiệt độ lên 3thành phẩm

Trang 23

CHƯƠNG III GIẢI QUYẾT BÀI TOÁN

tập trung và sự phân tán của tập dữ liệu.

1 Phân tích biến X1

Sử dụng phần mềm Statgraphics Centurion XV để phân tích biến Các bướcthực hành trên phần mềm:

Trang 24

Analyze / Variable Data / One – Variable Analysis Tại ô Data thì ta đưabiến cần phân tích x1 (Vốn đầu tư trực tiếp nước ngoài FDI) sang rồi nhấn nút OK Kếtquả ta thu được như sau:

Bảng Summary Statistics :

Bảng Frequency Tabulation:

Cùng với đồ thị Frequency Histogram :

Trang 25

2 Phân tích biến X2

Bảng Summary Statistics :

Bảng Frequency Tabulation:

Trang 26

Cùng với đồ thị Frequency Histogram :

3 Phân tích biến X3

Bảng Summary Statistics :

Tabulation:

Trang 27

Cùng với đồ thị Frequency Histogram :

Trang 28

II.Đánh giá ảnh hưởng của yếu tố Nhiệt độ trung bình hàng năm lên các biến X1, X2, X3, Y

Trên phần mềm Statgraphics Centurion XV ta thực hiện theo các bước sau :

Improve / Regression Analysis / Multiple Factors / Multiple Regression

Trong ô Dependent Variable ta đưa vào biến cần so sánh

Trong ô Independent Variables ta đưa vào biến Z (Nhiệt độ trung bình năm)

Ta có kết quả như sau

Đối với biến X1

Trang 30

Đối với biến X2

Ngày đăng: 11/04/2015, 20:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w