1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài giảng THIẾT KẾ VÀ PHÂN TÍCH THÍ NGHIỆM

45 1,4K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 45
Dung lượng 382,5 KB

Nội dung

Một số khái niệm có liên quan ñến lý thuyết xác suất Xác suất Probability là một giá trị bằng số, nó diễn tả mức ñộ không chắc chắn khi xem xét sự xuất hiện của một biến cố nào ñó.. Tậ

Trang 1

TRƯỜNG ðẠI HỌC NHA TRANG

Trang 2

Tài liệu học

1 Bài giảng Thiết kế và phân tắch thắ nghiệm Ờ đặng Thị Thu Hương

2 đặng Văn Giáp Phân tắch dữ liệu khoa học bằng chương trình MS- Excel NXB giáo dục-

1997

5 Tài liệu tham khảo:

I TIẾNG VIỆT

1 Nguyễn Cảnh Quy hoạch thực nghiệm.Trường ựại học bách khoa Tp HCM 2004

2 Nguyễn Cảnh- Nguyễn đình Soa Tối ưu hoá thực nghiệm trong hoá học và kỹ

thuật hoá học.Tài liệu dịch- Trường ựại học kỹ thuật Tp Hồ Chắ minh 1994

3 Phạm Hiếu Hiền Phương pháp bố trắ thắ nghiệm và xử lý số liệu NXB nông

nghiệp - Tp Hồ Chắ Minh 2001

4 Phạm Văn Lang- Bạch Quốc Khang Cơ sở lý thuyết quy hoạch thực nghiệm và

ứng dụng trong kỹ thuật nông nghiệp NXB nông nghiệp Hà Nội- 1998

5 Chu Văn Mẫn Ờ đào Hữu Hồ Thống kê sinh học NXB khoa học và kỹ thuật Ờ 2001

II TIẾNG ANH

1 W Michael Kelly and Robert A Donnelly Jr.2009 The humongous book of statistic

problems

2 D Brynn Hibbert and J Justin Gooding 2006 Data Analysis for Chemistry

3 John A Bower 2009 Statistical Methods for Food Science

Trang 3

CHƯƠNG 1 THU THẬP VÀ TRÌNH BÀY SỐ LIỆU

1.1.Tổng thể và mẫu

1.1.1.Tổng thể (population, ñám ñông )

Là toàn bộ tập hợp các phần tử ñồng nhất theo một dấu hiệu nghiên cứu ñịnh tính hoặc ñịnh lượng nào ñó (là tập hợp các ñối tượng có chung một tính chất nào ñó mà chúng ta ñang quan tâm) Số lượng các phần tử của tổng thể ñược gọi là kích thước của tổng thể, ký hiệu N

Dấu hiệu ñịnh lượng: là những dấu hiệu quan sát cho những giá trị bằng số

Dấu hiệu ñịnh tính: là những dấu hiệu quan sát cho những tính chất

1.1.2 Mẫu (sample)

Từ tổng thể N phần tử chọn ra một tập hợp con n phần tử và chỉ tập trung nghiên cứu n phần tử ñó ñể rút ra những kết luận về tổng thể thì tập hợp con ñó ñược gọi là mẫu Số phần tử của mẫu ñược gọi là kích thước mẫu, ký hiệu n Các thí nghiệm ñược tiến hành trên mẫu, kết quả thu ñược qua xử lý thống kê ñể suy rộng ra cho cả tổng thể

Lý do ñể chúng ta tiến hành nghiên cứu trên mẫu chứ không phải trên tổng thể là do:

- Quy mô của tập hợp quá lớn, việc nghiên cứu toàn bộ sẽ ñòi hỏi nhiều chi phí vật chất và thời gian

- Quy mô của tập hợp quá lớn vì vậy có thể xảy ra trường hợp tính trùng hoặc bỏ sót các phần tử của nó

- Quy mô nghiên cứu lớn nhưng trình ñộ tổ chức nghiên cứu lại hạn chế dẫn ñến sai sót trong quá trình thu thập thông tin ban ñầu, do ñó hạn chế ñộ chính xác của kết quả phân tích

- Nếu các phần tử của tập hợp bị phá huỷ trong quá trình nghiên cứu thì phương pháp

nghiên cứu toàn bộ trở thành vô nghĩa

Do ñó phương pháp nghiên cứu toàn bộ thường chỉ áp dụng ñối với tập hợp các phần tử có quy mô nhỏ, còn chủ yếu là áp dụng phương pháp nghiên cứu không toàn

bộ ñặc biệt là phương pháp chọn mẫu

Phương pháp nghiên cứu chọn mẫu: Là phương pháp chọn ra một tập hợp các phần

tử từ tổng thể nghiên cứu, phân tích các tổng thể này và dựa vào ñó mà mà suy ra các

Trang 4

lý bằng phương pháp xác suất thì các kết luận sẽ thu ñược một cách nhanh chóng, ñỡ tốn kém mà vẫn bảo ñảm ñộ chính xác cần thiết

Do ñặc ñiểm là mẫu có kích thước hữu hạn n<<N nên những kết luận ñược suy

ra từ mẫu cho tổng thể sẽ có một sai số (gọi là sai số do chọn mẫu) Thường có hai nguyên nhân dẫn ñến sai số do chọn mẫu:

- Kích thước mẫu quá nhỏ so với tổng thể

- Phương pháp chọn mẫu không khách quan

⇒ Do vậy chúng ta phải có phương pháp chọn mẫu phù hợp và kích thước mẫu phải

ñủ lớn ñể ñạt ñược ñộ tin cậy

Các phương pháp chọn mẫu:

- Chọn mẫu ngẫu nhiên ñơn giản

- Chọn mẫu ngẫu nhiên phân tầng

- Chọn mẫu ngẫu nhiên hệ thống

- Chọn mẫu cụm

Thông tin ñầu tiên và nhiều khi cũng là thông tin duy nhất mà chúng ta dựa vào

ñể nghiên cứu, phân tích chính là các kết quả quan sát có ñược vì vậy các kết quả này

phải ñảm bảo tính chính xác, tính ngẫu nhiên của nó, phải là các ñại diện một cách trung thực cho hiện tượng hoặc cho ñại lượng mà chúng ta ñang nghiên cứu

Xuất phát từ thông tin sai lệch thì các kết luận nhận ñược sẽ phản ánh không

ñúng hiện tượng nghiên cứu thậm trí còn làm cho ta nghi ngờ ngay cả tính hiệu quả của

phương pháp chúng ta sử dụng Do vậy trước tiên ta quan tâm ñến việc thu thập thông tin ban ñầu

Việc thu thập thông tin phải ñảm bảo các yêu cầu sau

- Các quan sát ñộc lập hay phép thử ñộc lập: các quan sát (phép thử) ñược tiến hành một cách ñộc lập với nhau, kết quả của phép thử (quan sát) này không phụ thuộc vào kết quả của phép thử (quan sát) khác và cũng không ảnh hưởng ñến khả năng xảy ra kết quả của phép thử (quan sát) khác

- Các phép thử lặp: các phép thử ñược tiến hành trong các ñiều kiện hoàn toàn như nhau

Trang 5

1.2 Thu thập số liệu

Là quá trình cân, ñong, ño, ñếm trên các mẫu ñược chọn Trong quá trình thu thập

số liệu thường gặp các loại sai số sau:

* Sai số thô: Là sai số phát sinh khi phạm các ñiều kiện cơ bản của việc thu thập số

liệu do sự bất cẩn của người làm công tác thu thập số liệu hoặc sử dụng sai phương pháp lấy số liệu do chọn mẫu không ñúng phương pháp Loại sai số này không ñược chấp nhận trong thống kê, vì vậy phải ñựơc loại bỏ

* Sai số hệ thống: Loại sai số này không ñổi trong một loạt ño và thay ñổi theo một quy luật

nhất ñịnh Sai số này phát sinh là do phương pháp hoặc do dụng cụ thu thập số liệu Trong thống kê có thể chấp nhận loại sai số này nhưng phải ñược hiệu chỉnh trước khi tính toán thống kê

* Sai số ngẫu nhiên: Là những sai số của phép ño còn lại sau khi ñã loại bỏ sai số hệ

thống và sai số thô ðây là những sai số bắt buộc có trong quá trình thu thập số liệu mà con người không hạn chế ñược nó, chính vì vậy mà nó ñược chấp nhận trong thống kê

1.3.Trình bày số liệu

Sau khi ñiều tra thống kê chúng ta thu thập ñược hàng loạt thông tin (gọi là dữ liệu ban ñầu hay dữ liệu thô, gốc) Tuỳ theo mục ñích nghiên cứu mà có cách xử lý số liệu gốc khác nhau

ðể những thông tin này có tác dụng cần sắp xếp chúng theo trật tự nhất ñịnh (theo kiểu có ý nghĩa).Việc sắp xếp này giúp cho chúng ta có một sự ñánh giá chung về phân phối dữ liệu, sơ bộ phát hiện ra các ñặc ñiểm của mẫu nghiên cứu làm cơ sở cho việc ñưa ra những quyết ñịnh ñúng ñắn

Các cách trình bày số liệu gốc

1.3.1.Trình bày số liệu dưới dạng các bảng mô tả

• Bảng mô tả ñặc tính ñịnh tính

• Bảng mô tả ñặc tính ñịnh lượng

1.3.2 Trình bày số liệu thống kê bằng biểu ñồ

Biểu ñồ là một hình ảnh cho phép thấy toàn bộ số liệu, những nét ñặc trưng của tập hợp mẫu, những sự kiện ñáng chú ý, gợi cho người nghiên cứu những ñiều cần so

Trang 6

phép phát hiện nhanh các biến thiên bất thường hoặc một sự gián ñoạn ñột ngột ở chiều hướng tiến triển của sự kiện

Khi trình bày số liệu bằng biểu ñồ phải theo nguyên tắc:

- Biểu ñồ phải rõ ràng, không rườm rà, bỏ qua chi tiết không cần thiết

- Những chỉ dẫn trên biểu ñồ phải ñược hiểu dễ dàng

- Chú ý ñơn vị ño của biểu ñồ, cách phân biệt các thành phần khác nhau của biểu

ñồ bằng màu sắc, ký tự

Có hai loại biểu diễn: biểu ñồ và ñồ thị

Biểu ñồ: biểu ñồ hình chữ nhật, biểu ñồ hình quạt và biểu ñồ ñường gấp khúc

ðồ thị có thể là tuyến tính (ñường bậc 1) hoặc phi tuyến (parabol, quả chuông …)

CHƯƠNG II MÔ TẢ DỮ LIỆU THỐNG KÊ

(Descriptive Statistics)

ðể có thể cô ñọng và nhanh chóng nắm bắt ñược những thông tin quan trọng

chứa ñựng trong mẫu, người ta ñưa ra một vài chỉ số gọi là chỉ số ñăc trưng (giá trị ñặc trưng hay ñại lượng thống kê tóm lược )

2.1 ðộ tập trung

Các số ñặc trưng cho chúng ta là một hình ảnh về vị trí trung tâm của mẫu tức

là về xu thế các số liệu trong mẫu tụ tập xung quanh các con số nào ñó Thường quan tâm ñến các số ñặc trưng sau: trung bình mẫu, trung vị, mode

2.1.1.Trung bình mẫu (sample mean)

X n

X = 1∑ i=1÷m +++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp

Trang 7

i

i X f n

X =1∑ i = 1 ÷k Xi: trung ñiểm của lớp thứ i

Trung bình nhân

n n

i

n

x x x

1

1 2

n

i i bp

2 + +

=

n n e

x x m

++ Số liệu mẫu ñược cho dưới dạng bảng phân bố thực nghiệm thu gọn X nhận m giá trị khác nhau

Xi ñược gọi là số trung vị sao cho i là chỉ số bé nhất ñể f1+f2+… +fi≥ n/2

+++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp

Khi ñó khoảng Ci ñược gọi là

khoảng trung vị nếu i là chỉ số bé nhất ñể f1+f2+… +fi≥ n/2

Số trung vị là số mà tại ñó ñường thẳng x = me chia ñôi diện tích của tổ chức ñồ tần số

Số trung vị luôn luôn nằm trong khoảng trung vị

Trang 8

f

S n h x

m

1 min 2− −

∗+

=

xme min: cận dưới của khoảng chứa trung vị

h: bề rộng khoảng

n: kích thước mẫu n=∑ f i

S me -1 : tổng tần số của các lớp ñứng trước lớp (khoảng ) chứa trung vị

fme: tần số của lớp (khoảng) chứa trung vị

0 0

0 min

∗+

=

M M M

M

M M m

f f f

f

f f h

x

xM0min: cận dưới của khoảng chứa mode (khoảng có tần số fi lớn nhất)

h: bề rộng khoảng

fM0 :tần số của khoảng chứa mode

f Mo-1: tần số của khoảng trước khoảng chứa mode

f M0+1: tần số của khoảng sau khoảng chứa mode

ðây là một chỉ tiêu thường ñược chú ý trong các bài toán về kinh tế

2.2 ðộ phân tán

Là các số ñặc trưng cho chúng ta một hình ảnh về mức ñộ phân tán của các số liệu, ñộ biến ñộng của các số liệu.Thường quan tâm tới: biên ñộ (khoảng biến thiên),

ñộ lệch tuyệt ñối trung bình, phương sai, ñộ lệch chuẩn

2.2.1.Khoảng biến thiên (range)

R= x max - x min

Trang 9

Khi khoảng biến thiên càng nhỏ thì giá trị trung bình ñại diện càng tốt

2.2.2 ðộ lệch tuyệt ñối trung bình (Mean Abrolate Deviation)

+ Số liệu mẫu gồm n giá trị rời rạc ñược sắp xếp theo thứ tự tăng dần

i

i x f x n

i

i x f x n

S

2 1

= i = 1 ÷k Xi:trung ñiểm của lớp thứ i

2.2.4 ðộ lệch chuẩn (Standard deviation)

Trang 10

CHƯƠNG III ƯỚC LƯỢNG CÁC THAM SỐ ðẶC TRƯNG CỦA TỔNG THỂ

3.1 Một số khái niệm có liên quan ñến lý thuyết xác suất

Xác suất (Probability) là một giá trị bằng số, nó diễn tả mức ñộ không chắc

chắn khi xem xét sự xuất hiện của một biến cố nào ñó

Phép thử (trial) hay là thí nghiệm ngẫu nhiên: Việc thực hiện một nhóm các

ñiều kiện cơ bản ñể quan sát một hiện tượng nào ñó có thể xảy ra hay không ñược gọi

là thực hiện một phép thử hay một thí nghiệm ngẫu nhiên

Biến cố (event) :Hiện tượng có thể xảy ra trong kết quả của phép thử ñó ñược

gọi là biến cố

Ví dụ: kết quả sấp

gieo ñồng xu: (event)

(trial) ngửa

Biến cố sơ cấp (elementary event): Là biến cố không thể phân chia ñược nữa

Không gian mẫu (sample space): Là tập hợp các biến cố sơ cấp

Tập hợp các biến cố sơ cấp trong không gian mẫu theo qui ñịnh riêng của chúng ta gọi

là event set (những biến cố có cùng tính chất).Ví dụ: {1,2,3,4,5,6… }

Số biến cố trong không gian mẫu gọi là kích thước của không gian mẫu (size of sample space)

Một biến cố chỉ có thể xảy ra khi một phép thử gắn liền với nó ñược thực hiện Thực tế

có các loại các biến cố sau

- Biến cố chắc chắn (certain event): Là biến cố nhất ñịnh xảy ra khi thực hiện một phép thử

- Biến cố không thể (impossible event): Là biến cố nhất ñịnh không xảy ra trong một phép thử

- Biến cố ngẫu nhiên (random event): Là biến cố có thể xảy ra hoặc không xảy ra khi thực

hiện một phép thử

3.1.1 Các ñịnh nghĩa cơ bản về xác suất

3.1.1.1 ðịnh nghĩa xác suất theo quan ñiểm cổ ñiển

n

m

A)=

Pr( với n là số trường hợp cùng khả năng m là số trường hợp thuận lợi ñể biến cố A xảy ra

Ví dụ: có mười sản phẩm trong ñó có 3 phế phẩm Lấy ngẫu nhiên một sản phẩm Tính

xác suất ñể sản phẩm lấy ñược là phế phẩm

Trang 11

G ọi A là biến cố sản phẩm lấy ñược là phế phẩm.

10

3)Pr(A =

3.1.1.2 ðịnh nghĩa xác suất theo quan ñiểm thống kê

Tần suất: tần suất xuất hiện của biến cố A là tỷ lệ giữa số phép thử trong ñó biến

cố A xảy ra và tổng số phép thử ñược thực hiện

Pr -1Pr(A)

0event) impossible

(

Pr

1event)certain

(

Pr

1)Pr(

Thường có hai loại xác suất:

- Xác suất khách quan (objective probability) dựa vào kinh nghiệm,sự hiểu biết về phép thử

- Xác suất chủ quan (subjective probability) không thể ñánh giá bằng khách quan, buộc

lòng phải dựa vào chủ quan

3.1.2 Các quy tắc tính xác suất

3.1.2.1 Quy tắc cộng (Addition Law)

- Biến cố xung khắc: Hai biến có A và B gọi là xung khắc với nhau nếu chúng không

bao giờ xảy ra ñồng thời

- Hợp của hai biến cố (union of events): Là biến cố xảy ra nếu có ít nhất một trong

hai biến cố A,B xảy ra Ký hiệu: A+B, A or B, A U B

P ∪ = + (Nếu A và B xung khắc ) Nếu A và B không xung khắc thì

A*B biến cố cả A và B ñồng thời xảy ra

3.1.2.2 Quy tắc nhân (Multiplication Law)

- Biến cố ñôc lập (independent events): A và B là hai biến cố ñộc lập nhau nếu việc

xảy ra hoặc không xảy ra của biến cố này không ảnh hưởng tới xác suất của biến cố

kia Trường hợp ngược lại thì người ta gọi là biến cố phụ thuộc (dependent events)

Ký hiệu: A*B, A and B, Khi A và B ñộc lập thì P (A and B) = P(A)* P(B)

Trang 12

- Xác suất có ñiều kiện (conditional probability): Xác suất của biến cố A ñược tính

với giả thiết biến cố B ñã xảy ra ñược gọi là xác suất có ñiều kiện của biến cố A với

ñiều kiện B Ký hiệu: P (A/B)

Quy tắc nhân tổng quát: A và B là 2 biến cố bất kỳ

P(A*B) = P(A)*P(B/A), A và B ñộc lập: P(B/A) = P (B)

3.1.3 Biến ngẫu nhiên và quy luật phân phối xác suất

(random variable and probability distribution)

3.1.3.1 ðịnh nghĩa và phân loại

Biến ngẫu nhiên là ñại lượng mà trong kết quả của phép thử nó thay ñổi và thay

ñổi với một xác suất xác ñịnh

Có hai loại biến ngẫu nhiên (BNN):

- Biến ngẫu nhiên rời rạc: Biến ngẫu nhiên gọi là rời rạc nếu các giá trị mà nó có thể

nhận lập nên một tập hợp hữu hạn hoặc ñếm ñược (nói cách khác là ta có thể liệt kê

ñược tất cả các giá trị có thể có của nó)

- Biến ngẫu nhiên liên tục: Biến ngẫu nhiên gọi là liên tục nếu các giá trị mà nó có thể

nhận lấp ñầy một hay nhiều khoảng của trục số thậm trí lấp ñầy toàn bộ trục số

Vd: Xét phép thử gieo xúc sắc Gọi X: là số chấm xuất hiện trên mặt xúc sắc, X là BNN rời rạc Y: thời gian hoạt ñông của một bóng ñèn, Y là BNN liên tục

3.1.3.2 Quy luật phân phối xác suất

@1 BNN rời rạc

a Bảng phân phối xác suất

Bảng cho biết sự tương ứng giữa các giá trị có thể có của biến ngẫu nhiên và các xác suất tương ứng của nó gọi là bảng phân phối xác suất

n i

x x p

,1

)(

=

=

=

ðiều kiện của bảng phân phối xác suất p i ≥0,∀i,∑p i =1

b Các giá trị ñặc trưng của BNN rời rạc

Trang 13

+ Kỳ vọng (expected value): chính là giá trị trung bình khi n→∞ E( )X =∑x ip( )x i

+ Phương sai (variance): 2 = ( )X =∑ [x iE( )x ]2 ∗p( )x i

var

σ

+ ðộ lệch chuẩn (standard deviation) σ = σ2 ñộ lệch chuẩn của tổng thể

Ý nghĩa của:

Kỳ vọng: chính là giá trị mong ñợi, nó gần bằng trung bình số học của các giá trị quan

sát của BNN khi số phép thử gần ñến vô cùng Nó phản ánh giá trị trung tâm của phân phối xác suất của BNN

Phương sai: phản ánh mức ñộ phân tán của các giá trị của BNN xung quanh giá trị

trung tâm của nó là kỳ vọng toán Trong thực tế phương sai ñặc trưng cho mức ñộ phân tán của các chi tiết gia công hay sai số của thiết bị (trong kỹ thuật) mức ñộ rủi ro của các quyết ñịnh trong quản lý kinh doanh)

ðộ lệch chuẩn: ðơn vị ño của phương sai bằng bình phương ñơn vị ño của BNN Vì

vậy khi cần phải ñánh giá mức ñộ phân tán của BNN theo ñơn vị ño của nó người ta thường tính ñộ lệch chuẩn chứ không phải là phương sai vì ñộ lệch chuẩn có cùng ñơn

vị ño với BNN cần nghiên cứu

@2 Biến ngẫu nhiên liên tục

a Hàm mật ñộ xác suất

ðối với biến ngẫu nhiên liên tục, xác suất ñể nó nhận một giá trị cụ thể nào ñó

luôn luôn bằng 0 Có nghĩa là với mọi a, P (X = a) = 0

Do vậy mà với biến ngẫu nhiên liên tục người ta chỉ quan tâm tới xác suất ñể nó nhận giá trị trong một khoảng nào ñó Xác suất này ñược quyết ñịnh bởi một hàm gọi

là hàm mật ñộ xác suất

ðể ñặc trưng cho quy luật phân phối xác suất của biến ngẫu nhiên liên tục người

ta dùng hàm mật ñộ xác suất

ðịnh nghĩa: Hàm mật ñộ xác suất của biến ngẫu nhiên liên tục X ký hiệu là f(x) là ñạo

hàm bậc nhất của hàm phân bố xác suất của biến ngẫu nhiên ñó

Trang 14

( ) ( ) ( )

( )

P b a

dx x f x

x f

x F x f

*)

(

*

σσ

µσ

X Var

dx x f x X

E

b Hàm phân bố xác suất

Nếu như bảng phân bố xác suất ñặc trưng cho quy luật phân phối xác suất của biến ngẫu nhiên rời rạc và hàm mật ñộ xác suất ñặc trưng cho quy luật phân phối xác suất của biến ngẫu nhiên liên tục thì hàm phân bố xác suất ñược dùng cho cả biến ngẫu nhiên rời rạc và liên tục

i P x

F

x X P x F

Thực chất hàm phân bố xác suất là hàm xác suất tích lũy

Tính chất của hàm phân phối

Trang 15

( ) ( ) ( )

( )x dx f x F

F x F

F x F

a F b F b X a P

x F

x x x

0,

0lim

1,

1lim

1)(0

Hàm phân bố xác suất phản ánh mức ñộ tập trung xác suất ở về phía bên trái một số thực x nào ñó X là biến ngẫu nhiên liên tục thì hàm phân bố xác suất của nó liên tục và khả vi tại mọi ñiểm của X ðồ thị của nó là một ñường cong liên tục

X là biến ngẫu nhiên rời rạc thì ñồ thị hàm phân bố xác suất của nó có dạng bậc thang với số ñiểm gián ñoạn bằng số giá trị có thể có của X

Trong thống kê có nhiều hàm xác suất thường dùng, mỗi hàm là một công thức toán với một vài thông số ñặc trưng Ta gọi mỗi công thức ñó là một mô hình xác suất Người ta sử dụng các mô hình ñó ñể suy diễn các kết quả thí nghiệm Người dùng thống kê như một công cụ không nhất thiết phải nhớ công thức mà chỉ cần biết ñiều kiện nào thì sử dụng mô hình nào là phù hợp

• Một số phân phối thường gặp và ứng dụng trong thực tế

@ 1 Phân bố nhị thức (binominal distribution)

Xét quá trình Bernoully:

Mỗi thí nghiệm ngẫu nhiên ñược xem là một phép thử và quá trình này là một loạt các phép thử, ñối với mỗi phép thử kết quả của nó là một trong hai biến cố sơ

cấp bù nhau thành công và không thành công A hoặc không A Xác suất ñể cho biến

cố thành công xảy ra là một hằng số ñối với mọi phép thử P(A)=const Các biến cố thành công trong các phép thử là ñộc lập với nhau

Gọi X là số lần biến cố A xuất hiện trong lược ñồ Bernoully thì X có phân phối nhị thức với hai tham số n, p Ký hiệu

Trang 16

p n X

E p n b X

K X P K

X P

K X P X

P X

P K X P

n k p p

C K X P P

n X

p n b X

k n k

k n k

=+

10

,0,1

2,1,

2

σ

µ

Mode: nếu (n*p - q) không nguyên: npqM0 ≤np+q

nếu (n*p - q) nguyên: Mod= (n*p - q) và (n*p - q + 1), p = 1- q

@ 2.Mô hình phân bố chuẩn (normal distribution)

ðây là mô hình quan trong nhất trong thống kê, thường áp dụng với biến số liên tục

ðịnh nghĩa: Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (-∞, +∞) gọi là có phân phối chuẩn với các tham số µ,σ2

X E

Khi µ tăng thì ñồ thị dịch chuyển sang phải và ngược lại σ tăng thì ñồ thị thấp xuống

và phình ra, σ giảm thì ñồ thị cao lên và nhọn

πσ

@ 3 Mô hình phân bố chuẩn hóa (Normal Standard distribution)

ðịnh nghĩa: Biến ngẫu nhiên Z nhận các giá trị trong khoảng (-∞, +∞) ñược gọi là có phân phối chuẩn hóa X∼N(0,1) nếu hàm mật ñộ xác suất của nó có dạng

2

*2

e z

Trang 17

khi ñó Φ( )z =P[Zz] Ta có thể tính xác suất liên quan ñến X bằng cách ñưa nó về một biến cố liên quan tới Z rồi tra bảng:

µσ

µσ

Z P a

x P a X P

Người ta ñã lập bảng tính sẵn các giá trị của hàm Φ(z) Trường hợp z < 0: có thể tra bảng hoặc dùng công thức Φ(-z) = 1- Φ(z) Tra Φ(z) dùng bảng Laplace

µσ

µσ

Z

a P b X a P

+ Phân vị mức αααα (0<αααα<1) của phân bố chuẩn hóa Z ký hiệu zα là một số thỏa mãn ñẳng thức

α α α α

1

z z

z Z P

z Z P

@ 4 Hàm phân bố Student (T)

ðịnh nghĩa: ðại lượng ngẫu nhiên T ñược gọi là có phân bố Student với n bậc tự do (n

là một số nguyên dương cho trước ) nếu hàm mật ñộ của nó có dạng

1 2

12

n

n x

ðịnh nghĩa: ðại lượng ngẫu nhiên χχχχ2

ñược gọi là có phân bố Khi bình phương với n

bậc tự do (n là một số nguyên dương cho trước ) nếu hàm mật ñộ của nó có dạng

X

1

2 2

221

0

n x x e n x

Trang 18

@ 6 Hàm phân bố Fisher (F)

ðịnh nghĩa: ðại lượng ngẫu nhiên F được gọi là cĩ phân bố Fisher với (n1,n2)bậc tự

do nếu hàm mật độ của nĩ cĩ dạng

x≤0 x>0

2

2 2 1 1

2 2

2 2 1

2 1

2 2 2 1 2 1

2 1

2 1

222

n

Y Y n

X X

X F

n n

n n n n C

n n

n n

+

++

3.2 Ước lượng các tham số đặc trưng của tổng thể

Ước lượng là dựa vào các đặc trưng trên mẫu để dự đốn giá trị cho các đặc

trưng của tổng thể

Nếu gọi θ’

là đặc trưng trên mẫu và θ là đặc trưng của tổng thể thì

- θ’

chính là ước lượng điểm cho đặc trưng θ

- cịn θ’ ±ε chính là khoảng ước lượng cho đặc trưng θ

3.2.1 Ước lượng giá trị trung bình của tổng thể

Phương sai σσσσ2

đã biết

n z

2 2

2 1 1

0

n n n

x n n

x C

x f

Trang 19

Phương sai σσσσ2

chưa biết, n<30

Giả sử khi nghiên cứu trên mẫu về một ựặc tắnh nào ựó, từ kết quả của mẫu tắnh

ựược giá trị trung bình, và ựộ lệch chuẩn Tức là từ n →X,S)

muốn biết ựược trị số trung bình của tổng thể (ộ) có hai trường hợp

- Ước lượng ựiểm: X chắnh là ước lượng ựiểm cho ộ

- Ước lượng khoảng cho ộ là Xổε, với

n

S t

)

= α2

3.2.2 Ước lượng phương sai cho tổng thể

Giả sử khi nghiên cứu trên mẫu về một ựặc tắnh nào ựó, từ kết quả của mẫu tắnh

ựược giá trị trung bình, và ựộ lệch chuẩn Tức là từ mẫu có kắch thước n →X,S)

, 2

chắnh là ước lượng ựiểm cho σ2

- Ước lượng khoảng cho σ2

là:

đã biết kỳ vọng toán ộộộộ của biến ngẫu nhiên gốc X

2 2 2 2

Chưa biết kỳ vọng toán ộộộộ của biến ngẫu nhiên gốc X

2 2

2 1 2

2 2

1 1

S n S

π π )

3.2.3 Ước lượng tỷ lệ cho tổng thể

Trong một mẫu thực nghiệm có n cá thể, trong ựó có m cá thể có ựặc tắnh C.Tần suất của C trong mẫu thực nghiệm sẽ là f = m/n Từ tần suất thực nghiệm này suy ựoán

tỷ lệ ựặc tắnh C của tổng thể Tỷ lệ ựó ựược ký hiệu là p

- Ước lượng ựiểm cho p chắnh là f

n

f f

Trang 20

thời gian và kinh phí, còn nếu n quá nhỏ thì các kết luận chưa ñủ tin cậy ðể xác ñịnh n cần thiết ta xác ñịnh trong 2 trường hợp sau ñây

Xác ñịnh kích thước mẫu ñể ước lượng cho trung bình µµµµ

Muốn có ước lượng µ với sai số không quá ε cho trước với ñộ tin cậy (1-α)

)

với ñiều kiện vế phải không nhỏ hơn 30

Xác ñịnh kích thước mẫu ñể ước lượng cho tỷ lệ p:

3.2.5 Phương pháp xác ñịnh số liệu bất thường (khử sai số thô)

* Khi ñã biết σσσσ: Tính

n n

X x z

1+

=

∗σ

Sau ñó tra Φ(z) Cho trước mức ý nghĩa α khá bé

- Nếu Φ(z) >1-α/2: Thì x* là số liệu bất thường

- Nếu Φ(z) ≤ 1-α/2: Thì x* không phải là số liệu bất thường

Khi chưa biết σσσσ:

t= −)

Sau ñó tra t (n-1, α/2) cho trước mức ý nghĩa α khá bé

- Nếu t >t α/2: thì x* là số liệu bất thường (phải loại bỏ)

- Nếu t ≤ t α/2: Thì x* không phải là số liệu bất thường

CHƯƠNG IV KIỂM ðỊNH GIẢ THUYẾT THỐNG KÊ

(hypothesis testing)

Khi sử dụng phương pháp ñiều tra chọn mẫu, ñôi khi người ta phải ñặt những bài toán so sánh

ñể ñưa ra kết luận chính xác về nội dung hoặc bản chất của hiện tượng nghiên cứu

Trang 21

Trong nghiên cứu khoa học, nhiều vấn ñề ñược giải quyết nhờ ñưa ra một số giả thuyết, sau ñó kiểm ñịnh các giả thuyết ấy bằng thực nghiệm

4.1 Một số khái niệm

4.1.1 Giả thuyết thống kê

Là giả thuyết về phân phối xác suất của BNN, về các tham số ñặc trưng của BNN hoặc tính ñộc lập của các BNN

Vd: - Tuổi thọ trung bình của hai loại bóng ñèn A và B là như nhau

- Phương pháp ñiều trị A chữa khỏi 90% bệnh nhân

4.1.2 Kiểm ñịnh thống kê

Là một quy tắc hoặc một thủ tục quyết ñịnh dẫn tới việc bác bỏ hoặc chấp nhận giả thuyết ñã nêu Thực tế là sự so sánh một số chỉ tiêu thống kê ñược gọi là tiêu chuẩn kiểm ñịnh ñược tính theo số liệu thực nghiệm với các chỉ tiêu ấy ñược nêu ra theo giả thuyết

Thường giả thuyết ñược ñưa ra kiểm ñịnh là giả thuyết không H0 (thuật ngữ của Fisher) Là giả thuyết mà nếu ta bác bỏ là một cách sai lầm thì sẽ chịu một hậu quả nghiêm trọng, nói một cách ñơn giản giả thuyết không H0 là giả thuyết mà ta nghi ngờ

và muốn bác bỏ

Các bước kiểm ñịnh:

1.Xây dựng cấu trúc của giả thuyết (The structure of a hypothesis test)

Gồm 2 giả thuyết bù nhau có nghĩa: nếu không là giả thuyết này thì sẽ là giả thuyết kia

• Giả thuyết không H0 (Null hypothesis)

• Giả thuyết ñối Ha (Alternative hypothesis)

Việc ñặt giả thiết H0 là tuỳ ý nhưng thông thường người ta ñặt giả thuyết không

là giả thuyết mà nếu ta bác bỏ nó 1 cách sai lầm ta sẽ chịu 1 hậu quả nghiêm trọng Khi ñặt ra 2 giả thuyết như vậy sẽ có 2 sự lựa chọn

• Chấp nhận H0 (accept H0) tương ứng với reject Ha

• Bác bỏ H0 (reject H0) tương ứng với accept Ha

Tuy nhiên mới chỉ ñặt ra giả thiết thôi, ta chưa biết ñược giả thiết nào ñúng, vì vậy cần phải tiến hành các bước tiếp theo

Trang 22

3 Quy tắc kiểm ñịnh (quyết ñịnh)

ðể quyết ñịnh xem giả thuyết nào ñúng, ta phải dựa vào bảng quyết ñịnh

Hành ñộng (acts) Biến cố

(events) Accept H0 Reject H0

H0 true Correct decision Type I error xác suất mắc sai lầm là α

H0 false Type II error xác suất mắc sai lầm là β Correct decision

Nhìn vào bảng quyết ñịnh ta thấy có 2 quyết ñịnh ñúng ñó là

• Chấp nhận H0 khi H0 ñúng và Bác bỏ H0 khi H0 sai

2 sai lầm:

• Bác bỏ H0 khi H0 ñúng và Chấp nhận H0 khi H0 sai

Tìm kiếm xác suất mắc sai lầm (finding the error probabilities)

α = P[type I error] = P[reject H0 /H0 true]

β = P[type II error] = P[accept H0 /H0 false]

Ta luôn mong cả 2 loại sai lầm ñạt cực tiểu nhưng khi cỡ mẫu n cố ñịnh thì mong muốn trên không thể thực hiện ñược do ñó thông thường cho trước giới hạn trên của xác suất phạm sai lầm loại I, ký hiệu α, α thường nhỏ (α = 0.1; 0.05; 0.01) khi ñó

ta sẽ ñi tìm miền sao cho β ñạt cực tiểu α : mức ý nghĩa tiêu chuẩn

Trong thực tế người ta thường cho phép ñược mắc sai lầm loại I ở mức xác suất α

nào ñó ( tuỳ theo tầm quan trọng của sai lầm loại I) sau ñó cực tiểu hoá sai lầm loại II

ðể chọn ñúng ta làm như sau: Mặc dù cả hai sai lầm trên ñều không mong

muốn nhưng bác bỏ H 0 khi H 0 ñúng là sai lầm nghiêm trọng hơn cả Do ñó xác suất

mắc sai lầm α ñược coi là mức ý nghĩa (significanse level) Tuỳ theo bài toán cụ thể nếu mức ñộ nghiêm trọng càng lớn thì chọn α càng nhỏ

Như vậy khi ta ra quyết ñịnh bác bỏ Ho, mặc dù Ho ñúng thì ta ñã mắc một sai lầm với xác suất α, còn khi ta chấp nhận Ho mặc dù Ho sai ta cũng mắc một sai lầm với xác suất β

Giá trị α, β phụ thuộc vào việc ta chọn quy ñịnh Tuỳ thuộc vào quá trình nghiên cứu mà chúng ta cần giảm nguy cơ mắc loại sai lầm nào

Ngày đăng: 12/04/2015, 14:02

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w