Nhận được mô hình toán học thống kê thực nghiệm theo các tiêu chuẩn thống kê, đánh giá được sai số của quá trình thực nghiệm theo các tiêu chuẩn thống kê cho phép xét ảnh hưởng của các y
Trang 1Đại học Đà Nẵng Trường Đại học Sư phạm
Bài giảng môn
XỬ LÝ SỐ LIỆU THỰC NGHIỆM
GV-TS: Vũ Thị Duyên
Trang 2MỤC LỤC
Mở đầu……….4
CHƯƠNG 1 ĐÁNH GIÁ CÁC SAI SỐ TRONG XỬ LÝ SỐ LIỆU THỰC NGHIỆM 5
1.1 Các thông số thực nghiệm 5
1.1.1 Đại lượng ngẫu nhiên 5
1.1.2 Phân loại các sai số đo lường 5
1.2 Xử lý thống kê các số liệu thực nghiệm 7
1.2.1 Giá trị trung bình 7
1.2.2 Trung vị 7
1.2.3 Khoảng biến thiên 7
1.2.4 Phương sai, độ lệch chuẩn và sai số chuẩn 7
1.2.5 Khoảng tin cậy và xác suất tin cậy 10
1.3 Kiểm tra thống kê các dữ kiện thực nghiệm 11
1.3.1 Kiểm tra theo tiêu chuẩn 3s (ít dùng) 11
1.3.2 Kiểm tra theo tiêu chuẩn Q (chuẩn Đixơn) 12
1.3.3 Kiểm tra theo chuẩn F (chuẩn Fisher) 12
1.3.4 Kiểm tra theo chuẩn t 14
1.4 Sử dụng phần mềm Excel để xử lý thống kê các số liệu thực nghiệm 16
1.4.1 Xác định đặc trưng thống kê của các đại lượng ngẫu nhiên 16
1.4.2 Kiểm tra thống kê 18
CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN 22
2.1 Phân tích tương quan 22
2.2 Phân tích hồi quy 23
2.2.1 Khái niệm cơ bản 23
2.2.2 Phương pháp bình phương tối thiểu 24
2.2.3 Một số dạng phương trình hồi quy 24
2.3 Kiểm tra thống kê 27
2.3.1 Kiểm tra ý nghĩa của các hệ số trong phương trình hồi quy 27
2.3.2 Kiểm tra sự tương thích của phương trình hồi quy với thực nghiệm 29
2.4 Sử dụng phần mềm excel để phân tích tương quan và hồi quy 31
2.4.1 Sử dụng công cụ trendline của chart 31
2.4.2 Sử dụng công cụ solver 33
Trang 3CHƯƠNG 3 CÁC PHƯƠNG PHÁP QUY HOẠCH THỰC NGHIỆM 36
3.1 Phương pháp lựa chọn các yếu tố đầu vào ảnh hưởng đến quá trình hóa học 36
3.1.1 Lựa chọn các yếu tố đầu vào (yếu tố độc lập) 36
3.1.2 Phương pháp chuyên gia 37
3.1.3 Các thực nghiệm sàng lọc 38
3.1.4 Nhóm các yếu tố vào và chọn mục tiêu đánh giá 38
3.1.5 Ảnh hưởng của các tiên đề của phân tích hồi quy đến sự lựa chọn các yếu tố độc lập 38
3.2 Khái niệm về quy hoạch thực nghiệm 39
3.2.1 Khái niệm chung về quy hoạch thực nghiệm 39
3.2.2 Các nguyên tắc cơ bản của quy hoạch thực nghiệm 40
3.2.3 Các bước của phương pháp quy hoạch thực nghiệm 41
3.3 Quy hoạch trực giao cấp I 42
3.3.1 Thực nghiệm yếu tố toàn phần (TYT) 43
3.1.2 Thực nghiệm từng phần (TYP) 47
3.4 Quy hoạch trực giao cấp II 48
3.5 Tối ưu hóa quy hoạch thực nghiệm 50
3.5.1 Tối ưu hóa theo phương pháp leo dốc 50
3.5.2 Phương pháp luân phiên từng biến giải bài toán tối ưu phỏng định 53
3.6 Ví dụ về ứng dụng quy hoạch thực nghiệm trong các quá trình công nghệ hóa học 53
Tài liệu tham khảo 63
PHỤ LỤC 64
Trang 4Mở đầu
Nhiều công trình nghiên cứu khoa học công nghệ thường đưa đến giải bài toán cực, tìm điều kiện tối ưu để tiến hành các quá trình hoặc lựa chọn thành phần tối ưu của hệ nhiều cấu tử Chẳng hạn, khi xem xét các quá trình công nghệ hóa học mới, nhiệm vụ nghiên cứu thường là thay đổi nhiệt độ, áp suất và tỉ lệ các chất phản ứng để tìm hiệu suất phản ứng cao nhất, tính toán, lựa chọn giá trị thích hợp nhất của các thông số cấu trúc và động học, nhằm đạt đến chất lượng làm việc và hiệu quả kinh tế cao nhất của quá trình Những bài toán này thường giải quyết ở các mức độ nghiên cứu các yếu tố ảnh hưởng đến hệ, lập mô hình biểu diễn mối phụ thuộc giữa các phần tử của hệ, điều khiển hệ theo mục đích cho trước, hoặc đưa về trạng thái tối ưu theo những chỉ tiêu đánh giá đã chọn Thông thường các hệ cần điều khiển và tối ưu rất phức tạp, đối tượng nghiên cứu ngày càng đa dạng hơn, trở thành những hệ thống cồng kềnh với tập hợp lớn các yếu tố ảnh hưởng và chỉ tiêu đánh giá Mối quan hệ giữa các thành phần trong hệ thống càng không thể mô tả bằng các hàm lý thuyết
Vì vậy, đa số các bài toán cực trị được giải quyết bằng thực nghiệm
Ngày nay người ta thường đề cập tới phương pháp kết hợp giữa lý thuyết và thực nghiệm Tùy theo mức độ hiểu biết về cơ chế của quá trình, ý nghĩa của nghiên cứu lý thuyết thường được giới hạn ở tác dụng định hướng ban đầu, hỗ trợ giảm bớt khối lượng công việc, rút ngắn thời gian cho nghiên cứu thực nghiệm Bên cạnh đó, thực nghiệm có tác dụng trở lại,
bổ sung cho kết quả nghiên cứu lý thuyết, xác định rõ hơn cơ chế của hiện tượng
Vai trò của thực nghiệm càng lớn thì mục tiêu đề ra cho chúng càng cao, vì vậy thực nghiệm cũng có nhu cầu phát triển và trở thành đối tượng nghiên cứu, một ngành khoa học
Có thể nói, lý thuyết quy hoạch thực nghiệm từ khi ra đời đã thu hút sự quan tâm và nhận được nhiều đóng góp hoàn thiện của các nhà khoa học Những ưu điểm rõ rệt của phương pháp này so với các thực nghiệm cổ điển là:
- Giảm đáng kể số lượng thí nghiệm cần thiết
- Hàm lượng thông tin nhiều hơn rõ rệt, nhờ đánh giá được vai trò qua lại giữa các yếu
tố và ảnh hưởng của chúng đến hàm mục tiêu Nhận được mô hình toán học thống kê thực nghiệm theo các tiêu chuẩn thống kê, đánh giá được sai số của quá trình thực nghiệm theo các tiêu chuẩn thống kê cho phép xét ảnh hưởng của các yếu tố với mức độ tin cậy cần thiết
- Cho phép xác định được điều kiện tối ưu đa yếu tố của đối tượng nghiên cứu một cách khá chính xác bằng các công cụ toán học, thay cho cách giải gần đúng, tìm tối ưu cục
bộ như các thực nghiệm thụ động
Trang 5CHƯƠNG 1 ĐÁNH GIÁ CÁC SAI SỐ TRONG XỬ LÝ SỐ LIỆU THỰC NGHIỆM 1.1 Các thông số thực nghiệm
1.1.1 Đại lượng ngẫu nhiên
Đại lượng ngẫu nhiên (X) là tập hợp tất cả các đại lượng mà giá trị của nó mang lại một cách ngẫu nhiên Tức là sự xuất hiện là không biết trước
Đại lượng ngẫu nhiên X được gọi là rời rạc khi nó nhận hữu hạn hoặc vô hạn các giá trị đếm được khác nhau
Đại lượng ngẫu nhiên X được gọi là liên tục nếu nó nhận giá trị bất kì trong một khoảng của trục số
1.1.2 Phân loại các sai số đo lường
Trong thực nghiệm, những giá trị nhận được là giá trị gần đúng của giá trị thực Giả
sử x là giá trị đo được từ thực nghiệm; a là giá trị thực thì: Δx = |x –a| được gọi là sai số tuyệt đối của phép đo hay còn gọi là độ lệch giữa a và x Khi đó kết quả của phép đo được biểu diễn như sau: a ± Δx
Ví dụ một mẫu có khối lượng thực là 3,24 g và khối lượng đo được là 3,15 g Khi đó sai số tuyệt đối của phép đo là Δm = 0,09 g và kết quả của phép đo được biểu diễn là
+ Kiểm tra các điều kiện cơ bản có bị vi phạm không
+ Sử dụng một phương pháp đánh giá để loại bỏ hoặc giữ lại các kết quả không bình thường
b Sai số hệ thống
Trang 6quen của người đo và do điều kiện ngoại cảnh…Sai số hệ thống làm thay đổi số đo trung bình nên gọi là sai chệch
Người ta phân biệt 3 dạng sai số hệ thống:
+ Sai số hệ thống tự nhiên
Như độ lớn của phông phóng xạ trong phép đo bức xạ luôn tồn tại trong phổ bức xạ
đo được Trong quá trình phân tích xử lý phổ người ta phải loại bỏ sự đóng góp của các bức
xạ phông này
+ Sai số hệ thống nguồn gốc được biết
- Sai số giới hạn của dụng cụ: sai số liên quan đến các loại dụng cụ đo và xác định
chúng bằng cấp chính xác tương ứng Các sai số như thế có thể biết được giới hạn trên và không thể tính hiệu chỉnh chúng Ví dụ buret dùng để chuẩn độ loại 50 mL có sai số của phép đo thể tích là ΔV = 0,1 mL
- Sai số zero: Hầu hết các phép đo là hiệu số giữa các số liệu đọc dụng cụ và số liệu
đọc dụng cụ có lối vào zero Thường sai số zero do sự bỏ quả việc kiểm tra zero của dụng
cụ Sai số zero là một sai số hệ thống bởi vì tất cả các điểm bị ảnh hưởng bởi cùng một lượng Ví dụ khi sử dụng cân trước khi sử dụng cần chỉnh về vị trí 0 nếu không sẽ dẫn đến làm cho giá trị đo được lớn hơn hoặc nhỏ hơn giá trị cần đo
+ Sai số hệ thống nguồn gốc không được biết
Ví dụ như sử dụng các thiết bị đã cũ và nó đã có các sai hỏng ngầm, độ chính xác thực tế xấu hơn so với tiêu chuẩn kĩ thuật đã cho của dụng cụ Để tìm ra sai số hệ thống thông thường các dụng cụ cần được lấy chuẩn với các tiêu chuẩn được định trước bởi nhà sản xuất
Để giảm sai số hệ thống người ta đặt một hệ số hiệu chỉnh ứng với mỗi nguyên nhân
c Sai số ngẫu nhiên
Sai số ngẫu nhiên là sai số làm cho kết quả đo lệch về cả hai phía so với giá trị thực của đại lượng cần đo, là sai số còn lại khi đã khử sai số thô và sai số hệ thống Sai số ngẫu nhiên không thể khống chế được bằng kĩ thuật thu thập số liệu, được sinh ra do nhiều nguyên nhân, tác dụng rất nhỏ, không thể tách riêng ra, vì thế không loại trừ được Sai số ngẫu nhiên không làm thay đổi số đo trung bình, chỉ ảnh hưởng đến dao động xung quanh
số trung bình
Để khử sai số ngẫu nhiên cần thực hiện nhiều phép đo và lấy giá trị trung bình Cách tốt nhất để hạn chế sai số ngẫu nhiên là đảm bảo cỡ mẫu đủ lớn
Trang 71.2 Xử lý thống kê các số liệu thực nghiệm
n
x là giá trị biểu diễn kết quả đo của phép thí nghiệm và tham gia vào việc xác định sai số của phép đo Giá trị trung bình của các phép đo độc lập là xấp xỉ đo được của đại lượng đúng, đồng thời số phép đo n càng lớn thì độ tin cậy càng cao
1.2.2 Trung vị
Nếu sắp xếp n giá trị lặp lại trong tập số liệu theo thứ tự tăng dần hoặc giảm dần từ
x1, x2,…,xn thì số nằm chính giữa tập số liệu được gọi là trung vị
- Nếu n lẻ thì trung vị là số ở chính giữa dãy số
- Nếu n chẵn thì trung vị là trung bình cộng của 2 giá trị nằm ở giữa dãy số
1.2.3 Khoảng biến thiên
Khoảng biến thiên hay quy mô biến thiên R là hiệu số giữa giá trị lớn nhất và nhỏ nhất trong tập số liệu : R = xmax - xmin
Ví dụ kết quả phân tích hàm lượng clorua trong một mẫu muối (%) bằng phương
pháp chuẩn độ thu được : 24,39 ; 24,19 ; 24,36 ; 24,38 ; 24,25 ; 24,30
Giá trị trung bình của phép đo là :
Các số liệu sắp xếp theo trật tự tăng dần : 24,19 ; 24,25 ; 24,30 ; 24,36 ; 24,38 ; 24,39
Vì số số liệu là số chẵn nên trung vị bằng : 24,30 24,36 24,33%
2Trong tập số liệu giá trị lớn nhất xmax = 24,39 % ; giá trị nhỏ nhất xmin = 24,19 % Khoảng biến thiên là : R = 0,20 %
1.2.4 Phương sai, độ lệch chuẩn và sai số chuẩn
Phương sai là đặc trưng quan trọng để phản ánh độ phân tán giá trị biến ngẫu nhiên
xung quanh giá trị trung bình và được kí hiệu là S2 Phương sai là giá trị trung bình của tổng bình phương sự sai khác giữa các giá trị riêng rẽ trong tập số liệu so với giá trị trung bình
Trang 8Phương sai đặc trưng cho độ chính xác của phép đo Nếu phương sai càng lớn thì độ tản mạn của các giá trị đo lặp lại càng lớn hay độ lặp kém
Phương sai không cùng thứ nguyên với các đại lượng đo mà có đơn vị bằng bình phương đơn vị của giá trị trung bình Vì thế, cách hoán chuyển tốt nhất là chuyển giá trị của phương sai sao cho có cùng đơn vị với số trung bình bằng cách lấy căn bậc hai : S S 2
biểu thị sự trải rộng của các giá trị quan sát được gọi là độ lệch chuẩn (SD) của mẫu hay sai
Như đã biết, nguyên lý và mục đích đằng sau của thống kê học là ước tính những thông số của một quần thể Trong thực tế chúng ta không biết các thông số này, mà chỉ dựa vào những ước tính từ một hay nhiều mẫu để suy luận cho giá trị của quần thể mà các mẫu được chọn Chẳng hạn như chúng ta không biết chiều cao của người Việt Nam là bao nhiêu (bởi vì không có ai đo lường chiều cao của hơn 90 triệu dân), chúng ta phải chọn một mẫu gồm n đối tượng để tính trị số trung bình của mẫu này, và dùng trị số trung bình của mẫu để suy luận cho toàn dân Nhưng chọn mẫu phải ngẫu nhiên mới mang tính đại diện cao Cứ mỗi lần chọn mẫu, chúng ta có một nhóm đối tượng khác và một số trung bình mới Độ lệch chuẩn của các số trung bình này gọi là sai số chuẩn, tức là sai số chuẩn phản ứng độ dao động hay biến thiên của các số trung bình mẫu
Sai số chuẩn (SE) là tỉ lệ giữa độ lệch chuẩn trung bình mẫu với căn bậc hai của
Trang 9Kết quả của phép đo được biểu thị qua biểu thức : x = 44,5 ± 0,4 %
Độ lệch chuẩn tương đối là : RSD S.100% 1,00%
Ý nghĩa của phương sai, độ lệch chuẩn và sai số chuẩn :
Gọi thông số trung bình của một quần thể là a (chúng ta không biết giá trị của a), gọi ước số trung bình tính từ mẫu là x và độ lệch chuẩn là S Theo lý thuyết xác suất của phân
phối chuẩn, chúng ta có thể phát biểu :
+ 68% cá nhân trong quần thể có giá trị từ x S đến x S
+ 95% cá nhân trong quần thể có giá trị từ x1,96.S đến x1,96.S
+ 99% cá nhân trong quần thể có giá trị từ x3.S đến x3.S
Ngoài ra gọi sai số chuẩn là SE, ta còn có thể phát biểu :
+ 68% số trung bình tính từ mẫu có giá trị từ x SE đến x SE
+ 95% số trung bình tính từ mẫu có giá trị từ x 1,96.SE đến x1,96.SE
+ 99% số trung bình tính từ mẫu có giá trị từ x3.SE đến x3.SE
Như vậy độ lệch chuẩn phản ánh độ biến thiên của một số cá nhân trong một quần thể, còn sai số chuẩn phản ánh dao động của các số trung bình chọn từ quần thể
Phương sai, độ lệch chuẩn, sai số chuẩn giúp cho ta nhận biết được mức độ đồng đều của giá trị thực nghiệm Nếu phương sai, độ lệch chuẩn và sai số chuẩn nhỏ thì các giá trị thực nghiệm tương đối đồng đều và tập trung xung quanh giá trị trung bình
Phương sai tái hiện: xác định sai số tái hiện của phép đo hàng loại những thí
nghiệm Có n thí nghiệm song song, giá trị đo được là y1, y2,…,yn :
1
11
Trang 10Nếu cần m mẫu, mỗi mẫu làm n thí nghiệm với các phương sai là s1 , s2 ,…,sm2 Phương sai tái hiện được tính theo công thức :
với f1 là bậc tự do của thí nghiệm song song thứ i : fi = ni – 1
1.2.5 Khoảng tin cậy và xác suất tin cậy
Mục đích của hầu hết các đo lường là tìm giá trị của đại lượng cần đo Giá trị này có thể được dẫn xuất trực tiếp từ các đo lường hoặc được dẫn xuất từ các giá trị đo được bằng một hệ thức toán học Trong trường hợp như vậy, chúng ta cần có sự phân tích thống kê các
đo lường nhầm để thu giá trị cuối cùng và đưa ra sự bất định của nó Tuy nhiên giá trị trung bình x (giá trị thực hay giá trị kì vọng toán học) không chỉ ra giới hạn sai số của nó Về nguyên tắc x có thể sai khác bao nhiêu cũng được mặc dù xác suất của các biến cố như thế nhỏ không đáng kể Sai số của các biểu thức đã khảo sát mang đặc trưng xác suất và được mô tả bằng khoảng độ tin cậy, đó là giới hạn mà xác suất tin cậy p không vượt quá hiệu số x
Gọi là x giá trị trung bình của phép đo và ɛ là sai số tin cậy, suy ra khoảng tin cậy
là :
(x - ɛ ; x + ɛ)
Độ tin cậy p là xác suất để kết quả các lần đo rơi vào khoảng tin cậy, tức là :
P(x - ɛ ≤ x ≤ x + ɛ) = p = (1-α).100%
Độ tin cậy thường cho trước p = 0,95 ; 0,99 hoặc 0,999…
α = 1-p: là mức có ý nghĩa tương ứng với khoảng;
Sai số tin cậy được xác định bằng công thức : t S t.
n , với t là hệ số tin cậy ;
S : là độ lệch chuẩn và n là cỡ mẫu ; là sai số chuẩn
t(p,f) là giá trị tra ở bảng phân vị của hàm phân phối Student (Bảng 3), với p là độ tin cậy, f = n – 1 là bậc tự do của tập số liệu, n : là số mẫu đo (hay còn gọi là cỡ mẫu)
Như vậy khoảng tin cậy phụ thuộc vào quy luật phân bố của x, số phép đo và xác suất tin cậy lựa chọn Kết quả của một phép đo thường được trích dẫn dưới dạng x t . , nghĩa là chúng ta chỉ biết giá trị đo được và khoảng rộng không đúng với một xác suất của một sự ước lượng sai số, giá trị đúng được bảo phụ bởi khoảng giữa các giới hạn x t và
Trang 11Ví dụ khi chuẩn độ 10 mL dung dịch NaOH bằng dung dịch HCl 0,1 N thu được thể
tích dung dịch HCl : 10,1 ; 10,0 ; 10,2 ; 10,1 ; 10,3 ; 10,5 mL Xử lý số liệu thực nghiệm với
i i HCl
n
Tra bảng 3, với độ tin cậy p = 0,95, bậc tự do f = 6-1 = 5 => hệ số tin cậy t là: 2,57
Sai số tin cậy : t S 0,2056 0,2 mL
n
Khoảng tin cậy của kết quả thể tích HCl là (10,0 ; 10,4), tức là 10,0 mL < VHCl < 10,4
mL Như vậy với độ tin cậy 95% thì trong các số liệu thu được V = 10,0 mL và V = 10,5 mL
là hai số liệu không đáng tin cậy
1.3 Kiểm tra thống kê các dữ kiện thực nghiệm
1.3.1 Kiểm tra theo tiêu chuẩn 3s (ít dùng)
Bước 1 : Tính giá trị trung bình số học :
x x n
Bước 2 : Tìm x i |x x i | của giá trị nghi ngờ
2 1
1
n i
Ví dụ : Kết quả phân tích thành phần nguyên tố C trong một hợp chất hữu cơ mới tổng hợp
như sau : 17,77 ; 17,79; 18,83 ; 16,70 ; 17,69 ; 17,75 % Hãy kiểm tra kết quả trên theo tiêu chuẩn 3s
Trang 12Bước 1 : Sắp xếp các số liệu theo chiều tăng hoặc giảm dần
o ính
Bước 3 : So sánh với giá trị Q chuẩn tra bảng : Qp,n
+ Nếu Qtính > Qchuẩn thì đó là sai số thô, cần loại bỏ + Nếu Qtính ≤ Qchuẩn thì đó là sai số ngẫu nhiên, không loại bỏ được
Ví dụ kết quả xác định hàm lượng CaCO3 trong một mẫu đolomit thu kết quả như sau : 54,31 ; 54,36 ; 54,40 ; 54,59 % Hãy kiểm tra xem giá trị nghi ngờ 54,59 có mắc sai số thô hay không theo tiêu chuẩn Q?
Các số liệu xếp theo chiều tăng dần : 54,31 ; 54,36 ; 54,40 ; 54,59
Ta có : xnghi ngờ = 54,59 % ; x lân cận = 54,40 % ; xmax = 54,59 % ; xmin = 54,31 %
o ính
Tra bảng phân vị Đinxơn Qp,n = Q0,95, 4 = 0,77
Qtinh < Qchuẩn nên số liệu nghi ngờ 54,59 không cần loại bỏ, sai số là sai số ngẫu nhiên
1.3.3 Kiểm tra theo chuẩn F (chuẩn Fisher)
Chuẩn này dựng để so sánh độ lặp của 2 dãy thí nghiệm bằng cách so sánh tỉ số của 2
phương sai :
ính 2 2
1
t
s F
s
Trong đó s1 là phương sai lớn hơn ứng với bậc tự do f1 = n1 – 1 (n1 là số thí nghiệm trong dãy này) ; s2 là phương sai nhỏ hơn ứng với bậc tự do f2 = n2 – 1 (n2 là số thí nghiệm trong dãy này)
So sánh giá trị Ftính và F(0,95 ; f1 ;f2) tra trong bảng
Nếu Ftính ≤ Fbảng, độ lặp của 2 dãy thí nghiệm là đồng nhất, chúng thuộc cùng một tập,
x
Trang 13Nếu Ftính > Fbảng, độ lặp của 2 dãy thí nghiệm khác nhau, chúng không thuộc cùng một tập, không thể gộp chung để tính x
Ví dụ 1: theo kết quả của 6 lần phân tích hàm lượng CaO bằng phương pháp A ta
tính được độ lệch chuẩn của phương pháp này là s = 0,8 mg Theo 5 lần phân tích theo phương pháp B ta tính được độ lệch chuẩn là 2,1 mg Hỏi độ lặp lại của các phương pháp trên có đồng nhất không ?
s
Tra bảng phân vị Fisher F(0,95 ; f1 ;f2) = F0,95 ; 5 ; 4) = 6,3
Vì Ftính > Fbảng nên độ lặp của 2 dãy thí nghiệm là không đồng nhất, chúng không cùng một tập, không thể gộp chung để tính x
Ví dụ 2 : Xác định nồng độ dung dịch chuẩn HCl theo 2 chất gốc cho kết quả thí
nghiệm như sau:
(1) Chuẩn độ HCl theo Na2CO3 (mol/L):
0,1250 0,1248 0,1252 0,1254
(2) Chuẩn độ HCl theo Na2B4O7.10H2O (mol/L):
0,1254 0,1258 0,1253 0,1255
Hãy so sánh kết quả của 2 phép chuẩn độ này
Đối với phép chuẩn độ thứ nhất:
1,43
t
s F
s
Tra bảng phân vị Fisher F(0,95 ; f1 ;f2) = F0,95 ; 3 ; 3) = 9,3
Trang 141.3.4 Kiểm tra theo chuẩn t
Dùng để so sánh hai giá trị trung bình từ hai dãy thí nghiệm độc lập (2 phòng thí nghiệm, 2 người thí nghiệm)
Phòng TN A : x1, x2, x3,…,xn1
Phòng TN B : x1 ’, x2 ’, x3 ’,…,xn2 ’
Bước 1 : Tính giá trị trung bình x x 1; 2
Bước 2 : Tính phương sai S12 ; S22 ;
Bước 3 : Tính chuẩn Student : ttính
TH1 : Nếu phương sai tương thích (S1 ≠ S2 do nguyên nhân ngẫu nhiên), chuẩn ttính được
TH2 : Nếu 2 phương sai không tương thích (S1 ≠ S2 do nguyên nhân không ngẫu nhiên),
Bước 4 : So sánh giá trị ttính với tp,k (f) trong bảng tra cứu, với k = n1+n2 – 2)
+Nếu ttính ≤ tp,k(f) thì x1 x do nguyên nhân ngẫu nhiên, 2 phòng thí nghiệm, 2 người thí 2
nghiệm cho kết quả như nhau
+Nếu ttính > tp,k(f) thì x1 x do nguyên nhân không ngẫu nhiên, 2 phòng thí nghiệm, 2 2
người thí nghiệm cho kết quả khác nhau
Ví dụ : Người ta phát hiện thấy một ít tóc trong tay nạn nhân của một vụ án mạng
Việc phân tích hàm lượng Zn trong tóc bằng phương pháp hấp thụ phân tử ở tay nạn nhân với tóc người phục vụ bị nghi vấn có kết quả như sau:
(1)Tóc người phục vụ, %Zn: 240 ; 250 ; 265 ; 258 ; 268 ppm
Trang 15Có thể khẳng định người phục vụ nằm trong diện nghi vấn không?
Đối với phép phân tích tóc người phục vụ:
5 1
Tra bảng 3, với độ tin cậy p = 0,95, bậc tự do f = 5-1 = 4 => hệ số tin cậy t là: 2,78
Sai số tin cậy : t s 14,178 14,2 ppm
n
Khoảng tin cậy của phép đo là (242 ; 270,2)
Như vậy trong dãy số liệu trên cần loại bỏ số liệu 240 vì nó không nằm trong khoảng tin cậy với p = 95%, chỉ sử dụng 4 số liệu còn lại để tính toán
Tính lại giá trị trung bình
4 1
Tra bảng 3, với độ tin cậy p = 0,95, bậc tự do f = 5-1 = 4 => hệ số tin cậy t là: 2,78
Sai số tin cậy : t s 7,4782 7,5 ppm
n
Khoảng tin cậy của phép đo là (233,9 ; 248,9)
Như vậy trong dãy số liệu trên cần loại bỏ số liệu 249 vì nó không nằm trong khoảng tin cậy với p = 95%
Tính lại giá trị trung bình
4 1
Trang 16Vì Ftính < Fbảng nên hai phương sai tương thích hay 2 2
Tra bảng phân vị Student tp,k (f) = t0,95, 6 = 2,45
Vì ttinh < tbảng nên x1 x là do nguyên nhân ngẫu nhiên, 2 kết quả như nhau và người 2
phục vụ nằm trong diện nghi vấn
1.4 Sử dụng phần mềm Excel để xử lý thống kê các số liệu thực nghiệm
1.4.1 Xác định đặc trưng thống kê của các đại lượng ngẫu nhiên
Trong lần đầu tiên sử dụng công cụ analysis thì cần vào file → options → Add-Ins Chọn Analysis ToolPak → go
Sau đó chọn như hình phía dưới
Để xác định giá trị trung bình, trung vị, khoảng biến thiên, phương sai, độ lệch
chuẩn, sai số chuẩn, khoảng tin cậy, trước tiên nhập số liệu vào bảng excel, sau đó chọn Data → Data analysis → Descriptive Statistics → OK
Trang 17+ Input range: bôi đen cột dữ liệu
+ Output range: chọn ô chỉ vị trí xuất dữ liệu ra
+ Chọn summary statistics (thông số thống kê tổng hợp)
+ Chọn confidence level for mean : độ tin cậy của giá trị trung bình (tùy chọn, có thể
là 95% hay 99% hay 99,9% )
+ Bấm OK
Kết quả thu được như trình bày ở hình bên dưới
Trang 181.4.2 Kiểm tra thống kê
a) So sánh hai phương sai (kiểm tra theo chuẩn F)
Chọn Data → Data analysis → F-Test Two Samplefor variances → OK
Tính tiêu chuẩn kiểm định
2 1 2 2
S F S
Nhập các dãy số liệu, điền mức ý nghĩa α (thường mặc định α = 0,05 tức là p = 95%), chỉ ra nơi xuất dữ liệu
Trang 19Kết quả:
So sánh Ftinh và Fα:
+ Nếu Ftính ≤ Fα thì hai phương sai tương thích
+ Nếu Ftính > Fα thì hai phương sai không tương thích
Trong ví dụ này Ftính > Fα nên hai phương sai không tương thích
b) So sánh hai giá trị trung bình (kiểm tra theo chuẩn t)
+ Trường hợp 2 phương sai tương thích :
Chọn Data → Data analysis → t-Test Two Sample Assuming Equal variances → OK
Trang 20+ Trường hợp 2 phương sai không tương thích :
Chọn Data → Data analysis → t-Test Two Sample Assuming Uniequal variances→
OK
Nhập các dãy số liệu, điền mức ý nghĩa α (thường mặc định α = 0,05 tức là p = 95%), chỉ ra nơi xuất dữ liệu
Kết quả:
Trang 21So sánh ttính và t(p.k):
+ Nếu ttính ≤ t(p.k) thì hai giá trị trung bình giống nhau
+ Nếu ttính > t(p.k) thì hai giá trị trung bình khác nhau
Trong ví dụ này ttính > t(p.k) nên hai giá trị trung bình khác nhau
Trang 22CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN
Trong chương 1, chúng ta chỉ xem xét các vấn đề liên quan đến mẫu ngẫu nhiên của một biến ngẫu nhiên X Trong chương này, chúng ta quan tâm đến mẫu ngẫu nhiên bao gồm các cặp giá trị của hai biến ngẫu nhiên X và Y Ví dụ để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một trường, chúng ta lẫy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và cân nặng của n học sinh Gọi X là biến ngẫu nhiên để đo chiều cao của học sinh và Y là biến ngẫu nhiên để đo cân nặng Với n học sinh ta có n cặp
2.1 Phân tích tương quan
Mục đích của phương pháp phân tích tương quan là ước lượng mức độ liên kết (tương quan) giữa các biến độc lập đến biến phụ thuộc, hoặc ảnh hưởng của các biến độc lập với nhau
Để đo lượng mức độ quan hệ tuyến tính giữa hai biến người ta sử dụng hệ số tương quan r Xét 2 đại lượng ngẫu nhiên X, Y trong n cặp kết quả quan sát (x1, y1),….(xn,yn) Hệ
số tương quan được xác định theo công thức :
+ 0,4 ≤ |r| ≤ 0,8 : tương quan trung bình
+ |r| < 0,4 : tương quan yếu
+ r = 0 : giữa các biến không có mỗi quan hệ
Trang 23y y S
x x y y S
XY xy
S r
S S
RXY ≈ 1 nên tương quan giữa X và Y rất
chặt chẽ
2.2 Phân tích hồi quy
2.2.1 Khái niệm cơ bản
Phân tích hồi quy là một phân tích thống kê để xác định xem các biến độc lập quy định các biến phụ thuộc như thế nào
Đây là phương pháp thống kê mà giá trị kì vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên (đã tính toán) khác Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson và học có giám sát Phân tích hồi qui không chỉ
là trùng khớp đường cong (lựa chọn một đường cong mà vừa khớp nhất với một tập điểm dữ liệu); nó còn phải trùng khớp với một mô hình với các thành phần ngẫu nhiên và xác định Thành phần xác định được gọi là bộ dự đoán và thành phần ngẫu nhiên được gọi là phần sai
số
Dạng đơn giản nhất của một mô hình hồi qui chứa một biến phụ thuộc và một biến
0 5 10 15 20 25 30 35
Trang 242.2.2 Phương pháp bình phương tối thiểu
Phương pháp bình phương tối thiểu do nhà toán học người Đức Carl Frieddich Gauss đưa ra Phương trình hồi quy gần đúng phụ thuộc vào phương pháp tính dùng để tính các hệ
số hồi quy Phương pháp bình phương tối thiểu xác định hệ số phương trình hồi quy sao cho gần đúng với kì vọng toán học của thực nghiệm
- Bài toán xác định hệ số hồi quy là xác định cực tiểu của hàm nhiều biến bo, b1,…
n i ( , , , )i o 1 2 min
Trong đó xi : là yếu tố biến độc lập ; yi : giá trị thực nghiệm ; Y= f(xi,bo,b1,…) giá trị
tìm được theo phương trình hồi quy
Nếu Y= f(xi,bo,b1,…) là hàm khả vi thì điều kiện cực tiểu của là :
ta xác định được các hệ số của phương trình chuẩn
2.2.3 Một số dạng phương trình hồi quy
Tối ưu hóa phụ thuộc một biến Y= f(x) theo dạng hồi quy thực nghiệm
a) Phương trình hồi quy tuyến tính
Phương trình hồi quy tuyến tính một biến có dạng : Y= bo + b1 x
Các hệ số của phương trình hồi quy được xác định bằng phương pháp bình phương tối thiểu, với số thí nghiệm n là :
Trang 25Ví dụ : Khi nghiên cứu ảnh hưởng của nhiệt độ đến tốc độ phản ứng phân hủy HI :
2HI I2 + H2 ta được dữ liệu :
Như vậy sự phụ thuộc của lnk và 1/T là phương trình tuyến tính dạng y = b0 + b1x
Sử dụng phương pháp bình phương tối thiểu có thể tìm được phương trình hồi quy, từ đó xác định được năng lượng hoạt hóa Ea
Trang 26Trong trường hợp này hệ phương trình chuẩn có dạng :
Giải hệ 3 phương trình 3 ẩn sẽ thu được các hệ số hồi quy b0, b1, b2.
Ví dụ tìm hệ số hồi quy của phương trình hồi quy parabol cho cặp số liệu :
Suy ra phương trình hồi quy thu được : Y = 5,957 + 0,344 x + 0,907 x2
c) Hồi quy hàm mũ và lũy thừa
Khi số thực nghiệm n bé, nếu tăng bậc của đa thức có thể dẫn đến việc tăng phương sai dư Lúc này để giảm số các hệ số không xác định, ta dùng hồi quy hàm số mũ hoặc lũy thừa Việc xác định các hệ số của phương tình hồi quy có thể rất khó khăn do phải giải hệ phương trình phi tuyến tính Việc tính toán sẽ trở nên đơn giản hơn nếu tiến hành thay thế các biến số và hạ bậc đa thức Ví dụ các quan hệ hàm số mũ kiểu : Y= bo xb1 hoặc lũy thừa :
Y= bo.b1 Logarit hóa ta được : logY= logbo + b1 log x hoặc : logY= logbo + x log b1 Sau khi đặt logY Z ; log bo = ao ; log x = t ; logb1 = a1, sẽ thu được phương trình tuyến tính :
Z= ao + b1 t hoặc Z= ao + a1 t Các hệ số ao, a1, b1 được xác định bằng phương pháp bình phương tối thiểu, từ đó suy
ra hệ số bo, b1
d) Hồi quy tuyến tính bội k
Trang 27Nếu thông số tối ưu phụ thuộc vào k biến độc lập (x1, x2,…xk) gọi là hồi quy tuyến tính bội k :
Y= bo + b1 x1 + b2 x2 +…+ bkxk
Ở đây chúng ta gặp không phải đường hồi quy, mà là mặt phẳng hồi quy khi k = 2 và mặt hyper khi k > 2 Trong trường hợp chung, bề mặt này gọi là bề mặt mức hoặc bề mặt đáp trị Khi xây dựng bề mặt mức trên các trục tọa độ của không gian yếu tố cần phải đặc các giá trị bằng số của các yếu tố lên hệ tọa độ Phải chuyển từ quy mô tự nhiên sang quy
mô chuẩn Nghĩa là phải tiến hành chuẩn hóa tất cả các giá trị cả các đại lượng ngẫu nhiên theo các công thức thống kê và chuyển từ biến thực sang biến được mã hóa không thứ nguyên
2.3 Kiểm tra thống kê
Sau khi xác định được các hệ số của phương trình hồi quy cần tiến hành kiểm định ý nghĩa của hệ số hồi quy và sự tương thích của phương trình hồi quy
2.3.1 Kiểm tra ý nghĩa của các hệ số trong phương trình hồi quy
Mục đích của kiểm tra này là xem các hệ số bj trong các phương trình hồi quy có khác không với độ tin cậy nào đó hay không ?
Để kiểm tra ý nghĩa của các hệ số trong phương trình hồi quy ta phải sử dụng chuẩn Student (t)
Các bước tiến hành kiểm tra :
B1 : Tính chuẩn ttn theo công thức : ttn = tj = j
bj
b S
Trong đó : bj là hệ số ứng với yếu tố thứ j trong phương trình hồi quy
Sbj là độ lệch chuẩn của hệ số bj : th
bj
S S
Trang 28Ví dụ 1: trở lại với ví dụ tìm hệ số hồi quy của phương trình tuyến tính lnk – 1/T ở
trên Từ số liệu bằng phương pháp bình phương tối thiểu đã xác định được b0 = 25,753; b1 = 22147,8 Để kiểm tra xem các hệ số b0, b1 có ý nghĩa hay không ta cần thực hiện thí nghiệm lặp để tìm phương sai tái hiện Ví dụ thực hiện thí nghiệm ở điều kiện T = 673 K, kết quả 3 lần đo thu được k = 7,3.10-4 ; 8,3.10-4 ; 8,6.10-4 M-1.s-1
S S
Trang 29Suy ra phương trình hồi quy thu được : Y = 6,175 + 0,102 x + 0,977 x2
S S
3.6
th bj
S S
Với độ tin cậy P = 0,98 => t0,98(12) = 2,68, trong các tj thì t1 nhỏ hơn tbảng nên b1 không
có ý nghĩa và phương trình hồi quy trở thành :Y = 6,175 + 0,977 x2
2.3.2 Kiểm tra sự tương thích của phương trình hồi quy với thực nghiệm
Dạng phương trình hồi quy là do người nghiên cứu tự chọn và các hệ số trong phương trình hồi quy được xác định dựa trên các dữ liệu thực nghiệm Vì vậy cần phải xem xét mô tả toán học đó có phù hợp với thực nghiệm hay không, và người ta dùng phân phố Fisher (F) với một mức ý nghĩa nào đó
Các bước tiến hành kiểm tra :
Bước 1 : Viết phương trình hồi quy với các hệ số có nghĩa
Bước 2 : Tính Ftn theo công thức : Ftn = Fj =
2 2
tt th
S S
Trong đó Stt2 và Sth2 là phương sai tương thích và phương sai tái hiện
Bước 3 : Tra bảng giá trị Fb = Fp (f1,f2) tức là ứng với mức ý nghĩa P đã chọn và bậc
tự do f1=ftt = n- L; f2 = m-1 ( n là số thí nghiệm và L là số hệ số có nghĩa trong phương trình hồi quy ; m là số thí nghiệm tại tâm)
Bước 4 : So sánh Ftn với Fb
+ Nếu Ftn < Fb : phương trình hồi quy phù hợp với thực nghiệm
+ Nếu Ftn > Fb : phương trình không phù hợp và làm tiếp các công việc sau : kiểm tra lại công việc tính toán – Xem lại mô hình nghiên cứu – chọn mô hình toán học ở mức độ
Trang 30- Phương án thực nghiệm tại tâm : Sau khi hoàn tất các thí nghiệm để xác định hệ
số b, người nghiên cứu phải làm thêm m (m ≥ 3) thí nghiệm ở tâm với các giá trị ứng với thí nghiệm tâm là y1o ; y2o ; y3 ,…
1
1 n
n L , với y là giá trị được tính theo i
phương trình hồi quy ở điều kiện thí nghiệm thứ i ; yi.là giá trị thực nghiệm tại thí nghiệm thứ i
- Phương án thí nghiệm song song
Tại mỗi điểm thí nghiệm được lặp lại m lần Trước khi tính toán hệ số b và kiểm định các thông số thông kê phải kiểm tra sự đồng nhất của các phương sai theo chuẩn Cochran (G), chỉ được phép ước lượng các sai số khi phương sai đồng nhất
Quá trình tính toán thực hiện :
1 Tính giá trị trung bình của yi ở mỗi điểm thí nghiệm :
m iu u i
y y
m n i i
S G
S
So sánh với giá trị bảng : Gp,(f1 ;f2) với P là mức ý nghĩa ; f1 = m-1 ; f2 = n
Nếu G < Gp,(f1 ;f2) ta có phương sai đồng nhất
S S
n m
6 Kiểm định ý nghĩa của các hệ số hồi quy theo tiêu chuẩn Student: j j
bj
b t S
Trang 317 Phương sai tương thích :
So sánh với giá trị bảng Fp,(f1,f2), với f1 = n-L ; f2 = n(m-1)
Nếu F < Fp,(f1,f2) thì phương trình tương thích với thực nghiệm
Nếu F > Fp,(f1,f2) thì phương trình không tương thích với thực nghiệm
Ví dụ : kiểm tra sự tương thích của phương trình hồi quy : lnk = 25,735 - 22147,8 1/T ở ví
dụ trên
Phương sai tái hiện đã xác định ở trên Sth2 = 0,0074
S F S
Tra bảng phân vị Fisher giá trị F0,95,(3;2) = 19,2
Vì Ftính < Fbảng nên phương trình tương thích với thực nghiệm
2.4 Sử dụng phần mềm excel để phân tích tương quan và hồi quy
2.4.1 Sử dụng công cụ trendline của chart
Chọn Insert → chart → scatter
Trang 32Nhấp chuột phải vào điểm trên đồ thị, sau đó bấm Add trendline và lựa chọn các dạng hồi quy phù hợp
Chọn Display Equation on chart: hiển thị phương trình hồi quy
Chọn display R-squared value on chart: cho biết r2 (hệ số tương quan (tỉ số tương quan) bình phương)