Xử lý số liệu thực nghiệm giảng cho sv cao học - Ngành CNTP-CNSH Bộ môn Quản lý chất lượng Mục đích, yêu cầu - Bổ sung và nâng cao k iến thức cho học viên để lựa chọn các phương pháp xử
Trang 1Xử lý
số liệu thực nghiệm (giảng cho sv cao học - Ngành CNTP-CNSH)
Bộ môn Quản lý chất lượng
Mục đích, yêu cầu
- Bổ sung và nâng cao k iến thức cho học viên để lựa chọn các phương pháp xử lý số liệu thích hợp trong điều kiện thí nghiệm của mình.
- Học viên đ- học qua các kiến thức thống kê ứng dụng cơ bản, biết sử dụng máy tính và làm bài tập trên những phần mềm thống kê ứng dụng: SAS, SPAD, SPSS, STATISTICA…
-Đ- tốt nghiệp Kỹ sư Công nghệ CB Thực phẩm và học các môn: Phân tích Cảm quan TP; Kiểm tra CLTP
Trang 2CÊu tróc m«n häc
Lý thuyÕt Ch−¬ng I Mét sè kiÕn thøc c¬ b¶n vÒ sè liÖu Ch−¬ng II C¸c chuÈn thèng kª so s¸nh Ch−¬ng III Ph©n tÝch c¸c thµnh phÇn chÝnh Ch−¬ng IV Ph©n tÝch t−¬ng quan ®a biÕn Ch−¬ng V Kü thuËt ph©n nhãm
Thùc hµnh
- C¸c bµi tËp trªn líp
- C¸c bµi tËp tù lµm
tµi liÖu tham kh¶o
EUGENE L.G., RICHARD S.L., 1988, Statistical Quality Control, 6th Ðdi., McGraw-Hill Publishing Company, Printed in the United States of America
MERTON R.H., 1990, Statistical Quality Control for the Food Industry, Published by Van Nostrand Reinhold, New York, Printed in the United States of America
MICHAEL O’MAHONY, 1985, Sensory Evaluation of Food: StatiscalMethodes and Procedures, Marcel Dekker, Inc New York and Basel
GEORGE W SNEDECOR, WILLIAM G COCHRAN, 1967, MÐthodesStatistiques, 6Ìme Ðdition, The Iowa state University Press Ames, Iowa, USA
ABDI H., 1987, Introduction au Statistique des donnÐesexpÐrimentales, Press universitaires de grenoble, france
Trang 3tài liệu tham khảo
JEAN de LAGARDE, 1983, Initiation à l’analyse des données, Bordas, Paris
MAXIMA LAMOTTE, 1971, Initiation aux Méthodes Statistiques en Biologie, 2e édi., MASSON & Cie éditeurs, Paris
PIERRE DAGNELIE, 1992, Statistique Théorique et Appliquée, Tom 1, Les presses Agronomique de Gembloux, Belgique
PIERRE DAGNELIE, 1994, Théorie et Méthodes Statistiques, Vol 2, les presses Agronomique de Gembloux, Belgique
Foucart t., 1997, l’analyse des données – mode d’emploi, Press universitaires de rennes, france
Hà duyên tư, 2006, quản lý chất lựơng trong công nghiệp thựcphẩm, Nxb Khoa học kỹ thuật, hà nội
Hà duyên tư, 2006, phân tích cảm quan thực phẩm, Nxb Khoa học kỹthuật, hà nội
Chương 1 một số kiến thức cơ bản về số liệu
1.1 tập hợp số liệu1.1.1 Tập hợp số liệu thí nghiệm và kiểm tra
- Phân tích, kiểm tra TP hóa học, hóa lý, năng xuất…
- một hay nhiều đại lượng1.1.2 phân loại các đại lượng
- danh nghĩa, thứ bậc, hứu tỷ
- đếm được và đo được, mô tả
1.1.3 mục đích của phép đo
- so sánh, kiểm tra, phân loại
- hiệu chỉnh1.1.4 sự phân tán và sai số
- do mẫu, do dụng cụ và phương pháp
- yêu cầu của dụng cụ: trung thực, đúng đắn, chính
Trang 4Em = 1.2.4 §é lÖch toµn ph−¬ng
n j j
n j
0.45
normal(x)
95 %
Standard Deviation
Trang 5p n si x
x med
p p p
2
2
1 2
) (
) 1 ( ) (
) 1 (
Là con s ố ñứ ng gi ữ a dãy phân ph ố i
Trang 6• Measure of flatness or peakedness of a frequency distribution
•Platykurtic(relatively flat)
• Phân phối lệch phải (positive sknew, right-skewed) khi ñuôi phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối
• Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị skewness âm ðộ lệch càng lớn thì giá trị sknewness càng khác 0.
• Với phân phối chuẩn, ñộ lệch gần như nhận giá trị 0
H ệ s ố b ấ t ñố i x ứ ng (Skewness)
Trang 815
Trang 9Kurtosis
4 3 2 1 0
Mesokurtic - not too flat and not too peaked
• Với phân phối bình thường, giá trị của ñộ lệch và ñộ nhọn bằng 0
• Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó, ta có thể ñánh giá phân phối có bình thường hay không ( khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối
là không bình thường ).
Skewness/SE Skewness (SE skewness=SQRT(6/N)
Kurtosis/SE Kurtosis (SE kurtosis=SQRT(24/N)
ð o l ườ ng d ạ ng hình c ủ a phân ph ố i
(Measures of Shape)
Trang 10e O
Nếu F<Fb 2 phương sai bằng nhau
Nếu F≥Fb 2 phương sai khác nhau
2
2 1
n i i
2 2 1
2 2
1
1 1
1
Trang 112 1
2 2 2 1 2
−+
−+
−
=
n n
s n s n s
1 1
n n s
x x t
2 102 2
7 9
88 10 6 49 9
− +
19
12.102
9.11
Trang 122 1 2
n
S n
n S n S x x t
1
2 2 2 1
2 1 2
2 2 2 1 2
t b,5%,5 =2.57 Conclusion:
Significant difference
01 5 5 92 1 5 98 6
2 10 2 26
5 92 1 5 98 6
2 2 2 2
2 2 2
≈
= +
+
=
f
Trang 13Trường hợp 2 mẫu tương quan, so sánh cặp
Subject Before After Diff
x t
• The problem: Viewing certain meats under red light might
enhance judges preferences for meat 12 judges were asked to score the redness of meat under red light and white light
Trang 14Paired samples – analysis
1.83 21
19.2 Mean
2.82 2.8
2.1 SD
6
24
18 12
427
23 11
320
17 10
122
21 9
420
16 8
019
19 7
323
20 6
421
17 5
-418
22 4
-217
19 3
119
18 2
222
20 1
DifferenceWhite light
Red lightJudge
Mean difference: 1.83, SD: 2.82 Standard error (SE):
SD/sqrt(n) = 2.82/sqrt(12) = 0.81
t-test = |1.83|/0.81 = 2.23
tb,5%= 2.201 Conclusion: there was a significant effect of light colour.
2.3 So sánh nhiều trung bình
2.3.1 Phân tích phương saiPhương pháp phân tích phương sai do Ficher đưa ra nhằm kiểm tra
sự khác nhau giữa một tập hợp mẫu Phân tích phương sai cho phép chấp nhận hay loại bỏ giả thuyết không Ho, đó là giả thuyết cho rằng các mẫu có thể được coi là đv lấy ra từ trong một tập hợp Có nghĩa là các mẫu không khác nhau Ngược lại là các mẫu có khác nhau tùy theo mức ý nghĩa lựa chọn
2.3.2 MộT Số MÔ HìNH PHÂN TíCH PHƯƠNG SAI
- Mô hình 1 tác nhân tác động độc lập (cùng cỡ mẫu, khác cỡ mẫu)
- Mô hình 2 tác nhân tác động độc lập
- Mô hình 2 tác nhân tác động tổng hợp
Trang 16Mô hình 2 tác nhân tác động tổng hợp
Trang 17Plan S(A)
10
9 8 11 12 10 9 10 12 8 12 9 8 10 9 13
WithI
4
4 3 5 2 6 4 6 4 3 1 6 4 4 3 5
NoI
M
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Y M Y Y Y
a
A S
as a
S
s as
1
Y1,6 M1. M
Trang 18=
− +
2
.
2
.
2
2 2
1 _
M M M
Y SS
M M M
Y SS
M Y SS
df
SS N
M Y S
Variance
a a
as total
a s
a a
as total
a s
as total
SStotal= SSbet+ SSwith
Plan S(A)
with
bet cal
with with
with with
bet bet
bet bet
MS
MS F
S A
SS df
SS MS
A
SS df
SS MS
ANOVA Table
29338
Total
2.4328
68Within S(A)
111.18270
1270
Between ((((A))))
FcalMS
dfSS
Source
F0.05 (1, 28)= 4.20
Trang 19Y s Y
as
Y as
Y s Y
as
Y Y as
Y s Y
as
Y Y s
a
Y s
Y s
M M M
M S M
M SS
a a a a
a a
a
a a
a a
a bet
=
− +
=
− +
=
− +
2
2
2
2
2
2
2
2
2
2
2
2
2
2 2
.
2 2
) 2 (
) 2
a
a s AS Y Y
A as Y
as
Y Y SS
s
Y Y
M Y
SS
as
Y s
Y SS
as total
a
as s
a as with
a
a bet
2
2
2.2
2
2
2
Trang 20Plan S(A)
AS-I as-1
Total
AS-A////a(s-1) AS-A
a(s-1)
S(A)
MS A /MS S(A) A-I////a-1
A-I a-1
A
F cal MS
SS df
Source of variance
S-I s-1
S
AS-I as-1
Total
AS-A-S+I/(a-1)(s-1) AS-A-S+I
(a-1)(s-1)
S*A
MS A /MS S*A A-I/a-1
A-I a-1
A
F cal MS
SS df
Source of variance
Trang 21EXERCISES
Total
191 245
193
S 6
162 247
199
S 5
160 219
197
S 4
243 199
109
S 3
217 219
172
S 2
217 231
10
AS
271.84 1359.2
5
S
3.784 4404.15
8808.3 2
A
Pr F
MS SS
df Source of variance
Trang 222.4 Khái niệm tương quan và hồi quy
2.4.1 Biểu đồ phân bốSau đây chúng tôi giới thiệu một ví dụ và cách tính rất tổng quát đối với các cặp giá trị x và y đo được bất kỳ, không theo một trình tự nào
8 9 10 11 12 13 14 15
10 15 20 25 30
Biểu đồ phân tán
2.4 Khái niệm tương quan và hồi quy
2.4.2 Khái niệm về tương quan và hệ số tương quan
Điểm trung tâm M trong biểu đồ phân tán
Hệ số tương quan R =
9 10 11 12 13 14 15
18 20 22 24 26 28
I
II III
IV
M x,y
9 10 11 12 13 14 15
18 20 22 24 26 28
I
II III
IV
M x,y
x y
y n y x n x
y n xy
Trang 232.4 Kh¸i niÖm t−¬ng quan vµ håi quy
2.4.3 Kh¸i niÖm vÒ ®−êng håi quy vµ hÖ sè håi quy
Trang 24i i
i i
6 Ước lượng các tham số hồi quy
ðiều kiện ñể phương trình trên ñạt cực trị là:
0 ) (
2
) (
0 ) (
2
) (
211
212
211
112
i
i i
n
i i
i n
i i
n
i i
X Y
X e
X Y
e
β β β
β β β
) ) )
) ) )
1
21
ˆ ˆ
ˆ ˆ
i i
i i
i i
X X
Y X
X n
Y
β β
β β
6 Ước lượng các tham số hồi quy
Trang 25Giải bài toán cực trị hàm hai biến, ta ñược
X Y
X n X
Y X n X Y X
X
Y Y X X
n
i i
n
i
i i n
i i
n
i
i i
21
1
22
1
1
2
12
ˆ ˆ
) (
.
) (
) )(
( ˆ
β β
= là giá trị trung bình của Y
6 Ước lượng các tham số hồi quy
Ví dụ: Quan sát về thu nhập (X – triệu ñồng/năm) và chi tiêu (Y – triệu ñồng/năm) của 10 người, ta ñược các số liệu sau :
Trang 26Tổng bình phương toàn phần
Total Sum of Squares-TSS
Tổng bình phương tất cả các sai lệch giữa giá trị thực tế của Y với giá trị trung bình của nó.
∑
) ( )
9 Hệ số phù hợp và hệ số tương quan
Tổng bình phương hồi quy
Explained Sum of Squares-ESS
Tổng bình phương tất cả các sai lệch giữa giá trị của Y
ñược tính theo mô hình với giá trị trung bình của nó.
) (
ˆ )
Trang 27Tổng bình phương phần dư
Residual Sum of Squares-RSS
Tổng bình phương tất cả các sai lệch giữa giá trị thực tế với giá trị lý thuyết theo mô hình của Y
∑
) ˆ ( Y i Y i e i RSS
9 Hệ số phù hợp và hệ số tương quan
RSS ESS
•R2= 1: mô hình hoàn toàn phù hợp với mẫu nghiên cứu
•R2 = 0: mô hình không phù hợp với mẫu nghiên cứu
9 Hệ số phù hợp và hệ số tương quan
Trang 28( β ˆ2 − tα/2,n−2 × se ( β ˆ2); β ˆ2 + tα/2,n−2 × se ( β ˆ2) )
Khoảng tin cậy của β1β2σ2 với ñộ tin cậy 1-α là
Với có ñược khi tra bảng t-Student với bậc tự do (n-2)
2 /
22
2
2
ˆ ).
2 (
; ˆ ).
2 (
α
σ χ
E E ( β ˆ2) = β2
222
22
22
22
ˆ
) (
) (
) ˆ (
X X
n X n
X Var
i
i
i i
ˆ )
ˆ (
Var
i i
σ σ
σ
2 2
) ˆ (
2 ˆ
22
Y Y n
σ
8 Các tham số ñặc trưng
Trang 29Kho ả ng tin c ậ y c ủ a σ2
8x22.447/17.53 ; 8x22.447/2.17 10.25 ; 82.76
11 Khoảng tin cậy của hệ số hồi quy
Cách 1: Phương pháp khoảng tin cậy
Bước 1: Lập khoảng tin cậy của β2
Bước 2: Nếu β0 thuộc khoảng tin cậy thì chấp nhận H0
Nếu β0 không thuộc khoảng tin cậy thì bác bỏ H0
Ho:β2 = βo
H1:β2 ≠ βo Với ñộ tin cậy là 1-α
12 Kiểm ñịnh giả thiết hệ số hồi quy
Trang 30Cách 2: Phương pháp giá trị tới hạn (kiểm ñịnh t)
Bước 1 : tính giá trị tới hạn
Bước 2 : tra bảng t-Student với bậc tự do (n-2) tìm tα/2
Bước 3 :
Nếu -tα/2 ≤ t ≤ tα/2 : chấp nhận giả thiết H0Nếu t < -tα/2 hoặc t > tα/2 : bác bỏ giả thiết H0
) ˆ (
ˆ
2
0 2
β
β β
12 Kiểm ñịnh giả thiết hệ số hồi quy
Trang 310 2
β
β β
se
t = −
12 Kiểm ñịnh giả thiết hệ số hồi quy
Tương tự kiểm ñịnh giả thiết về β2 nhưng giá trị
tới hạn lúc này là
) ˆ (
ˆ
1
01
H1:β1 ≠ βo Với ñộ tin cậy là 1-α
12 Kiểm ñịnh giả thiết hệ số hồi quy
Trang 32Bước 1 : Lập khoảng tin cậy của σ2
Bước 2 :
• Nếu σ02thuộc khoảng tin cậy thì chấp nhận H0
• Nếu σ02không thuộc khoảng tin cậy thì bác bỏ H0
Ho:σ2=σ02
H1:σ2≠ σ02 Với ñộ tin cậy là 1-α
12 Kiểm ñịnh giả thiết hệ số hồi quy
Ho:R2= 0
H1:R2≠ 0 Với ñộ tin cậy là 1- α
Kiểm ñịnh giả thiết
Bước 2 : Tra bảng tìm F(1,n-2), mức ý nghĩa là α
R
n R F
Trang 33) 2 10 ( 6721 0 1
) 2 (
Bước 2 : Tra bảng tìm F(1,n-2) = 5.318
Bước 3 : F>F(1,n-2) , bác bỏ H0
13 Kiểm sự phù hợp của mô hình
Trang 343.4 ví dụ
Chương 4
Phân tích tương quan đa biến (afc)
4.1 đặc điểm của số liệu xử lý 4.2 giới thiệu phương pháp 4.3 phân tích và giải thích kết quả
4.4 ví dụ
Trang 36I x
k ik
I s
1
2
) (
Trang 4489,6889,8
89,8589,9
89,9590,0
ðộchua(0T)
1279,81279,5
1279,51278,
1278,81278,6
1278,61278,9
Vitamin A (UI/100g)
39,5739,60
41,0040,15
40,1840,00
38,5630,60
ðộ ẩm (%)
40,5040,25
39,1938,60
38,8538,83
38,2137,70
Chất béo(%)
7,207,00
7,137,08
7,087,19
7,257,58
Protein hoà tan(%)
M2M1
0,800,780,720,73
0,600,63Alanine
2,532,51
2,502,482,462,46
2,502,42Proline
1,091,18
1,121,101,101,08
0,981,00Threonine
1,441,40
1,421,401,361,39
1,280,99Arginine
0,900,95
0,940,920,980,93
0,860,89Histidine
0,620,60
0,640,600,620,60
0,520,58Glycine
1,581,56
1,501,511,481,49
1,421,51Serine
5,985,96
5,905,905,885,86
5,645,46Glutamic acid
1,701,66
1,581,651,661,61
1,431,43Aspartic acid
Edam_ H
Edam _ P
Gouda_ HM5
M4M3
M2M1
Thành phầ
(%)
Trang 451,361,321,33
1,341,341,38
1,221,48Tyrosine
1,881,851,80
1,791,701,68
1,581,63Valine
2,652,582,55
2,502,542,40
2,302,43Leucine
1,591,541,58
1,461,401,41
1,321,26Phenylanine
1,901,921,93
1,901,921,98
1,911,96Lysine
0,180,160,17
0,160,140,15
0,130,14Tryptophan
1,401,381,38
1,261,281,21
1,221,00Isoleucine
0,700,680,68
0,640,660,61
0,540,52Cystine
0,680,700,66
0,660,660,68
0,620,64Methionine
Edam_ H
Edam _ P
Gouda_
HM5M4M3
M2M1
Thành phầ
(%)
Hµm l−îng c¸c axÝt amin cña mÉu thÝ nghiÖm (tiÕp)
Sè liÖu ph©n tÝch c¶m quan c¸c mÉu thÝ nghiÖm
56,09 52,12
63,15 39,73
20,30 20,70
50,94 m5
52,82 58,33
92,48 39,61
28,30 19,61
52,39 m4
56,33 58,73
50,94 39,97
29,00 23,30
46,45 m3
58,15 60,76
53,42 39,97
28,61 22,64
47,91 m2
55,39 56,24
16,03 22,18
54,15 23,27
30,15 m1
51,79 59,00
49,58 39,45
27,36 28,30
44,58 GoudaH
49,06 54,12
25,76 49,33
30,70 28,15
58,76 EdamH
55,03 62,79
63,88 42,97
26,30 69,91
59,73 EdamF
milk_odor butter_odor
greasiness salty
umami bitterness
sour product
Trang 47H×nh chiÕu c¸c “®iÓm tÝnh chÊt” trªn vßng trßn t−¬ng quan
trªn mÆt ph¼ng chÝnh thø nhÊt cña ACP
H×nh chiÕu biplot c¸c “®iÓm tÝnh chÊt” vµ “c¸c ®iÓm s¶n phÈm”
trªn mÆt ph¼ng chÝnh thø nhÊt cña ACP
Trang 4895Phân nhóm theo thứ bậc (HCA) của các sản phẩm
Trung bình điểm thi hiếu của người tiêu dùng đối với 5 mẫu thí nghiệm
và 3 mẫu kiểm chứng
Trang 49th ứ b ậ c ( hierarchical clusters ), k-means, SOM, mixture models,
Hierarchical Clustering
Biểu ñồ cây
Biểu ñồ dữ liệu
Trang 50• Phân nhóm chia nh ỏ : b ắ t ñầ u v ớ i 1 nhóm chung
Trang 54Tính toán sự giống nhau
giữa nhóm mới với
Trang 55Phép ño sự giống nhau
][
) (
[
) )(
( )
, (
1
2 1
x
m y m x y
1
2) (
) , ( r r
y
2 vector:
Trang 56Phép ño sự giống nhau
N
i i i
y x
y x y
x C
2 2
1 cosine( r , r )
Trang 57+ +
+ +
Trang 58+ +
S¶N PHÈM −A THÝCH
Trang 59C¸c bµi tËp thùc hµnh C¸c bµi tËp vÒ nhµ C¸c gîi ý vÒ tiÓu luËn