1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo bài tập lớn môn học xác suất thống kê mức độ ảnh hưởng của các thông số điểu chỉnh đến bản in trong máy in 3d

59 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHI MINH TRUONG DAI HOC BACH KHOA

GVHD: Cô Nguyễn Thị Kiều Dung

Trang 2

Nhóm trưởng: Cao Xuân Hiéu- email: hieu.cao01@hcemut.edu.vn

Trang 3

I Téng quan dir ligu

Tap tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk Muc đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều

chỉnh trong máy ¡n 3D đến chất lượng ¡n, độ chính xác và độ giãn của bản in

Bộ đữ liệu bao gồm 50 quan sát với 9 thông số cài đặt và 3 thông số đầu ra được đo lường

Dữ liệu gốc được cung cấp tai: https://www.kaggle.com/afumetto/3dprinter Các biến chính trong bộ dữ liệu gồm:

-Layer _ Height (mm): Độ cao mỗi lớp ín -Wall_ Thickness (mm): D6 day thanh của vat in -Infill_ Density (%):; Mật độ lấp đầy

-Infill_ Pattern (): Dạng lưới bên trong chỉ tiết -Nozzle_Temperature (C°): Nhiệt độ của mũi in -Bed_ Temperature (C°): Nhiệt d6 ban in -Print_ Speed (mm/s): Téc dé in -Material : Chất liệu (pla hoac abs) -Fan_ Speed (%): Tốc độ quạt - _ Thông số đầu ra (Được đo)

Roughness (um): D6 nham

Tension (ultimate) Strenght (MPa): Luc cang Elongation (%): Độ giãn dài

-Các biến liên tục: layer_height, nozzle_temperature, bed_temperature,

wall_thickness

Các biến phân loại: infill_pattern, material va infill_ density

Trang 4

IL Kién thire nén:

1 Hồi quy tuyến tính đa biến

Hồi quy đa biến là một phần mở rộng của hồi quy tuyến tính đơn giản Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá trị của hai hoặc nhiều biến khác Biến chúng ta muốn dự đoán được gọi lả biến phụ thuộc (hoặc đôi khi, biến kết quả, mục tiêu hoặc biến tiêu chí) Các biến chúng ta đang sử đụng để dự đoán giá trị của biến phụ thuộc được gọi là biến độc lập Hồi quy đa biến cũng cho phép bạn xác định mức độ đóng góp nhiều, ít, không đóng góp của từng nhân tô vào sự thay đổi của biến phụ thuộc

Mô hình hồi quy tuyến tính bội

Mô hình hồi qui tuyến tính đa biến là phương trình mô tả mối quan hệ giữa biến phụ thuộc y với các biến độc lập xị, x¿, xạ và số hạng sai số

y=0+ lxi+2x; + +kxx+eE Ở đây:

- y là biến ngẫu nhiên

- 0, 1, 2, k là các tham số được ước tính dựa trên dữ liệu mẫu

- X1, X2, Xxlà các biên dự đoán được giả định là không ngâu nhiên hoặc cô định và được đo không có lỗi và k là số lượng biến đự đoán

-£ là sai sô ngâu nhiên Các sai sô được coI là độc lập, có giá trị trung bình băng 0 và phương sai chung (ø?) và có phân phối chuẩn

Các ví dụ hồi quy tuyến tính bội lập mô hình nhiều biến và tác động của chúng lên một kết quả:

- Lượng mưa, nhiệt độ và mức độ sử dụng phân bón đối với sản lượng cây trồng - Chế độ ăn uống và tập thể dục đối với bệnh tim

- Tăng trưởng tiền lương và lạm phát trên lãi suất cho vay gia đình

1.1 Ước lượng hệ số

Trang 5

Các hệ số hồi quy này phải được ước lượng từ đữ liệu mẫu đề có được dạng tông quát của phương trình hồi quy bội ước lượng

%=bg+b,xi+b;x;+ba x;+ +byXy Trong đó:

k=số lượng biến độc lập (còn gọi là biến dự đoán)

ÿ = giá trị dự đoán của biến phụ thuộc (được tính bằng phương trình hồi quy bội) X1, X2, Xk = cdc bién déc lap

0 là điểm chặn y (giá tri của y khi tất cả các biến dự đoán bằng 0) bạ là ước lượng của 0 dựa trên dữ liệu mẫu đó

1,2, k là các hệ số của các biến độc lập Xi, Xa, ., Xk bj, b„ ,b¿ là ước lượng mẫu của các hệ số l, 2 k

Trong phân tích hồi qui đa biến, mỗi hệ số hồi qui được giải thích như sau: b; là một ước lượng cho sự thay đổi của y ứng với sự gia tăng 1 đơn vị của x;khi tất cả các biến độc lập được giữ không đổi

->.(y,—y}: TS§ — Total Sum of Squares

->_ (9¡—y}Ï: ESS - Explained Sum ofSquares

->) &: RSS — Residual Sum of Squares Ý nghĩa của các thành phần:

Trang 6

- TSS la tong binh phuong cua tất cả các sai lệch giữa các giá trị quan sat Y; va giả trị trung bình

- ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy

- RSS la tong binh phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy

- TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gay ra SSR

an cà x4¬ đ‹nh: B?—

Hé s6 xc dinh diéu chinh: R?=1—(1—R’) ——

1.3 Khoảng tin cậy và kiểm định các hệ số hồi quy « Ước lượng khoảng tin cậy đối với các hệ số hồi quy:

Với các giả thiết OLS, u¡ có phân phối N(0, ø? Các hệ số ước lượng tuân theo phân phối chuẩn:

Ước lượng phương sai sai số đựa vào các phần dư bình phương tối thiểu Trong đó k là số hệ số có trong phương trình hồi quy đa biến:

on » e n—k

» Ước lượng 2 phía, ta tìm được tại n—kÌ|hỏa mãn: BiB) p SelB,

< “

2

f I„~k||=1~e x

2

Trang 7

« Khoảng tin cậy l— ơ củaổ, là:

[B,-t,|n—k)Se|B, a |; Ể;+t„ Ín— k] %el8,j]

Kiém dinh gia thiét déi voi ổ,

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có y nghia hay khéng: kiém định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không Có thê đưa ra giả thiết nào đó đối với j, chăng hạn j=j Nếu giả thiết này đúng thì:

se |B, Ta có bảng 1:

Bảng 1 Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng

Ta co thé str dung giá trị P-value: P-value < mức ý nghĩa thi bác bỏ giả thiết Họ

Kiểm định ổ, :

Giả thuyết Hạ: ổ;= 0 © xịj không tác động Giả thuyết H¡: ổ;Z0 © xị có tác động B <0 © xj cé tac déng ngược

B,>0 © xị có tác động thuận

Trang 8

1.4 Kiém định mức độ ý nghĩa chung của mô hình

s Kiểm định F

Kiểm định F được dùng để xác định có tồn tại mối liên hệ có ý nghĩa giữa biến phụ thuộc và toàn bộ các biến độc lập

Giả thuyết: Ho: B:=B,= B;=0 Hi: 6 it nhat 1 tham sé 8,40 Tri kiém dinh:

_ MSR ~ MSE Quy tắc bác bỏ:

Bac bo Hy néu p — value <a hay néuF >F, Với F, lấy từ bảng phân phối F

Bậc tự do trên tử số là p và bậc tự do dưới mẫu số làn—p— T « Kiểm định t

Kiểm định t được thực hiện riêng cho mỗi biến độc lập trong mô hình Giả thuyết:

Ho: B;=0 Hi: B;40

Trang 9

y = by + bix; + box? + bsxs

Với:

y = Luong hang nam ($1000) x¡ = Số năm kinh nghiệm

x; = Điểm thi năng khiếu

x3 = 0 nếu không có băng cấp chuyên môn 1 nếu có bằng cấp chuyên môn

1.6 Biến độc lập định tính

Nếu biến định tính có k thuộc tính thì sẽ sử dụng k - I1 biến giả Mỗi biến giả sẽ duoc ma hoa la 0 va 1

+ Luu y: Phai can than trong viéc dinh nghia va giai thích biến giả

« Ví đụ, một biến định tính có 3 thuộc tính A, B và C có thể được đại điện bằng 2 biến xị và x¿ với các giá trị (0, 0) cho A, (1, 0) cho B, va (0,1) cho C

2 Hồi quy logistics

Trong thống kê, mô hình logistic ( hoặc mô hình logit) là mô hình thống kê mô hinh log của tỷ số odds một sự kiện dưới dạng kết hợp tuyến tính của một hoặc nhiều biến độc lập Trong phân tích hồi quy, hồi quy logistic (hoặc hồi quy logit) đang ước tính các tham số của mô hình logistic (các hệ số trong tô hợp tuyến tính)

Về mặt hình thức, trong hỗồi quy logistic nhị phân có một biến phụ thuộc nhị phân duy nhất, được mã hóa bởi một biến chỉ báo, trong đó hai giá trị được gắn nhãn “0” và “1”, trong khi mỗi biến độc lập có thế là một biến nhị phân ( hai lớp , được mã hóa bởi một biến chỉ báo) hoặc một biến liên tục ( bất ky giá trị thực nào) Xác suất tương ứng của giá trị được gắn nhãn “l” có thê thay đổi trong khoảng từ 0 ( chắc chắn là giá trị “0”)và L ( chắc chắn là giá trị “1”)

Các biến nhị phân được sử dụng rộng rãi trong thống kê đề mô hình hóa xác suất của một lớp hoặc sự kiện nhật định diễn ra, chăng hạn như xác suất một đội chiên

Trang 10

thang, xác suất một bệnh nhân khỏe mạnh và mô hình hồi quy logistic đã là mô hình được sử dụng phổ biến nhất cho hồi quy nhị phân kế từ khoảng năm 1970 Các biến nhị phân có thể được khái quát hóa thành hồi quy logistic đa thức Nếu nhiều danh mục được sắp xếp theo thứ tự, người ta có thế sử dụng hỗi quy logistic thứ tự Bản thân mô hình hồi quy logistie chỉ mô hình hóa xác suất đầu ra theo thời gian đầu

vào và không thực hiện phân loại thống kê

Các mô hình tuyến tính tương tự cho các biến nhị phân có hàm sigmoid khac thay vì hàm logistic( để chuyên đổi tô hợp tuyến tính thành xác suất ) cũng có thế được sử dụng

Các tham số của hồi quy logistic được ước tính phổ biến nhất bằng ước tính (MLE) khả năng tối đa Biểu thức này không có biểu thức đạng đóng, không giống như bình phương tối thiểu tuyến tính

2.1 Dinh nghia ham logistic

Giải thích về hồi quy logistic có thế bắt đầu bằng việc giải thích về tiêu chuẩn chire nang logistic Ham logistic la mét ham sigmoid, lay bat kỳ giá tri thực nào của input t và xuất ra một giá trị từ 0 đến I Đối với logit, điều này được giải thich nhu log của tỷ lệ odds đầu vào và có xác suất đầu ra Hàm logistic tiêu chuân

o:R-(0,1) được định nghĩa như sau: _ e6 - 1 ~d+e lee"

t

Đồ thị của hàm số logistic trên khoảng t (-6,6) được biểu thị trong hinh |

Trang 11

2.2 Dinh nghia nghich dao cua ham logistic

Bây giờ chúng ta có thê định nghĩa hàm logit (log-odds) la ham nghịch đảo g=ơ_' của hàm tiêu chuân logistic Dé dang thay rang nó thỏa mãn:

pix) 1—p\x]

Và tương tự, sau khi lũy thừa cả hai về ta có tỷ lệ:

1— p(x)

Trang 12

Giải thích các thuật ngữ:

Trong các phương trình trên, các thuật ngữ như sau:

g(p(x)): Ham logit Phương trình cho g(p(x)) minh hoa rang logit (tire 1a log-odds hoặc logarit tự nhiên của tỷ lệ odđs) tương đương với biêu thức hồi quy tuyến tính

In: Biểu thị logarit tự nhiên

p(x):Xac suất biến phụ thuộc bằng một trường hợp, cho một số kết hợp tuyến tính của các biến đự đoán Công thức cho p(x) minh họa rằng xác suất biến phụ thuộc bằng một trường hợp bằng giá trị của hàm logistic của biểu thức hồi quy tuyến tính Điều này quan trọng ở chỗ nó cho thấy răng giá trị của biéu thức hồi quy tuyến tính có thê thay đổi từ âm vô cùng đến đương vô cùng, nhưng sau khi biến đôi, biểu thức kết quả cho xác suất p(x) dao động trong khoảng từ 0 đến 1

B,: Hệ số chặn từ phương trình hồi quy tuyến tính (giá trị của tiêu chí khi biến dự đoán bằng 0)

B.: Hệ số hồi quy nhân với một số gia tri cua biến dự đoán e: Biểu thị hàm số mũ

2.3 Định nghĩa về tỷ lệ odds

Tỷ lệ của biến phụ thuộc bằng một trường hợp ( với một số kết hợp tuyến tính x của các yếu tố dự đoán) tương đương với hàm mũ của biếu thức hồi quy tuyến tính Điều này minh họa cách logit đóng vai trò là hàm liên kết giữa xác suất và biêu thức hồi quy tuyến tính Cho rằng logit nằm trong khoảng vô cực âm và đương, nó cung cấp một tiêu chí thích hợp để tiến hành hỗồi quy tuyén tinh va logit dé dang duoc chuyên đổi trở lại tỷ lệ odds

Vì vậy, chúng ta xác định tỷ lệ odds của biến phụ thuộc bằng một trường hợp (với một số kết hợp tuyến tính x của các yếu tô dự đoán) như sau:

odds= e?t*

Tỷ lệ odds:

Trang 13

Đối với một biến độc lập liên tục, tỷ lệ chênh lệch có thé duoc định nghia la: plx+1) )

._ 0dds(x+1) _ 1—p|x*1) efqtRilx+1) = =e"

For every one-unit

increase in => 1)ve (Group 0) P »> (?) to1

(Exploratory Variable) P Rae

2.4 Phân tích hồi quy logistic

Có ba cách tiếp cận phân tích hồi quy logistic dựa trên kết quả của biến phụ thuộc:

Hồi quy logistic nhị phân

Trang 14

Hồi quy logistie nhị phân phù hợp với các vấn để phân lớp nhị phân chỉ có hai kết quả có thể xảy ra Biến phụ thuộc chỉ có thể có hai giá trị, chắng hạn như có và không hoặc 0 va 1

Du ham logistic tính toán một phạm vi giá trị giữa 0 và 1, mô hình hồi quy nhị phân vẫn sẽ làm tròn kết quả đến các giá trị gần nhất Nói chung, kết quả dưới 0,5 sẽ được làm tròn thành 0 và kết quả trên 0,5 sẽ được làm tròn thành 1, do dé ham logistic trả về một kết quả nhị phân

Hồi quy logistic đa thức

Hồi quy đa thức có thể phân tích các vấn đề có một số kết quả có thể xảy ra, miễn là số kết quả hữu hạn Ví đụ: kỹ thuật này có thê dự đoán xem giá nhà sẽ tăng 25%, 50%, 75% hay L00% dựa trên dữ liệu dân SỐ, nhưng sẽ không thé du đoán được giá trị chính xác của một ngôi nhà

Hồi quy logistic đa thức hoạt động bằng cách ánh xạ các giá trị kết quả cho các giá trị khác nhau giữa 0 và I Hàm logistic có thé tra về một khoảng dữ liệu liên tục như 0,1, 0,11, 0,12, v.v., do đó hồi quy đa thức cùng nhóm đầu ra đến các giá trị gần nhất có thé có

Hồi quy logistic thứ tự

Hồi quy logistic thứ tự, hay mô hình logit có thứ tự, là một loại hồi quy đa thức đặc biệt cho các vấn đề trong đó các số đại diện cho các bậc chứ không phải là giá trị thực tế Ví dụ: bạn sẽ sử dụng hồi quy thứ tự dé dự đoán đáp án cho câu hỏi khảo sát yêu cầu khách hàng đánh giá dịch vụ của bạn ở mức kém, ổn, tốt hoặc xuất sắc dua trên một giá trị số, chăng hạn như số lượng mặt hàng họ mua từ bạn trong năm

Trang 15

đêm Nếu vấn đề được thay đôi để đạt/không đạt được thay thế bảng cấp 0-100 ( số cơ bản), thì phân tích hồi quy đơn giản có thể được sử dụng

Bảng này hiển thị số giờ mỗi học sinh dành cho việc học và họ đạt (1) hay trượt (0)

Hours (%) Pass

mục bởi chỉ số k chạy từ k =l đến k=K=20 Biến x được gọi là “biến giải thích” và

biến y được gọi là “biến phân loại” gồm hai loại : “đạt” hoặc “ không đạt” tương ứng với giá trị phân loại l và 0 tương ứng

Đo lường:

Phương pháp đo lường độ phù hợp phố biến nhất cho hỏi quy logistic là sử đụng mat mat logistic (hay con goi la mat mat log), là âm của log-thích nhiên Với một xạ cho truéc va yx viết p.=p(xv) Các px là những xác suất mà tương ứng y¿ sẽ bằng l và

Trang 16

1-p, la xac suat ma ching sé bang 0 Chung ta mong muén tim thay cac gid tri của Bo va Bi: cai nao mang lai “sy phu hop nhat” cho dit liéu Trong truong hop tuyén tinh hi quy, tổng độ lệch bình phương của sự phủ hợp từ đữ liệu điểm (y¿), tôn thất lỗi bình phương, được lấy làm thước đo mức độ tốt phù hợp và đạt được sự phù hợp tốt nhất khi hàm đó được giảm thiểu

Mất mát log cho điểm thứ k (Ik):

1=-In p, néu yx =1; -In(1-p,) néu yx =0

Viéc mat mat log có thể được hiểu là sự “bất ngờ” của kết quả thực tế yk liên quan đến dự đoán pk và bước đo nội dung thông tin Mất mát log luôn lớn hơn hoặc bang 0, chi bang 0 trong trường hợp dự đoán hoàn hảo ( tức là khi nào p¿=l và y=l hoặc pu=0 và yu=0) và tiến tới vô cùng khi dự đoán trở nên tệ hơn ( tức là khi kết quả là “đáng ngạc nhiên hơn” Vì giá trị của ham logistic luén nam trong khoảng từ 0 đến 1 nén d6 mat log luôn lớn hơn 0 và nhỏ hơn vô cùng Không giống như hồi quy tuyến tính, trong đó mô hình có thể không có tôn thất tại một điểm băng cách đi qua một điểm đữ liệu ( và tôn thất tông thê bằng 0 nếu tất cả các điểm nam trên một đường ), trong hồi quy logistic khéng thê có tốn thất bằng 0 tại bất kỳ điểm nào, vì y¿ là 0 hoặc 1, nhưng 0<p.<T

Chúng có thê được kết hợp thành một biểu thức duy nhất:

l=-y.ln p —(1-y‹)ln(1-px)

Biểu thức này được biết đến chính thức hơn là entropy chéo của phân phối được dự đoán (p¿.(1-p.)) từ phân phối thực tế (yx.(1-y,)) , dưới dạng phân bố xác suất trên không gian hai phần tử của (đạt ,trượt)

Tổng của những điều này, tông tôn thất, là khả năng log tổng thể được giảm - l, và đạt được sự phù hợp tốt nhất cho những lựa chọn Bo và B¡ cho — ] là tối thiểu

Ngoài ra, thay vì giảm thiểu tôn thất, người ta có thê tổ đa hóa log (dương) nghịch đảo của nó:

I= >) Inị[p,|+ 3 Inlt—py)=d oe

k:y,=1 kiy,=

Trang 17

Hoặc tương đương tôi đa hóa chính hàm khả năng, đó là xác suất mà tập dữ liệu đã cho được tạo ra bởi một logIstic cụ thể chức năng:

Ũ=——-= ôB, dys Pyb)x,6 — ; i

Và quy trình cực đại hóa có thể thực hiện bằng cách giải hai phương trình trên khi yêu cầu sử dụng Bo và ¡ một lần nữa, nhìn chung sẽ đùng các phương pháp số

Các giá trị của Bo và Butối đa hóa I và L bằng cách sử dụng dữ liệu trên được tìm thấy là:

Các hệ số của Bo và ¡ có thê được nhập vào phương trình hồi quy logistic để ước tính xác suất vượt qua ky thi

Trang 18

Ví dụ: Đối với học sinh 2 giờ, nhập giá trị x=2 vào phương trình sẽ cho ra xác suất vượt qua bài thị có giá trị 0,25

t= Bo + 2B¡x-4.1+2*1.5=-1.1

1 1+e

p= %(0.25= xác suất đạt kì thi Tương tự, đối với một sinh viên học 4 gIỜ , xác suất đạt là 0.87:

Phân tích hồi quy logistic cho kết quả sau:

Coefficient Std Error z-value p-value (Wald) Intercept (Bp) -4.1 18 -23 0.021 Hours (8) 15 0.6 24 0.017

Bằng kiểm định Wald, kết quả cho thấy số giờ học có liên quan đáng kế đến khả năng vượt qua kì thi px0.017 Thay vì phương pháp Wald, phương pháp được đề xuất dé tinh giá trị p cho hồi quy logistic là kiếm tra tỷ lệ khả năng mà những đữ liệu này cung cấp pŸ0.00061

Trang 19

Khai quat hoa:

Mô hình đơn giản này là một ví dụ về hồi quy logistic nhị phân và một biến giải thích và một biến phân loại nhị phân có thé giả sử một trong hai giá trị phân loại Hồi quy logistic đa thức là sự khái quát hóa của hồi quy logistic nhị phân đề bao gồm bất kỳ số lượng các biến giải thích và bất kỳ số lượng các loại

So sánh với hồi quy tuyến tính: Giống nhau:

Cả hai đều là mô hình thống kê: Dùng dé dự đoán giá trị của một biến phụ thuộc dựa trên một tập hợp các biến độc lập

Cả hai đều sử dụng phương pháp ước lượng tối đa hóa khả năng: Tìm tập hợp các tham số cho mô hình phủ hợp nhất với dữ liệu

Cả hai đều có thế được sử dụng đề phân loại và dự đoán: Hồi quy tuyến tính có thể được sử dụng dé dự đoán giá trị liên tục, trong khi hồi quy logistic duoc sur dung dé du doan giá trị nhị phân (ví dụ: có hoặc không)

thuộc

quy

bình

Trang 20

Tính tuyến tính, tính đồng

biến, tinh phi bình thường của lỗi

lỗi

3 Phân tích phương sai (ANOVA)

Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm dữ liệu dựa trên trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểm định giả thuyết đề kết luận về sự bằng nhau của các nhóm trung bình này

Phân tích phương sai được dùng đề xem xét ảnh hưởng của một hay nhiều yếu tố nguyên nhân đến một yếu tố kết quả

3.1 Phân tích phương sai một yếu tố

Giả sử cần so sánh số trung bình của k tổng thê độc lập Ta lẫy k mẫu có số quan sát là m, nạ mẹ; tuân theo phân phối chuẩn Trung bình của các tổng thê được ký hiệu là tu; tạ tu khi đó mô hình phân tích phương sai một yếu tô ảnh hưởng được mô tả đưới dạng kiểm định giả thuyết như sau:

Ho: [pu = ps = = Lk

HI: Tồn tại ít nhất | cap co wi A pi Fj Giả thuyết :

« Mỗi mẫu tuân theo phân phối chuẩn Níu, ø?)

« Các phương sai tông thê bằng nhau

Trang 21

« Các mẫu quan sát được lay độc lập

Trang 22

Tổng các độ lệch bình phương trong nội bộ nhóm (SSW) được tính theo công thức

Tổng các độ lệch bình phương của toàn bộ tông thể (SST)

SST = SSW + SSB = ss ce, —x)? i=l j=l

Trang 23

Kí hiệu k là sô nhóm; n là tông số quan sát của các nhóm thi : » Phương sai nội bộ nhóm (MSW) được tính :

MSW =SSW(n-k)

« Phương sai giữa các nhóm được tính :

MSB = SSB/(k-1)

F thực nghiệm : F = MSB/MSW Kiểm định giả thuyết :

« Tìm F lý thuyết : F ((k-l;n-k);đ)

« Nếu F thực nghiệm lớn hơn F lý thuyết thì bác bỏ Hụ, tức là các số trung bình của k tổng không thể băng nhau

mm 3 Võ SSW

Nội bộ nhóm SSW n—k MSW MSW Tông SST n— 1

Trang 24

3.2 Phân tích phương sai 2 yếu tố

Giả sử ta nghiên cứu ảnh hưởng của 2 yếu tô nguyên nhân định tính đến một yêu tố kết quả định lượng nào đó Ta lấy mẫu không lặp lại, sau đó các đơn vị mẫu của yếu tố nguyên nhân thứ nhất sắp xếp thành K nhóm (cột) các đơn vị mẫu của yếu tô nguyên nhân thứ hai sắp xếp thành H khối (hàng) Như vậy, ta có bảng kết hợp 2 yếu tố nguyên nhân gồm K cột và H hàng và (K x H) ô dữ liệu Tổng số mẫu quan sát là n

Giả thuyết kiểm định:

« Mỗi mâu thuần tuân theo phân phối chuẩn NA, ø?)

« Ta lây K mẫu độc lập từ K tông thê, H mẫu độc lập từ H tổng thê Mỗi mẫu được quan sát I lần không lặp

Trang 25

Tinh cac SỐ

Trung bình riêng của Trung bình riêng của

Trang 27

HI Tiền xử lý số liệu:

1 Đọc dữ liệu vào R và xem 6 dòng dầu tiên của dữ liệu data <- read.csv("C:/Users/caohi/Downloads/data.csv")

2 Kiểm tra dữ xem trong data có dữ liệu nào bị khuyết hay không:

apply (is.na (data) ,

Trang 28

Nhận xét: Ta thấy kết quả ra ##interger(0) nên trong đata không có đữ liệu khuyết

1 Thống kê mô tả các biến trong dữ liệu:

summary (data)

## layer_height wall_thickness infill_density infill_pattern

## Median :0.100 Median : 5.00 Median :50.0 Mode :character

Nhận xét: Ta thấy trên bảng số liệu có 2 biến phân loại là inñll pattern và material, các biến còn lại đều là biến liên tục

2 Lập bảng thông kê số lượng cho biến phân loại infill_pattern va material:

Trang 29

3 ##

## grid honeycomb

table (dataSmaterial)

## ## abs pla

library (tidyr) library (ggplot2)

.Vẽ đồ thị histogram để thể hiện phân phối của biến liên tục:

continous_dđata <- subset(data, select =-c(infill pattern,material))

data_1 <- continous data $>$ pivot_ longer (colnames (continous_ data) )

clet") +

facet_wrap(~ name, scales

## ‘stat_bin()* using ‘bins

"£ree")

30` Pick better value with `binwidth`

Ngày đăng: 26/08/2024, 12:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w