Các ví dụ hồi quy tuyến tính bội lập mô hình nhiều biến và tác động của chúng lên một kết quả: - Lượng mưa, nhiệt độ và mức độ sử dụng phân bón đối với sản lượng cây trồng.. Các hệ số hồ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHI MINH TRUONG DAI HOC BACH KHOA
MUC DO ANH HUONG CUA CAC THONG SO DIEU CHINH
DEN BAN IN TRONG MAY IN 3D
Nhom thuc hién: CK60
Trang 2Nhóm trưởng: Cao Xuân Hiéu- email: hieu.cao01@hcemut.edu.vn
Trang 3I Téng quan dir ligu
Tap tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học
Selcuk Muc đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều
chỉnh trong máy ¡n 3D đến chất lượng ¡n, độ chính xác và độ giãn của bản in
Bộ đữ liệu bao gồm 50 quan sát với 9 thông số cài đặt và 3 thông số đầu ra được
đo lường
Dữ liệu gốc được cung cấp tai: https://www.kaggle.com/afumetto/3dprinter
Các biến chính trong bộ dữ liệu gồm:
-Layer _ Height (mm): Độ cao mỗi lớp ín
-Wall_ Thickness (mm): D6 day thanh của vat in
-Infill_ Density (%):; Mật độ lấp đầy
-Infill_ Pattern (): Dạng lưới bên trong chỉ tiết
-Nozzle_Temperature (C°): Nhiệt độ của mũi in
-Bed_ Temperature (C°): Nhiệt d6 ban in
-Print_ Speed (mm/s): Téc dé in
-Material : Chất liệu (pla hoac abs)
-Fan_ Speed (%): Tốc độ quạt
- _ Thông số đầu ra (Được đo)
Roughness (um): D6 nham
Tension (ultimate) Strenght (MPa): Luc cang
Elongation (%): Độ giãn dài
-Các biến liên tục: layer_height, nozzle_temperature, bed_temperature,
wall_thickness
Các biến phân loại: infill_pattern, material va infill_ density
Trang 4IL Kién thire nén:
1 Hồi quy tuyến tính đa biến
Hồi quy đa biến là một phần mở rộng của hồi quy tuyến tính đơn giản Nó được
sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá trị của hai hoặc nhiều biến khác Biến chúng ta muốn dự đoán được gọi lả biến phụ thuộc (hoặc đôi khi, biến kết quả, mục tiêu hoặc biến tiêu chí) Các biến chúng ta đang sử đụng để dự đoán giá trị của biến phụ thuộc được gọi là biến độc lập Hồi quy đa biến cũng cho phép bạn xác định mức độ đóng góp nhiều, ít, không đóng góp của từng nhân tô vào
sự thay đổi của biến phụ thuộc
Mô hình hồi quy tuyến tính bội
Mô hình hồi qui tuyến tính đa biến là phương trình mô tả mối quan hệ giữa biến phụ thuộc y với các biến độc lập xị, x¿, xạ và số hạng sai số
y=0+ lxi+2x; + +kxx+eE
Ở đây:
- y là biến ngẫu nhiên
- 0, 1, 2, k là các tham số được ước tính dựa trên dữ liệu mẫu
- X1, X2, Xxlà các biên dự đoán được giả định là không ngâu nhiên hoặc cô định
và được đo không có lỗi và k là số lượng biến đự đoán
-£ là sai sô ngâu nhiên Các sai sô được coI là độc lập, có giá trị trung bình băng
0 và phương sai chung (ø?) và có phân phối chuẩn
Các ví dụ hồi quy tuyến tính bội lập mô hình nhiều biến và tác động của chúng lên một kết quả:
- Lượng mưa, nhiệt độ và mức độ sử dụng phân bón đối với sản lượng cây trồng
- Chế độ ăn uống và tập thể dục đối với bệnh tim
- Tăng trưởng tiền lương và lạm phát trên lãi suất cho vay gia đình
1.1 Ước lượng hệ số
Trang 5Các hệ số hồi quy này phải được ước lượng từ đữ liệu mẫu đề có được dạng tông quát của phương trình hồi quy bội ước lượng
%=bg+b,xi+b;x;+ba x;+ +byXy Trong đó:
k=số lượng biến độc lập (còn gọi là biến dự đoán)
ÿ = giá trị dự đoán của biến phụ thuộc (được tính bằng phương trình hồi quy bội) X1, X2, Xk = cdc bién déc lap
0 là điểm chặn y (giá tri của y khi tất cả các biến dự đoán bằng 0)
bạ là ước lượng của 0 dựa trên dữ liệu mẫu đó
1,2, k là các hệ số của các biến độc lập Xi, Xa, ., Xk
bj, b„ ,b¿ là ước lượng mẫu của các hệ số l, 2 k
Trong phân tích hồi qui đa biến, mỗi hệ số hồi qui được giải thích như sau:
b; là một ước lượng cho sự thay đổi của y ứng với sự gia tăng 1 đơn vị của x;khi tất cả các biến độc lập được giữ không đổi
->.(y,—y}: TS§ — Total Sum of Squares
->_ (9¡—y}Ï: ESS - Explained Sum ofSquares
->) &: RSS — Residual Sum of Squares
Ý nghĩa của các thành phần:
Trang 6- TSS la tong binh phuong cua tất cả các sai lệch giữa các giá trị quan sat Y; va giả trị trung bình
- ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo
độ chính xác của hàm hồi quy
- RSS la tong binh phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy
- TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gay ra
SSR
an cà x4¬ đ‹nh: B?—
Hé s6 xc dinh diéu chinh: R?=1—(1—R’) ——
1.3 Khoảng tin cậy và kiểm định các hệ số hồi quy
« Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Với các giả thiết OLS, u¡ có phân phối N(0, ø? Các hệ số ước lượng tuân theo phân phối chuẩn:
Ước lượng phương sai sai số đựa vào các phần dư bình phương tối thiểu Trong
đó k là số hệ số có trong phương trình hồi quy đa biến:
on » e n—k
» Ước lượng 2 phía, ta tìm được tại n—kÌ|hỏa mãn:
BiB) p SelB,
Trang 7« Khoảng tin cậy l— ơ củaổ, là:
[B,-t,|n—k)Se|B, a |; Ể;+t„ Ín— k] %el8,j]
Kiém dinh gia thiét déi voi ổ,
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có y nghia hay khéng: kiém định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không Có thê đưa ra giả thiết nào
đó đối với j, chăng hạn j=j Nếu giả thiết này đúng thì:
Ta co thé str dung giá trị P-value: P-value < mức ý nghĩa thi bác bỏ giả thiết Họ
Trang 81.4 Kiém định mức độ ý nghĩa chung của mô hình
Hi: 6 it nhat 1 tham sé 8,40
Tri kiém dinh:
_ MSR
~ MSE Quy tắc bác bỏ:
Bac bo Hy néu p — value <a hay néuF >F,
Với F, lấy từ bảng phân phối F
Bậc tự do trên tử số là p và bậc tự do dưới mẫu số làn—p— T
Trang 9y = by + bix; + box? + bsxs
Với:
y = Luong hang nam ($1000)
x¡ = Số năm kinh nghiệm
x; = Điểm thi năng khiếu
x3 = 0 nếu không có băng cấp chuyên môn
1 nếu có bằng cấp chuyên môn
1.6 Biến độc lập định tính
Nếu biến định tính có k thuộc tính thì sẽ sử dụng k - I1 biến giả Mỗi biến giả sẽ duoc ma hoa la 0 va 1
+ Luu y: Phai can than trong viéc dinh nghia va giai thích biến giả
« Ví đụ, một biến định tính có 3 thuộc tính A, B và C có thể được đại điện bằng 2 biến xị và x¿ với các giá trị (0, 0) cho A, (1, 0) cho B, va (0,1) cho C
2 Hồi quy logistics
Trong thống kê, mô hình logistic ( hoặc mô hình logit) là mô hình thống kê mô hinh log của tỷ số odds một sự kiện dưới dạng kết hợp tuyến tính của một hoặc nhiều biến độc lập Trong phân tích hồi quy, hồi quy logistic (hoặc hồi quy logit) đang ước tính các tham số của mô hình logistic (các hệ số trong tô hợp tuyến tính)
Về mặt hình thức, trong hỗồi quy logistic nhị phân có một biến phụ thuộc nhị phân duy nhất, được mã hóa bởi một biến chỉ báo, trong đó hai giá trị được gắn nhãn
“0” và “1”, trong khi mỗi biến độc lập có thế là một biến nhị phân ( hai lớp , được mã hóa bởi một biến chỉ báo) hoặc một biến liên tục ( bất ky giá trị thực nào) Xác suất tương ứng của giá trị được gắn nhãn “l” có thê thay đổi trong khoảng từ 0 ( chắc chắn
là giá trị “0”)và L ( chắc chắn là giá trị “1”)
Các biến nhị phân được sử dụng rộng rãi trong thống kê đề mô hình hóa xác suất của một lớp hoặc sự kiện nhật định diễn ra, chăng hạn như xác suất một đội chiên
Trang 10thang, xác suất một bệnh nhân khỏe mạnh và mô hình hồi quy logistic đã là mô hình được sử dụng phổ biến nhất cho hồi quy nhị phân kế từ khoảng năm 1970 Các biến nhị phân có thể được khái quát hóa thành hồi quy logistic đa thức Nếu nhiều danh mục được sắp xếp theo thứ tự, người ta có thế sử dụng hỗi quy logistic thứ tự Bản thân mô hình hồi quy logistie chỉ mô hình hóa xác suất đầu ra theo thời gian đầu
vào và không thực hiện phân loại thống kê
Các mô hình tuyến tính tương tự cho các biến nhị phân có hàm sigmoid khac thay vì hàm logistic( để chuyên đổi tô hợp tuyến tính thành xác suất ) cũng có thế được sử dụng
Các tham số của hồi quy logistic được ước tính phổ biến nhất bằng ước tính (MLE) khả năng tối đa Biểu thức này không có biểu thức đạng đóng, không giống như bình phương tối thiểu tuyến tính
2.1 Dinh nghia ham logistic
Giải thích về hồi quy logistic có thế bắt đầu bằng việc giải thích về tiêu chuẩn chire nang logistic Ham logistic la mét ham sigmoid, lay bat kỳ giá tri thực nào của input t và xuất ra một giá trị từ 0 đến I Đối với logit, điều này được giải thich nhu log của tỷ lệ odds đầu vào và có xác suất đầu ra Hàm logistic tiêu chuân
o:R-(0,1) được định nghĩa như sau:
Trang 119.5
Figure 1 The standard logistic function o(t) a(t) € (0,1) for allt
Giả sử t là một hàm tuyến tính của một biến giải thích duy nhất x (trường hợp t
là tô hợp tuyến tính của nhiều biến giải thích được xử lý tương tự) Sau đó, chúng ta
có thế biểu diễn t như sau:
2.2 Dinh nghia nghich dao cua ham logistic
Bây giờ chúng ta có thê định nghĩa hàm logit (log-odds) la ham nghịch đảo
g=ơ_' của hàm tiêu chuân logistic Dé dang thay rang nó thỏa mãn:
pix) 1—p\x]
Trang 12Giải thích các thuật ngữ:
Trong các phương trình trên, các thuật ngữ như sau:
g(p(x)): Ham logit Phương trình cho g(p(x)) minh hoa rang logit (tire 1a log-odds hoặc logarit tự nhiên của tỷ lệ odđs) tương đương với biêu thức hồi quy tuyến tính
In: Biểu thị logarit tự nhiên
p(x):Xac suất biến phụ thuộc bằng một trường hợp, cho một số kết hợp tuyến tính của các biến đự đoán Công thức cho p(x) minh họa rằng xác suất biến phụ thuộc bằng một trường hợp bằng giá trị của hàm logistic của biểu thức hồi quy tuyến tính Điều này quan trọng ở chỗ nó cho thấy răng giá trị của biéu thức hồi quy tuyến tính có thê thay đổi từ âm vô cùng đến đương vô cùng, nhưng sau khi biến đôi, biểu thức kết quả cho xác suất p(x) dao động trong khoảng từ 0 đến 1
B,: Hệ số chặn từ phương trình hồi quy tuyến tính (giá trị của tiêu chí khi biến dự đoán bằng 0)
B.: Hệ số hồi quy nhân với một số gia tri cua biến dự đoán
e: Biểu thị hàm số mũ
2.3 Định nghĩa về tỷ lệ odds
Tỷ lệ của biến phụ thuộc bằng một trường hợp ( với một số kết hợp tuyến tính x của các yếu tố dự đoán) tương đương với hàm mũ của biếu thức hồi quy tuyến tính Điều này minh họa cách logit đóng vai trò là hàm liên kết giữa xác suất và biêu thức hồi quy tuyến tính Cho rằng logit nằm trong khoảng vô cực âm và đương, nó cung cấp một tiêu chí thích hợp để tiến hành hỗồi quy tuyén tinh va logit dé dang duoc chuyên đổi trở lại tỷ lệ odds
Vì vậy, chúng ta xác định tỷ lệ odds của biến phụ thuộc bằng một trường hợp (với một số kết hợp tuyến tính x của các yếu tô dự đoán) như sau:
odds= e?t*
Tỷ lệ odds:
Trang 13Đối với một biến độc lập liên tục, tỷ lệ chênh lệch có thé duoc định nghia la:
For every one-unit
increase in => 1)ve (Group 0) P »> (?) to1
(Exploratory Variable) P Rae
2.4 Phân tích hồi quy logistic
Có ba cách tiếp cận phân tích hồi quy logistic dựa trên kết quả của biến phụ thuộc:
Hồi quy logistic nhị phân
Trang 14Hồi quy logistie nhị phân phù hợp với các vấn để phân lớp nhị phân chỉ có hai kết quả có thể xảy ra Biến phụ thuộc chỉ có thể có hai giá trị, chắng hạn như có và không hoặc 0 va 1
Du ham logistic tính toán một phạm vi giá trị giữa 0 và 1, mô hình hồi quy nhị phân vẫn sẽ làm tròn kết quả đến các giá trị gần nhất Nói chung, kết quả dưới 0,5 sẽ được làm tròn thành 0 và kết quả trên 0,5 sẽ được làm tròn thành 1, do dé ham logistic trả về một kết quả nhị phân
Hồi quy logistic đa thức
Hồi quy đa thức có thể phân tích các vấn đề có một số kết quả có thể xảy ra, miễn là số kết quả hữu hạn Ví đụ: kỹ thuật này có thê dự đoán xem giá nhà sẽ tăng 25%, 50%, 75% hay L00% dựa trên dữ liệu dân SỐ, nhưng sẽ không thé du đoán được giá trị chính xác của một ngôi nhà
Hồi quy logistic đa thức hoạt động bằng cách ánh xạ các giá trị kết quả cho các giá trị khác nhau giữa 0 và I Hàm logistic có thé tra về một khoảng dữ liệu liên tục như 0,1, 0,11, 0,12, v.v., do đó hồi quy đa thức cùng nhóm đầu ra đến các giá trị gần nhất có thé có
Hồi quy logistic thứ tự
Hồi quy logistic thứ tự, hay mô hình logit có thứ tự, là một loại hồi quy đa thức đặc biệt cho các vấn đề trong đó các số đại diện cho các bậc chứ không phải là giá trị thực tế Ví dụ: bạn sẽ sử dụng hồi quy thứ tự dé dự đoán đáp án cho câu hỏi khảo sát yêu cầu khách hàng đánh giá dịch vụ của bạn ở mức kém, ổn, tốt hoặc xuất sắc dua trên một giá trị số, chăng hạn như số lượng mặt hàng họ mua từ bạn trong năm
Trang 15đêm Nếu vấn đề được thay đôi để đạt/không đạt được thay thế bảng cấp 0-100 ( số cơ bản), thì phân tích hồi quy đơn giản có thể được sử dụng
Bảng này hiển thị số giờ mỗi học sinh dành cho việc học và họ đạt (1) hay trượt (0)
mục bởi chỉ số k chạy từ k =l đến k=K=20 Biến x được gọi là “biến giải thích” và
biến y được gọi là “biến phân loại” gồm hai loại : “đạt” hoặc “ không đạt” tương ứng với giá trị phân loại l và 0 tương ứng
Hàm số:
Ham logistic co dang:
[x|= — 1 —
Trong đó là tham số vị trí ( điểm giữa của đường cong, trong đó p(1) =1/2) và s
là tham số tỷ lệ Biêu thứu này có thể được viết lai bang:
1
Pi x= 1+ bot Bia)
G day Po= -u/s và được gọi là giao điểm ( đó là giao điểm dọc hoặc giao điểm y của đường thăng y=ÿo + ¡x), và Bi=l/s ( tham số tỷ lệ nghịch đảo hoặc tham số tỷ lệ): đây là phần chặn y và độ dốc của tỷ lệ logarit dưới dạng hàm của x Ngược lại, uw
=-Bo/ Bi va s=1/ Bi
Đo lường:
Phương pháp đo lường độ phù hợp phố biến nhất cho hỏi quy logistic là sử đụng mat mat logistic (hay con goi la mat mat log), là âm của log-thích nhiên Với một xạ cho truéc va yx viết p.=p(xv) Các px là những xác suất mà tương ứng y¿ sẽ bằng l và
Trang 161-p, la xac suat ma ching sé bang 0 Chung ta mong muén tim thay cac gid tri của Bo
va Bi: cai nao mang lai “sy phu hop nhat” cho dit liéu Trong truong hop tuyén tinh hi quy, tổng độ lệch bình phương của sự phủ hợp từ đữ liệu điểm (y¿), tôn thất lỗi bình phương, được lấy làm thước đo mức độ tốt phù hợp và đạt được sự phù hợp tốt nhất khi hàm đó được giảm thiểu
Mất mát log cho điểm thứ k (Ik):
1=-In p, néu yx =1; -In(1-p,) néu yx =0
Viéc mat mat log có thể được hiểu là sự “bất ngờ” của kết quả thực tế yk liên quan đến dự đoán pk và bước đo nội dung thông tin Mất mát log luôn lớn hơn hoặc bang 0, chi bang 0 trong trường hợp dự đoán hoàn hảo ( tức là khi nào p¿=l và y=l hoặc pu=0 và yu=0) và tiến tới vô cùng khi dự đoán trở nên tệ hơn ( tức là khi kết quả
là “đáng ngạc nhiên hơn” Vì giá trị của ham logistic luén nam trong khoảng từ 0 đến
1 nén d6 mat log luôn lớn hơn 0 và nhỏ hơn vô cùng Không giống như hồi quy tuyến tính, trong đó mô hình có thể không có tôn thất tại một điểm băng cách đi qua một điểm đữ liệu ( và tôn thất tông thê bằng 0 nếu tất cả các điểm nam trên một đường ), trong hồi quy logistic khéng thê có tốn thất bằng 0 tại bất kỳ điểm nào, vì y¿ là 0 hoặc
1, nhưng 0<p.<T
Chúng có thê được kết hợp thành một biểu thức duy nhất:
l=-y.ln p —(1-y‹)ln(1-px)
Biểu thức này được biết đến chính thức hơn là entropy chéo của phân phối được
dự đoán (p¿.(1-p.)) từ phân phối thực tế (yx.(1-y,)) , dưới dạng phân bố xác suất trên không gian hai phần tử của (đạt ,trượt)
Tổng của những điều này, tông tôn thất, là khả năng log tổng thể được giảm - l,
và đạt được sự phù hợp tốt nhất cho những lựa chọn Bo và B¡ cho — ] là tối thiểu
Ngoài ra, thay vì giảm thiểu tôn thất, người ta có thê tổ đa hóa log (dương) nghịch đảo của nó:
I= >) Inị[p,|+ 3 Inlt—py)=d oe
k:y,=1 kiy,=
Trang 17Hoặc tương đương tôi đa hóa chính hàm khả năng, đó là xác suất mà tập dữ liệu
đã cho được tạo ra bởi một logIstic cụ thể chức năng:
Ũ=——-= ôB, dys Pyb)x,6 — ; i
Và quy trình cực đại hóa có thể thực hiện bằng cách giải hai phương trình trên khi yêu cầu sử dụng Bo và ¡ một lần nữa, nhìn chung sẽ đùng các phương pháp số
Các giá trị của Bo và Butối đa hóa I và L bằng cách sử dụng dữ liệu trên được tìm thấy là:
Các hệ số của Bo và ¡ có thê được nhập vào phương trình hồi quy logistic để ước tính xác suất vượt qua ky thi
Trang 18Ví dụ: Đối với học sinh 2 giờ, nhập giá trị x=2 vào phương trình sẽ cho ra xác suất vượt qua bài thị có giá trị 0,25
t= Bo + 2B¡x-4.1+2*1.5=-1.1
1 1+e
p= %(0.25= xác suất đạt kì thi Tương tự, đối với một sinh viên học 4 gIỜ , xác suất đạt là 0.87:
Phân tích hồi quy logistic cho kết quả sau:
Coefficient Std Error z-value p-value (Wald) Intercept (Bp) -4.1 18 -23 0.021
Trang 19Khai quat hoa:
Mô hình đơn giản này là một ví dụ về hồi quy logistic nhị phân và một biến giải thích và một biến phân loại nhị phân có thé giả sử một trong hai giá trị phân loại Hồi quy logistic đa thức là sự khái quát hóa của hồi quy logistic nhị phân đề bao gồm bất
kỳ số lượng các biến giải thích và bất kỳ số lượng các loại
So sánh với hồi quy tuyến tính:
bình
Trang 20Tính tuyến tính, tính đồng
biến, tinh phi bình thường của lỗi
3 Phân tích phương sai (ANOVA)
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm dữ liệu dựa trên trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểm định giả thuyết đề kết luận về sự bằng nhau của các nhóm trung bình này
Phân tích phương sai được dùng đề xem xét ảnh hưởng của một hay nhiều yếu tố nguyên nhân đến một yếu tố kết quả
3.1 Phân tích phương sai một yếu tố
Giả sử cần so sánh số trung bình của k tổng thê độc lập Ta lẫy k mẫu có số quan sát là m, nạ mẹ; tuân theo phân phối chuẩn Trung bình của các tổng thê được ký hiệu
là tu; tạ tu khi đó mô hình phân tích phương sai một yếu tô ảnh hưởng được mô
tả đưới dạng kiểm định giả thuyết như sau:
Ho: [pu = ps = = Lk
HI: Tồn tại ít nhất | cap co wi A pi Fj
Giả thuyết :
« Mỗi mẫu tuân theo phân phối chuẩn Níu, ø?)
« Các phương sai tông thê bằng nhau
Trang 21« Các mẫu quan sát được lay độc lập
Trang 22Tổng các độ lệch bình phương trong nội bộ nhóm (SSW) được tính theo công thức
Trang 23Kí hiệu k là sô nhóm; n là tông số quan sát của các nhóm thi :
» Phương sai nội bộ nhóm (MSW) được tính :
mm 3 Võ SSW Nội bộ nhóm SSW n—k MSW MSW Tông SST n— 1
Trang 243.2 Phân tích phương sai 2 yếu tố
Giả sử ta nghiên cứu ảnh hưởng của 2 yếu tô nguyên nhân định tính đến một yêu
tố kết quả định lượng nào đó Ta lấy mẫu không lặp lại, sau đó các đơn vị mẫu của yếu tố nguyên nhân thứ nhất sắp xếp thành K nhóm (cột) các đơn vị mẫu của yếu tô nguyên nhân thứ hai sắp xếp thành H khối (hàng) Như vậy, ta có bảng kết hợp 2 yếu
tố nguyên nhân gồm K cột và H hàng và (K x H) ô dữ liệu Tổng số mẫu quan sát là n
Giả thuyết kiểm định:
« Mỗi mâu thuần tuân theo phân phối chuẩn NA, ø?)
« Ta lây K mẫu độc lập từ K tông thê, H mẫu độc lập từ H tổng thê Mỗi mẫu được quan sát I lần không lặp
Trang 26Kiém dinh gia thuyét
« Yếu tô nguyên nhân thứ nhất
Trang 27HI Tiền xử lý số liệu:
1 Đọc dữ liệu vào R và xem 6 dòng dầu tiên của dữ liệu
2 Kiểm tra dữ xem trong data có dữ liệu nào bị khuyết hay không:
apply (is.na (data) ,
Trang 28Nhận xét: Ta thấy kết quả ra ##interger(0) nên trong đata không có
đữ liệu khuyết
1 Thống kê mô tả các biến trong dữ liệu:
summary (data)
## layer_height wall_thickness infill_density infill_pattern
## Median :0.100 Median : 5.00 Median :50.0 Mode :character
Nhận xét: Ta thấy trên bảng số liệu có 2 biến phân loại là inñll pattern và material, các biến còn lại đều là biến liên tục
2 Lập bảng thông kê số lượng cho biến phân loại infill_pattern va material:
Trang 29.Vẽ đồ thị histogram để thể hiện phân phối của biến liên tục:
continous_dđata <- subset(data, select =-c(infill pattern,material))
data_1 <- continous data $>$ pivot_ longer (colnames (continous_ data) )
clet") +
facet_wrap(~ name, scales
## ‘stat_bin()* using ‘bins
"£ree")
30` Pick better value with `binwidth`