Thông tin tài liệu
ĐẠI HỌ ĐẠI Ồ CHÍ MINH HỌC QUỐ QUỐC GIA THÀNH PHỐ PHỐ H HỒ TRƯỜNG ĐẠI ĐẠI HỌ HỌC BÁCH KHOA BÁO CÁO BÀI TẬ TẬP LỚ LỚ N MÔN XÁC XUẤ XUẤT THỐ THỐNG KÊ HỌ HỌC KÌ 211 GVHD: Nguyễn Đình Huy Nhóm: L13 Nhóm sinh viên thực hiện: STT HỌ VÀ TÊN HỌ MSSV LỚ P Vũ Mai Hoài Nam Nam 1914260 L13 Nguyễn Thái Uyên Vy 1912478 L13 Tr ần Nguyễn Diễm Thi 1915266 L13 Nguyễn Ngọc Hải Hà 1913211 L13 Phạm Thanh Thảo Nguyên 1914396 L13 NGÀNH KÝ TÊN Thành phố H H ồ Chí Minh – 2021 2021 MỤC LỤ LỤC A. PHẦ N CHUNG BÀI TẬP SỐ 1 Đọc dữ liệu (Import data): Làm dữ liệu (Data cleaning): 3 Làm rõ dữ liệu Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): .19 Dự báo (Predictions) .26 B PHẦ N RIÊNG LÝ DO CHỌN ĐỀ TÀI 28 ĐỀ BÀI 28 XỬ LÝ LÝ SỐ LIỆU 29 Đọc dữ liệu 29 Làm dữ liệu (Data cleaning) 30 Làm r dữ liệu (Data visualization): 30 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 41 Dự báo (Predictions) 46 K ết luận: 48 A. PHẦ N CHUNG Đề 1: Tậ p tin tin "gia_nha.csv" "gia_nha.csv" chứa thông tin về giá bán thị trường (đơn vị đô la) 21613 nhà ở quân King nướ c M ỹ trong khoảng thờ i gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, dữ liệu bao gồm thuộc tính mơ tả chất lượ ng ng ngơi nhà Dữ liệu gốc đượ c cung cấ p tại: https://www.kaggle.com/harlfoxem/housesalespredicti https://www.kaggle.com/harlfoxem/housesalesprediction on Các biến bộ dữ liệu: price: Giá nhà đượ c bán price: floors: Số tầng nhà đượ c phân loại từ 1-3.5 condition:: Điều kiện kiến trúc nhà từ 1 − 5, 1: r ất tệ và 5: r ất tốt condition view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4 view: sqft_above: Diện tích ngơi nhà sqft_living: Diện tích khn viên nhà sqft_basement: Diện tích tầng hầm Đọc Đọc dữ dữ liệ liệu (Import data): Dùng lệnh read.csv() để đọc tệ p tin Input: house_price = read.csv("C:/Users/Asus/Desktop/XSTK-211/gia_nha.csv") # Đọc t ệp ệp tin lưu dữ li liệu vớ i tên house_price Output Làm sạ dữ dữ liệ liệu (Data cleaning): a) Hãy trích dữ liệu đặt tên new_DF chỉ bao gồm biến mà ta quan tâm trình bày phầ n giớ i thiệu dữ liệu Từ câu hỏi về sau, yêu cầu xử lý dựa tậ p dữ liệu new_DF này Input: names(house_price) # Liệt kê t ấ ấ t cả các biế n có house_price De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t Output: [1] "X.2" "X.1" "X" [4] "id" "date" "price" [7] "bedrooms" "bathrooms" "sqft_living" [10] "sqft_lot" "floors" "waterfront" [13] "view" "condition" "grade" [16] "sqft_above" "sqft_basement" "yr_built" [19] "yr_renovated" "zipcode" "lat" [22] "long" "sqft_living15" "sqft_lot15" Input: new_DF = data.frame(house_pric data.frame(house_price[,c(6,23,11,14,16,9,17)]) e[,c(6,23,11,14,16,9,17)]) # Trích d ữ ữ li liệu đặt tên new_DF bao g ồm biế n Output: Input: De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t head(new_DF) head(new_DF) Output: price sqft_living15 floors condition sqft_above sqft_living sqft_living sqft_basement 221900 1340 1180 1180 1180 538000 1690 2170 2570 2570 400 180000 2720 770 770 770 604000 1360 1050 1960 1960 910 510000 1800 1680 1680 1680 1225000 4760 3890 5420 5420 1530 b) Kiểm tra dữ liệu bị khuyết tậ p tin (Các câu lênh tham tham khảo: is.na(), which(), ếu có dữ liệu bị khuyết, đề xuất phương pháp thay cho dữ liệu bapply()) ị khuyếtNnày Input: apply(is.na(new_DF), 2, which) # Kiể m tra xuấ t vị trí dịng chứ a giá tr ị khuyế t biế n ne new w_DF _D F Output: Input: colSums(is.na(new_DF)) colSums(is.na(new_DF)) De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t # Thố ng ng kê số lượ ng ng giá tr ị khuyế t ne new w_D _DFF Output: price spft_living15 floors condition sqft_above sqft_living sqft_basement 20 0 0 0 Input: colMeans(is.na(new_DF)) # Tính t ỉỉ l liệu l ệ giá tr ị khuyế t d ữ ữ li Output: Dựa k ết quả thu đượ c, c, ta nhận thấy có giá tr ị khuyết biến p prr i ce Vậy nên ta cần xvào quan giá tr sát t xuấếtt.là thay thế giá tr ị trung ử lý ị khuy Phương xửứ lía bình củaếbi ến price vpháp ị trí ch giá tr ịđề khuy Input: Input: new_DF$price[is.na(new_DF$price)]=mean(new_DF$price,na.rm=T) # Thay thế các các quan sát chứ a giá tr ị khuyế t t ại biế n p ng giá tr ị trung bình prr i ce bằ ng Output De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t Làm rõ dữ dữ liệ liệu a) Chuyển đi biến price, sqft_living15, sqft_above, sqft_living lần lượ t thành log(price), log(sqft_living15), log(sqft_above), và log(sqft_living). Từ đây sự tính n đượ c hiểu là đã qua đi biến dạng log toán vớ i biến tr n Input: new_DF[,c(1,2,5,6)]=log(new_DF[,c(1,2,5,6)]) #Chuyển đố i biế n pr pr ice thành log(price), sqft_living15 thành log(sqft_living15), sqft sq ft_a _ab bove thành log( log(sq sqft_a ft_ab bove ve)) , sqft_li sqft_living ving thành log(sqft_living). Output: De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t b) Đối vớ i biến lin tc, tính giá tr ị thống k mơ tả bao gồm: trung bình, trung vị, độ lệch chun, giá tr ị lớ n và giá tr ị nhỏ nhất Xuất k ết quả dướ i dạng bảng (Hàm gợ i ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t Input: mean=apply(new_DF[,c(1,2,5,6)],2,mean) # Tính trung bình c biế n liên t c ( pr i ce ce,, sqft_livi sqft_living ng15, 15, sq sqft_a ft_ab bov ove e, sqft_li sqft_livi ving ng)) và l ư ư u vào biế n có t en l à mean median=apply(new_DF[,c(1,2,5,6)],2,median) # Tính trung vị của biế n liên t c ( pr i ce ce,, sqft_livi sqft_living ng15, 15, sqft_ab sqft_abo ove, ve, sq sqft_li ft_living ving)) và l ư ư u vào biế n có tên me medi dian an sd=apply(new_DF[,c(1,2,5,6)],2,sd) # T nh nh đ l ệch chuâ n biế n liên t c ( pr i ce ce,, sq sqft_li ft_livi ving ng15, 15, sq sqft_ab ft_abo ove, ve, sqft_livi sqft_living ng)) và l ư ư u vào biế n có tên là sd max=apply(new_DF[,c(1,2,5,6)],2,max) # Tính giá tr ị l ớ ớ n nhấ t biế n liên t c ( pr i ce ce,, sqft_livi sqft_living15, ng15, sq sqft_ab ft_abo ove, ve, sqft_livi sqft_living ng)) và l ư ư u vào biế n có tên max min=apply(new_DF[,c(1,2,5,6)],2,min) # Tính giá tr ị nh nhấ t biế n liên t c ( pr i ce ce,, sq sqft_li ft_living ving15, 15, sq sqft_ab ft_abo ove, ve, ư u vào biế n có tên min sqft_liv sqft _living ing)) và l ư descriptive=data.frame(mean,median,sd,max,min) descriptive # Tạo bảng thể hiện giá tr ị thống kê mô tả cho biến liên tc, lưu vào biến descriptive Output: c) Đối vớ i biến phân loại, lậ p bảng thống k số lượ ng ng cho chủng loại (Hàm gợ i ý: table()) Input De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t table(new_DF$floors) # T ạo bảng thố ng ng k e số l l ượ ng cho biế n flo ượ ng floo or s. table(new_DF$condition) # T ạo bảng thố ng ng k e số l l ượ ượ ng ng cho biế n conditon. Output: d) Hãy dng hàm hist() để v đồ thị phân phối biến price Input: hist(new_DF$price,xlab="price",main="Histogram ",main="Histogram of price",labels=T) hist(new_DF$price,xlab="price # V biểu đồ historgram cho biến price. Output: 10 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t 34 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t 35 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t 36 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t 37 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t 38 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t 39 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t 40 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t Nhn xét: Dựa trn đồ thị phân tán, ta nhận thấy RMSD khơng có mối quan hệ tuyến tính với biến biến F1, F2, F3, F4, F5, F6, F7, F8, F9 Để xác định ta xây dựng mơ hình hồi quy tuyến tính. 4. Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) models) Chúng ta muốn biết có yếu tố tác động đến kích thước phần cặn. a) Xét m hnh hi quy tuyên tnh bao gm biên RSMD l mọt biên phụ thuọc v tt c cc biên li l biên đọc lập Hy dùng lẹnh lm( ) để thực thi m hnh hi quy tuyên tnh bọi. - Input: protein |t|)): Pr(>|t|) > mức ý nghĩa => Chưa bác bỏ giả thiết H 0, tức hệ số hồi quy tương ứng với biến khơng có ý nghĩa thống k, ta s loại biến khỏi mơ hình. Dựa vào kết quả, ta có: Pr(>|t|) hệ số ứng với biến nhỏ mức ý nghĩa 5% nn ta bác bỏ giả thiết H 0, chấp nhận giả thiết H1 Do hệ số ứng với cá c biến có ý nghĩa thống k Vì vậy, ta khơng cần loại bỏ biến khỏi mơ hình. c) Từ m hnh hi quy tuyên tnh trn ta có kêt luận g tc đọng cc yêu tô tnh cht vật lý đên kch thưc phần cặn? Để đánh giá tác động biến ln kích thước phần cặn, ta quan tâm hệ số hồi quy P-value tương ứng Ta thấy P -value tương ứng với F1, F2, F3, F4, F5, F6, F7, F8, F9 < 2.10-6, điều nói ln ảnh hưởng biến có ý nghĩa lớn ln biến kích thước phần cặn RMSD Biến F5 có ảnh hưởng lớn đến biến R RMSD MSD so với biến c òn lại 42 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t Mặt khác, hệ số hồi quy biến dự báo xem ảnh hưởng trung bình ln biến ph thuộc thuộc kích thước phần cặn tăng thm thm đơn vị biến dự báo đó, giả sử biến dự báo khác không đi. C thể hơn, hệ số hồi quy tương ứng với với F1 = 1,572.10-3 thì tương ứng với F1 tăng đơn vị Ao thì ta kỳ vọng kích thước phần cặn tăng 1,572.10 -3 Ao (giả sử biến dự báo cịn lại khơng đi) Tương tự với biến lại. d) Từ m hnh hi quy trn hy vẽ đ th biểu th sai sô hi quy v gi tr dự bo Nu ý nghĩa v nhận xét. - Input: plot (protein, which = 1) Giải thích: V đồ thị sai số hồi quy qu y sai số dự báo - Output: Nhn xét: Đồ thị trên v các giá tr ị dự báo giá tr ị thặng dư (sai số) tương ứng Dựa Nh vào đồ th ị ta thấy, đường màu đỏ trn đồ th ị đườ ng ng cong, tức mối quan hệ gi ữa biến dự báo X biến ph thuộc Y xem chưa tuyến tính, chưa thỏa mãn giả định tuyến tính dữ liệu Ngồi giá tr ị thặng dư (sai số) phân tán không xung quang đườ ng ng thẳng y=0 (ngoại tr ừ một số điểm ngoại lai), chứng tỏ phươ phươ ng ng sai sai số không số, vi phạm giả định mô hình hồi quy - Các giả định mơ hình hồi quy tuyến tính + Tuyến tính dữ liệu: mối quan hệ giữa biến dự báo X biến ph thuộc Y phải đượ c giả định tuyến tính 43 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t + Sai số phải có phân phối chun + Phương sai sai số là số + Các sai số phải độc lậ p vớ i Ta có thể v thêm biểu đồ để kiểm tra giả định mơ hình hồi quy: - Input: plot(protein) Giảải thích: v các đồ thị để kiểm tra giả định mơ hình hồi quy Gi - Output: Nhn xét: nhận xét hình 1, mối quan hệ của x y chưa đượ c xem tuyến tính Nh 44 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t Đồ thị 2: đồ thị kiểm tra giá tr ị về phân phối chun sai số Nếu điểm thặng dư nằm đườ ng ng thẳng điều kiện về phân phối chun đượ c thỏa mãn Ta nhận thấy giá tr ị thặng dư tậ p trung theo đườ ng ng thẳng, ở kho khoảng đầu cuối có vài giá tr ị lệch khỏi đườ ng ng thẳng Tuy nhin, không đáng kể, ta xem giả định phân phối chun sai số vẫn đáp ứng Đồ thị 3: v căn bậc giá tr ị thặng dư đượ c chun hóa bở i giá tr ị dự báo, báo, đượ c 45 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t dng để kiểm tra giả định thứ 3 (phương sai sai số là số- tương tự đò thị 1) Nếu đường màu đỏ trn đồ thị là đườ ng ng thẳng nằm ngang giá tr ị thặng dư phân tán quanh đườ ng ng thẳng giả định đượ c thỏa mãn Nếu đường màu đỏ có độ d ốc (hoặc cong) điểm thặng dư phân tán không khơng xung quanh đườ ng ng thẳng giả định thứ 3 bị vi phạm Dựa vào đồ thị ta thấy đường màu đỏ trn đồ thị đườ ng ng cong giá tr ị thặng dư không phân tán Đồ th ị cho ta thấy r ằng giả định tính đồng v ề phương phương sai bị vi phạm Đồ thị 4: cho phép xác định đượ c ảnh hưở ng ng cao, chúng có diện dữ liệu Những điểm ảnh hưở ng ng cao có thể là điểm outlines, điểm gây nhiễu gây ảnh hưở ng ng nhiều việc phân tích Nếu ta thấy đườ ng ng màu đỏ đứt nét (Cook’s distance) có số điểm vượt qua đườ ng ng khoảng cách này, nghĩa điểm có ảnh hưở ng ng cao Nếu khơng có điểm vượt qua nó, nghĩa khơng có điể m thực sự có ảnh hưở ng ng cao Dựa vào đồ th ị, ta thấy quan tr ắc thứ 36240, 23637, 41818 có th ể là điểm có ảnh hưở ng ng cao bộ dữ liệu Tuy nhin điểm chưa vượt qua đườ ng ng khoảng cách Cook Do điểm chưa thậ t sự ảnh hưởng cao, ta khơng cần loại bỏ chúng phân tích Dự báo báo (Predictions) 46 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t ừ mô ự bo kch thư c c ủa phần c ặn t i tthu a) T ừ mơ hìn hình h trê tr ên dùng lẹnh predict( ) để d ự huọc tnh sau: X1: F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9) X2: F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9) - Input: X1 = data.frame(F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9)) Giải thích: tạo thuộc tính X1 Giả - Input: predict_X1 = predict(protein, predict(protein, X1, interval = "confidence") predict_X1 Giải thích: dự báo Giả báo kích thướ c phần cặn thuộc tính X1 - Output: - Input: X2 = data.frame(F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9)) Giải thích: tạo thuộc tính X2 Giả predict_X2 = predict(protein, predict(protein, X2, interval = "confidence") predict_X2 Giải thích: dự báo Giả báo kích thướ c phần cặn thuộc tính X2 - Output: 47 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t
Ngày đăng: 24/12/2023, 11:05
Xem thêm: