1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề 1 tậ p tin gia nha in gia nha csv ch csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở quân king nướ c mỹ t

48 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đề 1: Tập tin gia_nha.csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở quân King nước Mỹ
Tác giả Vũ Mai Hoài Nam, Nguyễn Thái Uyên Vy, Trần Nguyễn Diễm Thi, Nguyễn Ngọc Hải, Hà Phạm Thanh Thảo Nguyên
Người hướng dẫn GVHD: Nguyễn Đình Huy
Trường học Đại học Bách Khoa
Chuyên ngành Xác suất thống kê
Thể loại báo cáo bài tập lớn
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 48
Dung lượng 1,5 MB

Nội dung

  ĐẠI HỌ ĐẠI Ồ CHÍ MINH HỌC QUỐ QUỐC GIA THÀNH PHỐ PHỐ H  HỒ TRƯỜNG ĐẠI ĐẠI HỌ HỌC BÁCH KHOA   BÁO CÁO BÀI TẬ TẬP LỚ  LỚ N MÔN XÁC XUẤ XUẤT THỐ THỐNG KÊ HỌ HỌC KÌ 211 GVHD: Nguyễn Đình Huy  Nhóm: L13  Nhóm sinh viên thực hiện: STT HỌ VÀ TÊN HỌ MSSV LỚ P Vũ Mai Hoài Nam  Nam  1914260  L13 Nguyễn Thái Uyên Vy  1912478  L13 Tr ần Nguyễn Diễm Thi 1915266 L13 Nguyễn Ngọc Hải Hà  1913211  L13 Phạm Thanh Thảo Nguyên  1914396  L13 NGÀNH KÝ TÊN Thành phố  H   H ồ Chí Minh –  2021  2021   MỤC LỤ LỤC A.  PHẦ N CHUNG BÀI TẬP SỐ 1 Đọc dữ liệu (Import data): Làm dữ liệu (Data cleaning): 3 Làm rõ dữ liệu Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): .19 Dự báo (Predictions) .26 B PHẦ N RIÊNG LÝ DO CHỌN ĐỀ TÀI 28 ĐỀ BÀI 28 XỬ  LÝ  LÝ SỐ LIỆU 29 Đọc dữ liệu 29 Làm dữ liệu (Data cleaning) 30 Làm r  dữ liệu (Data visualization): 30 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 41 Dự báo (Predictions) 46 K ết luận: 48 A.  PHẦ N CHUNG Đề 1: Tậ p tin tin "gia_nha.csv" "gia_nha.csv" chứa thông tin về giá bán thị trường (đơn vị đô la) 21613 nhà ở  quân King nướ c M ỹ trong khoảng thờ i gian từ  tháng 5/2014 đến 5/2015 Bên   cạnh giá nhà, dữ liệu bao gồm thuộc tính mơ tả chất lượ ng ng ngơi nhà Dữ liệu gốc đượ c cung cấ p tại: https://www.kaggle.com/harlfoxem/housesalespredicti https://www.kaggle.com/harlfoxem/housesalesprediction on Các biến bộ dữ liệu:     price: Giá nhà đượ c bán price: floors: Số tầng nhà đượ c phân loại từ 1-3.5 condition:: Điều kiện kiến trúc nhà từ 1 − 5, 1: r ất tệ và 5: r ất tốt condition view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4 view: sqft_above: Diện tích ngơi nhà sqft_living: Diện tích khn viên nhà sqft_basement: Diện tích tầng hầm Đọc Đọc dữ  dữ   liệ liệu (Import data):  Dùng lệnh read.csv() để đọc tệ p tin           Input: house_price = read.csv("C:/Users/Asus/Desktop/XSTK-211/gia_nha.csv") # Đọc t ệp ệp tin lưu dữ  li  liệu vớ i tên house_price Output Làm sạ dữ  dữ  liệ  liệu (Data cleaning): a) Hãy trích dữ  liệu đặt tên new_DF  chỉ bao gồm biến mà ta quan tâm trình bày phầ n giớ i thiệu dữ liệu Từ câu hỏi về sau, yêu cầu xử lý dựa tậ p dữ liệu new_DF này Input: names(house_price) # Liệt kê t ấ ấ  t cả các biế n có house_price  De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   Output: [1] "X.2" "X.1" "X" [4] "id" "date" "price" [7] "bedrooms" "bathrooms" "sqft_living" [10] "sqft_lot" "floors" "waterfront" [13] "view" "condition" "grade" [16] "sqft_above" "sqft_basement" "yr_built" [19] "yr_renovated" "zipcode" "lat" [22] "long" "sqft_living15" "sqft_lot15" Input: new_DF = data.frame(house_pric data.frame(house_price[,c(6,23,11,14,16,9,17)]) e[,c(6,23,11,14,16,9,17)]) # Trích d ữ  ữ  li liệu đặt tên new_DF bao g ồm biế n Output: Input: De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   head(new_DF) head(new_DF)   Output:  price sqft_living15 floors condition sqft_above sqft_living sqft_living sqft_basement 221900 1340 1180 1180 1180 538000 1690 2170 2570 2570 400 180000 2720 770 770 770 604000 1360 1050 1960 1960 910 510000 1800 1680 1680 1680 1225000 4760 3890 5420 5420 1530  b) Kiểm tra dữ liệu bị khuyết tậ p tin (Các câu lênh tham tham khảo: is.na(), which(), ếu có dữ liệu bị khuyết, đề xuất phương pháp thay  cho dữ liệu  bapply()) ị khuyếtNnày Input: apply(is.na(new_DF), 2, which) # Kiể m tra xuấ t vị trí dịng chứ a giá tr ị khuyế t biế n ne new w_DF _D F Output: Input: colSums(is.na(new_DF)) colSums(is.na(new_DF))   De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   # Thố ng ng kê số  lượ ng ng giá tr ị khuyế t ne new w_D _DFF Output:  price spft_living15 floors condition sqft_above sqft_living sqft_basement 20 0 0 0 Input: colMeans(is.na(new_DF)) # Tính t ỉỉ   l  liệu  l ệ giá tr ị khuyế t d ữ  ữ  li Output: Dựa k ết quả thu đượ c, c, ta nhận thấy có giá tr ị khuyết biến p  prr i ce Vậy nên ta cần xvào quan giá tr sát t  xuấếtt.là thay thế giá tr ị trung ử lý ị khuy Phương xửứ lía  bình củaếbi ến price vpháp ị trí ch giá tr ịđề  khuy Input:   Input: new_DF$price[is.na(new_DF$price)]=mean(new_DF$price,na.rm=T) # Thay thế  các  các quan sát chứ a giá tr ị khuyế t t ại biế n p ng giá tr ị trung bình  prr i ce bằ ng Output De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   Làm rõ dữ  dữ  liệ  liệu a) Chuyển đi biến price, sqft_living15, sqft_above, sqft_living lần lượ t thành log(price), log(sqft_living15), log(sqft_above), và log(sqft_living). Từ đây sự tính n đượ c hiểu là đã qua đi biến dạng log toán vớ i biến tr n Input: new_DF[,c(1,2,5,6)]=log(new_DF[,c(1,2,5,6)]) #Chuyển đố i biế n pr  pr ice thành log(price), sqft_living15 thành log(sqft_living15),  sqft  sq ft_a _ab bove thành log( log(sq sqft_a ft_ab bove ve)) , sqft_li sqft_living ving  thành log(sqft_living).  Output: De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t    b) Đối vớ i biến lin tc, tính giá tr ị thống k  mơ tả bao gồm: trung bình, trung vị, độ lệch chun, giá tr ị lớ n và giá tr ị nhỏ nhất Xuất k ết quả dướ i dạng bảng (Hàm gợ i ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   Input: mean=apply(new_DF[,c(1,2,5,6)],2,mean) # Tính trung bình c biế n liên t c ( pr i ce ce,, sqft_livi sqft_living ng15, 15, sq sqft_a ft_ab bov ove e, sqft_li sqft_livi ving ng))  và  l ư  ư u vào biế n có t en l à mean  median=apply(new_DF[,c(1,2,5,6)],2,median) # Tính trung vị của biế n liên t c ( pr i ce ce,, sqft_livi sqft_living ng15, 15, sqft_ab sqft_abo ove, ve, sq sqft_li ft_living ving))  và l ư ư  u vào biế n có tên me medi dian an  sd=apply(new_DF[,c(1,2,5,6)],2,sd) # T nh nh đ l ệch chuâ n biế n liên t c ( pr i ce ce,, sq sqft_li ft_livi ving ng15, 15, sq sqft_ab ft_abo ove, ve, sqft_livi sqft_living ng))   và l ư  ư u vào biế n có tên là sd   max=apply(new_DF[,c(1,2,5,6)],2,max) # Tính giá tr ị l ớ  ớ n nhấ t biế n liên t c ( pr i ce ce,, sqft_livi sqft_living15, ng15, sq sqft_ab ft_abo ove, ve, sqft_livi sqft_living ng))   và l ư  ư u vào biế n có tên max   min=apply(new_DF[,c(1,2,5,6)],2,min) # Tính giá tr ị nh nhấ t biế n liên t c ( pr i ce ce,, sq sqft_li ft_living ving15, 15, sq sqft_ab ft_abo ove, ve, ư u vào biế n có tên min   sqft_liv  sqft _living ing))  và l ư  descriptive=data.frame(mean,median,sd,max,min) descriptive # Tạo bảng thể hiện giá tr ị thống kê mô tả cho biến liên tc, lưu vào biến descriptive Output: c) Đối vớ i biến phân loại, lậ p bảng thống k  số lượ ng ng cho chủng loại (Hàm gợ i ý: table()) Input De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   table(new_DF$floors) # T ạo bảng thố ng ng k e số   l  l ượ  ng cho biế n flo ượ ng  floo or s.  table(new_DF$condition) # T ạo bảng thố ng ng k e số   l  l ượ  ượ ng ng cho biế n conditon.  Output: d) Hãy dng hàm hist() để v đồ thị phân phối biến price Input: hist(new_DF$price,xlab="price",main="Histogram ",main="Histogram of price",labels=T) hist(new_DF$price,xlab="price # V biểu đồ historgram cho biến price.  Output: 10 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   34 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   35 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   36 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   37 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   38 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   39 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   40 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   Nhn xét: Dựa trn đồ thị phân tán, ta nhận thấy RMSD  khơng có mối quan hệ tuyến tính với   biến biến  F1, F2, F3, F4, F5, F6, F7, F8, F9 Để xác định ta xây dựng mơ hình hồi quy tuyến tính.  4.  Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models)  models)   Chúng ta muốn biết có yếu tố tác động đến kích thước phần cặn.  a)  Xét m hnh hi quy tuyên tnh bao gm biên RSMD l mọt biên phụ thuọc v tt c cc biên li l biên đọc lập Hy dùng lẹnh lm( ) để thực thi m hnh hi quy tuyên tnh bọi.  - Input:  protein |t|)):  Pr(>|t|) > mức ý nghĩa   => Chưa bác bỏ giả thiết H 0, tức hệ số hồi quy tương ứng với biến khơng có ý nghĩa thống k, ta s loại biến khỏi mơ hình.  Dựa vào kết quả, ta có: Pr(>|t|) hệ số ứng với biến nhỏ mức ý nghĩa 5% nn ta bác bỏ giả thiết H 0, chấp nhận giả thiết H1 Do hệ số ứng với cá c biến có ý nghĩa thống k Vì vậy, ta khơng cần loại bỏ biến khỏi mơ hình.  c) Từ m hnh hi quy tuyên tnh trn ta có kêt luận g tc đọng cc yêu tô tnh cht vật lý đên kch thưc phần cặn?   Để đánh giá tác động biến ln kích thước phần cặn, ta quan tâm hệ số hồi quy P-value tương ứng Ta thấy P -value tương ứng với F1, F2, F3, F4, F5, F6, F7, F8, F9 < 2.10-6, điều nói ln ảnh hưởng biến có ý nghĩa lớn ln  biến kích thước phần cặn RMSD Biến F5 có ảnh hưởng lớn đến biến R RMSD MSD so với biến c òn lại 42 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   Mặt khác, hệ số hồi quy biến dự báo xem ảnh hưởng trung  bình ln biến ph thuộc thuộc kích thước phần cặn tăng thm thm đơn vị biến dự báo đó, giả sử biến dự báo khác không đi.  C thể hơn, hệ số hồi quy tương ứng với với F1 = 1,572.10-3 thì tương ứng với F1 tăng đơn vị Ao thì ta kỳ vọng kích thước phần cặn tăng 1,572.10 -3 Ao (giả sử  biến dự báo cịn lại khơng đi) Tương tự với biến lại.  d) Từ m hnh hi quy trn hy vẽ đ th biểu th sai sô hi quy v gi tr dự bo Nu ý nghĩa v nhận xét.  - Input:  plot (protein, which = 1) Giải thích: V đồ thị sai số hồi quy qu y sai số dự báo   - Output: Nhn xét: Đồ thị trên v các giá tr ị dự báo giá tr ị thặng dư (sai số) tương ứng Dựa Nh vào đồ th ị ta thấy, đường màu đỏ  trn đồ th ị  đườ ng ng cong, tức mối quan hệ gi ữa  biến dự báo X biến ph thuộc Y xem chưa tuyến tính, chưa thỏa mãn giả định tuyến tính dữ liệu  Ngồi giá tr ị  thặng dư (sai số) phân tán không xung quang đườ ng ng thẳng y=0 (ngoại tr ừ một số điểm ngoại lai), chứng tỏ phươ   phươ ng ng sai sai số không số, vi  phạm giả định mô hình hồi quy -  Các giả định mơ hình hồi quy tuyến tính + Tuyến tính dữ liệu: mối quan hệ giữa biến dự báo X biến ph thuộc Y phải đượ c giả định tuyến tính 43 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   + Sai số phải có phân phối chun + Phương sai sai số là số + Các sai số phải độc lậ p vớ i Ta có thể v thêm biểu đồ để kiểm tra giả định mơ hình hồi quy: - Input:  plot(protein) Giảải thích: v các đồ thị để kiểm tra giả định mơ hình hồi quy Gi - Output: Nhn xét: nhận xét hình 1, mối quan hệ của x y chưa đượ c xem tuyến tính Nh 44 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   Đồ thị 2: đồ thị kiểm tra giá tr ị về phân phối chun sai số Nếu điểm thặng dư nằm đườ ng ng thẳng điều kiện về phân phối chun đượ c thỏa mãn Ta nhận thấy giá tr ị thặng dư tậ p trung theo đườ ng ng thẳng, ở  kho  khoảng đầu cuối có vài giá tr ị  lệch khỏi đườ ng ng thẳng Tuy nhin, không đáng kể, ta xem giả   định  phân phối chun sai số vẫn đáp ứng Đồ thị 3: v căn bậc giá tr ị thặng dư đượ c chun hóa bở i giá tr ị dự báo,  báo, đượ c 45 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   dng để kiểm tra giả định thứ 3 (phương sai sai số là số- tương tự đò thị 1)  Nếu đường màu đỏ trn đồ thị là đườ ng ng thẳng nằm ngang giá tr ị thặng dư phân tán quanh đườ ng ng thẳng giả  định đượ c thỏa mãn Nếu đường màu đỏ  có độ d ốc (hoặc cong) điểm thặng dư phân tán không khơng xung quanh đườ ng ng thẳng giả định thứ 3 bị vi phạm Dựa vào đồ  thị ta thấy đường màu đỏ  trn đồ  thị  đườ ng ng cong giá tr ị  thặng dư không phân tán Đồ th ị cho ta thấy r ằng giả  định tính đồng v ề  phương phương sai bị vi  phạm Đồ thị 4: cho phép xác định đượ c ảnh hưở ng ng cao, chúng có diện dữ  liệu Những điểm ảnh hưở ng ng cao có thể là điểm outlines, điểm gây nhiễu gây ảnh hưở ng ng nhiều việc phân tích Nếu ta thấy đườ ng ng màu đỏ  đứt nét (Cook’s distance) có số điểm vượt qua đườ ng ng khoảng cách này, nghĩa điểm có ảnh hưở ng ng cao Nếu khơng có điểm vượt qua nó, nghĩa khơng có điể m thực sự có ảnh hưở ng ng cao Dựa vào đồ th ị, ta thấy quan tr ắc thứ 36240, 23637, 41818 có th ể là điểm có ảnh hưở ng ng cao bộ dữ liệu Tuy nhin điểm chưa vượt qua đườ ng ng khoảng cách Cook Do điểm chưa thậ t sự  ảnh hưởng cao, ta khơng cần loại bỏ chúng  phân tích   Dự  báo  báo (Predictions) 46 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t   ừ   mô ự  bo kch thư c c ủa phần c ặn t i tthu a)  T ừ mơ hìn hình h trê tr ên dùng lẹnh predict( ) để  d ự huọc tnh sau:  X1: F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9) X2: F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9) - Input: X1 = data.frame(F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9)) Giải thích: tạo thuộc tính X1 Giả - Input:  predict_X1 = predict(protein, predict(protein, X1, interval = "confidence")  predict_X1 Giải thích: dự báo Giả  báo kích thướ c phần cặn thuộc tính X1 - Output: - Input: X2 = data.frame(F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9)) Giải thích: tạo thuộc tính X2 Giả  predict_X2 = predict(protein, predict(protein, X2, interval = "confidence")  predict_X2 Giải thích: dự báo Giả  báo kích thướ c phần cặn thuộc tính X2 - Output: 47 De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t De.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.tDe.1.ta.p.tin.gia.nha.in.gia.nha.csv.ch.csv.chua.thong.tin.ve.gia.ban.ra.thi.truong.(don.vi.do.la).cua.21613.ngoi.nha.o.quan.king.nuo.c.my.t

Ngày đăng: 24/12/2023, 11:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN