1 TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINHBỘMÔNTOÁNỨNGDỤNG KHOAKỸTHUẬTHÓA HỌC oOo BÁO CÁO BÀI TẬP LỚNXÁC SUẤT THỐNG KÊĐỀTÀI 1 GVHD NGUYỄN KIỀUDUNG THỰC HIỆN NHÓM HH07SINHVIÊNTHỰCHIỆN 1) LêTrìnhK[.]
TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINHBỘMƠNTỐNỨNGDỤNG KHOAKỸTHUẬTHÓA HỌC ………………….oOo……………… BÁO CÁO BÀI TẬP LỚNXÁC SUẤT THỐNG KÊĐỀTÀI GVHD:NGUYỄN KIỀUDUNG THỰC HIỆN:NHĨM HH07SINHVIÊNTHỰCHIỆN 1) LêTrìnhKhánh Vân- 2010777-KhoaKTHH- L19 2) NguyễnKhánh Hà-2011131- KhoaKTHH- L19 3) TrầnNgọcHồng Anh- 2010130-Khoa KTHH-L07 4) NguyễnTấnTâmThy-2010683- KhoaKTHH-L10 5) NguyễnTuấn Hưng-2013394-KhoaKTHH-L12 TP HỒCHÍMINH, NĂM2021 MỤC LỤC TÓMTẮT LỜICẢMƠN ĐỀBÀI .6 CHƯƠNG1:CƠSỞLÝTHUYẾT I Phântíchhồiquy .8 Địnhnghĩa Bảnchất Ýnghĩa hồiquytuyếntính II Mơhìnhhồiquybội CHƯƠNG2:XỬ LÝSỐLIỆU 14 Đọcdữliệu(ImportData) 14 Làmsạchdữliệu(Data cleaning) 14 Làmrõdữliệu(DataVisualization) .16 a Chuyểnđổibiến .16 b Thốngkêmôtả .18 Xâydựngmơhìnhhồiquytuyếntính .23 Thựchiệndựbáochogiá nhàquậnKing 27 CHƯƠNG3:PHÂNTÍCHSỐLIỆU 29 Môtả dữliệu 29 Phântíchdữliệu 29 2.1 Đọcdữliệu 29 2.2 Chọnbiến 30 2.3 Làmsạchdữliệu 30 2.4 Làmrõdữliệu .31 2.5 Xâydựngcác mơhìnhhồiquytuyếntính .34 2.6 Dự đoán 37 TÀILIỆUTHAMKHẢO 38 TĨMTẮT Ở hoạt động 1, báo cáo trình bày việc áp dụng phương pháp phân tích hồiquy tuyến tính bội vào việc phân tích mẫu liệu tập tin "gia_nha.csv" chứathông tin giá bán thị trường (đơn vị đô la) 21613 nhà quậnKing nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Từ kết quảthu rút nhận xét tác động thuộc tính sựthay đổi giá bán thị trường Để thu kết phân tích, nhóm đãsử dụng hàm ngơn ngữ lập trình R vận dụng linh hoạt giảiquyết nhiệm vụ cụ thể đặt Kết trình bày dạng bảng sốliệu tính tốn đồ thị cung cấp nhìn trực quan khảo sát nhằm sosánh, đối chiếu ảnh hưởng điều kiện nhà (số tầng, diệntích ngơi nhà, khn viên, phong cảnh xung quanh, ) lên giá nhà bán thịtrường Trong báo cáo này, trước hết nhóm nêu sở lý thuyết tínhtốn giá trị thống kê mơ tả để có nhìn sơ lược, sau áp dụng cácphươngphápphântíchhồiquytuyếntínhbội Ở hoạt đơng 2, báo cáo trình bày việc áp dụng phương pháp phân tích hồiquy tuyến tính vào việc phân tích, làm rõ liệu mơ hình liệu yếutốảnhhưởngchấtlượngrượuvangđỏ Cụthể,bàibáocáogồmcó: Phần 1:Cơ sởlý thuyết Phần 2:Xử lý số liệu gồm: Tính tốn giá trị thống kê mơ tả giá nhà bán rathịtrường Phần 3:Phân tíchdữliệu:Phân tíchmẫudữliệuWinequality LỜICẢMƠN Xác suất thống kê mơn học đại cương có tầm quan trọng sinhviên nói chung sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng Do đó,việc dành cho môn học khối lượng thời gian định thực hành làđiều tất yếu để giúp sinh viên có sở vững kiến thức kỹ cầnthiết cho môn học chuyên ngành công việc sau Sự phát triểnvà đời tốn tin nói chung phần mềm R Studio, ngơn ngữ R nói riêngđã hỗ trợ nhiều trongq u t r ì n h h ọ c t ậ p v n g h i ê n c ứ u b ộ m ô n X c s u ấ t thống kê Việc phân tích xử lý số liệu rút ngắn có hiệu caohơn.V ì v ậ y m vi ệ c t ì m h i ể u R S t u d i o v ng ôn n g ữ R t r o n g v i ệ c t h ự c h n h môn học Xác suất thống kê quan trọngvà có tínhcấp thiết Ở bàitậplớnnày, nhóm thực nội dung: Ứng dụng hồi quy tuyến tính bội để xử lý vàphântíchdữliệu.Trongsuốtqtrìnhthựchiệnbàitập,nhómđãnhậnđượ crấtnhiềusự quantâm,ủnghộvàgiúpđỡtậntìnhcủathầycơvàbạnbè Ngồi ra, nhóm xin gửi lời tri ân chân thành đến cô Nguyễn KiềuDung – giảng viên giảng dạy môn Xác suất thống kê nhóm ngườihướng dẫn cho đề tài Nhờ hết lòng bảo mà nhóm hồn thành bàitậpđúngtiếnđộvà giảiquyế t tốtnhững vướngmắc gặpphải.Sựhướng d ẫn củacơđãlàkimchỉnamchomọihànhđộngcủanhómvàpháthuyđượctốiđamốiquanhệhỗtrợgiữacơvàtrịtrongmơi trườnggiáodục.Lờicuối,xinmộtlần gửi lời biết ơn sâu sắc đến cá nhân, thầy cô dành thời gianchỉ dẫn cho nhóm Đây niềm tin, động lực to lớn để nhóm có thểhồnthànhđềtàinày ĐỀBÀI Hoạtđộng1: Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) của21613ngôinhàởquậnKingnướcMỹtrongkhoảngthờigiantừtháng5/2014đến 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chấtlượng ngơi nhà Dữ liệu gốc cung cấp tại:https://www.kaggle.com/harlfoxem/housesalesprediction Cácbiếnchính trongbộdữ liệu: • price:Giánhàđược bánra • floors:Sốtầngcủangơinhàđượcphânloạitừ 1-3.5 • condition:Điềukiệnkiếntrúccủangơinhàtừ 1−5,1:rấttệvà5:rấttốt • view: Đánhgiácảnhquanxung quanhnhàtheo mứcđộtừthấpđếncao: 0-4 • sqft_above:Diệntích ngơinhà • sqft_living:Diệntíchkhn viênnhà • sqft_basement: Diện tích tầng hầm.Cácbướcthực hiện: Đọc dữliệu(Importdata): GN.csv (Đổitêntậptin gia_nha thànhGN) Làmsạchdữ liệu(Datacleaning):NA(dữliệukhuyết) Làm rõdữliệu: (Datavisualization) (a) Chuyểnđổibiến(nếucầnthiết) (b) Thốngkêmơtả:dùngthống kêmẫuvàdùngđồthị Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnhhưởngđếngiá nhà ởquậnKing Thực dự báo cho giá nhà quận King.Hoạtđộng2: • Sinh viên tự tìm liệu thuộc chun ngành Khuyếnkhích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dựán, chunngànhcủa mình.Ngồirasinhviêncóthểtựtìmkiếmdữ liệu từ nguồn khác tham khảo kho liệu cung cấp tậptin"kho_du_lieu_BTL_xstk.xlsx" • Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phântíchdữliệucủamình,nhưngphảiđảmbảo2phần:Làmrõdữliệu(datavisualization)và mơhìnhdữliệu(modelfitting) CHƯƠNG1:CƠSỞLÝTHUYẾT I Phântíchhồiquy: Địnhnghĩa: Hồi qui (regression) phương pháp thống kê toán học để ước lượng kiểmđịnh quan hệ biến ngẫu nhiên, từ đưa dự báo.Cácquanhệ ởđâyđượcviếtdướidạngcác hàmsốhayphươngtrình Ý tưởng chung sau: giả sử ta có biến ngẫu nhiên Y , mà ta muốn ướclượngxấpxỉd i d n g m ộ t h m s ố F ( X 1, , XS)c ủ a c c b i ế n n g ẫ u n h i ê n X1, ,XSkhác( c o n t r o l v a r i a b l e s ) , h a y c ò n g ọ i l b i ế n t ự d o , t r o n g k h i Y đ ợ c gọil b i ến p h ụ t h u ộ c , tức l k h it a có c ác g i t r ị củ a X 1, ,XS,t h ì t a m u ố n t đóướclượngđượcgiátrịcủaY.HàmsốFnàycóthểphụthuộcvàomột sốthamsốβ=(β 1, ,βS)nàođó.TacóthểviếtYnhưsau: Y=F( X 1, ,XS) +ϵ đóϵlà phần sai số (cũng biến ngẫu nhiên).Ta muốn chọn hàm Fmột cách thích hợp có thể, tham sốβ, cho sai sốϵl n h ỏ n h ấ t cóthể Đạilượng (| |2 đượcgọilàsaisốchuẩn(standarderror)củamơhìnhhồi qui.Mơhìnhnàomàcósaisốchuẩncàngthấpthìđượccoilàcàngchínhxác Bảnchất: *BảnchấtcủabiếnphụthuộcY Y nói chung giả định biến ngẫu nhiên, đo lườngbằngmộttrongbốnthướcđosauđây:thangđotỷlệ,thangđokhoảng,th angđothứbậc,và thangđodanhnghĩa Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có tính chất: (1) tỷ số haibiến, (2) khoảng cách hai biến, (3) xếp hạng biến Với thang đo tỷlệ, ví dụ Y có hai giá trị, 1và2thì tỷ số1/2và khoảng cách (2-1) làcácđạilượngcóýnghĩa;và cóthểsosánhhoặc xếpthứ tự Thang đo khoảng (interval scale): Thang đo khoảng khơng thỏa mãn tính chấtđầutiêncủa cácbiếncóthangđotỷlệ Thang đo thứ bậc (ordinal scale): Các biến thỏa mãn tính chất xếp hạng củathangđotỷlệ,chứviệclậptỷsốhaytínhkhoảngcáchgiữahaigiátrịkhơngcóýnghĩa Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm khơng thỏamãn tính chất biến theo thang đo tỷ lệ (như giới tính, tơngiáo, ) * BảnchấtcủabiễnngẫunhiênX Cácbiếnngẫunhiêncóthể đượcđo theobấtkỳ mộttrongbốnthangđovừan trên, nhiều ứng dụng thực tế biến giải thích đotheothangđotỷsốvàthangđokhoảng * Bảnchấtcủasaisốngẫunhiên(nhiễu) Sai số ngẫu nhiên đại diện cho tất biến khơng đưa vào mơ hình vìnhữnglýdonhưkhơngcósẵndữliệu,cáclỗiđolườngtrongdữliệu.Vàchodù nguồn tạo nhiễulà nữa, người ta giả định ảnh hưởng trungi nữa, người ta giả nữa, người ta giả định ảnh hưởng trungịnh ảnh hưởng trung bìnhcủa saisốngẫunhiênlênYlà khơngđángkể Ta giả định hạng nhiễu có phân phối chuẩn với trung bình vàphươngsaikhôngđổilà2 :~N(0;2) * Bảnchấtcủathamsốhồiquy Thams ố h i q u y ( t ổ n g t h ể ) , β S,l n h ữ n g c o n s ố c ố đ ị n h ( f i x e d n u m b e r s ) v khôngngẫunhiên(not random), mặc dùmình khơngthể biết giátrị t hựccủacácBslà baonhiêu Ýnghĩa củahồiquytuyếntính: Thuật ngữ tuyến tính (linear) mơ hình hồi quy tuyến tính nghĩa tuyếntính hệ số hồi quy (linearity in the regression coefficients),βS, khơngphảituyếntínhởcác biếnYvàX II Mơhìnhhồiquybội: Địnhnghĩa: Mơ hình hồi quy bội mơ hình hồi quy đó: biến phụ thuộc Y phụ thuộcvào(k–1)biếnđộclậpX2,X3,Xkkcódạngnhưsau: Hàmhồiquy tổngthể:E(Y|X2,X3,Xk)=1+2X2+3X3+…+kXk Mơhìnhhồiquytổngthể:Y=1+2X 2+3X 3+…+kXk+ Trong đó: làsaisốngẫu nhiên 1làhệsốtựdo(hệsố chặn),bằnggiátrị trungbìnhcủaYkhiXj=0 jlà hệ sốhồiquyriêng(hayhệsốgóc),t h ể h i ệ n ả n h h n g c ủ a riêng từngbiếnđộclậpXjlên trung bình Y biến khác giữ khơng đổi Cụ thể, Xjtăng giảm đơn vị, điều kiện biến độc lập khác không đổi, Y trung bình thay đổijđơn vị Có thể nhận thấy ba khả xảy cáchệsốgóc: Hệs ố j> : k h i đ ó m ố i q u a n h ệ g i ữ a Y v X jl t h u ậ n c h i ề u , nghĩa Xjtăng (hoặc giảm) điều kiện biến độc lập khác khơngđổithìYcũngsẽ tăng(hoặc giảm) Hệ số j < 0: mối quan hệ Y X jlà ngược chiều,nghĩa Xjtăng (hoặc giảm) điều kiện biến độc lập khác khơngđổithìYsẽgiảm(hoặctăng) Hệ sốj= 0: cho Y Xjkhơng có tương quanvới nhau, cụ thể Y khơng phụ thuộc vào X jhay Xjk h ô n g t h ự c s ự ảnhhưởngtớiY Dựa vào kết ước lượng với mẫu cụ thể, ta đánh giá mốiquan hệ biến phụ thuộc biến độc lập mơ hình cách tươngđối Dù mơ hình có nhiều biến độc lập tồn yếu tố tác động đếnbiến phụ thuộc không đưa vào mơ hình nhiều lý (khơng có số liệuhoặckhơngmuốnđưavào).Dođótrongmơhìnhvẫntồntạisaisốngẫunhiên nữa, người ta giả định ảnh hưởng trungại diện cho yếu tố khác biến X j(j = 2,3,,k) có tác động đếnYnhưngkhơngđưavàomơhìnhnhưlàbiếnsố Các giảthiếtcủamơhình hồi quybội Giả thiết1:Việcướclượngđượcdựatrêncơsởmẫungẫu nhiên Giả thiết2:Kỳvọngcủasaisốngẫunhiêntại mỗigiá trị(X2i,X3i,,Xki)bằng0: E(|X2i,X3i,…,Xki)=0 Giả thiết 3:Phương sai sai số ngẫu nhiên giá trị (X 2i,X3i,…, Xki) đềubằngnhau Từ giả thiết ta nói sai số ngẫu nhiên (u) tuân theo phânphốichuẩn Giả thiết 4:Giữa biến độc lập Xjkhơng có quan hệ cộng tuyến hồn hảo,nghĩalàkhơngtồntạihằngsốλ2,λ3,,λkk h n g đồngthờibằng0saocho: λ2X2+λ3X3+…+λkXk= Có thểnhận thấy nếugiữacácbiếnXj(j =2,3,,k) có quanh ệ c ộ n g tuyến hồn hảo có biến suy từ cácbiếncịnlại.Dođó,giảthiết4đượcđưa rađểloạitrừ tìnhhuốngnày Phươngp h p c l ợ n g m ô h ì n h h i q u y b ộ i – P h n g p h p b ì n h phươngnhỏnhất(OLS) Sau xây dựng tìm hiểu ý nghĩa hệ số hồi quy mơ hình, vấnđề ta quan tâm để có ước lượng đáng tin cậy chocáchệsốjnày.Cũngnhưvớimơhìnhhồiquyhaibiến,tasẽsửdụngphương ... Cụthể,bàibáocáogồmcó: Phần 1:Cơ sởlý thuyết Phần 2:Xử lý số liệu gồm: Tính tốn giá trị thống kê mô tả giá nhà bán rathịtrường Phần 3:Phân tíchdữliệu:Phân tíchmẫudữliệuWinequality LỜICẢMƠN Xác suất. .. thịtrường Trong báo cáo này, trước hết nhóm nêu sở lý thuyết tínhtốn giá trị thống kê mơ tả để có nhìn sơ lược, sau áp dụng cácphươngphápphântíchhồiquytuyếntínhbội Ở hoạt đơng 2, báo cáo trình bày... u ấ t thống kê Việc phân tích xử lý số liệu rút ngắn có hiệu caohơn.V ì v ậ y m vi ệ c t ì m h i ể u R S t u d i o v ng ôn n g ữ R t r o n g v i ệ c t h ự c h n h môn học Xác suất thống kê quan