1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài phân tích dữ liệu về Đặc trưng cơ lý của Đất bùn sét ở cần thơ

49 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Về Đặc Trưng Cơ Lý Của Đất Bùn Sét Ở Cần Thơ
Tác giả Chiêm Hồng Huấn, Võ Thái Bảo, Cao Phùng Bảo Phúc, Nguyễn Đình Văn
Người hướng dẫn TS. Nguyễn Tiến Dũng
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Kỹ thuật Xây dựng
Thể loại Báo cáo bài tập lớn
Năm xuất bản 211
Thành phố Cần Thơ
Định dạng
Số trang 49
Dung lượng 4,27 MB

Nội dung

Các gi thuy ả ết cho phương pháp bình phương cực tiểu cho mô hình hồi quy tuyến tính bội: .... Phương pháp thường được sử dụng là phương pháp bình phương cực tiểu OLS Ordinary Least Squ

Trang 1

1

KHOA KĨ THUẬT XÂY DỰNG

BÁO CÁO BÀI TẬP LỚN

1 Chiêm H ng Hu n ồ ấ 2013266 L18 Kĩ thuật Xây dựng

2 Võ Thái B o ả 2012677 L18 Kĩ thuật Xây dựng

3 Cao Phùng B o Phúc ả 2014153 L18 Kĩ thuật Xây dựng

4 Nguyễn Đình Văn 2015022 L18 Kĩ thuật Xây dựng

Trang 2

2

MỤC LỤC

Danh m c hình ụ ảnh: 3

PHẦN 1: LÝ THUY T V CÁC THÔNG S Ế Ề Ố ĐỊA KĨ THUẬT 4

PHẦN 2: CƠ SỞ LÝ THUY T TH NG KÊẾ Ố 5

2.1 H i quy: ồ 5

2.1.1 Mô hình h i quy tuy n tính b ồ ế ội: 5

2.1.2 Ước lượng cho các tham s c a mô hình h i quy tuy n tính b ố ủ ồ ế ội: 6

2.1.3 Các gi thuy ả ết cho phương pháp bình phương cực tiểu cho mô hình hồi quy tuyến tính bội: 6

2.1.4 Độ phù hợp c a mô hình h i quy: ủ ồ 7

2.2 Kiểm định: 8

2.2.1 Ki ểm đị nh phân ph i chu ố ẩn: 8

2.2.2 Phân tích phương sai một nhân tố 11

2.2.3 Ki m tra các gi ể ả đị nh c ủa phân tích phương sai: 15

2.2.4 Phân tích sâu ANOVA 16

PHẦN 3: X LÝ D Ử Ữ LIỆU 18

Yêu c u chun ầ g: 18

ĐỀ BÀI: 18

3 1 Đọc dữ liệ 19 u 3.2 Làm s ch d ạ ữ liệu 20

3.3 Làm rõ dữ liệu 21

3.4 Xây d ng mô hình Anova ự 26

3.5 Đánh giá mối tương quan giữa các đặc tính cơ lý của đất 42

3.6 K t lu ế ận 45

CODE 46

Tài li u tham khệ ảo: 49

Trang 3

3

Danh m c hình ụ ảnh:

Hình 3.3.1 Bi ểu đồ Histogram cho bi n Plasticity_index ế

Hình 3.3.2 Bi ểu đồ Histogram cho bi n Cohesion ế

Hình 3.3.3: Bi ểu đồ Boxplot c ủa Plasticity_index theo t ng h khoan ừ ố Borehole

Hình 3.3.4: Bi ểu đồ Boxplot c a Cohesion theo t ng h khoan Borehole ủ ừ ố Hình 3.4.1 Bi ểu đồ hàm Q-Q Plot c a Plasticity_index h khoan 1 ủ ở ố Hình 3.4.2 Bi ểu đồ hàm Q-Q Plot c a Cohesion h khoan 1 ủ ở ố

Hình 3.4.3 Bi ểu đồ hàm Q-Q Plot c a Plasticity_index h khoan 2 ủ ở ố Hình 3.4.4 Bi ểu đồ hàm Q-Q Plot c a Cohesion h khoan 2 ủ ở ố

Hình 3.4.5 Bi ểu đồ hàm Q-Q Plot c a Plasticity_index h khoan 3 ủ ở ố Hình 3.4.6 Bi ểu đồ hàm Q-Q Plot c a Cohesion h khoan 3 ủ ở ố

Hình 3.4.7 Bi ểu đồ thể hiệ n s khác bi t gi a giá tr trung bình c ự ệ ữ ị ủa Plasticity_index gi a các c p h khoan ữ ặ ố

Hình 3.4.8 Bi ểu đồ thể hiệ n s khác bi t gi a giá tr trung bình c ự ệ ữ ị ủa Cohesion gi a các c p h khoan ữ ặ ố

Hình 3.4.9 Bi ểu đồ phân tán th ể hiệ n m i quan h ố ệ giữ a 2 bi ến

Plasticity_index và Cohesion

Hình 3.5.1 Các bi ểu đồ thể hiệ n các gi nh c n ki m tra ả đị ầ ể

Trang 4

4

PHẦN 1: LÝ THUY T V CÁC THÔNG S Ế Ề Ố ĐỊA KĨ THUẬ T Fine_content ( Hàm lượng hạt mịn): là hàm lượng đất mà thành phần cấu tạo chủ yếu là bùn và sét đường kính trung bình tối đa của hạt là 0.05mm (0.002); Đất hạt mịn: đất, gồm hơn 50% trọng lượng là những hạt có kích thước nhỏ hơn 0,08 mm; đất hạt mịn, trong đó hàm lượng sét chiếm hơn 20% trọng lượng c a thành ph n hủ ầ ạt mịn

Liquid_limit ( Gi i h n ch y): ớ ạ ả là hàm lượng nước khi đất chuy n tể ừ trạng thái d o ẻsang tr ng thái chạ ảy; ký hiệu W , bi u di n b ng % khL ể ễ ằ ối lượng; khi đất có độ ẩm lớn hơn độ ẩm này thì không còn tính dẻo, mà là trạng thái chảy

Plasticity_index ( Ch s d o): là khoỉ ố ẻ ảng hàm lượng nước chứa trong đất mà trong khoảng đó đất thể ện tính d o; Là hi u shi ẻ ệ ố độ ẩm ở ới h n ch y và gi i h n d o, gi ạ ả ớ ạ ẻđặc trưng cho tính dẻo của đất:

góc có phương tiếp tuyến (tanφ), tỷ số giữa lực

cản ma sát d c theo b t k m t ph ng nào trong ọ ấ ỳ ặ ẳ

Trang 5

5

PHẦN 2: CƠ SỞ LÝ THUYẾT THỐNG KÊ

2.1 H i quy: ồ

2.1.1 Mô hình hồi quy tuy n tính bế ội:

Hồi quy là một phương pháp thống kê để thi t l p m i quan hế ậ ố ệ giữa m t bi n ph ộ ế ụthuộc và m t nhóm t p hộ ậ ợp các biến độc l p Mô hình v i mậ ớ ột biến ph thu c vụ ộ ới hai ho c nhi u biặ ề ến độc lập được g i là h i quy b i (hay còn g i là họ ồ ộ ọ ồi quy đa biến)

Mô hình h i quy tuy n tính b i có d ng t ng quát: ồ ế ộ ạ ổ

𝑌 = 𝛽1+𝛽2𝑋2+𝛽3𝑋3+ +𝛽𝑖𝑋𝑖+𝑢 Trong đó: 𝑌 là biến ph thu c ụ ộ

mô hình không đổi, giá trị kỳ v ng cọ ủa 𝑌 s ẽ tăng 𝛽𝑖đơn vị ếu 𝑋 n 𝑖tăng 1 đơn vị

• Hệ s ố i > 0: khi đó mối quan hệ giữa Y và X là thu n chii ậ ều, nghĩa là khi Xi

tăng (hoặc giảm) trong điều kiện các biến độ ập khác không đổc l i thì Y cũng

sẽ tăng (hoặc gi m) ả

• Hệ s ố i < 0: khi đó mối quan hệ giữa Y và X là ngượi c chiều, nghĩa là khi Xi

tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì sY ẽ giảm (hoặc tăng)

• Hệ s ố i = 0: có th cho r ng giể ằ ữa Y và Xi không có tương quan với nhau, cụ thể là có th không ph Y ể ụ thuộc vào Xi hay là không Xi thực s ự ảnh hưởng tới

Y

Dựa vào k t quế ả ước lượng v i m t m u cớ ộ ẫ ụ thể, ta có thể đánh giá được m i quan ố

hệ giữa bi n phế ụ thu c và các biộ ến độc lập trong mô hình một cách tương đối

Trang 6

6

2.1.2 Ước lượng cho các tham s c a mô hình h i quy tuyố ủ ồ ến tính bội:

Bài toán đặt ra là từ các d u quan sát, chúng ta cữ liệ ần ước lượng cho các h s hệ ố ồi quy 𝛽1,𝛽2, … c a mô hình hủ ồi quy Phương pháp thường được sử dụng là phương pháp bình phương cực tiểu OLS ( Ordinary Least Squares); Hàm h i quy mồ ẫu (SRF) được xây dựng có d ng: ạ

𝑌𝑖 =𝛽1+ 𝛽2𝑋2+𝛽3𝑋3+ +𝛽𝑖 𝑋𝑖

Và 𝑌𝑖=𝛽1 + 𝛽2𝑋2+𝛽3𝑋3+ +𝛽𝑖 𝑋𝑖+𝑢𝑖

Trong đó: 𝛽1, 𝛽2, …𝛽𝑖 là ước lượng của 𝛽1,𝛽2, …𝛽𝑖; 𝑢𝑖là ước lượng của 𝑢, phần

dư của quan sát th i ứ

2.1.3 Các gi thuyả ết cho phương pháp bình phương cực tiểu cho mô hình hồi quy tuy n tính bế ội:

a.Hàm h i quy là tuy n tính theo các tham sồ ế ố:

Điều này có nghĩa là quá trình thực hành hồi quy trên th c t ự ế được miêu t bả ởi mối quan h ệ dưới dạng:

𝑌 = 𝛽1+𝛽2𝑋2+𝛽3𝑋3+ +𝛽𝑖𝑋𝑖+𝑢 Hoặc m i quan h ố ệ thự ếc t có th ể viế ạt l i ví d ụ như dưới d ng l y loga c hai v ạ ấ ả ế

b E(u ) = 0 : K vi ỳ ọng c a các yủ ếu tố ngẫu nhiên u b ng 0: i ằ

Trung bình t ng th sai s là bổ ể ố ằng 0 Điều này có nghĩa là có mộ ốt s giá tr sai s ị ốmang dấu dương và mộ ốt s sai s mang dố ấu âm Do hàm xem như là đường trung bình nên có thể giả định r ng các sai sằ ố ngẫu nhiên trên s bẽ ị loại tr nhau, mừ ở ức trung bình, trong t ng th ổ ể

c Cov(ui,uj) = 0 : Không có s ự tương quan giữa các u : i

Không có sự tương quan giữa các quan sát c a y u t sai s N u ta xem xét các ủ ế ố ố ếchuỗi s ố liệu th i gian (d ờ ữ liệu được thu thập t mừ ột nguồn trong nhi u kho ng thề ả ời gian khác nhau), y u t sai s u trong kho ng th i gian này không có b t k mế ố ố i ả ờ ấ ỳ ột tương quan nào với yếu tố sai số trong kho ng thả ời gian trước đó

d Var(u ) = i σ2: Phương sai bằng nhau và thuần nhất với mọi u : i

Trang 7

2.1.4 Độ phù h p cợ ủa mô hình h i quy: ồ

Để có thể bi t mô hình giải thích được như thế nào hay bao nhiêu % biế ến động của biến phụ thuộc, người ta sử dụng R2

Ta có:

∑(𝑦𝑖−𝑦 )2= ∑[(𝑦𝑖−𝑦𝑖 ) + (𝑦𝑖 −𝑦 )]2= ∑[𝑒𝑖+ (𝑦𝑖 −𝑦 )]2

= ∑𝑒𝑖2+ 2∑𝑒𝑖(𝑦𝑖 −𝑦) + ∑(𝑦𝑖 −𝑦 )2

Đặt:

✓ ∑(𝑦𝑖−𝑦 )2: TSS Total Sum of Squares –

✓ ∑(𝑦𝑖 −𝑦 )2: ESS Explained Sum of Squares –

✓ ∑ 𝑒𝑖2 : RSS Residual Sum of Squares –

Vì ∑𝑒𝑖𝑦𝑖 = 0; ∑𝑒𝑖𝑦 = 0 → ∑𝑒𝑖(𝑦𝑖 −𝑦 = 0)

Nên có th ể viế TSS = ESS + RSS, với: t:

• TSS là tổng bình phương củ ấa t t cả các sai lệch gi a các giá trị quan sát ữ Yi và giá tr trung bình ị

• ESS là tổng bình phương củ ấa t t cả các sai lệch gi a các giá trị của bi n ph ữ ế ụthuộc Y nhận đượ ừ hàm h i quy m u và giá tr trung bình c a chúng Phc t ồ ẫ ị ủ ần này đo độ chính xác c a hàm h i quy ủ ồ

• RSS là tổng bình phương củ ấ ảa t t c các sai l ch giệ ữa các giá trị quan sát và Ycác giá tr ị nhận được t hàm h i quy ừ ồ

𝑅2=𝐸𝑆𝑆𝑇𝑆𝑆= 1 −

𝑅𝑆𝑆𝑇𝑆𝑆

Trang 8

8

Tỷ s ố giữa tổng biến thiên được giải thích b i mô hình cho tở ổng bình phương cần được giải thích được gọi là hệ s ố xác định, hay là tr ị thống kê “Good of fit” Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn b sai l ch Y v i giá tr ộ ệ ớ ịtrung bình được giải thích bằng mô hình Khi đó người ta sử dụng R2để đo sự phù hợp c a hàm h i quyủ ồ

0 ≤𝑅 ≤ 12

• R2 cao nghĩa là mô hình ước lượng được giải thích được m t mộ ức độ cao biến

động c a bi n ph thu c ủ ế ụ ộ

• Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của Y

• Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thu c Y ộ

Trong mô hình h i quy 2 bi n thì ồ ế R2 đo độ thích h p c a hàm h i quy Nó chính là ợ ủ ồ

tỷ l c a toàn b s ệ ủ ộ ự biến đổi của biến ph thu c Y do bi n gi i thích X gây ra ụ ộ ế ả

2.2 Kiểm định:

2.2.1 Kiểm định phân ph i chuố ẩn:

Trong phân tích th ng kê, ph n lố ầ ớn các phép tính d a vào giự ả định bi n sế ố phải là một bi n s phân ph i chu n (ế ố ố ẩ Normal Distribution) Do đó, một trong những việc quan tr ng khi xem xét d ọ ữ kiện là ph i kiả ểm định giả thi t phân ph i chu n c a mế ố ẩ ủ ột biến s Khi chúng ta mu n kiố ố ểm định s khác nhau c a 2 phân nhóm hay trong viự ủ ệc phân tích các mô hình h i quy, thì luôn có m t gi thi t r t quan trồ ộ ả ế ấ ọng đó là các biến phân tích ph i có phân ph i chu n ả ố ẩ

❖ Kiểm định phân ph i chu n bố ẩ ằng biểu đồ:

Dựa vào biểu đồ Histogram với đường cong bi u di n cho phân ể ễ phối chu n: xét thẩ ấy

có s trùng kh p thì bi n s tuân theo phân ph i chuự ớ ế ẽ ố ẩn và ngược l i n u không có ạ ế

sự trùng kh p thì ta nói bi n không tuân theo phân ph i chu n ớ ế ố ẩ

Trang 9

9

Nhận xét:

• Đối v i biớ ểu đồ bên trái ta thấy đường cong bi u di n phân ph i chuể ễ ố ẩn không khớp v i biớ ểu đồ Histogram nên ta có th nói biể ến đó không tuân theo phân phối chu n ẩ

• Đối v i biớ ển đồ bên phải cho ta th y s trùng hấ ự ợp đa phần của biểu đồHistogram và đường cong nên ta có thể kết luận biến được biểu diễn có phân phối chu n ẩ

❖ Kiể địm nh phân ph i chu n b ng Q-Q plot: ố ẩ ằ

Biểu đồ Q-Q pl có th cho ta thot ể ấy được nh ng giá tr ữ ị quan sát đa phần có n m trên ằđường thảng kì v ng c a phân ph i chu n hay không; Nọ ủ ố ẩ ếu đã phần không n m trên ằđường kì v ng thì ta nói biọ ến đó không tuân theo phân phối chuẩn

Trang 10

10

Nhận xét:

• Đối với biểu đồ Q-Q plot bên trái cho ta th y nhấ ững quan sát ph n l n không ầ ớnằm trên đường th ng kì v ng c a phân ph i chu n nên ta có th k t lu n biẳ ọ ủ ố ẩ ể ế ậ ến

đó không tuân theo phân phối chuẩn

• Đối với biểu đồ Q-Q plot bên ph i có th ả ể nhận thấy đa phần các quan sát hầu như nằm trên đường thẳng kì vọng của phân phối chuẩn vì thế mà ta có thể kết lu n biậ ến quan sát được có tuân theo phân ph i chuố ẩn

❖ Sử d ng kiụ ểm định Shapiro Wilk:

Phát biểu giả thuy t th ng kê: ế ố

H0: Bi n c n kiế ầ ểm định tuân theo phân ph i chu n ố ẩ

H1: Bi n c n kiế ầ ểm định không tuân theo phân ph i chu n ố ẩ

Giá trị thống kê Shapiro-Wilk:

𝑊 = (∑𝑛𝑖=1𝑎𝑖𝑥𝑖)

2

∑𝑛 ( 𝑥𝑖− 𝑥 )2𝑖=1

Với: 𝑥𝑖 là giá tr ị thứ I nh ỏ nhấ ủa x t c

Nhìn vào P-value = 0.004991 < 0.05 Ta có th bác bể ỏ giả thuy t H hay nói cách ế 0

khác bi n exam không tuân theo lu t phân b chu n ế ậ ố ẩ

Trang 11

Nhìn vào P-value = 0.07712 > 0.05 Nên ta không đủ cơ sở bác b ỏ giả thuyết H hay 0

biến lectures tuân theo lu t phân b chuậ ố ẩn

2.2.2 Phân tích phương sai một nhân tố

Phân tích phương sai một nhân t ( ố One way Analysis of Variances) là phân tích ảnh hưởng c a m t y u tủ ộ ế ố nguyên nhân (d ng biạ ến định tính) ảnh hưởng đến một y u t ế ốkết qu ả (dạng biến định lượng) đang nghiên cứu Ta đi vào lý thuyết như sau: Giả s rử ằng chúng ta mu n so sánh trung bình c a k t ng th d a trên nh ng mố ủ ổ ể ự ữ ẫu ngẫu nhiên độc lập gồm n1 , n2 , , n quan sát t k t ng th này C n ghi nh ba k ừ ổ ể ầ ớgiả định sau đây về các nhóm t ng th ổ ể được ti n hành phân tích ANOVA: ế

- Các t ng th này có phân phổ ể ối bình thường;

- Các phương sai tổng thể bằng nhau;

- Các quan sát được lấy mẫu là độc lập nhau

Nếu trung bình c a các tủ ổng thể được kí hiệu là μ1, μ2 , , μ thì khi các gi nh k ả địtrên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô

tả dưới d ng kiạ ểm định giả thuyết như sau:

H0: μ1= μ2 = = μk

Giả thuyết H cho r ng trung bình c a k t0 ằ ủ ổng th ể đều b ng nhau (v m t nghiên ằ ề ặcứu liên hệ thì gi thuy t này cho r ng y u t ả ế ằ ế ố nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu)

Và đối thuy t: ế

H1: T n t i ít nh t m t cồ ạ ấ ộ ặp trung bình t ng th khác nhau ổ ể

Trang 12

12

Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây, ta th ấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, nhưng ba vị trí chênh l ch c a chúng cho th y ba tr trung bình khác ệ ủ ấ ịnhau Nếu ta thực s có các giá tr c a 3 t ng th và bi u diự ị ủ ổ ể ể ễn được phân ph i cố ủa chúng như hình dưới thì không c n ph i làm gì n a mà có th k t luta ầ ả ữ ể ế ận được ngay

là bác b H hay 3 tỏ 0 ổng th này có tr trung bình khác nhau ể ị

Nhưng ta chỉ có mẫu đại diện được quan sát, nên để kiểm định giả thuyết này, ta thực hiện các bước sau:

B1: Tính các trung bình m u cẫ ủa các nhóm (xem như đại diện của các t ng thổ ể):

Trang 13

✓ Tổng bình phương chênh lệch trong n i b nhóm SSW hay SSE ộ ộ

Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW hay SSE ) được tính bằng cách c ng các chênh lộ ệch bình phương giữa các giá tr quan sát v i trung ị ớbình m u c a t ng nhóm, rẫ ủ ừ ồi sau đó lại tính t ng c ng k t qu t t c các nhóm ổ ộ ế ả ấ ảlại; Là y u t ế ố dùng để phân bi t các t ng thệ ổ ể/ nhóm đang so sánh

Tổng các chênh lệch bình phương củ ừng nhóm dượa t c tính theo công thức:Nhóm 1: 𝑆𝑆1= ∑𝑛 1(𝑥1𝑗−𝑥1 )2

𝑆𝑆𝑊 = ∑ ∑(𝑥 − 𝑥𝑖𝑗 𝑖 )2

𝑛 𝑖

𝑗=1

𝑘 𝑖=1

✓ Tổng bình phương chênh lệch giữa các nhóm SSB hay SSTr

Tổng các chênh lệch bình phương giữa các nhóm (SSB hay SSTr) được tính bằng cách c ng các chênh lộ ệch đượ ấy bình phương giữc l a các trung bình m u c a tẫ ủ ừng nhóm v i trung bình chung c a k nhóm (các chênh lớ ủ ệch này đều được nh thêm vân ới

số quan sát tương ứng của từng nhóm):

𝑆𝑆𝐵 = ∑ 𝑛 (𝑥𝑖 𝑖 −𝑥 )2 𝑘

𝑖=1

✓ Tổng chênh lệch bình phương toàn bộ SST

Trang 14

14

Tổng các chênh lệch bình phương toàn bộ SST được tính b ng cách c ng t ng các ằ ộ ổchênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (xij) v i trung bình chung toàn b (ớ ộ x )

𝑆𝑆𝑇 = ∑ ∑(𝑥 − 𝑥 )𝑖𝑗 2

𝑛 𝑖

𝑗=1

𝑘 𝑖=1

ℎ𝑜ặ𝑐 𝑆𝑆𝑇 𝑆𝑆𝑊 𝑆𝑆𝐵= +

B3: Tính trung bình c a các chênh lủ ệch bình phương:

Trung bình c a các chênh lủ ệch bình phương được tính b ng cách l y các t ng các ằ ấ ổchênh lệch bình phương chia cho bậc tự do tương ứng

✓ Đối với n i b nhóm MSW hay MSE có b c t ộ ộ ậ ự do tương ứng là 𝑛 − 𝑘 ( với k

Giả thuy t v s b ng nhau c a k trung bình tế ề ự ằ ủ ổng th ể được quyết định d a trên tự ỉ

số của hai phương sai: phương sai giữa các nhóm MSB và phương sai trong nội

bộ nhóm MSW; T sỉ ố này được gọi là tỷ số F vì nó tuân theo qui lu t Fisher ậ –Snedecor v i b c t do là k - ớ ậ ự 1 và k(n-1):

𝐹 = 𝑀𝑆𝐵𝑀𝑆𝑊=

𝑆𝑆𝐵𝑆𝑆𝑊×

Trang 15

15

Source of

Variation

Sum of Squares - SS

Degree of Freedom ( ) df

Mean Squares ) ( MS

groups

𝑛 − 𝑘

2.2.3 Kiểm tra các gi nh cả đị ủa phân tích phương sai:

Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phương pháp t t nhố ất để kiểm tra giả định v phân phề ối bình thường c a dủ ữ liệu nhưng nó đòi hỏi m t s ộ ố lượng quan sát khá l n Biớ ểu đồ thân lá hay biểu đồ h p và râu là mộ ột thay th t t trong tình hu ng sế ố ố ố quan sát ít hơn Nếu công cụ đồ thị cho th y t p d ấ ậ ữliệu m u khá phù h p v i phân phẫ ợ ớ ối bình thường đã thỏa mãn Hình dưới mô t ả biểu

đồ ộ h p râu cho t p d ậ ữ liệu m u v ba nhóm sinh viên trong t p dẫ ề ậ ữ liệu của chúng ta

Đồ thị cho thấy ngoại tr nhóm có thời gian t học TB có hình dáng phân phối của ừ ự

dữ liệu hơi lệch sang trái, còn hai nhóm còn lại có phân phối khá cân đối Với số quan sát không nhi u thì bi u hiề ể ện như thế này c a dủ ữ liệu là kh quan và có th ả ểchấp nhận được

Để kh o sát giả nh b ng nhau cả đị ằ ủa phương sai, biểu đồ ộp và râu cũng cho cả h m nhận ban đầu nhanh chóng, v i ba biớ ểu đồ này, mức độ phân tán c a d ủ ữ liệu trong trong m i t p d u m u không khác bi t nhau nhiỗ ậ ữ liệ ẫ ệ ều

Trang 16

𝑁ế𝑢: 𝐹𝑚𝑎𝑥>𝐹(𝑘;𝑑𝑓);𝛼thì ta bác b Hỏ 0 cho rằng phương sai bằng nhau và ngược lại

2.2.4 Phân tích sâu ANOVA

Mục đích của phân tích phương sai là kiểm định giả thuyết H r0 ằng trung bình của các t ng th b ng nhau Sau khi phân tích và k t luổ ể ằ ế ận, có hai trường h p x y ra là ợ ảchấp nh n gi thuy t H ậ ả ế 0hoặc bác b ỏgiả thuy t H N u ch p nh n gi thuy t H thì ế 0 ế ấ ậ ả ế 0

phân tích k t thúc N u bác b ế ế ỏ giả thuy t Hế 0, ta ế k t lu n trung bình c a các tậ ủ ổng th ểkhông b ng nhau Vằ ấn để tiếp theo là phân tích sâu hơn để xác định nhóm (t ng thổ ể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn

Có nhiều phương pháp để tiếp t c phân tích sâu ANOVA khi bác bụ ỏ giả thuy t Hế 0 Trong phần này ch ỉ để cập đến 1 phương pháp thông dụng đó là phương pháp Tukey, phương pháp này còn được g i là kiọ ểm định HSD (Honestly Significant Differences)

Trang 17

17

Nội dung của phương pháp này là so sánh từng c p các trung bình nhóm m c ý ặ ở ứnghĩa α nào đó cho tất c các c p kiả ặ ểm định có th ể để phát hi n ra nh ng nhóm khác ệ ữnhau N u có k nhóm nghiên c u, và chúng ta so sánh t t c các c p nhóm thì s ế ứ ấ ả ặ ốlượng c p c n ph i so sánh là t h p ch p 2 c a k nhóm ặ ầ ả ổ ợ ậ ủ

𝐶𝑘2= 𝑘!

2!(𝑘 − 2)!=

𝑘(𝑘 − 1)2

• 𝑞𝛼,𝑘,𝑛−𝑘 là giá tr tra b ng phân ph i kiị ả ố ểm định Tukey ( B ng s IX) m c ý ả ố ở ứnghĩa 𝛼, với bậc tự do k và n-k, v i n là tớ ổng s quan sát c a m u ố ủ ẫ

• 𝑀𝑆𝑊 là trung bình chênh lệch bình phương trong nội bộ nhóm

Tiêu chuẩn kiểm định để bác b ỏ giả thiết H 0khi độ l ch tuyệ ệt đối gi a các c p trung ữ ặbình m u lẫ ớn hơn hay bằng T giới h n ạ

Trang 18

18

PHẦN 3: X LÝ D Ử Ữ LIỆ U Yêu c u chung: ầ

o Mỗi nhóm chọn ít nh t 1 d ấ ữ liệu

o Phải dùng ph n mềm R để phân tích Code R phầ ải được trình bày chung vào cuối bài báo cáo, trong m t khung riêng Ph n bài giộ ầ ải và th o lu n phả ậ ải được trình bày rõ ràng, chi tiết

ĐỀ BÀI:

Tệp tin “soft_clay.csv” bao gồm dữ liệu của 3 hố khoan HK1, HK2 và HK3 tại 3 công trình khác nhau M i h khoan g m các thông sỗ ố ồ ố địa chất công trình theo độsâu c a lủ ớp đất bùn sét y u khu v c t nh Cế ự ỉ ần Thơ, bao gồm: Độ sâu Depth, hàm lượng h t mạ ịn Fine_content, gi i h n chớ ạ ảy của đất Liquid_limit, chỉ số d o cẻ ủa đất Plasticity_index, góc ma sát trong Internal_friction_angle, lực dính Cohesion

Dữ liệu được Cô Kiều Lê Th y Chung cung c p sau chuyủ ấ ến đi khảo sát ở Cần Thơ

và các tài li u tham khệ ảo, hướng dẫn được để ở file tài liệu

2 Làm s ch d ạ ữ liệu: D u b thi u, d u b ữ liệ ị ế ữ liệ ị sai,…

3 Làm rõ, mô t d ả ữ liệu: biến đổi d ữ liệu, th ng kê mô t , ố ả đồ thị, biểu đồ,…

4 Kiểm định các gi thuy t th ng kê: Xây d ng mô hình Anova: Ta quan tâm ả ế ố ựđến vi c kiệ ểm định r ng li u các lằ ệ ớp đất đá ở các h khoan khác nhau có cùng ốnằm chung 1 h t ng hay không, t c có cùng m t ngu n g c hay không?? ệ ầ ứ ộ ồ ố

5 Đánh giá mố ương quan giữa các đặc tính cơ lý của đất đá i t

6 K t luế ận

Trang 20

20

3.2 Làm s ch d ạ ữ liệu

❖ Trích t p tin con bao g m các biệ ồ ến chính mà ta đã đưa ra:

new_soft_clay <- soft_clay[,c( "Borehole" "Plasticity_index" "Cohesion" , , )]

head(new_soft_clay,5)

Kết quả khi chạy dòng code:

❖ Kiểm tra d u khuyữ liệ ết trong tệp tin:

Trang 21

21

3.3 Làm rõ d ữ liệu

❖ Tính các giá tr ị thống kê mô t cho t ng h khoan ả ừ ố Borehole:

by(new_soft_clay[,c( "Plasticity_index" "Cohesion" , )],new_soft_clay$Borehole,su mmary)

Kết quả khi chạy dòng code:

Trang 22

22

❖ Vẽ đồ thịHistogram thể hiện phân ph i cố ủa Plasticity_index:

hist(new_soft_clay$Plasticity_index,xlab= "Plasticity_index" ,main= "Histogram o

f Plasticity_index" ,label= ,col= T "pink" ,ylim=c( , 0 15 ))

Nhận xét:

Đây là biểu đồ phân b t n s cho ố ầ ố biến Plasticity_index D a trên biự ểu đồ:

• Mức ch s dỉ ố ẻo có phân b nhi u nhố ề ất ở khoảng 23-25%

• Mức ch s dỉ ố ẻo có phân b ít nh t là khoố ấ ảng trên 28% và kho ngả dưới 18%

Hình 3 1 3 Biểu đồ Histogram cho bi n Plasticity_indexế

Trang 23

23

❖ Vẽ đồ thịHistogram thể hiện phân ph i cố ủa Cohesion:

hist(new_soft_clay$Cohesion,xlab= "Cohesion" ,main= "Histogram of Cohesion" ,labe

l= T ,col= 15 ,ylim=c( 0 , 20 ))

Nhận xét:

Đây là biểu đồ phân b t n s cho bi n Cohesion D a trên biố ầ ố ế ự ểu đồ:

• Mức lực dính có phân b ố nhiều nhất trong khoảng 90 100- kG/cm2

• Mức lực dính có s ố lượng ít nhất là khoảng trên 100 kG/cm2 và kho ng ả dưới

110 kG/cm2

Hình 3.3.2 Biểu đồ Histogram cho bi n Cohesionế

Trang 24

24

❖ Vẽ biểu đồBoxplot thể hiện phân ph i cố ủa Plasticity_index theo t ng ừ

hố khoan Borehole:

boxplot(Plasticity_index~Borehole,data=new_soft_clay,main= "Boxplot of Plastic

ity_index for Borehole" ,col=c( "pink" , 15 45 , ))

Ngày đăng: 10/02/2025, 15:59

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN