1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài Tập Lớn 1+2 Đo Đường Kính X Và Chiều Cao Y Của 20 Cây Ta Thu Được Số Liệu Sau.pdf

41 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Tập Lớn 1+2 Đo Đường Kính X Và Chiều Cao Y Của 20 Cây Ta Thu Được Số Liệu Sau
Tác giả Nguyễn Trần Châu Quế, Trần Thị Thái Thanh, Tô Tú Uyên, Trần Quốc Diễn, Nguyễn Quốc Hiếu, Phạm Thụy Cao Nguyên, Phan Trọng Nguyễn, Nguyễn Thị Ngọc Thủy, Nguyễn Thị Thương
Người hướng dẫn TS. Nguyễn Tiến Dũng
Trường học Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Không xác định
Thể loại Bài tập lớn
Năm xuất bản 2020
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 41
Dung lượng 4,49 MB

Nội dung

Để đánh giá xem th ph n mà công ty có thị ầ ể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thử nghiệm th trường bằng cách ịbán th

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Giảng viên hướ ng d ẫn: TS Nguy n Ti ễ ến Dũng

Trang 2

Mục lục BÀI T P L N 1: Ậ Ớ

1.Bài 1

1 Đề bài 5

2 Dạng bài 5

3 C ơ sở lý thuyết 5

4 Thực hiện trên R 6

5 Kết quả trên R 7

6 Biện lu n 7 ậ 7 Kết Luận và code 7

2.Bài 2 1 Đề bài 8

2 Dạng bài 8

3 C s ơ ở lý thuy t 8 ế 4 Phương pháp giải 9

5 Thực hiện trên R 9

6 Kết quả trên R 9

7 Biện lu n 9 ậ 8 Kết Luận và code 9

3.Bài 3 1 Đề bài 10

2 Dạng bài 10

3 C ơ sở lý thuyết 10

4 Phương pháp giải 11

5 Thực hiện trên R 11

6 Kết quả trên R 11

7 Biện lu n 11 ậ 8 Kết Luận và code 11

4.Bài 4 1 Đề bài 12

2 Dạng bài 12

3 C ơ sở lý thuyết 12

4 Phương pháp giải 15

5 Thực hiện trên R 15

6 Kết quả trên R 16

7 Biện lu n 16 ậ 8 Kết Luận và code 16

Trang 3

BÀI T P L N 2: Ậ Ớ

A PHẦN CHUNG:

I:CƠ SỞ LÝ THUYẾT: 16 II:ĐỀ BÀI 17 II:BÀI LÀM

II.1: Đọc d u 19 ữ liệ II.2:Làm s ch d ạ ữ liệu 19II.3:Làm rõ d ữ liệu 19II.4: Xây d ng các mô hình h i quy tuy n tính 25 ự ồ ếII.5:D báo ự 31

B PHẦN RIÊNG:

I:ĐỀ TÀI 33II:YÊU CẦU:

II.1:PHÂN TÍCH D Ữ LIỆU:

II.1.1: Đọc d u 33 ữ liệ II.1.2: Làm sạch ữ liệ d u .33 II.1.3: Làm rõ d u 33 ữ liệ II.1.4: Xây d ng các mô hình h i quy tuy n tính 33 ự ồ ế II.1.5: D báo ự 34III:BÀI LÀM

III.1: Đọc d ữ liệu 34 III.2: Làm s ch d ạ ữ liệu 35 III.3: Làm rõ d ữ liệu 36 III.4: Xây d ng các mô hình h i quy tuy n tính 38 ự ồ ế III.5: D báo ự 40Tài li u tham kh o ệ ả 40

Trang 4

(a) Tìm đường hồi quy c a Y đối với X ủ

(b) Tính sai số tiêu chu n cẩ ủa đường h i quy ồ

(c) Tính tỷ số F để ểm đị ki nh gi ả thiết có h i quy tuy n tính gi a Y vồ ế ữ ới X

2 M t công ty mu n m r ng vi c bán s n ph m sang 3 th tộ ố ở ộ ệ ả ẩ ị rường nước ngoài Đểđánh giá xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thử nghiệm thị trường bằng cách bán th s n ph m cho 150 khách hàng tiử ả ẩ ềm năn ạg t i m i thỗ ị trường và thu được kết quả sau:

Thị trường

A B C Công ty 55 38 24 Đối thủ cạnh tranh 1 28 30 21

4 Với mức ý nghĩa 5% So sánh chi phí cho ba dịch vụ ở ba thành ph khác nhau ốbằng phương pháp phân tích phương sai trên cơ sở bảng số liệu sau đây:

Thành ph ố Loại dịch v ụ

I II III

I 61 52 69

II 58 51 61 III 68 64 79 Các con số trong ô là chi phí trung bình cho một lần d ch v ị ụ (đơn vị: 1000đ)

Trang 5

(a) Tìm đường hồi quy c a Y đối với X ủ

(b) Tính sai số tiêu chu n cẩ ủa đường hồi quy

(c) Tính tỷ số F để ểm đị ki nh gi ả thiết có ồ h i quy tuy n tính gi a Y vế ữ ới X

2 D ng bài

- Phân tích tương quan và hồi quy

3 Cơ sỡ lý thuyết

Giả thiết H0: X và Y không có tương quan tuyến tính

H0: X và Y có tương quan tuyến tính

Tiến h nh so s nh |T| v c à á à

𝑇 = 𝑅√𝑛−2√1−𝑅2 c phân b Student vó ố ới n − 2 ậc tự b do

c là phân v mị ứ α/2 củc a phân bố Student với n − 2 bậ ự do c t

Nếu |T| > c thì ta s á b c b H  0

Như vậy X và Y có tương quan tuyến tính

Hệ s ố tương quan R: R = ∑ xi yi−∑ xi∑ y i

√[n ∑ xi2 −(∑ xi) 2 ][n y ∑ i2 −(∑ yi) 2 ]

*Tương quan phi tính:

Hiệu s nố 2-p2 gi a t sữ ỷ ố tương quan lý thuyết và h sệ ố xác định lý thuy t cho ta mế ột hình nh v s ph thu c phi tuy n cả ề ự ụ ộ ế ủa Y đố ới v i X N u h sế ệ ố đó bằng 0 thì điều đó nghĩa là chỉ có sự tương quan tuyến tính giữa Y và X

Người ta đã chứng minh được rằng nếu H0đúng thì F s có phân phối Fisher với bậc

tự do (k-2,n-k) thành th giử ả thuyết H0 ‘không có tương quan phi tuyến’ s ị bác b ở bmức α nếu F > c thì phân vị mức α của phân bố Fisher với bậc tự do là (k-2, n-k) Giả thiết H0: X và Y không có tương quan phi tính

H0: X và Y có tương quan phi tính

Tiến h nh so s nh F v c à á à

𝐹 = (𝜂𝑌/𝑋 2 −𝑅 2 )(𝑛−𝑘)

(1−𝜂𝑌/𝑋2 )(𝑘−2) c phân b sher vó ố Fi ới (k − 2, n − k) ậc tự b do

c là phân v mị ứ α của phân b Fisher vc ố ới (k − 2, n − k) ậ ự do bc t

Nếu F > c thì ta s á b c b H  0

Như vậy X và Y có tương quan phi tuyến

*Tỉ số tương quan: T sỷ ố tương quan lý thuyết c a Y theo X đượủ c ký hiệu b i nở 2Y/X là một số không âm xác định theo công thức sau đây :

Trang 6

n2Y/X = 1 – 𝐸(𝑌−𝐸(

𝑌 ))

𝐷𝑌 = 𝐷𝑌−𝐸(𝑌−𝐸(

𝑌 )) 𝐷𝑌Trong đó: E(Y/X) gọi là k v ng cỳ ọ ủa Y với điều kiện X

0 ≤ n2

Y/X ≤ 1

p2 ≤ n2Y/X

Hiệu s nố 2Y/X - p 2 đo mức độ ph thu c phi tuy n gi a Y và X ụ ộ ế ữ

Nếu hi u s nệ ố 2Y/X - p 2 càng lớn thì có nghĩa là có sự tương quan phi tuyến càng m nh ạ+ Tổng bình phương chung : SST

- Vậy phương trình đường thẳng hồi quy giữa Y và X: y = 1,0453 + 1,6769x

(b)Xác định sai số tiêu chuẩn của đường th ng h quy: ẳ ồi

Từ kết quả thu được ở summary(m), ta thấy standard error = 2,22

Kết luận:

- Vậy sai số tiêu chuẩn của đường hồi quy S = 2,22

Trang 7

(c) : Kiểm định gi ả thiết có hồi quy tuy n tính gi, a Y và X:ế ữ

m = lm(Y~X)

summary(m)

anova(m)

Trang 8

BÀI 2

1 Đề bài

Một công ty mu n mố ở r ng vi c bán s n ph m sang 3 thộ ệ ả ẩ ị trường nước ngoài Để đánh giá xem th ph n mà công ty có thị ầ ể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thử nghiệm th trường bằng cách ịbán th s n ph m cho 150 khách hàng tiử ả ẩ ềm năng tại m i thỗ ị trường và thu được kết quả sau:

có nhi u k t qu (multinomial experiment) ề ế ả – th ụ, bác sĩ đánh giá tình trạí d ng c a các ủbệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều

tỉ s Tr c nghiố ắ ệm “khi” bình phương (2) cho phép b n so sánh không nh ng hai mà ạ ữcòn nhi u t s (hay t l ho c xác su t) m t cách ti n lề ỉ ố ỉ ệ ặ ấ ộ ệ ợi 2 là phân ph i v xác su t, ố ề ấkhông có tính đối xứng và chỉ có giá trị ≥ 0 Giả sử bạn có một công trình nghiên cứu với N th nghiử ệm độc l p, mậ ỗi th nghi m có k k t qu và mử ệ ế ả ỗi k t qu mang mế ả ột trong các xác su t th c nghiấ ự ệm là Pi (i = 1, 2, … k) N u g i P là các giá tr lý thuyế ọ i,0 ị ết tương ứng với P thì các ti ần số lí thuyết s là E = NPi i,0 Điều kiện để áp dụng trắc nghiệm 2 một cách thành công là các tần s lố í thuy t Eế i phải ≥ 5

Oi: các tần số thực nghiệm (observed frequency)

Ei: các tần s lý thuy t (expected frequency) ố ế

Biện luận:

Hàm CHITEST có thể tính:

Trang 9

- Giá t ị r 2 theo biểu thức: 2 ij ij

là số c t trong b ng ng u nhiên (contingency table) ộ ả ẫ

*Nếu P(X > 2) > α → Chấp nh n gi ậ ả thuyết H 0và ngược lại

4 Phương pháp giải

- H0: Phân bố cơ cấu của ba thị trường trên như nhau

- H1: T n tồ ại 2 thị trường có phân bố cơ cấu khác nhau

Trang 10

• Lý thuyết phân tích phương sai 1 yếu tố:

Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên các giá tr trung bình c a các m u quan sát t các nhóm này, và thông qua kiị ủ ẫ ừ ểm định giả thiết để kết luận v s b ng nhau cề ự ằ ủa các trung bình ổng th này t ể

• Phương pháp phân tích phương sai 1 yếu tố:

Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá tr ịtrung bình của hai hay nhi u mề ẫu được lấ ừ các phân số y t

Đây có thể được xem như phần mở rộng các tr c nghi m t hay z (so sánh hai giá ắ ệtrị trung bình)

• Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của 1 y u t (nhân t o hay tế ố ạ ự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)

Điều kiện: Các giá trị được chọn 1 cách ngẫu nhiên và độc lập Mẫu N lớn hơn 30 hoặc phân theo phân phối chuẩn Phương sai của các nhóm là gần như nhau

4.Phương pháp giải

Đặt :

-H0: Mực nước sông trung bình của các điểm đo bằng nhau

-H1: Có ít nhất 2 địa điểm đo có mực nước sông trung bình khác nhau

Trang 11

5 Thự c hi n trên R

6 K t quế ả trên R

7 Biện luận

Fvalue = 0.269 < F = 4.113404 crit => Chưa bác b được H0

8.Kết Lu n và codeậ : Mực nước sông trung bình của các điểm đo bằng nhau V i mớ ức

ý nghĩa 2%, mực nước sông trung bình /ngày của các địa điểm nói trên không thực sự khác nhau

dia_diem_do=c("1","1","1","1","1","1","1","2","2","2","2","2","3","3","3","3","3","3",

"4","4","4","4","4","4")

muc_nuoc_song=c(5.5,4.6,5.8,5.9,6.0,6.7,7.2,4.9,5.1,6.5,5.4,6.1,4.6,4.8,5.8,5.1,6.2,7.1,4.5,6.2,4.8,4.8,6.5,6.8)

2 Dạng bài

- Phân tích phương sai 2 yế ốu t không l p ặ

Trang 12

3 Cơ sỡ lý thuyết

Giả s chúng ta quan tâm t i nhân t A và B Nhân tử ớ ố ố A được xem xét ở các m c Aứ 1,

A2, A , và nhân tr ố B được xem xét ở các nước B1, B2, B c

Gọi Xjklà ĐLNN đo lường hi u qu việ ả ệc tác động của m c Aứ j và B klên cá thể Giả s x , x , , xử 1jk 2jk njk là mẫu kích thước n jkrút ra từ ậ t p h p chính các giá tr c a X ợ ị ủ jk

Ta gọi đó là mẫu (j, k) Ta đưa ra một số ký hiệu sau:

Ta có bảng sau đây ghi các kết quả tính toán trên:

A

B B1 B2 Bk Bc

Trung bình dòng A j

= = =

= −

Trang 13

Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau:

=

= −Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức sau:

Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính theo công thức sau:

jk jo ko

k 1 j 1SSI x x x x

= =

= − − +

Trung bình bình phương của nhân tố A, ký hiệu là MSFA’ được tính bởi:

A A

SSF MSF

SSF MSF

c 1 r 1

=

− − 1) (r 1) g i là b do c

MSF F

MSE

=

Tương tự tỷ số F cho nhân tố B, F Bđược tính bởi:

B B

MSF F

k 1 j 1 i 1SSF x x−

= = =

= −

Trang 14

Nếu F > f (c 1, n cr) thì ta bác b giB – –  ả thiết B :

o

H “Các mức B , B , B có hi1 2 c ệu quả trung bình như nhau”

Nếu FAB > f ((r 1)(c 1), n rc) thì ta bác b gi– – –  ả thiết AB :

o

H “Không có sự tương tác giữa A và B”

Trên thực hành tính toán chúng ta thực hiện như sau:

Giả s T ử jklà tổng các giá tr trong m u (j, k) Ký hi u ị ẫ ệ

,,

Ta có các đẳng thức sau:

2TSST A

jo

j 1

T TSSF

ok

k 1

T TSSF

k 1 j 1

TSSE A

Trang 15

k jTSSE A

-H1: Chi phí trung bình cho một lần dịch vụ ở các thành phố là như nhau

-H1: có ít nhất 2 thành phố có chi phí trung bình cho một lần dịch vụ khác nhau

-H2: Chi phí trung bình cho một lần dịch vụ ở các loại dịch vụ là như nhau

-H2: có ít nhất 2 loại dịch vụ có chi phí trung bình cho một lần dịch vụ khác nhau

5 Thực hi n trên R

6 K ết quả trên R

7 Biện luận

-FRows = 24,9159 > F = 6,9443 crit → Bác b gi  ả thiết H 1

-FColumns = 24,7477 > F = 6,9443 Bác b gicrit →  ả thiết H 2

8 K ết Luận và code:

- Chi phí trung bình cho một lần dịch vụ ở các thành phố khác nhau

- Chi phí trung bình cho một lần dịch vụ ở các loại dịch vụ khác nhau

Trang 16

n phương trình như sau:

𝑌1= 𝑏0 + 𝑏1𝑋11 + ⋯ + 𝑏𝑘𝑋𝑘1 + 𝑒1

𝑌2= 𝑏0 + 𝑏1𝑋12 + ⋯ + 𝑏𝑘𝑋𝑘2 + 𝑒2

𝑌𝑛= 𝑏0 + 𝑏1𝑋1𝑛 + ⋯ + 𝑏𝑘𝑋𝑘𝑛 + 𝑒𝑛Dùng ký hiệu vector và ma trận, các phương trình trên được viết gộ ại thành:p l

[

𝑌1

𝑌2

1 𝑋11 𝑋21 … 𝑋𝑘1] [

𝑏0

𝑏1

𝑒𝑘]hay

Y = Xb + e, (1.6) Trong đó:

Y là vector cột gồm n giá tr ị quan sát được của Y={𝑌1, 𝑌2, … 𝑌𝑛}

X là ma trận n hàng k+1 cột, với các giá tr cị ủa cột 1 luôn b ng 1 ằ

Với giả thiết (1.7), mô hình (1.6) có thể viế ại như sau: t l

E(Y) = Xb (1.8) Đặt vector Y = Xb Phần tử thứ i của phương trình vector e = Y - Y = - Xb có dY ạng Vector e ={𝑒1, 𝑒2, … 𝑒𝑛} là vector các sai số Vector b được chọn sao cho t ng bình ổphương các sai lệch sau đạt cực tiểu

Trang 17

nếu không suy bi n, nghiế ệm của phương trình (1.10) là

𝑏 = (𝑋′𝑋)−1𝑋′𝑌

II ĐỀ BÀI

Tập tin "diem_so.csv" chứa thông tin về điểm toán của các em học sinh trung học thuộc hai trường học ở Bồ Đào Nha Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi cư trú, và một số hoạt động xã hội khác Dữ liệu được thu thập bằng cách sử dụng báo cáo của các trường và các kết quả khảo sát sinh viên Dữ liệu gốc được cung cấp tại: https://archive.ics.uci.edu/ml/datasets/student+performance

Các biến chính trong bộ dữ liệu:

• G1: Điểm thi học kì 1

• G2: Điểm thi học kì 2

• G3: Điểm cuối khoá

• studytime: Thời gian tự học trên tuần ( 1 - ít hơn 2 giờ, - 2 từ 2 đến 5 giờ, - 3 từ 5 đến 10 giờ, hoặc 4 - lớn hơn 10 giờ)

• failures: số lần không qua môn ( 1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần)

• absences: số lần nghỉ học

• higher: Có muốn học cao hơn hay không (yes: có, no: không)

• age: Tuổi của học sinh

Câu hi:

1 Đọc dữ liệu:

Hãy dùng lệnh read.csv() để đọc tệp tin

2 Làm sạch dữ liệu (Data cleaning):

(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã trình bày trong phần giới thiệu dữ liệu Từ câu hi này về sau, mọi

yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này

(b) Kiểm tra các dữ liệu bị khuyết trong tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho

những dữ liệu bị khuyết này

3 Làm rõ dữ liệu (Data visualization):

(a) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nh nhất Xuất kết quả dưới dạng

bảng (Hàm gợi ý: mean(), median() sd() min() max() apply(), as.data.frame(), , , , ,

rownames())

Trang 18

(b) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại

(c) Hãy dùng hàm hist() để v đồ thị phân phối của biến G3

(d) Hãy dùng hàm boxplot() v phân phối của biến G3 cho từng nhóm phân loại của biến studytime, failures, và biến higher

(e) Dùng lệnh pairs() v các phân phối của biến G3 lần lượt theo các biến G2, G1,

age, và absences

4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đếnđiểm cuối khóa môn Toán của các em học sinh

(a) Xét mô hình hồi quy tuyến tính bao gồm biến G3 là một biến phụ thuộc, và tất cả các biến còn lại đều là biến độc lập Hãy dùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội

(b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn s loại khi mô hình tương ứng với các mức tin cậy 5% và 1%?

(c) Xét 3 mô hình tuyến tính cùng bao gồm biến G3 là biến phụ thuộc nhưng:

• Mô hình M1 chứa tất cả các biến còn lại là biến độc lập

• Mô hình M2 là loại b biến higher M1, từ

• Mô hình M3 là loại b biến failure M2 từ

Hãy dùng lệnh anova() để đề xuất mô hình hồi quy hợp lý hơn

(d) Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy suy luận sự tác động của các biến điểm thi cuối kì

(e) Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy dùng lệnh plot() để v đồ thị biểu thị sai số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét

5 Dự báo (Predictions):

(a) Trong dữ liệu của bạn, hãy tạo thêm biến đặt tên là evaluate, biến này biểu diễn tỷ

lệ đạt (G3 >= 10) hoặc không đạt (G3 < 10) của sinh viên trong điểm thi cuối kì Hãy thống kê tỷ lệ đạt/không đạt (Hàm gợi ý: cbind() ).

(b) Xét mô hình hồi quy hợp lý nhất mà bạn đã chọn trong câu 4(c) Hãy lập một bảng

số liệu mới đặt tên là new_X bao gồm toàn bộ các biến độc lập trong mô hình này, và dùng lệnh predict() để đưa ra số liệu dự báo cho biến G3 phụ thuộc vào new_X Gọi

kết quả dự báo này là biến pred_G3

(c) Khảo sát độ chính xác trong kết quả dự báo của câu trên bằng cách lập một bảng so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3

Trang 19

2 Làm sạch dữ liệu (Data cleaning):

(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã trình bày trong phần giới thiệu dữ liệu Từ câu hi này về sau, mọi

yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này

(b) Kiểm tra các dữ liệu bị khuyết trong tập tin (Các câu lệnh tham khảo: is.na( ), which( ), apply( )) Nếu có dữ liệu bị khuyết hãy đề xuất phương pháp thay thế cho

những dữ liệu bị khuyết này

Giải thích: Xóa đi các dòng dữ liệu bị khuyết của dữ liệu con “new_DF”

3 Làm rõ dữ liệu (Data Vusualization):

a) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nh nhất Xuất kết quả

dưới dạng bảng (Hàm gợi ý: mean( ), median( ), sd( ), mean( ), max( ), apply( ), as.data.frame( ), rownames( ))

Input:

→ Các biến liên tục trong bộ dữ liệu là: G1, G2, G3, age tương ứng với cột thứ 1,

2, 3, 8 trong dữ liệu

> mean = apply(new_DF[,c(1,2,3,8)],2,mean)

Giải thích: Tính giá trị trung bình của các biến liên tục (G1, G2, G3, age) và lưu

vào biến “mean”

> sd = apply(new_DF[,c(1,2,3,8)],2,sd)

Giải thích: Tính giá trị độ lệch chuẩn của các biến liên tục (G1, G2, G3, age) và

lưu vào biến “sd”

Trang 20

Giải thích: Chuyển các kết quả: mean, sd, median, min, max vừa tính được thành

dạng bảng ứng với các biến liên tục: G1, G2, G3, age

Ngày đăng: 14/11/2024, 20:24

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w