Để đánh giá xem th ph n mà công ty có thị ầ ể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thử nghiệm th trường bằng cách ịbán th
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
Giảng viên hướ ng d ẫn: TS Nguy n Ti ễ ến Dũng
Trang 2Mục lục BÀI T P L N 1: Ậ Ớ
1.Bài 1
1 Đề bài 5
2 Dạng bài 5
3 C ơ sở lý thuyết 5
4 Thực hiện trên R 6
5 Kết quả trên R 7
6 Biện lu n 7 ậ 7 Kết Luận và code 7
2.Bài 2 1 Đề bài 8
2 Dạng bài 8
3 C s ơ ở lý thuy t 8 ế 4 Phương pháp giải 9
5 Thực hiện trên R 9
6 Kết quả trên R 9
7 Biện lu n 9 ậ 8 Kết Luận và code 9
3.Bài 3 1 Đề bài 10
2 Dạng bài 10
3 C ơ sở lý thuyết 10
4 Phương pháp giải 11
5 Thực hiện trên R 11
6 Kết quả trên R 11
7 Biện lu n 11 ậ 8 Kết Luận và code 11
4.Bài 4 1 Đề bài 12
2 Dạng bài 12
3 C ơ sở lý thuyết 12
4 Phương pháp giải 15
5 Thực hiện trên R 15
6 Kết quả trên R 16
7 Biện lu n 16 ậ 8 Kết Luận và code 16
Trang 3BÀI T P L N 2: Ậ Ớ
A PHẦN CHUNG:
I:CƠ SỞ LÝ THUYẾT: 16 II:ĐỀ BÀI 17 II:BÀI LÀM
II.1: Đọc d u 19 ữ liệ II.2:Làm s ch d ạ ữ liệu 19II.3:Làm rõ d ữ liệu 19II.4: Xây d ng các mô hình h i quy tuy n tính 25 ự ồ ếII.5:D báo ự 31
B PHẦN RIÊNG:
I:ĐỀ TÀI 33II:YÊU CẦU:
II.1:PHÂN TÍCH D Ữ LIỆU:
II.1.1: Đọc d u 33 ữ liệ II.1.2: Làm sạch ữ liệ d u .33 II.1.3: Làm rõ d u 33 ữ liệ II.1.4: Xây d ng các mô hình h i quy tuy n tính 33 ự ồ ế II.1.5: D báo ự 34III:BÀI LÀM
III.1: Đọc d ữ liệu 34 III.2: Làm s ch d ạ ữ liệu 35 III.3: Làm rõ d ữ liệu 36 III.4: Xây d ng các mô hình h i quy tuy n tính 38 ự ồ ế III.5: D báo ự 40Tài li u tham kh o ệ ả 40
Trang 4(a) Tìm đường hồi quy c a Y đối với X ủ
(b) Tính sai số tiêu chu n cẩ ủa đường h i quy ồ
(c) Tính tỷ số F để ểm đị ki nh gi ả thiết có h i quy tuy n tính gi a Y vồ ế ữ ới X
2 M t công ty mu n m r ng vi c bán s n ph m sang 3 th tộ ố ở ộ ệ ả ẩ ị rường nước ngoài Đểđánh giá xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thử nghiệm thị trường bằng cách bán th s n ph m cho 150 khách hàng tiử ả ẩ ềm năn ạg t i m i thỗ ị trường và thu được kết quả sau:
Thị trường
A B C Công ty 55 38 24 Đối thủ cạnh tranh 1 28 30 21
4 Với mức ý nghĩa 5% So sánh chi phí cho ba dịch vụ ở ba thành ph khác nhau ốbằng phương pháp phân tích phương sai trên cơ sở bảng số liệu sau đây:
Thành ph ố Loại dịch v ụ
I II III
I 61 52 69
II 58 51 61 III 68 64 79 Các con số trong ô là chi phí trung bình cho một lần d ch v ị ụ (đơn vị: 1000đ)
Trang 5(a) Tìm đường hồi quy c a Y đối với X ủ
(b) Tính sai số tiêu chu n cẩ ủa đường hồi quy
(c) Tính tỷ số F để ểm đị ki nh gi ả thiết có ồ h i quy tuy n tính gi a Y vế ữ ới X
2 D ng bài ạ
- Phân tích tương quan và hồi quy
3 Cơ sỡ lý thuyết
Giả thiết H0: X và Y không có tương quan tuyến tính
H0: X và Y có tương quan tuyến tính
Tiến h nh so s nh |T| v c à á à
𝑇 = 𝑅√𝑛−2√1−𝑅2 c phân b Student vó ố ới n − 2 ậc tự b do
c là phân v mị ứ α/2 củc a phân bố Student với n − 2 bậ ự do c t
Nếu |T| > c thì ta s á b c b H 0
Như vậy X và Y có tương quan tuyến tính
Hệ s ố tương quan R: R = ∑ xi yi−∑ xi∑ y i
√[n ∑ xi2 −(∑ xi) 2 ][n y ∑ i2 −(∑ yi) 2 ]
*Tương quan phi tính:
Hiệu s nố 2-p2 gi a t sữ ỷ ố tương quan lý thuyết và h sệ ố xác định lý thuy t cho ta mế ột hình nh v s ph thu c phi tuy n cả ề ự ụ ộ ế ủa Y đố ới v i X N u h sế ệ ố đó bằng 0 thì điều đó nghĩa là chỉ có sự tương quan tuyến tính giữa Y và X
Người ta đã chứng minh được rằng nếu H0đúng thì F s có phân phối Fisher với bậc
tự do (k-2,n-k) thành th giử ả thuyết H0 ‘không có tương quan phi tuyến’ s ị bác b ở bmức α nếu F > c thì phân vị mức α của phân bố Fisher với bậc tự do là (k-2, n-k) Giả thiết H0: X và Y không có tương quan phi tính
H0: X và Y có tương quan phi tính
Tiến h nh so s nh F v c à á à
𝐹 = (𝜂𝑌/𝑋 2 −𝑅 2 )(𝑛−𝑘)
(1−𝜂𝑌/𝑋2 )(𝑘−2) c phân b sher vó ố Fi ới (k − 2, n − k) ậc tự b do
c là phân v mị ứ α của phân b Fisher vc ố ới (k − 2, n − k) ậ ự do bc t
Nếu F > c thì ta s á b c b H 0
Như vậy X và Y có tương quan phi tuyến
*Tỉ số tương quan: T sỷ ố tương quan lý thuyết c a Y theo X đượủ c ký hiệu b i nở 2Y/X là một số không âm xác định theo công thức sau đây :
Trang 6n2Y/X = 1 – 𝐸(𝑌−𝐸(
𝑌 ))
𝐷𝑌 = 𝐷𝑌−𝐸(𝑌−𝐸(
𝑌 )) 𝐷𝑌Trong đó: E(Y/X) gọi là k v ng cỳ ọ ủa Y với điều kiện X
0 ≤ n2
Y/X ≤ 1
p2 ≤ n2Y/X
Hiệu s nố 2Y/X - p 2 đo mức độ ph thu c phi tuy n gi a Y và X ụ ộ ế ữ
Nếu hi u s nệ ố 2Y/X - p 2 càng lớn thì có nghĩa là có sự tương quan phi tuyến càng m nh ạ+ Tổng bình phương chung : SST
- Vậy phương trình đường thẳng hồi quy giữa Y và X: y = 1,0453 + 1,6769x
(b)Xác định sai số tiêu chuẩn của đường th ng h quy: ẳ ồi
Từ kết quả thu được ở summary(m), ta thấy standard error = 2,22
Kết luận:
- Vậy sai số tiêu chuẩn của đường hồi quy S = 2,22
Trang 7(c) : Kiểm định gi ả thiết có hồi quy tuy n tính gi, a Y và X:ế ữ
m = lm(Y~X)
summary(m)
anova(m)
Trang 8BÀI 2
1 Đề bài
Một công ty mu n mố ở r ng vi c bán s n ph m sang 3 thộ ệ ả ẩ ị trường nước ngoài Để đánh giá xem th ph n mà công ty có thị ầ ể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thử nghiệm th trường bằng cách ịbán th s n ph m cho 150 khách hàng tiử ả ẩ ềm năng tại m i thỗ ị trường và thu được kết quả sau:
có nhi u k t qu (multinomial experiment) ề ế ả – th ụ, bác sĩ đánh giá tình trạí d ng c a các ủbệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều
tỉ s Tr c nghiố ắ ệm “khi” bình phương (2) cho phép b n so sánh không nh ng hai mà ạ ữcòn nhi u t s (hay t l ho c xác su t) m t cách ti n lề ỉ ố ỉ ệ ặ ấ ộ ệ ợi 2 là phân ph i v xác su t, ố ề ấkhông có tính đối xứng và chỉ có giá trị ≥ 0 Giả sử bạn có một công trình nghiên cứu với N th nghiử ệm độc l p, mậ ỗi th nghi m có k k t qu và mử ệ ế ả ỗi k t qu mang mế ả ột trong các xác su t th c nghiấ ự ệm là Pi (i = 1, 2, … k) N u g i P là các giá tr lý thuyế ọ i,0 ị ết tương ứng với P thì các ti ần số lí thuyết s là E = NPi i,0 Điều kiện để áp dụng trắc nghiệm 2 một cách thành công là các tần s lố í thuy t Eế i phải ≥ 5
Oi: các tần số thực nghiệm (observed frequency)
Ei: các tần s lý thuy t (expected frequency) ố ế
Biện luận:
Hàm CHITEST có thể tính:
Trang 9- Giá t ị r 2 theo biểu thức: 2 ij ij
là số c t trong b ng ng u nhiên (contingency table) ộ ả ẫ
*Nếu P(X > 2) > α → Chấp nh n gi ậ ả thuyết H 0và ngược lại
4 Phương pháp giải
- H0: Phân bố cơ cấu của ba thị trường trên như nhau
- H1: T n tồ ại 2 thị trường có phân bố cơ cấu khác nhau
Trang 10• Lý thuyết phân tích phương sai 1 yếu tố:
Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên các giá tr trung bình c a các m u quan sát t các nhóm này, và thông qua kiị ủ ẫ ừ ểm định giả thiết để kết luận v s b ng nhau cề ự ằ ủa các trung bình ổng th này t ể
• Phương pháp phân tích phương sai 1 yếu tố:
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá tr ịtrung bình của hai hay nhi u mề ẫu được lấ ừ các phân số y t
Đây có thể được xem như phần mở rộng các tr c nghi m t hay z (so sánh hai giá ắ ệtrị trung bình)
• Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của 1 y u t (nhân t o hay tế ố ạ ự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)
Điều kiện: Các giá trị được chọn 1 cách ngẫu nhiên và độc lập Mẫu N lớn hơn 30 hoặc phân theo phân phối chuẩn Phương sai của các nhóm là gần như nhau
4.Phương pháp giải
Đặt :
-H0: Mực nước sông trung bình của các điểm đo bằng nhau
-H1: Có ít nhất 2 địa điểm đo có mực nước sông trung bình khác nhau
Trang 115 Thự c hi n trên Rệ
6 K t quế ả trên R
7 Biện luận
Fvalue = 0.269 < F = 4.113404 crit => Chưa bác b được H0
8.Kết Lu n và codeậ : Mực nước sông trung bình của các điểm đo bằng nhau V i mớ ức
ý nghĩa 2%, mực nước sông trung bình /ngày của các địa điểm nói trên không thực sự khác nhau
dia_diem_do=c("1","1","1","1","1","1","1","2","2","2","2","2","3","3","3","3","3","3",
"4","4","4","4","4","4")
muc_nuoc_song=c(5.5,4.6,5.8,5.9,6.0,6.7,7.2,4.9,5.1,6.5,5.4,6.1,4.6,4.8,5.8,5.1,6.2,7.1,4.5,6.2,4.8,4.8,6.5,6.8)
2 Dạng bài
- Phân tích phương sai 2 yế ốu t không l p ặ
Trang 123 Cơ sỡ lý thuyết
Giả s chúng ta quan tâm t i nhân t A và B Nhân tử ớ ố ố A được xem xét ở các m c Aứ 1,
A2, A , và nhân tr ố B được xem xét ở các nước B1, B2, B c
Gọi Xjklà ĐLNN đo lường hi u qu việ ả ệc tác động của m c Aứ j và B klên cá thể Giả s x , x , , xử 1jk 2jk njk là mẫu kích thước n jkrút ra từ ậ t p h p chính các giá tr c a X ợ ị ủ jk
Ta gọi đó là mẫu (j, k) Ta đưa ra một số ký hiệu sau:
Ta có bảng sau đây ghi các kết quả tính toán trên:
A
B B1 B2 Bk Bc
Trung bình dòng A j
= = =
= −
Trang 13Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau:
=
= −Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức sau:
Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính theo công thức sau:
jk jo ko
k 1 j 1SSI x x x x
= =
= − − +
Trung bình bình phương của nhân tố A, ký hiệu là MSFA’ được tính bởi:
A A
SSF MSF
SSF MSF
c 1 r 1
=
− − 1) (r 1) g i là b do c
MSF F
MSE
=
Tương tự tỷ số F cho nhân tố B, F Bđược tính bởi:
B B
MSF F
k 1 j 1 i 1SSF x x−
= = =
= −
Trang 14Nếu F > f (c 1, n cr) thì ta bác b giB – – ả thiết B :
o
H “Các mức B , B , B có hi1 2 c ệu quả trung bình như nhau”
Nếu FAB > f ((r 1)(c 1), n rc) thì ta bác b gi– – – ả thiết AB :
o
H “Không có sự tương tác giữa A và B”
Trên thực hành tính toán chúng ta thực hiện như sau:
Giả s T ử jklà tổng các giá tr trong m u (j, k) Ký hi u ị ẫ ệ
,,
Ta có các đẳng thức sau:
2TSST A
jo
j 1
T TSSF
ok
k 1
T TSSF
k 1 j 1
TSSE A
Trang 15k jTSSE A
-H1: Chi phí trung bình cho một lần dịch vụ ở các thành phố là như nhau
-H1: có ít nhất 2 thành phố có chi phí trung bình cho một lần dịch vụ khác nhau
-H2: Chi phí trung bình cho một lần dịch vụ ở các loại dịch vụ là như nhau
-H2: có ít nhất 2 loại dịch vụ có chi phí trung bình cho một lần dịch vụ khác nhau
5 Thực hi n trên R ệ
6 K ết quả trên R
7 Biện luận
-FRows = 24,9159 > F = 6,9443 crit → Bác b gi ả thiết H 1
-FColumns = 24,7477 > F = 6,9443 Bác b gicrit → ả thiết H 2
8 K ết Luận và code:
- Chi phí trung bình cho một lần dịch vụ ở các thành phố khác nhau
- Chi phí trung bình cho một lần dịch vụ ở các loại dịch vụ khác nhau
Trang 16n phương trình như sau:
𝑌1= 𝑏0 + 𝑏1𝑋11 + ⋯ + 𝑏𝑘𝑋𝑘1 + 𝑒1
𝑌2= 𝑏0 + 𝑏1𝑋12 + ⋯ + 𝑏𝑘𝑋𝑘2 + 𝑒2
𝑌𝑛= 𝑏0 + 𝑏1𝑋1𝑛 + ⋯ + 𝑏𝑘𝑋𝑘𝑛 + 𝑒𝑛Dùng ký hiệu vector và ma trận, các phương trình trên được viết gộ ại thành:p l
[
𝑌1
𝑌2
1 𝑋11 𝑋21 … 𝑋𝑘1] [
𝑏0
𝑏1
𝑒𝑘]hay
Y = Xb + e, (1.6) Trong đó:
Y là vector cột gồm n giá tr ị quan sát được của Y={𝑌1, 𝑌2, … 𝑌𝑛}
X là ma trận n hàng k+1 cột, với các giá tr cị ủa cột 1 luôn b ng 1 ằ
Với giả thiết (1.7), mô hình (1.6) có thể viế ại như sau: t l
E(Y) = Xb (1.8) Đặt vector Y = Xb Phần tử thứ i của phương trình vector e = Y - Y = - Xb có dY ạng Vector e ={𝑒1, 𝑒2, … 𝑒𝑛} là vector các sai số Vector b được chọn sao cho t ng bình ổphương các sai lệch sau đạt cực tiểu
Trang 17nếu không suy bi n, nghiế ệm của phương trình (1.10) là
𝑏 = (𝑋′𝑋)−1𝑋′𝑌
II ĐỀ BÀI
Tập tin "diem_so.csv" chứa thông tin về điểm toán của các em học sinh trung học thuộc hai trường học ở Bồ Đào Nha Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi cư trú, và một số hoạt động xã hội khác Dữ liệu được thu thập bằng cách sử dụng báo cáo của các trường và các kết quả khảo sát sinh viên Dữ liệu gốc được cung cấp tại: https://archive.ics.uci.edu/ml/datasets/student+performance
Các biến chính trong bộ dữ liệu:
• G1: Điểm thi học kì 1
• G2: Điểm thi học kì 2
• G3: Điểm cuối khoá
• studytime: Thời gian tự học trên tuần ( 1 - ít hơn 2 giờ, - 2 từ 2 đến 5 giờ, - 3 từ 5 đến 10 giờ, hoặc 4 - lớn hơn 10 giờ)
• failures: số lần không qua môn ( 1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần)
• absences: số lần nghỉ học
• higher: Có muốn học cao hơn hay không (yes: có, no: không)
• age: Tuổi của học sinh
Câu hi:
1 Đọc dữ liệu:
Hãy dùng lệnh read.csv() để đọc tệp tin
2 Làm sạch dữ liệu (Data cleaning):
(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã trình bày trong phần giới thiệu dữ liệu Từ câu hi này về sau, mọi
yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này
(b) Kiểm tra các dữ liệu bị khuyết trong tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho
những dữ liệu bị khuyết này
3 Làm rõ dữ liệu (Data visualization):
(a) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nh nhất Xuất kết quả dưới dạng
bảng (Hàm gợi ý: mean(), median() sd() min() max() apply(), as.data.frame(), , , , ,
rownames())
Trang 18(b) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại
(c) Hãy dùng hàm hist() để v đồ thị phân phối của biến G3
(d) Hãy dùng hàm boxplot() v phân phối của biến G3 cho từng nhóm phân loại của biến studytime, failures, và biến higher
(e) Dùng lệnh pairs() v các phân phối của biến G3 lần lượt theo các biến G2, G1,
age, và absences
4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đếnđiểm cuối khóa môn Toán của các em học sinh
(a) Xét mô hình hồi quy tuyến tính bao gồm biến G3 là một biến phụ thuộc, và tất cả các biến còn lại đều là biến độc lập Hãy dùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội
(b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn s loại khi mô hình tương ứng với các mức tin cậy 5% và 1%?
(c) Xét 3 mô hình tuyến tính cùng bao gồm biến G3 là biến phụ thuộc nhưng:
• Mô hình M1 chứa tất cả các biến còn lại là biến độc lập
• Mô hình M2 là loại b biến higher M1, từ
• Mô hình M3 là loại b biến failure M2 từ
Hãy dùng lệnh anova() để đề xuất mô hình hồi quy hợp lý hơn
(d) Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy suy luận sự tác động của các biến điểm thi cuối kì
(e) Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy dùng lệnh plot() để v đồ thị biểu thị sai số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét
5 Dự báo (Predictions):
(a) Trong dữ liệu của bạn, hãy tạo thêm biến đặt tên là evaluate, biến này biểu diễn tỷ
lệ đạt (G3 >= 10) hoặc không đạt (G3 < 10) của sinh viên trong điểm thi cuối kì Hãy thống kê tỷ lệ đạt/không đạt (Hàm gợi ý: cbind() ).
(b) Xét mô hình hồi quy hợp lý nhất mà bạn đã chọn trong câu 4(c) Hãy lập một bảng
số liệu mới đặt tên là new_X bao gồm toàn bộ các biến độc lập trong mô hình này, và dùng lệnh predict() để đưa ra số liệu dự báo cho biến G3 phụ thuộc vào new_X Gọi
kết quả dự báo này là biến pred_G3
(c) Khảo sát độ chính xác trong kết quả dự báo của câu trên bằng cách lập một bảng so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3
Trang 192 Làm sạch dữ liệu (Data cleaning):
(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã trình bày trong phần giới thiệu dữ liệu Từ câu hi này về sau, mọi
yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này
(b) Kiểm tra các dữ liệu bị khuyết trong tập tin (Các câu lệnh tham khảo: is.na( ), which( ), apply( )) Nếu có dữ liệu bị khuyết hãy đề xuất phương pháp thay thế cho
những dữ liệu bị khuyết này
Giải thích: Xóa đi các dòng dữ liệu bị khuyết của dữ liệu con “new_DF”
3 Làm rõ dữ liệu (Data Vusualization):
a) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nh nhất Xuất kết quả
dưới dạng bảng (Hàm gợi ý: mean( ), median( ), sd( ), mean( ), max( ), apply( ), as.data.frame( ), rownames( ))
Input:
→ Các biến liên tục trong bộ dữ liệu là: G1, G2, G3, age tương ứng với cột thứ 1,
2, 3, 8 trong dữ liệu
> mean = apply(new_DF[,c(1,2,3,8)],2,mean)
Giải thích: Tính giá trị trung bình của các biến liên tục (G1, G2, G3, age) và lưu
vào biến “mean”
> sd = apply(new_DF[,c(1,2,3,8)],2,sd)
Giải thích: Tính giá trị độ lệch chuẩn của các biến liên tục (G1, G2, G3, age) và
lưu vào biến “sd”
Trang 20Giải thích: Chuyển các kết quả: mean, sd, median, min, max vừa tính được thành
dạng bảng ứng với các biến liên tục: G1, G2, G3, age