MMAX: bộ nhớ chính tối đa tính bằng kilobyte số nguyênHãy xem một số yếu tố chính trong tập dữ liệu này: dân số: mẫu hiệu suất tương đối của CPU: 209 mô hình Hiệu suất tương đối của CPU
Trang 1Cố vấn: TS Phan Thị Hương Sinh
viên: Phạm Đức Trung - 2153928 Nguyễn
Phước Thịnh - 2153838 Trần Hải Đăng - 2153297 Lê Dương Khánh Huy - 2153380 Phan Lê Khánh Trinh - 2151268TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH
Trang 2Mã sinh viên Tỷ lệ công việcPhạm Đức Trung
5 Phan Lê Khánh Trình 2151268
5 Phan Lê Khánh Trình
Trần Hải Đăng 3
Trang 3
15
5.1 Hồi quy tuyến tính
15
5
5.1.2 Nhược điểm 5.1.2.a
Dễ bị thiếu trang bị 5.1.2.b Nhạy
cảm với các giá trị ngoại lai
.4.2 Hồi quy tuyến tính đa biến (MLR)
10
5.2 Phần mở rộng: Hồi quy đa thức
14
20
10
4.1.1 Tính bình thường
3.1 Tiền xử lý dữ liệu
Trang 4
4 MMIN: bộ nhớ chính tối thiểu tính bằng kilobyte (số nguyên)
Hình 1: Đoạn khung dữ liệu được gắn nhãn
5 MMAX: bộ nhớ chính tối đa tính bằng kilobyte (số nguyên)
Hãy xem một số yếu tố chính trong tập dữ liệu này:
dân số: mẫu hiệu suất tương đối của CPU: 209 mô
hình Hiệu suất tương đối của CPU được đo bởi người tạo tập dữ liệu tham số: MYCT, MMIN,
MMAX, CACH, CHMIN, CHMAX, PRP, ERP các biến phân loại: tên nhà cung cấp, tên model
6 CACH: bộ nhớ đệm tính bằng kilobyte (số nguyên)
Trong bộ dữ liệu này, chúng tôi dành nhiều sự quan tâm cho hai biến PRP và ERP Thoạt nhìn, có rất nhiều tham
số liên quan đến từng mô hình dường như có tác động đến ERP và PRP (là hiệu suất của mô hình), vì vậy các mô hình hồi quy sẽ là phương pháp của chúng tôi để tiếp cận tập dữ liệu trong bài tập này
Khoa Khoa học và Kỹ thuật Máy tính
7 CHMIN: kênh tối thiểu tính theo đơn vị (số nguyên)
8 CHMAX: số kênh tối đa theo đơn vị (số nguyên)
Nhiệm vụ này trình bày phân tích hiệu suất hệ thống máy tính, tập trung vào mối quan hệ giữa các đặc tính của máy và các số liệu hiệu suất tương đối Tập dữ liệu bao gồm các thuộc tính:
9 PRP: hiệu suất tương đối được công bố (số nguyên)
1 Tên nhà cung cấp: nhiều biểu tượng độc đáo
10 ERP: hiệu suất tương đối ước tính từ bài viết gốc (số nguyên)
2 Tên Model: nhiều biểu tượng độc đáo
Liệt kê 1: Các yếu tố tập dữ liệu
3 MYCT: thời gian chu kỳ máy tính bằng nano giây (số nguyên)
Trong nhiệm vụ này, chúng tôi hoàn toàn sử dụng R và R Studio làm công cụ và môi trường làm việc để phân tích
dữ liệu
1 Giới thiệu dữ liệu
Trang 5so sánh chúng qua nhiều nhóm.
2 Không có hiện tượng đa cộng tuyến: Các biến độc lập trong mô hình hồi quy không có mối tương quan cao với nhau Đa cộng tuyến xảy ra khi hai hoặc nhiều biến độc lập có mối tương quan chặt chẽ với nhau, gây khó khăn cho việc xác định tác động riêng lẻ của chúng đối với biến phụ thuộc
• Đồ thị cặp được sử dụng để hiểu được những đặc điểm tốt nhất có thể áp dụng cho
3 Tính tuyến tính: Mối quan hệ giữa các biến độc lập và biến phụ thuộc phải tuyến tính Điều này
có nghĩa là giá trị kỳ vọng của biến phụ thuộc thay đổi theo đường thẳng khi các biến độc lập thay đổi, giữ cho các biến khác không đổi
mô tả mối liên hệ giữa hai biến hoặc để tạo ra các cụm khác biệt nhất.
Phương trình tổng quát của MLR:
Khoa Khoa học và Kỹ thuật Máy tính
• Ma trận tương quan: Các hệ số tương quan giữa các biến được hiển thị trong bảng gọi là ma trận tương quan Mối liên hệ giữa hai biến được hiển thị trong mỗi ô của bảng
Y = β0 + β1x1 + β2x2 + + βnxn + ϵ
trong
đó : ·Y là biến phụ thuộc
Không phải lúc nào cũng có biến phản hồi hoặc biến giải thích trong phân tích thống kê dữ liệu Việc đo lường mối liên hệ giữa một biến phụ thuộc liên tục và hai hoặc nhiều biến độc lập được thực hiện bằng phương pháp hồi quy đa biến Mối quan hệ tuyến tính là những mối quan hệ xuất hiện từ mối tương quan giữa các biến Chúng tôi sử dụng phương pháp này để dự báo hành vi của biến phản ứng dựa trên các yếu tố dự đoán của nó sau khi áp dụng hồi quy đa biến cho tập dữ liệu
vi chung và phân phối của các biến:
Có 3 giả định cần được đáp ứng khi thực hiện kiểm tra MLR:
·B0 là giao điểm của Y khi tất cả Xi đều bằng 0
1 Tính quy phạm: phần dư (sự khác biệt giữa giá trị quan sát được và giá trị dự đoán
• Biểu đồ được sử dụng để trực quan hóa sự phân bố của một biến số
·Bi là hệ số của mỗi Xi ·ϵ là
sai số độc lập của mô hình
• Biểu đồ hình hộp được sử dụng để hiển thị phân bố của các giá trị dữ liệu số, đặc biệt khi
giá trị) tuân theo phân phối chuẩn
2 Bối cảnh
2.1 Phân tích dữ liệu thăm dò (EDA)
2.2 Hồi quy tuyến tính đa biến (MLR)
Trang 6tên MYCT
00
PRP 0
0_
ERPCHMIN
CHMAX
0
MMAX 0
00
dự đoán một quan sát Mô hình càng tốt thì RMSE càng thấp
các cột trong khung dữ liệu này không được gắn nhãn Hãy làm cho khung dữ liệu theo sau,
Hình 3: Khung dữ liệu được gắn nhãnKhoa Khoa học và Kỹ thuật Máy tính
• Kiểm tra giá trị còn thiếu
• Nhập dữ liệu
Nhập tên tệp ”machine.data.txt” vào khung dữ liệu (được ghi chú là df trong R)
Chỉ số hiệu suất mô hình:
Bây giờ có vẻ như tìm thấy Tuy nhiên, để đảm bảo không có vấn đề gì với tập dữ liệu này, chúng ta triển khaimột số chức năng để kiểm tra xem chúng có thiếu dữ liệu hoặc vấn đề liên quan hay không
Hình 2: Khung dữ liệu ban đầu
· R-bình phương (R2 ): là bình phương tương quan giữa giá trị kết quả thực tế và giá trị
Kết quả
Hình 4: Kiểm tra giá trị còn thiếu
được dự đoán bởi mô hình và nó đo lường tỷ lệ phương sai của yếu tố dự đoán trong kết quả
• Tính năng đặt tên dữ liệu
Như chúng ta có
thể thấy danh sách chúng ta có ở trên (Liệt kê 1).
· Căn bậc hai lỗi bình phương trung bình (RMSE): tính toán sai số trung bình mà một mô hình mắc phải trong khiđiều đó có thể được giải thích Mẫu mã càng đẹp thì giá trị càng cao
3.1 Tiền xử lý dữ liệu
3 Thống kê mô tả
Trang 7thông tin trong biến này, vì vậy chúng tôi cố gắng làm cho nó rõ ràng hơn.
Chúng tôi xem xét rõ ràng hơn về sự phân bố của 8 biến độc lập bằng cách sử dụng Biểu đồ
và Boxplot và áp dụng hàm cho từng biến hình
bước tiếp theo.
Kết quả
Vì Tên nhà cung cấp và Tên model là các biến phân loại nên chúng ta không thể có cái nhìn tổng quan
Như có thể thấy trong hình trên, không có giá trị N/A nào trong tập dữ liệu của chúng tôi và nó phù hợp với
Hình 5: Tổng quan về dữ liệukhung (Hình 2) Hãy tóm tắt df bằng cách sử dụng hàm tóm tắt trong R
Hình 6: Tóm tắt giai thừa
Khoa Khoa học và Kỹ thuật Máy tính
Sau khi thực hiện quá trình dọn dẹp, hiện tại chúng ta đã có một bộ dữ liệu rõ ràng và sạch sẽ trong data
: 0,00 Qu 1 mũi : 0,00 Trung bình : 8,00
PRP
100 1100/61 - h1 : 1100/81 1100/83 1100/84
Qu thứ 1 : 50,0 Qu thứ 1 : 768
CHMAX
tối thiểu
sratus : ( Khác )
Giá trị trung bình : 4,699 Giá trị trung bình : 18,27
Số lượng model nhiều nhất: ibm: 32
1_
ncr
Trang 8Hình 8: MMINKhoa Khoa học và Kỹ thuật Máy tính
Hình 10: CACHHình 9: MMAX
Hình 7: MYCT
Trang 9Hình 14: ERPHình 11: CHMIN
• MYCT: Thời gian chu kỳ máy (MYCT) dao động từ 17 đến 1500 với giá trị trung bình là
110 Vì giá trị trung bình (203,8) lớn hơn giá trị trung bình nên phân bố này bị lệch phải, cho thấy có một số máy có thời gian chu kỳ đặc biệt cao
Theo bản tóm tắt và các sơ đồ trên:
Khoa Khoa học và Kỹ thuật Máy tính
• Tên mô hình: Có nhiều tên mô hình khác nhau trong tập dữ liệu, không có mô hình nào xuất hiện nhiều lần ngoại trừ các mô hình trong danh mục 'Khác' Điều này cho thấy một loạt các
mô hình trong tập dữ liệu
Hình 13: PRP
• tên nhà cung cấp: Tập dữ liệu chứa nhiều nhà cung cấp khác nhau Nhà cung cấp phổ biến nhất
là IBM với 32 máy, tiếp theo là NAS với 19 máy Danh mục 'Khác' chứa 107 máy từ nhiều nhà cung cấp khác nhau
Hình 12: CHMAX
Trang 10• CHMIN và CHMAX: Số lượng kênh tối thiểu và tối đa (CHMIN, CHMAX) cũng có phân bố lệch phải, với
số trung bình lớn hơn số trung vị của chúng Điều này cho thấy một số máy có số lượng kênh cao bất thường
• MMIN: Bộ nhớ chính tối thiểu (MMIN) dao động từ 64 đến 32000 Giá trị trung bình (2868) lớn hơn giá trị trung bình (2000), biểu thị phân bố lệch phải Điều này cho thấy một số máy có bộ nhớ tối thiểu đặc biệt cao
Hình 15: Đồ thị tương quan
• CACH: Kích thước bộ nhớ đệm (CACH) nằm trong khoảng từ 0 đến 256 Giá trị trung bình (25,21) lớn hơn giá trị trung bình (8), do đó phân bố này bị lệch phải Một số máy có kích thước bộ nhớ đệm rất lớn
Khoa Khoa học và Kỹ thuật Máy tính
Sau đó, chúng tôi sử dụng biểu đồ Tương quan để đưa ra cái nhìn tổng quan về mối quan hệ giữa từng cặp biến
Một số máy có bộ nhớ tối đa đặc biệt cao
• PRP và ERP: Các thước đo hiệu suất tương đối được công bố và ước tính (PRP, ERP) đều có phân phối lệch phải, với mức trung bình lớn hơn mức trung vị Điều này cho thấy một số máy có hiệu suất đặc biệt cao
• MMAX: Bộ nhớ chính tối đa (MMAX) nằm trong khoảng từ 64 đến 64000 Giống như MMIN, giá trị trung bình (11796) lớn hơn giá trị trung bình (8000), biểu thị sự phân bố lệch phải
Trang 11Nhiều biến số dường như có mối liên hệ chặt chẽ với cả PRP và ERP Trong tương lai, chúng tôi sẽ điều tra các kỹ thuật phân tích mối liên hệ giữa các biến này và PRP.
• CACH: Kích thước bộ đệm (CACH) có mối tương quan tích cực mạnh mẽ với PRP, ERP, MMIN và MMAX, cho thấy rằng các máy có nhiều bộ đệm hơn có xu hướng có nhiều bộ nhớ hơn và hiệu suất tốt hơn.Theo biểu đồ tương quan ở trên, chúng ta có thể thấy:
• PRP và ERP: Hai thước đo hiệu suất này có mối tương quan cực kỳ chặt chẽ với nhau, cho thấy chúng hầu như được đo lường cùng một cấu trúc Cả hai đều có mối tương quan chặt chẽ với MMIN và MMAX, cho thấy máy có nhiều bộ nhớ hơn có xu hướng có hiệu suất tốt hơn
• MMAX: Biến này có mối tương quan thuận mạnh mẽ với ERP và PRP, cho thấy máy có bộ nhớ tối đa hơn thường có hiệu suất tốt hơn Ngoài ra còn có mối tương quan tích cực mạnh mẽ với MMIN, cho thấy máy thường có lượng bộ nhớ tối thiểu và tối đa tương tự nhau
Khoa Khoa học và Kỹ thuật Máy tính
• CHMAX: Kênh tối đa (CHMAX) có tương quan thuận với tất cả các biến khác ngoại trừ MYCT Mối tương quan mạnh nhất là với PRP, ERP và MMIN, cho thấy rằng các máy có nhiều kênh tối đa hơn có xu hướng có nhiều bộ nhớ tối thiểu hơn và hiệu suất tốt hơn
• MMIN: Có mối tương quan dương rất mạnh giữa MMIN (bộ nhớ chính tối thiểu) và ERP (Hiệu suất tương đối ước tính), MMAX (bộ nhớ chính tối đa) và PRP (Hiệu suất tương đối đã xuất bản), cho thấy rằng các máy có hiệu suất tương đối tối thiểu cao hơn bộ nhớ có xu hướng có hiệu suất cao hơn và bộ nhớ tối đa hơn
• CHMIN: Biến kênh tối thiểu (CHMIN) có mối tương quan thuận vừa phải với tất cả các biến khác ngoại trừ MYCT Mối tương quan mạnh nhất là với ERP, PRP và MMAX, cho thấy rằng các máy có nhiều kênh tối thiểu hơn có xu hướng có nhiều bộ nhớ tối đa hơn và hiệu suất tốt hơn
• MYCT: Biến này có tương quan nghịch với tất cả các biến khác, có tương quan nghịch mạnh nhất với MMIN, MMAX và CACH Điều này cho thấy rằng khi thời gian chu kỳ máy (MYCT) tăng lên thì các biện pháp khác này có xu hướng giảm xuống
Trang 12có thể được giải thích bởi các biến độc lập trong mô hình R bình phương nằm trong khoảng từ 0 đến 1Trong dự án này, R-squared = 0,8649 (gần 1), có nghĩa là phần lớn độ biến thiên
trong biến phụ thuộc có thể được giải thích bằng các biến độc lập có trong mô hình
Khoa Khoa học và Kỹ thuật Máy tính
Vì vậy, chúng ta có thể kết luận rằng có mối quan hệ tuyến tính giữa PRP và các biến khác
Hình 16: Kết quả kiểm định Shapiro-WilkGiá trị p của phần dư xấp xỉ bằng 0 Vì vậy, chúng ta có thể chắc chắn rằng phần dư
sau khi sử dụng mô hình hồi quy tuyến tính có phân phối chuẩn
Hình 17: Kiểm tra độ tuyến tính
4.1.1 Tính bình thường
4.1.2 Độ tuyến tính
Trong hồi quy tuyến tính, hệ số xác định, thường được gọi là R bình phương (R2 ), là một
Chúng ta sẽ chọn phép kiểm định Shapiro-Wilk để đảm bảo phần dư có phân phối chuẩn
Kiểm tra tính quy phạm Shapiro - Wilk
lm ( công thức = PRP ~ MYCT + MMIN + MMAX + CACH + CHMIN + dữ liệu CHMAX = df )
Trang 13Kết quả
Hình 18: Hệ số biến thiên
Đa cộng tuyến đã được kiểm tra cho các biến trong mô hình bằng Hệ số lạm phát phương sai (VIF) VIF là thước đo mức độ phương sai của các hệ số hồi quy ước tính tăng lên do đa cộng tuyến
4.1.3 Kiểm tra đa cộng tuyến
Trong phần này, chúng ta sẽ xây dựng mô hình hồi quy tuyến tính bội với PRP là biến phụ thuộc và MYCT, MMIN, MMAX, CACH, CHMIN và CHMAX làm biến độc lập Mục tiêu của chúng tôi là điều tra mối quan
hệ giữa PRP và các biến độc lập này và phát triển mô hình dự đoán ước tính chính xác PRP dựa trên các yếu tố này Phân tích này sẽ cung cấp những hiểu biết có giá trị về các yếu tố tác động đáng kể đến hiệu suất hệ thống máy tính và tạo điều kiện tối ưu hóa cấu hình hệ thống trong tương lai
Khoa Khoa học và Kỹ thuật Máy tính
Trong học máy, việc chia dữ liệu thành các bộ riêng biệt giúp ngăn chặn việc trang bị quá mức, điều này xảy ra khi một mô hình ghi nhớ dữ liệu huấn luyện quá tốt và không thể khái quát hóa thành dữ liệu mới, chưa được nhìn thấy.4.2.1 Tách dữ liệu
Vì vậy, chúng tôi chia dữ liệu thành các tập huấn luyện và kiểm tra theo lượng dữ liệu 80% và 20%
Nói chung, VIF lớn hơn 5 hoặc 10 cho thấy mức độ đa cộng tuyến có vấn đề Trong trường hợp này, không
có biến nào có VIF trên 5, điều này cho thấy hiện tượng đa cộng tuyến có thể không phải là vấn đề trong
mô hình này
Chúng tôi đã trang bị mô hình thống kê của mình bằng cách sử dụng hàm lm trong R Hàm lm cho phép chúng tôi ước tính mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập
VIF cho các biến như sau: MYCT = 1,199, MMIN = 2,792, MMAX = 3,266, CACH = 1,730 và CHMAX = 1,692
4.2 Hồi quy tuyến tính đa biến (MLR)
1.199030 2.792328 3.266378 1.730247 1.691608CACH