B Phần riêng Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin “kho du lieu BTL xstk xlsx” Các nhóm được yêu cầu xử lí số liệu mà mình đã chọn Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nh.
B Phần riêng Mỗi nhóm bắt buộc tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án… chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin “kho_du_lieu_BTL_xstk.xlsx” Các nhóm u cầu xử lí số liệu mà chọn Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu ( data visialization) mơ hình liệu ( model fitting) CHỦ ĐỀ: COMPUTER HARDWARE Tập tin “ machine.data” chứa số liệu liệu hiệu suất tương đối CPU, mô tả theo thời gian chu kỳ, kích thước nhớ, v.v Các giá trị hiệu suất tương đối ước tính tính phương pháp hồi quy tuyến tính Nguồn: kho_du_lieu_BTL_xstk.xlsx Chú thích: Vendor name ( text) : Tên nhà cung cấp ( có 30 nhà cung cấp) Model name : Biểu tượng đặc biệt MYCT ( nano giây) : Thời gian chu kỳ máy tính MMIN ( kilobytes) : Bộ nhớ tối thiểu MMAX (kilobytes) : Bộ nhớ tối đa CACH ( kilobytes) : Bộ nhớ đệm CHMIN ( integer) : Kênh tối thiểu tính đơn vị CHMAX (integer) : Kênh tối đa tính đơn vị PRP (integer) : Hiệu suất tương đối ERP (integer) : Ước tính hiệu suất tương đối từ báo gốc THỰC HIỆN TRÊN RSTUDIO Trước hết chuyển file thành “ machin.data.csv” Đọc liệu (Import data): Dùng lệnh read.csv() để đọc tệp tin setwd(“ D:/”) dl = read.csv (“ machine.csv”, header= TRUE) dl View dl Output: Làm liệu ( Data cleaning): Loại bỏ liệu khuyết, giữ lại cột liệu đặt tên cho chúng Code: clean