2.Y nghia của dữ liệu Y tưởng chính của việc tập dữ liệu này là đê thực hành phân tích dữ liệu với các sinh viên.. Quan sát biêu đồ phân tán có thể hiển thị các cụm điểm chỉ ra rằng kim
Trang 1
ĐẠI HỌC CAN THO TRUONG CONG NGHE THONG TIN & TRUYEN THONG
BAO CAO HOC PHAN MAY HOC UNG DUNG
DE TAI
DU DOAN GIA KIM CUONG
Giáo viên hướng dẫn Sinh viên thực hiện _
GV: Lưu Tiên Đạo SV: Nguyên Kim Tuyên
MSSV: VT23V7X339
SV: Nguyễn Minh Triều
MSSV:DG23V7XO13 Lop HP: CT294
Trang 2
ĐẠI HỌC CAN THO TRUONG CONG NGHE THONG TIN & TRUYEN THONG
BAO CAO HOC PHAN MAY HOC UNG DUNG
DE TAI
DU DOAN GIA KIM CUONG
Giáo viên hướng dẫn Sinh viên thực hiện _
GV: Luu Tién Dao SV: Nguyên Kim Tuyên
MSSV: VT23V7X339
SV: Nguyễn Minh Triều
MSSV: DC23V7X013
Lớp HP: CT294
Cần Thơ, ngày 09 tháng 09 năm 2024
Trang 3NHAN XET CUA GIANG VIEN
Can Tho, ngay 09 thang 09 năm 2024
(Ky và ghi rõ họ tên)
Trang 4Muc luc
1:79 0909) 10109)i6A4i292 Error! Bookmark not defined
1 MG ta dit LGU aaa.ốa ai 6 J0 0n 1agẦẢ 7
E1 0i n0 (i0, 08).09i 6i ề 0i 08 e 7
No na .Ả 9
4 Tiền xử lý dữ liệu và chia tập dữ liệu - 2-2222 2E SE 2t2E St 33x sxexexsrexrrrrrrrrrerrei 9
5 Huấn luyện và Kết quả thực nghiệm - 2-2 2222 2E St 22t SeEEtexsxexsxexsrrrsrrrrrrrrree 12
6 Đánh giá mô hình - - ch ng ng ng Hà Tà TK KH KH và 14 6.1 Đánh giá mô hình RÑegT€SSIOn TH HH kg kg 14
6.2 Nhận xét kết quả thực nghiỆm: - 22231111 HT TT TH TY ng k kkkknkrh 17
1 Kết h0 :8183019 12 z5BR.ÃX.Ố na 18
IV 15013009:7 90/84: 01 3245 20
Trang 5THANH VIEN NHOM
STT MSSV TEN VAITRO_ | GHI CHỦ
1 VT23V7X339 | Neuyén Kim Tuyén | Nhóm trưởng
2 | DC23V7X013} Neuyén Minh Triéu | Thành viên
Cac thanh vién trong nhom xin cam kết thực hiện đúng công việc được giao, cũng như mục tiêu
dé ra, dong thoi sé dong hành, hồ trợ lần nhau trong quả trình thực hiện dự án đề đem lại hiệu
quả tốt nhất
Nhóm Trưởng
Kỹ và ghi gõ họ tên
Thành Viên
Ký và ghi gõ họ tên
Trang 6
1 Mô tả dữ liệu
- Dữ liệu được thực hiện có tên là : Diamonds Prices [1]
- Tài liệu này khám phá tập dữ liệu chứa giá và thuộc tính của 53.943 viên kim
PHAN NOI DUNG
cuong trong tap dir liu véi 10 dac diém (carat, cut, color, clarity, depth, table, price,
x, y, and Z) Bang | m6 ta dai dién dữ liệu của 5 viên kiêm cương đầu và 5 viên kim cương cuối danh sách Bao gồm L1 cột, có phạm vi: 53.943 mục Chúng có 3 biến phân loại và § biên số
Bảng 1 Tập dữ liệu chứa giá và thuộc tính của 53.943 viên kim cương cắt tròn
Unnamed: 0 | carat | cut color | clarity | depth | table | price | x y 4
1 0.23 | ldeal E SI2 61.5 55.0 | 326 3.95 | 3.98 | 2.43
2 0.21 Premium | E sit 59.8 61.0 | 326 3.89 | 3.84 | 2.31
3 0.23 | Good E VS1 56.9 65.0 | 327 405 | 4.07 | 2.31
4 0.29 | Premium | | VS2 62.4 58.0 |334 420 14.23 | 2.63
5 031 | Good J SI2 63.3 58.0 | 335 4.34 | 4.35 | 2.75
53939 0.86 | Premium | H SI2 61.0 58.0 |2757 |6.15 |6.12 |3.74
53940 9.75 | ldeal D SI2 62.2 550 |2757 |5.83 |5.87 |3.64
53941 0.71 Premium | E sit 60.5 55.0 | 2756 | 5.79 | 5.74 | 3.49
53942 0.71 Premium | F sit 59.8 62.0 | 2756 | 5.74 | 5.73 | 3.43
53943 0.70 | Very Good| E VS2 60.5 59.0 |2757 |5.71 |5.76 13.47
«cut
¢ color
- Thuộc tính của các dữ liệu:
+ Thuộc tính carat năm trong khoảng tử 0,2 đến 5,01
+ Thuộc tính depth variable ranges between 43% and 79%
+ Thuộc tính price dao động từ 326 đến 18.923, voi giá trung bình là 393279 (Giá có phạm vị rộng)
+ Các thuộc tính X, Y, Z biểu diễn kích thước của kim cương Với giá trị z đạt
tới 31,8 mm và giá trị x đạt tới 10,7 mm Gia tri y gan voi pham vi gia trị x nhưng
có giá trị ngoại lệ
+ Các thuộc tính phân loại CUt, color, clarity có các giá trị duy nhất
[Fair', Good''Ideal','Premium','Very Good]
[D,E,T,G,H,1,J]
ƑSI1", "SI2", "VS1", "VS2", "WS1", "WS2", "1", "I2"
5 giá trị
7 giá trị
« clarity 8 giá trị
- Các thông
+ Kiểu
†in khác
+ Nguồn sốc + Trường hợp
+ Đặc trưng
+ Giá tri bi mat
Regression
Thực tế
53.943
10
No
Trang 72.Y nghia của dữ liệu
Y tưởng chính của việc tập dữ liệu này là đê thực hành phân tích dữ liệu với các
sinh viên Đây là bộ dữ liệu về giá của kim cương dựa vào các yếu tô như:carat, cut,
color, clarity, depth, table, price, x, y,z Sau đây chúng tôi sẽ giải thích ý nghĩa của từng thành phần có trong tập đữ liệu
- carat: Trọng lượng của viên kim cương, tính bằng carat Một carat bằng 200
miligam
- cụt: Chất lượng cắt của kim cương, ảnh hưởng đến độ sáng và độ cháy của nó
Các loại cắt có thể có bao gồm Lý tưởng, Cao cấp, Rất tốt, Tốt và Trung bình
- color: Màu sắc của kim cương, từ D (không màu) đến Z (vàng nhạt)
- clarity: Dé trong suốt của kim cuong, dé cap đến sự hiện diện của tạp chất (lỗi
bên trong) và nhược điểm (lỗi bên ngoài) Các cấp độ trong suốt có thể có bao gồm
Không tì vét, Không tì vết bên trong, Rất rất ít tạp chất, Rất ít tạp chất, Có tạp chất
và Có tạp chất nhiều
- depth: Tỷ lệ giữa chiều cao của kim cương và đường kính trung bình của nó
- table: Chiều rộng của mặt trên cùng của kim cương, được thể hiện dưới dạng
phần trăm đường kính trung bình của nó
- pice: Giá của kim cương, tính bằng đô la Mỹ
- x: Chiểu dài của kim cương, tính bằng milimét
- y: Chiều rộng của kim cương, tính bằng milimét
- z: Độ sâu của kim cương, tính bằng milimét
Những yếu tố trên được thu tập và đưa ra nhiều số liệu cụ thể và từ những số liệu
trên sẽ được tông hợp lại và đưa ra kết luận cuối cùng là giá của kim cương
3 Phân tích dữ liệu và lựa chọn mô hình
- Bộ dữ liệu về giá của km cương bao gôm: 53.943 phân tử, 1Ô thuộc tinh (carat, cut, color, clarity, depth, table, x, y,z) và 1 nhãn price (giá kim cương
- Trực quan hóa số liệu
°
2000
025 050 075 100 125 150 175 200 59 60 61 62 63 64 52 54 5 58 60 62 64
Hình 1 7rực quan hóa đữ liéu Cartat, Depth, Table
- Carat so với Price: Thông thường carat của một viên kim cương tăng thì giá cũng có
xu hướng tăng Quan sát sẽ thầy môi tương quan tích cực, trong đó các điêm thường
7
Trang 8tăng lên về bên phải Sự phân bô cũng có thê cho thấy sự gia tăng phi tuyến tính,
trong đó giá tăng mạnh sau một ngưỡng trọng lượng nhất định Nếu thấy có nhiều
biến thé 6 trọng lượng cao hơn, điều này có thể cho thấy sự thay đổi về chất lượng
ảnh hưởng đến giá cả
- Depth so với Price: Depth đề cập đến chiều cao của kim cương so với chiều rộng
của nó Trong khi phạm vi tối ưu của phần trăm độ sâu có thể tương quan với giá cao hơn (chỉ ra vết cắt tốt hơn), độ sâu cực đại (quá nông hoặc quá sâu) có thể tương quan với giá thấp hơn Quan sát biêu đồ phân tán có thể hiển thị các cụm điểm chỉ ra rằng
kim cương có độ sâu tối ưu có giá cao hơn, trong khi các giá trị ngoại lệ hoặc phân
phối phân tán hơn có thé chi ra it tong quan hon
- Table so véi Price:Tỷ lệ phần trăm bảng là chiều rộng của mặt trên cùng của kim
CƯƠNg Giống như độ sâu, có một phạm vi tối ưu cho tỷ lệ phần tram bang, noi kim
cương có giá trị nhất Quan sat có thể thấy sự phân phối đồng đều hơn hoặc một số
nhóm Nếu không có xu hướng rõ ràng, tỷ lệ phần trăm bảng có thể không ảnh hưởng
đáng kế đến giá
10000 10000 + 100004 „
»
&
4000 -| 4000
2000 -| 2000
° r r r ' , 94 * x + x 0
4 5 6 7 8 4 5 6 7 8 15 20 25 30 35 40 45 50
Hình 2 Truc quan héa dit liéu X length, Y width, Z_depth
- X length so v6i Price: X length thuong biéu thị chiều đài của kim cương tính
bang mm Tương tự như trọng lượng, kích thước lớn hơn thường chỉ ra viên kim cương lớn hơn, thường dẫn đến giá cao hơn Quan sát có thể thấy rõ mối tương
quan tích cực, với giá tăng khi X length tăng
- Y_width so với Price: Y_width biểu thị chiều rộng của kim cương tính bằng
mm Tương tự như X_ length, kim cương rộng hơn thường lớn hơn và đắt hơn
Quan sát dự kiến mẫu tương tự như X length so với Price Mối quan hệ cho
thấy chiều rộng là yếu tô quan trong trong việc xác định giá
Trang 9- Z Depth so véi Gia: Z_ depth biéu thị chiều cao của kim cương Mặc dù
Z depth có thê ảnh hưởng đến vẻ chất lượng cắt của kim cương Quan sát có thé thấy rõ mỗi tương quan tích cực, với giá tăng khi Z depth tăng
Dữ liệu đề dự đoán các giá trị mục tiêu là giá trị liên tục nên lựa chọn mô hình
hồi quy ( Regression) Các mô hình Regression được lựa chọn trong bài báo cáo
này là:
+ Linear Regression
+ Hidge Regression
+ Lasso Regression
+ Polynomial Regression
+ Random Forest Regression
4 Cấu hình máy tính
- _ Cấu hỉnh máy tính thứ nhất:
Device name WINDOWS-11
Processor AMD Ryzen 5 4600H with Radeon Graphics 3.00 GHz
Installed RAM _ 8,00 GB (7,40 GB usable)
Device ID E8FC3A2B-F9FB-4B32-A6DF-C8E04CBEB752 Product ID 00331-10000-00001-AA177
System type 64-bit operating system, x64-based processor
Pen and toụch Nopenor touch input is available for this display
- _ Cấu hình máy tính thứ hai:
Device name Dell Inspiron15 3501 Processor 11th Gen Intel(R)Core(TM)i5-1135G7@ 2.40GHz 2.42 GHz Installed RAM 8,00 GB (7,73 GB usable)
Device ID 071EA485-FD6D-497B-8A30-C4633252252A Product ID 00327-35922-30475-AAOEM
System type 64-bit operating system, x64-based processor
Pen and touch No penor touch input is available for this display
4 Tiền xứ lý dữ liệu và chia tập dữ liệu
Trong bước này, chúng tôi tiến hành các công đoạn tiền xử lý dữ liệu nhằm đảm bảo rằng đữ liệu sẵn sàng cho việc huấn luyện các mô hình máy học Các thao
tác tiền xử lý bao gồm việc đổi tên cột, xử lý giá trị trùng lặp, phát hiện và loại
bỏ các ngoại lệ, mã hóa các biến phân loại, và chuẩn hóa các biến số
4.1 Đôi tên các cột
Đầu tiên, chúng tôi loại bỏ cột không cần thiết Unnamed: 0 và đổi tên các cột để
thuận tiện cho việc xử lý sau này Việc đôi tên giúp đảm bảo tính nhât quán và dé
hiệu của các cột trong tập dữ liệu
Trang 10df = df.drop('U df.columns = ['C
"Table 2
Y 00s
Hình 3 Déi tén các cột
4.2 Xử lý dữ liệu trùng lặp
Sau khi kiểm tra, chúng tôi phát hiện một số giá trị trùng lặp và đã tiễn hành loại bỏ chúng đề trãnh ảnh hưởng đên hiệu suât của mô hình
df.drop_duplicates(inplace=True)
Vn he)
Hình 4 Xử 1ý đữ liệu trùng lặp
4.3 Phát hiện và loại bỏ các ngoại lệ
Tiếp theo, chúng tôi sử dụng biểu đồ hộp (boxplot) để trực quan hóa và phát hiện các giá trị ngoại lệ trong các cột số như Carat, Depth, Table, Price, X length, Y_ width, va Z Depth Cac gia tri này có thể ảnh hưởng xấu đến độ chính xác của m6 hinh, vi vậy chúng tôi tiễn hành loại bỏ những hàng có chứa các ngoại lệ
b ŒÖ - ñ
ef detect_outliers(data, column)
q1 = df[column].quantil 5) q3= df[column] quanti1e(.75) IQR = q3-ql
lower_bound = qi - (1.5*IQR) upper_bound = q3 + (1.5*IQR)
ls = df.index[(df[column] <lower_bound df{column] > upper_bound
se
index_list = []
column in numeric_co1s
index_1ist.extend(detect_out1iers (đf,co1umn) ) dup1icat
index_list sorted(set (index_list))
Hình 5 Phát hiện và loại bỏ các ngoại lệ
10
Trang 11
Hình 6 Phái hiện và loại bỏ các ngoại lệ
4.4 Mã hóa biến phân loại
Chúng tôi sử dụng phương pháp mã hóa thường (ordinal encoding) để chuyền đôi
các biến phân loại như Cut Quality, Color, va Clarity thanh cac giá trị số Điều này giúp các thuật toán hồi quy và học máy dễ dàng xử lý các biến phân loại nảy
Hình 7 Ma hoa bién phân loại
4.5 Chuân hóa các biên số
Dữ liệu chứa các biến số có đơn vị đo lường hoặc phạm vi giá trị khác nhau (ví dụ:
Carat từ 0.2 đến 5, nhưng Price từ 300 đến 20,000), các biến có giá trị lớn hơn có thê
chiếm ưu thế hơn so với các biến nhỏ hơn trong các thuật toán học máy, đặc biệt là những thuật toán sử dụng khoảng cách (distance-based algorithms) hoặc những thuật toán nhạy cảm với giá trị Tôi đã sử dụng S†tandardScaler của thư viện Scikit-learn
dé chuan hoa các biến số như Carat, X length, Y width, va Z Depth Diéu nay giup đảm bảo rằng các biến này nằm trong cùng một phạm vi và tránh gây ảnh hưởng đến
mô hình đây là cách thực hiện chuẩn hóa theo Z-score Công cụ này sẽ chuẩn hóa các giá trị sao cho chúng có trung bình là 0 và độ lệch chuẩn là I
Hình 8 Ciuẩn hóa các biến số
4.6 Chia tập dữ liệu thành tập huấn luyện và kiểm tra
Tôi chia tập dữ liệu thành tập huấn luyện và kiểm tra với tỷ lệ 80% cho huấn luyện
và 20% cho kiêm tra đê nhăm đánh giá hiệu suat của các mô hình
Hình 9 Ca rập đữ liệu thành tập huấn luyện và kiểm tra
11
Trang 125 Huấn luyện và Kết quả thực nghiệm
Trong phân này, sẽ trình bày quá trình huân luyện các mô hình học máy, đánh giá độ chính xác của chúng, và so sánh kết quả giữa các mô hình khác nhau Dữ liệu sau khi được tiền xử lý (gồm việc phát hiện và loại bỏ ngoại lệ, chuẩn hóa các biến
số) đã được sử dụng đề huấn luyện nhiều mô hình hồi quy khác nhau nhằm dự đoán giá trị của biến mục tiêu Price Được đánh giá lần lược qua máy l và máy 2
5.1 Huấn luyện mô hình Linear Regression
Mô hình Linear Regression [2] được sử dụng đầu tiên dé kiểm tra mối quan hệ tuyến tính giữa các biến đầu vào và biến mục tiêu Linear Regression là một thuật toán cơ
bản giúp xác định mức độ tuyến tính của các biến đầu vào ảnh hưởng đến biến đầu
ra
om Hồi quy tuyến tính MAY1 Hồi quy tuyến tính MaY2
9000
-2000
° 2000 4000 6000 8000 10000 12090 L 2000 4000 6000 8000 10000 12000 Giá trị thực tế Giá trị thực tế
The train accuracy : 0.91337 The train accuracy : 0.91423 The test accuracy : 0.91863 The test accuracy : 0.91524 5.2 Huan luyén m6 hinh Ridge Regression
Mo hinh Ridge Regression [3] là phiên bản cải tiến của hồi quy tuyến tính, sử dụng regularization để giảm thiểu hiện tượng overfitting bằng cách thêm tham số điều
chỉnh vào hàm mat mat
Ridge Regression MAY1 Ridge Regression MAY2
2000 4000 6000 8000 10000 12090 FE —
‘ 0 2000 4000 6000 8000 10000 12000 Giá trị thực tế Giá trị thực tế
The train accuracy : 0.91337 The train accuracy : 0.91423
12