Báo cáo học phần máy học ứng dụng Đề tài dự Đoán giá kim cương

2.Y nghia của dữ liệu Y tưởng chính của việc tập dữ liệu này là đê thực hành phân tích dữ liệu với các sinh viên.. Quan sát biêu đồ phân tán có thể hiển thị các cụm điểm chỉ ra rằng kim

Trang 1

ĐẠI HỌC CAN THO TRUONG CONG NGHE THONG TIN & TRUYEN THONG

BAO CAO HOC PHAN MAY HOC UNG DUNG

DE TAI

DU DOAN GIA KIM CUONG

Giáo viên hướng dẫn Sinh viên thực hiện _

GV: Lưu Tiên Đạo SV: Nguyên Kim Tuyên

MSSV: VT23V7X339

SV: Nguyễn Minh Triều

MSSV:DG23V7XO13 Lop HP: CT294

Trang 2

ĐẠI HỌC CAN THO TRUONG CONG NGHE THONG TIN & TRUYEN THONG

BAO CAO HOC PHAN MAY HOC UNG DUNG

DE TAI

DU DOAN GIA KIM CUONG

Giáo viên hướng dẫn Sinh viên thực hiện _

GV: Luu Tién Dao SV: Nguyên Kim Tuyên

MSSV: VT23V7X339

SV: Nguyễn Minh Triều

MSSV: DC23V7X013

Lớp HP: CT294

Cần Thơ, ngày 09 tháng 09 năm 2024

Trang 3

NHAN XET CUA GIANG VIEN

Can Tho, ngay 09 thang 09 năm 2024

(Ky và ghi rõ họ tên)

Trang 4

Muc luc

1:79 0909) 10109)i6A4i292 Error! Bookmark not defined

1 MG ta dit LGU aaa.ốa ai 6 J0 0n 1agẦẢ 7

E1 0i n0 (i0, 08).09i 6i ề 0i 08 e 7

No na .Ả 9

4 Tiền xử lý dữ liệu và chia tập dữ liệu - 2-2222 2E SE 2t2E St 33x sxexexsrexrrrrrrrrrerrei 9

5 Huấn luyện và Kết quả thực nghiệm - 2-2 2222 2E St 22t SeEEtexsxexsxexsrrrsrrrrrrrrree 12

6 Đánh giá mô hình - - ch ng ng ng Hà Tà TK KH KH và 14 6.1 Đánh giá mô hình RÑegT€SSIOn TH HH kg kg 14

6.2 Nhận xét kết quả thực nghiỆm: - 22231111 HT TT TH TY ng k kkkknkrh 17

1 Kết h0 :8183019 12 z5BR.ÃX.Ố na 18

IV 15013009:7 90/84: 01 3245 20

Trang 5

THANH VIEN NHOM

STT MSSV TEN VAITRO_ | GHI CHỦ

1 VT23V7X339 | Neuyén Kim Tuyén | Nhóm trưởng

2 | DC23V7X013} Neuyén Minh Triéu | Thành viên

Cac thanh vién trong nhom xin cam kết thực hiện đúng công việc được giao, cũng như mục tiêu

dé ra, dong thoi sé dong hành, hồ trợ lần nhau trong quả trình thực hiện dự án đề đem lại hiệu

quả tốt nhất

Nhóm Trưởng

Kỹ và ghi gõ họ tên

Thành Viên

Ký và ghi gõ họ tên

Trang 6

1 Mô tả dữ liệu

- Dữ liệu được thực hiện có tên là : Diamonds Prices [1]

- Tài liệu này khám phá tập dữ liệu chứa giá và thuộc tính của 53.943 viên kim

PHAN NOI DUNG

cuong trong tap dir liu véi 10 dac diém (carat, cut, color, clarity, depth, table, price,

x, y, and Z) Bang | m6 ta dai dién dữ liệu của 5 viên kiêm cương đầu và 5 viên kim cương cuối danh sách Bao gồm L1 cột, có phạm vi: 53.943 mục Chúng có 3 biến phân loại và § biên số

Bảng 1 Tập dữ liệu chứa giá và thuộc tính của 53.943 viên kim cương cắt tròn

1 0.23 | ldeal E SI2 61.5 55.0 | 326 3.95 | 3.98 | 2.43

2 0.21 Premium | E sit 59.8 61.0 | 326 3.89 | 3.84 | 2.31

3 0.23 | Good E VS1 56.9 65.0 | 327 405 | 4.07 | 2.31

4 0.29 | Premium | | VS2 62.4 58.0 |334 420 14.23 | 2.63

5 031 | Good J SI2 63.3 58.0 | 335 4.34 | 4.35 | 2.75

53939 0.86 | Premium | H SI2 61.0 58.0 |2757 |6.15 |6.12 |3.74

53940 9.75 | ldeal D SI2 62.2 550 |2757 |5.83 |5.87 |3.64

53941 0.71 Premium | E sit 60.5 55.0 | 2756 | 5.79 | 5.74 | 3.49

53942 0.71 Premium | F sit 59.8 62.0 | 2756 | 5.74 | 5.73 | 3.43

53943 0.70 | Very Good| E VS2 60.5 59.0 |2757 |5.71 |5.76 13.47

«cut

¢ color

- Thuộc tính của các dữ liệu:

+ Thuộc tính carat năm trong khoảng tử 0,2 đến 5,01

+ Thuộc tính depth variable ranges between 43% and 79%

+ Thuộc tính price dao động từ 326 đến 18.923, voi giá trung bình là 393279 (Giá có phạm vị rộng)

+ Các thuộc tính X, Y, Z biểu diễn kích thước của kim cương Với giá trị z đạt

tới 31,8 mm và giá trị x đạt tới 10,7 mm Gia tri y gan voi pham vi gia trị x nhưng

có giá trị ngoại lệ

+ Các thuộc tính phân loại CUt, color, clarity có các giá trị duy nhất

[Fair', Good''Ideal','Premium','Very Good]

[D,E,T,G,H,1,J]

ƑSI1", "SI2", "VS1", "VS2", "WS1", "WS2", "1", "I2"

5 giá trị

7 giá trị

« clarity 8 giá trị

- Các thông

+ Kiểu

†in khác

+ Nguồn sốc + Trường hợp

+ Đặc trưng

+ Giá tri bi mat

Regression

Thực tế

53.943

10

No

Trang 7

2.Y nghia của dữ liệu

Y tưởng chính của việc tập dữ liệu này là đê thực hành phân tích dữ liệu với các

sinh viên Đây là bộ dữ liệu về giá của kim cương dựa vào các yếu tô như:carat, cut,

color, clarity, depth, table, price, x, y,z Sau đây chúng tôi sẽ giải thích ý nghĩa của từng thành phần có trong tập đữ liệu

- carat: Trọng lượng của viên kim cương, tính bằng carat Một carat bằng 200

miligam

- cụt: Chất lượng cắt của kim cương, ảnh hưởng đến độ sáng và độ cháy của nó

Các loại cắt có thể có bao gồm Lý tưởng, Cao cấp, Rất tốt, Tốt và Trung bình

- color: Màu sắc của kim cương, từ D (không màu) đến Z (vàng nhạt)

- clarity: Dé trong suốt của kim cuong, dé cap đến sự hiện diện của tạp chất (lỗi

bên trong) và nhược điểm (lỗi bên ngoài) Các cấp độ trong suốt có thể có bao gồm

Không tì vét, Không tì vết bên trong, Rất rất ít tạp chất, Rất ít tạp chất, Có tạp chất

và Có tạp chất nhiều

- depth: Tỷ lệ giữa chiều cao của kim cương và đường kính trung bình của nó

- table: Chiều rộng của mặt trên cùng của kim cương, được thể hiện dưới dạng

phần trăm đường kính trung bình của nó

- pice: Giá của kim cương, tính bằng đô la Mỹ

- x: Chiểu dài của kim cương, tính bằng milimét

- y: Chiều rộng của kim cương, tính bằng milimét

- z: Độ sâu của kim cương, tính bằng milimét

Những yếu tố trên được thu tập và đưa ra nhiều số liệu cụ thể và từ những số liệu

trên sẽ được tông hợp lại và đưa ra kết luận cuối cùng là giá của kim cương

3 Phân tích dữ liệu và lựa chọn mô hình

- Bộ dữ liệu về giá của km cương bao gôm: 53.943 phân tử, 1Ô thuộc tinh (carat, cut, color, clarity, depth, table, x, y,z) và 1 nhãn price (giá kim cương

- Trực quan hóa số liệu

°

2000

025 050 075 100 125 150 175 200 59 60 61 62 63 64 52 54 5 58 60 62 64

Hình 1 7rực quan hóa đữ liéu Cartat, Depth, Table

- Carat so với Price: Thông thường carat của một viên kim cương tăng thì giá cũng có

xu hướng tăng Quan sát sẽ thầy môi tương quan tích cực, trong đó các điêm thường

7

Trang 8

tăng lên về bên phải Sự phân bô cũng có thê cho thấy sự gia tăng phi tuyến tính,

trong đó giá tăng mạnh sau một ngưỡng trọng lượng nhất định Nếu thấy có nhiều

biến thé 6 trọng lượng cao hơn, điều này có thể cho thấy sự thay đổi về chất lượng

ảnh hưởng đến giá cả

- Depth so với Price: Depth đề cập đến chiều cao của kim cương so với chiều rộng

của nó Trong khi phạm vi tối ưu của phần trăm độ sâu có thể tương quan với giá cao hơn (chỉ ra vết cắt tốt hơn), độ sâu cực đại (quá nông hoặc quá sâu) có thể tương quan với giá thấp hơn Quan sát biêu đồ phân tán có thể hiển thị các cụm điểm chỉ ra rằng

kim cương có độ sâu tối ưu có giá cao hơn, trong khi các giá trị ngoại lệ hoặc phân

phối phân tán hơn có thé chi ra it tong quan hon

- Table so véi Price:Tỷ lệ phần trăm bảng là chiều rộng của mặt trên cùng của kim

CƯƠNg Giống như độ sâu, có một phạm vi tối ưu cho tỷ lệ phần tram bang, noi kim

cương có giá trị nhất Quan sat có thể thấy sự phân phối đồng đều hơn hoặc một số

nhóm Nếu không có xu hướng rõ ràng, tỷ lệ phần trăm bảng có thể không ảnh hưởng

đáng kế đến giá

10000 10000 + 100004 „

»

&

4000 -| 4000

2000 -| 2000

° r r r ' , 94 * x + x 0

4 5 6 7 8 4 5 6 7 8 15 20 25 30 35 40 45 50

Hình 2 Truc quan héa dit liéu X length, Y width, Z_depth

- X length so v6i Price: X length thuong biéu thị chiều đài của kim cương tính

bang mm Tương tự như trọng lượng, kích thước lớn hơn thường chỉ ra viên kim cương lớn hơn, thường dẫn đến giá cao hơn Quan sát có thể thấy rõ mối tương

quan tích cực, với giá tăng khi X length tăng

- Y_width so với Price: Y_width biểu thị chiều rộng của kim cương tính bằng

mm Tương tự như X_ length, kim cương rộng hơn thường lớn hơn và đắt hơn

Quan sát dự kiến mẫu tương tự như X length so với Price Mối quan hệ cho

thấy chiều rộng là yếu tô quan trong trong việc xác định giá

Trang 9

- Z Depth so véi Gia: Z_ depth biéu thị chiều cao của kim cương Mặc dù

Z depth có thê ảnh hưởng đến vẻ chất lượng cắt của kim cương Quan sát có thé thấy rõ mỗi tương quan tích cực, với giá tăng khi Z depth tăng

Dữ liệu đề dự đoán các giá trị mục tiêu là giá trị liên tục nên lựa chọn mô hình

hồi quy ( Regression) Các mô hình Regression được lựa chọn trong bài báo cáo

này là:

+ Linear Regression

+ Hidge Regression

+ Lasso Regression

+ Polynomial Regression

+ Random Forest Regression

4 Cấu hình máy tính

- _ Cấu hỉnh máy tính thứ nhất:

Device name WINDOWS-11

Processor AMD Ryzen 5 4600H with Radeon Graphics 3.00 GHz

Installed RAM _ 8,00 GB (7,40 GB usable)

Device ID E8FC3A2B-F9FB-4B32-A6DF-C8E04CBEB752 Product ID 00331-10000-00001-AA177

System type 64-bit operating system, x64-based processor

Pen and toụch Nopenor touch input is available for this display

- _ Cấu hình máy tính thứ hai:

Device name Dell Inspiron15 3501 Processor 11th Gen Intel(R)Core(TM)i5-1135G7@ 2.40GHz 2.42 GHz Installed RAM 8,00 GB (7,73 GB usable)

Device ID 071EA485-FD6D-497B-8A30-C4633252252A Product ID 00327-35922-30475-AAOEM

System type 64-bit operating system, x64-based processor

Pen and touch No penor touch input is available for this display

4 Tiền xứ lý dữ liệu và chia tập dữ liệu

Trong bước này, chúng tôi tiến hành các công đoạn tiền xử lý dữ liệu nhằm đảm bảo rằng đữ liệu sẵn sàng cho việc huấn luyện các mô hình máy học Các thao

tác tiền xử lý bao gồm việc đổi tên cột, xử lý giá trị trùng lặp, phát hiện và loại

bỏ các ngoại lệ, mã hóa các biến phân loại, và chuẩn hóa các biến số

4.1 Đôi tên các cột

Đầu tiên, chúng tôi loại bỏ cột không cần thiết Unnamed: 0 và đổi tên các cột để

thuận tiện cho việc xử lý sau này Việc đôi tên giúp đảm bảo tính nhât quán và dé

hiệu của các cột trong tập dữ liệu

Trang 10

df = df.drop('U df.columns = ['C

"Table 2

Y 00s

Hình 3 Déi tén các cột

4.2 Xử lý dữ liệu trùng lặp

Sau khi kiểm tra, chúng tôi phát hiện một số giá trị trùng lặp và đã tiễn hành loại bỏ chúng đề trãnh ảnh hưởng đên hiệu suât của mô hình

df.drop_duplicates(inplace=True)

Vn he)

Hình 4 Xử 1ý đữ liệu trùng lặp

4.3 Phát hiện và loại bỏ các ngoại lệ

Tiếp theo, chúng tôi sử dụng biểu đồ hộp (boxplot) để trực quan hóa và phát hiện các giá trị ngoại lệ trong các cột số như Carat, Depth, Table, Price, X length, Y_ width, va Z Depth Cac gia tri này có thể ảnh hưởng xấu đến độ chính xác của m6 hinh, vi vậy chúng tôi tiễn hành loại bỏ những hàng có chứa các ngoại lệ

b ŒÖ - ñ

ef detect_outliers(data, column)

q1 = df[column].quantil 5) q3= df[column] quanti1e(.75) IQR = q3-ql

lower_bound = qi - (1.5*IQR) upper_bound = q3 + (1.5*IQR)

ls = df.index[(df[column] <lower_bound df{column] > upper_bound

se

index_list = []

column in numeric_co1s

index_1ist.extend(detect_out1iers (đf,co1umn) ) dup1icat

index_list sorted(set (index_list))

Hình 5 Phát hiện và loại bỏ các ngoại lệ

10

Trang 11

Hình 6 Phái hiện và loại bỏ các ngoại lệ

4.4 Mã hóa biến phân loại

Chúng tôi sử dụng phương pháp mã hóa thường (ordinal encoding) để chuyền đôi

các biến phân loại như Cut Quality, Color, va Clarity thanh cac giá trị số Điều này giúp các thuật toán hồi quy và học máy dễ dàng xử lý các biến phân loại nảy

Hình 7 Ma hoa bién phân loại

4.5 Chuân hóa các biên số

Dữ liệu chứa các biến số có đơn vị đo lường hoặc phạm vi giá trị khác nhau (ví dụ:

Carat từ 0.2 đến 5, nhưng Price từ 300 đến 20,000), các biến có giá trị lớn hơn có thê

chiếm ưu thế hơn so với các biến nhỏ hơn trong các thuật toán học máy, đặc biệt là những thuật toán sử dụng khoảng cách (distance-based algorithms) hoặc những thuật toán nhạy cảm với giá trị Tôi đã sử dụng S†tandardScaler của thư viện Scikit-learn

dé chuan hoa các biến số như Carat, X length, Y width, va Z Depth Diéu nay giup đảm bảo rằng các biến này nằm trong cùng một phạm vi và tránh gây ảnh hưởng đến

mô hình đây là cách thực hiện chuẩn hóa theo Z-score Công cụ này sẽ chuẩn hóa các giá trị sao cho chúng có trung bình là 0 và độ lệch chuẩn là I

Hình 8 Ciuẩn hóa các biến số

4.6 Chia tập dữ liệu thành tập huấn luyện và kiểm tra

Tôi chia tập dữ liệu thành tập huấn luyện và kiểm tra với tỷ lệ 80% cho huấn luyện

và 20% cho kiêm tra đê nhăm đánh giá hiệu suat của các mô hình

Hình 9 Ca rập đữ liệu thành tập huấn luyện và kiểm tra

11

Trang 12

5 Huấn luyện và Kết quả thực nghiệm

Trong phân này, sẽ trình bày quá trình huân luyện các mô hình học máy, đánh giá độ chính xác của chúng, và so sánh kết quả giữa các mô hình khác nhau Dữ liệu sau khi được tiền xử lý (gồm việc phát hiện và loại bỏ ngoại lệ, chuẩn hóa các biến

số) đã được sử dụng đề huấn luyện nhiều mô hình hồi quy khác nhau nhằm dự đoán giá trị của biến mục tiêu Price Được đánh giá lần lược qua máy l và máy 2

5.1 Huấn luyện mô hình Linear Regression

Mô hình Linear Regression [2] được sử dụng đầu tiên dé kiểm tra mối quan hệ tuyến tính giữa các biến đầu vào và biến mục tiêu Linear Regression là một thuật toán cơ

bản giúp xác định mức độ tuyến tính của các biến đầu vào ảnh hưởng đến biến đầu

ra

om Hồi quy tuyến tính MAY1 Hồi quy tuyến tính MaY2

9000

-2000

° 2000 4000 6000 8000 10000 12090 L 2000 4000 6000 8000 10000 12000 Giá trị thực tế Giá trị thực tế

The train accuracy : 0.91337 The train accuracy : 0.91423 The test accuracy : 0.91863 The test accuracy : 0.91524 5.2 Huan luyén m6 hinh Ridge Regression

Mo hinh Ridge Regression [3] là phiên bản cải tiến của hồi quy tuyến tính, sử dụng regularization để giảm thiểu hiện tượng overfitting bằng cách thêm tham số điều

chỉnh vào hàm mat mat

Ridge Regression MAY1 Ridge Regression MAY2

2000 4000 6000 8000 10000 12090 FE —

‘ 0 2000 4000 6000 8000 10000 12000 Giá trị thực tế Giá trị thực tế

The train accuracy : 0.91337 The train accuracy : 0.91423

12

Tiêu đề	Đề tài dự đoán giá kim cương
Tác giả	Nguyễn Kim Tuyền, Nguyễn Minh Triều
Người hướng dẫn	GV: Lưu Tiến Đạo
Trường học	Đại học Cần Thơ
Chuyên ngành	Công nghệ thông tin & truyền thông
Thể loại	báo cáo
Năm xuất bản	2024
Thành phố	Cần Thơ

Định dạng
Số trang	20
Dung lượng	2,46 MB