Đặc biệt,việc áp dụng các kỹ thuật của data mining - hay còn gọi là khai phá dữliệu - đã đóng vai trò quan trọng trong việc đưa ra dự đoán và phân loạidữ liệu.Đây là một lĩnh vực khoa họ
Trang 1TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU
ÁP DỤNG MÔ HÌNH HỒI QUY TUYẾN TÍNH TRONG
DỰ ĐOÁN GIÁ XE Ô TÔ CŨ
LÊ HỒNG QUANG Giảng viên hướng dẫn: VŨ VĂN ĐỊNH
Hà Nội, tháng 4 năm 2024
Trang 2PHIẾU CHẤM ĐIỂM
Họ và tên giảng
Giảng viên chấm
1:
Giảng viên chấm
2:
Trang 3MỤC LỤC
LỜI CẢM ƠN 1
LỜI MỞ ĐẦU 2
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, TIỀN XỬ LÝ DỮ LIỆU 3
1.1.Đặt vấn đề 3
1.2 Tổng quan về khai phá dữ liệu 4
1.2.1 Khái niệm 4
1.2.2 Quy trình khai phá dữ liệu 4
1.2.3 Lợi ích của khai phá dữ liệu 5
1.2.4 Ứng dụng của khai phá dữ liệu 6
1.3 Tiền xử lý dữ liệu 7
1.3.1 Khái niệm và vai trò 7
1.3.2 Các bước thực hiện 7
CHƯƠNG 2: KHÁI QUÁT CÁC THUẬT TOÁN ĐƯỢC SỬ DỤNG ĐỂ KHAI PHÁ DỮ LIỆU 10
2.1 Phân lớp dữ liệu 10
2.1.1 Khái niệm 10
2.1.2 Các thuật toán phân lớp dữ liệu 10
2.2 Khai phá, kết hợp dữ liệu 10
2.2.1 Khai phá(Exploration) 10
2.2.2 Kết hợp (Intergration) 11
2.3 Phân cụm 11
2.3.1 Khái niệm 11
2.3.2 Các thuật toán phân cụm 12
2.4 Sử dụng mô hình hồi quy tuyến tính để dự đoán giá xe ô tô cũ 13
2.4.1 Khái niệm mô hình hồi quy tuyến tính 13
2.4.2 Ưu điểm của mô hình hồi quy tuyến tính 14
2.4.3 Nhược điểm của mô hình hồi quy tuyến tính 14
CHƯƠNG 3 CHẠY THỬ NGHIỆM CHƯƠNG TRÌNH VÀ HIỂN THỊ KẾT QUẢ 16
3.1.Các bước thử nghiệm 16
Trang 4DANH MỤC HÌNH ẢNH
dữ liệu
Trang 5LỜI CẢM ƠN Môn học “Khai phá dữ liệu” là một môn học trí tuệ nhân tạo quan trọng đối với chúng em Sau khi hoàn thành đề tài này chúng em đã phần nào hiểu được thế nào là máy học, biết được các phương pháp và thuật toán khai phá dữ liệu, có được một chương trình cơ bản Để có được những thành công như vậy, ngoài sự nỗ lực của các thành viên trong nhóm còn có sự giúp đỡ tận tình của thầy giáo hướng dẫn và sự tìm tòi ham học hỏi của các bạn trong nhóm
Đặc biệt, chúng em xin cảm ơn đến Thầy Vũ Văn Định - giảng viên Khoa Công nghệ thông tin - Trường Đại học Điện Lực đã tận tình giúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình nghiên cứu và học tập của nhóm Trong thời gian học tập với thầy, nhóm chúng em đã tiếp thu thêm nhiều kiến thức bổ ích và học tập được tinh thần làm việc hiệu quả và chuyên nghiệp của thầy Đây là những điều rất cần thiết cho chúng em trong quá trình học tập và công tác sau này
Do kiến thức còn hạn chế và do bước đầu đi vào thực tế, tìm hiểu
và xây dựng đồ án trong thời gian có hạn nên bài làm của chúng em không tránh khỏi những thiếu sót Chúng em rất mong nhận được ý kiến đóng góp của thầy cô giáo và các bạn để nhóm có thêm kinh nghiệm và tiếp tục hoàn thiện báo cáo của mình Chúng em xin chân thành cảm ơn!
1
Trang 6LỜI MỞ ĐẦU
Công nghệ ngày nay đã trở nên phổ biến và không ai có thể phủ nhận được tầm quan trọng và những hiệu quả mà nó đem lại cho cuộc sống chúng ta Bất kỳ trong lĩnh vực nào, sự góp mặt của trí tuệ nhân tạo
sẽ giúp con người làm việc và hoàn thành tốt công việc hơn Đặc biệt, việc áp dụng các kỹ thuật của data mining - hay còn gọi là khai phá dữ liệu - đã đóng vai trò quan trọng trong việc đưa ra dự đoán và phân loại
dữ liệu
Đây là một lĩnh vực khoa học tuy không mới, nhưng cho thấy lĩnh vực trí tuệ nhân tạo đang ngày càng phát triển và có thể tiến xa hơn trong tương lai Đồng thời, thời điểm này nó được xem là một lĩnh vực ‘nóng”
và dành nhiều mối quan tâm để phát triển nó một cách mạnh mẽ, bùng nổ hơn
Hiện nay, việc quan tâm tới data mining càng ngày càng tăng lên là
vì nhờ có data mining giúp chúng ta tăng dung lượng lưu trữ các loại dữ liệu sẵn, việc xử lý tính toán có chi phí thấp và hiệu quả rất nhiều Những điều trên được hiểu là nó có thể thực hiện tự động, nhanh chóng để tạo ra những mô hình cho phép phân tích các dự liệu có quy mô lớn hơn và phức tạp hơn đồng thời đưa ra những kết quả một cách nhanh
và chính xác hơn trong việc dự đoán giá xe ô tô cũ
Chính sự hiệu quả trong công việc và các lợi ích vượt bậc mà nó đem lại cho chúng ta khiến data mining ngày càng được chú trọng và quan tâm nhiều hơn Vì vậy, nhóm chúng em đã lựa chọn đề tài “Áp dụng
mô hình hồi quy tuyến tính trong dự đoán giá xe ô tô cũ”
2
Trang 7CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ KHAI PHÁ DỮ
LIỆU, TIỀN XỬ LÝ DỮ LIỆU 1.1.Đặt vấn đề
Trong thời đại số hóa hiện nay, việc tích hợp công nghệ thông tin vào lưu trữ và xử lý dữ liệu đã trở thành xu hướng phổ biến, mở ra cánh cửa cho việc thu thập và lưu trữ một lượng lớn thông tin Điều này tạo ra một cơ sở lý tưởng cho việc khai thác các kho dữ liệu để tạo
ra tri thức có ích thông qua các công cụ truy vấn, việc lập bảng biểu và khai phá dữ liệu
Khai phá dữ liệu là một kỹ thuật phức tạp, dựa trên nền tảng của nhiều lý thuyết như xác suất, thống kê và máy học, nhằm khám phá các tri thức tiềm ẩn trong các kho dữ liệu lớn mà con người khó có thể nhận biết bằng các phương pháp truyền thống
Dự đoán giá xe ô tô cũ là một thách thức trong ngành công nghiệp ô tô, với nhiều yếu tố phức tạp ảnh hưởng đến giá cả, cũng như các yếu tố thị trường như nhu cầu và cung ứng Trong bối cảnh này,
áp dụng mô hình hồi quy tuyến tính có thể giúp dự đoán giá xe ô tô cũ một cách hiệu quả hơn Điều này đặt ra vấn đề về cách sử dụng các biến độc lập (như tuổi của xe, số lượng km đã đi, hãng sản xuất, v.v.)
để dự đoán giá trị phụ thuộc (giá của xe ô tô cũ) Đồng thời, cần xem xét vấn đề về việc làm sạch và tiền xử lý dữ liệu, chọn lựa biến độc lập phù hợp và xác định mô hình tốt nhất để dự đoán giá xe ô tô cũ với
độ chính xác cao nhất
Với sự kết hợp giữa kho dữ liệu phong phú và khả năng phân loại chính xác của mô hình hồi quy tuyến tính, nhóm em tin rằng chủ
đề này sẽ đóng góp vào việc nâng cao khả năng dự đoán chính xác giá
xe, mang lại lợi ích lớn cho những người có nhu cầu mua xe Chúng
em hy vọng rằng công trình nghiên cứu này sẽ mang lại những phát triển tích cực và ứng dụng thực tiễn
3
Trang 81.2 Tổng quan về khai phá dữ liệu
1.2.1 Khái niệm
Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu Đây là một lĩnh vực liên ngành của khoa học máy tính
Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Các phương pháp và công cụ trong khai phá dữ liệu bao gồm các kỹ thuật từ lĩnh vực máy học, thống kê, trí tuệ nhân tạo và cơ
sở dữ liệu Điều này giúp tự động hóa quá trình phân tích dữ liệu và tạo ra tri thức có ích từ dữ liệu, giúp đưa ra các quyết định thông minh
và dự đoán chính xác
1.2.2 Quy trình khai phá dữ liệu
- Xác định mục tiêu: Đầu tiên, cần xác định mục tiêu và yêu cầu của mình trong việc khai phá dữ liệu Chúng ta nên biết rõ những câu hỏi cần trả lời hoặc thông tin mà chúng ta muốn khám phá từ dữ liệu
- Thu thập dữ liệu: Sau khi xác định mục tiêu, cần thu thập dữ liệu phù hợp để thực hiện khai phá Dữ liệu có thể bao gồm từ các nguồn như
cơ sở dữ liệu, tệp tin, trang web hoặc các nguồn dữ liệu công khai
- Tiền xử lý dữ liệu: Trước khi bắt đầu phân tích dữ liệu, dữ liệu thường cần được tiền xử lý để làm cho nó phù hợp để khai phá Bước này bao gồm làm sạch dữ liệu, xử lý các giá trị thiếu, định dạng dữ liệu và chuyển đổi dữ liệu thành định dạng phù hợp cho khai phá
- Khám phá dữ liệu: Sau khi tiền xử lý dữ liệu, chúng ta sẽ sử dụng các phương pháp và thuật toán khai phá dữ liệu để khám phá những tri thức tiềm ẩn từ dữ liệu Các phương pháp thường được sử dụng bao gồm phân tích gom nhóm, phân loại, học máy, khám phá quy luật kỳ vọng và phân tích luận đề
- Đánh giá và lựa chọn mô hình: Bước này liên quan đến đánh giá các
mô hình khai phá dữ liệu đã tạo ra và lựa chọn mô hình tốt nhất để sử dụng Đánh giá mô hình được thực hiện bằng cách sử dụng các công
cụ và kỹ thuật đánh giá như ma trận nhầm lẫn, độ chính xác, độ tin cậy, độ phủ và các phân phối mô hình
4
Trang 9- Triển khai và khai thác tri thức: Sau khi chọn mô hình tốt nhất, chúng
ta sẽ triển khai mô hình này để khai thác tri thức từ dữ liệu Bạn có thể
sử dụng mô hình để dự đoán, phân loại hoặc tạo ra báo cáo để giúp đưa ra quyết định hoặc hiểu rõ hơn về dữ liệu
- Đánh giá và cải thiện: Cuối cùng, sau khi triển khai mô hình, chúng ta nên đánh giá hiệu suất của mô hình và cải thiện nó nếu cần thiết Điều này bao gồm xem xét lại dữ liệu, phát hiện và xử lý các vấn đề phát sinh và điều chỉnh mô hình hoặc quá trình khai phá dữ liệu
Hình 1.1 Mô hình khám phá tri thức trong data mining Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:
- Data cleaning (làm sạch dữ liệu)
- Data integration (tích hợp dữ liệu)
- Data selection (chọn lựa dữ liệu)
- Data transformation (biến đổi dữ liệu)
- Data mining (khai phá dữ liệu)
- Pattern evaluation (đánh giá mẫu)
- Knowledge presentation (biểu diễn tri thức)
1.2.3 Lợi ích của khai phá dữ liệu
Quá trình khai phá dữ liệu mang lại nhiều lợi ích trong việc phân tích dữ liệu
- Tối ưu hóa chiến dịch tiếp thị: Data mining giúp tổ chức phân tích dữ liệu liên quan đến khách hàng như hành vi mua hàng, sở thích và tích
5
Trang 10lũy thông tin khách hàng từ các nguồn khác nhau Điều này giúp bạn hiểu rõ hơn về đối tượng khách hàng và tạo ra chiến dịch tiếp thị hiệu quả hơn Từ việc định giá sản phẩm đến việc quảng cáo và quản lý các mối quan hệ khách hàng
- Phát hiện gian lận và rủi ro: Data mining có thể giúp phát hiện ra các hành vi gian lận và rủi ro tiềm ẩn trong dữ liệu Chẳng hạn, trong lĩnh vực tài chính, việc áp dụng data mining cho dữ liệu giao dịch có thể giúp bạn phát hiện các hành vi gian lận, giao dịch bất thường hoặc dự đoán rủi ro tài chính Điều này giúp tổ chức có biện pháp phòng ngừa
và quản lý rủi ro tốt hơn
- Nâng cao dự đoán và dự báo: Data mining cung cấp các công cụ kỹ thuật để phân tích dữ liệu lịch sử và dự đoán xu hướng tương lai Với data mining, bạn có thể xây dựng các mô hình dự đoán có độ chính xác cao, từ dự báo thị trường đến dự đoán nhu cầu sản phẩm Điều này giúp tổ chức có cái nhìn chi tiết và đáng tin cậy để đưa ra quyết định chiến lược trong tương lai
- Tối ưu hóa quy trình sản xuất và vận hành: Data mining cung cấp thông tin quan trọng cho việc quản lý quy trình sản xuất và vận hành Bằng cách phân tích dữ liệu từ các hệ thống quản lý sản xuất hoặc dữ liệu cảm biến, bạn có thể tìm ra các quy luật và mô hình liên quan đến hiệu suất sản xuất, tiêu thụ năng lượng cũng như các vấn đề khác Điều này giúp bạn tối ưu hóa quy trình sản xuất, giảm lãng phí và tăng năng suất Hơn nữa, data mining còn giúp bạn phát hiện sự cố và dự đoán cảnh báo sớm, giúp quản lý vận hành một cách hiệu quả hơn 1.2.4 Ứng dụng của khai phá dữ liệu
- Kinh doanh và tiếp thị: Data mining đóng vai trò quan trọng trong lĩnh vực kinh doanh và tiếp thị Bằng cách phân tích các dữ liệu khách hàng, doanh nghiệp có thể nhận biết được xu hướng và thị trường tiềm năng Data mining giúp tìm ra nhóm khách hàng tiềm năng, từ đó tạo
ra chiến lược tiếp thị đích thực, hiệu quả Ngoài ra, nó cũng giúp dự đoán nhu cầu của khách hàng cũng như tạo ra các chiến dịch tiếp thị
cá nhân hóa
- Sức khỏe và y tế: Data mining cũng được áp dụng rộng rãi trong lĩnh vực sức khỏe và y tế: Bằng cách phân tích dữ liệu bệnh nhân, data mining giúp phát hiện ra các xu hướng và mối quan hệ giữa các yếu tố
y tế Điều này giúp cải thiện việc chẩn đoán bệnh, dự đoán kết quả
6
Trang 11điều trị và tối ưu hóa quy trình chăm sóc sức khỏe Ngoài ra, data mining cũng giúp phát hiện bất thường hoặc dự đoán dịch bệnh, góp phần cải thiện công tác phòng ngừa, kiểm soát dịch bệnh
- Khoa học và nghiên cứu: Data mining đóng vai trò quan trọng trong lĩnh vực khoa học và nghiên cứu Bằng cách phân tích dữ liệu từ các nghiên cứu hoặc thí nghiệm, data mining giúp phát hiện ra các mô hình và quy luật ẩn trong dữ liệu Điều này giúp các nhà nghiên cứu hiểu rõ hơn về các hiện tượng, đồng thời tạo ra những kiến thức mới Data mining cũng giúp tìm ra các mẫu và xu hướng trong dữ liệu lớn, giúp nghiên cứu tiến xa hơn cũng như đưa ra dự đoán chính xác
- Tài chính và ngân hàng: Data mining có sự ứng dụng rộng rãi trong lĩnh vực tài chính và ngân hàng Bằng cách phân tích dữ liệu về giao dịch tài chính, data mining giúp nhận biết các xu hướng và mẫu lặp lại trong thị trường tài chính Điều này giúp các nhà đầu tư đưa ra quyết định thông minh và tối ưu hóa lợi nhuận Data mining cũng giúp các ngân hàng phân tích rủi ro, gian lận tài chính, giúp đảm bảo an toàn và bảo mật cho khách hàng
1.3 Tiền xử lý dữ liệu
1.3.1 Khái niệm và vai trò
Tiền xử lý là quá trình tiền xử lý dữ liệu trước khi chúng được
sử dụng trong các bước xử lý chính Nó bao gồm các bước như chuẩn hóa, lọc dữ liệu, loại bỏ nhiễu, xử lý giá trị thiếu và biến đổi dữ liệu để tạo ra dữ liệu sạch và hợp lý cho các bước tiếp theo
Vai trò của tiền xử lý là rất quan trọng Qua quá trình tiền xử lý, chúng ta có thể làm sạch và chuẩn hóa dữ liệu, loại bỏ các giá trị nhiễu
và xử lý các giá trị thiếu Điều này giúp cải thiện chất lượng dữ liệu và tăng độ chính xác của quá trình xử lý Ngoài ra, tiền xử lý cũng có thể giúp chúng ta rút trích các đặc trưng quan trọng và giảm số chiều của
dữ liệu, từ đó giúp cho quá trình xử lý sau này trở nên hiệu quả hơn 1.3.2 Các bước thực hiện
B1: Loại bỏ nhiễu
7
Trang 12Loại bỏ nhiễu và điền giá trị còn thiếu là hai phương pháp quan trọng trong quá trình tiền xử lý dữ liệu Loại bỏ giá trị ngoại lai liên quan đến việc xác định và xử lý các giá trị ngoại lai trong dữ liệu Có thể sử dụng đồ thị hộp hoặc phân phối xác suất để xác định các giá trị ngoại lai và sau đó quyết định loại bỏ hoặc thay thế chúng Điền giá trị còn thiếu liên quan đến việc xác định vị trí và số lượng giá trị còn thiếu trong dữ liệu Có thể sử dụng kiểm tra null hoặc phân phối dữ liệu để xác định giá trị còn thiếu và sau đó điền giá trị dựa trên các phương pháp như giá trị trung bình, giá trị trung vị hoặc giá trị gần nhất Quá trình này đảm bảo chất lượng dữ liệu trước khi thực hiện các bước tiền xử lý khác và đem lại kết quả phân tích chính xác và đáng tin cậy
B2: Chuẩn hóa dữ liệu
Chuẩn hóa dữ liệu là một bước quan trọng trong tiền xử lý dữ liệu
Có hai phương pháp chuẩn hóa phổ biến là chuẩn hóa Min-Max và chuẩn hóa Z-score Chuẩn hóa Min-Max đưa giá trị dữ liệu về khoảng [0, 1] bằng cách sử dụng công thức x_normalized = (x - min(x)) / (max(x) - min(x)), trong đó min(x) là giá trị nhỏ nhất và max(x) là giá trị lớn nhất trong tập dữ liệu Chuẩn hóa Z-score đưa giá trị dữ liệu về phân phối chuẩn với trung bình bằng 0 và độ lệch chuẩn bằng 1 bằng cách sử dụng công thức x_normalized = (x - mean(x)) / std(x), trong
đó mean(x) là giá trị trung bình và std(x) là độ lệch chuẩn của tập dữ liệu Chuẩn hóa dữ liệu giúp loại bỏ ảnh hưởng của tỷ lệ và biến đổi giá trị dữ liệu về dạng thống nhất, làm cho việc phân tích và xử lý dữ liệu dễ dàng hơn Chuẩn hóa Min-Max và Z-score là những công cụ hữu ích trong tiền xử lý dữ liệu
B3: Rút trích đặc trưng
Rút trích đặc trưng là một phần quan trọng trong tiền xử lý dữ liệu
Có hai phương pháp chính là rút trích theo tần số và rút trích theo thông tin Phương pháp rút trích theo tần số tập trung vào việc phân tích thành phần tần số của dữ liệu Các phương pháp này sử dụng biến đổi Fourier để chuyển đổi dữ liệu sang miền tần số, sau đó chọn lọc các thành phần tần số quan trọng để tạo ra đặc trưng mới Phương pháp này phù hợp cho dữ liệu có tính chất chu kỳ và thay đổi theo thời gian Phương pháp rút trích theo thông tin tập trung vào việc xác định đặc trưng quan trọng dựa trên thông tin trong dữ liệu Các phương
8