1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo chuyên đề học phần khai phá dữ liệu áp dụng mô hình hồi quy tuyến tính trong dự đoán giá xe ô tô cũ

20 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Đặc biệt,việc áp dụng các kỹ thuật của data mining - hay còn gọi là khai phá dữliệu - đã đóng vai trò quan trọng trong việc đưa ra dự đoán và phân loạidữ liệu.Đây là một lĩnh vực khoa họ

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU

ÁP DỤNG MÔ HÌNH HỒI QUY TUYẾN TÍNH TRONGDỰ ĐOÁN GIÁ XE Ô TÔ CŨ

LÊ HỒNG QUANGGiảng viên hướng dẫn: VŨ VĂN ĐỊNH

Hà Nội, tháng 4 năm 2024

Trang 2

Giảng viên chấm2:

Trang 3

1.2.2 Quy trình khai phá dữ liệu 4

1.2.3 Lợi ích của khai phá dữ liệu 5

1.2.4 Ứng dụng của khai phá dữ liệu 6

2.3.2 Các thuật toán phân cụm 12

2.4 Sử dụng mô hình hồi quy tuyến tính để dự đoán giá xe ô tô cũ 13

2.4.1 Khái niệm mô hình hồi quy tuyến tính 13

2.4.2.Ưu điểm của mô hình hồi quy tuyến tính 14

2.4.3.Nhược điểm của mô hình hồi quy tuyến tính 14

CHƯƠNG 3 CHẠY THỬ NGHIỆM CHƯƠNG TRÌNH VÀ HIỂN THỊ KẾT QUẢ 16

3.1.Các bước thử nghiệm 16

Trang 4

DANH MỤC HÌNH ẢNH

dữ liệu

Trang 5

LỜI CẢM ƠN

Môn học “Khai phá dữ liệu” là một môn học trí tuệ nhân tạo quantrọng đối với chúng em Sau khi hoàn thành đề tài này chúng em đã phầnnào hiểu được thế nào là máy học, biết được các phương pháp và thuậttoán khai phá dữ liệu, có được một chương trình cơ bản Để có đượcnhững thành công như vậy, ngoài sự nỗ lực của các thành viên trongnhóm còn có sự giúp đỡ tận tình của thầy giáo hướng dẫn và sự tìm tòiham học hỏi của các bạn trong nhóm.

Đặc biệt, chúng em xin cảm ơn đến Thầy Vũ Văn Định - giảngviên Khoa Công nghệ thông tin - Trường Đại học Điện Lực đã tận tìnhgiúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình nghiên cứu vàhọc tập của nhóm Trong thời gian học tập với thầy, nhóm chúng em đãtiếp thu thêm nhiều kiến thức bổ ích và học tập được tinh thần làm việchiệu quả và chuyên nghiệp của thầy Đây là những điều rất cần thiết chochúng em trong quá trình học tập và công tác sau này

Do kiến thức còn hạn chế và do bước đầu đi vào thực tế, tìm hiểuvà xây dựng đồ án trong thời gian có hạn nên bài làm của chúng emkhông tránh khỏi những thiếu sót Chúng em rất mong nhận được ý kiếnđóng góp của thầy cô giáo và các bạn để nhóm có thêm kinh nghiệm vàtiếp tục hoàn thiện báo cáo của mình Chúng em xin chân thành cảm ơn!

1

Trang 6

LỜI MỞ ĐẦU

Công nghệ ngày nay đã trở nên phổ biến và không ai có thể phủnhận được tầm quan trọng và những hiệu quả mà nó đem lại cho cuộcsống chúng ta Bất kỳ trong lĩnh vực nào, sự góp mặt của trí tuệ nhân tạosẽ giúp con người làm việc và hoàn thành tốt công việc hơn Đặc biệt,việc áp dụng các kỹ thuật của data mining - hay còn gọi là khai phá dữliệu - đã đóng vai trò quan trọng trong việc đưa ra dự đoán và phân loạidữ liệu.

Đây là một lĩnh vực khoa học tuy không mới, nhưng cho thấy lĩnhvực trí tuệ nhân tạo đang ngày càng phát triển và có thể tiến xa hơn trongtương lai Đồng thời, thời điểm này nó được xem là một lĩnh vực ‘nóng”và dành nhiều mối quan tâm để phát triển nó một cách mạnh mẽ, bùng nổhơn.

Hiện nay, việc quan tâm tới data mining càng ngày càng tăng lên làvì nhờ có data mining giúp chúng ta tăng dung lượng lưu trữ các loại dữliệu sẵn, việc xử lý tính toán có chi phí thấp và hiệu quả rất nhiều.

Những điều trên được hiểu là nó có thể thực hiện tự động, nhanhchóng để tạo ra những mô hình cho phép phân tích các dự liệu có quy môlớn hơn và phức tạp hơn đồng thời đưa ra những kết quả một cách nhanhvà chính xác hơn trong việc dự đoán giá xe ô tô cũ.

Chính sự hiệu quả trong công việc và các lợi ích vượt bậc mà nóđem lại cho chúng ta khiến data mining ngày càng được chú trọng vàquan tâm nhiều hơn Vì vậy, nhóm chúng em đã lựa chọn đề tài “Áp dụngmô hình hồi quy tuyến tính trong dự đoán giá xe ô tô cũ”.

2

Trang 7

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ KHAI PHÁ DỮLIỆU, TIỀN XỬ LÝ DỮ LIỆU

1.1.Đặt vấn đề

Trong thời đại số hóa hiện nay, việc tích hợp công nghệ thôngtin vào lưu trữ và xử lý dữ liệu đã trở thành xu hướng phổ biến, mở racánh cửa cho việc thu thập và lưu trữ một lượng lớn thông tin Điềunày tạo ra một cơ sở lý tưởng cho việc khai thác các kho dữ liệu để tạora tri thức có ích thông qua các công cụ truy vấn, việc lập bảng biểu vàkhai phá dữ liệu.

Khai phá dữ liệu là một kỹ thuật phức tạp, dựa trên nền tảng củanhiều lý thuyết như xác suất, thống kê và máy học, nhằm khám phácác tri thức tiềm ẩn trong các kho dữ liệu lớn mà con người khó có thểnhận biết bằng các phương pháp truyền thống

Dự đoán giá xe ô tô cũ là một thách thức trong ngành côngnghiệp ô tô, với nhiều yếu tố phức tạp ảnh hưởng đến giá cả, cũng nhưcác yếu tố thị trường như nhu cầu và cung ứng Trong bối cảnh này,áp dụng mô hình hồi quy tuyến tính có thể giúp dự đoán giá xe ô tô cũmột cách hiệu quả hơn Điều này đặt ra vấn đề về cách sử dụng cácbiến độc lập (như tuổi của xe, số lượng km đã đi, hãng sản xuất, v.v.)để dự đoán giá trị phụ thuộc (giá của xe ô tô cũ) Đồng thời, cần xemxét vấn đề về việc làm sạch và tiền xử lý dữ liệu, chọn lựa biến độclập phù hợp và xác định mô hình tốt nhất để dự đoán giá xe ô tô cũ vớiđộ chính xác cao nhất.

Với sự kết hợp giữa kho dữ liệu phong phú và khả năng phânloại chính xác của mô hình hồi quy tuyến tính, nhóm em tin rằng chủđề này sẽ đóng góp vào việc nâng cao khả năng dự đoán chính xác giáxe, mang lại lợi ích lớn cho những người có nhu cầu mua xe Chúngem hy vọng rằng công trình nghiên cứu này sẽ mang lại những pháttriển tích cực và ứng dụng thực tiễn.

3

Trang 8

1.2 Tổng quan về khai phá dữ liệu1.2.1 Khái niệm

Khai phá dữ liệu (data mining) là quá trình tính toán để tìm racác mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tạigiao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu Đây làmột lĩnh vực liên ngành của khoa học máy tính.

Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thôngtin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sửdụng tiếp Các phương pháp và công cụ trong khai phá dữ liệu baogồm các kỹ thuật từ lĩnh vực máy học, thống kê, trí tuệ nhân tạo và cơsở dữ liệu Điều này giúp tự động hóa quá trình phân tích dữ liệu vàtạo ra tri thức có ích từ dữ liệu, giúp đưa ra các quyết định thông minhvà dự đoán chính xác.

1.2.2 Quy trình khai phá dữ liệu

- Xác định mục tiêu: Đầu tiên, cần xác định mục tiêu và yêu cầu củamình trong việc khai phá dữ liệu Chúng ta nên biết rõ những câu hỏicần trả lời hoặc thông tin mà chúng ta muốn khám phá từ dữ liệu.- Thu thập dữ liệu: Sau khi xác định mục tiêu, cần thu thập dữ liệu phù

hợp để thực hiện khai phá Dữ liệu có thể bao gồm từ các nguồn nhưcơ sở dữ liệu, tệp tin, trang web hoặc các nguồn dữ liệu công khai.- Tiền xử lý dữ liệu: Trước khi bắt đầu phân tích dữ liệu, dữ liệu thường

cần được tiền xử lý để làm cho nó phù hợp để khai phá Bước này baogồm làm sạch dữ liệu, xử lý các giá trị thiếu, định dạng dữ liệu vàchuyển đổi dữ liệu thành định dạng phù hợp cho khai phá.

- Khám phá dữ liệu: Sau khi tiền xử lý dữ liệu, chúng ta sẽ sử dụng cácphương pháp và thuật toán khai phá dữ liệu để khám phá những trithức tiềm ẩn từ dữ liệu Các phương pháp thường được sử dụng baogồm phân tích gom nhóm, phân loại, học máy, khám phá quy luật kỳvọng và phân tích luận đề.

- Đánh giá và lựa chọn mô hình: Bước này liên quan đến đánh giá cácmô hình khai phá dữ liệu đã tạo ra và lựa chọn mô hình tốt nhất để sửdụng Đánh giá mô hình được thực hiện bằng cách sử dụng các côngcụ và kỹ thuật đánh giá như ma trận nhầm lẫn, độ chính xác, độ tincậy, độ phủ và các phân phối mô hình.

4

Trang 9

- Triển khai và khai thác tri thức: Sau khi chọn mô hình tốt nhất, chúngta sẽ triển khai mô hình này để khai thác tri thức từ dữ liệu Bạn có thểsử dụng mô hình để dự đoán, phân loại hoặc tạo ra báo cáo để giúpđưa ra quyết định hoặc hiểu rõ hơn về dữ liệu.

- Đánh giá và cải thiện: Cuối cùng, sau khi triển khai mô hình, chúng tanên đánh giá hiệu suất của mô hình và cải thiện nó nếu cần thiết Điềunày bao gồm xem xét lại dữ liệu, phát hiện và xử lý các vấn đề phátsinh và điều chỉnh mô hình hoặc quá trình khai phá dữ liệu.

Hình 1.1 Mô hình khám phá tri thức trong data miningQuá trình khám phá tri thức là một chuỗi lặp gồm các bước: - Data cleaning (làm sạch dữ liệu)

- Data integration (tích hợp dữ liệu) - Data selection (chọn lựa dữ liệu) - Data transformation (biến đổi dữ liệu) - Data mining (khai phá dữ liệu) - Pattern evaluation (đánh giá mẫu)

- Knowledge presentation (biểu diễn tri thức)1.2.3 Lợi ích của khai phá dữ liệu

Quá trình khai phá dữ liệu mang lại nhiều lợi ích trong việc phântích dữ liệu

- Tối ưu hóa chiến dịch tiếp thị: Data mining giúp tổ chức phân tích dữliệu liên quan đến khách hàng như hành vi mua hàng, sở thích và tích

5

Trang 10

lũy thông tin khách hàng từ các nguồn khác nhau Điều này giúp bạnhiểu rõ hơn về đối tượng khách hàng và tạo ra chiến dịch tiếp thị hiệuquả hơn Từ việc định giá sản phẩm đến việc quảng cáo và quản lý cácmối quan hệ khách hàng.

- Phát hiện gian lận và rủi ro: Data mining có thể giúp phát hiện ra cáchành vi gian lận và rủi ro tiềm ẩn trong dữ liệu Chẳng hạn, trong lĩnhvực tài chính, việc áp dụng data mining cho dữ liệu giao dịch có thểgiúp bạn phát hiện các hành vi gian lận, giao dịch bất thường hoặc dựđoán rủi ro tài chính Điều này giúp tổ chức có biện pháp phòng ngừavà quản lý rủi ro tốt hơn.

- Nâng cao dự đoán và dự báo: Data mining cung cấp các công cụ kỹthuật để phân tích dữ liệu lịch sử và dự đoán xu hướng tương lai Vớidata mining, bạn có thể xây dựng các mô hình dự đoán có độ chínhxác cao, từ dự báo thị trường đến dự đoán nhu cầu sản phẩm Điều nàygiúp tổ chức có cái nhìn chi tiết và đáng tin cậy để đưa ra quyết địnhchiến lược trong tương lai.

- Tối ưu hóa quy trình sản xuất và vận hành: Data mining cung cấpthông tin quan trọng cho việc quản lý quy trình sản xuất và vận hành.Bằng cách phân tích dữ liệu từ các hệ thống quản lý sản xuất hoặc dữliệu cảm biến, bạn có thể tìm ra các quy luật và mô hình liên quan đếnhiệu suất sản xuất, tiêu thụ năng lượng cũng như các vấn đề khác.Điều này giúp bạn tối ưu hóa quy trình sản xuất, giảm lãng phí và tăngnăng suất Hơn nữa, data mining còn giúp bạn phát hiện sự cố và dựđoán cảnh báo sớm, giúp quản lý vận hành một cách hiệu quả hơn.1.2.4 Ứng dụng của khai phá dữ liệu

- Kinh doanh và tiếp thị: Data mining đóng vai trò quan trọng trong lĩnhvực kinh doanh và tiếp thị Bằng cách phân tích các dữ liệu kháchhàng, doanh nghiệp có thể nhận biết được xu hướng và thị trường tiềmnăng Data mining giúp tìm ra nhóm khách hàng tiềm năng, từ đó tạora chiến lược tiếp thị đích thực, hiệu quả Ngoài ra, nó cũng giúp dựđoán nhu cầu của khách hàng cũng như tạo ra các chiến dịch tiếp thịcá nhân hóa.

- Sức khỏe và y tế: Data mining cũng được áp dụng rộng rãi trong lĩnhvực sức khỏe và y tế: Bằng cách phân tích dữ liệu bệnh nhân, datamining giúp phát hiện ra các xu hướng và mối quan hệ giữa các yếu tốy tế Điều này giúp cải thiện việc chẩn đoán bệnh, dự đoán kết quả

6

Trang 11

điều trị và tối ưu hóa quy trình chăm sóc sức khỏe Ngoài ra, datamining cũng giúp phát hiện bất thường hoặc dự đoán dịch bệnh, gópphần cải thiện công tác phòng ngừa, kiểm soát dịch bệnh.

- Khoa học và nghiên cứu: Data mining đóng vai trò quan trọng tronglĩnh vực khoa học và nghiên cứu Bằng cách phân tích dữ liệu từ cácnghiên cứu hoặc thí nghiệm, data mining giúp phát hiện ra các môhình và quy luật ẩn trong dữ liệu Điều này giúp các nhà nghiên cứuhiểu rõ hơn về các hiện tượng, đồng thời tạo ra những kiến thức mới.Data mining cũng giúp tìm ra các mẫu và xu hướng trong dữ liệu lớn,giúp nghiên cứu tiến xa hơn cũng như đưa ra dự đoán chính xác.- Tài chính và ngân hàng: Data mining có sự ứng dụng rộng rãi trong

lĩnh vực tài chính và ngân hàng Bằng cách phân tích dữ liệu về giaodịch tài chính, data mining giúp nhận biết các xu hướng và mẫu lặp lạitrong thị trường tài chính Điều này giúp các nhà đầu tư đưa ra quyếtđịnh thông minh và tối ưu hóa lợi nhuận Data mining cũng giúp cácngân hàng phân tích rủi ro, gian lận tài chính, giúp đảm bảo an toàn vàbảo mật cho khách hàng.

1.3 Tiền xử lý dữ liệu1.3.1 Khái niệm và vai trò

Tiền xử lý là quá trình tiền xử lý dữ liệu trước khi chúng đượcsử dụng trong các bước xử lý chính Nó bao gồm các bước như chuẩnhóa, lọc dữ liệu, loại bỏ nhiễu, xử lý giá trị thiếu và biến đổi dữ liệu đểtạo ra dữ liệu sạch và hợp lý cho các bước tiếp theo.

Vai trò của tiền xử lý là rất quan trọng Qua quá trình tiền xử lý,chúng ta có thể làm sạch và chuẩn hóa dữ liệu, loại bỏ các giá trị nhiễuvà xử lý các giá trị thiếu Điều này giúp cải thiện chất lượng dữ liệu vàtăng độ chính xác của quá trình xử lý Ngoài ra, tiền xử lý cũng có thểgiúp chúng ta rút trích các đặc trưng quan trọng và giảm số chiều củadữ liệu, từ đó giúp cho quá trình xử lý sau này trở nên hiệu quả hơn.1.3.2 Các bước thực hiện

B1: Loại bỏ nhiễu

7

Trang 12

Loại bỏ nhiễu và điền giá trị còn thiếu là hai phương pháp quantrọng trong quá trình tiền xử lý dữ liệu Loại bỏ giá trị ngoại lai liênquan đến việc xác định và xử lý các giá trị ngoại lai trong dữ liệu Cóthể sử dụng đồ thị hộp hoặc phân phối xác suất để xác định các giá trịngoại lai và sau đó quyết định loại bỏ hoặc thay thế chúng Điền giá trịcòn thiếu liên quan đến việc xác định vị trí và số lượng giá trị cònthiếu trong dữ liệu Có thể sử dụng kiểm tra null hoặc phân phối dữliệu để xác định giá trị còn thiếu và sau đó điền giá trị dựa trên cácphương pháp như giá trị trung bình, giá trị trung vị hoặc giá trị gầnnhất Quá trình này đảm bảo chất lượng dữ liệu trước khi thực hiệncác bước tiền xử lý khác và đem lại kết quả phân tích chính xác vàđáng tin cậy.

B2: Chuẩn hóa dữ liệu

Chuẩn hóa dữ liệu là một bước quan trọng trong tiền xử lý dữ liệu.Có hai phương pháp chuẩn hóa phổ biến là chuẩn hóa Min-Max vàchuẩn hóa Z-score Chuẩn hóa Min-Max đưa giá trị dữ liệu về khoảng[0, 1] bằng cách sử dụng công thức x_normalized = (x - min(x)) /(max(x) - min(x)), trong đó min(x) là giá trị nhỏ nhất và max(x) là giátrị lớn nhất trong tập dữ liệu Chuẩn hóa Z-score đưa giá trị dữ liệu vềphân phối chuẩn với trung bình bằng 0 và độ lệch chuẩn bằng 1 bằngcách sử dụng công thức x_normalized = (x - mean(x)) / std(x), trongđó mean(x) là giá trị trung bình và std(x) là độ lệch chuẩn của tập dữliệu Chuẩn hóa dữ liệu giúp loại bỏ ảnh hưởng của tỷ lệ và biến đổigiá trị dữ liệu về dạng thống nhất, làm cho việc phân tích và xử lý dữliệu dễ dàng hơn Chuẩn hóa Min-Max và Z-score là những công cụhữu ích trong tiền xử lý dữ liệu.

B3: Rút trích đặc trưng

Rút trích đặc trưng là một phần quan trọng trong tiền xử lý dữ liệu.Có hai phương pháp chính là rút trích theo tần số và rút trích theothông tin Phương pháp rút trích theo tần số tập trung vào việc phântích thành phần tần số của dữ liệu Các phương pháp này sử dụng biếnđổi Fourier để chuyển đổi dữ liệu sang miền tần số, sau đó chọn lọccác thành phần tần số quan trọng để tạo ra đặc trưng mới Phươngpháp này phù hợp cho dữ liệu có tính chất chu kỳ và thay đổi theo thờigian Phương pháp rút trích theo thông tin tập trung vào việc xác địnhđặc trưng quan trọng dựa trên thông tin trong dữ liệu Các phương

8

Trang 13

pháp này sử dụng các thuật toán như Information Gain, chi-squaretest, hoặc mutual information để đo lường mức độ quan trọng của từngđặc trưng Sau đó, chọn lọc và sử dụng các đặc trưng quan trọng nhất.Phương pháp này phù hợp cho dữ liệu có tính chất phân loại và tươngquan giữa các đặc trưng Việc chọn phương pháp rút trích đặc trưngphù hợp giúp cải thiện hiệu suất và độ chính xác của mô hình dữ liệu.Tuy nhiên, cần dựa trên tính chất và mục tiêu của dữ liệu cũng nhưyêu cầu của bài toán để lựa chọn phương pháp phù hợp.

B4: Chọn lọc đặc trưng

Chọn lọc đặc trưng nhằm loại bỏ các đặc trưng không cần thiếthoặc có ít ảnh hưởng đến quá trình phân loại hoặc dự đoán Có haiphương pháp chọn lọc đặc trưng như sau: 1 Chọn lọc theo tần số: Dựatrên tần suất xuất hiện của các đặc trưng trong dữ liệu Các đặc trưngcó tần suất xuất hiện cao được giữ lại 2 Chọn lọc theo thông tin: Dựatrên mức độ đóng góp của các đặc trưng trong phân loại hoặc dự đoán.Các đặc trưng có đóng góp cao được giữ lại Cả hai phương pháp đềucó ưu điểm và hạn chế riêng Việc lựa chọn phương pháp phù hợp cầndựa trên yêu cầu của bài toán và đặc điểm của dữ liệu.

9

Ngày đăng: 15/05/2024, 12:02

Xem thêm:

w