1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo chuyên đề học phần khai phá dữ liệu đề tài áp dụng mô hình hồi quy tuyến tính trong dự đoán giá xe ô tô cũ

28 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 2,39 MB

Nội dung

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: ÁP DỤNG MƠ HÌNH HỒI QUY TUYẾN TÍNH TRONG DỰ ĐỐN GIÁ XE Ơ TƠ CŨ Gi ng ả viên h ướng dẫẫn Sinh viên thực Khoa Chuyên ngành Lớp : : : : : PH M Ạ Đ Ứ C HỒỒNG TỒỐNG MINH NGỌC CỒNG NGHỆ THỒNG TIN CỒNG NGH PHẦỒN Ệ MỀỒM D13CNPM1 Hà Nội, tháng 05 năm 2021 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Chữ ký Ghi Chữ ký Ghi Giảng viên chấm: Họ tên MỤC LỤC LIỆT KÊ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG LỜI MỞ ĐẦU .4 CHƯƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.2 Quy trình khai phá liệu .6 1.3 Giới thiệu đề tài CHƯƠNG PHÂN LỚP DỮ LIỆU VỚI MÔ HỒI QUY 2.1 Mơ hình hồi quy tuyến tính 2.1.1 Giới thiệu 2.1.2 Mơ hình .9 2.1.3 Chọn hàm 10 2.1.4 Giữ nguyên đầu vào 10 2.1.5 Chuẩn hóa đầu vào 10 2.1.6 Đa thức hóa 11 2.2 Phân lớp liệu (Classification) 11 2.3 Phân cụm liệu (Clustering) 11 CHƯƠNG ỨNG DỤNG CỦA MƠ HÌNH HỒI QUY TUYẾN TÍNH 12 3.1 Mơ tả tốn .12 3.2 Môi trường thử nghiệm 13 3.2.1 Giới thiệu Python .13 3.2.2 Đặc điểm Python 13 3.2.3 Cài đặt Python 14 3.3 Xây dựng liệu .14 3.4 Áp dụng thuật toán vào toán dự đoán giá xe ô tô cũ 15 3.4.1 Sử dụng hàm Gaussian 15 3.4.2 Sử dụng hàm Sigmoid .15 3.4.3 Ước lượng tham số 15 3.5 Kết chương trình 17 3.5.1 Phân Cụm ( Liên hệ điểm giá rượu trending test) 17 3.5.2 Mơ hình hồi quy tuyến tính (Liên hệ năm sản xuất , điểm , km giá xe ô tô cũ) .18 3.5.3 Giữ đốn giá tơ cũ thông qua Points nhập vào 19 KẾT LUẬN 20 TÀI LIỆU THAM KHẢO 21 LIỆT KÊ CHỮ VIẾT TẮT NBC Naive Bayes Classifier DANH MỤC CÁC HÌN Hình 1: Hình ảnh folder training data 12 Hình 2: Hình ảnh source code 12 Hình 3: Hình ảnh source code 12 Hình 4: Hình ảnh source code 13 Hình 5: Hình ảnh source code 13 Hình 6: Hình ảnh source code 14 Hình 7: Hình ảnh source code 14 Hình 8: Hình ảnh source code 15 Hình 9: Hình ảnh source code 15 Hình 10: Hình ảnh phần mềm 16 DANH MỤC CÁC BẢNG Bảng 1: Bảng ví dụ từ quan trọng giả thuyết .10 LỜI MỞ ĐẦU Công nghệ ngày phổ biến khơng phù nhận tầm quan trọng hiệu mà đem lại cho sống Bất kỳ lĩnh vực nào, góp mặt trí tuệ nhân tạo giúp người làm việc hoàn thành tốt công việc Và gần đây, thuật ngữ “machine learning” nhiều người quan tâm Thay phải code phần mền với cách thức thủ công theo hướng dẫn cụ thể nhằm hoàn toàn nhiệm vụ để máy tự “học hỏi” cách sử dụng lượng lớn liệu thuật tốn cho phép thực tác vụ Đây lĩnh vực khoa học không mới, cho thấy lĩnh vực trí tuệ nhân tạo ngày phát triển tiến xa tương lai Đồng thời, thời điểm xem lĩnh vực ‘nóng” dành nhiều mối quan tâm để phát triển cách mạnh mẽ, bùng nổ Hiện nay, việc quan tâm machine learning ngày tăng lên nhờ có machine learning giúp ga tăng dung lượng lưu trữ loại liệu sẵn, việc xử lý tính tốn có chi phí thấp hiệu nhiều Những điều hiểu thực tự động, nhanh chóng để tạo mơ hình cho phép phân tích dự liệu có quy mơ lớn phức tạp đồng thời đưa kết cách nhanh xác Chính hiệu cơng việc lợi ích vượt bậc mà đem lại cho khiến machine learning ngày trọng quan tâm nhiều Vì vậy, em chọn đề tài “Áp dụng mơ hình hồi quy tuyến tính dự đốn giá xe ô tô cũ” LỜI CẢM ƠN Môn học “Khai phá liệu” môn học bổ ích chúng em Sau hồn thành đề tài này, chúng em phần hiểu máy học, biết phương pháp thuật tốn khai phá liệu, có chương trình Để có thành cơng vậy, nỗ lực thành viên nhóm cịn có giúp đỡ tận tình thầy giáo hướng dẫn tìm tịi ham học hỏi bạn nhóm Đầu tiên, chúng em xin gửi lời cảm ơn tới thầy giáo – Phạm Đức Hổng hướng dẫn khoa học thầy Tiếp đến chúng em xin gửi lời cảm ơn tới giáo chủ nhiệm tồn thể thầy khoa giúp tạo điều kiện giúp đỡ chúng em trình thực đề tài Mặc dù cố gắng hoàn thiện tập lớn với tất nỗ lực, nhiên, bước đầu vào thực tế, tìm hiểu xây dựng đồ án thời gian có hạn, kiến thức cịn hạn chế, nhiều bỡ ngỡ, nên báo cáo “Khai phá liệu” chắn tránh khỏi thiếu sót Chúng em mong nhận quan tâm, thơng cảm đóng góp q báu thầy cô bạn để đồ án ngày hoàn thiện Một lần nữa, chúng em xin chân thành cám ơn mong nhận đóng góp thầy! CHƯƠNG PHÂN LỚP DỮ LIỆU VỚI MƠ HỒI QUY 2.1 Mơ hình hồi quy tuyến tính 2.1.1 Giới thiệu Mục tiêu giải thuật hồi quy tuyến tính dự đốn giá trị nhiều biến mục tiêu liên tục (continuous target variable) Y dựa véc-to đầu vào X Ví dụ: dự đốn giá nhà Hà Nội dựa vào thơng tin diện tích, vị trí, năm xây dựng ngơi nhà tt giá nhà X=(,,)x với diện tích, vị trí năm xây dựng Nếu bạn cịn nhớ phương pháp phân tích hồi quy xác suất thống kê Mọi lý thuyết phương pháp nguyên áp dụng cho máy tính mặt cài đặt có thay đổi đơi chút Về ta có tập huấn luyện chứa cặp (,) tương ứng nhiệm vụ ta phải tìm giá trị ứng với đầu vào X Để làm điều ta cần tìm quan hệ X Y để từ đưa dự đốn Hay nói cách trừu tượng ta cần vẽ đường quan hệ thể mối quan hệ tập liệu 10 Hình 2.1 Quan hệ X Y Như hình minh họa phía ta vẽ đường màu xanh y=3+4x để thể quan hệ x y dựa vào điểm liệu huấn luyện biết Thuật tốn hồi quy tuyến tính giúp ta tự động tìm đường màu xanh để từ ta dự đốn y cho x chưa xuất 2.1.2 Mơ hình Mơ hình đơn giản mơ hình kết hợp tuyến tính biến đầu vào: y(x,) = + + … + Trong x € véc-to biến đầu vào € véc-to trọng số tương ứng Thường gọi tham số mơ hình Giá trị tham số ước lượng cách sử dụng cặp giá trị (,) tập huấn luyện 11 Thực mơ hình tuyến tính cần mức tuyến tính tham số Y đủ Và cho tên gọi tuyến tính xuất phát Y, X Y Nói cách khác, ta kết hợp X cách phi tuyến trước hợp với để Y Một cách đơn giản sử dụng hàm phi tuyến cho X sau: y(x,) = + + … + gọi độ lệch (bias) nhằm cắt mức độ chênh lệch mơ hình thực tế Các hàm phi tuyến gọi hàm (basic function) Thường người ta đặt = viết lại công thức sau: Như quy ước tất véc-to khơng nói ta ngầm định với véc-to cột nên ta có cách viết nhân ma trận 2.1.3 Chọn hàm Việc chọn hàm chọn tính cho đầu vào quan trọng học máy Ngồi việc chọn cịn ảnh hưởng tới tốc độ nhớ để tính tốn Ở để cập tới vài cách đơn giản để chọn hàm mà 2.1.4 Giữ nguyên đầu vào Giữ nguyên đầu vào có ý không thay đổi giá trị đầu vào, tức: = x Thường người ta gom đầu vào thành ma trận X € : X = [] 12 Mỗi hàng ma trận chứa mẫu cột chứa thuộc tính đầu vào 2.1.5 Chuẩn hóa đầu vào Là phương pháp co giãn thuộc tính khoản [min,max] (thường [−1,1] [−0.5,0.5]) dựa vào kì vọng độ lệch chuẩn chúng = Trong đó, trung bình, cịn độ lệch chuẩn tính i Đơi lúc người ta lấy s_isi khoảng rộng chuẩn = max−min Việc khơng làm tính chất phân phối chúng nên không ảnh hưởng tới kết học Nhưng lại giúp cho việc học trở lên dễ dàng thuộc tính gần khoảng nhỏ với Phương pháp cịn có tên khác chuẩn hố trung bình (mean normalization) 2.1.6 Đa thức hóa Sử dụng đa thức bậc cao để làm đầu vào: = Với tốn hồi quy tuyến tính phương pháp hay sử dụng 2.2 Phân lớp liệu (Classification)  Là dạng phân tích liệu nhằm rút trích mơ hình mơ tả lớp liệu dự đoán xu hướng liệu  Quá trình gồm hai bước:  Bước học (giai đoạn huấn luyện): xây dựng phân lớp (classifier) việc phân tích/học tập huấn luyện  Bước phân lớp (classification): phân lớp liệu/đối tượng độ xác phân lớp đánh giá chấp nhận (acceptable)  Các thuật toán phân lớp liệu  Phân lớp với định (decision tree) 13  Phân lớp với Naïve Bayesian  Phân lớp với k phần tử gần (k-nearest neighbor)  Phân lớp với máy vector hỗ trợ (SVM)  Phân lớp với mạng neural (neural network)  Phân lớp dựa tiến hoá gen (genetic algorithms)  Phân lớp với lý thuyết tập thô, tập mờ (rough sets)  Phân lớp với lý thuyết tập mờ (fuzzy sets) 2.3 Phân cụm liệu (Clustering)  Là trình phân nhóm/cụm liệu/đối tượng vào lớp/cụm  Các đối tượng cụm tương tự với so với đối tượng cụm khác  Các yêu cầu phân cụm liệu:  Có thể tương thích, hiệu với liệu lớn, số chiều lớn  Có khả xử lý liệu khác  Có khả khám phá cụm với dạng  Khả thích nghi với liệu nhiễu  Ít nhạy cảm với thứ tự liệu vào  Phân cụm buộc  Dễ hiểu dễ sử dụng  Phân loại phương pháp phân cụm:  Phân hoạch (partitioning): phân hoạch tập liệu n phần tử thành k cụm  Phân cấp (hierarchical): xây dựng phân cấp cụm sở đối tượng liệu xem xét  Dựa mật độ (density-based): dựa hàm mật độ, số đối tượng lân cận đối tượng liệu  Dựa lưới (grid-based): dựa liệu nhiều chiều, chủ yếu áp dụng cho lớp liệu khơng gian 14  Dựa mơ hình (model-based): mơ hình giả thuyết đưa cho cụm; sau hiệu chỉnh thơng số để mơ hình phù hợp với cụm liệu/đối tượng CHƯƠNG ỨNG DỤNG CỦA MƠ HÌNH HỒI QUY TUYẾN TÍNH 3.1 Mơ tả tốn Do cịn phận lớn người có thu nhập thấp khơng đủ khả chi trả cho ô tô họ mong muốn sở hữu xe hạng sang lại khơng phù hợp với túi tiền Nhưng xe cũ lại có vơ vàn mức giá khác kể cho xe kiểu dáng năm sản xuất Nên để tránh trường hợp mua phải xe có giá cao lại khơng phù hợp với mang lại Em định áp dụng mơ hình hồi quy tuyến tính vào tốn “Dự đốn giá xe Ơ tơ cũ” Mơ hình hồi quy tuyến tính áp dụng vào tốn giự đốn giá Ơ tơ cũ phụ thuộc vào kết thống kê từ 142 quốc qua giớ phục vụ cho nhà máy sản xuất Ơ tơ tồn giới  Giá trị input: Year, Mrr, Point, Price loại ô tô  Giá trị output: Kết nhận với Year, Mrr, Point Point nhập vào dự đoán Price 15 3.2 Môi trường thử nghiệm 3.2.1 Giới thiệu Python Python ngơn ngữ lập trình sử dụng phổ biến ngày để phát triển nhiều loại ứng dụng phần mềm khác chương trình chạy desktop, server, lập trình ứng dụng web Ngồi Python ngơn ngữ ưa thích ngành khoa học liệu (data science) ngôn ngữ phổ biến để xây dựng chương trình trí tuệ nhân tạo bao gồm machine learning 3.2.2 Đặc điểm Python  Python ngơn ngữ dễ học: Ngơn ngữ Python có cú pháp đơn giản, rõ ràng, sử dụng số lượng không nhiều từ khố, Python đánh giá ngơn ngữ lập trình thân thiện với người học  Python ngôn ngữ dễ hiểu: Mã lệnh (source code hay đơn giản code) viết ngôn ngữ Python dễ đọc dễ hiểu Ngay trường hợp bạn chưa biết Python bạn suy đốn ý nghĩa dịng lệnh source code  Python có tương thích cao (highly portable): Chương trình phần mềm viết ngơn ngữ Python chạy nhiều tảng hệ điều hành khác bao gồm Windows, Mac OSX Linux 3.2.3 Cài đặt Python  Cài đặt ngôn ngữ lập trình Python: Python 3.7.9 (https://www.python.org/downloads/windows/)  Mơi trường lập trình Python: Python 16 (https://www.python.com/) Hình 3.1 Cài đặt Python  Cài đặt thư viên  Numpy  Pip install pandas  Pip install sklearn 3.3 Xây dựng liệu Sử dụng Dataset có sẵn hệ thống Data Kaggle (Download : https://www.kaggle.com/datasets) 3.4 Áp dụng thuật tốn vào tốn dự đốn giá xe tơ cũ 3.4.1 Sử dụng hàm Gaussian 17 định vị trí trung bình cho đầu vào cịn ss định độ phân tán cho đầu vào Việc sử dụng hàm giúp ta có đầu vào theo phân phối chuẩn 3.4.2 Sử dụng hàm Sigmoid Tương tự hàm Gaussian, ta sử dụng hàm sigmoid để biến đổi đầu vào: Hàm sigmoid sử dụng sigmoid chuẩn: = Một biến thể khác sử dụng tanhtanh gần với sigmoid 3.4.3 Ước lượng tham số Giả sử ta có mm cặp liệu huấn luyện (,) ,I = 1,m tổ chức tương ứng X = [] , Y = [] Y € kết dự đốn tương ứng Ta đánh giá mức độ chênh lệch kết y^ y hàm lỗi (lost function) sau: Công thức thể trung bình độ lệch (khoảng cách) điểm liệu thực tế kết dự đoán sau ta ước lượng tham số Còn ta lại chia cho tơi giải thích sau Hàm lỗi cịn có tên gọi khác hàm lỗi bình phương (squared error function) hàm lỗi trung bình bình phương (mean squared error function) hàm chi phí (cost function) Khơng cần giải thích ta hiểu với tham số tốt tham số giúp cho hàm lỗi JJ đạt giá trị nhỏ Kết tối ưu y^ = y, tức J(θ)=0 Để giải toán ta sử dụng đạo hàm J(θ) tìm θ cho J(θ)′=0 18 Đây cơng thức chuẩn (normal equation) tốn ta cần giải Trong ma trận Φ € gọi ma trận mẫu (design matrix), ta hiểu đơn giản tập mẫu ta: Để ý ma trận Φ ta liệu huấn luyện theo hàng (mm hàng) thuộc tính chúng theo cột (nn cột) Các thuộc tính biến đổi hàm ϕi(xj) Ở phép lấy đạo hàm (3.3) ta thấy mẫu số bị triệt tiêu giúp bỏ thừa số tính đạo hàm Đấy lý mà người ta để mẫu số cho hàm lỗi 19 3.5 Kết chương trình 3.5.1 Phân Cụm ( Liên hệ điểm giá rượu trending test) 20 3.5.2 Mơ hình hồi quy tuyến tính (Liên hệ năm sản xuất , điểm , km giá xe ô tô cũ) 21 3.5.3 Giữ đoán giá ô tô cũ thông qua Points nhập vào 22 KẾT LUẬN Chương trình dự đốn quan điểm bình luận đạt số yêu cầu dự đoán Chương trình đáp yêu cầu đơn giản, phụ thuộc vào tập liệu datatranning Do trình độ kinh nghiệm thực tế trình độ cịn hạn chế nên chương trình chưa thật hồn chỉnh cần phải có thời gian để chương trình hồn thiện Em mong bảo hướng dẫn thầy, em xin chân thành cảm ơn thầy 23 TÀI LIỆU THAM KHẢO Silde giáo trình mơn Khai phá liệu trường ĐHĐL Các trang web: Google, tailieu.vn, youtube.com,… 24

Ngày đăng: 09/06/2023, 15:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w