1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài báo cáo linear regression

23 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 1,38 MB

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CÔNG NGHỆ THÔNG TIN BÀI BÁO CÁO Tìm hiểu phương pháp hồi quy tuyến tính và ứng dụng cho bài toán dự báo GIẢNG VIÊN HƯỚNG DẪN: HUỲNH THỊ CHÂU LAN SINH VIÊN THỰC HIỆN: TP HỒ CHÍ MINH, 2021 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CÔNG NGHỆ THÔNG TIN BÀI BÁO CÁO Tìm hiểu phương pháp hồi quy tuyến tính và ứng dụng cho bài toán dự báo GIẢNG VIÊN HƯỚNG DẪN: HUỲNH THỊ CHÂU LAN SINH VIÊN THỰC HIỆN: NGUYỄN CÔNG TRUNG 2033180121 PHẠM ĐỒN MINH HẬU 2033180133 TP HỒ CHÍ MINH, 2021 BẢN NHẬN XÉT CỦA GVHD Trang đính kèm nhận xét GVHD LỜI CAM ĐOAN Chúng cam đoan báo cáo đồ án chúng tơi thực hướng dẫn cô Lan Các số liệu kết phân tích báo cáo trung thực TP Hồ Chính Minh, tháng năm 2021 SINH VIÊN THỰC HIỆN (Kí ghi rõ họ tên) Nguyễn Cơng Trung Phạm Đồn Minh Hậu i TĨM TẮT ĐỒ ÁN Mục đích nghiên cứu hiểu rõ hồi quy tuyến tính machine learning ứng dụng vào toán dự đoán Với đề tài này, chúng em tiến hành tìm hiểu tài liệu hồi quy tuyến tính machine learning, cơng thức tốn học để áp dụng hồi quy tuyến tính tốn sử dụng hồi quy tuyến tính ii LỜI CẢM ƠN Để hồn thành đồ án này, trước hết chúng em xin gửi lời cảm ơn chân thành đến quý thầy, cô khoa Công nghệ Thông Tin trường Đại học Công nghiệp thực phẩm Tp Hồ Chí Minh truyền đạt kiến thức kinh nghiệm quý báu cho chúng em suốt trình học tập rèn luyện trường Trong trình thực đề tài chúng em gặp khơng khó khăn Nhưng với động viên giúp đỡ quý thầy cô, người thân bạn bè, chúng em hoàn thành tốt đề tài nghiên cứu có kinh nghiệm, kiến thức hữu ích cho thân Đặc biệt chúng em xin gởi lời cảm ơn sâu sắc đến cô Huỳnh Thị Châu Lan, người trực tiếp hướng dẫn tận tình giúp đỡ chúng em suốt thời gian thực đề tài Dù cố gắng tránh khỏi sai sót Rất mong thơng cảm đóng góp ý kiến q thầy bạn để đồ án hoàn thiện Cuối cùng, xin kính chúc q thầy bạn sức khỏe, thành công công việc sống Chúng em xin chân thành cảm ơn! TP Hồ Chí Minh, tháng 06, năm 2021 SINH VIÊN THỰC HIỆN (Kí ghi rõ họ tên) Nguyễn Cơng Trung Phạm Đồn Minh Hậu iii MỤC LỤC BẢN NHẬN XÉT CỦA GVHD iii LỜI CAM ĐOAN i TÓM TẮT ĐỒ ÁN ii LỜI CẢM ƠN .iii MỤC LỤC iv DANH MỤC HÌNH ẢNH v DANH MỤC TỪ VIẾT TẮT MỞ ĐẦU Đặt vấn đề Mục tiêu đề tài CHƯƠNG TỔNG QUAN 1.1 Tổng quan hồi quy tuyến tính .3 1.1.1 Khái niệm 1.1.2 Bản chất thuật toán .3 1.2 Phân loại hồi quy tuyến tính .4 1.2.1 Hồi quy tuyến tính đơn giản ( simple linear regression ) 1.2.2 Hồi quy tuyến tính đa biến (linear regression multiple features) .5 CHƯƠNG VẼ ĐƯỜNG THẲNG MƠ HÌNH HỒI QUY TUYẾN TÍNH 2.1 Vẽ đường hồi quy 2.2 Dùng kỹ thuật Gradient Descent CHƯƠNG THỰC NGHIỆM 11 3.1 Yêu cầu 11 3.2 Thực Hiện Trên Python 11 3.3 Tiến hành 11 3.4 Sử dụng SPSS để dự đoán 14 KẾT LUẬN 14 TÀI LIỆU THAM KHẢO 15 iv DANH MỤC HÌNH ẢNH Hình 1: Ví dụ hồi quy tuyến tính Hình 2: Bản chất hồi quy tuyến tính Hình 3: Sơ đồ biểu diễn điểm (xi,yi) Hình 4: Mơ hình biến Hình 5: Tập liệu Hình 6: Mơ hình vẽ tìm đường thẳng hồi quy .7 Hình Chọn α j(α)’ Hình Với giá trị learning rate cao .9 Hình Với giá trị learning rate bé Hình 10 Tỷ lệ hàm lỗi số lần lặp 10 Hình 11 Mỗi α đường thẳng dự đoán 10 Hình 12: Cài thư viện cho python 11 Hình 13: Đọc liệu từ file .11 Hình 14: Lệnh biễu diễn số liệu 12 Hình 15: Biểu đồ thể giá trị liệu 12 Hình 16: Lấy liệu cần tính 12 Hình 17: Tìm hệ số 13 Hình 18: Cơng thức đường thẳng cần tìm 13 Hình 19: Kết dùng đường hồi quy kết thực 13 Hình 20: Chỉ số MAPE, RMSE tỷ lệ dự đốn xác .13 Hình 21: Sử dụng SPSS 14 v DANH MỤC TỪ VIẾT TẮT MAPE (Mean Absolute Percent Error): Sai số tương đối trung bình RMSE(Root Mean Squared Error): Root Mean Squared Error MỞ ĐẦU Đặt vấn đề Bạn nghĩ đời thứ ngẫu nhiên? Thật đời khơng có thứ ngẫu nhiên ta nguyên nhân lại trở nên ta cho ngẩu nhiên Bạn nghĩ thuật tốn RanDom ngẫu nhiên, thuật toán khơng ngẫu nhiên thuật tốn ta nên ta nghĩ ngẫu nhiên Chúng ta nói kinh tế chút, bạn nghĩ giá đồ hay giá bất động sản ngẫu nhiên người bán nói Thế giới ln vận hành theo cách ta khơng biết Thế cách vận hành gì? Ở ta thử xem xét bệnh viện có danh sách chiều cao cân nặng hàng nghìn bệnh nhân tiểu đường, từ liệu có sẵn với người khơng có chun mơn y khoa dự đốn bệnh nhân có chiều cao cân nặng bị tiểu đường hay khơng Đây khơng phải sứ “đốn mị” mà định có hay khơng mang tính khoa học có logic Để dự đốn tương tự ta dùng HỒI QUY TUYẾN TÍNH để đưa dự đốn có khả xác cao Mục tiêu đề tài Hiểu rõ thuật toán hồi quy tuyến tính áp dụng dự đoán vài toán hiệu Với tỷ lệ xác 80% CHƯƠNG TỔNG QUAN 1.1 Tổng quan hồi quy tuyến tính 1.1.1 Khái niệm  Hồi quy tuyến tính ( linear regression) thuật tốn có giám sát Nghĩa từ liệu đầu vào ta cho liệu có liên quan đến liệu đầu  Mục tiêu giải thuật hồi quy tuyến tính dự đốn giá trị nhiều biến mục tiêu liên tục (continuous target variable) o Ví dụ : Dự đốn bệnh bệnh nhân dựa vào thông tin chiều cao, cân nặng, tuổi Hình 1: Ví dụ hồi quy tuyến tính 1.1.2 Bản chất thuật tốn Về ta có tập huấn luyện chứa cặp (xi,yi) tương ứng nhiệm vụ ta phải tìm giá trị y ứng với đầu x vào Để làm điều ta cần tìm quan hệ (xi,yi) để từ đưa dự đốn Hay nói cách trừu tượng ta cần vẽ đường quan hệ thể mối quan hệ tập liệu Hình 2: Bản chất hồi quy tuyến tính 1.2 Phân loại hồi quy tuyến tính Hồi quy tuyến tính chia làm dạng: Hồi quy tuyến tính đơn giản ( biến) Hồi quy tuyến tính đa biến 1.2.1 Hồi quy tuyến tính đơn giản ( simple linear regression ) Ở dạng ta hiểu có biết x cho biến y tương ứng Tương tự khơng gian chiều oxy Ví Dụ: ta có liệu markerting tính sales Ở có biến marketing Hình 3: Sơ đồ biểu diễn các điểm (xi,yi) Mơ hình ta tìm đường thưởng y=ax+b có liên quan đến điểm Chúng ta khơng thể tìm đường thẳng qua tất điểm Nhưng tìm đường thẳng tương đối nằm điểm Hình 4: Mơ hình biến Đường thẳng để gọi tương đối xác Tìm dùng phương pháp bình phương sai nhỏ hay gọi hàm lỗi (cost) Tức từ đường thẳng ta tính tổng bình phương điểm đến đường thẳng cho nhỏ đường thẳng coi đường tương đối xác Làm để vẽ đường thẳng này? Ta có cách để vẻ: Tính đạo hàm tổng bình phương tìm giá trị cho tổng bình phương nhỏ Dùng cơng thức tốn học để tìm đường thẳng 1.2.2 Hồi quy tuyến tính đa biến (linear regression multiple features) Mơ hình tương tự hồi quy tuyến tính đơn giản ( biến) khác chỗ mơ hình mở rộng biến Ví dụ: ta có liệu markting, chi phí nhân cơng, chi phí mặt bằng, … Tính giá sản phẩm Ở biến (markting, chi phí nhân cơng, chi phí mặt bằng, ….) Do nhiều biến nên ta dùng công thức y=ax+b ta phải dùng công thức khác: y=a1x1+a2x2+a3x3+…+a0 Cách thực ta áp dụng kỹ thuật Gradient Descent để tìm đường hồi quy tốt Với cách ta tìm hàm lỗi (cost) CHƯƠNG VẼ ĐƯỜNG THẲNG MƠ HÌNH HỒI QUY TUYẾN TÍNH 2.1 Vẽ đường hồi quy Ta có tập liệu Hình 5: Tập liệu Ta có cặp (xi,yi) tương ứng ta tìm đường y=ax+b (a: hệ số gốc, b: độ lệch) Từ bảng ta được: 50=15a+b.1 60=20a+b.1 70=25a+b.1 80=30a+b.1 90=35a+b.1 100=40a+b.1 Ta thấy có trùng lặp (50,60,70,80,90,100) = a.(15,25,25,30,35,40) + b.(1), Có thể hiêu (50,60,70,80,90,100) tập hợp yi , (15,25,25,30,35,40) xi xi , yi (1) vecto => yi=a.xi+b.1 a b số biểu diễn cho độ dài cho vecto hệ số ta cần phải tìm Và xi (1) vecto nên cộng vecto ta cho mặt phẳng gọi mặt phẳng P Để khoảng cách điểm đến đường thẳng cần tìm nhỏ ta cần phải tìm a,b cho khoảng cách vecto yi đến mặt phẳng P nhỏ Hình 6: Mô hình vẽ tìm đường thẳng hồi quy Tới ta dùng phương pháp nhân ma trận toàn học đẻ tìm số a, b 2.2 Dùng kỹ thuật Gradient Descent Để dùng kỹ thuật Gradient Descent ta cần nhắc lại hàm lỗi (cost) trên, hàm lỗi khoảng cách giữ điểm với đường thẳng ta cần dự đoán hàm gần giá trị tốt đường thẳng tìm đường thẳng tương đối xác Để tìm giá trị hàm lỗi ta cần đạo hàm hàm lỗi tìm giá trị cực tiểu hàm Ta có hàm lỗi J(α) = 2𝑚 (𝐻(𝑥𝑖) − 𝑦𝑖)2 H(x0) làm đường thằng cần dự đoán m tổng số feature Đạo hàm hàm lỗi ta J(α)’= 𝑚 2𝐻(𝑥𝑖)(𝐻(𝑥𝑖) − 𝑦𝑖) Lúc đầu ta chọn ngẫu nhiên số α thay vào J(α)’ để biết thời điểm α hàm lỗi J(α) tăng hay giảm để vòng lặp sau tăng hay giảm α Hình Chọn α j(α)’ Giá trị α phụ thuộc vào giá trị learning rate Learning rate giá trị chênh lệch α Nếu giá trị learning rate lớn α giảm qua khỏi điểm cực trị không giá trị mong muốn Hình Với giá trị learning rate cao Nếu giá trị learning rate q bé vịng lặp hoạt lâu tốn nhiều tài nguyên máy Hình Với giá trị learning rate quá bé Cho nên chọn learning rate quan trọng với tập liệu lớn Sau lần train lại hàm lỗi giảm giá trị gần Hình 10 Tỷ lệ hàm lỗi và số lần lặp Mỗi lặp có α suy có đường thằng dự đốn Càng sau hội tụ lại Hình 11 Mỗi α là đường thẳng dự đoán 10 CHƯƠNG THỰC NGHIỆM 3.1 Yêu cầu Dùng ngôn ngữ python để thực tốn Vì python hỗ trợ nhiều cơng cụ tính tốn ma trận Hoặc dùng phần mềm SPSS có tích hợp cơng cụ tìm đường hồi quy 3.2 Thực Hiện Trên Python Hình 3.1 Dữ liệu đầu vào Ta cần có liệu đầu vào đủ lớn để tìm đường hồi quy xác 3.3 Tiến hành Bước Cài thư viện cần thiết cho python Hình 12: Cài các thư viện cho python Bước Đọc liệu đầu vào lệnh pd.read_cgv("D:/Advertising.csv") Hình 13: Đọc liệu từ file Bước Dùng thư viện matplotlib.pyplot để hiển thị giá trị sales lên đồ 11 thị Hình 14: Lệnh biễu diễn các số liệu Hình 15: Biểu đồ thể các giá trị liệu Bước Lấy liệu xi cần tính tốn Hình 16: Lấy liệu cần tính Bước Dùng hàm linear regression thư viện skitlearn 12 Hình 17: Tìm hệ số Hình 18: Cơng thức đường thẳng cần tìm Bước Kiểm tra kết từ đường hồi quy với kết thực Hình 19: Kết dùng đường hồi quy và kết thực Hình 20: Chỉ số MAPE, RMSE và tỷ lệ dự đoán chính xác 13 3.4 Sử dụng SPSS để dự đoán Hình 21: Sử dụng SPSS Các hệ số tương đồng với thuật tốn sử dụng ngơn ngữ python KẾT LUẬN Ngày xã hội phát triển, đưa dự đốn ta phải có Trí tuệ nhân tạo phần tương lai để dạy cho cơng cụ AI ta cần hiểu rõ sâu hồi quy 14 TÀI LIỆU THAM KHẢO  https://www.youtube.com/watch?v=PNp1prcWbkM&list=PLDpRz2wA0qZzTc DLeXP5PSCfmQ96l9-Qr  https://machinelearningcoban.com/2016/12/28/linearregression/ 15 ... GVHD Trang đính kèm nhận xét GVHD LỜI CAM ĐOAN Chúng cam đoan báo cáo đồ án chúng tơi thực hướng dẫn Lan Các số liệu kết phân tích báo cáo trung thực TP Hồ Chính Minh, tháng năm 2021 SINH VIÊN THỰC... tuyến tính .4 1.2.1 Hồi quy tuyến tính đơn giản ( simple linear regression ) 1.2.2 Hồi quy tuyến tính đa biến (linear regression multiple features) .5 CHƯƠNG VẼ ĐƯỜNG THẲNG MƠ HÌNH...TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CÔNG NGHỆ THÔNG TIN BÀI BÁO CÁO Tìm hiểu phương pháp hồi quy tuyến tính và ứng dụng cho bài toán dự báo

Ngày đăng: 24/12/2021, 21:48

HÌNH ẢNH LIÊN QUAN

Hình 2: Bản chất hồi quy tuyến tính - Bài báo cáo linear regression
Hình 2 Bản chất hồi quy tuyến tính (Trang 11)
Hình 1: Ví dụ hồi quy tuyến tính - Bài báo cáo linear regression
Hình 1 Ví dụ hồi quy tuyến tính (Trang 11)
Mô hình trên ta sẽ đi tìm một đường thưởng y=ax+b có liên quan đến các điểm trên.  - Bài báo cáo linear regression
h ình trên ta sẽ đi tìm một đường thưởng y=ax+b có liên quan đến các điểm trên. (Trang 12)
Hình 3: Sơ đồ biểu diễn các điểm (xi,yi) - Bài báo cáo linear regression
Hình 3 Sơ đồ biểu diễn các điểm (xi,yi) (Trang 12)
CHƯƠNG 2. VẼ ĐƯỜNG THẲNG MÔ HÌNH HỒI QUY TUYẾN TÍNH - Bài báo cáo linear regression
2. VẼ ĐƯỜNG THẲNG MÔ HÌNH HỒI QUY TUYẾN TÍNH (Trang 14)
Hình 6: Mô hình vẽ tìm đường thẳng hồi quy - Bài báo cáo linear regression
Hình 6 Mô hình vẽ tìm đường thẳng hồi quy (Trang 15)
Hình 7 Chọn α trên j(α)’ - Bài báo cáo linear regression
Hình 7 Chọn α trên j(α)’ (Trang 16)
Hình 8 Với giá trị learning rate cao - Bài báo cáo linear regression
Hình 8 Với giá trị learning rate cao (Trang 17)
Hình 10 Tỷ lệ hàm lỗi và số lần lặp - Bài báo cáo linear regression
Hình 10 Tỷ lệ hàm lỗi và số lần lặp (Trang 18)
Hình 3.1 Dữ liệu đầu vào - Bài báo cáo linear regression
Hình 3.1 Dữ liệu đầu vào (Trang 19)
Hình 14: Lệnh biễu diễn các số liệu - Bài báo cáo linear regression
Hình 14 Lệnh biễu diễn các số liệu (Trang 20)
Hình 15: Biểu đồ thể hiện các giá trị của dữ liệu - Bài báo cáo linear regression
Hình 15 Biểu đồ thể hiện các giá trị của dữ liệu (Trang 20)
Hình 17: Tìm hệ số - Bài báo cáo linear regression
Hình 17 Tìm hệ số (Trang 21)
Hình 21: Sử dụng SPSS - Bài báo cáo linear regression
Hình 21 Sử dụng SPSS (Trang 22)
w