Ứng dụng hồi quy tuyến tính trong phân tích dữ liệu lớn phục vụ kinh doanh

MỤC LỤC

Hồi quy tuyến tính đa thức

Như vậy h sẽ trở thành ℎ(t)=θ0+θ1t1+θ1t2… và áp dụng gradient descent như đối với mô hình nhiều ẩn.

Giả định trong hồi quy tuyến tính

- Độc lập của sai số: Giả định rằng sai số (ε) giữa các quan sát là độc lập với nhau. Điều) giữa các quan sát là độc lập với nhau. - Không có sai sót đo lường hoặc sai sót đo lường ngẫu nhiên: Giả định rằng biến độc lập được đo lường hoàn toàn chính xác và không bị ảnh hưởng bởi bất kỳ yếu tố nào khác ngoài biến phụ thuộc. Nếu các giả định này không được đáp ứng, có thể làm giảm tính tin cậy và ý nghĩa của kết quả từ mô hình hồi quy tuyến tính.

Trong một số trường hợp, việc kiểm tra và xử lý việc không đáp ứng các giả định này có thể là cần thiết để đảm bảo tính toàn vẹn của mô hình.

Ứng dụng của hồi quy tuyến tính 1. Trong thống kê và khoa học dữ liệu

Trong dự đoán và phân tích dự báo

Hồi quy tuyến tính là một phương pháp thống kê phổ biến được sử dụng trong dự báo để mô tả mối quan hệ tuyến tính giữa biến phụ thuộc (biến cần dự đoán) và một hoặc nhiều biến độc lập (biến dự báo). - Dự báo nhu cầu: Dự đoán nhu cầu cho một sản phẩm hoặc dịch vụ trong tương lai dựa trên các yếu tố như dữ liệu bán hàng trong quá khứ, chiến lược marketing, xu hướng thị trường. Ví dụ: nhà sản xuất có thể sử dụng hồi quy tuyến tính để dự đoán nhu cầu cho sản phẩm mới dựa trên dữ liệu bán hàng của các sản phẩm tương tự, chiến dịch marketing cho sản phẩm mới và xu hướng thị trường.

Ví dụ: cơ quan khí tượng thủy văn có thể sử dụng hồi quy tuyến tính để dự đoán lượng mưa trong tháng tới dựa trên dữ liệu lượng mưa trong những năm trước, dự báo nhiệt độ và độ ẩm.

Phương pháp đánh giá R- Squared

- Tính tổng bình phương sai số (SSE): Đây là tổng của bình phương của sự chênh lệch giữa giá trị quan sát thực tế và giá trị được dự đoán bởi mô hình. - Tính tổng bình phương tổng sai số (SST): Đây là tổng của bình phương của sự chênh lệch giữa giá trị quan sát thực tế và giá trị trung bình của biến phụ thuộc. - Tính R-squared: R-squared được tính bằng cách lấy 1 trừ đi tỷ lệ giữa SSE và SST, sau đó chia cho SST.

Tuy nhiên, R-squared không thể giải thích mọi khía cạnh của sự phù hợp của mô hình và cần được kết hợp với các phương pháp đánh giá khác như kiểm định giả thuyết, phân tích sai số, và kiểm tra mô hình trên dữ liệu mới để đảm bảo tính đáng tin cậy của kết qủa.

RFE (Recursive Feature Elimination)

Bằng cách lặp lại quá trình loại bỏ các pixel ít quan trọng, chúng ta có thể tìm ra tập hợp những pixel quyết định quan trọng nhất cho việc phân loại. VD2: Recursive feature elimination with cross-validation (RFECV): Trong bài toán dự đoán giá nhà, RFECV có thể được sử dụng để tự động điều chỉnh số lượng đặc trưng được chọn và đảm bảo tính tổng quát của mô hình thông qua việc sử dụng cross-validation. Bằng cách lặp lại quá trình RFE trên các phân chia cross-validation khác nhau và đánh giá hiệu suất của mô hình dựa trên số lượng đặc trưng được chọn, chúng ta có thể chọn ra một tập hợp đặc trưng tối ưu cho mô hình dự đoán giá nhà.

- estimator: Một thực thể ước lượng học có giám sát với phương pháp fit cung cấp thông tin về sự quan trọng của các đặc trưng (ví dụ: coef_, feature_importances_).

VIF (Variance Inflation Factor)

Khi chúng ta có hệ số xác định R2 >90, thì đây là một cách để nhận biết trong mô hình nghiên cứu của chúng ta đang có hiện tượng đa cộng tuyến, nếu chúng ta không có biện pháp nào khác phụ thì kết quả hồi quy sẽ không còn chính xác nữa. Đây là một kỹ thuật phổ biến để ước lượng các hệ số của các phương trình hồi quy tuyến tính mô tả mối quan hệ giữa một hoặc nhiều biến độc lập định lượng và một biến phụ thuộc (hồi quy tuyến tính đơn hoặc đa). Trong đó Y là biến phụ thuộc, β0 là giao điểm của mô hình, X j tương ứng với biến giải thích thứ j của mô hình (j= 1 đến p), và ε) giữa các quan sát là độc lập với nhau. Điều là sai số ngẫu nhiên có kỳ vọng là 0 và phương sai là σ². Trong trường hợp có n quan sát, ước lượng giá trị dự đoán của biến phụ thuộc Y cho quan sát thứ i được cho bởi:. Ví dụ: Chúng ta muốn dự đoán chiều cao của cây phụ thuộc vào số ngày chúng đã dành trong nắng. Trước khi tiếp xúc, chúng có chiều cao 30 cm. Tất nhiên, điều này không luôn chính xác, đó là lý do tại sao chúng ta phải tính đến sai số ngẫu nhiên ε) giữa các quan sát là độc lập với nhau.

Hơn nữa, trước khi dự đoán, phương pháp của chúng tôi phải tìm ra các hệ số β: chúng tôi chỉ bắt đầu bằng cách nhập một bảng chứa chiều cao của một số cây cùng với số ngày chúng đã dành trong nắng.

ADJUSTED R-SQUARED

Tất nhiên, điều này không luôn chính xác, đó là lý do tại sao chúng ta phải tính đến sai số ngẫu nhiên ε) giữa các quan sát là độc lập với nhau. Nếu bạn muốn tìm hiểu thêm về các tính toán, hãy đọc đoạn văn sau đây.

P-value

- Giá trị p-value càng nhỏ (p-value < α) thì giả thuyết không càng nên bị bác bỏ và giả) thì giả thuyết không càng nên bị bác bỏ và giả thuyết thay thế càng đáng tin cậy. - Giá trị p-value càng lớn (p-value> α) thì giả thuyết không càng nên bị bác bỏ và giả) thì cơ sở để bác bỏ giả thuyết không càng yếu và kiểm định không có kết luận.

MAE (Mean Absolute Error)

Điều này là do trong MSE, việc bình phương các sai số làm cho các giá trị ngoại lai (thường có sai số cao hơn so với các mẫu khác) được đánh giá nặng hơn và có ảnh hưởng lớn đến kết quả cuối cùng và các tham số của mô hình.

ỨNG DỤNG MÔ HÌNH THỰC TẾ 3.1.Giới thiệu

Mô tả dữ liệu

Dữ liệu bike sharing được sử dụng trong quá trình nghiên cứu này. Dữ liệu được lấy từ tập dữ liệu Kaggle. Bao gồm thông tin về nhu cầu sử dụng xe đạp chia sẻ của người dân sau khi tình trạng phong tỏa do Covid-19 kết thúc trên toàn quốc. Bộ dữ liệu này được sử dụng để huấn luyện và kiểm tra mô hình hồi quy tuyến tính. Bảng 3.1 mô tả thông tin tính năng trong tập dữ liệu được sử dụng. Thuộc tính Mô tả. instant Mã số thời gian cho từng bản ghi. dteday Ngày tháng trong định dạng DD-MM-YYYY. Tuyết rơi).

Chi tiết bước làm

- Làm sạch dữ liệu: Tạo một bản sao của DataFrame mà không bao gồm cột 'instant', vì cột này chứa các giá trị duy nhất và không có ý nghĩa khi thực hiện đếm số lượng giá trị trên nó. Chúng tôi sẽ tham chiếu qua lại bản đồ này trong khi xây dựng mô hình tuyến tính để xác thực các giá trị tương quan khác nhau cùng với giá trị VIF & p, nhằm xác định biến chính xác để chọn/loại bỏ khỏi mô hình. - Chuẩn hoá dữ liệu: Việc các biến có phạm vi giá trị khác nhau khiến cho mô hình học khó khăn hơn, nên nhóm quyết định sử dụng phương pháp chuẩn hoá Minmaxscaler từ thư viện sklearn .Việc sử dụng phương pháp chuẩn hóa trong xử lý dữ liệu là một phần quan trọng của quá trình tiền xử lý dữ liệu, phương pháp này giúp đồng nhất hóa phạm vi giá trị của các biến, tạo điều kiện thuận lợi cho việc huấn luyện và cải thiện hiệu suất của mô hình dự đoán.

Các biến như loại nhiên liệu (fuel), loại người bán (seller_type), và các biến khác như tên xe (name), loại hộp số (transmission), số chủ sở hữu trước đó (owner), mức tiêu hao nhiên liệu (mileage), dung tích động cơ (engine), và số ghế (seats) có hệ số không đáng kể, cho thấy chúng không có ảnh hưởng quan trọng đến giá của xe trong mô hình này. Kết luận: Có thể thấy với những người mua xe đã qua sử dụng, họ quan tâm nhiều đến số km đã đi vì khi số km đã đi càng lớn, do sự mòn hao và giảm hiệu suất của xe sau thời gian sử dụng. Từ những nhận xét trên, mô hình đã cung cấp cái nhìn sơ bộ về yếu tố quyết định giá của xe, tuy nhiên cần thêm nghiên cứu và điều chỉnh để đảm bảo tính chính xác và đáng tin cậy.

Hình . Hầu như không có các giá trị không xác định trong toàn bộ tập dữ liệu.