1. Trang chủ
  2. » Luận Văn - Báo Cáo

môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng

34 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Hồi quytuyến tính là một mô hình đơn giản trong bài toán hồi quy, trong đó chúng ta sử dụng đườngthẳng, mặt phẳng hoặc phương trình tuyến tính để dự đoán xu hướng của dữ liệu.. Dưới đây

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM KHOA KINH TẾ

BÁO CÁO CUỐI KÌ

TRONG KINH DOANH

ĐỀ TÀI: HỒI QUY TUYẾN TÍNH VÀ ỨNG DỤNGGV: ThS Lê Thị Minh Châu

Nhóm sinh viên thực hiện: Nhóm 7

Mã lớp học: ABDA433708_23_2_01CLC

TP Hồ Chí Minh, 03 tháng 04 năm 2024

Trang 4

Trương Thanh Lộc 21126048

- Tổng hợp và chỉnh sửa nội dung.- Tìm nguồn dữ liệu, mô tả dữ liệu, xửlý dữ liệu.

- Viết nội dung Chương 1, Chương 4

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1 Ví dụ về hồi quy tuyến tính

Hình 2 Công thức hàm lỗi và tìm cực tiểu hàm lỗiHình 3 Hàm cập nhật tổng quát θ

Hình 4 Ví dụ về hàm hồi quy đa thứcHình 5 Công thức R-quared

Hình 6 Những thuộc tính trong bộ dữ liệuHình 7 Bộ dữ liệu car_datas

Hình 8 Kết quả kiểm tra dữ liệu null Hình 9 Kết quả kiểm tra sau khi bỏ nullHình 10 Kết quả kiểm ra trùng lặp

Hình 11 Kết quả sau khi làm sạch dữ liệu

Hình 12 Kết quả sau khi kiểm tra giá trị duy nhấtHình 13 Biến “transmission”

Hình 14 Biến “seller_type”Hình 15 Biến “fuel”

Hình 16 Kết quả cho ra chỉ có tên của hãng xe đại diện cho dòng xeHình 17 Gán giá trị cho biến “name

Hình 18 Dataframe sau khi được xử lýHình 19 Code chuẩn hóa

Hình 20 Dataframe sau khi chuẩn hoáHình 21 Huấn luyện mô hình

Hình 22 Matplotlib

Hình 23 Hệ số của các biến trong phương trình

Trang 6

CHƯƠNG 1: MỞ ĐẦU1.1.Lý do chọn đề tài

Hiện nay cùng với sự phát triển bùng nổ của lĩnh vực Công nghệ thông tin thì lĩnh vựckinh doanh trên thế giới cũng đã trải qua một sự thay đổi to lớn về nội dung cũng như cáchthức kinh doanh đặc biệt từ khi có sự hỗ trợ đắc lực của công nghệ thông tin Trong kinhdoanh nó được sử dụng rộng rãi để giải quyết nhiều vấn đề thực tế như khai phá dữ liệu kinhdoanh, hướng đầu tư và hướng phát triển, chấm điểm tín dụng, duyệt quảng bá các sảnphẩm, phát hiện các giao dịch gian lận hay đặc biệt hơn là dự đoán doanh số hay giá cả sảnphẩm trong tương lai

Có nhiều phương pháp được được đề xuất, tuy nhiên không có phương pháp tiếp cận nàolà tối ưu và chính xác hơn hẳn những phương pháp khác Dù sao với mỗi phương pháp cómột lợi thế và bất lợi riêng khi sử dụng Một trong những phương pháp đang được áp dụngmạnh mẽ trong kinh doanh là phương pháp hồi quy tuyến tính Phương pháp này thườngđược ứng dụng để giải quyết nhiều vấn đề thực tế như dự đoán doanh số bán hàng, phân tíchrủi ro, đánh giá hiệu quả chiến lược,… ngoài ra đây cũng là một công cụ tương đối dễ học,ứng dụng và có nhiều phần mềm, công cụ trực tuyến hỗ trợ áp dụng trong kinh doanh Vớinhững lý do trên đề tài “ Hồi quy tuyến tính và ứng dụng” là một đề tài quan trọng, mangtính ứng dụng cao và có tiềm năng phát triển lớn giúp tăng cường khả năng cạnh tranh củadoanh nghiệp

1.2.Mục tiêu của đề tài

Đề tài được thực hiện với các mục tiêu chính:

- Nghiên cứu và ứng dụng hồi quy tuyến tính vào bài toán dự đoán kinh doanh.

- Phát triển mô hình hồi quy tuyến tính phù hợp cho lĩnh vực kinh doanh của doanhnghiệp.

- Cài đặt, đánh giá thuật toán trong ứng dụng vào việc dự báo.

1.3.Phạm vi đề tài

- Ứng dụng hồi quy tuyến tính trong dự báo kinh doanh

- Cài đặt và đánh giá thuật toán và bước đầu áp dụng vào việc dự báo - Khai phá dữ liệu cơ bản

Trang 7

1.4.Phương pháp nghiên cứu

1.4.1.Phương pháp nghiên cứu lý thuyết

- Tham khảo tài liệu, sách báo, internet để tổng hợp kiến thức về hồi quy tuyến tínhvà ứng dụng của nó trong kinh doanh.

- Phân tích các mô hình hồi quy tuyến tính phổ biến và đánh giá ưu, nhược điểm củamô hình

1.4.2 Phương pháp thực nghiệm

- Lấy nguồn mẫu dữ liệu từ Internet.

- Xây dựng mô hình hồi quy tuyến tính phù hợp với dữ liệu thu thập được.- Đánh giá hiệu quả của mô hình hồi quy tuyến tính đã xây dựng.

Trang 8

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT2.1 Hồi quy tuyến tính

2.1.1 Khái niệm hồi quy tuyến tính

Hồi quy tuyến tính là một phương pháp được sử dụng để phân tích mối quan hệ giữabiến phụ thuộc Y và một hoặc nhiều biến độc lập X Mô hình hóa trong hồi quy tuyến tínhthường sử dụng hàm tuyến tính (bậc), trong đó các tham số của mô hình được ước lượng từdữ liệu Phương pháp này được sử dụng rộng rãi trong thực tế do tính đơn giản hóa của nó.

Trong mô hình hồi quy tuyến tính, mô hình hóa thường được biểu diễn dưới dạng bậcnhất Cụ thể, chúng ta cần tính toán các hệ số Wi trong một biểu thức bậc nhất như sau:

Y =W 0+W 1⋅ X 1+W 2 ⋅ X 2+…+W n ⋅ X n

Điều này có nghĩa là trên đồ thị, chúng ta cố gắng tìm một đường thẳng (nếu chỉ có mộtbiến độc lập) hoặc một siêu phẳng (với nhiều biến độc lập) đi qua tập hợp các điểm trongkhông gian thuộc tính mà thể hiện gần đúng nhất sự phân bố của tập dữ liệu Trên phươngdiện tính toán, chúng ta cố gắng tìm các hệ số Wi như trên sao cho sai số hồi quy đạt đượclà nhỏ nhất.

2.1.2 Bài toán hồi quy

Hồi Quy là một phương pháp học có giám sát trong máy học, mục tiêu chính là tìm ramối quan hệ giữa các đặc trưng của một vấn đề Thông qua việc xây dựng một mô hìnhkhớp với dữ liệu, ta có thể thể hiện được xu hướng biến thiên và mối quan hệ giữa các đặctrưng đó Ví dụ, khi cần dự đoán điểm trung bình cuối kỳ dựa vào số ngày đi học và điểmgiữa kỳ của học sinh, ta cần tìm mối quan hệ giữa điểm cuối kỳ, số ngày đi học và điểmgiữa kỳ Dựa vào tập dữ liệu (ví dụ: điểm cuối kỳ, số ngày học và điểm giữa kỳ của 100 họcsinh), ta có thể xây dựng một phương trình nhưy=θ0+θ1X1+θ2X2, trong đó y là điểm cuốikỳ, X1 là số ngày học và X2 là điểm giữa kỳ.

Khi có thêm một mẫu dữ liệu mới, chúng ta có thể dự đoán điểm cuối kỳ của học sinhđó bằng cách áp dụng vào phương trình đã xây dựng Trong ví dụ này, phương trình

y=θ0+θ1X1+θ2X2 định nghĩa một mặt phẳng trong không gian 3 chiều Các mô hình tươngtự như phương trình đường thẳng hoặc mặt phẳng chính là các mô hình tuyến tính Hồi quytuyến tính là một mô hình đơn giản trong bài toán hồi quy, trong đó chúng ta sử dụng đườngthẳng, mặt phẳng hoặc phương trình tuyến tính để dự đoán xu hướng của dữ liệu Giải bàitoán hồi quy tuyến tính chính là tìm các tham số θ0, θ1, để xác định phương trình.

Trang 9

Hình 1 Ví dụ về hồi quy tuyến tính

2.2 Mục đích sử dụng hồi quy tuyến tính

Hồi quy tuyến tính là một công cụ thống kê được sử dụng rộng rãi và dễ áp dụng chophần mềm và tính toán Các tổ chức và doanh nghiệp thường sử dụng hồi quy tuyến tính đểxử lý dữ liệu và dự đoán các kịch bản kinh doanh Các nhà nghiên cứu trong nhiều lĩnh vựckhác nhau cũng sử dụng phương pháp này để phân tích dữ liệu và đưa ra dự đoán về các xuhướng tương lai Hồi quy tuyến tính cũng được sử dụng trong các phương pháp khoa học dữliệu như máy học và trí tuệ nhân tạo để giải quyết các vấn đề phức tạp.

2.3 Một số phương pháp hồi quy tuyến tính2.3.1 Hồi quy tuyến tính với một ẩn

Hồi quy tuyến tính một biến là quá trình tìm ra mối quan hệ giữa một đặc trưng cụ thểvà một biến phụ thuộc Ví dụ, có thể sử dụng hồi quy tuyến tính để tìm mối liên hệ giữađiểm cuối kỳ và số ngày đi học, hoặc giữa giá xăng dầu và thời gian Tổng quát hơn, chúngta xây dựng một hàm h(x )=θ0+θ1X với X là đặc trưng của dữ liệu hoặc một biểu diễn khácnhư hàm h(x )=θ0X0+θ1X1, trong đó X0 luôn có giá trị là 1 và X1 là giá trị của đặc trưng Đểgiải bài toán hồi quy tuyến tính, chúng ta cần tìm các giá trị θ0 và θ1.

Trang 10

Hình 2 Công thức hàm lỗi và tìm cực tiểu hàm lỗi

Trong đó m là số lượng mẫu dữ liệu dùng để huấn luyện, xi là mẫu dữ liệu thứ i Lưu ýrằng đây hàm lỗi E là hàm phụ thuộc vào 2 biến và θ0 và θ1 nên sẽ có gradient theo 2 biếnđó và được dùng để cập nhật cho từng giá trị θ0 và θ1 Như vậy, theo như phương phápgradient descent, sau một số lần lặp hữu hạn thì các giá trị θ0 và θ1 sẽ tiến dần về giá trị cầntìm

2.3.2 Hồi quy tuyến tính đa ẩn

Hồi quy tuyến tính nhiều biến là một dạng mở rộng của hồi quy tuyến tính một biến.Trong trường hợp này, dữ liệu không chỉ bao gồm một đặc trưng mà có thể có từ hai đặctrưng trở lên Do đó, hàm h(x) sẽ có dạng như sau: h( Xi)=θ0Xi0+θ1Xi1+θ2Xi2+…, trong đómỗi xi là một đặc trưng của dữ liệu

Phương pháp gradient descent được áp dụng cho hồi quy tuyến tính nhiều biến tương tựnhư trong trường hợp chỉ có một đặc trưng Hàm lỗi E không chỉ là một hàm hai biến nữamà trở thành một hàm ba biến trở lên, do số lượng đặc trưng tăng lên Việc tính gradienttheo từng biến cũng tương tự và được sử dụng để cập nhật giá trị của các tham số θ tương

Tóm lại, chúng ta có một hàm cập nhật θ có dạng tổng quát như sau:

Hình 3 Hàm cập nhật tổng quát θ

Trang 11

2.3.3 Hồi quy tuyến tính đa thức

Trong thực tế thì không phải lúc nào dữ liệu cũng đi theo đường thẳng mà có thể đi theomột đường cong đa thức:

Hình 4 Ví dụ về hàm hồi quy đa thức

Trong trường hợp như vậy, hàm h sẽ trở thành các hàm đa thức bậc n >= 2:

ℎ(x )=θ0+θ1X + θ1X2 … Tuy nhiên, khi tính toán hàm lỗi E= 1

2 m(h(Xi)− yi)2

thì ta thấy hàm E chỉ phụ thuộc các tham số θ còn các giá trị X được xem như hằng số Nhưvậy chúng ta có thể xem các bộ giá trị (X1,X2,X3, ) như các bộ (t1,t2,t3…) Như vậy h sẽ trởthành ℎ(t)=θ0+θ1t1+θ1t2… và áp dụng gradient descent như đối với mô hình nhiều ẩn

2.4 Giả định trong hồi quy tuyến tính

Trong phân tích hồi quy tuyến tính, có một số giả định quan trọng cần được đáp ứng đểcác kết quả từ mô hình hồi quy là tin cậy và có ý nghĩa Dưới đây là những giả định chínhtrong hồi quy tuyến tính:

- Mối quan hệ tuyến tính: Giả định rằng mối quan hệ giữa biến độc lập và biến phụthuộc là tuyến tính Điều này có nghĩa là mỗi đơn vị thay đổi trong biến độc lập sẽ gây ra sựthay đổi đồng đều trong biến phụ thuộc, theo một hình thẳng.

Trang 12

- Độc lập của sai số: Giả định rằng sai số (ε) giữa các quan sát là độc lập với nhau Điều) giữa các quan sát là độc lập với nhau Điềunày có nghĩa là sai số của mỗi quan sát không phụ thuộc vào sai số của các quan sát khác.

- Homoscedasticity: Giả định rằng phương sai của sai số là không đổi theo độ lớn củabiến độc lập Nói cách khác, biến độc lập không ảnh hưởng đến phương sai của sai số.

- Không có đa cộng tuyến: Giả định rằng không có mối quan hệ tuyến tính hoặc tuyếntính hoá giữa các biến độc lập Điều này có nghĩa là mỗi biến độc lập đóng góp một lượngthông tin mới và độc lập vào việc giải thích biến phụ thuộc.

- Không có sai sót đo lường hoặc sai sót đo lường ngẫu nhiên: Giả định rằng biến độclập được đo lường hoàn toàn chính xác và không bị ảnh hưởng bởi bất kỳ yếu tố nào khácngoài biến phụ thuộc.

- Không có tương quan giữa biến độc lập và sai số: Giả định rằng biến độc lập khôngtương quan với sai số của mô hình Nói cách khác, không có yếu tố nào khác ngoài biến độclập ảnh hưởng đến biến phụ thuộc.

Nếu các giả định này không được đáp ứng, có thể làm giảm tính tin cậy và ý nghĩa củakết quả từ mô hình hồi quy tuyến tính Trong một số trường hợp, việc kiểm tra và xử lý việckhông đáp ứng các giả định này có thể là cần thiết để đảm bảo tính toàn vẹn của mô hình.

2.5 Ứng dụng của hồi quy tuyến tính2.5.1 Trong thống kê và khoa học dữ liệu

Hồi quy tuyến tính là một kỹ thuật thống kê cơ bản và phổ biến được sử dụng trongnhiều lĩnh vực, bao gồm thống kê và khoa học dữ liệu Dưới đây là một số ứng dụng cụ thểcủa hồi quy tuyến tính:

- Mô hình hóa mối quan hệ giữa các biến: Hồi quy tuyến tính giúp xác định mối quan hệtuyến tính giữa biến phụ thuộc (biến cần dự đoán) và một hoặc nhiều biến độc lập (biến dựbáo) Ví dụ: nhà khoa học có thể sử dụng hồi quy tuyến tính để mô hình hóa mối quan hệgiữa chiều cao và cân nặng của con người.

- Xác định mối quan hệ nhân quả: Hồi quy tuyến tính có thể giúp xác định mối quan hệnhân quả giữa các biến, tuy nhiên cần lưu ý rằng đây chỉ là mối quan hệ tương quan chứchưa hẳn là nhân quả Ví dụ: nhà nghiên cứu có thể sử dụng hồi quy tuyến tính để xác địnhmối quan hệ nhân quả giữa việc học tập và điểm số.

- Phân tích dữ liệu thực nghiệm: Hồi quy tuyến tính được sử dụng trong nhiều lĩnh vựckhoa học để phân tích dữ liệu thực nghiệm Ví dụ: nhà sinh học có thể sử dụng hồi quy

Trang 13

tuyến tính để phân tích mối quan hệ giữa nồng độ thuốc và hiệu quả điều trị.

- Lựa chọn mô hình: Hồi quy tuyến tính là một mô hình thống kê đơn giản và dễ hiểu,do đó nó thường được sử dụng để lựa chọn mô hình phù hợp cho dữ liệu Ví dụ: nhà khoahọc dữ liệu có thể sử dụng hồi quy tuyến tính để so sánh các mô hình khác nhau và lựa chọnmô hình thích hợp nhất để dự đoán giá trị biến phụ thuộc.

2.5.2 Trong dự đoán và phân tích dự báo

Hồi quy tuyến tính là một phương pháp thống kê phổ biến được sử dụng trong dự báo đểmô tả mối quan hệ tuyến tính giữa biến phụ thuộc (biến cần dự đoán) và một hoặc nhiềubiến độc lập (biến dự báo) Dưới đây là một số ứng dụng cụ thể của hồi quy tuyến tính trongdự báo:

- Dự báo doanh thu: Dự đoán doanh thu trong tương lai dựa trên các yếu tố như dữ liệubán hàng trong quá khứ, chiến lược marketing, điều kiện kinh tế Ví dụ: doanh nghiệp có thểsử dụng hồi quy tuyến tính để dự đoán doanh thu của năm sau dựa trên doanh thu của nămtrước, chi phí marketing và dự báo tăng trưởng GDP.

- Dự báo giá cả: Dự đoán giá cả của các mặt hàng trong tương lai dựa trên các yếu tốnhư giá cả trong quá khứ, chi phí sản xuất, nhu cầu thị trường Ví dụ: nhà đầu tư có thể sửdụng hồi quy tuyến tính để dự đoán giá vàng trong tương lai dựa trên giá vàng trong quákhứ, lãi suất ngân hàng và dự báo nhu cầu trang sức.

- Dự báo nhu cầu: Dự đoán nhu cầu cho một sản phẩm hoặc dịch vụ trong tương lai dựatrên các yếu tố như dữ liệu bán hàng trong quá khứ, chiến lược marketing, xu hướng thịtrường Ví dụ: nhà sản xuất có thể sử dụng hồi quy tuyến tính để dự đoán nhu cầu cho sảnphẩm mới dựa trên dữ liệu bán hàng của các sản phẩm tương tự, chiến dịch marketing chosản phẩm mới và xu hướng thị trường.

- Dự báo lượng mưa: Dự đoán lượng mưa trong tương lai dựa trên các yếu tố như dữliệu lượng mưa trong quá khứ, nhiệt độ, độ ẩm, áp suất khí quyển Ví dụ: cơ quan khí tượngthủy văn có thể sử dụng hồi quy tuyến tính để dự đoán lượng mưa trong tháng tới dựa trêndữ liệu lượng mưa trong những năm trước, dự báo nhiệt độ và độ ẩm.

- Dự báo tỷ lệ thất nghiệp: Dự đoán tỷ lệ thất nghiệp trong tương lai dựa trên các yếu tốnhư dữ liệu tỷ lệ thất nghiệp trong quá khứ, sự tăng trưởng GDP, tỷ lệ lạm phát Ví dụ:chính phủ có thể sử dụng hồi quy tuyến tính để dự đoán tỷ lệ thất nghiệp trong năm sau dựatrên tỷ lệ thất nghiệp trong những năm trước, dự báo tốc độ tăng trưởng GDP và dự báo tỷ lệ

Trang 14

- Hiệu suất trên các bộ dữ liệu có khả năng tách tuyến tính: phù hợp với các bộ dữ liệu táchtuyến tính và giúp tìm ra mối quan hệ giữa các biến một cách hiệu quả.

- Giảm Overfitting: Kỹ thuật Regularization trong hồi quy tuyến tính có khả năng giảm độphức tạp của mô hình, giúp giảm nguy cơ overfitting và cải thiện hiệu suất của mô hình trêntập kiểm tra.

Nhược điểm:

- Dễ Underfitting: Hồi quy tuyến tính dễ gặp hiện tượng underfitting khi mô hình không thểthu thập dữ liệu đúng cách, đặc biệt khi chức năng giả thuyết không phù hợp với dữ liệu.- Không phù hợp với dữ liệu phức tạp: Do giả định về mối quan hệ tuyến tính giữa các biến,hồi quy tuyến tính không phù hợp với các tập dữ liệu phức tạp Trong các tình huống thựctế, mối quan hệ giữa các biến thường không tuyến tính và đòi hỏi một hàm phức tạp hơn đểthu thập dữ liệu hiệu quả hơn.

- Nhạy cảm với dữ liệu ngoại lai: Dữ liệu ngoại lai có thể làm ảnh hưởng đến hiệu suất củamô hình hồi quy tuyến tính và dẫn đến độ chính xác thấp Để giải quyết vấn đề này, dữ liệungoại lai cần được xử lý thích hợp trước khi áp dụng mô hình hồi quy tuyến tính.

2.7 Phương pháp đánh giá R- Squared

Phương pháp đánh giá R-squared, còn được gọi là hệ số xác định, là một phương phápthống kê được sử dụng để đánh giá mức độ phù hợp của một mô hình hồi quy tuyến tính vớidữ liệu R-squared là một con số nằm trong khoảng từ 0 đến 1, thường được biểu diễn dướidạng phần trăm.

Trang 15

Tuy nhiên, R-squared không thể giải thích mọi khía cạnh của sự phù hợp của mô hình vàcần được kết hợp với các phương pháp đánh giá khác như kiểm định giả thuyết, phân tíchsai số, và kiểm tra mô hình trên dữ liệu mới để đảm bảo tính đáng tin cậy của kết qủa.

2.8 RFE (Recursive Feature Elimination)

Recursive Feature Elimination (RFE) là một phương pháp giúp chọn ra các đặc trưngquan trọng từ một mô hình dự đoán bên ngoài (ví dụ như các hệ số của một mô hình tuyếntính) Ý tưởng của RFE là lặp lại quá trình này bằng cách xem xét từng tập đặc trưng nhỏhơn và nhỏ hơn Đầu tiên, mô hình được huấn luyện trên tập đặc trưng ban đầu và mức độquan trọng của mỗi đặc trưng được tính toán thông qua một thuộc tính cụ thể (như coef_,feature_importances_) hoặc một hàm có thể gọi Sau đó, các đặc trưng ít quan trọng nhấtđược loại bỏ từ tập đặc trưng hiện tại Quy trình này được lặp lại đến khi số lượng đặc trưngmong muốn được chọn được đạt được.

RFECV thực hiện RFE trong một vòng lặp cross-validation để tìm ra số lượng đặc trưngtối ưu nhất Cụ thể hơn, số lượng đặc trưng được chọn được điều chỉnh tự động bằng cáchđặt một bộ chọn RFE trên các phân chia cross-validation khác nhau (cung cấp bởi tham sốcv) Hiệu suất của bộ chọn RFE được đánh giá bằng cách sử dụng một bộ đánh giá cho cácsố lượng đặc trưng được chọn khác nhau và được tổng hợp lại Cuối cùng, các điểm số đượctính trung bình qua các lượt cross-validation và số lượng đặc trưng được chọn được đặt là sốlượng đặc trưng tối đa hóa điểm số cross-validation.

Ví dụ minh họa về Recursive Feature Elimination (RFE):

VD1: Recursive feature elimination (RFE): Trong bài toán phân loại chữ số viết tay, RFE có

Trang 16

thể được sử dụng để xác định những pixel nào quan trọng nhất để phân loại chính xác cácchữ số Bằng cách lặp lại quá trình loại bỏ các pixel ít quan trọng, chúng ta có thể tìm ra tậphợp những pixel quyết định quan trọng nhất cho việc phân loại.

VD2: Recursive feature elimination with cross-validation (RFECV): Trong bài toán dự đoán

giá nhà, RFECV có thể được sử dụng để tự động điều chỉnh số lượng đặc trưng được chọnvà đảm bảo tính tổng quát của mô hình thông qua việc sử dụng cross-validation Bằng cáchlặp lại quá trình RFE trên các phân chia cross-validation khác nhau và đánh giá hiệu suấtcủa mô hình dựa trên số lượng đặc trưng được chọn, chúng ta có thể chọn ra một tập hợpđặc trưng tối ưu cho mô hình dự đoán giá nhà.

- step: Nếu lớn hơn hoặc bằng 1, thì step tương ứng với số (nguyên) đặc trưng cần loại bỏ ởmỗi lần lặp Nếu trong khoảng (0.0, 1.0), thì step tương ứng với phần trăm (làm tròn xuống)của số đặc trưng cần loại bỏ ở mỗi lần lặp.

- verbose: Kiểm soát mức độ in ra thông tin.

- importance_getter: Xác định cách lấy sự quan trọng của đặc trưng Nếu là 'auto', sử dụngsự quan trọng của đặc trưng thông qua các thuộc tính coef_ hoặc feature_importances_ củaestimator Nếu là một chuỗi, xác định tên thuộc tính cho việc trích xuất sự quan trọng củađặc trưng Nếu là một hàm có thể gọi, ghi đè lên cách lấy sự quan trọng mặc định.

Thuộc tính:

- classes_: Các nhãn lớp có sẵn khi estimator là một bộ phân loại.

- estimator_: Thực thể estimator đã được huấn luyện được sử dụng để chọn các đặc trưng.- n_features_: Số lượng đặc trưng đã được chọn.

- n_features_in_: Số lượng đặc trưng được nhìn thấy trong quá trình huấn luyện Chỉ đượcxác định nếu estimator cơ bản có một thuộc tính tương ứng khi huấn luyện.

- feature_names_in_: Tên của các đặc trưng được nhìn thấy trong quá trình huấn luyện Chỉđược xác định khi X có tên đặc trưng là các chuỗi.

Trang 17

- ranking_: Xếp hạng đặc trưng, sao cho ranking_[i] tương ứng với vị trí xếp hạng của đặctrưng thứ i Các đặc trưng đã được chọn (tức là được ước tính là tốt nhất) được gán xếphạng 1.

- support_: Mặt nạ của các đặc trưng đã được chọn.

2.9 VIF (Variance Inflation Factor)

Trong thống kê , hệ số lạm phát phương sai (Variance inflation factor – VIF ) là thươngsố của phương sai trong một mô hình có nhiều số hạng bằng phương sai của một mô hìnhchỉ có một thuật ngữ Nó định lượng mức độ nghiêm trọng của đa cộng tuyến trong phântích hồi quy bình phương nhỏ nhất bình thường Nó cung cấp một chỉ số đo lường mức độchênh lệch (bình phương độ lệch chuẩn của ước tính) của một hệ số hồi quy ước tính đượctăng lên do cộng tuyến VIF là một công cụ hữu ích để đánh giá mức độ đa cộng tuyến tínhtrong mô hình hồi quy tuyến tính.

Ta có công thức tính VIF như sau: VIF = 1/ (1-R2)Mối tương quan giữa VIF với R2

Mối quan hệ này được khái quát trong bảng sau:

Ngày đăng: 09/05/2024, 13:53

HÌNH ẢNH LIÊN QUAN

Hình 1. Ví dụ về hồi quy tuyến tính - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
Hình 1. Ví dụ về hồi quy tuyến tính (Trang 9)
Hình 2. Công thức hàm lỗi và tìm cực tiểu hàm lỗi - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
Hình 2. Công thức hàm lỗi và tìm cực tiểu hàm lỗi (Trang 10)
Hình 4. Ví dụ về hàm hồi quy đa thức - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
Hình 4. Ví dụ về hàm hồi quy đa thức (Trang 11)
Hình .  Hầu như không có các giá trị không xác định trong toàn bộ tập dữ liệu. - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
nh Hầu như không có các giá trị không xác định trong toàn bộ tập dữ liệu (Trang 25)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w