1. Trang chủ
  2. » Luận Văn - Báo Cáo

môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng

34 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hồi Quy Tuyến Tính Và Ứng Dụng
Tác giả Lê Trung Tín, Trương Thanh Lộc, Hoàng Bảo Tố
Người hướng dẫn ThS. Lê Thị Minh Châu
Trường học Trường Đại Học Sư Phạm Kỹ Thuật TP. HCM
Chuyên ngành Ứng Dụng Phân Tích Dữ Liệu Lớn Trong Kinh Doanh
Thể loại Báo Cáo Cuối Kỳ
Năm xuất bản 2024
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 34
Dung lượng 1,55 MB

Nội dung

Hồi quytuyến tính là một mô hình đơn giản trong bài toán hồi quy, trong đó chúng ta sử dụng đườngthẳng, mặt phẳng hoặc phương trình tuyến tính để dự đoán xu hướng của dữ liệu.. Dưới đây

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM

KHOA KINH TẾ

BÁO CÁO CUỐI KÌ

TRONG KINH DOANH

ĐỀ TÀI: HỒI QUY TUYẾN TÍNH VÀ ỨNG DỤNG

GV: ThS Lê Thị Minh Châu Nhóm sinh viên thực hiện: Nhóm 7

Mã lớp học: ABDA433708_23_2_01CLC

TP Hồ Chí Minh, 03 tháng 04 năm 2024

Trang 4

DANH SÁCH NHÓM VÀ NHIỆM VỤ

thành

Lê Trung Tín 21126278

- Tìm kiếm tài liệu về đề tài

- Chạy mô hình và kết luận

- Viết nội dung Chương 3

100%

Trương Thanh Lộc 21126048

- Tổng hợp và chỉnh sửa nội dung

- Tìm nguồn dữ liệu, mô tả dữ liệu, xử

- Phân tích và chuẩn hóa dữ liệu

- Viết nội dung Chương 2

100%

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1 Ví dụ về hồi quy tuyến tính

Hình 2 Công thức hàm lỗi và tìm cực tiểu hàm lỗi

Hình 8 Kết quả kiểm tra dữ liệu null

Hình 9 Kết quả kiểm tra sau khi bỏ null

Hình 10 Kết quả kiểm ra trùng lặp

Hình 11 Kết quả sau khi làm sạch dữ liệu

Hình 12 Kết quả sau khi kiểm tra giá trị duy nhất

Hình 18 Dataframe sau khi được xử lý

Hình 19 Code chuẩn hóa

Hình 20 Dataframe sau khi chuẩn hoá

Hình 21 Huấn luyện mô hình

Hình 22 Matplotlib

Hình 23 Hệ số của các biến trong phương trình

Trang 6

CHƯƠNG 1: MỞ ĐẦU 1.1 Lý do chọn đề tài

Hiện nay cùng với sự phát triển bùng nổ của lĩnh vực Công nghệ thông tin thì lĩnh vựckinh doanh trên thế giới cũng đã trải qua một sự thay đổi to lớn về nội dung cũng như cáchthức kinh doanh đặc biệt từ khi có sự hỗ trợ đắc lực của công nghệ thông tin Trong kinhdoanh nó được sử dụng rộng rãi để giải quyết nhiều vấn đề thực tế như khai phá dữ liệu kinhdoanh, hướng đầu tư và hướng phát triển, chấm điểm tín dụng, duyệt quảng bá các sảnphẩm, phát hiện các giao dịch gian lận hay đặc biệt hơn là dự đoán doanh số hay giá cả sảnphẩm trong tương lai

Có nhiều phương pháp được được đề xuất, tuy nhiên không có phương pháp tiếp cận nào

là tối ưu và chính xác hơn hẳn những phương pháp khác Dù sao với mỗi phương pháp cómột lợi thế và bất lợi riêng khi sử dụng Một trong những phương pháp đang được áp dụngmạnh mẽ trong kinh doanh là phương pháp hồi quy tuyến tính Phương pháp này thườngđược ứng dụng để giải quyết nhiều vấn đề thực tế như dự đoán doanh số bán hàng, phân tíchrủi ro, đánh giá hiệu quả chiến lược,… ngoài ra đây cũng là một công cụ tương đối dễ học,ứng dụng và có nhiều phần mềm, công cụ trực tuyến hỗ trợ áp dụng trong kinh doanh Vớinhững lý do trên đề tài “ Hồi quy tuyến tính và ứng dụng” là một đề tài quan trọng, mangtính ứng dụng cao và có tiềm năng phát triển lớn giúp tăng cường khả năng cạnh tranh củadoanh nghiệp

1.2 Mục tiêu của đề tài

Đề tài được thực hiện với các mục tiêu chính:

- Nghiên cứu và ứng dụng hồi quy tuyến tính vào bài toán dự đoán kinh doanh

- Phát triển mô hình hồi quy tuyến tính phù hợp cho lĩnh vực kinh doanh của doanhnghiệp

- Cài đặt, đánh giá thuật toán trong ứng dụng vào việc dự báo

1.3 Phạm vi đề tài

- Ứng dụng hồi quy tuyến tính trong dự báo kinh doanh

- Cài đặt và đánh giá thuật toán và bước đầu áp dụng vào việc dự báo

- Khai phá dữ liệu cơ bản

Trang 7

1.4 Phương pháp nghiên cứu

1.4.1 Phương pháp nghiên cứu lý thuyết

- Tham khảo tài liệu, sách báo, internet để tổng hợp kiến thức về hồi quy tuyến tính

và ứng dụng của nó trong kinh doanh

- Phân tích các mô hình hồi quy tuyến tính phổ biến và đánh giá ưu, nhược điểm của

mô hình

1.4.2 Phương pháp thực nghiệm

- Lấy nguồn mẫu dữ liệu từ Internet

- Xây dựng mô hình hồi quy tuyến tính phù hợp với dữ liệu thu thập được

- Đánh giá hiệu quả của mô hình hồi quy tuyến tính đã xây dựng

Trang 8

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Hồi quy tuyến tính

2.1.1 Khái niệm hồi quy tuyến tính

Hồi quy tuyến tính là một phương pháp được sử dụng để phân tích mối quan hệ giữabiến phụ thuộc Y và một hoặc nhiều biến độc lập X Mô hình hóa trong hồi quy tuyến tínhthường sử dụng hàm tuyến tính (bậc), trong đó các tham số của mô hình được ước lượng từ

dữ liệu Phương pháp này được sử dụng rộng rãi trong thực tế do tính đơn giản hóa của nó.Trong mô hình hồi quy tuyến tính, mô hình hóa thường được biểu diễn dưới dạng bậcnhất Cụ thể, chúng ta cần tính toán các hệ số Wi trong một biểu thức bậc nhất như sau:

Y =W 0+W 1⋅ X 1+W 2 ⋅ X 2+…+W n ⋅ X n

Điều này có nghĩa là trên đồ thị, chúng ta cố gắng tìm một đường thẳng (nếu chỉ có mộtbiến độc lập) hoặc một siêu phẳng (với nhiều biến độc lập) đi qua tập hợp các điểm trongkhông gian thuộc tính mà thể hiện gần đúng nhất sự phân bố của tập dữ liệu Trên phươngdiện tính toán, chúng ta cố gắng tìm các hệ số Wi như trên sao cho sai số hồi quy đạt được

là nhỏ nhất

2.1.2 Bài toán hồi quy

Hồi Quy là một phương pháp học có giám sát trong máy học, mục tiêu chính là tìm ramối quan hệ giữa các đặc trưng của một vấn đề Thông qua việc xây dựng một mô hìnhkhớp với dữ liệu, ta có thể thể hiện được xu hướng biến thiên và mối quan hệ giữa các đặctrưng đó Ví dụ, khi cần dự đoán điểm trung bình cuối kỳ dựa vào số ngày đi học và điểmgiữa kỳ của học sinh, ta cần tìm mối quan hệ giữa điểm cuối kỳ, số ngày đi học và điểmgiữa kỳ Dựa vào tập dữ liệu (ví dụ: điểm cuối kỳ, số ngày học và điểm giữa kỳ của 100 họcsinh), ta có thể xây dựng một phương trình nhưy=θ0+θ1X1+θ2X2, trong đó y là điểm cuối

kỳ, X1 là số ngày học và X2 là điểm giữa kỳ

Khi có thêm một mẫu dữ liệu mới, chúng ta có thể dự đoán điểm cuối kỳ của học sinh

đó bằng cách áp dụng vào phương trình đã xây dựng Trong ví dụ này, phương trình

y=θ0+θ1X1+θ2X2 định nghĩa một mặt phẳng trong không gian 3 chiều Các mô hình tương

tự như phương trình đường thẳng hoặc mặt phẳng chính là các mô hình tuyến tính Hồi quytuyến tính là một mô hình đơn giản trong bài toán hồi quy, trong đó chúng ta sử dụng đườngthẳng, mặt phẳng hoặc phương trình tuyến tính để dự đoán xu hướng của dữ liệu Giải bàitoán hồi quy tuyến tính chính là tìm các tham số θ0, θ1, để xác định phương trình

Trang 9

Hình 1 Ví dụ về hồi quy tuyến tính

2.2 Mục đích sử dụng hồi quy tuyến tính

Hồi quy tuyến tính là một công cụ thống kê được sử dụng rộng rãi và dễ áp dụng chophần mềm và tính toán Các tổ chức và doanh nghiệp thường sử dụng hồi quy tuyến tính để

xử lý dữ liệu và dự đoán các kịch bản kinh doanh Các nhà nghiên cứu trong nhiều lĩnh vựckhác nhau cũng sử dụng phương pháp này để phân tích dữ liệu và đưa ra dự đoán về các xuhướng tương lai Hồi quy tuyến tính cũng được sử dụng trong các phương pháp khoa học dữliệu như máy học và trí tuệ nhân tạo để giải quyết các vấn đề phức tạp

2.3 Một số phương pháp hồi quy tuyến tính

2.3.1 Hồi quy tuyến tính với một ẩn

Hồi quy tuyến tính một biến là quá trình tìm ra mối quan hệ giữa một đặc trưng cụ thể

và một biến phụ thuộc Ví dụ, có thể sử dụng hồi quy tuyến tính để tìm mối liên hệ giữađiểm cuối kỳ và số ngày đi học, hoặc giữa giá xăng dầu và thời gian Tổng quát hơn, chúng

ta xây dựng một hàm h(x )=θ0+θ1X với X là đặc trưng của dữ liệu hoặc một biểu diễn khácnhư hàm h(x )=θ0X0+θ1X1, trong đó X0 luôn có giá trị là 1 và X1 là giá trị của đặc trưng Đểgiải bài toán hồi quy tuyến tính, chúng ta cần tìm các giá trị θ0 và θ1

Trang 10

Hình 2 Công thức hàm lỗi và tìm cực tiểu hàm lỗiTrong đó m là số lượng mẫu dữ liệu dùng để huấn luyện, xi là mẫu dữ liệu thứ i Lưu ýrằng đây hàm lỗi E là hàm phụ thuộc vào 2 biến và θ0 và θ1 nên sẽ có gradient theo 2 biến

đó và được dùng để cập nhật cho từng giá trị θ0 và θ1 Như vậy, theo như phương phápgradient descent, sau một số lần lặp hữu hạn thì các giá trị θ0 và θ1 sẽ tiến dần về giá trị cầntìm

2.3.2 Hồi quy tuyến tính đa ẩn

Hồi quy tuyến tính nhiều biến là một dạng mở rộng của hồi quy tuyến tính một biến.Trong trường hợp này, dữ liệu không chỉ bao gồm một đặc trưng mà có thể có từ hai đặctrưng trở lên Do đó, hàm h(x) sẽ có dạng như sau: h( X i)=θ0X i 0+θ1X i 1+θ2X i2+…, trong đómỗi xi là một đặc trưng của dữ liệu

Phương pháp gradient descent được áp dụng cho hồi quy tuyến tính nhiều biến tương tựnhư trong trường hợp chỉ có một đặc trưng Hàm lỗi E không chỉ là một hàm hai biến nữa

mà trở thành một hàm ba biến trở lên, do số lượng đặc trưng tăng lên Việc tính gradienttheo từng biến cũng tương tự và được sử dụng để cập nhật giá trị của các tham số θ tương

ứng

Tóm lại, chúng ta có một hàm cập nhật θ có dạng tổng quát như sau:

Hình 3 Hàm cập nhật tổng quát θ

Trang 11

2.3.3 Hồi quy tuyến tính đa thức

Trong thực tế thì không phải lúc nào dữ liệu cũng đi theo đường thẳng mà có thể đi theomột đường cong đa thức:

Hình 4 Ví dụ về hàm hồi quy đa thứcTrong trường hợp như vậy, hàm h sẽ trở thành các hàm đa thức bậc n >= 2:

ℎ(x )=θ0+θ1X + θ1X2 … Tuy nhiên, khi tính toán hàm lỗi E= 1

2 m(h(X i)− yi)2thì ta thấy hàm E chỉ phụ thuộc các tham số θ còn các giá trị X được xem như hằng số Nhưvậy chúng ta có thể xem các bộ giá trị (X1,X2,X3, ) như các bộ (t1,t2,t3…) Như vậy h sẽ trởthành ℎ(t)=θ0+θ1t1+θ1t2… và áp dụng gradient descent như đối với mô hình nhiều ẩn

2.4 Giả định trong hồi quy tuyến tính

Trong phân tích hồi quy tuyến tính, có một số giả định quan trọng cần được đáp ứng đểcác kết quả từ mô hình hồi quy là tin cậy và có ý nghĩa Dưới đây là những giả định chínhtrong hồi quy tuyến tính:

- Mối quan hệ tuyến tính: Giả định rằng mối quan hệ giữa biến độc lập và biến phụthuộc là tuyến tính Điều này có nghĩa là mỗi đơn vị thay đổi trong biến độc lập sẽ gây ra sựthay đổi đồng đều trong biến phụ thuộc, theo một hình thẳng

Trang 12

- Độc lập của sai số: Giả định rằng sai số (ε) giữa các quan sát là độc lập với nhau Điều) giữa các quan sát là độc lập với nhau Điềunày có nghĩa là sai số của mỗi quan sát không phụ thuộc vào sai số của các quan sát khác.

- Homoscedasticity: Giả định rằng phương sai của sai số là không đổi theo độ lớn củabiến độc lập Nói cách khác, biến độc lập không ảnh hưởng đến phương sai của sai số

- Không có đa cộng tuyến: Giả định rằng không có mối quan hệ tuyến tính hoặc tuyếntính hoá giữa các biến độc lập Điều này có nghĩa là mỗi biến độc lập đóng góp một lượngthông tin mới và độc lập vào việc giải thích biến phụ thuộc

- Không có sai sót đo lường hoặc sai sót đo lường ngẫu nhiên: Giả định rằng biến độclập được đo lường hoàn toàn chính xác và không bị ảnh hưởng bởi bất kỳ yếu tố nào khácngoài biến phụ thuộc

- Không có tương quan giữa biến độc lập và sai số: Giả định rằng biến độc lập khôngtương quan với sai số của mô hình Nói cách khác, không có yếu tố nào khác ngoài biến độclập ảnh hưởng đến biến phụ thuộc

Nếu các giả định này không được đáp ứng, có thể làm giảm tính tin cậy và ý nghĩa củakết quả từ mô hình hồi quy tuyến tính Trong một số trường hợp, việc kiểm tra và xử lý việckhông đáp ứng các giả định này có thể là cần thiết để đảm bảo tính toàn vẹn của mô hình

2.5 Ứng dụng của hồi quy tuyến tính

2.5.1 Trong thống kê và khoa học dữ liệu

Hồi quy tuyến tính là một kỹ thuật thống kê cơ bản và phổ biến được sử dụng trongnhiều lĩnh vực, bao gồm thống kê và khoa học dữ liệu Dưới đây là một số ứng dụng cụ thểcủa hồi quy tuyến tính:

- Mô hình hóa mối quan hệ giữa các biến: Hồi quy tuyến tính giúp xác định mối quan hệtuyến tính giữa biến phụ thuộc (biến cần dự đoán) và một hoặc nhiều biến độc lập (biến dựbáo) Ví dụ: nhà khoa học có thể sử dụng hồi quy tuyến tính để mô hình hóa mối quan hệgiữa chiều cao và cân nặng của con người

- Xác định mối quan hệ nhân quả: Hồi quy tuyến tính có thể giúp xác định mối quan hệnhân quả giữa các biến, tuy nhiên cần lưu ý rằng đây chỉ là mối quan hệ tương quan chứchưa hẳn là nhân quả Ví dụ: nhà nghiên cứu có thể sử dụng hồi quy tuyến tính để xác địnhmối quan hệ nhân quả giữa việc học tập và điểm số

- Phân tích dữ liệu thực nghiệm: Hồi quy tuyến tính được sử dụng trong nhiều lĩnh vựckhoa học để phân tích dữ liệu thực nghiệm Ví dụ: nhà sinh học có thể sử dụng hồi quy

Trang 13

tuyến tính để phân tích mối quan hệ giữa nồng độ thuốc và hiệu quả điều trị.

- Lựa chọn mô hình: Hồi quy tuyến tính là một mô hình thống kê đơn giản và dễ hiểu,

do đó nó thường được sử dụng để lựa chọn mô hình phù hợp cho dữ liệu Ví dụ: nhà khoahọc dữ liệu có thể sử dụng hồi quy tuyến tính để so sánh các mô hình khác nhau và lựa chọn

mô hình thích hợp nhất để dự đoán giá trị biến phụ thuộc

2.5.2 Trong dự đoán và phân tích dự báo

Hồi quy tuyến tính là một phương pháp thống kê phổ biến được sử dụng trong dự báo để

mô tả mối quan hệ tuyến tính giữa biến phụ thuộc (biến cần dự đoán) và một hoặc nhiềubiến độc lập (biến dự báo) Dưới đây là một số ứng dụng cụ thể của hồi quy tuyến tính trong

- Dự báo nhu cầu: Dự đoán nhu cầu cho một sản phẩm hoặc dịch vụ trong tương lai dựatrên các yếu tố như dữ liệu bán hàng trong quá khứ, chiến lược marketing, xu hướng thịtrường Ví dụ: nhà sản xuất có thể sử dụng hồi quy tuyến tính để dự đoán nhu cầu cho sảnphẩm mới dựa trên dữ liệu bán hàng của các sản phẩm tương tự, chiến dịch marketing chosản phẩm mới và xu hướng thị trường

- Dự báo lượng mưa: Dự đoán lượng mưa trong tương lai dựa trên các yếu tố như dữliệu lượng mưa trong quá khứ, nhiệt độ, độ ẩm, áp suất khí quyển Ví dụ: cơ quan khí tượngthủy văn có thể sử dụng hồi quy tuyến tính để dự đoán lượng mưa trong tháng tới dựa trên

dữ liệu lượng mưa trong những năm trước, dự báo nhiệt độ và độ ẩm

- Dự báo tỷ lệ thất nghiệp: Dự đoán tỷ lệ thất nghiệp trong tương lai dựa trên các yếu tốnhư dữ liệu tỷ lệ thất nghiệp trong quá khứ, sự tăng trưởng GDP, tỷ lệ lạm phát Ví dụ:chính phủ có thể sử dụng hồi quy tuyến tính để dự đoán tỷ lệ thất nghiệp trong năm sau dựatrên tỷ lệ thất nghiệp trong những năm trước, dự báo tốc độ tăng trưởng GDP và dự báo tỷ lệ

Trang 14

- Hiệu suất trên các bộ dữ liệu có khả năng tách tuyến tính: phù hợp với các bộ dữ liệu táchtuyến tính và giúp tìm ra mối quan hệ giữa các biến một cách hiệu quả.

- Giảm Overfitting: Kỹ thuật Regularization trong hồi quy tuyến tính có khả năng giảm độphức tạp của mô hình, giúp giảm nguy cơ overfitting và cải thiện hiệu suất của mô hình trêntập kiểm tra

- Nhạy cảm với dữ liệu ngoại lai: Dữ liệu ngoại lai có thể làm ảnh hưởng đến hiệu suất của

mô hình hồi quy tuyến tính và dẫn đến độ chính xác thấp Để giải quyết vấn đề này, dữ liệungoại lai cần được xử lý thích hợp trước khi áp dụng mô hình hồi quy tuyến tính

2.7 Phương pháp đánh giá R- Squared

Phương pháp đánh giá R-squared, còn được gọi là hệ số xác định, là một phương phápthống kê được sử dụng để đánh giá mức độ phù hợp của một mô hình hồi quy tuyến tính với

dữ liệu R-squared là một con số nằm trong khoảng từ 0 đến 1, thường được biểu diễn dướidạng phần trăm

Trang 15

Tuy nhiên, R-squared không thể giải thích mọi khía cạnh của sự phù hợp của mô hình vàcần được kết hợp với các phương pháp đánh giá khác như kiểm định giả thuyết, phân tíchsai số, và kiểm tra mô hình trên dữ liệu mới để đảm bảo tính đáng tin cậy của kết qủa.

2.8 RFE (Recursive Feature Elimination)

Recursive Feature Elimination (RFE) là một phương pháp giúp chọn ra các đặc trưngquan trọng từ một mô hình dự đoán bên ngoài (ví dụ như các hệ số của một mô hình tuyếntính) Ý tưởng của RFE là lặp lại quá trình này bằng cách xem xét từng tập đặc trưng nhỏhơn và nhỏ hơn Đầu tiên, mô hình được huấn luyện trên tập đặc trưng ban đầu và mức độquan trọng của mỗi đặc trưng được tính toán thông qua một thuộc tính cụ thể (như coef_,feature_importances_) hoặc một hàm có thể gọi Sau đó, các đặc trưng ít quan trọng nhấtđược loại bỏ từ tập đặc trưng hiện tại Quy trình này được lặp lại đến khi số lượng đặc trưngmong muốn được chọn được đạt được

RFECV thực hiện RFE trong một vòng lặp cross-validation để tìm ra số lượng đặc trưngtối ưu nhất Cụ thể hơn, số lượng đặc trưng được chọn được điều chỉnh tự động bằng cáchđặt một bộ chọn RFE trên các phân chia cross-validation khác nhau (cung cấp bởi tham sốcv) Hiệu suất của bộ chọn RFE được đánh giá bằng cách sử dụng một bộ đánh giá cho các

số lượng đặc trưng được chọn khác nhau và được tổng hợp lại Cuối cùng, các điểm số đượctính trung bình qua các lượt cross-validation và số lượng đặc trưng được chọn được đặt là sốlượng đặc trưng tối đa hóa điểm số cross-validation

Ví dụ minh họa về Recursive Feature Elimination (RFE):

VD1: Recursive feature elimination (RFE): Trong bài toán phân loại chữ số viết tay, RFE có

Trang 16

thể được sử dụng để xác định những pixel nào quan trọng nhất để phân loại chính xác cácchữ số Bằng cách lặp lại quá trình loại bỏ các pixel ít quan trọng, chúng ta có thể tìm ra tậphợp những pixel quyết định quan trọng nhất cho việc phân loại.

VD2: Recursive feature elimination with cross-validation (RFECV): Trong bài toán dự đoán

giá nhà, RFECV có thể được sử dụng để tự động điều chỉnh số lượng đặc trưng được chọn

và đảm bảo tính tổng quát của mô hình thông qua việc sử dụng cross-validation Bằng cáchlặp lại quá trình RFE trên các phân chia cross-validation khác nhau và đánh giá hiệu suấtcủa mô hình dựa trên số lượng đặc trưng được chọn, chúng ta có thể chọn ra một tập hợpđặc trưng tối ưu cho mô hình dự đoán giá nhà

Tham số:

- estimator: Một thực thể ước lượng học có giám sát với phương pháp fit cung cấp thông tin

về sự quan trọng của các đặc trưng (ví dụ: coef_, feature_importances_)

- n_features_to_select: Số lượng đặc trưng cần chọn Nếu là None, nửa số đặc trưng sẽ đượcchọn Nếu là một số nguyên, tham số này là số đặc trưng tuyệt đối cần chọn Nếu là một sốthực từ 0 đến 1, đó là tỷ lệ của số đặc trưng cần chọn

- step: Nếu lớn hơn hoặc bằng 1, thì step tương ứng với số (nguyên) đặc trưng cần loại bỏ ởmỗi lần lặp Nếu trong khoảng (0.0, 1.0), thì step tương ứng với phần trăm (làm tròn xuống)của số đặc trưng cần loại bỏ ở mỗi lần lặp

- verbose: Kiểm soát mức độ in ra thông tin

- importance_getter: Xác định cách lấy sự quan trọng của đặc trưng Nếu là 'auto', sử dụng

sự quan trọng của đặc trưng thông qua các thuộc tính coef_ hoặc feature_importances_ củaestimator Nếu là một chuỗi, xác định tên thuộc tính cho việc trích xuất sự quan trọng củađặc trưng Nếu là một hàm có thể gọi, ghi đè lên cách lấy sự quan trọng mặc định

Thuộc tính:

- classes_: Các nhãn lớp có sẵn khi estimator là một bộ phân loại

- estimator_: Thực thể estimator đã được huấn luyện được sử dụng để chọn các đặc trưng

- n_features_: Số lượng đặc trưng đã được chọn

- n_features_in_: Số lượng đặc trưng được nhìn thấy trong quá trình huấn luyện Chỉ đượcxác định nếu estimator cơ bản có một thuộc tính tương ứng khi huấn luyện

- feature_names_in_: Tên của các đặc trưng được nhìn thấy trong quá trình huấn luyện Chỉđược xác định khi X có tên đặc trưng là các chuỗi

Trang 17

- ranking_: Xếp hạng đặc trưng, sao cho ranking_[i] tương ứng với vị trí xếp hạng của đặctrưng thứ i Các đặc trưng đã được chọn (tức là được ước tính là tốt nhất) được gán xếphạng 1.

- support_: Mặt nạ của các đặc trưng đã được chọn

2.9 VIF (Variance Inflation Factor)

Trong thống kê , hệ số lạm phát phương sai (Variance inflation factor – VIF ) là thương

số của phương sai trong một mô hình có nhiều số hạng bằng phương sai của một mô hìnhchỉ có một thuật ngữ Nó định lượng mức độ nghiêm trọng của đa cộng tuyến trong phântích hồi quy bình phương nhỏ nhất bình thường Nó cung cấp một chỉ số đo lường mức độchênh lệch (bình phương độ lệch chuẩn của ước tính) của một hệ số hồi quy ước tính đượctăng lên do cộng tuyến VIF là một công cụ hữu ích để đánh giá mức độ đa cộng tuyến tínhtrong mô hình hồi quy tuyến tính

Ta có công thức tính VIF như sau: VIF = 1/ (1-R2)

Mối tương quan giữa VIF với R2

Mối quan hệ này được khái quát trong bảng sau:

Ngày đăng: 09/05/2024, 13:53

HÌNH ẢNH LIÊN QUAN

Hình 1. Ví dụ về hồi quy tuyến tính - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
Hình 1. Ví dụ về hồi quy tuyến tính (Trang 9)
Hình 2. Công thức hàm lỗi và tìm cực tiểu hàm lỗi - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
Hình 2. Công thức hàm lỗi và tìm cực tiểu hàm lỗi (Trang 10)
Hình 4. Ví dụ về hàm hồi quy đa thức - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
Hình 4. Ví dụ về hàm hồi quy đa thức (Trang 11)
Hình .  Hầu như không có các giá trị không xác định trong toàn bộ tập dữ liệu. - môn ứng dụng phân tích dữ liệu lớn trong kinh doanh đề tài hồi quy tuyến tính và ứng dụng
nh Hầu như không có các giá trị không xác định trong toàn bộ tập dữ liệu (Trang 25)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w