1. Trang chủ
  2. » Luận Văn - Báo Cáo

nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược sau đó áp dụng các phương pháp hồi quy tuyến tính bội

30 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược sau đó áp dụng các phương pháp hồi quy tuyến tính bội
Tác giả Nguyễn Tiến Thọ, Lưu Gia Bảo, Võ Trần Chí, Bùi Trọng Hoàng, Nguyễn Phạm Tuấn Khanh, Lê Đoàn Trọng Khoa, Nguyễn Quang Trí
Người hướng dẫn PTS. Nguyễn Bá Thi
Trường học Trường Đại Học Bách Khoa Đại Học Quốc Gia TP HCM
Chuyên ngành Toán Ứng Dụng
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 30
Dung lượng 1,63 MB

Cấu trúc

  • 1. Mục tiêu nghiên cứu (5)
  • Phần 2. Cơ sở lý thuyết 1.Hồi quy tuyến tính (0)
    • 2.1. Định nghĩa (6)
    • 2.2. Mục đích hồi quy tuyến tính bội (6)
    • 6.1. Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F (9)
    • 6.2. Ước lượng khoảng cho hệ số hồi quy (9)
    • 6.3. Kiểm định giả thiết cho các hệ số hồi quy (10)
    • 6.4. Dự báo mô hình hồi quy tuyến tính bội (10)
  • Phần 3.Thực hiện xử lý số liệu (0)
    • 1. Hoạt động 1 Đọc dữ liệu (import data) 2. Làm sạch dữ liệu (Data cleaning) 3. Làm rõ dữ liệu (Data visualization) 4. Xây dựng mô hình hồi quy tuyến tính để nghiên cứu tác động của các yếu tố khác nhau ảnh hưởng đến số lượng hành khách nghành hàng không, chẳng hạn như thời gian trong năm hoặc trong ngày, giá vé hoặc số lượng chuyến bay do một hãng hàng không cung cấp 5. Thực hiện xu hướng lựa chọn nghành hàng không của khách hàng Phần 4. Tài liệu tham khảo (0)

Nội dung

Mục tiêu nghiên cứu

Ở hoạt động 1, bản báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính bội vào việc phân tích mẫu dữ liệu là tập tin

“Air_Traffic_Passenger_Statistics.csv” chứa thông tin về số liệu hành khách lưu thông của hãng hàng không, sân bay và khu vực mà các chuyến bay khởi hành và đến Nó cũng bao gồm thông tin về hoạt động, loại giá, nhà ga, khu vực lên máy bay và số lượng hành khách Từ kết quả thu được rút ra những nhận xét về tác động của các thuộc tính đó đối với sự thay đổi về số lượng hành khách nghành hàng không Để thu được kết quả phân tích, nhóm đã sử dụng các hàm cơ bản của ngôn ngữ lập trình R và vận dụng linh hoạt giải quyết từng nhiệm vụ cụ thể đặt ra Kết quả thu được trình bày dưới dạng bảng số liệu tính toán hoặc đồ thị cung cấp một cái nhìn trực quan về khảo sát nhằm so sánh, đối chiếu giữa ảnh hưởng của các yếu tố khác nhau dẫn đến sự thay đổi về nhu cầu nghành hàng không của khách hàng Trong bản báo cáo này, trước hết nhóm sẽ nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược, sau đó áp dụng các phương pháp hồi quy tuyến tính bội.

Phần 1: Cơ sở lý thuyết

Phần 2: Xử lý số liệu: Tính toán các giá trị thống kê

Phần 3: Phân tích dữ liệu

Phần 2 Cơ sở lý thuyết

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập đước gọi là hồi quy bội (hay còn gọi là hồi quy đa biến) Ví dụ: Chỉ tiêu của hộ gia đình về thực

Cơ sở lý thuyết 1.Hồi quy tuyến tính

Định nghĩa

Hồi quy là một mô hình thống kê được sử dụng để dự đoán giá trị của biến phụ thuộc (dependence variable) hay còn gọi là biến kết quả dựa vào những giá trị của ít nhất 1 biến độc lập (independence variable) hay còn gọi là biến nguyên nhân Nếu mô hình hồi quy phân tích sự phụ thuộc của 1 biến phụ thuộc vào 1 biến độc lập gọi là hồi quy đơn, nếu có nhiều biến độc lập gọi là hồi quy bội Hồi quy tuyến tính là mô hình hồi quy trong đó mối quan hệ giữa các biến được biểu diễn bởi một đường thẳng (đường thẳng là đường phù hợp nhất với dữ liệu) Trong phần bài tập lớn chúng ta quan tâm đến hồi quy tuyến tính bội Thuật ngữ tuyến tính dùng để chỉ các bản chất của các thông số của tổng thể là tuyến tính (bậc nhất) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục.

Mục đích hồi quy tuyến tính bội

Mục tiêu của giải thuật hồi quy tuyến tính là dự đoán giá trị của một hoặc nhiều biến mục tiêu liên tục (continuous target variable) Y dựa trên một véc- tơ đầu vào X Về cơ bản thì ta sẽ có một tập huấn luyện chứa các cặp X, Y tương ứng và nhiệm vụ của ta là phải tìm giá trị Y ứng với một đầu vào X mới Để làm điều này ta cần tìm được quan hệ giữa X và Y để từ đó đưa ra được dự đoán Hay nói cách trừu tượng hơn là ta cần vẽ được một đường quan hệ thể hiện mối quan hệ trong tập dữ liệu.

3.Các dạng mô hình hồi quy tuyến tính bội a Dạng quan sát của mô hình

X 2 , X 3 , , X k là các biến độc lập

Y i , X 2 i , X 3 i , , X ki là các quan sát thứ i của Y , X 2 , X 3 , , X k β 1 là hệ số chặn (hệ số tự do) β 2 ,β 3 , , β k là các hệ số hồi quy riêng hay còn gọi là hệ số của các biến số độc lập ε i là sai số ngẫu nhiên có kì vọng 0 và phương sai là σ 2

Mục tiêu: ước lượng những tham số β 1 , β 2 , , β k b Dạng ma trận của mô hình

Trong đó: Y là n-vector quan sát

X là ma trận cấp n.p của các biến độc lập ( p= k +1) β là p vector các hệ số hồi quy ε là n vector sai số ngẫu nhiên

4.Phương pháp ước lượng mô hình hồi quy bội- Phương pháp bình phương nhỏ nhất (OLS)

Ta đặt: Y i kí hiệu giá trị thực của biến y tại quan sát Ŷ i kí hiệu giá trị của hàm hồi quy mẫu εi kí hiệu Y i −Ŷ i

Với các giả thuyết, cần dựa vào dữ liệu (Y i , X 2 i , X 3 i , X ki ) , (i =1,n) quan sát để tìm được ước lượng vecto hệ số β=( β 1 , β 2 , ,β k ) T của mô hình quy bội

Kí hiệu: ^ β=(^ β 1 , ^ β 2 , , β ^ k ) T là ước lượng của β, khi đó ta có phương trình hồi quy mẫu Y ^ i = ^ β 1 +^ β 2 X 2i + ^ β 3 X 3 i + + ^ β k X ki +^ ε(i =1,n)

+)Ta cần tìm hệ số (β 1 ,β 2 , , β k )sao cho tổng các phần dư ∑ i=1 n ε i 2 đạt giá trị nhỏ nhất

Trong mô hình hồi quy bội có tính chất như sau Đường hồi quy bội đi qua điểm ( Y , X 2 , X 3 , , X k )

∑ i=1 n ε i =0 u i không tương quan với X pi ( p=2,3 , ,k ) , ∑ i=1 n ε i X pi =0

Các u i không tương quan với Y ^ i : ∑ i=1 n ε i Y ^ i =0 β i là các ước lượng tuyến tính không lệch và có phương sai nhỏ nhất cho các β i (i=1,k).

5 Hệ số xác định bội R 2 và hệ số xác định hiệu chỉnh

Tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình: S S T =S YY = ∑ i=1 n

Tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Đo độ chính xác của hàm hồi quy: S S R = ∑ i=1 n

(Y i −Y ) 2 Tổng bình phương các phần dư (các sai số) giữa các giá trị quan sát Y và giá trị nhận được từ hàm hồi quy: S S E = ∑ i=1 n (Y i −Y ) 2

SS T được chia làm hai phần: một phần do SS R và một phần do

SS T =SS R + SS E Hệ số xác định độ phù hợp cho mô hình hồi quy tuyến tính bội kí hiệu: R 2 được xác định bởi công thức R 2 = SS SS R

Tính chất của hệ số xác định R 2 có tính chất sau 0 ≤ R 2 ≤ 1

-Nếu R 2 =1 khi đó hồi quy giải thích 100% sự thay đổi của Y bởi vì khi đó: -Nếu R 2 =0 khi đó mô hình không giải thích được sự thay đổi của Y

-Nếu số biến độc lập càng tăng thì hệ số R 2 càng lớn, hay nói cách khác R 2 là một hàm tăng theo biến giải thích

Tính phù hợp của mô hình hồi quy tăng lên khi có nhiều biến giải thích trong mô hình Tuy nhiên người ta luôn muốn dùng một số lượng biến giải thích vừa đủ sao cho vẫn có được mô hình phù hợp mà không quá tốn kém khi phải thu thập thông tin của nhiều biến giải thích Hơn nữa nhiều khi đưa thêm một số biến độc lập vào mô hình thì tác động riêng phần của các biến độc lập đó tới biến phụ thuộc thạt sự không có ý nghĩa thống kê.Cần có tiêu chuẩn đánh giá sự phù hợp của mô hình, trong đó có cân nhắc đến số lượng biến giải thích của mô hình Một trong số các tiêu chuẩn như vậy là hệ số xác định hiệu chỉnh R 2 của R 2

R 2 có các tính chất như sau

Khi số biến độc lập k-1 tăng lên thì R cũng tăng nhưng tăng chậm so với R 2

R 2 ≥0 nhưng R 2 có thể âm Khi R 2 nhận giá trị âm thì để cho tiện đường người ta lại gán cho nó giá trị bằng 0

Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F

Trong mô hình quy bội Y i = β 1 + β 2 X 2i + β 3 X 3 i + β k X ki + ε i ∀i ,i=1,2 , n Mô hình được gọi là không có hiệu lực giải thích, hay nói cách khác không giải thích được sự thay đổi của biến Y, nếu toàn bộ các hệ số hồi quy riêng bằng không Vì vậy để kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần kiểm định bài toán sau:

Khi giả thuyết thống kê F có phân phối Fisher với k-1 và n-k bậc tự do Vậy với mức ý nghĩa α ta có quy tắc kiểm định:

Nếu F sq > F α ( k−1 ,n− k) thì bác bỏ H0

Nếu F sq

Ngày đăng: 01/05/2024, 08:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w