1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) phân tích số liệu của một số công trình xây dựng bằng thống kê toán học

67 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Số Liệu Của Một Số Công Trình Xây Dựng Bằng Thống Kê Toán Học
Tác giả Đặng Thị Phương Mai
Người hướng dẫn PGS. TS. Hồ Đăng Phúc
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Lý Thuyết Xác Suất Và Thống Kê Toán Học
Thể loại luận văn thạc sĩ
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 67
Dung lượng 0,95 MB

Cấu trúc

  • Chương 1. Mô hình tuyến tính tổng quát (7)
    • 1.1. Giới thiệu mô hình tuyến tính tổng quát (7)
      • 1.1.1. Mục đích của hồi quy bội (7)
      • 1.1.2. Những tính toán để giải phương trình hồi quy bội (8)
      • 1.1.3. Mở rộng của mô hình hồi quy bội thành mô hình tuyến tính tổng quát (11)
    • 1.2. Một số ví dụ về mô hình tuyến tính tổng quát (14)
      • 1.2.1. Lập phương trình dạng ma trận (16)
      • 1.2.2. Ước lượng tham số (17)
      • 1.2.3. Quan điểm hình học (21)
    • 1.3. Mô hình tuyến tính tổng quát đa biến (23)
      • 1.3.1. Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát (23)
      • 1.3.2. Tính chất của ma trận sai số (0)
      • 1.3.3. Tính chất của ma trận hệ số hồi quy (26)
      • 1.3.4. Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số… (26)
      • 1.3.5. Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến (27)
    • 1.4. Phân phối phần dư trong mô hình tuyến tính tổng quát… (29)
      • 1.4.1. Phần dư đơn biến (34)
      • 1.4.2. Phân phối đồng thời của phần dư đơn biến (38)
      • 1.4.4. Phân phối đồng thời cho trường hợp đặc biệt của phần dư đa biến… (45)
  • Chương 2. Phân tích số liệu kiểm toán của một số công trình xây dựng (48)
    • 2.1. Mô tả số liệu (48)
      • 2.1.1. Địa điểm thi công (49)
      • 2.1.2. Loại công trình phân theo đặc tính kỹ thuật (52)
      • 2.1.3. Loại công trình phân theo chức năng sử dụng (53)
      • 2.1.4. Cỡ công trình (56)
    • 2.2. Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm (59)
      • 2.2.1. Phân tích phương sai cho 4 nhân tố (59)
      • 2.2.2. Mô hình hồi quy tuyến tính tổng quát (60)
  • Tài liệu tham khảo (67)

Nội dung

Mô hình tuyến tính tổng quát

Giới thiệu mô hình tuyến tính tổng quát

Mô hình tuyến tính tổng quát là một sự mở rộng của hồi quy tuyến tính bội, vì vậy việc hiểu rõ mô hình hồi quy bội là rất quan trọng Chúng ta sẽ khám phá mục đích của hồi quy bội, các thuật toán tính toán được sử dụng để giải quyết vấn đề hồi quy, và cách thức mở rộng mô hình hồi quy bội thành mô hình tuyến tính tổng quát.

1.1.1 Mục đích của hồi quy bội

Hồi quy bội nhằm định lượng mối quan hệ giữa nhiều biến độc lập và một biến phụ thuộc Chẳng hạn, một đại lý bất động sản có thể sử dụng kích thước căn nhà, số lượng phòng ngủ và thu nhập trung bình trong khu phố để đánh giá giá bán căn nhà Thông qua việc tổng hợp thông tin, hồi quy bội giúp xác định yếu tố nào ảnh hưởng đến giá bán, cho thấy rằng số lượng phòng ngủ có thể dự đoán giá bán tốt hơn so với các yếu tố khác trong khu vực cụ thể.

”nhà đẹp” (đánh giá chủ quan)

Các nhà quản lý nhân sự thường áp dụng phương pháp hồi quy bội để xác định mức lương phù hợp cho nhân viên mới Họ xem xét các yếu tố như "khả năng đáp ứng" (KNDU) và "số người cần giám sát" (No_GS) để đánh giá giá trị công việc Các nhà phân tích thực hiện khảo sát lương giữa các công ty để ghi nhận mức lương và các đặc điểm liên quan, như mức độ công việc, cho các vị trí khác nhau Thông tin này sau đó được sử dụng trong phân tích hồi quy bội để xây dựng một phương trình hồi quy chính xác.

Mức lương = 0,5 * KNDU + 0.8 * No_GS

Khi phương trình hồi quy được xác định, các nhà phân tích có thể dễ dàng tạo biểu đồ so sánh giữa mức lương dự kiến và tiền lương thực tế của nhân viên trong công ty Qua đó, họ có thể nhận diện các vị trí có mức lương thấp hơn (dưới đường hồi quy), cao hơn (trên đường hồi quy), hoặc mức lương công bằng.

Phương pháp hồi quy bội được áp dụng rộng rãi trong nghiên cứu xã hội và khoa học tự nhiên, giúp các nhà nghiên cứu đặt ra câu hỏi về những vấn đề tổng quát như "dự báo tốt nhất về … là gì" Chẳng hạn, trong lĩnh vực giáo dục, các nhà nghiên cứu có thể tìm hiểu các yếu tố dự đoán kết quả học tập ở trường trung học, trong khi xã hội học có thể xác định các chỉ số xã hội dự đoán khả năng thích ứng và hòa nhập của nhóm người nhập cư mới vào xã hội.

1.1.2 Những tính toán để giải phương trình hồi quy bội

Trong không gian hai chiều, không gian một chiều được thể hiện dưới dạng một đường thẳng thông qua phương trình Y = b0 + b1X Phương trình này cho thấy biến Y được xác định như một hàm của hằng số b0 và tích của hệ số b1 với biến X.

Hằng số  0, hay còn gọi là hệ số chặn, và  1, được gọi là hệ số dốc hay hệ số hồi quy, là những thành phần quan trọng trong phân tích hồi quy Chẳng hạn, điểm trung bình các môn học của học sinh có thể được dự đoán bằng công thức 1 + 0,02 * IQ Nếu một học sinh có chỉ số IQ là 130, điểm trung bình các môn học của học sinh đó sẽ được dự đoán là 3,6.

Trong hồi quy bội, khi có nhiều biến dự báo, không gian con hồi quy không thể hình dung trong không gian hai chiều, mà là một sự mở rộng của hồi quy đơn biến Chẳng hạn, khi thêm các yếu tố như động lực và ý thức kỷ luật bên cạnh IQ để dự đoán, ta có thể xây dựng một phương trình tuyến tính bao gồm tất cả các biến này Các phương pháp hồi quy bội sẽ ước lượng một phương trình tuyến tính có dạng tổng quát để phản ánh mối quan hệ giữa các biến.

Trong phương trình hồi quy Y = b + b1X1 + b2X2 + + bkXk, với k là số lượng yếu tố dự báo, các hệ số hồi quy (β1, , βk) thể hiện đóng góp độc lập của từng biến dự báo vào giá trị của biến phụ thuộc Y Điều này có nghĩa là tương quan giữa biến Xi và Y được xác định sau khi đã kiểm soát tác động của tất cả các biến độc lập khác, gọi là tương quan riêng phần Ví dụ dưới đây sẽ minh họa rõ hơn về khái niệm này.

Nghiên cứu cho thấy có sự tương quan giữa chiều dài tóc và chiều cao, với người thấp thường có mái tóc dài hơn Tuy nhiên, khi đưa biến giới tính vào phương trình hồi quy, mối liên hệ này biến mất do phụ nữ thường có mái tóc dài hơn nhưng chiều cao lại thấp hơn so với nam giới Khi kiểm soát biến giới tính, chiều dài tóc không còn ảnh hưởng đáng kể đến dự đoán chiều cao, dẫn đến việc sự tương quan giữa chúng trở nên không có ý nghĩa.

Không gian con hồi quy, bao gồm đường thẳng trong hồi quy đơn hoặc mặt phẳng trong hồi quy bội, đại diện cho dự đoán tốt nhất của biến phụ thuộc Y dựa trên các biến độc lập X Tuy nhiên, việc dự đoán chính xác giá trị của Y là rất hiếm, dẫn đến sự sai lệch giữa các điểm quan sát và không gian con hồi quy Độ lệch của một điểm so với điểm gần nhất trên không gian con hồi quy được gọi là phần dư Mục tiêu của các phương pháp hồi quy tuyến tính là xác định không gian con này như một hàm tuyến tính của các biến độc lập.

X được sử dụng để quan sát biến Y một cách chính xác nhất Các giá trị dư từ các điểm quan sát sẽ giúp thiết lập một tiêu chuẩn "phù hợp nhất" Trong bài toán hồi quy, không gian con được xác định sao cho tổng bình phương độ lệch của các điểm quan sát so với không gian con này là nhỏ nhất Do đó, phương pháp này được gọi là ước lượng bình phương bé nhất.

Các bài toán hồi quy có thể được giải quyết một cách hiệu quả bằng cách sử dụng ma trận, giúp biểu diễn các tính toán thực tế một cách gọn gàng Giả sử có n giá trị quan sát cho biến Y và n giá trị quan sát cho k biến X khác nhau, ta có thể ký hiệu Y_i, X_ik và ε_i tương ứng với các quan sát thứ i của biến Y, các quan sát thứ i của biến X, và giá trị phần dư chưa biết Khi tập hợp các số hạng này vào ma trận, chúng ta có thể thực hiện các phân tích hồi quy một cách thuận tiện hơn.

Mô hình hồi quy bội theo ký hiệu ma trận có thể được biểu diễn như sau

Trong hồi quy bội, mô hình được biểu diễn bằng phương trình Y = Xb + e, trong đó  là vector cột chứa các hệ số cần ước lượng, bao gồm cả hệ số chặn và k hệ số hồi quy chưa biết Mục tiêu của phương pháp này là tìm các hệ số hồi quy sao cho tổng bình phương độ lệch là nhỏ nhất, do đó các hệ số hồi quy phải thoả mãn phương trình chuẩn tắc.

Khi các biến X độc lập tuyến tính, phương trình sẽ có một nghiệm duy nhất Bằng cách nhân cả hai vế của phương trình với nghịch đảo của X'X, chúng ta có thể tìm ra nghiệm này.

Một số ví dụ về mô hình tuyến tính tổng quát

Trong một thí nghiệm, chúng ta sẽ quan sát biến đáp ứng Y j (j = 1,…,J), với Y j là một biến ngẫu nhiên Mỗi quan sát sẽ đi kèm với một tập hợp K (K < J) biến độc lập x jk, được đo đạc chính xác, với k = 1,…,K Các biến độc lập này có thể là các hiệp biến liên tục hoặc rời rạc, các hàm của các hiệp biến, hoặc các biến hình thức chỉ thị các mức độ của một nhân tố thực nghiệm.

Mô hình tuyến tính tổng quát thể hiện các biến đáp ứng Y j thông qua tổ hợp tuyến tính của các biến độc lập, kèm theo phần sai số.

Mô hình tuyến tính được biểu diễn bởi phương trình Y = β0 + β1x1 + β2x2 + … + βkxk + ε Trong đó, βk là các tham số chưa biết tương ứng với mỗi tập hợp K các biến giải thích xjk Các sai số εj là các biến ngẫu nhiên độc lập có phân phối chuẩn giống nhau với trung bình 0 và phương sai σ2, được ký hiệu là εj ~ N(0, σ2) Ngoài ra, mô hình tuyến tính với các phân phối sai số khác được gọi là mô hình tuyến tính tổng quát hóa, thường được ký hiệu là GLM.

Nhiều phương pháp thống kê tham số cổ điển có thể được coi là các trường hợp riêng của mô hình tuyến tính tổng quát Để minh họa cho điều này, chúng ta sẽ xem xét các phương trình của hai mô hình nổi tiếng, bắt đầu với mô hình hồi quy tuyến tính.

Hồi quy tuyến tính là một ví dụ đơn giản trong đó chỉ có một biến độc lập liên tục duy nhất xj được quan sát mà không có sai số, với j = 1,…,J Mô hình này thường được biểu diễn dưới dạng j j j.

Mô hình hồi quy tuyến tính có thể được biểu diễn dưới dạng Y = +m x b e+ với các tham số chưa biết bao gồm hằng số à, hệ số hồi quy β và sai số e j iid: N(0, s²) Để chuyển đổi biểu thức này sang dạng tổng quát, ta sử dụng một biến hình thức với giá trị x j1 = 1 cho mọi j.

Y = x m + x b +e mà đú là một dạng của phương trỡnh (1.1) khi thay thế β 1 bằng à b Mô hình so sánh hai mẫu bằng phép kiểm định t

Mô hình so sánh hai mẫu là một dạng đặc biệt của mô hình tuyến tính tổng quát, trong đó giả định rằng Y j1 và Y j2 là hai nhóm độc lập của các biến ngẫu nhiên, phân phối so sánh Y qj iid :N( m s q , 2 ), với q = 1, 2 Mục tiêu là kiểm định giả thuyết H: à 1 = à 2 Chỉ số j được sử dụng để đánh số các điểm dữ liệu trong cả hai nhóm, và phương pháp biểu diễn mô hình thống kê được quy chuẩn hóa như sau: qj q qj.

Chỉ số q ở à q chỉ ra rằng cú hai mức đối với hiệu ứng nhúm, à 1 và à 2 Ở đõy

( 0, 2 ) iid e qj : N s Biểu thức này có thể được viết lại sử dụng các biến hình thức x qj1 và x qj2 như sau

Phương trình (1.2) được cấu trúc tương tự như phương trình (1.1) sau khi thực hiện việc đánh số lại cho qj Các biến hình thức trong phương trình này xác định nhóm mà chúng thuộc về, trong đó x qj1 cho biết thời điểm quan sát Y qj ở nhóm thứ nhất; cụ thể, nó nhận giá trị 1 khi q = 1 và giá trị 0 khi q = 2.

1.2.1 Lập phương trình dạng ma trận

Mô hình tuyến tính tổng quát có thể được diễn đạt ngắn gọn thông qua ký hiệu ma trận Khi viết lại phương trình (1.1) dưới dạng đầy đủ cho từng quan sát j, ta thu được một tập hợp các phương trình tương ứng.

Hệ trên có dạng ma trận tương đương như sau nếu q = 1 nếu q = 2

Y x x x b e b e b e ổ ử ổ ửổ ử ổ ử ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ= ữỗ ữ+ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗố ữứ ỗ ữ ố ứ ố ứ ố ứ

, có thể được viết dưới dạng ma trận

Mô hình hồi quy tuyến tính được biểu diễn bằng phương trình Y = Xβ + ε, trong đó Y là vector cột chứa các quan sát, ε là vector cột các sai số, và β là vector cột các tham số b = [b₁, b₂, , bₖ]ᵀ Ma trận thiết kế X có kích thước J x K, với phần tử jk là xjk, bao gồm một dòng cho mỗi quan sát và một cột cho mỗi biến giải thích trong mô hình Ma trận thiết kế đóng vai trò quan trọng vì nó mô tả gần như hoàn chỉnh mô hình, trong khi phần dư của mô hình là các số hạng sai số.

Khi một thực nghiệm hoàn tất, chúng ta thu được các quan sát từ các biến ngẫu nhiên Yj, ký hiệu là yj Thông thường, các phương trình trong mô hình tuyến tính tổng quát (với ε = 0) không thể giải do số lượng tham số K thường nhỏ hơn số lượng quan sát J Vì vậy, một số phương pháp ước lượng tham số yêu cầu dữ liệu "thích hợp nhất" được áp dụng, thường thông qua phương pháp bình phương bé nhất.

Ký hiệu một tập các giá trị ước lượng tham số là b° = (b°1, , b°K) Các tham số này dẫn đến các giá trị tương ứng Y° = (Y°1, , Y°J) = Xb°, cho các sai số phần dư.

Tổng bình phương phần dư S là tổng của các bình phương hiệu số giữa các giá trị tính toán và giá trị thực, đo lường mức độ phù hợp của mô hình với các ước lượng tham số Các ước lượng bình phương bé nhất là những tham số tối ưu hóa để giảm thiểu tổng bình phương các phần dư.

=ồ - - -K Giá trị này nhỏ nhất khi ° ( ) ( 1 ° 1 ° )

Phương trình này là dòng thứ k của X Y T = ( X X T ) b ° Do đó các ước lượng bỡnh phương bộ nhất, ký hiệu bởi b à thỏa món phương trỡnh:

Trong mô hình tuyến tính tổng quát, ước lượng bình phương bé nhất không chỉ là các ước lượng vững mà còn là các ước lượng không chệch tuyến tính tốt nhất Điều này xảy ra vì các ước lượng tham số tuyến tính, được xây dựng từ sự kết hợp tuyến tính của dữ liệu quan sát, có kỳ vọng là giá trị đúng của các tham biến, và ước lượng bình phương bé nhất có phương sai nhỏ nhất.

Nếu ma trận (X T X) khả nghịch, điều này xảy ra khi và chỉ khi ma trận X có hạng đầy đủ Khi đó, các ước lượng bình phương bé nhất được tính theo công thức b = - (X X T)⁻¹ X Y T Điều này dẫn đến việc các mô hình không có lời giải duy nhất.

Mô hình tuyến tính tổng quát đa biến

Mô hình tuyến tính tổng quát đa biến là sự phát triển từ mô hình đơn biến, trong đó thay vì chỉ có một biến phụ thuộc trong vectơ y, chúng ta có một tập hợp p biến phụ thuộc được tổ chức trong ma trận Y Mô hình này cho phép phân tích mối quan hệ phức tạp giữa nhiều biến độc lập và các biến phụ thuộc.

Ta thấy rằng số lượng các cột của ma trận B phù hợp với số lượng các cột của ma trận Y Mô hình có thể trình bày lại như sau

Mô hình hồi quy có thể được diễn tả ngắn gọn bằng cách đưa từng cột Y vào phương trình hồi quy tương ứng với các cột B, coi các cột B như là các vector hệ số.

Tiếp theo, chúng ta định nghĩa sai số của ma trận dự đoán cấp n x p là ε với

1.3.1 Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát

Để ước lượng các giá trị chưa biết trong ma trận B, khi sai số ε của Y chỉ là một vectơ, chúng ta có thể chọn hàm mục tiêu là 'e e Tuy nhiên, ma trận 'e e không phải là một đại lượng vô hướng mà là tổng bình phương và tích chéo của ma trận cấp p x p Trong trường hợp này, mục tiêu là làm cho vết của 'e e đạt giá trị nhỏ nhất.

[ ' ] f = Tr e e có thể mở rộng (theo phương trình (1.4)) thành

( ) ( ' ) f =Tr Yộở - XB Y -XB ựỷ

Tách các thừa số ta được

Lưu ý rằng vết của một tổng tương đương với tổng của các vết, do đó ta có

( ' ) ( ' ) ( ' ' ) ( ' ' ) f =Tr Y Y -Tr Y XB -Tr B X Y +Tr B X XB

Cần lưu ý rằng Tr B X Y ( ’ ’ ) = Tr Y XB ( ’ ) và Tr Y XB ( ’ ) tương đương với Tr(BY’X) Chúng ta có thể viết lại phương trình trên một cách đơn giản là

( ' ) 2 ( ' ) ( ' ' ) f =Tr Y Y - Tr BY X +Tr B X XB Để làm cho f nhỏ nhất cú thể, ta cần tỡm ả ảf B Ta cú

2 ' [ ' ( ' )'] f X Y X X X X B B ả = - + + ả Nhưng vì X’X đối xứng, ta có thể đơn giản hóa hơn một chút và có

2 ' 2 ' f X Y X XB B ả = - + ả Để đạo hàm ả ả =f B 0 ta cú

Mỗi cột của Bà cú cụng thức tương tự như mụ hỡnh đơn biến, vớ dụ: à ( ' ) 1 '

1.3.2 Các tính chất của ma trận sai số Để nói về sự phân phối của ma trận sai số ε, chúng ta sẽ phải sắp xếp lại nó một chút bằng cách sử dụng toán tử Vec(.) được định nghĩa như sau:

Cho ma trận A cấp m x n với các hàng a 1’,…, a m’, ta định nghĩa

Như vậy, toán tử Vec tiến hành ghép các hàng của ma trận A với nhau để được một vectơ hàng có độ dài m x n

Chúng ta giả sử, trong một mô hình đa biến tương tự đối với các giả thiết Gauss Markov rằng phân phối của ma trận ε cỡ n x p là

Trong đó tích Kronecker của các ma trận, đôi khi được gọi là tích trực tiếp , được định nghĩa như sau:

Ma trận hiệp phương sai cho Vec(ε) có kích thước np x np và sở hữu một cấu trúc đặc biệt Cấu trúc này tương tự như trường hợp đơn biến, được biểu diễn bằng s²I = I.s² Thay vào đó, chúng ta có ma trận phân vùng với cấu trúc riêng biệt.

L với cỏc ma trận ồ trờn đường chộo, cũn cỏc ma trận ngoài đường chộo đều bằng 0

1.3.3 Tính chất của ma trận hệ số hồi quy

Trong bài viết này, chúng ta sẽ phân tích kỳ vọng và phương sai của ước lượng trong phương trình (1.5) Trước tiên, cần tìm hiểu một số tính chất cơ bản của kỳ vọng và phương sai, vì các kỳ vọng sẽ tương đối đơn giản.

E B = E X X - X Y mà X là cố định, nên

E B = X X - X E Y = X X - X XB B Thực hiện các phép tính của ma trận ta cũng có thể thu được à ( ) 1

Khi ma trận B có nhiều cột quan trọng, và β là một vector cột, chúng ta có khả năng kiểm tra các giả thuyết tuyến tính liên quan đến một số cột của B Dạng tổng quát của các giả thuyết này cho phép phân tích sâu hơn về mối quan hệ giữa các biến trong ma trận.

Ta thấy q hàng của A kiểm định giả thuyết liên quan đến k biến độc lập Do vậy,

A là một ma trận cấp q x k với q ≤ k Đồng thời r cột của M kiểm tra giả thuyết về p biến phụ thuộc, nên M là ma trận cấp p x r với r ≤ p

1.3.4.Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số

Trong mô hình tuyến tính đơn biến, tổng bình phương ứng với giả thuyết là một đại lượng vô hướng liên quan đến biến phụ thuộc duy nhất Phương trình (1.6) thể hiện tổng bình phương và tích chéo của ma trận ứng với giả thuyết.

Kết quả thu được là ma trận cấp r x r, trong đó r đại diện cho số cột của M và C, tương ứng với số lượng các biến phụ thuộc được điều chỉnh trong giả thuyết của phương trình (1.6) Ngoài ra, tổng bình phương và tích chéo liên quan đến sai số cũng tạo thành một ma trận cấp r x r.

Trong trường hợp đơn biến, F được định nghĩa là tỷ lệ giữa tổng bình phương theo giả thuyết và tổng bình phương do sai số Đây là tỷ số giữa độ biến động theo giả thuyết và độ biến động do yếu tố ngẫu nhiên Công thức tính F được thể hiện như sau: F = 1.

Trong trường hợp đa biến, chúng ta sẽ làm tương tự theo các cách được trình bày tiếp sau đây

1.3.5 Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến

Nếu s là hạng của E H - 1 , thỡ ta cú giỏ trị riờng l 1 ³l 2 ³ ẳ ³l s của hệ

Trong toán học, công thức s = Min (q, r) chỉ ra rằng số lượng giá trị riêng được xác định phụ thuộc vào số hàng của ma trận A hoặc số cột của ma trận M, với giá trị nhỏ hơn giữa hai số này Phương trình đặc trưng liên quan đến việc xác định các giá trị riêng của ma trận.

Trong nghiên cứu thống kê, i tương tự như tỷ lệ F, đại diện cho giá trị riêng của E H - 1, trong khi  i giống như bình phương tương quan đa biến, là giá trị riêng của H H E ( + ) - 1 Hiện tại, có bốn phương pháp kiểm định giả thuyết đa biến được đề xuất bởi bốn nhà thống kê khác nhau.

Thống kê vết Hotelling-Lawley ( 1 )

Thống kê trị riêng lớn nhất Roy 1 1

Ngoài ra còn có thể dùng xấp xỉ F dựa trên tiêu chuẩn định thức Wilk trong phương trình (1.7) với công thức là

= Ù , trong đó, như ở phần trước, q là số hàng hoặc hạng của A, r là số cột hoặc hạng của

M, nhưng có thêm một số tham số khác Cụ thể là có giá trị

Trong nghiên cứu này, kích thước mẫu được ký hiệu là n và số cột của biến X là k Bậc tự do của thống kê F’ được tính bằng r • q và ct – 2u Để xấp xỉ chính xác, điều kiện s = Min (r, q) phải thỏa mãn ≤ 2, nghĩa là hạng của ma trận E H - 1 không được vượt quá 2.

Phân phối phần dư trong mô hình tuyến tính tổng quát…

Xét mô hình tuyến tính tổng quát đa biến

Mô hình hồi quy được biểu diễn bằng phương trình Y = XB + e, trong đó Y và e là các ma trận ngẫu nhiên có kích thước n x p, X là ma trận đã biết có kích thước n x q, và B là ma trận chứa các tham số chưa biết, được gọi là hệ số hồi quy Giả sử e tuân theo phân phối chuẩn tắc, tức là e ~ N(n, p)(0, I_n), Y ~ N(n, p)(XB, I_n) với S là ma trận xác định dương đã biết Ước lượng hợp lý cực đại cho XB và S được tính toán qua công thức ±XB = (X'X)⁻¹X'Y, trong đó S > 0.

Ước lượng X B° là bất biến bất kể nghịch đảo suy rộng nào của X X T được sử dụng Hơn nữa, X B° và ồ° phân phối độc lập với nhau, trong đó X B° tuân theo phân phối N n x p (XB X X X X, ( T ) - T Ä ồ) Đối với các điều kiện r 2 + q 2 - > 5 và r 2 + q 2 - ≤ 5, ước lượng không chệch của XB và S được ký hiệu lần lượt là ảXB=X B° và ồ = ồà n° / (n-a).

Ma trận phần dư được định nghĩa là

Ma trận ngẫu nhiên e$ được định nghĩa bởi công thức e$ = - = - = - + = - với H = XX +, trong đó H=(h ij) với i = 1, , n là hình chiếu trực giao lên không gian con bất biến của X Theo đó, e$ có phân phối chuẩn hạng p n a( - ), tức là e$ ~N nxp ( n - a ), p ( 0, ( I n -H )Ä ồ) với cov vec ( ) e $ T ử = ữ ứ ( ( I n - H ) Ä ồ ) Đặc biệt, dòng quan sát thứ i của e$, ký hiệu e$ i, có phân phối chuẩn tắc p - biến ngẫu nhiên, tức là e$ i :N p ( 0, 1 ( -h ii )ồ) với i = 1, , n.

Các véc tơ e$ i có thể phụ thuộc tuyến tính với nhau Chúng ta định nghĩa các chỉ số I ={ i 1, , i k }với i s = 1, , n ; s = 1, , k và k n£ -a sao cho véc tơ e$ i 1 , , e$ i k độc lập tuyến tính

Ta định nghĩa ma trận

Khi đó e$ I là ma trận ngẫu nhiên có hạng đầy đủ phân phối chuẩn, hơn nữa

Ma trận H được tạo ra bằng cách loại bỏ các hàng và cột có chỉ số trong tập I Đối với mô hình đơn biến (p = 1), chúng ta có thể xem xét các loại phần dư khác nhau.

= e : phần dư đơn vị hóa à à i b i e

=s : phần dư chuẩn tắc hóa à à 1 i i ii r h e

- : phần dư Student hóa nội tại à à ( ) 1 i i i ii u h e

Phần dư trong phân tích hồi quy là một khái niệm quan trọng, với ||y|| là chuẩn Euclid của vectơ y Độ lệch chuẩn được tính bằng công thức s² = e²(n-a), trong đó s² là độ lệch ước lượng chuẩn tắc Để tính toán độ lệch này, s²(i) được xác định bằng cách loại bỏ quan sát thứ i từ mẫu.

Tương tự như khi định nghĩa e$ I , ta xây dựng

M M với D -1/2 là ma trận đường chéo với các phần tử (1-h i i 1 1 ) - 1/2 , ,(1-h i i k k ) - 1/2

Hơn nữa, cần lưu ý rằng r I T có thể được định nghĩa là à 1/2 $

Cả hai phần dư student hóa ngoại vi u T I và u I có thể được định nghĩa tương tự Nhưng trong trường hợp này thì

M M và ma trận đường chộo D s à - 1/2 cú cỏc phần tử à 1 1 1 à

Việc xác định phân phối xác suất của các ma trận có thể gặp khó khăn, tương tự như tình huống đối với u I Để khắc phục những vấn đề này, một định nghĩa thay thế cho u T I và u I được đề xuất là à 1/2 $.

= - - (1.10) với sà ( ) I là độ lệch chuẩn được hỡnh thành bằng cỏch loại bỏ cỏc quan sỏt tương ứng có chỉ số trong tập I từ không gian mẫu

Cần lưu ý rằng trong bất kỳ định nghĩa nào của phần dư student hóa nội tại thì

Phần dư đơn vị hóa và chuẩn tắc hóa có thể được định nghĩa tương tự là

Trường hợp đa biến (p > 1) cho phần dư student hóa nội tại và ngoại vi tương ứng là à $ 1/2

- , với A 1/2 là căn bậc 2 của ma trận không âm A, tức là ( ) A 1/2 2 = A Với các chỉ số I ta định nghĩa

Các dạng đa biến của biểu thức (1.9) và (1.11) cũng đúng trong các trường hợp đó

Nghiên cứu phân phối phần dư là rất quan trọng trong thống kê, đặc biệt trong phân tích độ nhạy và mô hình tuyến tính Ảnh hưởng của biến trong mô hình hồi quy thường được đánh giá qua các biểu đồ khác nhau Tương tự, tác động của các quan sát đến tham số mô hình cũng được đo lường bằng các độ đo và hàm khoảng cách khác nhau, có thể biểu diễn qua hàm phần dư student hóa Các độ đo tiêu chuẩn trong kiểm định cũng có thể được thể hiện như một hàm của phần dư student hóa Tuy nhiên, phân phối của nhiều độ đo này vẫn chưa rõ ràng, do đó kết quả thường dựa vào biểu đồ có sẵn và danh sách giá trị gốc tính toán từ dữ liệu mẫu để đối chiếu.

Nhiều nhà nghiên cứu đã cố gắng tránh việc tìm phân phối đồng thời của các loại phần dư khác nhau do phân phối này thường kỳ dị với độ đo Lebesgue trong R n Tuy nhiên, vấn đề này được giải quyết khi nhận thấy rằng phân phối kỳ dị có thể có giá trị khi xét với độ đo Hausdorff trên không gian con Affin Để xác định các Jacobians đối với độ đo Hausdorff, cần thiết phải xem xét các loại phần dư khác nhau thu được từ các phép biến đổi của phân phối kỳ dị.

Chúng ta sẽ định nghĩa các lớp phần dư cho cả trường hợp đơn biến và đa biến Bắt đầu với e$ I, chúng ta sẽ xác định mật độ của chúng, đảm bảo rằng nó không kỳ dị theo giả thuyết của mô hình (1.8).

1.4.1 Phần dư đơn biến Để tìm phân phối của r i , chúng ta cần xác định phân phối của r I T Trong phần này, chúng ta trình bày một phương pháp đơn giản cho việc tìm phân phối của r i Kết quả này được thành lập cho trường hợp mô hình có hạng không đầy đủ, một kết quả tương tự cho mô hình có hạng đầy đủ có thể dễ dàng thu được bằng cách cho a =q dưới đây Trước tiên chúng ta xem các định nghĩa sau : Định nghĩa 1.4.1 Ma trận ngẫu nhiên X có cấp p x n i) được gọi là ma trận ngẫu nhiên đối xứng có phân phối Pearson loại I (còn gọi là ma trận ngẫu nhiờn phõn phối t nghịch đảo) với tham số q Rẻ , M p n: x , : x , : x p p n n ồ F với q> -1, S > 0 và F >0 nếu hàm mật độ xỏc suất của nú là

G + S F trong đó tr X M(( - ) T S - 1 (X M- )F - 1 ) 1£ Khi đó ma trận X được ký hiệu là x ( , , )

X :PII p n q M S Ä F ii) được gọi là ma trận ngẫu nhiờn phõn phối t với tham số r Rẻ , M p n: x , : x ,p p

S : x F n n với r > 0, S > 0 và F > 0 nếu hàm mật độ xác suất của nó là

Ma trận ngẫu nhiên đối xứng phân phối Pearson loại II, ký hiệu là X : Mt p n x ( r M , , ồÄF ) hoặc X : t r M p ( , , ồ ) khi n = 1, được xác định với tham số q R M p nẻ, : x , : x ,ồ p p : x F n n, trong đó q > -1, ồ > 0 và F > 0 Hàm mật độ xác suất của loại ma trận này có dạng đặc trưng riêng.

G - S F với (I n -(X M- ) T S - 1 (X M- )F - 1 ) 0> , được ký hiệu X :MPII p x n ( ,q M,S Ä F) iv) được gọi là ma trận ngẫu nhiờn phõn phối T với tham số r R M p nẻ , : x , : x ,p p

S : x F n n với r > 0, ồ > 0 và F > 0 nếu hàm mật độ xỏc suất là

G - S F và được ký hiệu là X :MT p n x ( r M, ,ồÄF) Trong đú G n [ ] a là ký hiệu hàm gamma đa biến,

Trong mô hình (1.8) với p = 1 (trường hợp đơn biến), biến ngẫu nhiên r i tuân theo phân phối Pearson loại II, được ký hiệu là r i :MPII n((-a 3)², 0, n-a) Do đó, hàm mật độ xác suất của r i được xác định bởi công thức tương ứng.

Chứng minh: Định nghĩa q i = 1-h r ii i , ta thấy rằng à à à à à

Hơn nữa, nhận xét rằng q i 2 =(n-a e)$ 2 i || ||e$ 2 với e$ 2 i >0và || ||e$ 2 >0 Bên cạnh đó

Như vậy q i 2 £(n-a), hoặc tương đương q i £ (n-a) Điều này có nghĩa là hàm mật độ của q i nằm trong đoạn ộở- (n-a), (n-a)ựỷ

Bây giờ ta định nghĩa

Bây giờ chúng ta cần chú ý rằng e$ i s 2 (1-h ii ) : N(0,1) là độc lập với

$ 2 2 2 ( 1) n j j i e s c n a ạ ồ : - - , trong đú c 2 ( ) m ký hiệu cho phõn phối khi bỡnh phương quy tâm với m bậc tự do Vì vậy à à à

Trong bài viết này, chúng ta đề cập đến phân phối t quy tâm một chiều với m bậc tự do, ký hiệu là t(m) Cần lưu ý rằng nếu biến ngẫu nhiên q i nhận giá trị trong đoạn [-n, n], thì nó có thể nhận giá trị trong khoảng (-∞, ∞).

- - - - tương đương với q i £x Do vậy (P q i £ x) được tính bằng biểu thức sau

Với t y m ( ; ) ký hiệu cho hàm mật độ biến ngẫu nhiên x với phân phối t và m bậc tự do Nhưng q = 1-h r ii i , do đó

Lấy đạo hàm đối với x dẫn đến

: , với r i £ n-a Và nhờ đó ta thu được các kết quả mong muốn.■

Lưu ý rằng, phân phối của phần dư đơn vị hóa và chuẩn tắc hóa a i và b i tương ứng có thể dễ dàng xác định Cả hai phần dư này có thể được biểu diễn dưới dạng hàm của r i.

Hệ quả 1.4.1 đề cập đến phân phối của phần dư đơn vị hóa và chuẩn tắc hóa, trong đó có hai trường hợp: i) a i : MPII n ( ( - -a 3) 2,0,(1-h ii ) , ) với điều kiện a i ≤ 1-h ii; ii) b i : MPII n ( ( - - a 3) 2,0,( n - a )(1 - h ii ) , ) với điều kiện b i ≤ ( n - a )(1 - h ii ) Định lý 1.4.2 chỉ ra rằng trong mô hình (1.8) với p = 1 (trường hợp đơn biến), phần dư u i có phân phối t với (n - a - 1) bậc tự do.

Chứng minh: Phép chứng minh sau được suy ra từ (1.13) với chú ý rằng à ( ) 2 $ 2

1.4.2 Phân phối đồng thời của phần dư đơn biến

Phân tích số liệu kiểm toán của một số công trình xây dựng

Mô tả số liệu

Trong chương 2, chúng ta sẽ sử dụng mô hình tuyến tính tổng quát để phân tích kết quả kiểm toán của 129 dự án xây dựng gần đây Dữ liệu được cung cấp bởi phòng kiểm toán đầu tư xây dựng thuộc công ty Hợp danh kiểm toán Việt Nam (CPA Việt Nam), có địa chỉ tại số 17 lô 2C, Trung Yên, Trung Hoà, Cầu Giấy, Hà Nội Các công trình này được xây dựng và hoàn thành trong giai đoạn từ năm 2004 đến năm 2008, với mục tiêu xây dựng hoặc mua sắm trang thiết bị, do đó chúng ta sẽ gọi chúng là “công trình” trong nghiên cứu này.

Số liệu của mỗi công trình bao gồm tên công trình, địa bàn thi công, và tổng hợp các chi phí chính trong quá trình thi công như chi phí xây dựng và quản lý dự án Tên công trình bao gồm tên dự án và hạng mục, ví dụ như dự án Xây lắp cải tạo nhà làm việc Ngân hàng nông nghiệp và phát triển nông thôn tại huyện Kỳ Sơn, tỉnh Hoà Bình Các công đoạn chính trong thi công như xây cầu vượt, nhà học chính, và cung cấp thiết bị khảo sát cũng được ghi nhận Chi phí khác như chi phí thiết kế, lập dự toán và giám sát thi công cũng được tổng hợp trong số liệu.

Sau khi hoàn thành công việc, đơn vị thi công sẽ tổng hợp chi phí và gửi lên nhà đầu tư để chờ thanh toán Nhà đầu tư sau đó mời công ty kiểm toán, có thể là kiểm toán nhà nước hoặc cơ quan kiểm toán độc lập, để kiểm tra tính chính xác của chi phí Các kiểm toán viên sẽ tiến hành kiểm tra, trao đổi và thống nhất với đơn vị thi công cùng nhà đầu tư Kết quả kiểm toán cuối cùng sẽ được đưa ra, và nhà đầu tư sẽ chi trả cho đơn vị thi công dựa trên con số này Do đó, chi phí của các công trình sẽ được so sánh giữa chi phí quyết toán do đơn vị thi công đề nghị và chi phí kiểm toán do các kiểm toán viên xác định sau khi kiểm tra.

Nếu chi phí kiểm toán được xem là chi phí hợp lý, câu hỏi đặt ra là mức chênh lệch giữa chi phí quyết toán và chi phí kiểm toán là bao nhiêu và chiếm tỷ lệ phần trăm nào? Tỷ lệ ngân sách bị quyết toán sai, ký hiệu là “tylesai”, sẽ được tính toán dựa trên sự khác biệt này.

= quyet toan kiem toan.100% tylesai kiem toan

Trong đó số liệu kiểm toán và quyết toán là chi phí trước khi tính thuế theo đơn vị Việt Nam đồng

Tỷ lệ sai trung bình của 129 công trình được tính là 2,29%, trong đó công trình xây dựng đường công vụ (giai đoạn II) ghi nhận tỷ lệ sai cao nhất lên đến 40,33% Ngược lại, công trình xây dựng nhà lớp học và nhà lưu trú trường THCS A Tiêng có tỷ lệ sai thấp nhất là -0,78% Đáng chú ý, có 73 công trình có tỷ lệ sai từ 0% đến 1%, chiếm 56,6% tổng số công trình.

Tỷ lệ sai phạm trong các công trình xây dựng chịu ảnh hưởng bởi nhiều yếu tố khác nhau Các yếu tố chính bao gồm địa điểm thi công, loại công trình dựa trên đặc tính kỹ thuật, chức năng sử dụng và kích thước của công trình.

Các công trình được liệt kê trong bài viết này được thi công tại nhiều địa điểm trên toàn quốc, bao gồm Hà Nội, Lào Cai, Hòa Bình, Quảng Ninh và Nghệ An.

Trong tổng số 129 công trình được khảo sát, Hà Nội dẫn đầu với 52 công trình, chiếm 40,3%, tiếp theo là tỉnh Lào Cai với 16 công trình, chiếm 12,4% Để phân tích tỷ lệ sai lệch, các công trình được chia thành 4 nhóm: Nhóm 1 gồm 52 công trình tại Hà Nội (40,3%); Nhóm 2 có 30 công trình ở miền núi như Lào Cai, Hà Giang, Điện Biên, Hòa Bình, Yên Bái (23,3%); Nhóm 3 bao gồm 29 công trình ở đồng bằng phía Bắc như Nam Định, Thái Bình, Hải Phòng, Quảng Ninh (22,5%); và Nhóm 4 với 18 công trình ở đồng bằng phía Nam như thành phố Hồ Chí Minh, Đồng Tháp, Long An (14%) Số lượng công trình trong các nhóm không đồng đều do chúng được chọn ngẫu nhiên từ các công trình đã được kiểm toán của công ty CPA Việt Nam.

Để xây dựng biến MaDDiem, ta xác định 4 giá trị tương ứng với các nhóm công trình: “MaDDiem = i” với i = 1, 2, 3, 4 Để so sánh các địa điểm, ta mã hóa chúng thành các biến nhị phân 0 - 1 Biến “HaNoi” sẽ có giá trị 1 nếu công trình thuộc nhóm 1 và giá trị 0 trong các trường hợp khác Tương tự, biến “MienNui” nhận giá trị 1 nếu công trình thuộc nhóm 2 và giá trị 0 trong các trường hợp còn lại.

“MienNam” sẽ nhận giá trị 1 khi công trình được thi công tại địa điểm thuộc nhóm 4, và sẽ nhận giá trị 0 trong các trường hợp khác Do đó, mỗi công trình thuộc nhóm 1 sẽ không đạt giá trị 1.

2, 4 chỉ nhận giá trị 1 tại 1 trong 3 biến “HaNoi”, “MienNui”, “MienNam” và nhận giá trị 0 tại 2 biến còn lại; mỗi công trình thuộc nhóm 3 nhận giá trị 0 ở cả 3 biến trên

Bảng 2.1 trình bày số lượng công trình và tỷ lệ sai trung bình của từng nhóm địa điểm Hình 2.1 minh họa tỷ lệ sai trung bình thông qua biểu đồ cột, giúp người đọc dễ dàng hình dung dữ liệu.

Theo bảng 2.1 và hình 2.1, tỷ lệ sai của các công trình ở đồng bằng miền Bắc đạt 4,48%, cao gần gấp đôi so với tỷ lệ sai trung bình của 129 công trình Ngược lại, tỷ lệ sai trung bình thấp nhất được ghi nhận ở đồng bằng miền Nam với chỉ 0,46%, tương đương gần 1/5 tỷ lệ sai trung bình của tất cả các công trình và gần 1/10 tỷ lệ sai của vùng cao nhất Tỷ lệ sai ở hai vùng Hà Nội và miền núi không có sự chênh lệch lớn và đều nhỏ hơn so với tỷ lệ sai trung bình chung.

B ả ng 2.1 T ỷ l ệ sai trung bình c ủ a các nhóm đị a đ i ể m

Tỷ lệ sai trung bình (%) 1,89 1,95 4,48 0,46 2,29

Hình 2.1 Bi ể u đồ v ề t ỷ l ệ sai trung bình c ủ a các nhóm đị a đ i ể m

Yếu tố thứ hai ảnh hưởng đến mức độ sai phạm trong quyết toán là loại công trình, được phân loại dựa trên các đặc điểm kỹ thuật của chúng.

2.1.2 Loại công trình phân theo đặc tính kỹ thuật

Nghiên cứu này phân loại các công trình thành hai loại chính: công trình xây dựng và công trình mua sắm trang thiết bị Trong đó, có 98 công trình xây dựng, chiếm 76%, bao gồm cầu đường, nhà ở, chợ, và 31 công trình còn lại, chiếm 24%, chủ yếu tập trung vào việc mua sắm thiết bị như thiết bị khảo sát, đo đạc cho phòng thí nghiệm, xe ô tô chuyên dụng, và trang thiết bị học tập cho học sinh Để phân biệt hai loại công trình này, biến “DacdiemCT” được xây dựng.

Biến "DacdiemCT" được sử dụng để phân loại công trình, với giá trị "1" cho các công trình xây dựng và "2" cho các công trình mua sắm trang thiết bị Ngoài ra, biến "CTTThietbi" có giá trị nhị phân, nhận giá trị "1" khi công trình là mua sắm trang thiết bị và "0" khi đó là công trình xây dựng.

Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm

2.2.1 Phân tích phương sai cho 4 nhân tố Để biết nhân tố nào trong 4 nhân tố: địa điểm, hạng mục, loại công trình, cỡ công trình ảnh hưởng đến tỷ lệ sai phạm của các công trình thì ta sử dụng phương pháp phân tích phương sai cho 4 nhân tố đó Trong phương pháp này, biến “tylesai” là biến phụ thuộc, 4 biến độc lập là “MaDDiem”, “DacdiemCT”, “ChucnangsdCT” và “CoCT” Sử dụng phần mềm SPSS ta thu được kết quả trình bày trong bảng 2.6

B ả ng 2.6 K ế t qu ả phân tích ph ươ ng sai cho 4 nhân t ố

Source Type III Sum of Squares df Mean

Các biến độc lập có xác suất ý nghĩa nhỏ hơn 5% cho thấy chúng có ảnh hưởng đến biến phụ thuộc Cụ thể, biến “DacdiemCT” có xác suất ý nghĩa là 0,006 (0,6%) và biến “MaDDiem” có xác suất ý nghĩa là 0,003 (0,3%), chứng tỏ cả hai biến này đều có tác động đáng kể đến biến phụ thuộc.

Chức năng của công trình "ChucnangsdCT" có xác suất ý nghĩa là 0, trong khi biến "CoCT" có xác suất ý nghĩa là 0,121 (12,1%) Điều này cho thấy rằng địa điểm, đặc điểm và chức năng sử dụng của công trình là những yếu tố quan trọng ảnh hưởng đến tỷ lệ sai phạm, trong khi kích thước công trình không có tác động đáng kể đến tỷ lệ sai, mặc dù tỷ lệ sai trung bình của nhóm công trình cỡ vừa lại cao hơn nhiều so với hai nhóm còn lại.

Nhưng 3 nhân tố trên đây ảnh hưởng tới tỷ lệ sai như thế nào, có tác dụng làm tăng hay giảm tỷ lệ sai thì phương pháp phân tích này chưa chỉ rõ được Do đó ta dùng phương pháp hồi quy mô hình tuyến tính tổng quát để đưa ra các kết luận cụ thể hơn

2.2.2 Mô hình hồi quy tuyến tính tổng quát

Phương pháp hồi quy cổ điển thường áp dụng cho biến phụ thuộc và biến độc lập là các biến định lượng, trong khi phương pháp phân tích mô hình hồi quy tuyến tính tổng quát cho phép sử dụng cả biến định lượng và định tính, với các biến định tính được mã hóa thành các biến 0-1 Đầu tiên, ta áp dụng hồi quy tuyến tính cho tất cả các biến độc lập, trong đó biến phụ thuộc là “tylesai” Đối với yếu tố địa điểm, ta xem xét bốn khu vực: Hà Nội, đồng bằng Bắc Bộ, miền núi (bao gồm Đông Bắc, Tây Bắc và Tây Nguyên), và miền Nam (bao gồm các tỉnh từ Quảng Bình trở vào) Như vậy, yếu tố này có 4 mức, với nhóm công trình thuộc khu vực đồng bằng Bắc Bộ được coi là nhóm chứng, và thiết lập 3 biến giả tương ứng với 3 khu vực còn lại: biến “HaNoi” cho khu vực Hà Nội.

“MienNui” tương ứng với khu vực miền núi và “MienNam” tương ứng với khu vực miền Nam Đối với đặc điểm công trình, chỉ có hai nhóm chính là công trình xây dựng và công trình cung cấp trang thiết bị, vì vậy sử dụng biến giả “CTTThietbi” để mã hóa nhân tố này, bao gồm các công trình xây dựng không cung cấp trang thiết bị Để phân loại công trình theo chức năng sử dụng, chúng ta áp dụng ba biến giả: “Truonghoc” cho công trình xây dựng trường học, cùng với các biến cho chung cư và văn phòng cho thuê.

“Chungcu”), cơ sở hạ tầng (biến “CosoHT”) và lấy nhóm các công trình xây dựng trụ sở làm việc, nhà công vụ làm nhóm chứng

Chúng ta sử dụng hai biến giả là "CTcolon" để chỉ nhóm công trình lớn (vốn đầu tư trên 2,5 tỷ đồng) và "CTconho" cho nhóm công trình nhỏ (vốn đầu tư dưới 500 triệu đồng), nhằm so sánh với nhóm chứng, bao gồm các công trình cỡ vừa (vốn đầu tư từ 500 triệu đồng đến 2,5 tỷ đồng).

Các biến giả nêu trên được sử dụng làm biến độc lập trong phương trình hồi quy của mô hình tuyến tính tổng quát Kết quả ước lượng các hệ số hồi quy cùng với xác suất ý nghĩa tương ứng được thể hiện trong bảng 2.7.

B ả ng 2.7 K ế t qu ả phân tích theo mô hình h ồ i quy tuy ế n tính t ổ ng quát cho đầ y đủ các bi ế n độ c l ậ p

Biến “CTTThietbi” được xác định với giá trị 1 cho các công trình mua sắm trang thiết bị và giá trị 0 cho các công trình xây dựng.

Biến “CTTThietbi” cho thấy sự khác biệt giữa nhóm công trình mua sắm trang thiết bị và nhóm công trình xây dựng, với hệ số hồi quy là -3,024 và xác suất ý nghĩa 0,006 (0,6%) Điều này cho thấy tỷ lệ sai phạm trung bình của các công trình mua sắm trang thiết bị thấp hơn khoảng 3% so với các công trình xây dựng Do đó, “CTTThietbi” là yếu tố quan trọng ảnh hưởng đến tỷ lệ sai phạm trong quyết toán.

Các biến "HaNoi", "MienNui" và "MienNam" nhận giá trị 1 khi công trình thi công tại địa bàn tương ứng và 0 khi nằm ở địa bàn khác, đóng vai trò là nhóm thử so với nhóm chứng "MienBac" Kết quả từ bảng 2.7 cho thấy hệ số hồi quy của cả ba biến này đều âm, nhưng để xác định tỷ lệ sai phạm trung bình, cần xem xét xác suất ý nghĩa của từng biến Biến "HaNoi" và "MienNui" có xác suất ý nghĩa lần lượt là 38,3% và 12,5%, lớn hơn 5%, do đó không có sự khác biệt đáng kể so với nhóm miền Bắc Trong khi đó, biến "MienNam" có xác suất ý nghĩa khoảng 0%, nhỏ hơn 5%, cho thấy hệ số hồi quy của nó là -5,154, xác nhận rằng tỷ lệ sai phạm trung bình ở miền Nam thấp hơn miền Bắc khoảng 5,154%.

Các biến “Truonghoc”, “CosoHT”, “Chungcu” sẽ là các nhóm thử để so sánh với nhóm chứng là nhóm trụ sở làm việc Ta thấy, biến “Truonghoc” và “Chungcu”

Hai biến này được coi là không có ảnh hưởng, tức là tỷ lệ sai số trung bình của các công trình trường học và chung cư tương đương với tỷ lệ sai số trung bình của các công trình trụ sở làm việc Biến “CosoHT” có xác suất ý nghĩa 0,1% (nhỏ hơn 5%), cho phép chấp nhận giả thuyết rằng hệ số hồi quy của biến này là 4,750 Do đó, tỷ lệ sai số trung bình của các công trình cơ sở hạ tầng cao hơn khoảng 4,75% so với các công trình trụ sở làm việc.

Biến “CTcolon” và “CTconho” được sử dụng để so sánh với nhóm chứng là các công trình cỡ vừa Kết quả cho thấy xác suất ý nghĩa của “CTcolon” là 6,9% và “CTconho” là 95,8%, cả hai đều lớn hơn 5%, do đó hệ số hồi quy của chúng có thể coi là bằng 0 Điều này cho thấy tỷ lệ sai trung bình giữa các công trình cỡ lớn, cỡ nhỏ và cỡ vừa được xem là tương đương.

Sử dụng phương pháp hồi quy tuyến tính tổng quát cho thấy rằng các yếu tố như công trình trang thiết bị, cơ sở hạ tầng và vị trí miền Nam có tác động đáng kể đến tỷ lệ sai phạm của các công trình Ngược lại, các yếu tố khác không có ảnh hưởng rõ rệt đến tỷ lệ sai này.

Chúng ta có thể áp dụng hồi quy từng bước để loại bỏ các biến không có ý nghĩa trong mô hình, cụ thể là những biến có hệ số hồi quy bằng 0 Để thực hiện điều này, chúng ta sử dụng thủ tục hồi quy từng bước trong phần mềm SPSS, với biến phụ thuộc là "tylesai" và các biến độc lập bao gồm "CTTThietbi", "HaNoi", "MienNui", "MienNam", "Truonghoc", và "CosoHT".

“Chungcu”, biến “CTcolon”, biến “CTconho”, biến “CTcovua” Ta thu được kết quả trong bảng 2.8

Qua bảng 2.8, ta thấy mô hình hồi quy từng bước được tiến hành như sau Bước

Ngày đăng: 13/07/2022, 19:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), Thống kê toán học, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Thống kê toán học
Tác giả: Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như
Nhà XB: NXB Đại học Quốc gia Hà Nội
Năm: 2004
[2] Nguyễn Duy Tiến, Vũ Việt Yên (2000), Lý thuyết xác suất, NXB Hà Nội Sách, tạp chí
Tiêu đề: Lý thuyết xác suất
Tác giả: Nguyễn Duy Tiến, Vũ Việt Yên
Nhà XB: NXB Hà Nội
Năm: 2000
[3] J. M. Dickey (1967), “Matricvariate generalizations of the multivariate t- distribution and the inverted multivariate t- distribution”, Annals of mathematical Statistics, 38, 511-518 Sách, tạp chí
Tiêu đề: Matricvariate generalizations of the multivariate t- distribution and the inverted multivariate t- distribution”, "Annals of mathematical Statistics
Tác giả: J. M. Dickey
Năm: 1967
[4] J. H. Ellenberg (1973), “The joint distribution of the standardized least squares residual from general linear regression”, Journal of American Statistical Association, 68, 941 – 943 Sách, tạp chí
Tiêu đề: The joint distribution of the standardized least squares residual from general linear regression”, "Journal of American Statistical Association
Tác giả: J. H. Ellenberg
Năm: 1973
[5] F. Graybill (1985), Theory and Application of the Linear Model, Wadsworth Publishing Company, Inc., Belmont, California Sách, tạp chí
Tiêu đề: Theory and Application of the Linear Model
Tác giả: F. Graybill
Năm: 1985
[6] R. J. Muirhead (1982), Aspects of multivate statistical theory, Wiley Series in Probability and Mathematical Statistics, John Wiley anh Sons, Inc., New York Sách, tạp chí
Tiêu đề: Aspects of multivate statistical theory
Tác giả: R. J. Muirhead
Năm: 1982

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w