MỤC LỤC
Nói một cách khác, khi chỉ dùng một yếu tố là x hoặc y để xem xét sự khác biệt giữa hai đối tượng A1 và A2 thì một phần thông tin đã bị mất đi. Với n > 2 cá thể, ý tưởng trên dẫn đến yêu cầu bảo toàn tối đa sự khác biệt của các cá thể khi xét trên cả p tiêu thức.
Trường hợp bản thân các tiêu thức ban đầu hoàn toàn độc lập, phân tích này cũng cho phép lựa chọn một không gian có số chiều ít hơn mà qua đó việc mô tả mối liên hệ của các cá thể bị sai lệch ít nhất. Trong trường hợp các tiêu thức ban đầu không độc lập, ta có kết quả tốt hơn rất nhiều, đó là tìm được cách diễn đạt mỗi cá thể qua các tiêu thức hoàn toàn độc lập với nhau.
Tuy nhiên, thực tế có thể một dòng của X ứng với một số cá thể nào đó, như vậy để thể hiện đúng vai trò của đám đông trong phân tích thống kê ta có thể đặt cho mỗi dòng (mỗi cá thể đại diện) một trọng số pi. Trong trường hợp tổng quát hoàn toàn có thể làm tương tự như vậy, chỉ có khác là chúng ta không thể dùng một số thực để đo sự khác biệt giữa nhiều cá thể mà phải dùng một ma trận.
Để có một độ đo khoảng cách theo nghĩa mức tương ứng, trong phân tích thành phần chính ta có thể sử dụng ma trận M có đường chéo là nghịch đảo của các phương sai của các biến. Hệ quả của điều đó là các kết quả phân tích thành phần chính sẽ khác nhau nếu ta dùng ma trận hiệp phương sai và ma trận hệ số tương quan để xác định hai metric khác nhau trong không gian các quan sát.
Biến mới được tạo ra ở đây là một tổ hợp tuyến tính của các biến ban đầu (các cột của X), như vậy sự liên hệ của các biến ban đầu với biến được tạo mới chính là các hệ số tổ hợp (hay ngược lại là các hệ số phân tích). Đây là biểu thức hết sức quan trọng, cho phép xác định được mức độ bảo tồn độ biến động của số liệu X sau một phép chiếu lên một trục ứng với véc tơ chỉ phương a (ảnh của phép chiếu được thể hiện qua véc tơ c).
Ma trận MVM được gọi là ma trận quán tính của đám mây, nó xác định một dạng toàn phương mà giá trị của nó, đối với tất cả các véc tơ a có chuẩn (độ dài) theo độ đo M bằng 1, biểu diễn quán tính của đám mây ảnh trên trục tạo bởi véc tơ chỉ phương a. Để tìm giá trị cực đại của quán tính nói trên ta có thể sử dụng công cụ quen biết, theo đó, trước tiên điểm dừng phải thỏa mãn điều kiện đạo hàm bậc nhất theo a bằng không (mọi đạo hàm riêng bậc nhất theo các tọa độ a bằng không), tức là.
Nếu gọi C là ma trận (chứa các cột như các biến mới) lập bởi các thành phần chính thì ma trận hiệp phương sai của các thành phần chính đó là Λ, ma trận chỉ chứa các phần tử khác 0 trên đường chéo, có giá trị lần lượt bằng λi (i = 1..r). Thực tế khi chúng ta phân tích một tổng thể qua một mẫu, việc chọn số thành phần chính tùy thuộc vào yêu cầu sử dụng và phân tích kết quả, tuy nhiên thông thường để nhìn thấy trực quan kết quả phân tích thành phần chính người ta thường chọn r = 2 hoặc 3.
Lúc đó mỗi thành phần chính không đại diện riêng cho một biến ban đầu nào mà đại diện cùng một lúc cho nhiều biến với các mức độ khác nhau và ta có thể dùng hệ số tương quan của các thành phần chính với các biến ban đầu để xem xét tính đại diện đó. Như vậy, để xác định số lượng thành phần chính được sử dụng tái tạo lại dữ liệu, ta có thể dùng đồ thị so sánh các trị riêng ứng với các thành phần chính, chọn các thành phần chính đầu tiên có trị riêng tương ứng lớn hơn hẳn so với các thành phần chính phía sau để tiến hành phân tích tiếp.
Ước lượng điểm
Tương tự ta cú cỏc khoảng ước lượng một phớa của à là - Ước lượng giá trị tối thiểu,. Khi chưa biết phương sai thì trước tiên ta phải ước phương sai mẫu và đưa phương sai mẫu đó vào công thức xác định một thống kê thích hợp để làm tiêu chuẩn kiểm định giả thuyết.
Định nghĩa1: Thống kê T (= G X X1, 2, .., Xn) được gọi là một tiêu chuẩn thống kê (test statistics) nếu giá trị của nó được dùng để xem xét bác bỏ hay chấp nhận giả thuyếtH0.Ứng với mẫu cụ thể quan sát được, giá trị của tiêu chuẩn thống kê T được ký hiệu là tqs. Khi tiến hành kiểm định, người ta luôn mong muốn sao cho có thể cực tiểu hóa cả hai loại sai lầm loại I và loại II, tuy nhiên khi cỡ mẫu cố định thì mong muốn trên là không thực hiện được, vì nói chung sai lầm loại I giảm xuống sẽ kéo theo sai lầm loại II tăng lên.
Có thể về thực chất thì các sản phẩm đó đều có kích thước đạt tiêu chuẩn nhưng do những tác động ngẫu nhiên trong quá trình đo đạc mà ta có kết luận sai, dẫn đến việc phạm sai lầm với một xác suất nào đó.Tập hợp chứa các giá trị của mẫu phải bác bỏ khi đã bác bỏ một giá trị cụ thể cho trước của mẫu có một xác suất phạm sai lầm được gọi là xác suất ý nghĩa ứng với giá trị cụ thể đó. Định nghĩa 3: Ứng với một giá trị mẫu cụ thể của tiêu chuẩn thống kê dùng kiểm định giả thuyết, xác suất ý nghĩa (p−value) là giá trị của xác suất phạm sai. lầm nếu bác bỏ giả thuyết H0 khi ta có giá trị mẫu cụ thể đó trong khi giả thuyết là đúng đối với mẫu đang xét. Ta thấy xác suất ý nghĩa chính là xác suất phạm sai lầm loại I đã trình bày ở phía trên. Xác suất này nhỏ tương ứng với khả năng phạm sai lầm khi bác bỏ giả thuyết là nhỏ và ta có thể bác bỏ giả thuyết mà không e ngại có sai lầm. Ngược lại thì ta phải chấp nhận giả thuyết vì khả năng phạm sai lầm sẽ lớn. Như vậy ta có thể sử dụng xác suất ý nghĩa để giải quyết bài toán kiểm định theo thủ tục tiến hành các Bước 1 và 2 như trình bày ở trên và làm tiếp. Bước 3’ : Tính xác suất ý nghĩa tương ứng với giá trị cụ thể của tiêu chuẩn thống kê đã có ở Bước 2. Ngoài hai thủ tục trên, nhiều bài toán kiểm định có thể được tiến hành bằng cách sử dụng các ước lượng khoảng của các tham số hoặc các tiêu chuẩn thống kê, khá tiện dụng trong cả các tính toán bằng tay và cả khi có sự trợ giúp của máy tính. c) Dùng khoảng tin cậy của tham số hoặc tiêu chuẩn thống kê.
Nếu ta bác bỏ giả thuyết với giá trị cụ thể uqscủa tiêu chuẩn thống kê U được tính như trên, thì giả thuyết cũng phải bị bác bỏ cho mọi trường hợp khi giá trị cụ thể của tiêu chuẩn thống kê U có trị tuyệt đối lớn trị tuyệt đối của uqs (Hình 2). Lúc đó xác suất ý nghĩa sẽ được tính qua công thức. Hình 3.2 Diện tích biểu diễn xác suất ý nghĩa của phép kiểm định. Nếu b a≤ cú thể bỏc bỏ giả thuyết và kết luận X cú kỳ vọng khỏc à0. Ngược lại, nếu b a> thỡ ta phải chấp nhận giả thuyết cho rằng X cú kỳ vọng bằng à0. iii) Kiểm định bằng khoảng tin cậy. Theo nội dung đã trình bày phía trước, với độ tin cậy 1−α kỳ vọng của X sẽ có khoảng tin cậy xác định bởi. Lỳc đú ta sẽ chấp nhận giả thuyết nếu à0 là một điểm nằm trong đoạn thẳng trờn và bỏc bỏ giả thuyết nếu à0 khụng thuộc đoạn thẳng đú. Ta có thể kiểm tra thấy ba cách kiểm định trên cho kết quả như nhau. Tiếp sau đây ta sẽ xem xét bài toán kiểm định một phía về giá trị trung bình của một biến ngẫu nhiên có phân bố chuẩn. i) Kiểm định bằng miền tiêu chuẩn. Rừ ràng giỏ trị đó xác định được thông qua phân vị của phân phối chuẩn tắc. và dễ dàng tìm được bằng cách tra bảng phân phối chuẩn tắc. Để bác bỏ giả thuyết H0. thì giá trị quan sát cụ thể của thống kê U phải đủ lớn. Giá trị cụ thể của tiêu chuẩn thống kê U là. Như vậy ta sẽ bác bỏ giả thuyết nếu uqs ≥ uα. Ngược lại, nếu uqs <uα thì ta. ii) Kiểm định bằng xác suất ý nghĩa. Với giá trị cụ thể uqscủa thống kê U, ta tính được xác suất ý nghĩa. α thì ta chấp nhận giả thuyết. Hình 3.4 Xác suất ý nghĩa của phép kiểm định một phía phải. iii) Kiểm định bằng khoảng tin cậy. Theo nội dung trình bày ở phía trên, khoảng tin cậy một phía phải (cực tiểu) của kỳ vọng được xác định là nửa đường thẳng. Lỳc ấy nếu à0 thuộc vào khoảng trờn thỡ ta chấp nhận giả thuyết, ngược lại thỡ ta bỏc bỏ giả thuyết. Trên đây ta đã trình bày thủ tục kiểm định kỳ vọng của biến ngẫu nhiên khi đã biết phương sai của biến ngẫu nhiên đó cho bài toán kiểm định hai phía và bài toán kiểm định một phía phải. Đối với bài toán kiểm định một phía trái, thủ tục cũng được tiến hành hoàn toàn tương tự. Tiếp sau đây, ta sẽ xem xét vấn đề khi phương sai của biến ngẫu nhiên chưa được biết, là trường hợp hay gặp trong thực tế hơn. Trường hợp σ2 chưa biết. Xét thống kê. Người ta chứng minh được rằng nếu giả thuyết H0 là đúng thì T có quy luật phân phối Student với n−1 bậc tự do. Trước tiên chúng ta sẽ giải quyết vấn đề của bài toán kiểm định hai phía. Hình 3.5 Miền tiêu chuẩn của phép kiểm định t−Student. Ta thấy X là ước lượng khụng chệch cho à, vậy với mức ý nghĩa α ta bỏc bỏ giả thuyếtH0 nếu giá trị tuyệt đối của thống kê T đủ lớn, tức là khi T > tαn−/ 21. Trong đó phân vị tαn−/ 21 tìm từ bảng phân phối Student. Với mẫu cụ thể giá trị của tiêu chuẩn thống kê được xác định bằng:. Lúc đó ta sẽ bác bỏ giả thuyết nếu tqsthuộc vào miền bác bỏ, nếu ngược lại ta sẽ chấp nhận giả thuyết. Các bài toán kiểm định một phía được trình bày tiếp theo đây:. Hình 3.6 Miền tiêu chuẩn t−Student của phép kiểm định một phía phải. Đây là bài toán kiểm định một phía phải, với mức ý nghĩa α ta bác bỏ giả thuyết H0 nếu giá trị của tiêu chuẩn thống kê T đủ lớn. Giá trị tiêu chuẩn thống kê với mẫu cụ thể là. Ta sẽ bác bỏ giả thuyết nếu giá trị này thuộc vào miền bác bỏ nêu trên. Hình 3.7 Miền tiêu chuẩn t-Student của phép kiểm định một phía trái. tục tiến hành phép kiểm định này cũng tương tự như đã trình bày phía trên. Chú ý: - Trên đây, đối với trường hợp chưa biết phương sai của biến ngẫu nhiên, ta chỉ trình bày phương pháp kiểm định bằng miền tiêu chuẩn. Tuy nhiên cũng có thể áp dụng các phương pháp dùng xác suất ý nghĩa hoặc khoảng tin cậy. Lúc đó, thay vì phân phối chuẩn, các xác suất ý nghĩa và khoảng tin cậy phải được xác định tương ứng theo phân phối t- Student. - Giả thiết về phân phối chuẩn của biến ngẫu nhiên đã được đặt ra để có thể đưa ra cơ sở lý thuyết của các phương pháp kiểm định. Trong thực tế, điều kiện về phân phối chuẩn này rất ít khi được đáp ứng. Mặc dù vậy, Định lý Giới hạn trung tâm cho phép xấp xỉ phân phối của trung bình mẫu của các biến ngẫu nhiên thực tế thường gặp bằng phân phối của một biến ngẫu nhiên chuẩn. Do đó các phương pháp kiểm định kỳ vọng của biến ngẫu nhiên vẫn áp dụng được cho đa số các biến ngẫu nhiên trong thực tế. b) Kiểm định so sánh kỳ vọng của hai biến ngẫu nhiên phân phối chuẩn Cho hai biến ngẫu nhiên độc lập X và Y, trong đó X có phân phối chuẩn.
Trong các phép kiểm định (bao gồm phép kiểm định t – Student đang đề cập đến) tiến hành trong nghiên cứu này, mức ý nghĩa 5% luôn được dùng so sánh với các xác suất ý nghĩa tính được để đưa ra các kết luận thống kê (nếu xác suất ý nghĩa lớn hơn 5% thì giả thuyết được chấp nhận, ngược lại thì giả thuyết bị bác bỏ). Tiếp tục dựa vào cột giá trị trung bình (Mean) trong Bảng 3.6b và cột xác xuất ý nghĩa (Sig.) trong Bảng 3.6a ta thấy không có sự khác biệt trong việc sử dụng nguyên liệu thô để sản xuất bột trắng thấp trong hai năm mà chỉ có sự khác biệt trong việc sử dụng chất phụ gia vôi, oxy, chất phá bọt và chất đóng cặn.
Ở giấy trắng cao lại sử dụng nhiều chất tăng trắng hơn hẳn so với giấy trắng thấp với khối lượng tương ứng là 4.5955Kg và 1.5214Kg với xác suất ý nghĩa bằng 0.000 Việc sản xuất giấy trắng cao có sử dụng nhiều chất tăng trắng hơn hẳn giấy trắng thấp là hợp lý nhưng tại sao trong sản xuất giấy trắng thấp lại sử dụng nhiều bột ngoại, bột đá và một vài các chất phụ gia hơn sản xuất giấy trắng cao. Dựa vào cột giá trị trung bình (Mean) trong Bảng 3.10a và cột xác xuất ý nghĩa (Sig.) trong Bảng 3.10b dưới đây cho ta thấy việc sử dụng các loại bột giấy và các chất phụ gia sử dụng cho sản xuất giấy trắng cao trong hai năm 2006 và 2007 là không có sự khác biệt đáng kể vì đối với tất cả các nguyên liệu đưa vào sản xuất việc so sánh đều có xác xuất ý nghĩa lớn hơn 5%.