Kiểm định tính độc lập (Contingency table)

Một phần của tài liệu BÁO CÁO CUỐI KỲ MÔN HỌC PHÂN TÍCH DỮ LIỆU (Trang 73)

D. Công thức tính xác suất

B. Trường hợp có những tham số chưa biết

4.4 Kiểm định tính độc lập (Contingency table)

Trong thống kê, bảng tương quan (còn được gọi là bảng chéo hoặc bảng chéo) là một loại bảng ở định dạng ma trận hiển thị phân bố tần suất (đa biến) của các biến.

Chúng được sử dụng nhiều trong nghiên cứu khảo sát, kinh doanh thông minh, kỹ

thuật và nghiên cứu khoa học. Chúng cung cấp một bức tranh cơ bản về mối tương

quan giữa hai biến và có thể giúp tìm ra mối tương tác giữa chúng. Bảng thuật ngữ

tương quan lần đầu tiên được sử dụng bởi Karl Pearson trong "On the Theory of Contingency and Its Relation to Association and Normal Correlation"(Karl Pearson, 1904), một phần của loạt bài sinh trắc học hồi ký nghiên cứu công ty của Drapers 'xuất bản năm 1904.

+Ví dụ:

Màu tóc Tổng số

Sáng Tối

Màu long mày Sáng 30.472 3.238 33.71

Tối 3.364 9.468 112.832

Tổng 33.836 12.706 46.542

Số lần xuất hiện người có màu long mày sáng hoặc tối, có màu tóc sáng hoặc tối

được gọi là tổng số cận biên. Tổng số (tổng sốcá nhân được đại diện trong bảng tương quan) là sốở góc dưới cùng bên phải.

Bảng cho phép người dùng nhìn thoáng qua rằng tỷ lệ có màu tóc tối tương đương

với tỷ lệ người có màu long mày tối mặc dù tỷ lệ này không giống nhau. . Ý nghĩa

của sự khác biệt giữa hai tỷ lệ có thểđược đánh giá bằng nhiều phép thử thống kê khác nhau bao gồm phép thửchi bình phương của Pearson, phép thử G, phép thử

chính xác của Fisher, phép thử của Boschloo và phép thử của Barnard, miễn là các mục trong bảng đại diện cho các cá nhân một cách ngẫu nhiên lấy mẫu từ dân sốđể

rút ra kết luận. Nếu tỷ lệ các cá thể trong các cột khác nhau thay đổi đáng kể giữa các hàng (hoặc ngược lại), thì điều đó được cho là có sự ngẫu nhiên giữa hai biến số. Nói cách khác, hai biến không độc lập. Nếu không có trường hợp tương quan,

người ta nói rằng hai biến là độc lập.

4.4.2 Kiểm định Chi-Squared về tính độc lập (Chi-square test of independence) independence)

Bài toán: Kết quả lấy mẫu xếp vào bảng tương quan theo hai tính chất A,B.Số nij

A tổng số A1 A2 … Aj … As B B1 n11 n12 … nij … n1s n1 … … … …

Bi ni1 ni1 … nij … nis ni

…. … … … … … Br nr1 nr1 … nrj … nrs nr Tổng số n1 n2 nj ns n Ta thấy ∑𝑠 𝑛𝑖𝑗 𝑗=1 = 𝑛𝑖 (số lần xuất hiện Bi) và ∑𝑟 𝑛𝑖 𝑗=1 = 𝑛 tương tự ∑𝑟 𝑛𝑖𝑗 𝑖=1 = 𝑛𝑗 số lần xuất hiện Aj và ∑𝑠𝑗=1𝑛𝑗 = 𝑛 Nếu Aj và Bi đọc lập thì phải có: 𝑃(𝐴𝑗∩ 𝐵𝑖) = 𝑃(𝐴𝑗). 𝑃(𝐵𝑖) = 𝑛𝑛 ×𝑖 𝑛𝑛𝑗

Khi ấy với sốlượng mẫu là n thì số lần xuất hiện 𝐴1∩ 𝐵1 , ta có phương pháp giải

 Tìm 𝜒𝛼2(𝑟 − 1)(𝑠 − 1) từ bảng phân phối 𝜒2 với(𝑟 − 1)(𝑠 − 1) bậc tự do  Tính thống kê 𝜒02 = ∑ ∑ (𝑛𝑖𝑗−𝛾𝑖𝑗)2 𝛾𝑖𝑗 𝑠 𝑗=1 𝑣ớ𝑖 𝛾𝑖𝑗 = 𝑛𝑖𝑛𝑗 𝑛 𝑟 𝑖=1  Nếu 𝜒02 ≤ 𝜒𝛼2 thì chấp nhận H; Nếu 𝜒02 > 𝜒𝛼2 thì bác bỏ H

+Ví dụ: Hãy kiểm định màu tóc và màu long mày đọc lập với nhau vói α=5%

Màu tóc Tổng số

Sáng Tối

Màu long mày Sáng 30.472 3.238 33.71

Tối 3.364 9.468 112.832

Tổng 33.836 12.706 46.542

Ta có 𝜒𝛼2(𝑟 − 1)(𝑠 − 1) có 1 bậc tự do nên 𝜒0.052 = 3.8 𝜒02 = ∑ ∑(𝑛𝑖𝑗 − 𝛾𝑖𝑗) 2 𝛾𝑖𝑗 𝑠 𝑗=1 𝑟 𝑖=1 = 19.288 Vậy giả thiết H0 bị bác bỏ.

CHƯƠNG 5. QUY HOẠCH TUYẾN TÍNH

Có nhiều quyết định của cấp quản lý đưa ra để sử dụng tài nguyên một cách hiệu quả nhất ( máy thi công, nhân công, vật tư,…). Quy hoạch tuyến tính là một phương pháp toán hợc giúp cho các nhà quản lý lập kế hoạch sản xuất và ra quyết

định liên quan đến việc phân phối tài nguyên.

5.1 Định nghĩa quy hoạch tuyến tính

Bài toán quy hoạch tuyến tính tổng quá được phát biểu như sau:

Min{f(x) = c,x | xD },

Trong đó c = (c1, c2,...,cn)T  Rn là tập lồi đa diện được xác định bởi hệ phương

trình và bất phương trình tuyến tính ai1x1 +ai2x2 +...+ainxn = bi, i  L1 ai1x1 +ai2x2 +...+ainxn = bi, i  L2 ai1x1 +ai2x2 +...+ainxn = bi, i  L3 trong đó L1  L2  L3 = { 1, 2,...,l} là tập các chỉ số, các hệ số aij và bi, i = 1,...,l, j = 1,...,n là các hằng sốcho trước.

Nhắc lại rằng, trong bài toán trên, ta gọi

f(x) = c,x = c1x1 +...+cnxn là hàm mục tiêu;

cj, j = 1,...,n là các hệ số của hàm mục tiêu;

xj, j = 1,...,n là xác biến;

ai,x = (, ) bi, i = 1,...,l là các ràng buộc;

Tập lồi đa diện D được gọi tập nghiệm chấp nhận được hay tập ràng buộc. Mỗi

điểm xD được gọi là một nghiệm chấp nhận được hay một phương án chấp nhận được (có thể gọi tắt là phương án). Điểm x*D mà

f(x*) = c,x*  f(x) = c,x với mọi xD

được gọi là nghiệm tối ưu hoặc phương án tối ưu hay lời giải của bài toán. Giá trị

tối ưu của bài toán này được ký hiệu là min {c,x | xD}

Ta nói phương án 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛)𝑇 thỏa mã chặt ràng buộc i0, i0 {1,...,l} nếu

∑ 𝑎𝑖0𝑗𝑥𝑗 = 𝑏𝑖0 𝑛

𝑗=1

Một phương án thỏa mãn chặt n ràng buộc độc lập tuyến tính được gọi là một

phương án cực biên. Phương án cực biên thỏa mãn chặt đúng n ràng buộc được gọi là phương án cực biên không suy biến; thỏa mẵn chặt hơn n ràng buộc gọi là

phương án cực biên suy biến.

5.2 Sự tồn tại nghiệm và tính chất tập nghiệm quy hoạch tuyến tính 5.2.1 Sự tồn tại nghiệm

Các bài toán quy hoạch tuyến tính luôn có nhiều khả năng để lựa chọn. Ví dụ như

một công ty phát triển kinh doanh nhà có kế hoạc xây dựng ba kiêu nhà, có thể sử

dụng quy hoạch tuyến tính để quyết định xây dựng bao nhiêu mét vuông nhà mỗi kiểu trong điều kiện diện tích đất, vốn đầu tư và năng lực thi công bị giới hạn. Nên chăng chỉ xây dựng toàn bộ kiểu nhà A? Hay xây dựng cả ba kiêu r nhà có diện tích bằng nhau? Hay xây dựng nhà mỗi kiểu sao cho tận dụng hết toàn bộ diện tích

đất và năng lực thi công? Nói tóm lại, muốn tìm được lời giải của một bài toán tối

ưu, trước hết ta phải có cách nào đó nhận biết được xem nghiệm ấy có tồn tại hay

không đã rồi mới đưa ra cách để tìm nó.

Ta biết trong bài toán tối ưu có hai đối tượng quan trọng: Tập ràng buộc và hàm mục tiêu xác định trên tập đó. Vì thếkhi ta xét đến điều kiện để tồn tại nghiệm tối

Ví dụ, trong giải tích cổđiển, định lý Weierstrass khẳng định rằng một hàm liên tục trên một tập compact hay mở rộng là một hàm nửa liên tục dưới trên một tập compact khác rỗng bao giờ cũng đạt trên tập compact giá trị lớn nhất và giá trị nhỏ

nhất . Nói cách khác, một bài toán tối ưu có dữ kiện như vậy bao giờ cũng có

nghiệm tối ưu. Đối với bài toán tối ưu trơn, nếu một điểm nào đó thuộc phần trong của miền nghiệm tối ưu thì đạo hàm của hàm số tại điểm ấy phải bằng không. Điều kiện như vậy được gọi là điều kiện cần tối ưu. Vậy muốn tìm nghiệm tối ưu của bài toán này, ta chỉ cần tìm trên tập con của miền ràng buộc mà trên đó đạo hàm của hàm số triệt tiêu. Tại những điểm này mà ta sử dụng những điều kiện liên quan tới

đạo hàm bậc nhất đểsuy ra hàm đạt giá trị tối ưu thì những điều kiện đóđược gọi

là điều kiện đủ tối ưu cấp một. Tiếp theo, nếu hàm sốcó đạo hàm bậc hai và tại những điểm của tập con này, đạo hàm bậc hai dương chặt (hoặc âm chặt) thì điểm

ấy chính là nghiệm tối ưu của bài toán. Điều kiện này được gọi là điều kiệu tối ưu

cấp hai.

Xét bài toán quy hoạch tuyến tính tổng quát

min{〈𝑐, 𝑥〉|𝑥 ∈ 𝐷}, (𝐿𝑃) trong đó 𝑐 ∈ ℝ𝑛 và 𝐷 ⊂ ℝ𝑛 là tập lồi đa diện khác rỗng.

Định lý 1.1.Nếu tập nghiệm chấp nhận được D khác rỗng và bị chặn thì bài toán quy hoạch tuyến tính (LP) luôn có nghiệm tối ưu.

Chứng minh. Theo định nghĩa, tập lồi đa diện là tập đóng. Thêm tính bị chặn nên ta có D là tập compac. Hàm tuyến tính là hàm liên tục. Theo Định lý

Trong trường hợp tập nghiệm chấp nhận được D khác rỗng và không bị chặn, bài toàn (LP) có thể không có nghiệm. Tuy nhiên, nếu hàm mục tiêu 𝑓(𝑥) = 〈𝑐, 𝑥〉

bị chặn dưới trên D thì bài toán (LP) luôn có nghiêm tối ưu.

Định lý 5.2.Nếu tập chấp nhận được D khác rỗng và hàm mục tiêu 𝑓(𝑥) = 〈𝑐, 𝑥〉

bị chặn dưới tên D thì bài toán quy hoạch tuyến tính (LP) luôn có nghiệm tối ưu. Chứng minh.Vì mọi quy hoạch tuyến tính đều có thể chuyển về dạng chuẩn tắc hoặc chính tắc nên không giảm tổng quát ta giả thiết lập D có đỉnh. Theo Định lý biểu diễn tập lồi đa diện, bất kì 𝑥 ∈ 𝐷 đều có thể được biểu diễn dưới dạng

𝑥 = ∑ 𝜆𝑖𝑣𝑖 𝑁 𝑖=1 + ∑ 𝜇𝑗𝑑𝑗 𝑀 𝑗=1 , (1) 𝜆𝑖 ≥ 0, 𝑖 = 1, … , 𝑁, 𝜇𝑗 ≥ 0, 𝑗 = 1, … , 𝑀, ∑ 𝜆𝑖 𝑁 𝑖=1 = 1

trong đó 𝑣1, … , 𝑣𝑁 là các đỉnh và 𝑑1, … , 𝑑𝑀 là các phương cực biên của D. Do hàm mục tiêu 𝑓(𝑥) = 〈𝑐, 𝑥〉 bị chặn dưới trên D nên

〈𝑐, 𝑑𝑗〉 ≥ 0 ∀𝑑𝑗, 𝑗 = 1, … , 𝑀. (2)

Thật vậy, giả sử tồn tại 𝑗0 ∈ {1, … , 𝑀} sao cho 〈𝑐, 𝑑𝑗0〉 < 0. Vì d j0 là một phương

cực biên nên

𝑥 + 𝑡𝑑𝑗0 ∈ 𝐷 ∀𝑥 ∈ 𝐷, ∀𝑡 ≥ 0

〈𝑐, 𝑥 + 𝑡𝑑𝑗0〉 = 〈𝑐, 𝑥〉 + 𝑡〈𝑐, 𝑑𝑗0〉 → −∞ 𝑘ℎ𝑖 𝑡 → +∞

Điều này mâu thuẫn với tính bị chặn dưới của hàm 𝑓(𝑥) = 〈𝑐, 𝑥〉 và chứng tỏ

Chọn một đỉnh 𝑣𝑖0 của D sao cho 〈𝑐, 𝑣𝑖0〉 = min {〈𝑐, 𝑣𝑖0〉|𝑖 = 1, … , 𝑁}. Theo (1) và (2), với bất kỳ𝑥 ∈ 𝐷, ta có 〈𝑐, 𝑥〉 = ∑ 𝜆𝑖〈𝑐, 𝑣𝑖〉 𝑁 𝑖=1 + ∑ 𝜇𝑗〈𝑐, 𝑑𝑗〉 𝑀 𝑗=1 ≥ ∑ 𝜆𝑖〈𝑐, 𝑣𝑖〉 𝑁 𝑖=1 ≥ ∑ 𝜆𝑖〈𝑐, 𝑣𝑖0〉 = 𝑁 𝑖=1 〈𝑐, 𝑣𝑖0〉 Điều đó chứng tỏ𝑣𝑖0 là nghiệm tối ưu của bài toán (LP).

Chú ý 5.2. Kết luận của Định lý 5.2 nói chung không còn đúng đối với bài toán phi tuyến. Ví dụ:

i) Bài toán

inf {𝑓(𝑥) = 𝑥2|𝑥 ∈ 𝐷},

trong đó 𝐷 = {𝑥 ∈ ℝ2|𝑥1𝑥2 ≥ 1, 𝑥1, 𝑥2 ≥ 0}, có hàm mục tiêu là tuyến tính và bị

chặn dưới bởi 0. Tập nghiệm chấp nhận được D là tập lồi khác rỗng nhưng không

phải tập lồi đa diện. Đây không phải là bài toán quy hoạch tuyến tính và dễ thấy,

𝑥 = (𝑥1, 0)𝑇 ∉ 𝐷 với mọi 𝑥1 ≥ 0. Vì thế bài toán này không có nghiệm tối ưu

(Xem Hình 3.1(a)) và inf 𝑓(𝐷) = 0;

ii) Bài toán

min{𝑓(𝑥) = 𝑒𝑥|𝑥 ∈ 𝐷},

trong đó 𝐷 = {𝑥 ∈ ℝ|𝑥 ≤ 0}, có tập chấp nhận được là tập lồi đa diện nhưng hàm

mục tiêu là phi tuyến và cũng bị chặn dưới bởi 0. Rõ ràng cũng không tồn tại một

điểm 𝑥 ∈ 𝐷 để𝑒𝑥 = 0 và bài toán này không có nghiệm tối ưu (Xem Hình 3.1(b)),

5.2.2 Tính chất tập nghiệm

Định lý 5.3.Nếu bài toán quy hoạch tuyến tính (LP) có nghiệm tối ưu thì tập nghiệm tối ưu của nó là một diện của tập lồi đa diện chấp nhận được.

Chứng minh. Nhắc lại, tập con lồi khác rỗng 𝐹 ⊂ 𝐷 được gọi là một diện của tập lồi đa diện D nếu

𝑦, 𝑧 ∈ 𝐷 𝑣à 𝑥 ∈ 𝐹, 𝑥 = 𝜆𝑦 + (1 − 𝜆)𝑧, 0 < 𝜆 < 1 ⟹ 𝑦 ∈ 𝐹, 𝑧 ∈ 𝐹

Ký hiệu tập nghiệm tối ưu của bài toàn (LP) là 𝐹∗ = 𝑎𝑟𝑐𝑚𝑖𝑛{〈𝑐, 𝑥〉|𝑥 ∈ 𝐷}. Cho

𝑦, 𝑧 ∈ 𝐷, 𝑥 ∈ 𝐹∗ với , 𝑥 = 𝜆𝑦 + (1 − 𝜆)𝑧 và 0 < 𝜆 < 1 . Ta phải chứng minh

𝑦 ∈ 𝐹∗, 𝑧 ∈ 𝐹∗. Giả sử 〈𝑐, 𝑦〉 ≥ 〈𝑐, 𝑧〉. Khi đó

〈𝑐, 𝑥〉 = 𝜆〈𝑐, 𝑦〉 + (1 − 𝜆)〈𝑐, 𝑧〉 ≥ 𝜆〈𝑐, 𝑧〉 + (1 − 𝜆)〈𝑐, 𝑧〉 = 〈𝑐, 𝑧〉. (3)

Vì 𝑧 ∈ 𝐷 và 𝑥 ∈ 𝐹∗, tức x là một nghiệm tối ưu của bài toán (LP), nên

〈𝑐, 𝑥〉 ≤ 〈𝑐, 𝑧〉. (4)

Từ (3) và (4) suy ra 〈𝑐, 𝑥〉 = 〈𝑐, 𝑧〉, hay 𝑧 ∈ 𝐹∗. Hơn nữa ta có

Do đó 〈𝑐, 𝑦〉 = 〈𝑐, 𝑥〉. hay 𝑦 ∈ 𝐹∗. Theo định nghĩa, 𝐹∗ là một diện của D.

Hệ quả 1.1 Nếu một quy hoạch tuyến tính có nghiệm tối ưu và tập lồi đa diện ràng buộc có đỉnh thì nghiệm tối ưu phải đạt tại ít nhất một đỉnh, tức đạt tại ít nhất một phương án cực biên.

Chứng minh.Theo định nghĩa, phương án cực biên chính là một đỉnh của tập lồi đa

diện chấp nhận được của bài toán quy hoạch tuyến tính. Hệ quả được suy trực tiếp từ Định lý 5.3 và sự kiện là đỉnh của một diễn của một tập lồi đa diện cũng chính là đỉnh của tập lồi đa diện đó (Hệ quả 5.3).

Định lý 5.4. Nếu x* là nghiệm tối ưu địa phương của bài toán quy hoạch tuyến tính (LP) thì x*cũng là nghiệm tối ưu toàn cục.

Chứng minh.

Giả sử 𝑥∗ ∈ 𝐷 là nghiệm tối ưu địa phương cả bài toán (LP). Thẹo định

nghĩa, tồn tại một hình cầu mở 𝐵(𝑥∗, 𝜀) sao cho

〈𝑐, 𝑥∗〉 ≤ 〈𝑐, 𝑥〉 ∀𝑥 ∈ 𝐵(𝑥∗, 𝜀) ∩ 𝐷.

Giả sử phản chứng rằng x* không phải nghiệm tối ưu toàn cục của bài toán (LP). tức tồn tại 𝑥̅ ∈ 𝐷 thoả mãn 〈𝑐, 𝑥̅〉 < 〈𝑐, 𝑥∗〉. Do D là tập lồi đa diện nên nó chứa cả đoạn thẳng nối 𝑥∗ và 𝑥̅. Lấy điểm x0 nằm trong đoạn thẳng này và 𝑥0 ∈ 𝐵(𝑥∗, 𝜀), tức 𝑥0 = 𝜆𝑥∗+ (1 − 𝜆)𝑥̅ 𝑣ớ𝑖 0 < 𝜆 < 1. Ta có

〈𝑐, 𝑥0〉 = 𝜆〈𝑐, 𝑥∗〉 + (1 − 𝜆)〈𝑐, 𝑥̅〉 < 𝜆〈𝑐, 𝑥∗〉 + (1 − 𝜆)〈𝑐, 𝑥∗〉 = 〈𝑐, 𝑥∗〉. Điều này mâu thuẫn với tính cực tiểu đia phương của x* và chứng tỏ giả thiết phản chứng là sai.

5.3 Giải bài toán quy hoạch tuyến tính hai biến bằng phương pháp hình học học

Một bài toán lập trình tuyến tính chỉ có hai biến trình bày một trường hợp đơn giản giải pháp có thể thu được bằng cách sử dụng một phương pháp hình học khá cơ

bản. Riêng biệt từ giải pháp, phương pháp đồ họa đưa ra một bức tranh vật lý về

hình học nhất định đặc điểm của các bài toán lập trình tuyến tính. Ví dụsau được coi là để minh họa phươngpháp đồ họa của giải pháp.(Lan, 2015)

+Ví dụ:

Một lò gốm hàng ngày sản xuất hai mặt hàng cao cấp là đôn sứ(Đ) và bình bông (B). Sản lượng được giới hạn là đất sét trắng và số thợ lành nghề. Sốđát sét và số lao động hàng ngày đưuọc cung cấp lần lượt là 240kg và 100 giờ. Để làm được đôn sứ, cần 4kg đôn sứ và 2 giờ công lao động. Để là được bình bông cần 3kh đất sét và 1 giờ công. Đơn giá cho đôn sứ là 70000 đồng và bìn bông là 50000 đồng. Vậy sản xuuát như thế nào đưuọc doanh thu cao nhất.

Tóm tắt qua bảng

Tài nguyên để sản xuất ra một sản phẩm

Tài nguyên Đôn sứ Bình bông Khả năng đáp ứng

đất sét 4 3 240

giờ công 2 1 100

Giá bán(10000 đồng) 7 5 Sử dụng thuật toán quy hoạch tuyến tính:

Bước 1: Đặt tên biến

Gọi x1,x2 lần lượt là sốđôn sứ và bình bông sản xuất mỗi ngày

Bước 2: xác định hàm mục tiêu

Để có được doanh thu lớn nhất: 𝑍 = 7𝑥1+ 5𝑥2

Bước 3:Xác định các rang buộc

Với điều kiện là tổng lượng tài nguyên sử dụng pahir nhở hơn hoặc bằng tổng

4𝑥1+ 3𝑥2 ≤ 240 (đấ𝑡 𝑠é𝑡)(1); 2𝑥1+ 1𝑥2 ≤ 100( 𝑔𝑖ờ 𝑐ô𝑛𝑔)(2)

Và nghiệm số của bài toán nên không âm: điệu kiện biên x1,x2≥ 0

Bước 4: Giải bằng phương pháp đồ thị theo trình tự: - Thể hiện các ràng buộc

- Xác định vùng lời giải chấp nhận được - Vẽ một đương thẳng thể hiện hàm mục tiêu - Tìm nghiệm số của bài toán

 Thể hiện các ràng buộc

Biến 𝑥1 được biễu diễn trên trục hoành , biến x2 trên trục tung.

Để thể hiện ràng buộc đầu tiên lên đồ thị, chuyển bất phương trình thành phương trình:4𝑥1+ 3𝑥2 = 240 (đấ𝑡 𝑠é𝑡)

Không sản xuất đôn sứ thì 𝑥1 = 0 𝑣à 𝑥2 = 80

Không sản xuất bình bông thì 𝑥1 = 60 𝑣à 𝑥2 = 0

Một phần của tài liệu BÁO CÁO CUỐI KỲ MÔN HỌC PHÂN TÍCH DỮ LIỆU (Trang 73)

Tải bản đầy đủ (PDF)

(98 trang)