Kiểm ịnh tính ộc lập (Contingency table)

Một phần của tài liệu Báo cáo cuối kỳ môn phân tích dữ liệu (Trang 63)

D. Công thức tính xác suất

B. Trường hợp có những tham số chưa biết

4.4 Kiểm ịnh tính ộc lập (Contingency table)

4.4.1 Bảng tương quan

Trong thống kê, bảng tương quan (còn ược gọi là bảng chéo hoặc bảng chéo) là một loại bảng ở ịnh dạng ma trận hiển thị phân bố tần suất ( a biến) của các biến. Chúng ược sử dụng nhiều trong nghiên cứu khảo sát, kinh doanh thông minh, kỹ thuật và nghiên cứu khoa học. Chúng cung cấp một bức tranh cơ bản về mối tương quan giữa hai biến và có thể giúp tìm ra mối tương tác giữa chúng. Bảng thuật ngữ tương quan lần ầu tiên ược sử dụng bởi Karl Pearson trong "On the Theory of

Contingency and Its Relation to Association and Normal Correlation"(Karl Pearson, 1904), một phần của loạt bài sinh trắc học hồi ký nghiên cứu công ty của Drapers 'xuất bản năm 1904.

+Ví dụ:

Màu tóc Tổng số

Sáng Tối

Màu long mày Sáng 30.472 3.238 33.71

Tối 3.364 9.468 112.832

Tổng 33.836 12.706 46.542

Số lần xuất hiện người có màu long mày sáng hoặc tối, có màu tóc sáng hoặc tối ược gọi là tổng số cận biên. Tổng số (tổng số cá nhân ược ại diện trong bảng tương quan) là số ở góc dưới cùng bên phải.

Bảng cho phép người dùng nhìn thoáng qua rằng tỷ lệ có màu tóc tối tương ương với tỷ lệ người có màu long mày tối mặc dù tỷ lệ này không giống nhau. . Ý nghĩa của sự khác biệt giữa hai tỷ lệ có thể ược ánh giá bằng nhiều phép thử thống kê khác nhau bao gồm phép thử chi bình phương của Pearson, phép thử G, phép thử chính xác của Fisher, phép thử của Boschloo và phép thử của Barnard, miễn là các mục trong bảng ại diện cho các cá nhân một cách ngẫu nhiên lấy mẫu từ dân số ể rút ra kết luận. Nếu tỷ lệ các cá thể trong các cột khác nhau thay ổi áng kể giữa các hàng (hoặc ngược lại), thì iều ó ược cho là có sự ngẫu nhiên giữa hai biến số. Nói cách khác, hai biến không ộc lập. Nếu không có trường hợp tương quan, người ta nói rằng hai biến là ộc lập.

4.4.2 Kiểm ịnh Chi-Squared về tính ộc lập (Chi-square test of independence) independence)

Bài toán: Kết quả lấy mẫu xếp vào bảng tương quan theo hai tính chất A,B.Số nij ghi vào ô(I,j) úng với hàng I và cột j chỉ số lần xuát hiện sư kiện Aj∩ 𝐵𝑖

A tổng số A1 A2 … Aj … As B B1 n11 n12 … nij … n1s n1 … … … … … … …

Bi ni1 ni1 … nij … nis ni

…. … … … … …

Br nr1 nr1 … nrj … nrs nr

Tổng số n1 n2 nj ns n

Ta thấy ∑𝑠𝑗=1 𝑛𝑖𝑗= 𝑛𝑖 (số lần xuất hiện Bi) và ∑𝑟𝑗=1 𝑛𝑖= 𝑛 tương tự ∑𝑟𝑖=1 𝑛𝑖𝑗= 𝑛𝑗 số lần xuất hiện Aj và ∑𝑠𝑗=1 𝑛𝑗= 𝑛

Nếu Aj và Bi ọc lập thì phải có:

𝑛𝑖 𝑛𝑗

𝑃(𝐴𝑗∩ 𝐵𝑖) = 𝑃(𝐴𝑗). 𝑃(𝐵𝑖) = ×

𝑛 𝑛

Khi ấy với số lượng mẫu là n thì số lần xuất hiện 𝐴1 ∩ 𝐵1 , ta có phương pháp giải ➢ Tìm 𝜒𝛼2(𝑟− 1)(𝑠− 1) từ bảng phân phối 𝜒2 với(𝑟− 1)(𝑠− 1) bậc tự do

2

➢ Tính thống kê 𝜒 𝑠𝑗=1 (𝑛𝑖𝑗𝛾−𝑖𝑗𝛾𝑖𝑗) 𝑣ớ𝑖𝛾𝑖𝑗= 𝑛𝑖𝑛𝑛𝑗 ➢ Nếu 𝜒02 ≤ 𝜒𝛼2 thì chấp nhận H; Nếu 𝜒02 > 𝜒𝛼2 thì bác bỏ H

Màu tóc Tổng số

Sáng Tối

Màu long mày Sáng 30.472 3.238 33.71

Tối 3.364 9.468 112.832

Tổng 33.836 12.706 46.542

Ở ví dụ trên, áp dụng phương pháp giải:

Ta có 𝜒𝛼2(𝑟− 1)(𝑠− 1) có 1 bậc tự do nên 𝜒0.052= 3.8

𝜒

𝑖𝑗 𝑖=1 𝑗=1 Vậy giả thiết H0 bị bác bỏ.

CHƯƠNG 5.QUY HOẠCH TUYẾN TÍNH

Có nhiều quyết ịnh của cấp quản lý ưa ra ể sử dụng tài nguyên một cách hiệu quả nhất ( máy thi công, nhân công, vật tư,…). Quy hoạch tuyến tính là một phương pháp toán hợc giúp cho các nhà quản lý lập kế hoạch sản xuất và ra quyết ịnh liên quan ến việc phân phối tài nguyên.

5.1 Định nghĩa quy hoạch tuyến tính

Bài toán quy hoạch tuyến tính tổng quá ược phát biểu như sau: Min{f(x) = c,x | x D },

Trong ó c = (c1, c2,...,cn)T Rn là tập lồi a diện ược xác ịnh bởi hệ phương trình và bất phương trình tuyến tính

ai1x1 +ai2x2 +...+ainxn = bi, i L1 ai1x1 +ai2x2 +...+ainxn = bi, i L2

ai1x1 +ai2x2 +...+ainxn = bi, i L3

trong ó L1 L2 L3 = { 1, 2,...,l} là tập các chỉ số, các hệ số aij và bi, i = 1,...,l, j = 1,...,n là các hằng số cho trước.

Nhắc lại rằng, trong bài toán trên, ta gọi

f(x) = c,x = c1x1 +...+cnxn là hàm mục tiêu; cj, j = 1,...,n

là các hệ số của hàm mục tiêu; xj, j = 1,...,n là xác biến;

ai,x = ( , ) bi, i = 1,...,l là các ràng buộc;

Tập lồi a diện D ược gọi tập nghiệm chấp nhận ược hay tập ràng buộc. Mỗi iểm x D ược gọi là một nghiệm chấp nhận ược hay một phương án chấp nhận ược (có thể gọi tắt là phương án). Điểm x* D mà

f(x*) = c,x* f(x) = c,x với mọi x D

ược gọi là nghiệm tối ưu hoặc phương án tối ưu hay lời giải của bài toán. Giá trị tối ưu của bài toán này ược ký hiệu là min { c,x | x D}

Ta nói phương án 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛)𝑇 thỏa mã chặt ràng buộc i0, i0 {1,...,l} nếu 𝑛

= 𝑏𝑖0

Một phương án thỏa mãn chặt n ràng buộc ộc lập tuyến tính ược gọi là một phương án cực biên. Phương án cực biên thỏa mãn chặt úng n ràng buộc ược gọi là phương án cực biên không suy biến; thỏa mẵn chặt hơn n ràng buộc gọi là phương án cực biên suy biến.

5.2 Sự tồn tại nghiệm và tính chất tập nghiệm quy hoạch tuyến tính 5.2.1 Sự tồn tại nghiệm

Các bài toán quy hoạch tuyến tính luôn có nhiều khả năng ể lựa chọn. Ví dụ như một công ty phát triển kinh doanh nhà có kế hoạc xây dựng ba kiêu nhà, có thể sử dụng quy hoạch tuyến tính ể quyết ịnh xây dựng bao nhiêu mét vuông nhà mỗi kiểu trong iều kiện diện tích ất, vốn ầu tư và năng lực thi công bị giới hạn. Nên chăng chỉ xây dựng toàn bộ kiểu nhà A? Hay xây dựng cả ba kiêu r nhà có diện tích bằng nhau? Hay xây dựng nhà mỗi kiểu sao cho tận dụng hết toàn bộ diện tích ất và năng lực thi công? Nói tóm lại, muốn tìm ược lời giải của một bài toán tối ưu, trước hết ta phải có cách nào ó nhận biết ược xem nghiệm ấy có tồn tại hay không ã rồi mới ưa ra cách ể tìm nó.

Ta biết trong bài toán tối ưu có hai ối tượng quan trọng: Tập ràng buộc và hàm mục tiêu xác ịnh trên tập ó. Vì thế khi ta xét ến iều kiện ể tồn tại nghiệm tối ưu, ta phải quan tâm ến các iều kiện, tính chất của hai ối tượng ấy.

Ví dụ, trong giải tích cổ iển, ịnh lý Weierstrass khẳng ịnh rằng một hàm liên tục trên một tập compact hay mở rộng là một hàm nửa liên tục dưới trên một tập compact khác rỗng bao giờ cũng ạt trên tập compact giá trị lớn nhất và giá trị nhỏ nhất . Nói cách khác, một bài toán tối ưu có dữ kiện như vậy bao giờ cũng có nghiệm tối ưu. Đối với bài toán tối ưu trơn, nếu một iểm nào ó thuộc phần trong của miền nghiệm tối ưu thì ạo hàm của hàm số tại iểm ấy phải bằng không. Điều kiện như vậy ược gọi là iều kiện cần tối ưu. Vậy muốn tìm nghiệm tối ưu của bài toán này, ta chỉ cần tìm trên tập con của miền ràng buộc mà trên ó ạo hàm của hàm

số triệt tiêu. Tại những iểm này mà ta sử dụng những iều kiện liên quan tới ạo hàm bậc nhất ể suy ra hàm ạt giá trị tối ưu thì những iều kiện ó ược gọi là iều kiện ủ tối ưu cấp một. Tiếp theo, nếu hàm số có ạo hàm bậc hai và tại những iểm của tập con này, ạo hàm bậc hai dương chặt (hoặc âm chặt) thì iểm ấy chính là nghiệm tối ưu của bài toán. Điều kiện này ược gọi là iều kiệu tối ưu cấp hai.

Xét bài toán quy hoạch tuyến tính tổng quát

min{〈𝑐, 𝑥〉|𝑥∈ 𝐷}, (𝐿𝑃) trong ó 𝑐∈ ℝ𝑛 và 𝐷⊂ ℝ𝑛 là tập lồi a diện khác rỗng.

Định lý 1.1. Nếu tập nghiệm chấp nhận ược D khác rỗng và bị chặn thì bài toán quy hoạch tuyến tính (LP) luôn có nghiệm tối ưu.

Chứng minh. Theo ịnh nghĩa, tập lồi a diện là tập óng. Thêm tính bị chặn nên ta có

D là tập compac. Hàm tuyến tính là hàm liên tục. Theo Định lý Weierstrass, ta có iều phải chứng minh.

Trong trường hợp tập nghiệm chấp nhận ược D khác rỗng và không bị chặn, bài toàn (LP) có thể không có nghiệm. Tuy nhiên, nếu hàm mục tiêu 𝑓(𝑥) = 〈𝑐, 𝑥〉 bị chặn dưới trên D thì bài toán (LP) luôn có nghiêm tối ưu.

Định lý 5.2. Nếu tập chấp nhận ược D khác rỗng và hàm mục tiêu 𝑓(𝑥) = 〈𝑐, 𝑥〉 bị chặn dưới tên D thì bài toán quy hoạch tuyến tính (LP) luôn có nghiệm tối ưu.

Chứng minh.Vì mọi quy hoạch tuyến tính ều có thể chuyển về dạng chuẩn tắc hoặc chính tắc nên không giảm tổng quát ta giả thiết lập D có ỉnh. Theo Định lý biểu diễn tập lồi a diện, bất kì 𝑥∈ 𝐷 ều có thể ược biểu diễn dưới dạng

𝑁 𝑀

𝑥= ∑ 𝜆𝑖𝑣𝑖𝜇𝑗𝑑𝑗, (1) 𝑖=1

𝑁

trong ó 𝑣1, … , 𝑣𝑁 là các ỉnh và 𝑑1,… , 𝑑𝑀 là các phương cực biên của D. Do hàm mục tiêu 𝑓(𝑥) = 〈𝑐, 𝑥〉 bị chặn dưới trên D nên

〈𝑐, 𝑑𝑗〉≥ 0 ∀𝑑𝑗,𝑗= 1, … , 𝑀. (2) Thật vậy, giả sử tồn tại 𝑗0 ∈ {1, … , 𝑀} sao cho 〈𝑐, 𝑑𝑗0〉 < 0. Vì d j0 là một phương cực biên nên

𝑥 + 𝑡𝑑𝑗0 ∈ 𝐷 ∀𝑥∈ 𝐷, ∀𝑡≥ 0 và

〈𝑐, 𝑥 + 𝑡𝑑𝑗0〉= 〈𝑐, 𝑥〉 + 𝑡〈𝑐, 𝑑𝑗0〉→ −∞ 𝑘ℎ𝑖𝑡→ +∞

Điều này mâu thuẫn với tính bị chặn dưới của hàm 𝑓(𝑥) = 〈𝑐, 𝑥〉 và chứng tỏ khẳng ịnh (2) là úng.

Chọn một ỉnh 𝑣𝑖0 của D sao cho 〈𝑐, 𝑣𝑖0〉= min {〈𝑐, 𝑣𝑖0〉|𝑖= 1, … , 𝑁}. Theo (1) và (2), với bất kỳ 𝑥∈ 𝐷, ta có

𝑁 𝑀 𝑁 𝑁

〈𝑐, 𝑥〉 𝜆𝑖〈𝑐, 𝑣𝑖〉 𝜇𝑗〈𝑐, 𝑑𝑗〉 𝜆𝑖〈𝑐, 𝑣𝑖〉 𝜆𝑖〈𝑐, 𝑣𝑖0〉= 〈𝑐, 𝑣𝑖0〉 Điều ó chứng tỏ 𝑣𝑖0 là nghiệm tối ưu của bài toán (LP).

Chú ý 5.2. Kết luận của Định lý 5.2 nói chung không còn úng ối với bài toán phi

tuyến. Ví dụ: i) Bài toán

inf {𝑓(𝑥) = 𝑥2|𝑥∈ 𝐷},

trong ó 𝐷 = {𝑥 ∈ ℝ2|𝑥1𝑥2 ≥ 1, 𝑥1, 𝑥2 ≥ 0}, có hàm mục tiêu là tuyến tính và bị chặn dưới bởi 0. Tập nghiệm chấp nhận ược D là tập lồi khác rỗng nhưng không phải tập lồi a diện. Đây không phải là bài toán quy hoạch tuyến tính và dễ thấy, 𝑥 = (𝑥1, 0)𝑇 ∉𝐷 với mọi 𝑥1 ≥ 0. Vì thế bài toán này không có nghiệm tối ưu

(Xem Hình 3.1(a)) và inf 𝑓(𝐷) = 0; ii) Bài toán

trong ó 𝐷 = {𝑥∈ ℝ|𝑥≤ 0}, có tập chấp nhận ược là tập lồi a diện nhưng hàm mục tiêu là phi tuyến và cũng bị chặn dưới bởi 0. Rõ ràng cũng không tồn tại một iểm 𝑥 ∈ 𝐷 ể 𝑒𝑥= 0 và bài toán này không có nghiệm tối ưu (Xem Hình 3.1(b)), giá trị tối

ưu inf 𝑓(𝐷) = 0.

5.2.2 Tính chất tập nghiệm

Định lý 5.3. Nếu bài toán quy hoạch tuyến tính (LP) có nghiệm tối ưu thì tập nghiệm tối ưu của nó là một diện của tập lồi a diện chấp nhận ược.

Chứng minh. Nhắc lại, tập con lồi khác rỗng 𝐹⊂ 𝐷 ược gọi là một diện của tập lồi a diện D nếu

𝑦, 𝑧 ∈ 𝐷𝑣à 𝑥∈ 𝐹, 𝑥 = 𝜆𝑦+ (1 − 𝜆)𝑧, 0 < 𝜆 < 1 ⟹𝑦∈ 𝐹, 𝑧∈ 𝐹

Ký hiệu tập nghiệm tối ưu của bài toàn (LP) là 𝐹∗= 𝑎𝑟𝑐𝑚𝑖𝑛{〈𝑐, 𝑥〉|𝑥∈ 𝐷}. Cho 𝑦, 𝑧 ∈ 𝐷, 𝑥∈ 𝐹∗ với , 𝑥 = 𝜆𝑦+ (1 − 𝜆)𝑧 và 0 < 𝜆 < 1 . Ta phải chứng minh

𝑦∈ 𝐹∗, 𝑧 ∈ 𝐹∗. Giả sử 〈𝑐, 𝑦〉≥ 〈𝑐, 𝑧〉. Khi ó

〈𝑐, 𝑥〉 = 𝜆〈𝑐, 𝑦〉+ (1 − 𝜆)〈𝑐, 𝑧〉≥ 𝜆〈𝑐, 𝑧〉+ (1 − 𝜆)〈𝑐, 𝑧〉= 〈𝑐, 𝑧〉. (3) Vì 𝑧∈ 𝐷 và 𝑥∈ 𝐹∗, tức x là một nghiệm tối ưu của bài toán (LP), nên

〈𝑐, 𝑥〉≤ 〈𝑐, 𝑧〉. (4) Từ (3) và (4) suy ra 〈𝑐, 𝑥〉= 〈𝑐, 𝑧〉, hay 𝑧∈ 𝐹∗. Hơn nữa ta có

〈𝑐, 𝑥〉 = 𝜆〈𝑐, 𝑦〉+ (1 − 𝜆)〈𝑐, 𝑧〉 = 𝜆〈𝑐, 𝑦〉 + (1 − 𝜆)〈𝑐, 𝑥〉 Do ó 〈𝑐, 𝑦〉= 〈𝑐, 𝑥〉. hay 𝑦∈ 𝐹∗. Theo ịnh nghĩa, 𝐹∗ là một diện của D.

Hệ quả 1.1 Nếu một quy hoạch tuyến tính có nghiệm tối ưu và tập lồi a diện ràng

buộc có ỉnh thì nghiệm tối ưu phải ạt tại ít nhất một ỉnh, tức ạt tại ít nhất một phương án cực biên.

Chứng minh.Theo ịnh nghĩa, phương án cực biên chính là một ỉnh của tập lồi a diện chấp nhận ược của bài toán quy hoạch tuyến tính. Hệ quả ược suy trực tiếp từ Định lý 5.3 và sự kiện là ỉnh của một diễn của một tập lồi a diện cũng chính là ỉnh của tập lồi a diện ó (Hệ quả 5.3).

Định lý 5.4. Nếu x* là nghiệm tối ưu ịa phương của bài toán quy hoạch tuyến tính (LP) thì x* cũng là nghiệm tối ưu toàn cục.

Chứng minh.

Giả sử 𝑥∗∈ 𝐷 là nghiệm tối ưu ịa phương cả bài toán (LP). Thẹo ịnh nghĩa, tồn tại một hình cầu mở 𝐵(𝑥∗, 𝜀) sao cho

〈𝑐, 𝑥∗〉≤ 〈𝑐, 𝑥〉∀𝑥∈ 𝐵(𝑥∗, 𝜀) ∩ 𝐷.

Giả sử phản chứng rằng x* không phải nghiệm tối ưu toàn cục của bài toán (LP). tức tồn tại 𝑥 ∈ 𝐷 thoả mãn 〈𝑐, 𝑥 〉 < 〈𝑐, 𝑥∗〉. Do D là tập lồi a diện nên nó chứa cả oạn thẳng nối 𝑥∗ và 𝑥 . Lấy iểm x0 nằm trong oạn thẳng này và 𝑥0 ∈ 𝐵(𝑥∗,𝜀), tức 𝑥0 = 𝜆𝑥∗ + (1 − 𝜆)𝑥 𝑣ớ𝑖 0 < 𝜆 < 1. Ta có

〈𝑐, 𝑥0〉 = 𝜆〈𝑐, 𝑥∗〉+ (1 − 𝜆)〈𝑐, 𝑥 〉 < 𝜆〈𝑐, 𝑥∗〉+ (1 − 𝜆)〈𝑐, 𝑥∗〉= 〈𝑐, 𝑥∗〉.

Điều này mâu thuẫn với tính cực tiểu ia phương của x* và chứng tỏ giả thiết phản chứng là sai.

5.3 Giải bài toán quy hoạch tuyến tính hai biến bằng phương pháp hình học

Một bài toán lập trình tuyến tính chỉ có hai biến trình bày một trường hợp ơn giản giải pháp có thể thu ược bằng cách sử dụng một phương pháp hình học khá cơ bản. Riêng biệt từ giải pháp, phương pháp ồ họa ưa ra một bức tranh vật lý về hình học nhất ịnh ặc iểm của các bài toán lập trình tuyến tính. Ví dụ sau ược coi là ể minh họa phương pháp ồ họa của giải pháp.(Lan, 2015) +Ví dụ:

Một lò gốm hàng ngày sản xuất hai mặt hàng cao cấp là ôn sứ(Đ) và bình bông (B). Sản lượng ược giới hạn là ất sét trắng và số thợ lành nghề. Số át sét và số lao ộng hàng ngày ưuọc cung cấp lần lượt là 240kg và 100 giờ. Để làm ược ôn sứ, cần 4kg

ôn sứ và 2 giờ công lao ộng. Để là ược bình bông cần 3kh ất sét và 1 giờ công. Đơn giá cho ôn sứ là 70000 ồng và bìn bông là 50000 ồng. Vậy sản xuuát như thế nào ưuọc doanh thu cao nhất.

Tóm tắt qua bảng

Tài nguyên ể sản xuất ra một sản

phẩm

Tài nguyên Đôn sứ Bình bông Khả năng áp ứng

ất sét 4 3 240

giờ công 2 1 100

Giá bán(10000 ồng) 7 5

Sử dụng thuật toán quy hoạch tuyến tính:

Bước 1: Đặt tên biến

Gọi x1,x2 lần lượt là số ôn sứ và bình bông sản xuất mỗi ngày

Bước 2: xác ịnh hàm mục tiêu

Để có ược doanh thu lớn nhất: 𝑍 = 7𝑥1 + 5𝑥2

Bước 3:Xác ịnh các rang buộc

Với iều kiện là tổng lượng tài nguyên sử dụng pahir nhở hơn hoặc bằng tổng lượng tài nguyên cung cấp nên rang buộc của bài toán là:

4𝑥1 + 3𝑥2 ≤ 240 (đấ𝑡𝑠é𝑡)(1); 2𝑥1 + 1𝑥2 ≤ 100( 𝑔𝑖ờ 𝑐ô𝑛𝑔)(2) Và nghiệm số của bài toán nên không âm: iệu kiện biên x1,x2 ≥ 0

Bước 4: Giải bằng phương pháp ồ thị theo trình tự:

- Thể hiện các ràng buộc

- Xác ịnh vùng lời giải chấp nhận ược - Vẽ một ương thẳng thể hiện hàm mục tiêu - Tìm nghiệm số của bài toán

➢ Thể hiện các ràng buộc

Để thể hiện ràng buộc ầu tiên lên ồ thị, chuyển bất phương trình thành phương trình:4𝑥1 + 3𝑥2 = 240 (đấ𝑡𝑠é𝑡)

Không sản xuất ôn sứ thì 𝑥1 = 0 𝑣à 𝑥2 = 80 Không sản xuất bình bông thì 𝑥1 = 60 𝑣à 𝑥2 = 0

Tương tự với rang buộc thứ hai 2𝑥1 + 1𝑥2 = 100( 𝑔𝑖ờ𝑐ô𝑛𝑔) Không sản xuất ôn sứ thì 𝑥1 = 0 𝑣à 𝑥2 = 100

Không sản xuất bình bông thì 𝑥1 = 50 𝑣à 𝑥2 = 0

Hình. Thẻ hiện các rang buộc bằng ồ thị ➢ Xác ịnh vùng lời giải chấp nhận ược

Còn gọi là vùng nghiệm khả dĩ, tập hợp tất cả các iểm thỏa mãn tất cả các rang

Một phần của tài liệu Báo cáo cuối kỳ môn phân tích dữ liệu (Trang 63)