Luận Văn: Bằng phương pháp thống kê toán học đề ra các biện pháp giảm chi phí cho Công ty giấy Bãi bằng
Trang 1LỜI MỞ ĐẦU
Ngày 28/11/1982, trên vùng đất Phong Châu lịch sử, Nhà máy Giấy BãiBằng – công trình của tình hữu nghị, hợp tác Việt Nam – Thụy Điển chính thứckhánh thành và đi vào sản xuất, mở ra một bức tranh mới trong lịch sử ngànhcông nghiệp giấy Việt Nam
Trong hơn 25 năm qua, công ty Giấy Bãi Bằng đã trải qua một chặnđường nhiều gian nan, thử thách, nhưng cũng đầy kiêu hãnh, tự hào để trở thànhcon chim đầu đàn của Tổng công ty Giấy Việt Nam
Giấy Bãi Bằng đã trở thành một thương hiệu nổi tiếng, đạt giải Sao vàngĐất Việt, hàng Việt Nam chất lượng cao Áp dụng hệ thống quản lý chất lượngtheo tiêu chuẩn ISO 9001:2000, sản phẩm Giấy Bãi Bằng càng ngày được nângcao chất lượng, mẫu mã đa dạng, đáp ứng nhu cầu sử dụng trong nước cũng nhưxuất khẩu
Giấy Bãi Bằng đã có nhiều đóng góp cho nền kinh tế đất nước và pháttriển kinh tế địa phương Thông qua đóng góp ngân sách, giảm nhập khẩu hànghoá, kích thích sản xuất nguyên liệu, góp phần xóa đói giảm nghèo cho nôngdân các tỉnh trung du, miền núi phía bắc; hình thành một số ngành công nghiệp,tiểu thủ công nghiệp liên quan đến sản xuất và gia công chế biến các sẩn phẩm
từ giấy, nhà máy đã tham gia giải quyết việc làm cho hàng vạn lao động xã hộiBài luận văn này là một thử nghiệm nghiên cứu định lượng về tình hình sảnxuất kinh doanh của công ty Giấy Bãi Bằng nay là Tổng công ty Giấy Việt Nam
Số liệu được lấy từ nhà máy Giấy của Tổng công ty Số liệu trên được tổ chứcthành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổngcông ty trong ba năm 2006, 2007 và 2008 Bằng các phương pháp thống kê thíchhợp, luận văn này sẽ phác thảo một phần thực trạng sản xuất tại Tổng công tytrong ba năm trên
Sau lời mở đầu, luận văn này sẽ có 3 chương và danh mục tài liệu thamkhảo Chương 1 sẽ trình bày về mục đích nghiên cứu của luận văn Chương 2dành để giới thiệu cơ sở lý thuyết của các phương pháp phân tích thống kê được
Trang 2sử dụng trong quá trình phân tích số liệu Chương 3 đưa ra các kết quả phân tíchtrong hoạt động sản xuất của Tổng công ty, tìm ra những điểm bất hợp lý trongviệc phối hợp các thành phần nguyên vật liệu, đề xuất phương án sử dụngnguyên vật liệu tiết kiệm hơn cho quá trình sản xuất Tại đây các phương phápthống kê được áp dụng một cách phù hợp để đưa ra những kết luận có tínhthuyết phục, đảm bảo tính khoa học Phần cuối của chương 3 đã đề xuất một sốkiến nghị đối với ban lãnh đạo của Tổng công ty về việc phối hợp sử dụng cácnguyên vật liệu một cách thích hợp trong quá trình sản xuất để nâng cao hiệuquả sản xuất kinh doanh.
Luận văn này được hoàn thành tại Viện Toán học, Viện Khoa Học CôngNghệ Việt Nam dưới sự hướng dẫn của Tiến sỹ Hồ Đăng Phúc Tôi xin đượcbày tỏ lòng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn đầy nhiệt tình của thầy.Tôi xin chân thành cảm ơn các thầy trong Ban lãnh đạo Viện Toán học, cácthầy, cô tham gia giảng dạy lớp cao học khóa 15, cùng các thầy cô ở Trung tâmđào tạo sau đại học của Viện Toán học đã giúp đỡ tôi trong suốt thời gian họctập Tôi cũng xin giửi lời cảm ơn tới các anh chị em cao học khóa 15, nhómSemina Xác suất Thống kê, cùng các bạn đồng nghiệp và gia đình đã nhiệt tìnhđóng góp ý kiến, động viên, giúp đỡ tôi trong suốt quá trình học tập và hoànthành luận văn
Đặc biệt, tôi xin giửi lời cảm ơn sâu sắc tới Lãnh đạo Tổng công ty giấyViệt Nam, lãnh đạo và các anh em trong nhà máy giấy đã nhiệt tình và nghiêmtúc cung cấp những dữ liệu chính xác quý báu, mà nếu thiếu nguồn số liệu nàythì nghiên cứu của tôi không thể thực hiện được
Tuy đã có nhiều cố gắng nhưng bản luận văn này cũng không tránh khỏinhững thiếu sót, tác giả rất mong có được sự tham gia đóng góp ý kiến của cácthầy cô giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu kinh tế và cácđộc giả quan tâm đến bản luận văn này
Hà Nội, ngày 25 tháng 08 năm 2009
Lã Phan Trúc Quỳnh
Trang 3Chương 1MỤC TIÊU NGHIÊN CỨU
Quá trình sản xuất bao gồm hai công đoạn chính là công đoạn sản xuất bột giấy
và công đoạn sản xuất giấy Trước tiên ta sẽ đề cập đến công đoạn sản xuất bộtgiấy với chức năng gia công các loại nguyên liệu thô (gỗ, tre nứa, v.v.) thành bộtgiấy, làm nguyên liệu đầu vào cho công đoạn sản xuất giấy tiếp sau đó
1 Quy trình sản xuất bột giấy
Quy trình sản xuất bột giấy được tóm tắt thành sơ đồ khối trong Hình 1.1
Hình 1.1 Sơ đồ khối của quá trình sản xuất bột giấy
lọc dịch trắng
Rửa bùn vôi
Lò vôi
Bể xút hóa
Lọc dịch xanh
Bể chứa dịch xanh
Rửa cặn Tôi vôi
Bể hòa tan dịch nóng chảy
Bể dịch yếu
Nồi hơi thu hồi
nóng chảy
cặn
dịch xanh dịch yếu
nước
Cặn
nước
Bể chứa dịch yếu
Bùn vôi dịch trắng
Bột
Vôi
dịch đen
Mảnh
Trang 4Dăm mảnh (gỗ) sau khi được xử lý một cách thích hợp sẽ được chuyển đến nồinấu Ở đây, dăm mảnh sẽ được gia công nhiệt, thẩm thấu dịch bằng nhiệt độ.Bột được nấu chín được chuyển sang tháp phóng bột, từ tháp phóng bột bộtđược chuyển sang khu vực rửa bột Bột sau khi được rửa sẽ chuyển sang khuvực sản xuất giấy
Hình 1.2 Sơ đồ công nghệ hệ thống chuẩn bị bột
Toàn bộ nước rửa bột (dịch đen) sẽ được thu hồi vào bể dịch đen loãng Dịchđen sẽ được chuyển đến các tháp chưng bốc để cô đặc đến nồng độ thích hợp.Sau khi được cô đặc dịch đen được chuyển đến bể chứa dịch, rồi được chuyểnđến nồi hơi thu hồi Ở nồi hơi thu hồi, dịch đen được đun để tạo thành dịch nóngchảy và tạo ra hơi Hơi sẽ được chuyển sang khu vực sản xuất giấy để sử dụngtiếp
Bể chứa bột hỗn hợp tẩy trắng MC
Nghiền đĩa
Máy làm sạch HD
Bể chứa bột
đã nghiền
Bể phối trộn
Đánh tơi, nghiền (kiểu vít ép)
Phụ gia
Bể bột giấy rách thu hồi
hệ thống tiếp cận
Trang 5Dịch nóng chảy sẽ được hòa tan và chuyển thành dịch xanh Dịch xanh sau khiđược lọc sẽ được chuyển vào bể chứa dịch xanh Bước tiếp theo, cho dịch xanhvào tôi cùng với vôi ta thu được dịch trắng Chuyển dịch trắng sang bể xút hóa,tiếp theo dịch trắng sẽ được lọc cặn để thu được dịch trắng sạch Dịch trắng sạchlại dùng vào để nấu bột thay cho dịch nấu.
Hình 1.3 Sơ đồ hệ thống tiếp cận và máy xeo
Dịch trắng sau khi được lọc sẽ thải ra cặn (bùn vôi) Bùn vôi được mang đi rửarồi lọc, tiếp theo sẽ được chuyển vào lò vôi để tôi thành đá vôi và lại mang đi tôicùng dịch xanh
Tháp điều tiết bột
Cuộn giấy 3000
Phần sấy trước tráng
Cán 3 lô
Máy làm sạch cấp 1 Bể bột + bơm quạt
Sàng áp lực cấp 1 Máy làm sạch cấp 2
Máy làm sạch cấp 3
Máy làm sạch cấp 4
Sàng áp lực cấp 2
Phần sấy sau tráng
Trang 6Công nghệ giấy ở đây là một vòng tuần hoàn khép kín, lượng thải ra môi trườngkhông đáng kể, lợi nhuận của nhà máy giấy là lớn nếu ta làm tốt các công đoạnthu hồi dịch
2 Quy trình sản xuất giấy
Quá trình sản xuất giấy, sử dụng bột giấy có được từ công đoạn trên đây (hoặcđược mua từ các nguồn khác) để sản xuất thành các loại giấy thành phẩm, đượctiến hành thông qua các giai đoạn chuẩn bị bột giấy và giai đoạn xử lý bằng hệthống tiếp cận và máy xeo Các giai đoạn này được tóm tắt thành sơ đồ khốitrong các Hình 1.2 và 1.3
Trong giai đoạn đầu, bột giấy được chuyển sang hệ thống chuẩn bị bột để đượcnghiền Bột giấy sau khi được nghiền sẽ có các thông số về đặc tính thích hợpvới loại bột định sản xuất như độ thoát nước, kích thước sơ sợi, Lúc đó, bộtgiấy sẽ được chuyển sang hệ thống tiếp cận và máy xeo
Tại hệ thống tiếp cận, bột giấy sẽ được làm sạch nhiều cấp Sau khi làm sạch,bột chuyển sang bộ phận sàng để sàng lấy những bột hợp cách, tiếp theo bột hợpcách được chuyển sang máy xeo để làm thành giấy thành phẩm và giấy thànhphẩm được chuyển sang khu vực hoàn thành để gia công thành các sản phẩmbán ra thị trường
3 Mục đích nghiên cứu
Mục tiêu nghiên cứu của bản luận văn này là xác định trong các nguyên vật liệuđưa vào sản xuất bột giấy hoặc sản xuất giấy những nguyên vật liệu nào có tácđộng ảnh hưởng chính đến quá trình sản xuất, từ đó có ảnh hưởng đến doanh thutrong hoạt động sản xuất kinh doanh của Tổng công ty Qua việc phân tích xử lý
số liệu, xem xét trong quá trình sản xuất của Tổng công ty có yếu tố nào là bấthợp lý trong việc phối hợp dùng các nguyên vật liệu để đưa ra các kiến nghị sửdụng định mức tiết kiệm nguyên vật liệu, giúp Tổng công ty xây dựng cácphương án điều hành hợp lý, có thể hạ giá thành sản xuất, hạ giá thành sản phẩm
và làm cho hoạt động kinh doanh của Tổng công ty có hiệu quả hơn
Trang 74 Mô tả số liệu
Nghiên cứu thực hiện trên bộ số liệu được thu thập tại nhà máy giấy Bãi Bằng
Số liệu được lấy từ nhà máy Giấy của Tổng công ty Số liệu trên được tổ chứcthành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổngcông ty trong ba năm 2006, 2007 và 2008 Mỗi tuần Tổng công ty sản xuất một
lô bột giấy và một lô giấy có thông số kỹ thuật khác nhau là bột giấy trắng cao,bột giấy trắng thấp, giấy trắng cao và giấy trắng thấp
Bảng 1.1 Danh sách các biến sử dụng trong quá trình phân tích
Quá trình sản xuất bột giấy Qúa trình sản xuất giấy
NlieuthoTB Nguyên liệu thô trung bình botgiaytb Khối lượng bột giấy trung bình (TB) TreTB Khối lượng tre trung bình botgiaytsxtb Khối lượng bột giấy tự sản xuất TB BodeTB Khối lượng bồ đề TB botngoaitb Khối lượng bột giấy ngoại TB BdanTB Khối lượng bạch đàn TB keoakdtb Khối lượng keo akd trung bình VoiTB Khối lượng vôi trung bình betonittb Khối lượng betonit trung bình CloTB Khối lượng Clo trung bình botdatb Khối lượng bột đá trung bình
H2O2TB Khối lượng H2O2 TB tinhbottb Khối lượng tinh bột trung bình Na2SO4TB Khối lượng Na2SO4 TB botbemattb Khối lượng bột bề mặt trung bình OxyTB Khối lượng Oxy trung bình chatbaoluutb Khối lượng chất bảo lưu trung bình CphabotTB Lượng chất phá bọt TB keopvatb Khối lượng Oxy trung bình
CPTNhuatTB Lượng chất phân tán nhựa
trung bình
phammautb Khối lượng phẩm màu trung bình CDCanTB Lượng chất đóng cặn TB tangtrangtb Khối lượng chất tăng độ trắng TB DienTB Khối lượng điện trung bình luoitrongtb Số lưới trong trung bình
HoiTB Khối lượng hơi trung bình luoingoaitb Số lưới ngoài trung bình
NuocTB Khối lượng nước TB luoidaitb Số lưới dài trung bình
XuTCTB Khối lượng xút trung bình chaf1tb Số chăn F1 trung bình
chaf2tb Số chăn F2 trung bình chaf3tb Số chăn F3 trung bình dientb Khối lượng điện trung bình hoitb Khối lượng hơi trung bình nuoctb Khối lượng nước trung bình
Trong các năm Tổng công ty đều có thời gian ngừng sản xuất để sửa chữa bảodưỡng máy móc nên số liệu thu được cụ thể là ở năm 2006 là 42 tuần tương ứngvới 42 lô bột giấy và 42 lô giấy Năm 2007 Tổng công ty sản xuất trong 47 tuầnứng với 47 lô bột giấy và 47 lô giấy Đối với năm 2008 số lô bột giấy và số lôgiấy đã sản xuất được đều là 48 lô Khối lượng sản phẩm của từng lô bột giấy
Trang 8hay từng lô giấy cũng không giống nhau Sau khi thu thập số liệu, để tiến hànhnghiên cứu phân tích số liệu đã có, chúng ta lấy số nguyên liệu đưa vào trongsản xuất từng lô bột giấy hay lô giấy chia cho sản lượng từng tuần để được sốnguyên vật liệu trung bình để sản xuất 1 tấn bột giấy hoặc 1 tấn giấy tương ứng.Các biến được sử dụng trong phân tích quá trình sản xuất 1 tấn bột giấy hoặc 1tấn giấy được cho trong Bảng 1.1.
5 Phương pháp phân tích
Trước hết, chúng ta sử dụng phương pháp nghiên cứu thành phần chính để xemtrong tổ hợp các nguyên liệu đưa vào sản xuất bột giấy và giấy, tìm ra nhữngyếu tố nào là yếu tố chi phối chủ đạo trong quá trình sản xuất
Tiếp theo, chúng ta sẽ tách riêng hai loại bột giấy và giấy có thông số kỹ thuậtkhác nhau là bột trắng cao, bột trắng thấp, giấy trắng cao, giấy trắng thấp và táchriêng từng năm, dùng phép kiểm định t – Student để so sánh giá trị trung bìnhcủa các nguyên liệu đầu vào xem có gì khác nhau hay không, từ đó tìm ra cácyếu tố chưa hợp lý trong quá trình sản xuất của Tổng công ty
Từ việc tìm ra những yếu tố chưa hợp lý trong quá trình sản xuất nói trên, chúng
ta sẽ đưa ra kiến nghị về tiêu chuẩn sử dụng các nguyên vật liệu để vừa đảm bảochất lượng cho quá trình sản xuất vừa tiết kiệm được nguyên vật liệu từ đó cóthể giúp Tổng công ty hạ giá thành sản xuất, hạ giá thành sản phẩm giúp hoạtđộng kinh doanh của Tổng công ty có hiệu quả hơn
Trong tính toán để đưa ra định mức kiến nghị đối với các chất phụ gia, khoảngtin cậy 95% của giá trị trung bình của từng chất phụ gia được dùng để xác địnhmức tối đa của từng chất phụ gia dùng sản xuất 1 tấn bột giấy hay 1 tấn giấy
Trang 9CHƯƠNG 2
CƠ SỞ LÝ THUYẾT CỦA CÁC PHƯƠNG PHÁP
PHÂN TÍCH THỐNG KÊ
I Phương pháp phân tích thành phần chính
1 Giới thiệu bài toán phân tích thành phần chính
Khi nghiên cứu tổng thể bao gồm các cá thể mang nhiều đặc trưng khác nhau,người ta có thể áp dụng hai cách tiếp cận gọi là phân tích dọc và phân tíchngang Phân tích dọc có mục đích chỉ ra các đặc tính hay dấu hiệu khác nhau tồntại trong tổng thể có quan hệ với nhau như thế nào, trong khi phân tích ngang lạinghiên cứu cá thểvới những dấu hiệu nói trên trong các mối quan hệ xét theotừng cặp hay trong những nhóm cá thể Hãy xét một thí dụ sau: Các doanhnghiệp vừa và nhỏ ở thành phố A thường được xem xét như những cá thể củamột tổng thể Để mô tả một doanh nghiệp người ta dùng 4 chỉ tiêu
- Giá trị tài sản cố định,
- Lượng lao động thường xuyên được sử dụng,
- Tỷ lệ lợi nhuận thô,
- Lương tháng bình quân của người lao động
Rõ ràng là hệ thống các chỉ tiêu này có thể dùng so sánh các doanh nghiệp và nó
có thể cho biết các quan hệ giữa chính các chỉ tiêu này trong phạm vi đang xét,chẳng hạn lượng lao động và giá trị tài sản cố định quan hệ chặt chẽ với nhau vàcùng chiều nhưng có thể giá trị tài sản cố định và lương bình quân quan hệ cũngrất chặt chẽ nhưng lại ngược chiều Điều đó có thể đúng với các doanh nghiệpvừa và nhỏ ở thành phố A mà không đúng với các doanh nghiệp vừa và nhỏ ởthành phố B
Về phía các doanh nghiệp, với những chỉ báo cụ thể nó trên người ta có thể vàrất muốn định vị các doanh nghiệp vừa và nhỏ thành phố A từ đó thấy được sựkhác biệt của mỗi doanh nghiệp so với doanh nghiệp khác
Trang 10Để làm được các phân tích trên người ta có thể có thể dùng các phương phápphân tích tương quan nhiều chiều, tuy nhiên điều đó hầu như không giải quyếtđược bằng các công cụ thông thường Việc giải quyết bài toán trên dựa trên tưtưởng cơ bản sau đây:
Mỗi cá thể coi như một phần tử của tổng thể (P) với số phần tử (M) hữu hạn hay
vô hạn, mỗi chỉ tiêu coi như một biến, một số đo hay một đặc trưng của cá thể
Mỗi cá thể được xác định bởi một véc tơ p chiều mà mỗi thành phần của véc tơ
đó là giá trị của một biến
Trong nghiên cứu tổng thể với các biến như trên, nhiều khi người ta cần tìm
cách tổ hợp của các biến, tức là tổ hợp p véc tơ M chiều, lại thành các véc tơ đôi
một trực giao Mỗi véc tơ này coi là một thành phần hay một biến mới, đo lườngcác cá thể trên một mặt nào đó Với số tổ hợp xác định trước, chúng ta thu đượcmột hệ thống chỉ báo (nói chung không có thực) Trong hệ thống này, mỗi chỉtiêu ban đầu, cũng là mỗi biến ban đầu, có phần đóng góp của mình tạo nên cácchỉ báo đó
Chẳng hạn với p tiêu thức (biến) ban đầu ta lập
Yk = uk1 X1 + uk2X2 + + ukpXp
Mỗi bộ số (véc tơ) uk xác định một biến yk và tương ứng với Yk ta có các giá trịtương ứng của các cá thể
Mỗi cá thể có thể được biểu diễn bởi một véc tơ mới mà mỗi thành phần của véc
tơ này là hệ số phân tích qua một biến mới (gọi là một thành phần chính) Nhờ
đó, ta có thể mô tả được quan hệ giữa các cá thể đó
Thí dụ Trong thí dụ này các thành phần chính sẽ không hình thành theo một tiêu
chuẩn khách quan mà hình thành theo ý tưởng chủ quan của người thiết kế.Trong Bảng 1.a là số liệu của 13 nước với các chỉ tiêu: P là tổng số dân (1000người), F là mật độ dân số (người/km2) và U là tỉ lệ dân thành thị
Trang 11B ng 1.a S dân, m t ảng 1.a Số dân, mật độ dân số và tỷ lệ dân thành thị ố dân, mật độ dân số và tỷ lệ dân thành thị ật độ dân số và tỷ lệ dân thành thị độ dân số và tỷ lệ dân thành thị dân s v t l dân th nh th ố dân, mật độ dân số và tỷ lệ dân thành thị à tỷ lệ dân thành thị ỷ lệ dân thành thị ệ dân thành thị à tỷ lệ dân thành thị ị
B ng 1.b Tr ng s xác nh các tiêu th c nhân kh u h c m i ảng 1.a Số dân, mật độ dân số và tỷ lệ dân thành thị ọng số xác định các tiêu thức nhân khẩu học mới ố dân, mật độ dân số và tỷ lệ dân thành thị đị ức nhân khẩu học mới ẩu học mới ọng số xác định các tiêu thức nhân khẩu học mới ới
Mỗi quốc gia được mô tả bởi 1 véc tơ 2 chiều S = [S(1), S(2)] với
S(1) = - 0,15P + 0,05F + 0,25US(2) = - 0,20P - 0,10F + 0,40UTrong không gian hai chiều (S1, S2) ta có thể mô tả các biến Mỗi biến tương
ứng là 1 véc tơ n chiều: P, F, U Để đánh giá mối quan hệ giữa các tiêu chuẩn
mới lập với các tiêu thức ban đầu, người ta tính các hệ số tương quan (rPS1,rPS2); (rFS1, rFS2) ; (rUS1, rUS2) Mỗi cặp hệ số này xác định 1 điểm trongsiêu phẳng tạo bởi S1 và S2 Với thí dụ này ta có vị trí của các biến P, F, U nhưtrong Hình 1.a
Trang 12B ng 1.c S li u nhân kh u h c theo các tiêu th c ban ảng 1.a Số dân, mật độ dân số và tỷ lệ dân thành thị ố dân, mật độ dân số và tỷ lệ dân thành thị ệ dân thành thị ẩu học mới ọng số xác định các tiêu thức nhân khẩu học mới ức nhân khẩu học mới đầu và tiêu thức mới u v tiêu th c m i à tỷ lệ dân thành thị ức nhân khẩu học mới ới
Với kết quả này ta giải thích ý nghĩa các véc tơ S1, S2 dễ dàng hơn Vì U nằmsát trục S1, còn F nằm gần trục S2, nên có thể xem S1 là tỉ lệ dân cư thành thị vàS2 là mật độ dân số Ở phần sau, khi đã được cung cấp đầy đủ hơn về cơ sở lýthuyết, chúng ta sẽ nói rõ thêm về cách phân tích đối với các thành phần chính
vÞ TRÝ C¸C BIÕN
U 0.60
0.40 0.20 0.00 -0.20 -0.40 -0.60 -0.80 -1.00 -1.20
0.5 -0.5
-1 -1.5
f
p
Hình 1.a Các biến ban đầu trong mặt phẳng xác định bởi hai tiêu thức mới
Trang 13Hình 1.b Các biến ban đầu trong mặt phẳng của hai tiêu thức mới do SPSS tạo ra
Kỹ thuật phân tích thành phần chính là một bộ phận của phân tích nhân tố Phântích nhân tố nói chung và phân tích thành phần chính nói riêng, được sử dụngcho phân tích những số liệu lớn Về mặt công cụ, đối với kỹ thuật này người tacần sử dụng các phép biến đổi trong không gian tuyến tính Đặc biệt, các kỹthuật liên quan đến véc tơ riêng và giá trị riêng của ma trận đối xứng xác địnhdương sẽ là công cụ yếu tố không thể thiếu trong việc xác định các thành phầnchính, các nhân tố chính cũng như các thành phần khác trong phương pháp này.Cũng chính vì lý do này, người ta chỉ có thể thực hiện các mô hình phân tíchnhân tố cho các bộ số liệu cỡ lớn khi có sự hỗ trợ của các phần mềm thống kêchuyên dụng
2 Bài toán phân tích nhân tố trong không gian 2 và 3 chiều
Hãy xem xét trường hợp có hai biến X và Y được quan sát trên n cá thể Phương
pháp thống kê toán học cung cấp lý thuyết phân tích tương quan để xem xét mốiquan hệ của hai biến ngẫu nhiên Mỗi cá thể Ai có thể mô tả bởi một điểm trong
R2 nhờ các tọa độ (x i , y i ) như trong các biểu đồ ở Hình 2.a.
Hình 2.a bên trái cho thấy sự khác nhau giữa hai đối tượng A1 và A2 có thể đặctrưng bằng khoảng cách d(A1,A2) giữa hai điểm A1 và A2 trên đồ thị Tuy
Trang 14nhiên khi chiếu vuông góc lên trục x (không quan tâm đến y) thì khoảng cách này gần hơn khi chiếu vuông góc lên trục y và cả hai khoảng cách sau phép
chiếu đề nhỏ hơn d(A1,A2), nói chính xác hơn là d2(A1A2) = d2(x1,x2) + d2 (y1,
y2) Nói một cách khác, khi chỉ dùng một yếu tố là x hoặc y để xem xét sự khác
biệt giữa hai đối tượng A1 và A2 thì một phần thông tin đã bị mất đi Nếu khôngmuốn mất thông tin thì tốt nhất là chọn một đường thẳng song song với đườngthẳng đi qua A1, A2 Khi chiếu vuông góc hai điểm này lên đường thẳng nhưvậy khoảng cách ảnh bằng khoảng cách ban đầu
z1
y1
A1
A2 y1
y2
A1
A2 y
y
x x2 w2 x1
w1 0
z2 y2
Hình 2.a Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng
Hình 2.a bên phải cũng cho kết luận tương tự, nhưng có thể chứng tỏ rằng theocác toạ độ ban đầu khi trục Ox không vuông góc với trục Oy thì
d2(A1A2)=d2(x1,x2)+d2(y1,y2)=d2(u1,u2)+d2(w1,w2) - 2 d2(u1,u2)(w1,w2)cosin(xOy)Như vậy nếu muốn phản ánh sát nhất liên hệ của hai cá thể A1 và A2, cần phảichọn một trục sao cho khoảng cách của các hình chiếu xấp xỉ tốt nhất khoảng
cách ban đầu Với n > 2 cá thể, ý tưởng trên dẫn đến yêu cầu bảo toàn tối đa sự khác biệt của các cá thể khi xét trên cả p tiêu thức.
Để có thể tưởng tượng rõ ràng hơn cách tiếp cận này chúng ta xét trường hợpcác cá thể trong không gian ba chiều R3 Giả sử mỗi cá thể được đặc trưng bởi 3tiêu thức X1, X2, X3 và xét hai cá thể Ai, Aj được mô tả bởi hai điểm trong R3
Trang 15Gọi 1 và 2 là hai đường thẳng trực giao tạo nên mặt phẳng (F), hãy xem xétphép chiếu trong Hình 2.b.
c1i c2j
c2i
(F)
c1j
Hình 2.b Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng
Khoảng cách của ảnh Ai, Aj sau phép chiếu là khoảng cách d2(fi, fj) Khoảngcách này có thể xác định như sau:
d2(fi, fj) = d2(c1i,c1j) + d2(c2i, c2j) <= d2 (Ai, Aj)Như vậy nếu chọn một trục để chiếu ta sẽ chọn trục nào có khoảng cách hai tọa
độ chiếu lớn hơn Tổng quát, đối với trường hợp có n điểm, ta cần chọn các trục
1, 2 sao cho trung bình của tổng bình phương các khoảng cách giữa các điểm
fi ảnh của Ai là lớn nhất
3 Bài toán trong không gian p chiều
Xét bài toán trong trường hợp mỗi cá thể có thể xem xét qua p chỉ tiêu Một hệ trục tọa độ của không gian p chiều gồm các trục: 1, 2,… p đôi một trực giao
có thể được hình thành nhờ việc chọn lần lượt các trục 1, 2 theo thứ tựgiảm dần của tổng bình phương các khoảng cách của các hình chiếu Việc lựachọn số chiều không gian chiếu phụ thuộc vào nhiều yếu tố khác nhau, như mức
phân tán trong các mối quan hệ của p tiêu thức ban đầu, yêu cầu về bảo toàn
thông tin,
Tuy vậy, với ý muốn quan sát được số liệu một cách trực quan, người ta có thể
cố gắng bảo toàn thông tin ở mức chấp nhận được với số chiều không gian nhỏ
Trang 16nhất Người ta luôn hướng tới tới không gian 2 chiều hay 3 chiều, vì trong cáckhông gian này việc mô tả hình học khá thuận tiện đối với người sử dụng.
Trong phân tích nhân tố người ta sử dụng các khái niệm sau:
+ Mỗi véc tơ i gọi là một trục chính của đám mây số liệu ban đầu.
+ Mỗi điểm Ai chiếu lên p trục chính sẽ có p giá trị tương ứng, các giá trị này lập nên véc tơ Ci trong không gian p chiều.
+ Với n cá thể (n điểm) Ai, Aj, An, ta có ma trận C = (cij) Mỗi cột của ma trận
này là một véc tơ trong R n , được gọi là một thành phần chính.
+ Mỗi thành phần chính Ck có thể biểu diễn qua các cột tương ứng với các tiêuthức ban đầu (Xi) dưới dạng: C k = u k1 X 1 + + u kp X p
Véc tơ các hệ số tổ hợp nối trên (U k ) được gọi là nhân tố chính thứ k.
Trường hợp bản thân các tiêu thức ban đầu hoàn toàn độc lập, phân tích nàycũng cho phép lựa chọn một không gian có số chiều ít hơn mà qua đó việc mô tảmối liên hệ của các cá thể bị sai lệch ít nhất Trong trường hợp các tiêu thức banđầu không độc lập, ta có kết quả tốt hơn rất nhiều, đó là tìm được cách diễn đạtmỗi cá thể qua các tiêu thức hoàn toàn độc lập với nhau
Tuy nhiên, khó khăn ở đây chính là ban đầu mỗi cá thể được thể hiện qua p tiêu thức quan sát được, nhưng kết quả mỗi cá thể thể hiện qua q tiêu thức không
quan sát được Việc xác định ý nghĩa kinh tế, xã hội của các tiêu thức này luônkhó khăn đối với người thực hành
Ngoài phương pháp phân tích thành phần chính, một sô phương pháp khác nhưphân tích tương ứng, phân tích tương quan chính tắc, phân nhóm, cũng đượcxây dựng trên ý tương cơ bản đã trình bày trên đây
4 Biểu diễn số liệu
Trước tiên ta đề cập tới việc biểu diễn số liệu trong các phân tích thống kê nhiềuchiều nói chung và trong phân tích nhân tố nói riêng Thông thường việc biểu
Trang 17diễn các số liệu nhiều chiều được trình bầy dưới ngôn ngữ véc tơ và ma trậntrong các không gian tuyến tính thực.
a Số liệu và các đặc trưng
i - Bảng số liệu
Giả sử có n quan sát (n cá thể lập nên 1 mẫu), mỗi quan sát có p tiêu thức (biến).
Số liệu đó có thể trình bầy trong bảng sau:
Gọi X* i là dòng thứ i của x với các phần tử xi1, xi2 xip Đó là véc tơ các giá trị
của các biến quan sát được ở cá thể thứ i Một dòng của X còn có thể gọi một cách ngắn gọn là một cá thể.
- Xj là là cột thứ j của X nó bao gồm các giá trị của một biến tại tất cả các cá thể Một cột của X có thể gọi là một biến hay một tiêu thức.
Như vậy, mỗi cá thể biểu hiện bằng một véc tơ dòng p chiều, mỗi tiêu thức thể hiện qua n cá thể bởi một véc tơ cột n chiều.
ii – Ma trận trọng số
Nếu như mỗi dòng của X tương ứng duy nhất 1 cá thể thì trọng số của các cá thể
như nhau và có thể lấy bằng 1/n Tuy nhiên, thực tế có thể một dòng của X ứng
với một số cá thể nào đó, như vậy để thể hiện đúng vai trò của đám đông trongphân tích thống kê ta có thể đặt cho mỗi dòng (mỗi cá thể đại diện) một trọng số
pi Các trọng số như vậy có thể mô tả bởi một ma trận gọi là ma trận trọng sốnhư sau:
p D
Trang 18Các trọng số này thông thường là các tần suất dòng trong bảng số liệu thô Mỗidòng chỉ mang thông tin của một cá thể thì có thể viết D = E trong đó E là ma
trận đơn vị cấp n.
iii - Điểm trung bình (trung tâm) của đám mây số liệu và ma trận quy tâm
Mỗi dòng của X có thể xem là một điểm trong không gian Rp, n điểm tạo nên một tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay điểm trung tâm của đám mây này là g thì g có thể tính như sau:
g = XTDI,trong đó I là véc tơ có tất cả các thành phần bằng 1 trong không gian Rn Dễ
dàng kiểm tra thấy g là một véc tơ p chiều Chẳng hạn cho ma trận X ở Bảng 2.a
với các biến
X1 = tuổi thọ trung bình
X2 = tỷ lệ tăng dân số
X3 = tỷ lệ chết trẻ em
X4 = GDP/đầu dân cư
B ng 2.a S li u nhân kh u h c theo các tiêu th c ban ảng 1.a Số dân, mật độ dân số và tỷ lệ dân thành thị ố dân, mật độ dân số và tỷ lệ dân thành thị ệ dân thành thị ẩu học mới ọng số xác định các tiêu thức nhân khẩu học mới ức nhân khẩu học mới đầu và tiêu thức mới u
Giả sử các số liệu này thống kê ở 10 nước khác nhau Ta chọn các trọng số đều
là 0,1 Véc tơ trung tâm của đám mây số liệu có các thành phần là trung bìnhcủa các thành phần trung bình của các quan sát Véc tơ chuyển vị của véc tơtrung tâm là
Trang 19iv – Ma trận hiệp phương sai và ma trận hệ số tương quan
Rõ ràng ma trận Y trên đây chưa cung cấp một đặc trưng rõ ràng về sự khác biệt giữa các đối tượng Một cách thông thường nếu Y chỉ có hai dòng thi khoảng
cách của hai véc tơ này (được định nghĩa theo một cách nào đó) sẽ cho một độ
Trang 20đo về sự khác biệt Trong trường hợp tổng quát hoàn toàn có thể làm tương tựnhư vậy, chỉ có khác là chúng ta không thể dùng một số thực để đo sự khác biệtgiữa nhiều cá thể mà phải dùng một ma trận Dễ dàng thấy việc đo sự khác biệt
giữa các dòng của ma trận Y hoàn toàn tương đương với việc tìm cách đo sự khác biệt của các dòng của X Sau đây trở lại với chính ma trận X và thấy rõ hơn vai trò của Y.
Đặc trưng quan trọng nói lên mức phân tán của mỗi biến và độ liên hệ giữachúng là ma trận hệ số tương quan và ma trận hiệp phương sai Các ma trận này
có thể tính như sau:
+ Ma trận hiệp phương sai
Với các trọng số 1/n ta có thể tính ma trận hiệp phương sai V theo công thức
Trang 21Gọi ma trận D1/S là ma trận đường chéo với các thành phần là 1/Se(Xj)=1/sj)
D1/s =
1 2
1/ 0 0
1/ 0
0
0
0 0 0
0
0 0 1/ p
s s
s
Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trận này dễ dàng tìm được các phương sai của các biến (các cột của X) Có thể chứng tỏ rằng:
V = XT D X- ggT = YT D X, Chuẩn hóa ma trận X ta có ma trận Z = (zij), trong đó
ij ij j
y z s
có thể nhận được ma trận này nhờ công thức:
Z = YD1/s
Nhờ các công thức trên ta có ma trận chuẩn hóa của ma trận X ở thí dụ trên là
Z =
2.33349 1.582081 2.520111 1.11664 0.355662 0.08913 0.37372 0.57746 0.355662 0.022283 0.34527 0.30947 0.789397 0.022283
0.70265 1.31469 0.355662 0.022283 0.268915 1.136424 1.55277 1.136424 0.615903 1.31469 0.442409
0.74561 1.684974 0.7578 1.945558 0.18269 0.64614 0.38591 0.174497 1.260157 1.11714 0.48142 0.018786 1.20327 0.50784 0.05696
Ma trận hệ số tương quan tuyến tính của các biến (R) được tính như sau:
R = D1/s VD1/s = ZTDZ
Và ma trận hệ số tương quan nhận được là
Trang 22R =
1.0000 0.7415 0.9904 0.6526 0.7415 1.0000 0.7226 5284 0.9904 0.7226 1.0000 0.6559 0.6526 0.5284 0.6559 1.0000
Các cá thể của tổng thể được mô tả bằng véc tơ với các thành phần là các giá trị
của p biến như đã nêu ở trên Ta sẽ coi mỗi cá thể như vậy là một điểm trong
không gian FP (với số chiều bằng p) Tập hợp một số các cá thể tạo nên một đám mây trong F với g là điểm trung tâm của đám mây này.
Để có thể phân tích thống kê đối với các đám mây trong F ta thống nhất một sốkhái niệm làm cơ sở phân tích sau này
a- Khoảng cách
Khoảng cách trong không gian tuyến tính thông thường được sử dụng là khoảngcách Ơcolit Thông thường người ta định nghĩa khoảng cách giữa 2 điểm X1 vàX2 theo công thức Pithagorre như sau:
d2 = (x11 – x21)2 + (x12 – x22)2 + + (x1j – x2j)2 + + (x1p – x2p)2
Tuy nhiên nếu như mỗi cột của X có một trọng số aj > 0 thì khoảng cách trên cóthể được tính bằng cách thêm các nhân tử tương ứng, tức là
d2 = a1(x11 – x21)2 + a2(x12 – x22)2 + + ai(x1j – x2j)2 + + ap(x1p – x2p)2,hay
d2 = (X1 – X2)T
1 2
Một cách tổng quát có thể chọn một ma trận đường chéo dương M và khoảng
cách hai điểm trong không gian được xác định theo công thức sau:
Trang 23d2 = (Xi – Xj)T M (Xi – Xj),
trong đó M là một ma trận đường chéo dương cấp p.
Trong trường hợp này tích vô hướng của hai véc tơ cũng xác định tương tự,
Trong phân tích thống kê nếu chỉ quan tâm đến độ phân tán của các biến, thì M
thường xác định qua ma trận hiệp phương sai Để có một độ đo khoảng cáchtheo nghĩa mức tương ứng, trong phân tích thành phần chính ta có thể sử dụng
ma trận M có đường chéo là nghịch đảo của các phương sai của các biến Điều
đó tương đương với việc chia tất cả các biến cho độ lệch tiêu chuẩn của nó.Cách làm này làm cho sự khác biệt về độ đo dùng cho các biến khác nhau khôngcòn nữa Ma trận hiệp phương sai của các biến đã biến đổi chính là ma trận hệ
số tương quan của các biến ban đầu Với cách tính này ta có
2 1 2
Chú ý rằng ma trận M được xác định như trên là một ma trận xác định dương
nên nó luôn tồn tại biểu diễn M = TTT là ma trận vuông cấp p Từ đó ta sẽ có
tích vô hướng được tính bằng
<Xi ; Xj> = XiTMXj = XiTTTTXj = (TXj)T (TXi)Biểu thức này cho thấy mối liên hệ giữa các độ đo trong không gian nhiều Với
độ đo M bất kỳ nhờ phép biến đổi trên ta có thể quy về độ đo M = E, đây chính
là độ đo Ơcơlit thông thường
c- Quán tính
Người ta gọi tổng quán tính của đám mây với tâm của nó là tổng các khoảngcách (đo bằng metric – M) từ các điểm đến tâm của đám mây đó Đại lượng nàyđược tính như sau:
Trang 24Theo công thức xác định ma trận hiệp phương sai, ta có thể tính tổng quán tính
Ig qua ma trận V và m như sau:
Trang 25Còn nếu ta chọn M = D1/S2 thì Ig = 4 Như vậy quán tính của một đám mây sốliệu không xác định một cách duy nhất, mà phụ thuộc vào metric được dùng để
đo khoảng cách giữa các điểm của đám mây Hệ quả của điều đó là các kết quảphân tích thành phần chính sẽ khác nhau nếu ta dùng ma trận hiệp phương sai và
ma trận hệ số tương quan để xác định hai metric khác nhau trong không gian cácquan sát
6 Tạo biến và phép chiếu trong không gian tuyến tính
a- Tạo biến mới
Trong không gian tuyến tính mỗi véc tơ n chiều là một tập hợp có thứ tự các hệ
số phân tích của chính véc tơ đó theo một hệ cơ sở đơn vị Tuy nhiên không gian
n chiều có vô số các hệ cơ sở (mỗi hệ n véc tơ độc lập tuyến tính là một cơ sở).
Như vậy một véc tơ Xj khác không bất kỳ có thể trở thành một véc tơ cơ sở của
một cơ sở nào đó Mặt khác cho trước một hệ p véc tơ của Rn ta luôn có thể tạo
ra các véc tơ khác nhờ tổ hợp tuyến tính từ hệ này Trong phân tích thống kê thì
mỗi cách tổ hợp như vậy tạo nên một thống kê từ một mẫu có kích thước p.
Thực chất của một thống kê là một cách tổng hợp thông tin, theo đó người ta cóđược những hiểu biết về tổng thể mà mỗi cá thể không thể hiện được
Trở lại với không gian cá thể F đã nói ở trên, ta có thể tạo nên những véc tơ mới
từ n véc tơ đã có nhờ các phép tổ hợp tuyến tính, mà theo đó các cá thể được
phản ánh tập trung hơn ở một khía cạnh nào đó Chẳng hạn khi xác định véc tơ
g (véc tơ trung bình mẫu hay véc tơ trung tâm) ta đã có một véc tơ mới mà từ đó
có thể mô tả cá thể nhờ khoảng cách từ nó đến g, hay nhờ véc tơ chỉ sự khác biệt
của mỗi cá thể với trung bình chung Tuy nhiên mục đích của chúng ta, như đã
nêu từ đầu, là tóm tắt thông tin p chiều thành thông tin có số chiều ít hơn Phép
chiếu từ Rp lên một siêu phẳng cho phép chúng ta tóm tắt thông tin như vậy.Biến mới được tạo ra ở đây là một tổ hợp tuyến tính của các biến ban đầu (các
cột của X), như vậy sự liên hệ của các biến ban đầu với biến được tạo mới chính
là các hệ số tổ hợp (hay ngược lại là các hệ số phân tích)
b- Phép chiếu.
Trang 26Với không gian các biến F, phép tổ hợp tuyến tính các véc tơ Xj (j = 1 p) tạo
nên các véc tơ mới trong F Với các véc tơ này các cá thể trong E Rp đượcbiểu diễn bằng các véc tơ mới trong E’ Rk (E’ thường có số nhiều nhỏ hơn Erất nhiều) Các véc tơ mới này chính là các hình chiếu của các véc tơ ban đầu
trên hệ tọa độ mới của F.
Chẳng hạn, nếu ta lấy tổ hợp tuyến tính của các cột trong X là:
Một điểm (một dòng của X) ứng với cá thể i: Xi* có ảnh qua phép chiếu (mà saunày được xác định là phép chiếu vuông góc) trên trục là fi Trên trục xác
định một véc tơ chỉ phương a có độ dài bằng 1 (theo metric nào đó), lúc đó Xi*
Trang 27tương ứng với một giá trị ci là khoảng cách từ gốc x đến fi Với n cá thể ta có n
giá trị c1, c2, , cn lập nên một véc tơ c (a) trong F Như vậy,
ci = aTM Xi* = Xi*TMa = <a, Xi*>M
Từ đó ta có c = X.M.a Đặt Ma = u, u là một véc tơ trong F, ta có c = Xu Véc
tơ c là hình chiếu của X trên u.
Nếu ký hiệu
u =
1 2
.
p
u u
cá thể) qua phép biến đổi XMa Có thể xác định tối đa p véc tơ đơn vị trong F (không gian p chiều) và tương ứng ta có một tập các véc tơ c là các tổ hợp tuyến tính khác nhau của các cột trong X Nhờ phép biến đổi này ta có thể chiếu các cá thể trong F (n cá thể) lên một không gian có số chiều ít hơn Điều đó cho phép
nhận diện rõ hơn các quan hệ giữa các cá thể này cũng như các chỉ tiêu, các biếnban đầu
Quan hệ của véc tơ chỉ phương a và véc tơ u có thể tóm tắt bằng biểu thức sau:
a = M-1u
Như vậy, theo metric M, bình phương độ dài của véc tơ a là aTMa, còn bình
phương độ dài của véc tơ u là uTM-1u Có thể tìm được phương sai của véc tơ c
như sau:
Var(c) = cTDc = (Xu)TD(Xu) = uTXTDXu = uTVu,
Trang 28trong đó V là ma trận hiệp phương sai của X Đây là biểu thức hết sức quan trọng, cho phép xác định được mức độ bảo tồn độ biến động của số liệu X sau một phép chiếu lên một trục ứng với véc tơ chỉ phương a (ảnh của phép chiếu được thể hiện qua véc tơ c).
7 Phân tích thành phần chính qua phép chiếu lên không gian con
Nội dung cơ bản của phân tích thành phần chính là tìm cách chiếu các điểm của
một đám mây n điểm trong không gian p chiều thành một đám mây n điểm trong không gian con r chiều (r < p) Phép chiếu này phải thực hiện sao cho quán tính
của đám mây ảnh là lớn nhất Như vậy, phép chiếu đảm bảo trung bình của tổngbình phương các khoảng cách của các điểm trong không gian con lớn nhất có
thể được Với phép chiếu P mỗi véc tơ dòng của X sẽ được biến đổi thành một véc tơ trong F r qua công thức
fi = P Xi* (một véc tơ cột) hay fiT = XiPT (một véc tơ dòng)
Ma trận hiệp phương sai của đám mây ảnh sẽ là
(XPT)TD(XPT = P V PT
Quán tính tổng của đám mây ảnh là
Trace(PVPTM)Nhờ một vài biến đổi ta có Trace(PVPTM) = Trace (VMP)
Vấn đề còn lại là tìm P sao cho với r cho trước, tức là tìm không gian chiếu F r,giá trị của Trace(VMP) lớn nhất Mệnh đề sau đã được chứng minh:
Mệnh đề 1 Cho không gian con Fr , có quán tính lớn nhất thì một không gian con r + 1 chiều có quán tính của đám mây ảnh lớn nhất bằng tổng trực giao của không gian F r và không gian 1 chiều, có quán tính của đám mây ảnh lớn nhất Với mệnh đề này thuật toán tìm không gian chiếu F r sẽ bắt đầu từ không gian
con một chiều F 1 có quán tính của đám mây ảnh lớn nhất.
a- Trục chính
Trong không gian F Rp các cá thể, ta phải tìm một đường thẳng đi qua g (véc
tơ trung tâm của đám mây số liệu) sao cho quán tính của đám mây ảnh (ảnh đám
Trang 29mây số liệu ban đầu) trên trục này lớn nhất Giả sử a là véc tơ chỉ phương của
đường thẳng nói trên, phép chiếu M vuông góc lên đường thẳng này xác địnhqua
P = a (a T M a) -1 a T M
Quán tính của đám mây ảnh sẽ là
TraceVMP = Trace VM a (a T Ma) -1 a T M
Trace a MVMa Trace VMaa M
Ma trận MVM được gọi là ma trận quán tính của đám mây, nó xác định một
dạng toàn phương mà giá trị của nó, đối với tất cả các véc tơ a có chuẩn (độ dài)
theo độ đo M bằng 1, biểu diễn quán tính của đám mây ảnh trên trục tạo bởi véc
tơ chỉ phương a Ma trận này là ma trận hiệp phương sai nếu M = E (ma trận
đơn vị)
Để tìm giá trị cực đại của quán tính nói trên ta có thể sử dụng công cụ quen biết,
theo đó, trước tiên điểm dừng phải thỏa mãn điều kiện đạo hàm bậc nhất theo a bằng không (mọi đạo hàm riêng bậc nhất theo các tọa độ a bằng không), tức là
a MVMa
a Ma
đặc trưng (hay còn gọi là giá trị riêng) của VM Giá trị riêng này lại chính là
quán tính của đám mây ảnh trên trục chứa véc tơ chỉ phương a.
Trang 30Vậy ta cần tìm a (trục thứ nhất) tương ứng với giá trị riêng lớn nhất Người ta
chứng minh được rằng tiêu chuẩn bậc 2 (điều kiện đủ) được thỏa mãn tại giá trịriêng này Từ đó ta có
Mệnh đề 2 Không gian r chiều (Fr ) có cơ sở là r véc tơ chỉ phương tương ứng với r giá trị riêng lớn nhất (theo thứ tự giảm dần) của ma trận VM.
Ta gọi các véc tơ riêng a của VM là các trục chính.
b Nhân tố chính
Như đã biết, một véc tơ riêng a tìm được tương ứng một dạng tuyến tính u (theo kết quả ở phần trên) Véc tơ u là một phần tử của không gian R* P, không gianđối ngẫu của không gian cá thể F Nó được xác định bởi một tổ hợp tuyến tínhcủa các cột trong X
Với trục chính a ta xác định một véc tơ u = Ma gọi là nhân tố chính Có thể thấy
u là véc tơ riêng của MV Thật vậy,
VMa = a, từ đó ta có: MVMa = Ma = u
Biểu thức này chứng tỏ u là véc tơ riêng của MV, và MV có cùng giá trị riêng .
Thực tế là RP xác định một độ đo (metric) M và không gian đối ngẫu của nó R*P
cũng được xác định một metric M-1 Trong đó uTM-1u = 1 (u là véc tơ có chuẩn bằng 1) Các véc tơ u lập nên các nhân tố chính M vuông góc.
c- Các thành phần chính
Véc tơ c là một tổ hợp tuyến tính các cột của X gọi là một thành phần chính của
X nếu c thỏa mãn một số tính chất nào đó về phương sai Một cách cụ thể tiêu chuẩn của c là phương sai của phép biến đổi tuyến tính đã nói ở trên lớn nhất.
Trở lại với phép chiếu đã nói ở trên, sau khi có các trục chính ta cũng có được
các nhân tố chính u i tương ứng Véc tơ các thành phần chính (c) là véc tơ nhận
được từ phép biến đổi (phép chiếu) X lên các trục u i ,
Ci = Xui
Có thể thấy các thành phần chính này có các đặc trưng như sau:
Trang 31V(Ci) = i (i = 1 r)Nếu gọi C là ma trận (chứa các cột như các biến mới) lập bởi các thành phầnchính thì ma trận hiệp phương sai của các thành phần chính đó là , ma trận chỉchứa các phần tử khác 0 trên đường chéo, có giá trị lần lượt bằng i (i = 1 r).
Có thể tóm tắt toàn bộ nội dung trên như sau:
Thành phân phân tích Phương trình xác định độ đo
b là số nghiệm của đa thức cấp p.
Trang 32Chẳng hạn, khi tìm trục chính ta cần giải phương trình VM a = a Phương trình này tương đương với phương trình (VM - E) a = 0 Phương trình trên có
nghiệm khác không khi và chỉ khi định thức VM - E = 0 Mặt khác, định
thức VM - E là một đa thức bậc p của Thông thường, đa thức này có p
nghiệm Hơn nữa, vì ma trận VM là một ma trận đối xứng xác định không âm,các nghiệm trên đều là các nghiệm thực, không âm
Theo các kết quả nói trên, để đám mây ảnh có quán tính lớn nhất thì trục chính
thứ nhất là véc tơ a ứng với giá trị riêng lớn nhất của ma trận VM Trục chính thứ hai là véctơ a ứng với giá trị riêng thứ 2 của ma trận VM, v.v.
Để minh họa một cách đơn giản cho tất cả các nội dung nói trên ta xét một thí dụnhỏ sau đây:
Hãy xét chỉ hai biến ở thí dụ đang xét ở phần trên, với
Trang 33Phương trình xác định là
48.1966 - 133.6956 + 2 = 0Nghiệm của phương trình này là
Nếu ta chọn 1 để chiếu các cá thể lên một trục, thì trục này có véc tơ chỉ
phương a xác định qua hệ phương trình
*a 0
Hình 3 Hình chiếu của quan sát lên trục chính
Chọn một điểm Xi (cá thể i) chiếu xuống u ta có hình chiếu f i) Các tọa độ của
10 cá thể trên trên u có thể tính theo công thức C = Xa, thu được
(44.02; 74.82; 74.83; 79.81; 78.74; 74.83; 73.89; 52.96; 77.74; 75.76)
Trang 34Trong trường hợp tổng quát, ta có thuật toán tìm các giá trị riêng như sau:
sẽ là trị riêng 1 tương ứng của véc tơ đó
Chú ý là thuật toán trên có thể cho ra hai véc tơ riêng trái chiều nhau y(1) củacùng một trị riêng 1 Lúc đó ta có thể lấy một trong hai véc tơ đó làm đại diệncho thành phần chính thứ nhất
+ Tìm k: Sau khi đã có cặp trị riêng và véc tơ riêng (k-1,y k-1), ta đặt
thuật việc tìm nghiệm của đa thức bậc p > 3 không phải là việc đơn giản, dù biết
chúng là các nghiệm thực đi chăng nữa Chính điều này làm cho người ta phảichờ đến những bước tiến vượt bậc của tin học Thủ thuật lặp vừa được trình bầyvới sự trợ giúp của máy tính sẽ giúp giải quyết vướng mắc trên đây
Về số thành phần chính, khi phân tích nhân tố nói chung người ta thường chọn
số thành phần tối thiểu theo mức giải thích đã xác định trước Phần tiếp theo ta
sẽ bàn kỹ hơn về vấn đề này
9 Tái hiện dữ liệu, phân tích và đánh giá kết quả
Trang 35a- Tái hiện dữ liệu
Khi tiến hành thủ tục phân tích thành phần chính, ta đã biến một đám mây thànhmột đám mây ảnh của nó trong các không gian có số chiều nhỏ hơn, với điềukiện tối đa hóa sự khác biệt của các cá thể (các điểm của đám mây ban đầu) Để
có thể đánh giá trở lại vai trò của các biến ban đầu ta cần tìm lại một số côngthức liên hệ ngược, các công thức này thực tế là các phép chiếu ngược của phépchiếu đã xét ở trên Nói như vậy hoàn toàn không có nghĩa là từ ảnh của mộtđám mây ta hoàn toàn có thể tìm lại chính đám mây đó một cách dễ dàng
j j j
p
T
j j j j
trong đó z j là các véctơ riêng của XXT và vjT là các véc tơ riêng của XTX
b- Tương quan của các thành phần chính và các biến ban đầu
Ta thấy nếu ban đầu có p biến hoàn toàn độc lập thì việc phân tích nhân tố bằng
phương pháp đã trình bày ở trên hoàn toàn không mang lại một chút ích lợi nào
Trang 36Thật vậy về mặt thống kê ta thấy khi ấy ma trận hệ số tương quan là một ma trậnđơn vị, mỗi véc tơ của X là một thành phần chính và hầu như chúng vuông gócvới nhau Lúc đó mỗi biến phản ánh một mặt độc lập của các cá thể và như vậykhông có gì phải phân tích, vì trong trường hợp này bỏ đi biến nào ta mất hoàntoàn thông tin các cá thể trong biến đó.
Trong thực tế ta thường gặp trường hợp ngược lại, khi các biến ban đầu khôngđộc lập với nhau Lúc đó mỗi thành phần chính không đại diện riêng cho mộtbiến ban đầu nào mà đại diện cùng một lúc cho nhiều biến với các mức độ khácnhau và ta có thể dùng hệ số tương quan của các thành phần chính với các biếnban đầu để xem xét tính đại diện đó Nếu các hệ số tương quan của một thànhphần chính với một số biến ban đầu có giá trị lớn thì thành phần chính này đạidiện cho các biến ban đầu đó ở một mức độ cao và thành phần chính ấy mang ýnghĩa chung của nhóm biến ban đầu đó
c- Lựa chọn số lượng thành phần chính để tái hiện dữ liệu
Mục tiêu của phương pháp phân tích thành phần chính là tìm được một khônggian có số chiều tương đối nhỏ sao cho viện tái hiện dữ liệu trên không gian con
đó bảo toàn được thông tin nhiều nhất có thể được Như trên đã nói, nếu cácbiến ban đầu hoàn toàn độc lập với nhau thì việc tiến hành phân tích thành phầnchính sẽ không có ý nghĩa, vì bỏ bớt đi biến nào thì khi tái hiện dữ liệu sẽ bị mấthẳn phần thông tin do biến đó cung cấp
Tình hình cũng hoàn toàn tương tự, nếu các biến ban đầu không độc lập, songcác thành phần chính lại chứa đựng lượng thông tin xấp xỉ như nhau, vì ta sẽmất một lượng thông tin đáng kể khi bỏ bớt đi nhiều thành phần chính phía sau
Do vậy, việc tiến hành phân tích thành phần chính chỉ có ý nghĩa khi một số ítthành phần chính đầu tiên chứa đựng lượng thông tin vượt trội hẳn so với cácthành phần chính còn lại Lượng thông tin được nói đến đây được thể hiện bằnggiá trị của phương sai hấp thụ trên trục chính ứng với mỗi thành phần chính,chính bằng trị riêng ứng với véc tơ riêng xác định thành phần chính đó
Trang 37Như vậy, để xác định số lượng thành phần chính được sử dụng tái tạo lại dữliệu, ta có thể dùng đồ thị so sánh các trị riêng ứng với các thành phần chính,chọn các thành phần chính đầu tiên có trị riêng tương ứng lớn hơn hẳn so vớicác thành phần chính phía sau để tiến hành phân tích tiếp.
II Uớc lượng tham số
Trong phần này ta xét bài toán ước lượng tham số, một trong những bài toánquan trọng và có nhiều ứng dụng của thống kê toán
Bài toán: Cho biến ngẫu nhiên X với tham số chưa biết, dựa vào thông tin mẫu
(X 1 , X 2 , … X n ) hãy ước lượng tham số
1 Ước lượng điểm
Thống kê (hàm đa biến) *
1 2
( , , , n)
được gọi là ước lượng điểm cho Với mẫu cụ thể (x 1 , x 2 , … xn), giá trị củathống kê *
là * ( 1, 2, )
n
x x x G
n
điểm cho: E ( X) Giá trị cụ thể của ước lượng điểm này làx
2 Ước lượng khoảng
Trong phần trên ta nói đến việc tìm ước lượng điểm cho tham số dựa vào dữ liệumẫu Tuy nhiên, vấn đề quan trọng là làm thế nào để đánh giá được chất lượngcủa một ước lượng thu được trong khi ước lượng điểm khó cho ta một kết luậnchính xác về độ sai lệch giữa tham số và ước lượng điểm của nó Trong mục này
ta sẽ đưa ra một cách tiếp cận khác để ước lượng tham số đó là ước lượngkhoảng Phương pháp này được sử dụng rộng rãi khi tiến hành các phép kiểmđịnh trong các lĩnh vực khoa học, kỹ thuật, kinh tế
a Khái niệm
Trang 38Khoảng với hai đầu mút ngẫu nhiên L;U L(X1,X2, X n);U(X1,X2, X n)
được gọi là ước lượng khoảng (hai phía) cho tham số với độ tin cậy 1 nếu
Với mẫu cụ thể (x 1 ,x 2 ,…,x n ) giá trị của khoảng ước lượng cho là
* Đối với khoảng ước lượng hai phía: (l;u) L(x1,x2, ,x n);U(x1,x2, ,x n)
* Đối với khoảng ước lượng phía trái: ( ;l ) L x x( , , , );1 2 x n
* Đối với khoảng ước lượng phía phải: ( ;u) ;U(x1,x2, ,x n)
Hiệu u- l của khoảng ước lượng hai phía được gọi là độ chính xác của ước
lượng
b Ước lượng khoảng cho kỳ vọng của biến ngẫu nhiên phân phối chuẩn
Cho biến ngẫu nhiên X ~ ( ,N 2 ) với tham số chưa biết và mẫu ngẫu nhiên (X 1 ,
X 2 ,…,X n ) có giá trị cụ thể (x 1 ,x 2 ,…,x n) Ta cần tìm ước lượng khoảng cho tham
Trang 39Trong đó phân vị u/ 2 thoả mãn 0 (u/ 2 ) 1 / 2 Tra bảng phân phối chuẩn
Tương tự ta có các khoảng ước lượng một phía của là
- Ước lượng giá trị tối thiểu,
trong đó 0(u) 1 , tra bảng phân phối chuẩn ta tìm được u
- Ước lượng giá trị tối đa,
n S
X
T '
Người ta chứng minh được rằng thống kê này có phân phối Student với n-1 bậc
tự do Lúc đó, với độ tin cậy 1 ta tìm được điểm phân vị 1
2 /
Trang 40n
t được tìm từ bảng phân phối Student
Vậy với mẫu cụ thể ta có khoảng ước lượng hai phía cho là
Tương tự ta có các khoảng ước lượng một phía là:
- Ước lượng giá trị tối thiểu,
với phân vị tn 1 được tìm từ bảng phân phối Student
- Ước lượng giá trị tối đa
1'
n