Phần này đề cập Phân tích thành phần chính (PCA - Principal Component Analysis). Nĩ là gì? Đĩ là một cách xác định các mẫu trong dữ liệu, và thể hiện dữ liệu theo cách nhƣ vậy là để làm nổi bật tƣơng đồng và khác biệt của họ. Kể từ khi mẫu trong dữ liệu cĩ thể đƣợc khĩ khăn để tìm thấy trong dữ liệu nhiều chiều, mà thể hiện đồ họa khơng cĩ sẵn, PCA là một cơng cụ mạnh để phân tích dữ liệu.
Trong lĩnh vực nghiên cứu về khai phá dữ liệu nĩi trung cũng nhƣ trong nghiên cứu về các thuật tốn phân lớp nĩi riêng, vấn đề xử lý dữ liệu lớn ngày càng trở nên cấp thiết và đĩng vai trị chủ đạo trong việc giải quyết các bài tốn thực tế. Phần lớn các thuật tốn phân lớp đã đƣợc phát triển chỉ cĩ thể giải quyết với lƣợng số liệu giới hạn cũng nhƣ với một độ phức tạp dữ liệu biết trƣớc. Trong khi đĩ lƣợng dữ liệu chúng ta thu thập đƣợc ngày càng phong phú đa dạng nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật. Mặc dù rất nhiều kỹ thuật khai phá dữ liệu dựa trên các nền tảng lý thuyết khác nhau đã đƣợc phát triển và ứng dụng từ rất lâu nhƣng thực tế cho thấy kết quả phụ thuộc vào rất nhiều đặc tính của dữ liệu cũng nhƣ khả năng xử lý dữ liệu thơ của từng nhĩm nghiên cứu. Một điều hiển nhiên là mỗi phƣơng pháp chỉ cĩ thể đáp ứng và xử lý tốt trên một vài dữ liệu và ứng dụng cụ thể nào đĩ. Trong khai phá dữ liệu thì phƣơng pháp trích chọn đĩng vai trị quan trọng trong tiền xử lý dữ liệu. Hƣớng tiếp cận này làm tăng hiệu quả thu thập dữ liệu trong các ngành nhƣ tin sinh, xử lý dữ liệu web, xử lý tiếng nĩi, hình ảnh với đặc tính là cĩ rất nhiều thuộc tính (vài trăm cho đến vài nghìn thuộc tính) nhƣng thƣờng chỉ cĩ một số lƣợng tƣơng đối nhỏ các mẫu dung để huấn luyện (thƣờng là vài trăm). Phƣơng pháp trích chọn là giảm kích cỡ của khơng gian dữ liệu, loại bỏ các thuộc tính khơng liên quan và các thuộc tính gây nhiễu. Phƣơng pháp này cĩ ảnh hƣởng ngay trực tiếp đến các ứng dụng nhƣ làm tăng tốc độ của thuật tốn khai phá dữ liệu, cải thiện chất lƣợng dữ liệu và vì vậy làm tăng hiệu xuất khai phá dữ liệu, kiểm sốt kết quả của thuật tốn. Phân tích các thành phần cơ bản PCA là một phƣơng pháp khá nổi tiếng trong quá trình làm giảm thuộc tính của dữ liệu đầu vào gần đây phƣơng pháp hàm nhân đƣợc áp dụng để cĩ thể ứng dụng PCA giải quyết
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
các bài tốn phi tuyến tính. Về cơ bản việc trích chọn nội dung (bĩc tách thuộc tính) đặc trƣng gồm hai phần xây dựng thuộc tính và trích chọn đặc trƣng. Xây dựng các bộ thuộc tính là cơng việc quan trọng trong việc xử lý dữ liệu. Khi xây dựng số liệu phải đảm bảo khơng bị mất quá nhiều thơng tin cũng nhƣ khơng quá tốn kém về mặt chi phí. Phần thứ hai là mục tiêu tìm ra những thơng tin đại diện cho đối tƣợng, loại bỏ thơng tin thừa gây nhiễu nhằm tăng hiệu suất của thuật tốn khai phá dữ liệu. Cĩ nhiều phƣơng pháp và hƣớng tiếp cận khác nhau nhƣng chúng cĩ chung các yêu cầu sau:
+ Giảm dữ liệu cần lƣu trữ, tăng tốc độ thuật tốn (tính tốn trên dữ liệu đĩ). + Gảm bộ thuộc tính nhằm tiết kiệm khơng gian lƣu trữ.
+ Tăng cƣờng hiệu quả thuật tốn nhằm thu đƣợc tỉ lệ dự đốn cao hơn. + Cĩ tri thức về dữ liệu: thu đƣợc các tri thức về dữ liệu thơng qua phƣơng pháp bĩc tách dữ liệu để cĩ thể tạo ra hay biểu diễn dữ liệu dễ dàng hơn.
Để thực hiện đƣợc các thuật tốn trích chọn cần thực hiện một số cơng việc sau: + Phƣơng pháp để sinh ra thuộc tính đặc trƣng ( cĩ thể hiểu tƣơng ứng với các chiến lƣợc tìm kiếm)
+ Định nghĩa hàm đánh giá (đƣa ra các tiêu chí để xác định các thuộc tính hay nhĩm thuộc tính là tốt hay khơng tốt)
+ Ƣớc lƣợng hàm đánh giá đĩ (kiểm chứng lại xem hàm đánh giá cĩ thực sự phù hợp và cĩ hiệu quả với bộ dữ liệu khơng)
Các lợi thế chính khác của PCA là một khi ngƣời ta đã tìm thấy những mơ hình trong dữ liệu, và nén dữ liệu, tức là. bằng cách giảm số lƣợng kích thƣớc, mà khơng cần nhiều mất thơng tin. Kỹ thuật này đƣợc sử dụng trong nén hình ảnh, nhƣ chúng ta sẽ thấy sau.
Phần này sẽ qua các bƣớc ngƣời ta cần thực hiện Phân tích các thành phần trên một tập hợp các dữ liệu. Sẽ khơng để mơ tả chính xác lý do tại sao về kỹ thuật,
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nhƣng sẽ cố gắng cung cấp một lời giải thích về những gì đang xảy ra tại mỗi điểm để cĩ thể đƣa ra quyết định thơng báo khi ngƣời ta cố gắng sử dụng kỹ thuật này.
Bƣớc 1: Nhận đƣợc một số dữ liệu
Trong ví dụ đơn giản, sẽ sử dụng đƣợc tập hợp dữ liệu của ta. Nĩ chỉ cĩ 2 chiều; lý do tại sao ta đã chọn là cung cấp lơ dữ liệu để hiển thị những gì phân tích PCA đang làm ở mỗi bƣớc.
Hình 2.4. Dữ liệu thí dụ cho PCA
Trong hình, dữ liệu gốc ở bên trái, dữ liệu với trung bình đã trừ ở bên phải.
Bước 2. Trừ các trung bình
Đối với PCA để làm việc đúng, ngƣời ta phải trừ đi giá trị trung bình từ mỗi của các kích thƣớc dữ liệu. Cĩ nghĩa là trừ là mức trung bình trên mỗi kích thƣớc. Vì vậy, tất cả giá trị x cĩ x đã trừ (tức trung bình của các giá trị x của các điểm dữ liệu), và các giá trị y cĩ y đã đƣợc trừ.. Việc này sinh ra tập dữ liệu với trung bình là 0.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Bước 3: Tính tốn ma trận hiệp phƣơng sai
Điều này đƣợc thực hiện trong cách chính xác tƣơng tự nhƣ đã đƣợc trình bày trong phần về các phƣơng pháp thống kê. Do chiều dữ liệu là 2, neen ma trận hiệp phƣơng sai là 2x2. ta cĩ :
Vậy, do các phần tử khơng trên đƣờng chéo của ma trận hiệp phƣơng sai là dƣơng, ngƣời ta thấy các biến x, y cùng tăng.
Bƣớc 4: Tính tốn các vector riêng và giá trị riêng của các ma trận hiệp phƣơng sai
Do ma trận hiệp phƣơng sai là hình vuơng, chúng ta cĩ thể tính tốn các vector riêng và giá trị riêng ma trận này. Đây là khá quan trọng, vì họ cho chúng ta biết thơng tin hữu ích về dữ liệu của chúng ta. Hiện tại, ở đây là các vector riêng và giá trị riêng:
Điều quan trọng là thơng báo rằng các vector riêng là vector riêng đơn vị, tức chiều dài bằng 1. Điều này là rất quan trọng đối với PCA, nhƣng may mắn thay, hầu hết các phần mềm, khi yêu cầu vector riêng, ngƣời ta cĩ vector riêng đơn vị.
Bƣớc 5: Chọn các thành phần và hình thành một vector đặc trƣng
Đây là nơi mà khái niệm về nén dữ liệu và chiều giảm đi vào nĩ. Nếu nhìn vào các vector riêng và giá trị riêng phần trƣớc, ngƣời ta sẽ nhận thấy rằng các giá trị riêng là những giá trị hồn tồn khác nhau. Trong thực tế, vector riêng với các giá trị riêng cao nhất là thành phần chính của bộ dữ liệu.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 2.5. Đƣờng dữ liệu chuẩn hố (đã trừ trung bình)
Trong ví dụ của chúng ta, vector riêng với giá trị riêng lớn nhất là cái trỏ đến tâm của dữ liệu. Đố là điều cĩ ý nghĩa nhất trong các chiều dữ liệu.
Nĩi chung, các vector riêng một lần đƣợc tìm thấy từ các ma trận hiệp phƣơng sai, bƣớc tiếp theo là để sắp xếp chúng theo giá trị riêng, cao nhất đến thấp nhất. Điều này cung cấp cho ngƣời ta các thành phần trong để cĩ ý nghĩa. Bây giờ, nếu cĩ thể quyết định bỏ qua các thành phần của ít ý nghĩa. Ngƣời ta sẽ mất một số thơng tin, nhƣng nếu các giá trị riêng là nhỏ, ngƣời ta khơng bị mất nhiều. Nếu ngƣời ta bỏ qua một số thành phần, thiết lập các dữ liệu cuối cùng sẽ cĩ ít kích thƣớc so với bản gốc. Để đƣợc chính xác, nếu ngƣời ta ban đầu cĩ kích thƣớc n chiều dữ liệu, cần tính n vector riêng và giá trị riêng, và sau đĩ ngƣời ta chọn chỉ p vector riêng đầu tiên, sau đĩ thiết lập các dữ liệu cuối cùng đã chỉ cĩ p chiều.
Khi cĩ 2 vector riêng, ngƣời ta cĩ hai lựa chọn. Ngƣời ta cĩ thể tạo vector đặc trƣng với 2 vector riêng :
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hay ngƣời ta cĩ thể chọn bỏ đi cái nhỏ hơn, ít cĩ ý nghĩa, để chỉ giữ lại cột đơn :
Bƣớc 6: Thu đƣợc các dữ liệu mới
Đây là bƣớc cuối cùng trong PCA, và cũng là dễ nhất. Một khi chúng ta đã lựa chọn các thành phần (Vector riêng) mà chúng ta muốn giữ lại trong dữ liệu của chúng ta và hình thành một vector tính năng, chúng ta chỉ đơn giản là cĩ những chuyển vector và nhân nĩ trên bên trái của tập dữ liệu ban đầu đã chuyển vị:
Một số thao tác đƣợc thực hiện để lấy lại dữ liệu ban đầu nếu ngƣời ta thấy cần thiết.
2.8. Kết luận
Chƣơng 2 đề cập một số phƣơng pháp xử lí dữ liệu dựa trên các tính tốn thơng kê. Đích ban đầu đặt ra đối với luận văn là áp dụng kiến thức về PCA để phát hiện các yếu tố chính ảnh hƣởng đến cơng tác đào tạo, huấn luyện và quản lý đào tạo tại Trung tâm Giáo dục thƣờng xuyên tỉnh Yên Bái. Tuy nhiên do dữ liệu khơng đƣợc nhiều, vấn đề đặt ra khơng quá phức tạp, chƣơng 2 chỉ liệt kê một số phƣơng pháp một cách hệ thống để cĩ thể sử dụng trong thời gian tới.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
CHƢƠNG 3. KHAI PHÁ DỮ LIỆU TẠI TRUNG TÂM
Chƣơng này trình bày ứng dụng phƣơng pháp khai phá dữ liệu để trích rút thơng tin mới, tức tri thức trên tập dữ liệu về đào tạo tại Trung tâm Giáo dục thƣờng xuyên tỉnh Yên Bái.