Loại động cơ (motivation) thứ nhất.

Trong nhiều ứng dụng ta thường phải làm phép tính sau đây: cho trước một ma trận A và nhiều vectors x, tính với nhiều giá trị khác nhau của số mũ . Ví dụ 1: nếu A là ma trận của một phép biến đổi tuyến tính (linear transformation) nào đó, như phép quay và co dãn trong computer graphics chẳng hạn, thì cho ra kết quả của phép BĐTT này áp dụng k lần vào x. Các games máy tính hay các annimations trong phim của Hollywood có vô vàn các phép biến đổi kiểu này. Mỗi một object trong computer graphics là một bộ rất nhiều các vector x. Quay một object nhiều lần là làm phép nhân với từng vectors x biểu diễn object đó. Khối lượng tính toán là khổng lồ, dù chỉ trong không gian 3 chiều. Ví dụ 2: nếu A là transition matrix của một chuỗi Markov rời rạc và x là distribution của trạng thái hiện tại, thì chính là distribution của chuỗi Markov sau k bước. Ví dụ 3: các phương trình sai phân (difference equation) như kiểu phương trình cũng có thể được viết thành dạng để tính với k tùy ý. Ví dụ 4: lũy thừa của một ma trận xuất hiện tự nhiên khi giải các phương trình vi phân, xuất hiện trong khai triển Taylor của ma trận chẳng hạn.

Tóm lại, trong rất nhiều ứng dụng thì ta cần tính toán rất nhanh lũy thừa của một ma trận vuông, hoặc lũy thừa nhân một vector.

Mỗi ma trận vuông đại diện cho một phép BĐTT nào đó. Lũy thừa bậc k của ma trận đại diện cho phép biến đổi này áp dụng k lần. Ngược lại, bất kỳ phép BĐTT nào cũng có thể được đại diện bằng một ma trận. Có rất nhiều ma trận đại diện cho cùng một BĐTT, tùy theo ta chọn hệ cơ sở nào. Mỗi khi ta viết một vector dưới dạng là ta đã ngầm định một hệ cơ sở nào đó, thường là hệ cơ sở trực chuẩn , , và . Các tọa độ 3, -2, 5 của x là tương ứng với tọa độ của x trong hệ cơ sở ngầm định này.

Hệ cơ sở như trên thường được dùng vì ta “dễ” hình dùng chúng trong không gian n chiều, chúng là sản phẩm phụ của hệ tọa đồ Descartes cổ điển hay dùng trong không gian 2 chiều. Tuy nhiên, khi áp dụng một phép BĐTT thì các vectors

thường cũng bị biến đổi theo luôn, rất bất tiện nếu ta phải tính cho nhiều giá trị k và x khác nhau.

Bây giờ, giả sử ta tìm được hướng độc lập tuyến tính và bất biến qua phép BĐTT đại diện bởi A. (Đây là giả sử rất mạnh, may mà nó lại thường đúng trong các ứng dụng kể trên.) Dùng vector để biểu diễn hướng thứ . Bất biến có nghĩa là áp dụng A vào hướng nọ thì hướng không đổi. Cụ thể hơn, BĐTT A làm hướng “bất biến” nếu với là một con số (scalar) thực hoặc phức nào đó (dù ta giả sử A là thực). Do các hướng này độc lập tuyến tính, một vector x bất kỳ đều viết được dưới dạng

Nếu ta lấy làm hệ cơ sở thỡ cỏi hay là cú ỏp dụng A bao nhiờu lần thỡ cũng khụng đổi hướng của cỏc vectors trong hệ cơ sở! Điều này rất tiện lợi, bởi vỡ

Như vậy, thay vỡ tớnh lũy thừa bậc cao của một ma trận, ta chỉ cần tớnh lũy thừa của n con số và làm một phộp cộng vectors đơn giản. Cỏc giỏ trị là cỏc trị đặc trưng (eigenvalues) của A, và cỏc vectors là cỏc vector đặc trưng (eigenvectors).

Tiếp tục với giả thiết rất mạnh là n eigenvectors độc lập tuyến tính với nhau. Nếu ta bỏ các vectors này vào các cột của một ma trận , và các eigenvalues lên đường chéo của một ma trận thì ta có . Trong trường hợp này ma trận A có tính diagonalizable (chéo hóa được). Diagonalizability và sự độc lập tuyến tính của n eigenvectors là hai thuộc tính tương đương của một ma trận. Ngược lại, ta cũng có , và vì thế lũy thừa của A rất dễ tính: do lũy thừa của một ma trận đường chéo rất dễ tính.

Cụm từ “khả năng đường chéo hóa được” (diagonalizability) nghe ghê răng quá, có bạn nào biết tiếng Việt là gì không?

Nếu ta biết được các eigenvectors và eigenvalues của một ma trận thì — ngoài việc tính lũy thừa của ma trận — ta còn dùng chúng vào rất nhiều việc khác, tùy theo ứng dụng ta đang xét. Ví dụ: tích các eigenvalues bằng với định thức, tổng bằng với trace, khoảng cách giữa eigenvalue lớn nhất và lớn nhì của transition matrix của một chuỗi Markov đo tốc độ hội tụ đến equilibrium (mixing rate) và eigenvector đầu tiên là steady state distribution, vân vân.

Quay lại với cái “giả thiết rất mạnh” ở trên. Có một loại ma trận mà giả thiết này đúng; và hơn thế nữa, ta có thể tìm được các eigenvectors vuông góc nhau, đó là các normal matrices. Rất nhiều ứng dụng trong khoa học và kỹ thuật cho ta các normal matrices. Các trường hợp đặc biệt thường thấy là các ma trận (thực) đối xứng và các ma trận Hermitian (đối xứng theo nghĩa phức).

Còn các ma trận không thỏa mãn “giả thiết rất mạnh” này, nghĩa là không diagonalizable, thì làm gì với chúng? Ta có thể tìm cách làm cho chúng rất “gần” với một ma trận đường chéo bằng cách viết chúng thành dạng chuẩn Jordan. Đề tài này nằm ngoài phạm vi bài đang viết.