Phân tích giá trị kì dị (Singular value decomposition - SVD) có thể
đƣợc nhìn vào từ ba quan điểm sau [34]:
- Thứ nhất, chúng ta có thể coi nó nhƣ là một phƣơng pháp để biến
đổi các biến có tƣơng quan thành một tập hợp các biến không tƣơng quan, biểu đạt tốt hơn mối quan hệ khác nhau giữa các phần tử dữ liệu gốc.
- Thứ hai, SVD cũng là một phƣơng pháp để xác định và sắp xếp các
chiều véc tơ mà theo đó các dữ liệu có sự chênh lệch nhiều nhất. Điều này liên quan đến góc nhìn thứ ba về SVD.
- Thứ ba, đó là một khi chúng ta đã xác định sự chênh lệch lớn nhất ở
đâu, SVD có thể tìm thấy xấp xỉ tốt nhất của các điểm dữ liệu ban đầu bằng cách sử dụng kích thƣớc ít hơn. Do đó, SVD có thể đƣợc xem nhƣ là một phƣơng pháp để giảm số chiều dữ liệu.
Phƣơng pháp SVD dựa trên định lý sau đây trong đại số tuyến tính: bất kỳ ma trận A kích thƣớc MxN nào mà có M>=N , có thể đƣợc viết dƣới
ma trận chéo W có kích thƣớc NxN với các số trên đƣờng chéo là không âm,
và ma trận chuyển vị của một ma trận trực giao V có kích thƣớc NxN:
Ma trận U và ma trận V trực giao theo nghĩa: các cột của chúng là trực
giao:
trong đó δkn=1 nếu k=n và bằng 0 nếu k # n. Hoặc biểu diễn dƣới dạng
ma trận:
Vì V là ma trận vuông nên V đồng thời là ma trận trực giao theo hàng:
V.VT=1.
Các giá trị wi đƣợc gọi là các giá trị kỳ dị của A. Không mất tính tổng quát, chúng ta quy ƣớc rằng các giá trị kỳ dị này đƣợc sắp xếp theo thứ tự
giảm dần: w1>= w2>= …>= wn>= 0.
Trong chƣơng này đã tìm hiểu các kiến thức về xác suất, các mô hình học, các thuật toán, các phƣơng pháp sử dụng trong luận văn, tiếp theo chƣơng sau sẽ trình bày ứng dụng của chúng trong các tiếp cận học máy không có hƣớng dẫn cho bài toán gán nhãn từ loại để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này.
Chƣơng 3 - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHÔNG CÓ HƢỚNG DẪN CHO GÁN NHÃN TỪ LOẠI
Có nhiều chiến lƣợc thiết kế để gán nhãn cho một ngôn ngữ cụ thể, dựa trên luật, xác suất, lai các chiến lƣợc. Trong chƣơng này sẽ tập trung vào thảo luận các hƣớng tiếp cận không có hƣớng dẫn, ví dụ tìm các xác suất gán nhãn từ văn bản chƣa gán nhãn. Điều này có thể làm với bất kỳ ngôn ngữ nào vì nó không đòi hỏi một lƣợng lớn văn bản đã gán nhãn (dữ liệu huấn luyện có hƣớng dẫn) hoặc một danh sách đầy đủ các quy tắc mã hoá bằng tay. Chú ý rằng một lƣợng nhỏ dữ liệu huấn luyện vẫn đƣợc sử dụng trong một số phƣơng pháp tiếp cận không hƣớng dẫn.
Một thủ tục gán nhãn nhƣ vậy làm nhiệm vụ tìm kiếm một cấu trúc ẩn (các nhãn từ loại) trong dữ liệu quan sát đƣợc (văn bản chƣa gán nhãn) bằng cách ƣớc lƣợng các tham số mô hình. [Ankit K Srivastava] đã tổng kết năm cách tiếp cận không hƣớng dẫn cho Gán nhãn từ loại [6]. Năm tiếp cận này đƣợc phân loại trên cơ sở của những kỹ thuật ƣớc lƣợng tham số.
Năm tiếp cận đó là: (1) Cực đại hoá kỳ vọng (Expectation – Maximization EM), (2) Phân cụm (Clustering), (3) Nguyên mẫu (Prototypes), (4) Liên ngữ (Cross – lingual), (5) và bayes (Bayesian). Trong khuôn khổ luận văn này ta sẽ tìm hiểu hai tiếp cận (1) và (2).