Phân tích giá trị kì dị (Singular value decomposition - SVD) có thể đƣợc nhìn vào từ ba quan điểm sau [34]:
- Thứ nhất, chúng ta có thể coi nó nhƣ là một phƣơng pháp để biến đổi các biến có tƣơng quan thành một tập hợp các biến không tƣơng quan, biểu đạt tốt hơn mối quan hệ khác nhau giữa các phần tử dữ liệu gốc.
- Thứ hai, SVD cũng là một phƣơng pháp để xác định và sắp xếp các chiều véc tơ mà theo đó các dữ liệu có sự chênh lệch nhiều nhất. Điều này liên quan đến góc nhìn thứ ba về SVD.
- Thứ ba, đó là một khi chúng ta đã xác định sự chênh lệch lớn nhất ở đâu, SVD có thể tìm thấy xấp xỉ tốt nhất của các điểm dữ liệu ban đầu bằng cách sử dụng kích thƣớc ít hơn. Do đó, SVD có thể đƣợc xem nhƣ là một phƣơng pháp để giảm số chiều dữ liệu.
Phƣơng pháp SVD dựa trên định lý sau đây trong đại số tuyến tính: bất kỳ ma trận A kích thƣớc MxN nào mà có M>=N , có thể đƣợc viết dƣới dạng tích của ba ma trận: ma trận U trực giao theo cột có kích thƣớc MxN,
ma trận chéo W có kích thƣớc NxN với các số trên đƣờng chéo là không âm, và ma trận chuyển vị của một ma trận trực giao V có kích thƣớc NxN:
Ma trận U và ma trận V trực giao theo nghĩa: các cột của chúng là trực giao:
trong đó δkn=1 nếu k=n và bằng 0 nếu k # n. Hoặc biểu diễn dƣới dạng ma trận:
Vì V là ma trận vuông nên V đồng thời là ma trận trực giao theo hàng: V.VT=1.
Các giá trị wi đƣợc gọi là các giá trị kỳ dị của A. Khơng mất tính tổng
quát, chúng ta quy ƣớc rằng các giá trị kỳ dị này đƣợc sắp xếp theo thứ tự giảm dần: w1>= w2>= …>= wn>= 0.
Trong chƣơng này đã tìm hiểu các kiến thức về xác suất, các mơ hình học, các thuật toán, các phƣơng pháp sử dụng trong luận văn, tiếp theo chƣơng sau sẽ trình bày ứng dụng của chúng trong các tiếp cận học máy khơng có hƣớng dẫn cho bài tốn gán nhãn từ loại để từ đó có thể xây dựng một quy trình giải quyết bài tốn gán nhãn từ loại tiếng Việt theo cách tiếp cận này.
Chƣơng 3 - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHƠNG CĨ HƢỚNG DẪN CHO GÁN NHÃN TỪ LOẠI
Có nhiều chiến lƣợc thiết kế để gán nhãn cho một ngôn ngữ cụ thể, dựa trên luật, xác suất, lai các chiến lƣợc. Trong chƣơng này sẽ tập trung vào thảo luận các hƣớng tiếp cận khơng có hƣớng dẫn, ví dụ tìm các xác suất gán nhãn từ văn bản chƣa gán nhãn. Điều này có thể làm với bất kỳ ngơn ngữ nào vì nó khơng địi hỏi một lƣợng lớn văn bản đã gán nhãn (dữ liệu huấn luyện có hƣớng dẫn) hoặc một danh sách đầy đủ các quy tắc mã hoá bằng tay. Chú ý rằng một lƣợng nhỏ dữ liệu huấn luyện vẫn đƣợc sử dụng trong một số phƣơng pháp tiếp cận không hƣớng dẫn.
Một thủ tục gán nhãn nhƣ vậy làm nhiệm vụ tìm kiếm một cấu trúc ẩn (các nhãn từ loại) trong dữ liệu quan sát đƣợc (văn bản chƣa gán nhãn) bằng cách ƣớc lƣợng các tham số mơ hình. [Ankit K Srivastava] đã tổng kết năm cách tiếp cận không hƣớng dẫn cho Gán nhãn từ loại [6]. Năm tiếp cận này đƣợc phân loại trên cơ sở của những kỹ thuật ƣớc lƣợng tham số.
Năm tiếp cận đó là: (1) Cực đại hoá kỳ vọng (Expectation – Maximization EM), (2) Phân cụm (Clustering), (3) Nguyên mẫu (Prototypes), (4) Liên ngữ (Cross – lingual), (5) và bayes (Bayesian). Trong khuôn khổ luận văn này ta sẽ tìm hiểu hai tiếp cận (1) và (2).