1.5 .Tổng kết
2 Phương pháp phi giám sát cho bài toán phát hiện cảm xúc trong
2.1.3. Phương pháp giảm số chiều cho Term by Document Matrix
Matrix
Trong phần trên, luận văn đã trình bày về mơ hình khơng gian véc-tơ cho bài tốn phát hiện cảm xúc trong văn bản, một bước quan trọng và tốn nhiều công sức cho việc tính tốn là xây dựng ma trận TDM, và ma trận này thường có kích thước rất lớn, vì vậy cần áp dụng phương pháp giảm số chiều của TDM nhằm giảm chi phí tính tốn, tăng hiệu suất của mơ hình.
Việc xác định số chiều tối ưu cho ma trận TDM vẫn là một câu hỏi mở. Trong thực tiễn, TDM trong biểu diễn mơ hình khơng gian véc-tơ có thể được giảm số chiều bằng cách sử dụng một số kỹ thuật đã được biết đến trong truy vấn thông tin (Information Retrieval) như: LSA, PLSA hay MNF. Phương pháp phân tách giá trị riêng (Singular Value Decomposition - SVD) là phương pháp cơ bản của kỹ thuật phân tích ngữ nghĩa ẩn LSA, SVD thường được sử dụng trong việc tính tốn giảm số chiều tối ưu cho các véc-tơ không gian biểu diễn đối tượng dữ liệu trong mơ hình khơng gian véc-tơ. Giả sử chúng ta có m thuật ngữ và có n tài liệu, khi đó ma trận TDM sẽ có kích thước là m ×n, mỗi tài
liệu được biểu diễn bởi một véc-tơ trên không gian m chiều, mục tiêu là giảm số chiều để mỗi tài liệu được biểu diễn bởi một véc-tơ trên không gian k chiều, với k m. Ma trận TDM sau khi áp dụng kỹ thuật giảm số chiều SVD không
chỉ phản ánh về tần số xuất hiện của các thuật ngữ tương ứng với tài liệu mà cịn chứa thơng tin ngữ nghĩa ẩn về sự kết hợp của thuật ngữ và tài liệu, thông tin này khơng được thể hiện trong TDM hay mơ hình khơng gian véc-tơ ban đầu. Hơn nữa, việc giảm hạng của ma trận có nghĩa là loại bỏ đi những thơng tin dư thừa hoặc các nhiễu từ cơ sở dữ liệu giúp tiết kiệm khơng gian lưu trữ và giảm chi phí tính tốn. LSA là phương pháp được áp dụng từ sớm và thành công cho nhiều lĩnh vực sử lý văn bản khác nhau. Ý tưởng chính của LSA là ánh xạ véc-tơ biểu diễn các thuật ngữ hay các tài liệu vào trong một không gian véc-tơ với số chiều thấp hơn là không gian ngữ nghĩa ẩn (latent semantic space). Việc ánh xạ này được thực hiện dựa trên kỹ thuật SVD. SVD được biết đến là một kỹ thuật tin cậy trong việc phân tích ma trận. SVD phân tích một ma trận
thành tích của ba ma trận.
A=UΣVT ≈UkΣkVkt=Ak (2.5) Trong đó Ak là ma trận gần nhất với ma trậnA và có hạng là k
Ak = min
X:dim(X)=kkA−X kF (2.6)
Trong đó chuẩn F (Frobenius) của ma trận A kích thước m×n được định xác định như sau kAkF= v u u t m X i=1 n X j=1 |aij |2 (2.7)