Biểu diễn giảm bậc của ma trận Term– Doc

Một phần của tài liệu XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU (Trang 39 - 41)

Ma trân term-doc [ ] mxn ij

A= a ∈¡ được định nghĩa là ma trận có cột là các véc-tơ biểu diễn văn bản và từng phần tử của véc-tơ cột là trọng số một từ hoặc thuật ngữ (term hoặc word) của văn bản.

Ví dụ: Cho văn bản 1

d = “Khi tất cả đều nghĩ hai đội mạnh nhất Đông Nam Á sắp sửa vào hai hiệp phụ thì bất ngờ cái đầu vàng của Lê Công Vinh đội lên tích tắc mang về chiếc cúp AFF cho đội tuyển Việt Nam...”

2

d = “Khác trận ra quân nhọc nhằn gặp Ai Cập, Brazil thể hiện bộ mặt tươi tỉnh hơn hẳn tối ngày 18/6, và giành chiến thắng 3-0 dễ dàng trước đội tuyển Mỹ”

3

d = “Hôm qua, CHDCND Triều Tiên lần thứ hai trong lịch sử vượt qua vòng loại giải vô địch thế giới. Trước đó, ở lần tham dự đầu tiên, năm 1966, đội tuyển này đã gây bất ngờ qua hai trận đấu ngoạn mục với Italy và Bồ Đào Nha.”

Được phân đoạn như sau: 1

d = “Khi tất_cả đều nghĩ hai đội mạnh nhất Đông_Nam_Á sắp_sửa vào hai hiệp_phụ thì bất_ngờ cái đầu vàng của Lê_Công_Vinh đội lên tích_tắc mang về chiếc cúp_AFF cho đội_tuyển Việt_Nam”

2

d = “Khác trận ra_quân nhọc_nhằn gặp Ai Cập, Brazil thể_hiện bộ_mặt tươi tỉnh hơn hẳn tối ngày 18/6, và giành chiến_thắng 3-0 dễ_dàng trước đội_tuyển Mỹ.

3

d = “ Hôm_qua, CHDCND Triều Tiên lần thứ hai trong lịch_sử vượt qua vòng loại giải vô_địch thế giới. Trước đó, ở lần tham_dự đầu tiên, năm 1966, đội_tuyển này đã gây bất_ngờ qua hai trận đấu ngoạn_mục với Italy và Bồ_Đào_Nha.”

Bộ từ điển = “Thể_thao, Bóng_đá, Đội_tuyển, Đông_Nam_Á, Cúp_AFF, Việt_Nam, nhọc_nhằn, chiến_thắng, Hôm_qua,vô_địch,bồ_đào_nha, bất_ngờ, lịch_sử, tất_ cả

Dựa vào tập từ khóa văn bản d1,d2,d3 được biểu diễn bằng phương pháp tần suất như sau:

1

d =(0,0,1,1,1,1,0,0,0,0,0,0,0,1) 2

3

d =(0,0,1,0,0,0,0,1,0,0,1,1,1,0)

Ma trận term – doc của 3 văn bản được biểu diễn như sau: Terms Documents d1 d2 d3 --- --- Thể_thao 0 0 0 Bóng_đá 0 0 0 Đội_tuyển 1 0 1 Đông_Nam_Á 1 0 0 Cúp_AFF 1 0 0 Việt_Nam 1 0 0 nhọc_nhằn 0 1 0 chiến_thắng 0 1 1 Hôm_qua 0 0 0 vô_địch 0 0 0 bồ_đào_nha 0 0 1 bất_ngờ 0 0 1 lịch_sử 0 0 1 tất_ cả 1 0 0

Bài toán giảm bậc của ma trận term-doc:

Cho một ma trận term-doc A∈¡ mxnvà một số nguyên k, tìm một phép biến đổi tuyến tính GT∈¡ kxmđể ánh xạ từng cột aicủa A trong không giam m chiều thành một véc-tơ yi trong không gian k chiều:

1 1

: ,1

T mx kx

i i

G a ∈¡ → ∈y ¡ ≤ ≤i n

Đây có thể coi là một bài toán xấp xỉ (approximation) của ma trận A khi mà ma trận A được phân tích thành 2 ma trận BY tức là A BY≈ (2) với B∈¡ mxk, rank(B) =k

Để tìm được B∈¡ mxk, rank(B) =kY∈¡ kxn, rank(Y)=k. ta phải giải bài toán tìm cực tiểu: minB Y, A BYF

Nếu xác định được Ma trận B thì 1

( T ) T

Y = B BB Alà một biểu diễn giảm số chiều của ma trận A. khi ma trận B có các cột là trực giao nhau thì B B IT = suy ra Y =B AT trong trường hợp này G B=

Một phần của tài liệu XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU (Trang 39 - 41)

Tải bản đầy đủ (DOC)

(72 trang)
w