CH NG 4 : X LÝ NGÔN NGT NHIÊN
4.2 X LÝ VÀ HI UV NB N
4.2.2 Thu th p thông tin
Thu th p thông tin là l y t m t v n b n ra m t s d li u phù h p v i m t câu h i. M t s tài li u đ c miêu t b i đ i di n, nh tiêu đ , danh sách t khố, ho c tóm t t. Hi n nay có q nhi u thơng tin tr c tuy n, t t nh t là s d ng tồn b v n b n, có th chia thành các đo n, m i đo n coi nh m t tài li u riêng bi t cho vi c m c đích thu th p thơng tin. Các câu h i th ng là danh sách các t khoá. Trong các h th ng thu th p thông tin ban đ u, các câu h i là s k t h p logic các t khoá. Khi m t câu h i khơng tìm th y tài li u, ví d , nó khơng đ r ng đ tìm đ c m t vài tài li u. Chuy n m t “and” thành m t “or” là m t kh n ng; thêm vào m t ng n cách là m t kh n ng n a, nh ng có khi l i tìm th y q nhi u và không đ h ng d n.
H u h t các h th ng hi n đ i đ u chuy n t ki u logic sang ki u khơng gian vector, trong
đó danh sách các t (c trong tài li u, trong câu h i) đ u đ c coi nh m t vettor trong không gian n-chi u, đó n là s d u hi u phân bi t c a t p h p tài li u. Nó s đ c coi nh m t vector. Khi đó vi c tìm các tài li u chính là vi c so sánh vector này v i t p h p các vector khác và đ a ra nh ng véc t g n nh t v i nó. Ki u véct linh đ ng h n ki u logic b i vì có th s p x p các tài li u b i kho ng cách t i câu h i, và tài li u nào g n nh t đ c báo cáo tr c.
Ki u này có nhi u d ng. M t vài h th ng cho phép các câu h i phát bi u r ng hai t ph i xu t hi n g n nhau m i đ c đ m nh m t l n, m t vài h th ng khác s d ng t đi n đ ng ngh a làm t ng thêm các t trong câu h i b ng các t đ ng ngh a v i nó. Ch nh ng h th ng t i nh t m i đ m t t c các s h ng trong vector t ng đ ng. Nhi u h th ng đánh giá tr ng l ng các s h ng khác nhau. Cách t t nh t là cho s h ng tr ng l ng l n n u nó là t đ c tr ng: n u nó xu t hi n trong m t s ít các v n b n h n là trong nhi u v n b n.