Các phương pháp thu thập thông tin

Một phần của tài liệu Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản (Trang 26)

Ngày n y, các thông tin đ ng được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet. Internet đã trở thành nơi lưu trữ, quản lý và đặc iệt là nơi thu nhận thông tin nh nh ch ng và tiện lợi. Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu c u người ùng. Đ là lý o củ các nghiên c u chuyờn s u trong các l nh vực như kh i phá ữ liệu (DataMining , trích xuất thông tin (Information Extr ction , thu thập thông tin (Information Retrieval).

Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà ch ng đem lại khá tốt. Trong đ c rất nhiều phương pháp tồn tại ở ạng chuẩn. Các phương pháp này thường ự theo các phương pháp toán học c điển. Một số phương pháp khác được phát triển theo hướng ự trí tuệ nhân tạo. S u đây, ch ng t sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin.

b.1. Các phương pháp chuẩn

Ph n lớn các kỹ thuật chuẩn được phát triển từ những n m 1960 đến những n m 1970, và ph n lớn trong số ch ng ự trên các thuật toán và công th c toán học truyền thống. Trong ài nghiên c u này ch đề cập đến các mô hình ô hình oolean ( oolean odel), ô hình hông gian vec-tơ (vector space model).

b.1. . Mô hình oolean

Boole n là mô hình nghiên c u chiến lượng, đơn giản nhất, và được thể hiện để đư r ý tưởng cơ ản cho các chiến lượng x hơn [4]. H u hết đồng ý r ng tất cả các chiến lược nghiên c u ự trên việc so sánh giữ c u truy vấn và các tài liệu được lưu trữ. Mô hình Boole n nghiên c u chiến lược thu thập các tài liệu được gán giá trị true ng với truy vấn đ . Giả sử tài liệu

dj được iểu iễn thành tập các thuật ngữ dj t1,t2,...,tk, ở đ ti là một thuật ngữ xuất hiện trong tài liệu dj. Một truy vấn được iểu iễn ng một iểu th c logic củ các thuật ngữ o gồm các toán tử AND, OR, và NOT.

Ví ụ với truy vấn:

Q=(K1 AND (NOT K2)) OR K3

Ở đây ph p tìm kiếm Boole n sẽ nhận được tất cả các tài liệu c liên kết với K1 nhưng không liên kết với K2 hoặc các tài liệu c liên kết với K3.

Cụ thể hơn, với một câu truy vấn:

Q=(“Te t ining” AND ((“Inform tion Retriev l”) AND (NOT

“C tegoriz tion”))

Hệ thống sẽ cố g ng tìm r tất cả các tài liệu thuộc chủ đề

TextMining , mà cụ thể hơn là các phương pháp thu thập thông tin ch không phải là các phương pháp phân lớp v n ản.

b.1.1.1. C c h so s nh

Liên kết giữ truy vấn và tài liệu c thể được hiểu theo ngh một hàm so sánh. Các hàm này thường rất đơn giản. Một triến lược được sử ụng gọi là chi n lược ơn giản hoỏ phộp so s nh.

Chiến lược này được sử ụng trong ộ iến đ i củ ph p tìm kiếm Boole n, ở đ ch c các toán tử logic AND. Ý tưởng chính củ chiến lược này được đư r khi xem x t số lượng củ các thuật ngữ chung trong câu truy vấn và trong tài liệu. Số này được gọi là m c đồng s p xếp và c thể được sử ụng như một hàm so sánh.

Ví ụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4 theo cách s u:

K1 liên kết với D1, D2, D3, D4 K2 liên kết vơi D1, D2

K3 liên kết với D2, D3

và Q = K1 AND K2 AND K3

Với truy vấn Q, ch ng t sẽ c c c m c đồng s p xếp như s u: 3 D2

2 D1, D3 1 D4

b. . .2. Tì i tuần tự

Kỹ thu t tìm kiếm tu n tự là cơ sở củ mô hình Boole n. Tuy nhiên ngày n y n rất thường xuyên được sử ụng mặc ù n kh chậm. Nhưng với ất c cách nào, n cho thấy cách mà các hàm so sánh được sử ụng [4].

Đư r một tập các tài liệu và một truy vấn D1,D2,...,DN và một truy vấn Q, ch ng t đi tính N giá trị củ hàm so sánh M(Q,Di). Để nhận được các tài liệu liên qu n, ch ng t c n s p xếp các tài liệu giảm n củ hàm so sánh và đi tất cả các tài liệu ng với hàm so sánh nh hơn một ngưỡng cắt cho trước. Ngưỡng này c thể được định ngh như một giá trị hàm so sánh M hoặc là một gí trị so sánh với một v n ản nào đ . Thách th c lớn nhất củ kỹ thuật này là tìm được cách chọn giá trị ngưỡng c t phù hợp.

Để thực hiện mô hình tìm kiếm Boole n, ch ng t c thể sử ụng một số kỹ thuật hiệu quả. Tuy nhiên, các thuật toán đ không được đề cập trong ài nghiên c u này.

M i một tài liệu c n được đánh ch mục in ex ởi một số thuật ngữ, m i thuật ngữ này miêu tả nội ung củ tài liờu. C c thuật ngữ này thường được gọi là các thuật ngữ đã g n ch mục h y các từ khoá. Để việc thu thập được thực hiện nh nh ch ng, ch ng t nên s p xếp các từ này. Các từ khoá được lưu trữ trong tệp tin chỉ c, và với m i từ khoá thuộc ộ từ vựng sẽ c nh s ch c c tài liệu ch từ khoá này. Để thoả mãn một truy vấn, ch ng t sẽ thực hiện tìm kiếm trên file ch mục này.

Kỹ thuật này được sử ụng ởi nhiều hệ thống thương mại với các độ tối ưu khác nh u củ tệp tin ch mục tìm kiếm ví ụ B-trees).

Các nhược điểm củ kỹ thuật này là:

- Lưu trữ quá nhiều c thể c n không gi n lưu trữ lên đến 300 so với kích thước n đ u

- Giá thành cập nhật và t ch c lại ch mục c o

- Giá thành hợp các nh sách tài liệu c o nếu ch ng quá ài Tuy nhiên, ch ng c ng c c c ưu điểm riêng:

- Thực hiện ễ àng - Tốc độ nh nh

- Dễ àng h trợ các từ đồng ngh

b.1.2. Mô hình hông gian vec-tơ (Vector space model - VSM)

Mô hình không gi n vec-tơ được mở rộng từ mô hình Boole n trong việc thể hiện các thuật ngữ củ tài liệu [4]. Giống như mô hình Boole n, ch ng t g n nhãn các tài liệu ởi tập các thuật ngữ. Nhưng trên thực tế, điểm khác nh u được ẩn trong việc iểu iễn tài liêu. Tài liệu D được iểu iễn ởi một vec-tơ m-chi u với c c thông số ng với m i chiều là trọng

số ng với từng thuật ngữ cụ thể. Trong trường hợp này, m là t ng sô thuật ngữ được đinh ngh để xác định nội ung củ tài liệu. Trọng số được tính ởi xác suất xuất hiện và độ qu n trọng củ từ khoá.

D=(w1, w2,..., wN)

Ví ụ, khi phân tích h i tài liệu D1 D2 là h i ài nghiên c u, liên qu n đến ệnh đâu đ u, t c h i vec-tơ được hinh hoạ trên đồ thị 2-chiều như s u:

Các trọng số trên m i vec-tơ iểu iễn xác suất xuất hiện củ các thuật ngữ trong m i ài áo. Tài liệu D1, thuật ngữ Đau ầu, Magờ xuất hiện với xác suất l n lượt là 0.75, 0.25. Tài liệu D2, thuật ngữ Đau ầu,

Magờ xuất hiện với xác suất l n lượt là 0.2, 0.6.

Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] xem hình 4). H y n i cách khác, chỳng t sẽ iểu câu truy vấn ởi một vec- tơ trọng số củ các thuật ngữ. S u khi thực hiện việc phân tích câu truy vấn t sẽ thu được một vec-tơ. Việc thực hiện câu truy vấn này thực chất là việc so sách vec-tơ củ câu truy vấn với các vec-tơ đại iện cho các tài liệu theo một tiêu chuẩn nào đ . Kết quả t sẽ thu được một nh sách các tài liệu c

Magê Đau đ u 1.0 1.0 D1(0.25, 0.75) D2(0.6, 0.2)

qu n hệ “gần với câu truy vấn đã đư r . Tất nhiên, các tài liệu đ sẽ được s p xếp theo trình tự giảm n và sẽ ị c t ở một ngưỡng nào đ .

Để tính vec-tơ iểu iễn một tài liệu, các từ riêng iệt trong tài liệu được t hợp lại. Trên thực tế, việc thực hiện được thực hiện theo cách s u:

- Các từ phụ được so đi

- Phân iệt các từ ởi khoảng tr ng

Đối với Anh ngữ hoặc Pháp ngữ, m i từ được tách iệt ởi các khoảng tr ng. Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ gh p. Đây c ng là một vấn đề kh kh n khi phân tách từ trong tiếng Việt. Ví ụ, với từ

company trong tiếng Anh, ng với n là từ công t trong tiếng Việt. Do vấn đề về từ gh p nên g y nhiều hiểu nh m trong tiếng Việt. Các vấn đề đ gọi là sự mập mờ trong tiếng Việt. Ví ụ, với câu thuộc a b n, t c thể c h i cách phân tách thuộc a|b nthuộc| a b n.

Như vậy, đối với tiếng Việt, ch ng t c n c các phương pháp tách từ đặc iệt hơn. b.1.2. . Ti p cận phương thức TF * IDF 1.0 1.0 M gê Đau đ u D1 D2 query

Hình 4: Đồ thị biểu diễn quan hệ giữ truy vấn (query) và các tài liệu D1, D2

Trọng số củ một thuật ngữ c thể được xác định theo nhiều cách. Cách tiếp cận chung là sử ụng phương th c tf * idf, ở đ trọng số được t ng hợp ởi h i yếu tố:

- Xác suất thuật ngữ (term frequency - tf) - đặc trưng cho xác suất xuất hiện thuật ngữ trong tài liệu

- Nghịch đảo xác suất củ tài liệu inverse ocument frequency - idf) - đặc trưng cho xác suất củ thuật ngữ trong toàn ộ tập hợp các tài liệu. H y n i cách khác, một thuật ngữ hiếm khi xuất hiện trong các tài liệu thì idf sẽ c o, c n nếu n xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp.

Ví ụ: công th c ưới đây được đề xuất c thể được ùng để tính các giá trị đã n i ở trên [4]: j f i f tfi max 5 . 0 5 . 0   [4] i x lieu voi tai cac le ty 1 log  i idf

ở đ fi là xác suất xuất hiện thuật ngữ xitrong tài liệu. Phân số trong idf

được tính toán ng phương pháp giải tích với khả n ng xuất hiện xi trong tài liệu này.

b.1.2.2. Độ tương ng (similarity)

Khi các trọng số các thuật ngữ được xác định, ch ng t c n một hàm s p xếp để định giá độ tương đồng giữ các vec-tơ truy vấn và tài liệu. Một số ph p đo độ tương đồng được thể hiện ưới đây. Ở đ Q và D l n lượt là các tập thuật ngữ trong truy vấn và trong v n ản:

D

Q công th c đơn giản nhất

d Q D Q   2 hệ số củ Dice D Q D Q   hệ số Jaccard 2 / 1 2 / 1 D Q D Q   hệ số consin ) , min(Q D D Q hệ số nạp chồng

Một đánh giá độ tương đồng thông thường, được iết đến như đánh giá consin [4], x c định g c giữ vec-tơ tài liệu và vec-tơ truy vấn ởi ph p tính toán như một kết quả nội tại. Đặc iệt, đánh giá này thường được tính với độ ài củ vec-tơ. Độ tương đồng được xác định theo công th c ưới đây [4]:

        m i m i i i m i i i u w u w Q D Q D Q D sim 1 1 2 2 1 . . ) , (

Giả sử cả truy vấn và tài liệu được chuẩn hoá ởi độ ài củ ch ng, công th c sẽ trở nên đơn giản hơn:

    m i i iu w Q D Q D sim 1 . ) , (

S u khi tất cả các tài liệu được so sánh với truy vấn, ch ng sẽ được s p xếp giảm n theo độ tương đồng, kết quả là một nh sách đã được s p xếp củ các tài liệu. D nh sách này c thể được xử lý ng cách sử ụng các kỹ thuật khác nh u.

b.1.2.3. Thực hiện

Mô hình không gi n vec-tơ rất tốn công khi thực hiện, o đ trong thực tế một số ph p xấp x đơn giản được sử ụng. Hiển nhiên là iểu hiện củ các vec-tơ ch tồn tại khái niệm ngữ. Trong thực tế, các vec-tơ hiếm khi được lưu trữ đ y đủ ài do tính thư củ ch ng. Ví ụ, c tất cả 300 thuật ngữ, tài liệu D ch đề cập đến 5 thuật ngữ, như vậy không c n thiết phải lưu trữ tất cả các thông số ng với vec-tơ tương ng với tài liệu này.

Một ô hình hông gian vec-tơ ầ c thể được sử ụng hợp lệ để làm giảm độ ph c tạp củ thuật toán [4]. í tưởng củ mô hình là lưu trữ vec- tơ trong một tệp tin đã được chuyển đ i. Tệp tin này trả về một nh sách các tài liệu với các từ khoá đặc iệt cùng với thông tin về xác suất. Bên cạnh việc truy xuất theo ch mục, tệp tin chuyển đ i c ng cải thiện các đặc tính thời gi n củ việc so sánh các vec-tơ. Kỹ thuật này cho r một ph p tính toán chấp nhận được với những truy vấn tương đối nh , c n với những truy vấn lớn, ph p tính phân số chuẩn hoá sẽ cực kì tốn k m. Nhược điểm th h i củ kỹ thuật này là c n tính toán c c c c phân số chuẩn s u khi c sự th y đ i củ idf. Điều đ rất c thể xảy r trong thực tế, ví ụ khi t thêm hoặc xoá đi một tài liệu trong t hợp.

Để ước lượng hiệu quả củ ph p chuẩn hoá, ch ng t sử ụng ình phương số lượng các thuật ngữ trong một tài liệu như phân số chuẩn hoá. Với các trường hợp tài liệu ng n thì ph p tính xấp x không được chính xác, tuy nhiên kỹ thuật này c ng c một số ưu điểm s u:

- Ảnh hưởng củ kích thước tài liệu trở nên không c ý ngh với ất c loại chuẩn nào.

- Độ ph c tạp tính toán nh hơn rất nhiều so với các kỹ thuật trước đây

- C thể tính toán trước

Như vậy, độ tương đồng c thể được thực hiện ởi công th c s u:

D trong niem khai so ) , ( 1    m i i iu w Q D sim

b.2. Các phương pháp dự trí tuệ nhân tạo (AI-based method)

Các phương pháp trí tuệ nhân tạo thường ự trí tuệ nhân tạo tập trung vào các giải thuật huấn luyện máy học. H y n i r hơn, c n phải c một quá trình huấn luyện cho máy học phân loại v n ản trước khi sử ụng n . Quá trình huấn luyện này rất qu n trọng. Nếu các ẫu hu n lu ện hợp lý, t quả thu được sẽ c chất lượng rất tốt. Nhưng ngược lại, nếu quá trình huấn luyện không hợp lý thì c thể ẫn đến sụp đ toàn ộ hệ thống.

Các phương pháp này thường phải đối mặt với một số vấn đề s u: - Giải thuật suy luận

- Phương pháp lưu trữ thông tin hợp lý

- Tránh sự sụp đ s u một thời gi n ài hoạt động

H u hết các giải thuật ự trí tuệ nhân tạo thường g n cả quá trình tự học trong khi sử ụng. Yếu tố này quyết định ộ thông inh củ hệ thống. Nhưng s u một thời gi n ài hoạt đông, c thể hệ thống sẽ lâm vào tình trạng sụp đ o tr tuệ tích luỹ quá nhiều, quá trình tự học ị nhiễu, thông tin lưu trữ quá nhiều. Tất cả các lý o trên đều làm giảm hoạt động củ hệ thống. Do đ , các phương pháp này c n c sự tự điều ch nh trong hoạt động.

Bên cạnh giải thuật tích luỹ tr tuệ c ng c n c giải thuật xén tri thứcloại

Một phần của tài liệu Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản (Trang 26)

Tải bản đầy đủ (PDF)

(69 trang)