Luận văn Một số thuật toán phân lớp tiêu biểu và phương pháp biểu diễn văn bản dựa trên các khái niêm mờBiểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quan tâm đầu tiên trong các vấn đề xử lý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìm kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản Khóa luận này trình bày và nghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và áp dụng vào bài toán phân lớp văn bản. Nội dung của khóa luận tập trung vào các vấn đề sau:
Trang 1LỜI CÁM ƠN
Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thây giáo, tiễn sĩ HÀ QUANG THỤY, Trường Đại học Công nghệ, ĐHQG Hà Nội và tiễn sĩ ĐOÀN SƠN, Đại học Tohoku, Nhật Bản đã hướng dẫn và động viên em rất nhiều trong quá trình làm luận văn
Em xin được gửi lời cảm ơn tới các Thây, Cô trong Trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội và nhóm Xeminar thuộc bộ môn Các Hệ thống Thông tin, những người đã dạy dỗ, giúp đỡ và chỉ bảo cho em trong suốt quá trình học tập
Cuối cùng, con xin gửi lời biết ơn tới gia đình, nơi đã sinh thành, nuôi dưỡng và động viên con rất nhiều trong thời gian qua
Hà Nội ngày 20/05/2006
Sinh viên
Trang 2TOM TAT
Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quan
tâm đầu tiên trong các vấn đề xử lý văn bản Nó có ảnh hưởng rất lớn đến các bài tốn tìm kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản Khóa luận này trình bày và
nghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và áp
dụng vào bài toán phân lớp văn bản Nội dung của khóa luận tập trung vào các vấn đề
sau:
1 Trình bày một số phương pháp biểu diễn văn bản thơng thường, trong đó, khóa
luận đi sâu vào cách biểu diễn theo mơ hình vector, tức mỗi văn bản sẽ được biểu diễn
như một vector có các thành phần là các từ khóa có mặt hoặc khơng có mặt trong văn bản Sau đó, khóa luận tìm hiểu phương pháp biểu diễn văn bản trong máy tìm kiếm
2 Trình bày về lý thuyết tập mờ, và đề cập một cách biểu diễn văn bản mới dựa trên các khái niệm mờ Từ đó đề xuất hướng giải quyết khi xuất hiện các từ đồng nghĩa
trong văn bản
3 Tiến hành thử nghiệm cách biểu diễn mới này vào bai toán phân lớp văn bản Chỉ ra một số kết quả phân lớp và so sánh với phương pháp biểu diễn theo mơ hình vector
thơng thường Từ đó rút ra một số kết luận và hướng phát triển tiếp theo
Trang 3
MỤC LỤC
0909.9090 + ,ÔỎ i
TOM TAT ooececsssessssseesssssessssssessssesesssssessuscsssssessssescsssesesssusesssseesessieesssieesssseeeesseesesaee ii
Chương 1 KHAI PHÁ DỮ LIỆU VĂN BẢN 2- 2 ©se+ccxeccxeecrs 3 1.1 Tổng quan về khai phá đữ liệu -2¿©+z2+2E++z+zcrxeerrrveeree 3
1.1.1 Khái niệm ccc-cc2222222EEvErrrrtEEEEEErrrrrrrrrrrrrerree 3 1.1.2 Các bước của quá trình khai phá dữ liệu - 5s 55s => 3
1.1.3 Ứng dụng của khai phá đữ liệu -2-2-©e©xevcxsrerreecrxe 5 1.2 Một số bài toán trong khai phá đữ liệu văn bản + 6 1.2.1 Tìm kiếm văn bản -2222222vv++rtt2222EEEEErrtrErrrrrrrrrrrrree 6
1.2.2 Phân lớp văn bản
Chương 2 CÁC PHƯƠNG PHÁP CƠ BẢN BIÊU DIÊN VĂN BẢN 10 2.1 _ Tiền xử lý văn bản . -+22++2+2EE+E2EEEEeEEEEE221 1.errree 10
2.2 Mơ hình Logic -22222222+++tttEEEEEEEvrrrrrrtrrrrkrrrrerree 12 2.3 Mơ hình phân tích cú pháp - - 5s sxsvsrekekrrersrrerrree 14 2.4 Mơ hình khơng glan V€CfOF - - + S+ + xSx#vEskekrkeeerkrereree 15 2.4.1 Mơ hình Booleann . - 5+ St v9 ng ng re 17 2.4.2 Mơ hình tần suất -::-22222vvvvrrrrttEEEEEEvrrrrrrrrrrrrrrrrrree 17
2.5 Biểu diễn văn bản trong máy tìm kiếm - 2 +ze+czvze+crree 20
2.5.1 Giới thiệu về máy tìm kiếm 2-22©2E++++C2+zevrrrxerrrrecree 20 2.5.2 Mơ hình biểu diễn văn bản trong máy tìm kiếm - 21 Chương 3 BIÊỂU DIỄN VĂN BẢN SỬ DỤNG CÁC KHÁI NIỆM MỜ 23
Trang 4
3.1 Lý thuyết mờ . :-++++22EE++rrtttEEkxrrrrrrrrrrrrrrrrrree 23
BALD Tap m0 23 3.1.2 Các phép toán trên tẬp IỜ ¿+ + + + EsEEvseevrkreersrereree 25 3.1.3 Quan hệ mờ -¿- +2 52+tSt TH 2 111111111 27 3.1.4 Các phép toán trên quan hỆ mỜ_ - - + + 5+2 £+x£veeEexeeesese 27 3.2 _ Biểu diễn văn bản sử dụng các khái niệm mờ - 5s <s«+ 29 3.2.1 Khái niệm mờ +- 25+ SE +tExevrkerekrkerkrrrkrrkrrrrrre 30
3.2.2 Biểu diễn văn bản
3.2.3 Đề xuất giải pháp cho vấn đề đồng nghĩa - 32
Chương 4 CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN 35 4.1 Tổng quan về bài toán phân lớp -22+z+£2+z++tzxze+crree 35 4.2 Các thuật toán phân lớp - -:::+22222vvvverrrrttrrrrrrrrrrrrrree 36
4.2.1 Phân lớp dựa trên thuật toán Naive Bayes
4.2.2 Phân lớp dựa trên thuật toán K - Nearest Neighbor (KNN) 38
4.2.3 Phân lớp dựa vào thuật toán cây quyết định -+- 39
4.2.4 Phân lớp su dung Support Vector Machines (SVM) 41
Chương 5 MỘT SÓ KÉT QUẢ THỰC NGHIỆM 2cce+cc+z 43 5.1 _ Tập dữ liệu và tiền xử lý - -ccccccsccccrrrtrrrrrrrrrrrrrrrrrerree 43
5.2 Công cụ và phương pháp phân lớp - + +ss+++sx+x+eseeseexse 44
5.3 Kết quả thực nghiệm ©2++e+2EEEECEEEEEEEEE2.2E2.EErrrerrer 45 KÉT LUẬN VÀ HƯỚNG PHÁT TRIỄN . v2ccc+++tccvvvvvee 53 I.10012009:7)/84 0 55
Trang 5
MỞ ĐẦU
Ngày nay, sự phát triển mạnh mẽ của Internet đã dẫn đến sự bùng nổ thông tin về
nhiều mặt ké cả về nội dung lẫn số lượng Chỉ bằng một thao tác tìm kiếm đơn giản, ta có thể nhận về một khối lượng khổng lồ các trang web có chứa thơng tin liên quan tới nội
dung ta tìm kiếm Tuy nhiên, chính sự dễ dàng này cũng mang đến cho con người rất nhiều khó khăn trong việc chất lọc ra các thông tin có ích để thu được các tri thức mới
Phát hiện tri thức và khai phá đữ liệu là câu trả lời mới nhất cho vấn đề này nhằm phát hiện ra các tri thức mới từ khối dữ liệu không lồ mà con người có được
Trong các loại dữ liệu thì văn bản là loại đữ liệu phổ biến mà con người thường gặp phải nhất Mơ hình biểu diễn văn bản phổ biến hiện nay là mơ hình khơng gian
vector, trong đó mỗi văn bản được biểu diễn bằng một vector của các từ khóa Tuy nhiên
bài toán khai phá dữ liệu văn bản thường gặp phải một số khó khăn như tính nhiều chiều
của văn bản, tính nhập nhằng của ngơn ngữ Trong khóa luận này, chúng tôi xin đề cập
đến một cách biểu diễn văn bản mới: biểu diễn dựa trên các khái niệm mờ Trong đó, mỗi
khái niệm sẽ được xác định bởi một tập các từ khóa liên quan Và mức độ liên quan của
khái niệm đến văn bản sẽ được xác định bằng hàm tích hợp mờ các từ khóa đó Sau khi đã có một tập các khái niệm liên quan đến một hay nhiều chủ đề cần phần lớp, mỗi văn bản
sẽ được xem như là một vector có các thành phần là các khái niệm mờ đó
Với lượng thông tin dạng văn bản đồ sộ của Internet, một yêu cầu lớn đặt ra đối
với chúng ta là làm sao tổ chức và tìm kiếm thơng tin có hiệu quả nhất Phân lớp (phân
loại) thông tin là một trong những giải pháp hợp lý cho yêu cầu trên Khóa luận sẽ trình bày một số thuật toán phân lớp tiêu biểu và đưa ra hướng thực nghiệm cho phương pháp biểu diễn văn bản dựa trên các khái niêm mờ
Chúng tôi áp dung thuật toán KNN (k — người láng giềng gần nhất) và phần mềm 'WEKA (K-người láng giếng gần nhất) để tiến hành phân lớp Phần thực nghiệm cho thấy rằng phương pháp biểu diễn van ban dựa khái niệm mờ có kết quả phân lớp tốt hơn so với
phương pháp biểu diễn văn bản theo vector từ khóa
Ngồi phần mở đầu và kết luận, nội dung của luận văn được trình bày trong 5
Trang 6Chương 1, giới thiệu tông quan về khai phá đữ liệu văn bản, một số định nghĩa và một số bài tốn điển hình
Chương 2, trình bày một số phương pháp biểu diễn văn bản truyền thống: mơ
hình tần suất, mơ hình phân tích cú pháp, mơ hình không gian vector Đồng thời nêu ra cách biểu diễn văn bản thường dùng trong máy tìm kiếm
Chương 3, giới thiệu tổng quan về lý thuyết tập mờ [9][14] và một số phép toán
trên tập mờ Nội dung chính của chương là đề cập một cách biểu diễn văn bản mới dựa
trên các khái niệm mờ
Chương 4, trình bày bài toán phân lớp văn bản và một số thuật toán phân lớp tiêu
biểu
Chương 5, chỉ ra các kết quả thực nghiệm có được khi áp dụng mơ hình biểu diễn
Trang 7Chuong 1 KHAI PHA DU LIEU VAN BAN 1.1 Tong quan vé khai pha dir ligu
1.1.1 Khái niệm
Khai phá đữ liệu[1][7][13] là một khái niệm ra đời vào những năm cuối của thập
kỷ 80 của thế kỷ 20 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thơng tin có
giá trị tiềm ẩn trong các tập dữ liệu lớn như các kho đữ liệu, các cơ sở đữ liệu (CSDL) có dung lượng rất lớn Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu
và sử dụng các kỹ thuật để tìm ra các mẫu có tính hệ thống trong tập dữ liệu Một số định nghĩa tiêu biéu vé Data mining:
Khái niệm data mining được định nghĩa nhu sau: “The nontrivial extraction of implicit, previously unknown, and potentially useful information from data” [13], tam dịch: “là việc trích rút một cách phức tạp các thông tin - an, không biết trước và có khả năng hữu ích - từ dữ liệu”
“The science of extracting useful information from large data sets or databases” [1], tam dich 1a: “Nghanh khoa hoc chuyên trích chọn những thơng tin có giá trị từ những tập dữ liệu lớn hoặc các CSDL”
Năm 1989, Fayyad, Piatestky-Shapiro và Smyth đã đưa ra khái niém “Phat hiện tri thức trong cơ sở dữ liệu” (Kaowledge Discovery in Databases - KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn [6] Trong đó, khai phá dữ liệu là một bước đặc biệt quan trọng trong toàn bộ quá trình, sử dụng các thuật toán
chuyên dụng để chiết xuất ra các mẫu (pattern) từ dữ liệu
1.1.2 Các bước của quá trình khai phá dữ liệu
Các thuật toán khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp đữ liệu Với các phương pháp học máy và thống kê trước đây, thường thì bước đầu tiên của các thuật toán là nạp toàn bộ dữ liệu vào trong bộ nhớ trong đề xử lý Khi chuyên sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho
dữ liệu lớn, mơ hình này không thê đáp ứng được Khơng chỉ bởi vì khơng thê nạp hết đữ liệu vào trong bộ nhớ mà còn vì khơng thể chiết suất dữ liệu ra các tệp đơn giản để phân
Trang 8Quá trình khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải
quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành định dạng sao cho các thuật
toán khai phá đữ liệu có thể hiểu được Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một q trình rất khó khăn, gặp phải nhiều vướng mắc như đữ liệu phải được sao ra nhiều bản (nếu được chiết suất vào các tệp), quản lý tập các tệp đữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ q trình (nếu mơ hình đữ liệu thay đổi)
Sẽ là quá cồng kềnh với một thuật toán khai phá dữ liệu nếu phải truy nhập vào toàn bộ nội dung của CSDL và làm những việc như trên Vả lại, điều này cũng khơng cần thiết Có rất nhiều thuật toán khai phá dữ liệu thực hiện trên những thống kê tóm tắt khá
đơn giản của CSDL, khi mà tồn bộ thơng tin trong CSDL là quá dư thừa đối với mục đích của việc khai phá dữ liệu
Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc
khai pha dé tìm được các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa
đó Thơng thường các mẫu được biểu diễn dưới dạng luật phân loại, cây quyết định, luật
sản xuất, biểu thức hồi quy,
Xác định Xác định Thu thập
nhiệm vụ dữ liệu và tiễn xử liên quan lý dữ liệu
Hình 1: Quá trình khai phá dữ liệu
Đặc điểm của các mẫu là phải mới, ít nhất là đối với hệ thống đó Độ mới có thể
được đo tương ứng với độ thay đỗi trong dữ liệu (bằng cách so sánh các giá trị hiện tại với
Trang 9phương pháp tìm mới và phương pháp cũ như thế nào) Thường thì độ mới của mẫu được
đánh giá bằng các hàm logic hoặc hàm đo độ mới, độ bất ngờ của mẫu Ngoài ra, mẫu
phải có khả năng sử dụng tiềm tàng Các mẫu này sau khi được xử lý và diễn giải phải dẫn đến những hành động có ích nào đó được đánh giá bởi một hàm lợi ích Ví dụ như trong dữ liệu các khoản vay, hàm lợi ích đánh giá khả năng tăng lợi nhuận từ các khoản vay Mẫu khai thác được phải có giá trị đối với các dữ liệu mới với độ chính xác nào đó
Vì khi thi hành các thuật toán và các nhiệm vụ của khai phá dữ liệu là rất khác nhau cho nên dạng của các mẫu chiết xuất được cũng rất đa dạng Theo cách đơn giản
nhất, sự phân tích cho ra kết quả chiết xuất là một báo cáo về một số loại, có thể bao gồm
các phép đo mang tính thống kê về độ phù hợp của mơ hình, các dữ liệu lạ Trong thực
tế thì đầu ra phức tạp hơn nhiều Mẫu chiết suất được có thể là một mô tả xu hướng, có
thể đưới dạng văn bản, một đồ thị mô tả các mối quan hệ trong mơ hình, cũng có thể là
một hành động, ví dụ như yêu cầu của người dùng làm gì với những gì khai thác được trong CSDL
Như vậy có thể nhận thấy rằng kỹ thuật khai phá dữ liệu thực chất là sự kế thừa,
kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như học máy,
nhận dạng, thống kê (hồi quy, xếp loại, phân nhóm), các mơ hình đồ thị, mạng Bayes, trí
tuệ nhân tạo, thu thập tri thức hệ chuyên gia Tuy nhiên, với sự kết hợp hướng mục tiêu của khai phá dữ liệu, kỹ thuật này có ưu thế hơn hẳn các phương pháp trước đó, đem lại nhiều triển vọng trong việc ứng dụng phát triển nghiên cứu khoa học cũng như làm tăng
mức lợi nhuận trong các hoạt động kinh doanh
1.1.3 Ứng dụng của khai phá dữ liệu
Tuy là một hướng tiếp cận mới nhưng khai phá đữ liệu đã thu hút được rất nhiều
sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của
nó [xx] Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:
" Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) = Diéu tri y hoc (medical treatment)
= Text mining & Web mining = Tin-sinh học (bio-informatics)
Trang 10Phần tiếp theo, chúng tơi xin trình bày khái quát về Text Mining (gọi theo tiếng
Việt là Khai phá dữ liệu văn bản), một trong những ứng dụng điển hình nêu trên của khai
phá dữ liệu
1.2 Một số bài toán trong khai phá dữ liệu văn bản
1.2.1 Tìm kiếm văn bản s* Nội dung:
Tìm kiếm văn bản[2][10] là quá trình tìm kiếm văn bản theo yêu cầu của người dùng Các yêu cầu được thể hiện dưới dạng các câu hỏi (query), dạng câu hỏi đơn giản nhất là các từ khóa Có thể hình dung hệ tìm kiếm văn bản sắp xếp tập văn bản trong miền tìm kiếm thành hai lớp: Một lớp được hiển thị bao gồm các văn bản thỏa mãn với câu hỏi người dùng và một lớp không được hiển thị bao gồm các văn bản không thỏa mãn yêu
cầu Thực tế, các hệ thống tìm kiếm điển hình hiện nay, chẳng hạn như các máy tìm kiếm như Google, Altavista , không hoạt động như vậy mà đưa ra danh sách các văn bản theo độ liên quan của văn bản với câu hỏi người dùng
s* Quá trình tìm kiếm
Quá trình tìm kiếm được chia thành bốn q trình thành phần chính :
Đánh chỉ số (indexing): Các văn bản ở dạng thô cần được chuyển sang một dạng
biểu diễn nào đó để xử lý Quá trình này còn được gọi là quá trình biểu dién van bản, dạng biểu diễn phải có cau trúc và dễ dàng khi xử lý Một nội dung quan trọng của khóa luận này là nghiên cứu cách thức biểu diễn văn bản sử dụng lý thuyết tập mờ nhằm có
được biểu diễn văn bản mang nhiều ngữ nghĩa hơn
Định dạng câu hỏi: Người dùng phải mô tả những yêu cầu về lấy thông tin cần thiết dưới dạng câu hỏi Các câu hỏi này phải được biểu diễn dưới dạng phô biến cho các hệ tìm kiếm như nhập vào các từ khóa cần tìm Ngồi ra cịn có các phương pháp định
dạng câu hỏi dưới dạng ngôn ngữ tự nhiên hoặc dưới dạng các ví dụ, đối với các đạng này
thì cần có các kỹ thuật xử lý phức tạp hơn Đại đa số hệ tìm kiếm hiện nay dùng câu hỏi
dưới dạng các từ khóa
So sánh: Hệ thống phải thực hiện việc so sánh tường minh và toàn vẹn câu hỏi
Trang 11quyết định phân loại các văn bản theo độ liên quan gần với câu hỏi người dùng và sắp xếp
theo thứ tự giảm dần của độ liên quan Hệ thống hoặc hiến thị toàn bộ văn bản hoặc chỉ một phần văn bản
Phản hồi: Trong nhiều trường hợp, kết quả được trả về lúc đầu chưa phải đã thỏa mãn yêu cầu của người dùng, do đó cần phải có quá trình phản hồi để người dùng có thể thay đổi lại hoặc nhập mới các yêu cầu của mình Mặt khác, người dùng có thể tương tác với các hệ về các văn bản thỏa mãn yêu cầu của mình và hệ có chức năng cập nhậu các
văn bản đó Q trình này được gọi là quá trình phản hồi liên quan (Relevance feeback) Các cơng cụ tìm kiếm hiện nay chủ yếu tập trung nhiều vào ba quá trình con đầu tiên, còn phần lớn chưa có q trình phản hồi hay xử lý tương tác người dùng và máy Quá trình phản hoi hiện nay đang được nghiên cứu rộng rãi và riêng trong quá trình tương tác giao diện người máy đã xuất hiện hướng nghiên cứu được gọi là tác tử giao diện (interface agent)
1.2.2 Phân lớp văn bản
s* Nội dung
Phân lớp văn bản [3][5][8][11][12] được xem như là quá trình gắn các văn bản
vào một hay nhiều lớp văn bản đã được xác định từ trước Người ta có thể phân lớp các
văn bản một cách thủ công, tức là đọc nội dung từng văn bản một và gán nó vào một lớp
nào đó Hệ thống quản lý tập gồm rất nhiều văn bản cho nên cách này sẽ tốn rất nhiều thời
gian, công sức và do đó là không khả thi Do vậy mà phải có các phương pháp phân lớp tự động Để phân lớp tự động người ta sử dụng các phương pháp học máy trong trí tuệ nhân tạo như Cây quyết định, Bayes, k người láng giềng gần nhất
Một trong những ứng dụng quan trọng nhất của phân lớp văn bản tự động là ứng
dụng trong các hệ thống tìm kiếm văn bản Từ một tập con văn bản đã phân lớp sẵn, tất cả
các văn bán trong miền tìm kiếm sẽ được gán chỉ số lớp tương ứng Trong câu hỏi của mình, người dùng có thể xác định chủ đề hoặc lớp van ban ma minh mong muốn tìm kiếm để hệ thống cung cấp đúng yêu cầu của mình
Một ứng dụng khác của phân lớp văn bản là trong lĩnh vực hiểu văn bản Phân
Trang 12Trong phân lớp văn bản, sự tương ứng giữa một văn bản với một lớp hoặc thông qua việc gán giá trị đúng sai (True - văn bản thuộc lớp, hay False -văn bản không thuộc lớp) hoặc thông qua một độ phụ thuộc (đo độ phụ thuộc của văn bản vào lớp) Trong trường hợp có nhiều lớp thì phân loại đúng sai sẽ là việc xem một văn bản có thuộc vào
một lớp duy nhất nào đó hay khơng
“+ Q trình phân lớp
Quá trình phân lớp văn bản tuân theo các bước sau:
Đánh chỉ số: Quá trình đánh chỉ số văn bản cũng giống như trong quá trình đánh
chỉ số của tìm kiếm văn bản Trong quá trình này thì tốc độ đánh chỉ số đóng vai trị quan
trọng vì xuất hiện lượng đáng kể văn bản mới có thể cần được đánh chỉ số trong thời gian
thực
Xác định độ phân lớp: Cũng giỗng như trong tìm kiếm văn bản, phân lớp văn bản
yêu cầu quá trình diễn tả việc xác định văn bản đó thuộc lớp nào đó ra sao (mơ hình phân
lớp) dựa trên cấu trúc biểu diễn của nó Đối với hệ phân lớp văn bản, chúng ta gọi quá
trình này là bộ phân lớp (Categorizator hoặc classifier) Nó đóng vai trò như các câu hỏi trong hệ tìm kiếm Tuy nhiên, trong khi những câu hỏi mang tính nhất thời, thì bộ phân lớp được sử dụng một cách ỗn định và lâu dài cho quá trình phân lớp
So sánh: Trong hầu hết các bộ phân lớp, mỗi văn bản đều được yêu cầu gán đúng sai vào một lớp nào đó Sự khác nhau lớn nhất đối với quá trình so sánh trong hệ tìm kiếm
văn bản là mỗi văn bản chỉ được so sánh với một số lượng các lớp một lần và việc chọn quyết định phù hợp còn phụ thuộc vào mối quan hệ giữa các lớp văn bản
Phản hồi (Hay thích nghỉ): Q trình phản hồi đóng vai trị quan trọng trong hệ phân lớp văn bản Thứ nhất, khi phân lớp thì phải có môt số lượng lớn các văn bản đã
được xếp loại bằng tay trước đó, các văn bản này được sử dụng làm mẫu huấn luyện để
hỗ trợ xây dựng bộ phân lớp Thứ hai, đối với việc phân lớp văn bản thì khơng dễ dàng
thay đổi các yêu cầu như trong quá trình phản hồi của tìm kiếm văn bản bởi vì người dùng chỉ có thể thơng tin cho người bảo trì hệ thống về việc xóa bỏ, thêm vào hoặc thay đổi các phân lớp văn bản nào đó mà mình u cầu
Trang 13= Phan cụm văn bản: Đưa các văn bản có nội dung giống nhau vào thành từng nhóm
" _ Tóm tắt văn bản: Tóm tắt nội dung một văn bản cho trước
" Dẫn đường văn bản: Đưa một văn bản cho trước vào một chủ đề hoặc một
nơi lưu trữ nhất định theo yêu cầu người dùng
Trong các bài toán nêu trên, văn bản thường được biểu diễn thành một tập các
thuộc tính đặc trưng cho văn bản đó Các q trình xử lý và làm việc tiếp theo đều thực hiện trên các thuộc tính này Có nhiều tiêu chuẩn chọn lựa các thuộc tính để biểu diễn, tuy nhiên đều dựa trên việc xử lý từ khóa một cách tự động
Trang 14Chương 2 CÁC PHƯƠNG PHÁP CƠ BẢN BIÊU DIỄN VĂN BẢN
2.1 Tiền xử lý văn bản
Trước khi bắt đầu quá trình biểu diễn văn bản, người ta tiến hành bước tiền xử lý
văn bản Đây là bước hết sức quan trọng vì nó có nhiệm vụ làm giảm số từ có trong biểu diễn văn bản và qua đó sẽ làm giảm kích thước đữ liệu trong biểu diễn văn bản
Nội dung tiền xử lý văn bản: Phân tích từ vựng
Bước phân tích từ vựng nhằm xác định các từ có trong văn bản Kết quả của công việc này là cho ra một tập các từ riêng biệt Tuy nhiên trong nhiều trường hợp cần có cách
đối xử riêng biệt đối với một số từ đặc biệt, chăng hạn như số, dấu ngoặc, dấu chấm câu và trường hợp chữ hoa, chữ thường Ví dụ về cách ứng xử đặc biệt, số thường bị loại ra
trong khi phân tích vì một mình nó khơng mang lại một ý nghĩa nào cho tài liệu (ngoại trừ
một vài trường hợp đặc biệt, ví dụ trong thu thập thông tin về lĩnh vực lịch sử) Dấu chấm
câu, ví dụ như “.”, “”, “2”, “-“, v.v cũng thường được loại ra mà khơng có ảnh hưởng
gì đến nội dung của tài liệu Tuy nhiên cần phải chú ý trong một vài trường hợp, chẳng
hạn đối với những từ ghép nối (state-of-the-art) là không được phép bỏ dấu “-“, vì sẽ làm
thay đổi nghĩa của từ
s* Loại bỏ từ dừng
Từ dừng ( stop-words) ding dé chi các từ mà xuất hiện quá nhiều trong các văn bản của toàn tập kết quả, thường thì khơng giúp ích gì trong việc phân biệt nội dung của các tài liệu Vi dụ, những từ “web”, “site”, “link”, “www”, v.v [??] thường xuất hiện hầu hết trong các văn bản thì được gọi là stop-words Ngoài ra, trong tiếng Anh, có nhiều
từ chỉ dùng để phục vụ cho biểu diễn cấu trúc chứ không biểu đạt nội dung của nó như là
“a”, “the” (mạo từ), “in” (giới từ) , “but” (liên từ), động từ phổ biến có dang “to”, “be”, và một số trạng từ và tính từ đặc biệt cũng được xem là những từ dừng (stop-words)
Vì đặc điểm của từ dừng nên chúng được loại bỏ mà không ảnh hưởng đến các công việc biểu diễn văn bản tiếp theo
Bảng danh sách một số từ dừng trong tiếng Anh:
Trang 15
a been do
able before does
about below during
after best each
again but else
all by enough
almost came ever
also can except
am cannot few
and clearly for
are come former
as consider from
at could get
be despite goes
because did going
Danh sách một số từ dừng trong tiếng Việt: và; hoặc; cũng; là; mỗi; bởi * Loại bó từ có tần số thấp
Khi quan sát văn bản, người ta để ý thấy rằng: Có nhiều từ trong tập văn bản gốc
xuất hiện rất ít lần và chúng sẽ có ảnh hưởng tất ít trong văn bản Vì vậy vấn đề đặt ra là
cần loại bỏ những từ có tần xuất nhỏ Người ta áp dụng phương pháp được đưa ra bởi
Zipf năm 1949: quan sát tần xuất xuất hiện của các từ trong tập văn bản
Goi tan số xuất hiện của từ khóa t trong tập hợp X là f Xắp xếp tất cả các
từ khóa trong tập hợp theo chiều giảm dần của tần số f, và gọi thứ hạng của mỗi từ khóa t
là r„ Đinh luật Zipf được phát biểu dưới dạng công thức sau: fr, K
Trong đó: K là một hằng số Nếu N là tổng số từ trong tập văn bản, thì người ta
LC N
thay rang K»— ly rang 10
Như vậy, tần số xuất hiện và thứ hạng của một từ khóa là hai đại lượng nghịch đảo của nhau Đề thấy rõ hơn điều này, người ta đã biểu diễn lại công thức định luật Zipf
theo công thức sau:
Trang 16
t
Và biểu diễn theo lược đồ:
s* Loại bỏ tiền tố và hậu tố
từ in số của các
Các từ theo thứ tự xêp tang
Hình 2 Lươc đồ các từ theo định luật
Loại bỏ tiền tố và hậu tố (tiếng Anh là Stemming) tiến hành việc loại bỏ tiền tố và hậu tố của từ để biến đổi nó thành từ gốc Vì trong thực tế một từ gốc có thể có nhiều hình thái biến đổi, chẳng hạn như động từ, danh từ, tính từ, trạng từ; và giữa chúng có mối
39 6c 39 6c
quan hệ ngữ nghĩa Ví dụ như những từ: “clusters”, “clustering”, “clustered” là có cùng mối quan hệ với từ “cluster” Do vậy cần phải Stemming để làm giảm được số lượng từ mà vẫn không làm ảnh hưởng đến nội dung tài liệu
Tuy nhiên tồn tại một vấn đề thiếu sót xảy ra khi stemming, vì thuật tốn stemming sir dung m6t tập các quy tắc đơn giản đề loại bỏ tiền tố/hậu tố Do vậy nó có
39 6c
thể sinh ra các từ khơng chính xác Ví dụ như “computing”, “computation” sau khi
À « À *
stemming sẽ còn 1a “comput” trong khi đó từ đúng phải là “compute
2.2 Mơ hình Logic
Theo mơ hình này các từ có nghĩa trong văn bản sẽ được đánh chỉ số và nội dung
văn bản được quản lý theo các chỉ số Index đó Mỗi văn bản được đánh chỉ số theo quy tắc liệt kê các từ có nghĩa trong các văn bản với vị trí xuất hiện của nó trong văn bản Từ
có nghĩa là từ mang thơng tin chính về các văn bản lưu trữ, khi nhìn vào nó người ta có
thể biết chủ đề của văn bản cần biểu diễn
Trang 17
Tiến hành Index các văn bản đưa vào theo đanh sách các từ khoá nói trên Với
mỗi từ khóa người ta sẽ đánh số thứ tự vị trí xuất hiện của nó và lưu lại chỉ số đó cùng với
mã văn bản chứa nó Cách biểu diễn này cũng được các máy tìm kiếm ưa dùng Ví đụ, có hai văn bản với mã tương ứng là VB1,VB2
“Cộng hòa xã hội chủ nghĩa Việt Nam ” (VB1) “ Việt Nam dân chủ cộng hoa” (VB2)
Khi đó ta có cách biểu diễn như sau:
Công VB1(1), VB2065) Hoa VB1(2), VB2(6) XA VB1(3) hội VBI) chủ VEB1G5), VEB2(4) nghia VB1(C6)
Khi biểu diễn văn bản theo phương pháp này người ta ẩưa ra cách tìm kiếm như sau: Câu hỏi tìm kiếm được đưa ra dưới đạng Logic, tức là gồm một tập hợp các phép toán (AND, OR, ) được thực hiện trên các từ hoặc cụm từ Việc tìm kiếm sẽ dựa vào
bảng Index đã tạo ra và kết quả trả lại là các văn bản thoả mãn toàn bộ các điều kiện trên
“ Một số ưu điểm, nhược điểm: Ưu điểm
Việc tìm kiếm trở nên nhanh và đơn giản
Thực vậy, giả sử cần tìm kiếm tir “computer” Hệ thống sẽ duyệt trên bảng Index để trỏ đến chỉ số Index tương ứng nếu từ “computer” tồn tại trong hệ thống Việc tìm
kiếm này là khá nhanh và đơn giản khi trước đó ta đã sắp xếp bảng Index theo vần chữ
Trang 18
cái Phép tìm kiếm trên có độ phức tạp cấp 9(nlogạn), với n là số từ trong bảng Index Tương ứng với chỉ số index trên sẽ cho ta biết các tài liệu chứa từ khóa tìm kiếm Như vậy việc tìm kiếm liên quan đến k từ thì các phép tốn cần thực hiện là k*n*logzn (n là số
từ trong bảng Index)
Câu hỏi tìm kiếm linh hoạt
Người dùng có thể sử dụng các kí tự đặc biệt trong câu hỏi tìm kiếm mà khơng làm ảnh hưởng đến độ phức tạp của phép tìm kiếm Ví dụ muốn tìm từ “ta” thì kết qua sé
trả lại các văn bản có chứa các từ “ta”, “tao”, “tay”, là các từ bắt đầu bằng từ “ta”
Kí tự % được gọi là kí tự đại diện (wildcard character)
Ngoài ra, bằng các phép toán Logic các từ cần tìm có thể tổ chức thành các câu hỏi một cách linh hoạt Ví dụ: Cần tìm từ [tôi, ta, tao], dấu “Ty” sé thay cho nghĩa của từ “hoặc” - thể hiện việc tìm kiếm trên một trong số nhiều từ trong nhóm Đây thực ra là một cách thể hiện linh hoạt phép toán OR trong đại số Logic thay vì phải viết là: Tìm các tài liệu có chứa từ “tơi” hoặc từ “ta” hoặc “tao”
Nhược điểm
Đồi hỏi người tìm kiếm phải có kinh nghiệm và chuyên môn trong lĩnh vực tìm kiếm vì câu hỏi đưa vào dưới dạng Logic nên kết quả trả lại cũng có gid tri Logic (Boolean) Một số tài liệu sẽ được trả lại khi thoả mãn mọi điều kiện đưa vào Như vậy muốn tìm được tài liệu theo nội dung thì phải biết đích xác về tài liệu
Việc Index các tài liệu rất phức tạp và làm tốn nhiều thời gian, đồng thời cũng tốn không gian để lưu trữ các bảng Index
Các tài liệu tìm được khơng được xắp xếp theo độ chính xác của chúng Các bảng
Index không linh hoạt vì khi các từ vựng thay đổi (thêm, xóa, ) thì dẫn tới chỉ số Index
cũng phải thay đồi theo
2.3 M6 hình phân tích cú pháp
Trong mơ hình này, mỗi văn bản đều phải được phân tích cú pháp và trả lại thông
tin chỉ tiết về chủ đề của văn bản đó Sau đó, người ta tiến hành Index các chủ đề của từng
Trang 19
văn bản Cách Index trên chủ đề cũng giống như khi Index trên văn bản nhưng chỉ Index
trên các từ xuất hiện trong chủ đề
Các văn bản được quản lý thông qua các chủ đề này để có thê tìm kiếm được khi có yêu cầu, câu hỏi tìm kiếm sẽ dựa trên các chủ đề trên
s* Cách tìm kiếm:
Tiến hành tìm kiếm bằng cách dựa vào các chủ đề đã được Index ở trên Câu hỏi đưa vào có thể được phân tích cú pháp để trả lại một chủ đề và tìm kiếm trên chủ đề đó
Như vậy bộ phận xử lý chính đối với một hệ CSDL xây dựng theo mơ hình này chính là hệ thống phân tích cú pháp và đốn nhận nội dung văn bản
Một số tru điểm, nhược điểm của phương pháp này Ưu điểm
Tìm kiếm theo phương pháp này lại khá hiệu quả và đơn giản, do tìm kiếm nhanh
và chính xác
Đối với những ngôn ngữ đơn giản về mặt ngữ pháp thì việc phân tích trên có thể
đạt được mức độ chính xác cao và chấp nhận được
Nhược điểm
Chất lượng của hệ thống theo phương pháp này hoàn toàn phụ thuộc vào chất
lượng của hệ thống phân tích cú pháp và đoán nhận nội dung tài liệu Trên thực tế, việc
xây dựng hệ thống này là rất phức tạp, phụ thuộc vào đặc điểm của từng ngôn ngữ và đa số vẫn chưa đạt đến độ chính xác cao
2.4 M6 hình khơng gian vector
Cách biểu diễn văn bản thông dụng nhất là thông qua vector biểu diễn theo mơ
hình khơng gian vector (Vector Space Model) Đây là một cách biểu diễn tương đối đơn giản và hiệu quả
Theo mơ hình này, mỗi văn bản được biểu diễn thành một vector Mỗi thành phần
của vector là một từ khóa riêng biệt trong tập văn bản gốc và được gán một giá trị là hàm f chỉ mật độ xuất hiện của từ khóa trong văn bản
Trang 20
Hình 3: Biểu diễn các vector văn bản trong không gian 2 chiều
Giả sử ta có một văn bản và nó được biểu điễn bởi vector V(Vị,Va, , vạ) Trong
đó, vị là số lần xuất hiện của từ khóa thứ ¡ trong văn bản Ta xét 2 văn bản sau:
'VBI: Life is not only life VB2: To life is to fight
Sau khi qua bước tiền xử lý văn bản, ta biểu diễn chúng như sau:
Life 2 1 Fight 0 1 Only 1 0
Trong các cơ sở dữ liệu văn bản, mơ hình vector là mơ hình biểu diễn văn bản được sử dụng phổ biến nhất hiện nay Mối quan hệ giữa các trang văn bản được thực hiện thông qua việc tính tốn trên các vector biểu diễn vì vậy được thi hành khá hiệu quả Đặc biệt, nhiều cơng trình nghiên cứu về mối quan hệ "tương tự nhau" giữa các trang web (một trong những quan hệ điển hình nhất giữa các trang web) dựa trên mơ hình biểu diễn
vector
Trang 21
2.4.1 Mơ hình Boolean
Một mơ hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị đúng và sai (true và false, hoặc 0 và 1) gọi là mơ hình Boolean Hàm f tương ứng với
từ khóa ti sẽ cho ra giá trị đúng nếu và chỉ nếu từ khóa t¡ xuất hiện trong văn bản đó
Mơ hình Boolean được xác định như sau:
Giả sử có một cơ sở dữ liệu gồm m van ban, D = /đ„, dạ d„} Mỗi văn bản được biểu diễn dưới dạng một vector gồm n từ khóa 7 = ƒf, f+„ f„} Gọi W = ýw;} là ma trận trọng số, trong đó wy là giá trị trọng số của từ khóa í; trong van ban dj
1neu t, co mat trong d, Wi =
0 neu nguoc lai
Trở lại với 2 văn bản trên, áp dụng mơ hình Boolean ta có biểu diễn sau:
Life 1 1 Fight 0 1 Only 1 0 2.4.2 Mơ hình tần suất
Trong mơ hình tần suất, ma trận W = {wij} được xác định dựa trên tần số xuất
hiện của từ khóa tỉ trong văn bản đj hoặc tần số xuất hiện của từ khóa ti trong toàn bộ cơ sở dữ liệu Sau đây là một số phương pháp phổ biến:
a Phương pháp dựa trên tần số từ khóa (TF — Term Frequeney)
Các giá trị wij được tính dựa trên tần số (hay số lần) xuất hiện của từ khóa trong văn bản Gọi fij là số lần xuất hiện của từ khóa ti trong văn bản đj, khi đó wij được tính
bởi một trong ba công thức: Wy = Si
wy = 1 + log)
Trang 22
Mi =j⁄
Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện của từ khóa tỉ trong văn bản dj Khi số lần xuất hiện từ khóa tỉ trong văn bản dj càng lớn thì điều đó có
nghĩa là văn bản dj càng phụ thuộc vào từ khóa ti, hay nói cách khác từ khóa ti mang nhiều thông tin trong van ban dj
Vi dy, khi văn bản xuất hiện nhiều từ khóa máy tính, điều đó có nghĩa là văn bản
đang xét chủ yếu liên quan đến lĩnh vực tin học
Nhưng suy luận trên không phải lúc nào cũng đúng Một ví dụ điển hình là từ
“và” xuất hiện nhiều trong hầu hết các văn bán, nhưng trên thực tế từ này lại không mang
nhiều ý nghĩa như tần suất xuất hiện của nó Hoặc có những từ khơng xuất hiện trong văn bản này nhưng lại xuất hiện trong văn bản khác, khi đó ta sẽ khơng tính được giá trị của log(;) Một phương pháp khác ra đời khắc phục được nhược điểm của phương pháp TE, đó là phương pháp IDE
b Phương pháp dựa trên nghịch dao tan số vin ban (IDF — Inverse Document
Frequency)
Trong phương pháp này, giá trị w1j được tính theo cơng thức sau: log = log(m) - log(h,) nếu từ khóa t; xuất hiện trong tài liệu d, Ụ — i
0 nếu ngược lại
trong đó m là số lượng văn bản và hi là số lượng văn bản mà từ khóa tỉ xuất hiện
Trọng số wij trong cong thức này được tính dựa trên độ quan trọng của từ khóa ti
trong van ban dj Nếu ti xuất hiện trong càng ít văn bản, điều đó có nghĩa là khi nó xuất hiện trong dj thì trọng số của nó đối với văn bản dj càng lớn hay nó là điểm quan trong dé
phân biệt văn bản dj với các văn bản khác và hàm lượng thông tin trong nó càng lớn c Phuong phap TF x IDF
Phương pháp này là tổng hợp của hai phương pháp TE và IDF, giá trị của ma trận trọng số được tính như sau:
Trang 23
_ J[I+logff,)] oo
i
) néuf, 21 ij
0 nếu ngược lại
Đây là phương pháp kết hợp được ưu điểm của cả hai phương pháp trên Trọng số
wij được tính bằng tần số xuất hiện của từ khóa tỉ trong văn ban dj và độ hiếm của từ khóa
ti trong toàn bộ cơ sở dữ liệu Cách tìm kiếm:
Các câu hỏi đưa vào sẽ được ánh xạ vector Q(qi,dqz đm) theo hệ số của các từ vựng trong nó là khác nhau Tức là: Khi từ vựng càng có ý nghĩa với nội dung cần tìm thì
nó có hệ số càng lớn
qi = 0 khi từ vựng đó khơng thuộc danh sách những từ cần tìm
q¡<> 0 khi từ vựng đó thuộc danh sách các từ cần tìm
Khi đó, cho một hệ thống các từ vựng ta sẽ xác định được các vector tương ứng với từng tài liệu và ứng với mỗi câu hỏi đưa vào ta sẽ có một vector tương với nó cùng
những hệ số đã được xác định từ trước Việc tìm kiếm và quản lý sẽ được thực hiện trên
tài liệu này
s* Một số ru, nhược điểm của phương pháp biểu diễn này: = Uudiém:
Các tài liệu trả lại có thể được sắp xếp theo mức độ liên quan đến nội dung yêu
cầu đo trong phép thử mỗi tài liệu đều trả lại chỉ số đánh giá độ liên quan của nó đến nội
dung
Việc đưa ra các câu hỏi tìm kiếm là dễ dàng và không yêu cầu người tìm kiếm có
trình độ chuyên môn cao về vấn đề đó
Tiến hành lưu trữ và tìm kiếm đơn giản hơn phương pháp Logic
“" Nhược điểm
Trang 24
Việc tìm kiếm tiến hành chậm khi hệ thống các từ vựng là lớn do phải tính tốn
trên toàn bộ các vector của tài liệu
Khi biểu diễn các vector với các hệ số là số tự nhiên sẽ làm tăng mức độ chính xác của việc tìm kiếm nhưng làm tốc độ tính toán giảm đi rất nhiều do các phép nhân
vector phải tiến hành trên các số tự nhiên hoặc số thực, hơn nữa việc lưu trữ các vector sẽ tốn kém và phức tạp
Hệ thống không linh hoạt khi lưu trữ các từ khóa Chỉ cần một thay đổi rất nhỏ
trong bảng từ vựng sẽ kéo theo hoặc là vector hố lại tồn bộ các tài liệu lưu trữ, hoặc là sẽ bỏ qua các từ có nghĩa bổ sung trong các tài liệu được mã hóa trước đó
Một nhược điểm nữa, chiều của mỗi Vector theo cách biểu diễn này là rất lớn, bởi
vì chiều của nó được xác định bằng số lượng các từ khác nhau trong tập hợp văn bản Ví dụ số lượng các từ có thể có từ 10” đến 10” trong tập hợp các văn bản nhỏ, còn trong tập
hợp các văn bản lớn thì số lượng sẽ nhiều hơn, đặc biệt trong môi trường Web
2.5 Biểu diễn văn bản trong máy tìm kiếm
2.5.1 Giới thiệu về máy tìm kiếm
Thơng tin trên các trang Web đa dạng về mặt nội dung cũng như hình thức Tuy
nhiên cùng với sự đa dạng và số lượng lớn thông tin như vậy đã nảy sinh vấn đề quá tải thông tin Đối với mỗi người dùng chỉ một phần rất nhỏ thơng tin là có ích, chẳng hạn có
người chỉ quan tâm đến trang Thể thao, Văn hóa mà khơng mấy khi quan tâm đến Kinh tế Người ta không thể tìm tự kiếm địa chỉ trang Web chứa thông tin mà mình cần, do vậy địi hỏi cần phải có một trình tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ trang Web có nội dung giống với yêu cầu của người tìm kiếm Hiện nay chúng ta đã làm quen với một số các tiện ích như vậy đó là: Yahoo, Google, Alvista,
Máy tìm kiếm là các hệ thống được xây dựng có khả năng tiếp nhận các yêu cầu tìm kiếm của người dùng (thường là một tập các từ khóa), sau đó phân tích và tìm kiếm trong cơ sở dữ liệu đã có sẵn và đưa ra các kết quả là các trang web cho người sử dụng
Cụ thé, người dùng gửi một truy vấn, dạng đơn giản nhất là một đanh sách các từ khóa, va
máy tìm kiếm sẽ làm việc để trả lại một danh sách các trang Web có liên quan hoặc có chứa các từ khóa đó Phức tạp hơn, thì truy vấn là cả một văn bản hoặc một đoạn văn bản
hoặc nội dung tóm tắt của văn bản
Trang 25
2.5.2 Mơ hình biểu diễn văn bản trong máy tìm kiếm
Như đã được giới thiệu, mơ hình vector là mơ hình biểu diễn phổ biến nhất trong
các CSDL văn bản Tuy nhiên, cịn có một các biểu diễn khác cũng thường được sử dụng,
đặc biệt trong các máy tìm kiếm, đó biểu diễn theo mơ hình index ngược (inverted index)
Với một từ khoá trong câu hỏi của người dùng, thơng qua mơ hình index ngược hệ thống cơ sở dữ liệu văn bản sẽ nhanh chóng xác định được tập hợp các văn bản chứa từ khóa đó
và các vị trí xuất hiện của từ khóa đó trong các văn bản kết quả
Ở dạng đơn giản nhất, mô hình index ngược có dạng như được mô tả như hình
sau:
document offset
YY
Inverted Index Brucket
Hình 4 Mơ hình index ngược
Trong mơ hình này, tồn tại tập hợp V (được gọi là ¿ừ điển) gồm tất cả các từ khóa
trong hệ thống: các từ khóa trong V được lưu trữ theo danh sach Inverted Index Mỗi một
từ khóa v; trong V liên kết với một con trỏ b(v;) chỉ dẫn tới một cấu trúc dữ liệu, được gọi
là brucket, là một danh sách chứa tất cả các bản ghi mô tả văn bản chứa từ khóa v; và vị
trí xuất hiện của từ khóa vị trong văn bản đó (hình 2) Tồn tại một số giải pháp tổ chức từ điển V hiệu quả nhằm cho phép lưu trữ V ở bộ nhớ trong, chẳng hạn V thường được tổ
chức theo dạng bảng băm để tăng hiệu quả truy cập Nếu như brucket được lưu ngay trong bộ nhớ trong thì việc thay đổi chỉnh sửa các brucket được thực hiện rất dé dàng
Trang 26
Tuy nhiên, điều này là khơng khả thi do kích thước của chúng thường khá lớn so với kích thước bộ nhớ trong Vì vậy, các brucket (cũng như nội dung các văn bản) được lưu trong đĩa cứng Để các cơ sở dữ liệu văn bản có khả năng quản lý được một lượng lớn các trang
văn bản thì cần có các thuật tốn chuyên biệt nhằm đảm bảo việc thao tác tới các brucket trên đĩa cứng được nhanh chóng
CSDL văn bản sử dụng mơ hình index ngược cho khả năng tìm ra các trang
văn bản có chứa từ khóa vị cho trước là khá đơn giản Đầu tiên, hệ thống truy cập vào
“inverted index” dé lay b(v;) và sau đó duyệt danh sách theo các con trỏ của b(v;) để lấy được các trang văn bản Trường hợp câu truy vấn có dạng một biểu thức phức tạp có
nhiều từ khóa được kết nối với nhau theo các phép tốn lơgic như AND, OR, NOT thi
công việc tìm kiếm phức tạp hơn Với câu truy vẫn có k từ khóa, thuật toán thực hiện việc
lấy các trang văn bản tương ứng với mỗi từ khóa (dựa trên thuật tốn tìm kiếm theo từ khóa nói trên) và nhận được k danh sách trang văn bản Kết quả trả lời câu truy vấn nhận được bằng cách kết hợp k danh sách này tương ứng với biểu thức lôgic đã cho
Trong mọi trường hợp, sử dụng biểu diễn index ngược thì tìm kiếm văn bản đáp
ứng câu hỏi thông qua từ khố sẽ có tốc độ rất nhanh
Trang 27
Chuong 3 BIEU DIEN VAN BAN SU DUNG CAC KHÁI NIEM MO
Trong chương này chúng tơi sẽ trình bày một số khái niệm cơ bản về tập mờ, tiến hành định nghĩa các khái niệm mờ và một số tính chất của các khái niệm mờ thơng qua việc tích hợp các từ khóa và mối quan hệ giữa chúng với nhau Từ đó, sẽ giới thiệu
phương pháp biểu diễn văn bản theo khái niệm mờ 3.1 Lý thuyết mờ
Có thể nói cho đến nay, phần lớn các thành tựu của khoa học của loài người đều
dựa trên lập luận logic rất chặt chẽ mà nền tảng của các lập luận này là dai sé logic Bool
Trong đại số logic Bool mọi toán hạng, biểu thức chỉ có giá trị 0 (false) hoặc 1 (true) Tuy nhiên trên thực tế điều này không luôn luôn đúng, nhiều hiện tượng trong tự nhiên và xã
hội không thể biểu diễn rõ ràng như vậy Để có thể phản ánh đúng bản chất của các sự
vật, hiện tượng diễn ra trong thực tế, buộc người ta phải mở rộng đại số Bool để sao cho
các toán hạng, các biểu thức có thể nhận giá trị không chỉ là 0 hoặc 1 mà chúng có thể nhận giá trị nào đó nằm giữa 0 và 1
Một cách tự nhiên để xây dựng lí thuyết mờ, người ta phải đi từ những khái niệm nguyên thuỷ nhất Giống như trong toán học, một trong những khái niệm nguyên thuỷ của toán học là tập hợp, trong lí thuyết mờ người ta đi từ xây dựng tập mờ
3.1.1 Tập mờ
Trong toán học truyền thống khái niệm tập hợp được phát biểu như sau:
Cho tập hợp X va A c X khi đó ta có thể xây dựng một hàm, được gọi là hàm đặc
trưng, xác định các phần tử của tập X như sau: Xét wp: X — {0,1 } với x e X thì:
u(x)= I nếu x e A; u() =0 nếu x ¢ A;
Hàm đặc trưng H(x) rõ ràng là hàm xác định các phần tử của tập A Nhờ hàm I(x)
ta có thể nói tập A là tập gồm những phần tử x mà p (x)=1 Bay gid tap A có thể biểu diễn
một cách khác qua các phần tử của tập X:
Trang 28
A={Œ&, u&)=l)|x e X}
Mở rộng khái niệm tập hợp của toán học học cổ điển nêu trên, Lofti Zadeh xét hàm lu trên toàn đoạn [0, 1]
Định nghĩa 3.1: Tập mờ
Cho X là một tập hợp A được gọi là một tập mờ trong X nếu: A = {(x, Ha(x))|
xeX} trong d6 p(x) là hàm xác định trên đoạn [0,1], HẠ: X > [0,1] Ham tạ được gọi là
hàm thuộc cua A còn kẠ(%) là một giá trị trong đoạn [0,1] được gọi là mức độ thuộc cla x trong A
Biểu diễn tập mờ
Khi X là tập các điểm rời rạc xị, xạ, .xạ thì tập mờ A có thể biểu điễn bằng cách liệt kê A = {(X1, HA@I)), (Xa; MA(X2)), (Xa ; MA(Xa))}
Hoặc được ký hiệu là:
A = (XI) Xi † HA(%X2)/ xX: + + HA(Xn) Xa
Trường hợp X liên tục thì A được kí hiệu là:
A= Í_,hŒ)/x Vi du:
Cho X là tập các điểm tổng kết trung bình các mơn học của sinh viên Qua thống kê người ta thấy rằng :
0% số người coi một sinh viên là giỏi khi điểm tổng kết đạt dưới 7.0
5% số người coi một sinh viên là giỏi khi điểm tổng kết đạt điểm từ 7.0 đến 7.5 10% số người coi một sinh viên là giỏi khi điểm tổng kết đạt đến 8.0;
20% số người coi một sinh viên là giỏi khi điểm tổng kết đạt đến 8.5;
80% số người coi một sinh viên là giỏi chỉ khi điểm tổng kết đạt từ 9 đến 9,5 100% số người coi một sinh viên là giỏi khi điểm tổng kết đạt đến điểm 10
Bây giờ cần biểu diễn tập các điểm trên X, được ký hiệu là tập A, để mô tả một
"sinh viên giỏi" Với kêt quả thông kê như trên, không thê dùng khái niệm tập hợp theo
Trang 29
quan niệm truyền thống để biểu diễn tập A Trong trường hợp này, khái niệm tập mờ là rất hữu dụng và A chính là một tập mờ Nếu xét X chỉ gồm các đại lượng hữu hạn, X =
{7, 7.5, 8.0, 8.5, 9.0, 9.5, 10.0}, thì tập mờ A được biểu diễn như sau:
A={ (7, 0.05),(7.5,0.05),(8.0,0.1), (8.5, 0.2), (9.0,0.8) (9.5,0.8),(10,1.0 ) }
Hoặc:
A= 0.05/7 + 0.05/7.5 + 0,0.1/8 + 0.2/8.5 + 0,0.8/9 + 0.8/9.5 + 1.0/10
Nếu xét X là một khoảng liên tục X = [7.0, 10] thì ta có thể biểu diễn đồ thị hàm
thuộc của A như sau:
70 7S 80 85 %0 9ã lo Hình 5: Đồ thị hàm phụ thuộc tập mờ A 3.1.2 Các phép toán trên tập mờ
s* Giao của hai tập mờ
Cho X là tập hop, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là Hạ, Ha Giao của hai tập mờ A và B, ký hiệu Ar¬B, là một tập mờ có hàm thuộc HẠ„¬s xác định như sau:
HA-p(X) = min(HA(x), He(x)) VxeX
s* Hợp của hai tập mờ
Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần luợt là Ha,
Ha Hợp của hai tập mờ A va B trong X, ky higu AUB, 1a m6t tap mo cé ham thudc Haus
xác định như sau:
HA.p(X) ) = max(HA(X), Hạ(X)) VxeX
Trang 30
+* Tích đại số của hai tập mờ
Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là
HA(%), Hp(X) Tích đại số của hai tập mờ A và B trong X, ký hiệu A.B là một tập mờ có hàm thuộc được xác định như sau:
Hap(X) = HA(X).Hn(X) VxeX
+* Tổng đại số của hai tập mờ
Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là HẠ,
up Tong đại số của hai tập mờ A và B trong X, ký hiệu A+B là một tập mờ có hàm thuộc
được xác định như sau:
HA+s(X) = Ha(X) + Ha(X) - HA(X).Ha(X) VxeX
s* Phần bù của một tập mờ
Cho A là tập mờ trong X có hàm thuộc hạ Phần bù A của A trong X là một tập mờ có hàm thuộc xác định như sau:
wạ(x)= l - HA(x) VxeX % Tổng Tời của hai tập mờ
Cho X là tập hop, A va B là hai tập mờ trong X Tổng rời của hai tập mờ A và B trong X, ký hiệu A@B định nghĩa như sau:
A@B = (ANB) U (ANB)
s* Phép trừ hai tập mờ
Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là HẠ, a Phép trừ của hai tập mờ A và B trong X ký hiệu A\B được định nghĩa như sau:
A\WB=AnB
s* Cho X là tập hợp, A và B là hai tập mờ trong X, có các hàm thuộc lần lượt là hạ,
us A goi la nam trong B, ky higu ACB néu ham thuộc thỏa mãn:
HA(X) < tn(x) VxeX
Trang 31
s* Cho X là tập hợp, A và B là hai tập mờ trong X, có các hàm thuộc lần lượt là hạ,
up A gọi là bằng B, ký hiệu A=B nếu và chỉ nếu:
ua(x) = ta(x) VxeX
s* Tập hợp mức ơ của tập mờ
Cho œ [0,1], X là tập hợp, A là một tập mờ trong X có hàm thuộc kia Tập hợp Aq thoa mãn A„={xeX | tA(x) > œ} gọi là tập hợp mức œ của tập mờ A
+* Khoảng cách Euclid trên tập mờ
X là tập hợp có hữu hạn n phần tử, A và B là hai tập mờ trên X Khoảng cách Euclid (trong không gian n chiều) trên tập mờ được tính như sau:
(A,B) = |X 146.) ~ Ha 6)"
Khoang cach €(A,B) được gọi là một chuẩn Euclid
3.1.3 Quan hệ mờ
Định nghĩa 3.2: Quan hệ mờ trên tích Đề-các
Cho X,Y là hai tập và xeX, yeY Ký hiệu (x,y) là cặp thứ tự nằm trong tích Đề-
các XxY Tập mờ R = {(x,y), tạ(x.y)|(x,y) e XxY} được gọi là một quan hệ mờ trên XxY với hàm thuộc: tạ(x,y): XxY —> [0,1]
Nếu R là một tập mờ trong X = X¡xXax xXạ thì R được gọi là một quan hệ mờ n ngôi
Định nghĩa 3.3: Quan hệ mờ trên tập mờ
Cho X,Y là hai tập mờ và xeX, yeY Ký hiệu (x,y) là cặp thứ tự nằm trong tích Dé-cdc XxY R = {(x,y), u(x y)|(x,y) e XxY} được gọi là một quan hệ mờ trên tập mờ A, Bnếu: Iạ(x,y) <utA(x,y), VXxY và tis(%X,y) Sta(x,y) VXxY
3.1.4 Các phép toán trên quan hệ mờ
Ngoài một số phép toán giống như trên tập mờ trong tích Đề-các: Phép hợp, giao, tổng đại số, tích đại số , người ta còn đưa ra thêm một số phép toán khác trong quan hệ mờ như sau:
Trang 32
s* Phép hợp thành max-min
Giả sử R¡ là quan hệ mờ trong XxY, R; là quan hệ mờ trong YxZ Phép hợp thanh max-min ctia hai quan hé mo Rj, R; (kí hiệu R¡ o Rạ) là một quan hệ mờ trong XxZ thoả mãn:
nioR2(%,Z) = maxy(min(U¡(X,y), Hạa(y,Z))) VxeX, VyeY, VzeZ,
x—Ä ,y „z
XS
Z
RoR,
s* Phép hợp thành max-tich
Giả sử R¡ là quan hệ mờ trong XxY, R; là quan hệ mờ trong YxZ Phép hợp
thành max-tích của hai quan hệ mờ Rị, R; (kí hiệu R;.R2) là một quan hệ mờ trong XxZ
thoả mãn:
HRiR2(X,Z) = maxy(Hn¡(X,Y) Hạ2(y,2)) VxeX, VyeY, VzeZ s* Phép hợp thành max-trung bình
Giả sử R¡ là quan hệ mờ trong XxY, R; là quan hệ mờ trong YxZ Phép hợp thành max-trung bình của hai quan hệ mờ R¿, R; (RlavR2) là quan hệ mờ trong XxZ thoả man:
H RtavR2(X%Z) = MaXy((LRi(X,y)+HRay,Z))/2) VxeX, VyeY, VzeZ “> Phép hop thanh max-*.(max-* composition) (* là tốn tử hai ngơi bất kỳ)
Giả sử Rị là quan hệ mờ trong XxY, R; là quan hệ mờ trong YxZ Phép hợp thành max-* của hai quan hệ mờ Rạ, R¿ (R¡* R;) là một quan hệ mờ trong XxZ thoả mãn:
i*R2(X,Z) = max(ti(X,y)*“Haa(y.z)) VxeX, VyeY, VzeZ s* Hàm tích hợp mờ
Khi có một tập các tập mờ và tích hợp các hàm thuộc của chúng lại, ta sẽ thu
được một tập mờ là một hàm tích hợp mờ
Trang 33
Một hàm tích hợp mờ được định nghĩa là một toán tử n ngôi như sau:
F: [0,1]" > [0,1] thoa man điều kiện:
Néu 0, 1 là hai điểm cực trị thì: F(0, ,0) = 0 và F(1, ,1)=1 và Va trong [0,1]
thi: F(a, ,a)=a
Nếu a¡ > a; thì: F(ai, ,a¡, ,an) > F(, ,a¡, ,an) (tính đơn điệu tăng của hàm
tích hợp mờ)
Một số hàm tích hợp mị:
2 IS
1 Hàm trung bình tống quát: FŒ&, X,)=? "` eR,p#0
isl 2 Ham trung bình số học: FŒ, x,) =3 @,) (p=) nia 1 3 Hàm trung bình hình học: F(x,, x„) = (x,.x; X„)"(ø > 0) 4 Hàm min: F(x,, ,X„) = min(X,,X¿, ,X„) (ø —> —œ)
5 Ham max: FŒ,, X,) = MAX(X,„X;„ Xụ) (p > +00)
3.2 Biếu diễn văn bản sử dụng các khái niệm mờ
Cách biểu diễn văn bản thông thường là sử dụng mơ hình khơng gian vector, trong đó văn bản được biểu diễn bằng một vector và mỗi thành phần của vector là một từ khóa Ở chương II, khóa luận đã nêu ra một số nhược điểm của phương pháp này: gây tốn kém, phức tạp trong việc lưu trữ, chiều của mỗi vector là rất lớn khi văn bản có nhiều từ khóa Trong phần này, chúng tơi xin trình bày một phương pháp biểu diễn văn bản mà
phần nào khắc phục được nhược điểm nêu trên, đó là phương pháp biểu diễn văn bản sử
dụng các khái niệm mờ
Trang 34
3.2.1 Khái niệm mờ
Có một tập gồm m văn bản: D=(d\, do, .đ„,)
Khí đó xác định được một tập p từ khóa: K = (ky, ky, kp)
Một khái niệm có thể là một từ khóa theo nghĩa thơng thường, trong đó gồm các từ có liên
quan đến từ khóa đó Ví dụ với khái niệm là “bệnh viện”, nó có thé bao gồm I số từ khóa:
“bác sĩ”, “y tá”, “bệnh nhân”, “ống nghe”, “thuốc”
Gọi C là tập gồm có n khái niệm liên quan đến văn bản, C được kí hiệu như sau:
C= {G, C, Cn}
Trong đó: c; là khái nệm do người dùng xác định Giả sử một khái niệm c;¡ sẽ bao
gồm các từ khóa có liên quan, œ¡ = {kị, ky, .Kp}, trong đó kị là các từ khóa trong tập từ điển và có liên quan đến khái niệm c¡ Trong ví dụ trên chúng ta có “bệnh viện” = {“bác sĩ”, “y tá”, “bệnh nhân”, “ống nghe”, “thuốc”}
Định nghĩa 3.3: Khái nệm mờ
Một tập mờ tương ứng với khái niệm trong đó hàm thuộc của nó được xác định bằng độ quan trọng của các từ khóa có liên quan tới khái niệm đó được gọi là một khái
niệm mờ, ki hiéu c’ Ta có thể biểu diễn khái niệm mờ qua tập từ khóa như sau:
c= {(Œk¡.H, Œ;)), (k;,H,(k;)) (k,, tr, (k,))}
Trong đó:
0 nếu k; không thuộc c wk) =‡ lnếu k; thudc hoan toan vao c
He (k;) néu k; thuộc khái niệm c Từ khái niệm mờ, ta có định nghĩa sau:
Định nghĩa 3.4: Hàm tích hợp khái niệm mờ:
Một hàm tích hợp khái niệm mờ là hàm tích hợp các hàm thuộc của các khái niệm mờ Hàm tích hợp này được kí hiệu E: [0,1]? — [0,1], thỏa mãn các tính chất của hàm tích hợp mờ:
Trang 35
1 F(i,Œ&,), ,w,Œ,)) e[0,1]
2 Fúi,Œ,), H,Œ;), H,Œ,)) > Fút, Œ,) ,H,Œ; ), t¿Œ,)) với w„ Œ,) > w¿Œ,), Ì=1, p
Trong đó, te(k;) biểu điễn mức độ quan trọng của các từ khóa trong văn bản Vi du:
Giả sử ta có tập từ khóa: “bệnh viện", “trường học”, “thuốc', “xe may’, ‘y ta’,
“bệnh nhân”, “ống nghe", “sinh viên”, “hoa hồng”, “điện thoại”, “bác sỹ”
K = { “bệnh viện°, “bác sỹ”, “trường học, “thuốc”, ‘xe may’, *y tá”, “bệnh nhân”,
“ống nghe’, “sinh viên”, ‘hoa hong’, “điện thoại”, “bác sỹˆ} với độ liên quan đến văn bản được xác định bằng một hàm đánh chỉ số tương ứng:
tx= {uCbệnh viện”), H(“bác sỹ”), utrường học”), H(“thuốc”), w(*xe máy”), Hy
tá”), u(“bệnh nhân”), (‘ng nghe’), (‘sinh vién’), j(‘hoa hồng”), u(*điện thoại”), H(“bác
sỹ)
= {0.8, 0.7, 0.1, 0.4, 0.0, 0.3, 0.6, 0.3, 0.0, 0.1, 0.0, 0.2}
Ta tìm được một cụm từ khóa có liên quan đến nhau trong trong văn bản: {“bệnh
viện”, ‘bac sy’, “thuốc', “bệnh nhân”, “ống nghe’}
Chọn từ khóa ‘bénh vién’ làm khái niệm, thì khái niệm mờ c* = “bệnh viện” được
biểu diễn như sau:
“bệnh viện" = {(“bác sy’, 0.7), (thuốc, 0.4), (“bệnh nhân", 0.6), (“ống nghe”, 0.3)}
Khi đó, độ quan trọng trong văn bản của “bệnh viện” được xác định bởi hàm tích
hợp khái niệm mờ:
u bệnh viện") = F(t (“bác sỹ), u(“thuốc`), (“bệnh nhân), u*ống nghe)
Nếu hàm tích hợp là hàm MAX thì:
u€ bệnh viện”) =MAX(0.7, 0.4, 0.6, 0.3) = 0.6 Nếu hàm tích hợp là hàm trung bình thì:
u€ bệnh viện”) = AVEG(0.7, 0.4, 0.6, 0.3) = 0.55
Trang 36
3.2.2 Biểu diễn văn bán
Với cách định nghĩa khái niệm mờ như trên, ta có thể biểu diễn văn bản bằng
cách xem nó như một vector có các thành phần là các khái niệm mờ thay vì một vector
với các thành phần là các từ khóa
Khi đó, một văn bản d sẽ được biểu diễn dưới dạng sau:
d=(Gi)/e¡ + H(c;`)/e¿` + + H(Ca )/(€s )
Trong đó u(e¡`) là là mức độ quan trọng của khái niệm mờ c*; của văn bản H(c;`)
được xác định bằng hàm tích hợp mờ của tập các từ khóa liên quan đến khái niệm c;`,
Chú ý rằng trong phương pháp biểu diễn này, một từ khóa cũng có thể coi như là
một khái niệm mờ khi đồng nhất từ khóa với khái niệm mờ
Nếu trong các khái niệm, khái niệm nào có các từ khóa liên quan đến văn bản lớn hơn thì trọng số của nó sẽ lớn hơn, và như vậy ngữ nghĩa của nó cũng sẽ rõ ràng hơn
Một vấn đề đặt ra là tìm tập các từ khóa biểu diễn cho một khái niệm mờ, các từ
khóa này phải liên quan đến nhau và có nghĩa tương tự nhau Việc phát triển một thuật
toán như vậy hiện nay còn là một vấn đề Thơng thường có hai cách chính như sau:
1 Xác định tập các khái niệm bằng tri thức con người: Người dùng tự xác định các từ khóa có liên quan theo cảm nhận của mỗi người, hoặc chọn các từ khóa đại diện cho văn bản đó Việc này tuy đưa lại kết quả chính xác khá cao (Đã được thực
hiện trong các hệ lớn như Yahoo!) tuy nhiên rất mắt nhiều thời gian và công sức
2 Phát triển các thuật toán tự động: Sử dụng các kỹ thuật của ngành xử lý ngôn ngữ tự nhiên để xác định các từ khóa có liên quan với nhau Các thuật toán như vậy hiện cũng đang là một chủ đề nóng trong các bài tốn xử lý ngơn ngữ tự nhiên
Mục đích trong nghiên cứu này là chúng tôi muốn thử nghiệm việc biểu diễn xử dụng các khái niệm mờ trong bài toán phân lớp văn bản Các khái niệm mờ được xác định
trước dựa trên tập chủ đề đã được xác định trước Chỉ tiết các khái niệm mờ áp dụng được
mô tả trong phần thực nghiệm
Trang 37
3.2.3 Đề xuất giải pháp cho vấn đề đồng nghĩa
Trong văn bản, thường xuất hiện một số từ đồng nghĩa (hoặc có nghĩa gần nhau) Sự xuất hiện này sẽ làm cho việc biểu diễn văn bản khó khăn hơn vì không giảm được số
chiều của vector biểu diễn
Khóa luận này xin đề xuất một phương pháp tìm ra và xử lý các từ đồng nghĩa trong văn bản như sau:
Tìm ra từ đẳng nghĩa
Chúng tôi sử dụng sự hỗ trợ của từ điển Wordnet Wordnet là Từ điển ngôn ngữ
học cho tiếng Anh, được giới thiệu vào năm 1985 tại phịng thí nghiệm khoa học của trường đại học Princeton
Wordnet sẽ cung cấp:
" Nhóm các từ tiếng Anh thành một tập những từ đồng nghĩa gọi là synsets “_ Cung cấp những định nghĩa ngắn, tổng quát và ghi lại nhiều quan hệ ngữ
nghĩa học giữa những tập từ đồng nghĩa này
" Phân biệt động từ, danh từ, tính từ bởi chúng đi theo những quy tắc văn phạm
khác nhau
Muc dich: Tao ra sự két hợp giữa từ điển và danh sách các từ đồng nghĩa, hỗ trợ việc phân tích văn bản và ứng dụng trong AI
Vi du:
Computer: a machine for performing calculations automatically syn: data processor, electronic computer, information processing system
Từ một từ khóa trong tập các từ khóa, kết hợp với từ điển wordnet, ta tìm ra
những từ đồng nghĩa với từ khóa đó Tìm giao của 2 tập: Tập từ khóa và tập từ đồng nghĩa, chúng ta sẽ tìm ra được một nhóm các từ đồng nghĩa trong tập từ khóa đã có
Xử lý từ đồng nghĩa:
Với tập từ đồng nghĩa xuất hiện trong văn bản mà ta vừa tìm được, bằng cách sử
Trang 38
dụng hàm tích hợp mờ, ta tích hợp chúng lại trong một khái niệm chung Việc xử lý văn bản thay vì việc tính tốn trên các từ khóa, sẽ tính tốn trên một khái niệm này Làm như vậy, ta sẽ giảm bớt được số chiều của vector biểu diễn, giảm sự phức tạp trong tính tốn và tránh gây nên sự khó hiểu cho người sử dụng khi bắt gặp các từ đồng nghĩa trong văn bản