Một số khái niêm cơ bànTrước hết chúng ta tìm hiểu một cách sơ lược các thuật ngữ và khái niệm cơ bản đợc đề cập trong luận vãn này: Khai phá dữ liệu và khai phá trí thức trong cơ sở dữ
Trang 2TÓM TÁT LUẬN V Ă N 3
LỜI CẢM Ơ N 7
CHUÔNG I TỔNG Q U A N 8
1.1 Xử lý vãn bản và các khái niệm cơ bản 8
1.1.1 Xử lý văn bản 8
1.1.2 Một số khái niệm cơ b ả n 10
1.2 Các bài toán trong xử lý vãn bản 14
1.2.1 Tìm kiếm văn b ả n 14
1.2.2 Phân lớp văn bàn 15
1.2.3 Phân cụm văn bản (Text C lu sterin g) 16
1.2.4 Dãn đường vãn bản (Text R ou tin g) 17
1.2.5 Các bài toán khác 17
1.3 Mộl sỏ vấn clổ vổ biổu diễn dong xử lý vãn b a n 17
CHUÔNG 2 CÁC PHUÜNG PHÁP lilỂ U D lỄ N V ẢN B Ả N 20
2.1 Mô hình không quan v e c to r 20
2.1.2 Mô hình B oolean 23
2 1.3 Mô hình tần s ố 24
2.2 Loại bỏ các từ trong biểu diễn văn b ả n 25
2.2.1 Loại bỏ cá c từ d ừ n g 25
2.2.2 Định luật Z ip f 26
2.3 Phương pháp biểu diễn dựa trên các khái niệm m ờ 28
2.3.1 Tập m ờ và các phép toán cơ s ờ 28
2.3.2 Quan hệ m ờ 33
2.3.2 Biểu diễn văn bản sử dụng các khái niệm mờ 38
CHUÔNG 3 PHÂN LỚP VÀ TÌM KI Ếm v ă n b ả n 46
3.1 Phân lớp văn b ả n 46
3 1 1 Thuật toán học cíly quyết định 46
3 1.2 Phân lớp VĨU1 bíìn sử dụng cfly tịiiyếl định 56
3.1.3 Hiệu suất phân lớp văn bản 58
3.2 Tìm kiếm văn bàn 59
3.2.1 Một số vấn dể ch u n g 59
3.2.2 Thuật toán sắp loại văn b ả n 60
Đoàn Sơì) - Luận văn Thạc s ĩ - Khoa Công nghệ, ĐHQG Hỉ) Nội 2002
Trang 3CHUƠNG 4 MỘT s ố KÊT Q U Ả THỤC N G H IỆ M : 63
4.1 Phân lớp văn b ả n 63
4.1.1 Thời gian c h ạ y 65
4.1.2 Đại lượng precision/recall 66
4.1.3 Hệ thống các lu ậ t 69
4.2 Tìm kiếm vãn bản 70
KẾT LUẬN V À HUỚNG PHÁT TR IEN 72
TÀI LIỆU THAM KH ẢO 74
Đoàn Sơn - Luận văn Thạc s ĩ- Khoa Công nghệ, ĐHỌGHà Nội 2002
Trang 4CHUÔNG 1.TỔNG QUAN
T r o n g c h ư ơ n g n à y , c h ú n g tôi g iớ i th iộu tổ n g q u a n vể x ừ lý văn b ản và c á c
k h á i n iệ m c ơ b ả n , c á c b à i toán q u a n trọ n g tro n g x ừ lý v ă n b àn N h ữ n g v ấ n đ ề đặt ra tro n g x ử lý v ă n b ản và c á c h tiế p c ậ n g iả i q u y ế t d o c h ú n g tô i đ ề xu ất.
1 1 X ử lý văn b àn và c á c k h ái n iệ m c ơ bản
1 1 1 X ử lý văn b ản
T r o n g c á c d ạ n g d ữ liệ u p h ổ b iế n nhất h iệ n n a y thì văn b ả n là m ộ t tro n g
n h ũ n g d ạ n g p h ổ b iế n n h ấ t, n ó c ó m ặt ờ k h ấp m ọ i nơi và c h ú n g ta th ư ờ n g x u y ê n bắt
g ặ p h à n g n g à y D o đ ó , c á c b ài to á n x ử lý ván bản đ ã đ ư ợ c đ ặt ra từ k h á lâu và h iệ n
n a y v ẫ n là m ộ t tro n g n h ữ n g vấn đ é h a y Irong k hai phá d ữ liệ u t e x t, tro n g đ ó c ó
n h ữ n g b à i to á n đ á n g c h ú ý n h ư tìm k iế m văn b ả n , phân lớ p vãn b ả n , phân c ụ m vãn
b à n , h o ặ c d ãn đ ư ờ n g v ă n b à n | 3 | [ 4 | | 5 | | 6 | | 1 2 |[ 1 3 ] | I 4 | | I 5 | [ 2 6 | | 2 8 | | 2 9 |
C á c v ã n b ản d ư ợ c tạp h ợ p tro n g C Ư s ở d ữ liệ u text và c ó thổ c h ia làm hai loại sau :
Dạng không có cấu trúc (unstructured): N h ữ n g văn b àn th ô n g th ư ờ n g m à
c h ú n g ta th ư ờ n g d ọ c h à n g n g à y đ ư ợ c thổ h iệ n dư ớ i d ạ n g n g ô n n g ữ lự n h iê n c ủ a c o n
c ô n g v iệ c x á c đ ịn h văn bản h o ặ c m ộ t p h án c ủ a vãn bản v à o m ộ t h a y Iiliiéu lớ p x á c
đ ịn h trư ớ c và Hiếu nghĩa vắn biin (T e x l U n d e r s ta n d in g ) b a o g ô m c á c c ô n g v iộ c phứ c tạp h ơ n đ ể x ử lý n ộ i d u n g c ủ a v ă n bàn n h ư tó m tắt v ă n bản (T e x t S u m m a r iz a lio n
h o ặ c A b s t r a c t io n ) , ch ắ t lọ c th ô n g tin (T e x t E x tr a c tio n ),
Đoàn Sơn - Luận văn Thạc s ĩ - Khoa Công nghẹ, ĐHQG Hà Nội 2002
Trang 5c á c h ệ tìm tin (S e a r c h E n g in e ), h o ặ c (ro n g bài to á n tìm k iế m văn b à n (T c x l
R e t r ie v a l) , m ộ t tr o n g n h ữ n g lĩn h vự c d ư ợ c q u a n tâ m nhất h iệ n n a y C h ẳ n g h ạn tron g
h ệ tìm k iế m n h ư Y a h o o , A lta V ista , G o o g le đ ề u tổ c h ứ c d ữ liệ u th e o c á c n h ó m và
th ư m ụ c , m ỗ i n h ó m lạ i c ó th ể c ó n h iể u n h ó m c o n n ằm tro n g n ó H ệ A lta V ista c ò n tíc h h ợ p th ê m c h ư ơ n g trình d ịc h tự đ ộ n g c ó th ể d ịc h c h u y ể n đ ổ i s a n g n h iề u th ứ tiế n g
"tf ' Srẹe tfap - (n* e-«nk ■ tte li* , Kwtnlt« HệW y MI BÜktaL Loy» Hmtci KCn„
I H * ? A u c lio iu A i t M CUf>ifiỂ<fa ShttMỂBC T iầV «! I i B g gP a M *P f M * ầ U H tw j S port» W à à t h »
C*MM« C i n m íh ii Ctóa &róãt»i ũaiỉioc Miil M ia to Mttttnnj Hsük Pin t m k PjûtkSuKh Phgjfii
P mwm I lût Book Mftm My Yâhool P éy D itk I F«M flÜÉjl m Mont! M ttfic £|fe Xï
ïüliaoisbglwtuil 5 ¿*y» Uft nniil CHnsIm*!
Srtit l i r a i Asdaa, fiMÉM
Trang 61 . 1 .2 Một số khái niêm cơ bàn
Trước hết chúng ta tìm hiểu một cách sơ lược các thuật ngữ và khái niệm cơ bản đợc đề cập trong luận vãn này:
Khai phá dữ liệu và khai phá trí thức trong cơ sở dữ liệu
Khai phá dữ liệu, hay data mining, được định nghĩa như là quá trình phát hiện các tri thức đáng chú ý tìr các dữ liệu lớn được lưu trữ trong cơ sở dữ liệu, data warehouse hay các kho chứa thông tin khác [13].
Khai phá dữ liệu liên quan tới quá trình chắt lọc hay khai phá tri thức từ những lượng lớn dữ liệu Một ví dụ hay đtrợc nêu ra là việc khai thác vàng từ đá và cát, khai phá dữ liệu được ví như công việc “dãi cát tìm vàng” trong một tập hợp lớn các dữ liêu cho trước Thuật ngữ khai phá dữ liộu(data mining) ám chỉ viộc tìm kiếm một tập hợp nhỏ có giá trị từ mội số lượng lớn các dữ liệu thô Có nhiểu thuật ngữ hiện dược dùng cũng có nghĩa iưưiig lự với từ data milling như knowledge milling (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (Phân tích dữ liệu/mẫu), data archaeology (khảo cổ dữ liệu), data dredging (nạo vét
dữ liệu)[13|.
Hiện nay, thuật ngữ khai phá dữ liệu(data mining) được dùng quá quen thuộc
và người ta thường đồng nhất với một thuật ngữ khác là phát hiện tri thức trong cơ
sờ dữ liệu — Knowledge Discovery in Databases (KDD) Thực ra, khai phá dữ liệu chỉ là một bước trong quá trình KDD và KDD dược xem như 7 quá trình khác nhau theo thứ tự như sau:
1 Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết.
2. Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại.
3 Lựa chọn dữ liộu: Các dữ liộu có liên quan tới quá trình phân tích được lựa chọn từ cơ sờ dữ liộu.
4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý.
Đoàn Sơn - Luận vin Thạc s ĩ - Khoa Công nghệ, ĐHỌGHắ Nội 2002
Trang 75 Khai phá dữ liệu: Là một trong nhưng bước quan trong nhất, trong đó sử dụng những phương pháp thông minh đổ chắt lọc ra những inẫu dữ liộu.
6 uòc lượng mẫu: Quá trình đánh giá các kết quả tìm dược thông qua các độ
đo nào đó.
7 Biểu diễn tri thức: Quá trình này sử dụng các kĩ thuật biểu diễn và thể hiện trực quan các tri thức cho người dùng.
Hình 2: Data Mining như là một quá trình trong khai phá tri thức [11].
Đoàn Sơn - Luận vãn Thạc s ĩ- Khoa Công nghệ, ĐHỌGHà N ộ i2002
Trang 8H ìn h 2 là s ơ đ ồ c á c q u á trình tro n g K D D , c h ú n g ta c ó th ể th ấ y rằng k hai phá
d ữ liệ u là m ộ t q u á trình tr o n g K D D , c á c q u á trình c ó sự tư ơ n g tá c , b ổ s u n g c h o nhau
đ ể rút ra tri th ứ c , n h ữ n g q u i luật từ tẠp c ơ s ử d ữ liệ u rất lớ n K h a i phá d ữ liệ u là q u á trình đ ư ợ c c o i là q u a n tr ọ n g nhất vì q u á trình n à y sử d ụ n g c á c p h ư ơ n g p h á p h ọ c m á y
v à o x ử lý d ữ liệ u
C ó n h iể u c á c h tổ c h ứ c d ữ liệ u k h á c n h a u , c á c h p h ổ b iế n v à tru y ền th ố n g là c ơ
s ờ d ữ liệ u q u a n h ệ , n g o à i ra c ò n c ó c ơ s ở d ữ liệ u h ư ớ n g đ ố i tư ợ n g , c ơ s ở d ữ liệ u
k h ô n g g ia n , c ơ s ở d ữ liệ u f u llte x t Đ ố i vớ i m ỗ i d ạ n g c ơ s ờ d ữ liệ u lại c ó n h ữ n g k í
th u ật x ử lý k h á c n h au v à m ụ c đ íc h đ ể k hai phá d ữ liệ u k h á c nhau tu ỳ th e o đ ặ c thù và tíc h c h ấ t c ủ a d ữ liệ u C h ú n g ta s ẽ x c m x é t c á c bài toán v é x ử lý v ă n b ản ở p h án sau
Tìm kiếm văn bản(Information Retrieval, Text Retrieval)
T h u ậ t n g ữ I n fo r m a tio n R e tr ie v a l xuất h iệ n khá s ớ m , c ó lliổ tạm d ịc h là tìm
k iế m t h ô n g tin , c á c th ô n g tiu ở day c ó thổ là d ạ n g vãn b à n , d ạ n g h ìn h ảnh h o ặ c Am
th a n h , N h ư n g n g ư ờ i ta th ư ờ n g d ù n g và h iể u thuật n g ữ n à y n h ư là tìm k iế m văn
b ản (B a o g ồ m v iệ c tìm k iế m và sắ p th ứ tự văn b ả n ), đ ặ c b iệ t là tr o n g c á c c ô n g c ụ tìm
k iế m (S e a r c h E n g in e ) Đ ô i k h i, thuật n g ữ n à y đ ư ợ c d ù n g như là to à n b ộ q u á trình từ
v iệ c x ử lý v ă n b ả n tới p h ân lớ p và tìm k iế m văn bản [ 1 4 ] [ 2 2 Ị
T r o n g lu ậ n vãn n à y c h ú n g tôi s ử d ụ n g thuật n g ữ tìm kiếm văn bản th e o n g h ĩa
b a o g ổ m c à tìm k iế m v à s ắ p x ế p th e o th ứ tự c á c v ă n b ản tìm k iế m đ ư ợ c th e o c â u h ỏ i
n g ư ờ i d ù n g đ ư a v à o
Phân lớp văn bàn (Text Categorization, Text Classification)
T r o n g h ai th u ật n g ữ Irên thì T e x t C a te g o r iz a tio n d ư ợ c d ù n g p h ổ b iế n h ơ n , n ó
đ ư ợ c đ ịn h n g h ĩa n h ư là q u á trình g á n c á c văn bản v à o m ộ t h a y n h iề u lớ p đ ư ợ c đ ịn h
n g h ĩa trư ớ c d ự a trên n ộ i d u n g c ủ a c á c văn bàn đ ó [ 8 ) 1 1 2 II 13 II 1 4 ||2 X |.
Công cụ tìm kiếm (Search Engine)
C ô n g c ụ tìm k iế m là m ộ t hộ p h ụ c vụ c h o v iộ c lìm k iế m Ih ổ n g tin , c h ẳ n g hạn
n h ư A lt a v is t a , G o o g le , Y a h o o , M ộ t c á c h c h ín h x á c h ơ n , c ô n g c ụ tìm k iế m là thố
Đoàn Sơtì - Luận văn Thạc s ĩ- Khoa Công nghệ, ĐHQGHà N ộ i2002
Trang 9hiện cụ thể của quá trình tìm kiếm vãn bản Một công cụ tìm kiếm chuẩn được V.Rijsbergcn [22] mô tả gồm các thành phần sau: Đầu vào, quá trình xử lý và đílu
ra Sư dổ mội hç tìm tin chuẩn được
mô tả trên hình 3.
Đầu vào là các câu hỏi vẻ văn bản cần tìm kiếm Như vậy, nảy sinh ngay vấn đề là làm thế nào đổ các cAu hỏi này phàn ánh được đúng nội dung của vãn bàn cần yêu cáu Dễ dàng thấy rằng công đoạn này là giai đoạn hết sức quan trọng, quyết định phần lớn nội dung tìm kiếm sau này Trong đa sô' các công cụ tìm kiếm hiện nay, các câu hỏi mới ở dạng là các từ khoá.
Sau đó, các câu hỏi được xử lý bời bộ xử lý Quá trình xử lý này có thể là tập Irung trên một máy hoặc phân tán trên mạng.
Trong quá trình tìm kiếm, sau khi cho ra kết quả, một hệ tìm tin chuẩn còn có quá trình phàn hồi với người dùng Hệ phải cập nhạt đirợc các yêu cầu khác nhau của người dùng trong quá trình tìm kiếm để cho ra các kết quả mong đợi Điểu này
có nghĩa là các kô't quà sau khi dược tìm kiếm sẽ dirợc người dùng xử lý, cung cốp thêm các yêu cầu mới (nếu có) và hệ có nhiệm vụ câp nhật các yêu câu này đổ phục
vụ cho các quá trình tìm kiếm tiếp theo.
Trang 101.2 Gíc bài toán trong xử lý văn bản
Lewis trong [14] đã nêu ra một số bài toán trong xử lý văn bản, gồm có các bài toán tìm kiếm văn bàn, phân lớp, phân cụm văn bản, dAn đường văn bản, Sau đay chúng ta sẽ xem xét lừng bái toán cụ thổ.
Quá trình tìm tin được chia làm bôn quá trình chính sau:
Điínlĩ chỉ số: Các vãn bản ờ dạng thỏ cẩn được chuyển sang một dạng biổu
diễn nào đó để xử lý Ọuá trình này còn được gọi là quá trình biểu diễn văn bản, dạng biổu diễn phải có cấu trúc và dẻ dàng khi xử lý.
Định dụng câu hỏi: Người dùng phải mô tả những yôu cầu vể lấy thông tin
cần thiết dưới dạng các câu hỏi Các câu hỏi này phải được biểu diễn dưới dạng phổ biến cho các hộ tìm kiếm như nhập vào các từ khoá cần tìm (trong đa số các hệ hiện nay) Ngoài ra còn có các phương pháp định dạng câu hỏi dưới dạng ngôn ngữ tự nhiên hoặc dưới dạng các ví dụ, đôi với các (lạng này thì cần có những kĩ thuật xử
lý phức tạp hơn Trong các hệ hiện nay thì đại đa sô' là dùng cau hỏi dưới dạng các
từ khoá.
So sánh Hệ thống so sánh các câu hỏi của người dùng với các vãn bản được
lưu trữ trong cơ sờ dữ liệu và cuối cùng đưa ra một quyết định phân lớp các văn bản
có độ liên quan gần với câu hòi dira vào và thứ tự của nó Hộ sẽ hiển thị toàn bộ văn bản hoặc chỉ một phần của vản bàn.
Phản hồr Nhiều khi kết quả được trả lại ban đẩu không thoả mãn yêu cđu của
người dùng Do đó cần có quá trình phản hồi để người dùng có thể thay đổi lại hoặc nhập mới các câu hỏi của mình Mặt khác, người dùng có thể lương tác với hô vổ các
Đoàn Sơn - Luận ván Thạc s ĩ - Khôn Còng nghệ, DHQG Hà Nội 2002
Trang 11văn bản tlioả mãn yêu cầu của mình và hệ có chức năng câp nhật các vãn bản đó, quá trình này được gọi là phàn hổi liên quan (relevance feeback).
Các công cụ tìm kiếm hiện nay chủ yếu tập trung nhiẻu vào ba quá trình đầu, còn phần lớn chưa thấy có quá trình p h ản hổi, hay xử lý tương tác người dùng và máy Quá trình phản hồi hiện nay đang được nghiên cứu rộng rãi và riêng trong quá trình tương tác giao diện người máy đã xuất hiện một lĩnh vực hẹp là interface agent.
1.2.2 Phân lớp văn bản
Phân lớp văn bản được xem như là quá trình gán các văn bản vào một hay nhiều lớp văn bản đã được xác định trước Người ta có thể phân lớp các văn bản một cách thủ cỏng, tức là đọc từng văn bàn một và gán nó vào một lớp nào đó, cách này
sẽ tốn rất nhiều thời gian và công sức đối với nhiều vãn bản và do đó là không khá thi Do vây mà cần phải có các phương pháp phân lớp tự động, để phân lớp tự động người ta sử dụng các phương pháp học máy trong trí tuệ nhân tạo.
Một trong n h ữ n g ứ n g d ụ n g quan trọng n h ất của p h an lớp v ă n b ản là ứ n g d ụ n g
trong tìm kiếm văn bản Từ một tập dữ liệu đã được phân lớp, các văn bản sẽ được đánh chỉ sô' đối với từng lớp tương ứng Người dùng có thể xác định chủ đề hoặc lớp vãn bản mà mình mong muốn tìm kiếm thông qua các CÍUI hỏi.
Một ứng dụng khác của phùn lớp vãn bản là trong lĩnh vực hiểu văn bản Phân lớp văn bản có thể được sử dụng để lọc các văn bản hoặc một phần các văn bản chứa các dữ liệu cần tìm mà không làm mất đi tính phong phú của ngôn ngữ tự nhiên.
Trong phân lớp văn bản, văn bản có thể được gán vào một lớp các giá trị đúng sai (True hoặc Fal.sc, hay vãn bán thuộc hay không thuộc lớp dỏ) hoặc độ phụ thuộc của văn bản dược lính bởi mội giá trị nào đó T r u n g trưỉmg hựp có Iihiổu lớp, thì phân lớp đúng sai sẽ là VIÔC xcm một văn bàn có thuộc vào một lớp duy nhất nào
đó hay không.
Quá trình phân lớp văn bản bao gồm:
Đoàn Sơn - Luận văn Thạc s ĩ- Khoa Công nghệ, ĐHỌG Hà Nội 2002
Trang 12Điinh chỉ sớ Kĩ thuât đánh chí số vãn bàn cũng giống như trong quá trình
đánh chỉ sô' của tìm kiếm văn bản Trong phẩn này thì tốc đổ đánh chỉ số đóng vai trò quan trọng vì một số các văn bản mới có thổ cẩn dược xử lý trong thời gian thực.
Xác định bộ phần lớp: Cũng giống nlnr trong tìm kiếm văn bản, phân lớp văn
bản ycu cẩu quá trình diễn tả viộc xác định văn bản thuộc lớp nào đó như thế nào, dựa trên cấu trúc biểu diễn của nó Đối với hộ phân lớp vãn bàn, chúng ta gọi các quá trình này là bộ phân lớp (categorizer hoặc classifier) Nó đóng vai trò như những câu hỏi trong hệ tìm kiếm Nhưng trong khi các câu hỏi mang tính chất nhất thời thì
bộ phân lớp lại được sử dụng một cách ổn định và lâu dài cho quá trình phân lớp.
So sánh: Trong hầu hết các bộ phân lớp, mỗi văn bàn đểu được yêu cầu gán
đúng sai vào một lớp nào đó Sự khác nhau lớn nhất so với quá trình so sánh trong
hộ tìm kiếm vãn bản là ở đây mỗi văn bản chỉ được so sánh với một số lượng các lớp một lần và viộc chọn quyết định phù hợp còn phụ thuộc vào mỏi quan hộ của các lớp văn bản.
Phản hồi (huy thích nghi): Ọuá trình phản hồi đóng hai vai trò trong hộ phân
lớp văn bản Thứ nhất là khi phân lớp thì phải có một số lượng lớn các văn bản dã được xếp loại bằng tay trước đó, các vãn bản này được sử dụng làm mẫu huấn luyện
để hỏ trợ xây dựng bộ phân lớp Thứ hai là đối với việc phân lớp văn bản này không
dễ dàng thay dổi các yêu cầu như trong quá trình phản hổi cùa tìm kiếm vãn bản, người dùng có thể thông tin cho người bảo trì hệ thống về việc xoá bỏ, thêm vào hoặc thay đổi các lớp vãn bản nào dó mình yêu cẩu.
1.2.3 Phân cụm văn bản (Text Clustering)
Phân cụm văn bản là việc tự động sinh ra các lớp văn bản dựa vào sự tương tự
vổ nổi dung cùa các văn bàn Số lưựng các lớp văn bản liỉiy cụm văn bàn ờ ilAy là chưa biết trước, chẳng hạn sổ' cụm có thể là 2,3 5, Người dùng có thổ chỉ ra số lượng các lớp cán phân cụm hoặc hộ (hống SC tự phân cụm.
Đoàn Sơn - Luân vãn Thạc s ĩ - Khoa Công nghệ, ĐHQG Hà N ộ i2002
Trang 131.2.4 Dẫn đường vãn bàn (Text Routing)
Dẫn đường văn bản là sự tổ hợp của công việc tìm kiếm văn bản và phân lớp văn bản Giống như phan lớp văn bàn, hệ dẫn dường văn bàn xử lý các văn bản trong thời gian thực và gán chúng vào một hay nhiéu lớp khác nhau Tuy nhiên, nó giống như tìm kiếm văn bản, mỗi lớp văn bàn được gán với các thông tin cần thiết của một hay nhiều nhóm người dùng Mỗi người dùng có thể thay đổi hay thêm bớt các yêu cầu của mình Quá trình phản hổi có thể được sử dụng trong dản đường văn bản để nâng cao khả năng tìm kiếm thông tin trong văn bản.
1.2.5 Các bài toán khác
Phân lớp từ khoíí: Tương tự như phân lớp vãn bàn, chỉ có diéu khác là trong
phân lớp văn bàn thì làm viộc Irôn một số lượng lớn các lừ khoá, còn ờ đay là việc xác định trước các từ khoá vào một hay nhiểu lớp Một ứng dụng của phân lớp từ khoá là việc đánh chỉ số khoá cho các từ (tagging) để phục vụ cho việc phân tích ngữ nghĩa trong quá trình xử lý ngôn ngữ tự nhiên.
Phân cụm từkhoắ: Việc này cũng giông như phân cụm văn bản, các từ khoá
gần nhau được nhóm lại trong các lớp giống nhau Công việc này cũng hỗ trợ cho việc xử lý ngôn ngũ tự nhiên.
1.3 Một số vấn để về biểu diẽn trong xử lý vãn bàn
Trong các bài toán xừ lý văn bản đã nêu ở trên, chúng ta thấy rằng vai trò của biểu diễn văn bản rất lớn, đặc biệt trong các bài toán tìm kiếm, phân lớp, phân cụm, dẫn đường, Văn bàn thông thường được biểu diễn thành một tâp các thuộc tính đặc trưng cho văn bàn đó, các quá trình xử lý và làm viộc liếp theo đểu làm trên các thuộc tính này.
Trong phân lớp văn bản, việc áp dụng các phương pháp học máy là quá trình
cơ bản để hình thành bộ phân lớp Việc học ờ đây là học quy nạp, chúng ta cho một tập các dữ liộu mẫu và biết trước chúng thuộc vào lớp nào, do đó tâp mâu đóng vai
Đoàn Sơiì - Luận văn ĩlìạ c s ĩ - Khoa Công nghệ, ĐHQG Hi) N ội 2002
Trang 14trò quan trọng và phải có những yêu cầu nhất định, chúng ta có thể dễ đàng nhận thấy một số vấn để khi hình thành bộ phân lớp có liên quan tới các thuộc tính biểu diễn văn bản như sau:
- TẠp các thuộc tính không đù để phân lớp loàn bộ các lớp cho trước: Có thể
là các thuộc tính (rong các ví dụ huấn luyộn chưa đặc t r ư n g hoặc quá ít để đại diện cho lớp đó.
- Tập các thuộc tính vượt thừa ra ngoài không gian giả thuyết: Các thuộc tính của văn bản khác với các thuộc tính huấn luyộn trong bộ phân lớp.
- Tạp các thuộc tính có thể chứa các giá trị nhiễu, đay có thể là các giá trị sai dẫn tới quá trình học máy có thể phân lớp sai.
- Tập các thuộc tính chứa những giá trị bị vi phạm trong thuật toán hình thành
bộ phân lớp: Có thể có những giá trị đặc biệt làm thuật toán không xử lý được hoặc
bị lặp, do dó không tho’ hình thành dược bô phan lớp hoặc sẽ tlAn tới vòng lặp vố hạn.
Từ đó dẫn tỏi việc chọn lựa các thuộc tính dể biểu diễn văn bản, có rất nhiều tiêu chuẩn chọn lựa [29| Tuy nhiên các tiêu chuẩn này đều dựa trên việc xử lý các
từ khoá một cách tự động Trong cách tiếp cận hướng người dùng cùa chúng tôi, người dùng có thể tự xây dựng cho mình một tạp các khái niệm, và mối quan hệ từ các khái niệm đó tới từ khoá Như vậy các tiêu chuẩn chọn lựa ở đây là do người dùng quyết định và bộ phân lớp sẽ phân lớp hệ thông dựa trên những khái niệm mà người dùng đưa ra.
Trong tìm kiếm văn bản, Lewis dã nêu ra nghịch lý sau liên quan tới hiệu quà cùa các hệ tìm kiêtn Mặc dù các hệ này là tốt cho viộc sử dụng nhưng nó còn rất xa mới đạt đến độ hoàn hào, tức là thoà mãn hoàn toàn với câu hỏi đưa vào của người
sử dụng Nghịch lý này được gọi là nghịch lý cẩu hòi hoàn hảo Điều này không có
gì ngạc nhiên bời người dùng không thể nhâp được một câu hỏi hoàn hảo bời điều
đó đòi hỏi những Iri thức đặc biôl và phái hiổu biết rõ vẻ cả cấu trúc của hô thống.
Đoàn Sơn - Luận văn Thạc s ĩ - Khoa Công nghệ, ĐHQG Hà Nội 20U2
Trang 15Trong các hệ tìm kiếm hiện nay, nếu chúng ta đưa vào một tập từ khoá thì hệ
sẽ tìm các văn bản có xuất hiên tất cả các từ khoá đó nhưng nếu người dùng muốn tìm kiếm ờ mức độ cao hơn chẳng hạn Hong cụm từ ‘software computer’, người dùng muốn tìm những văn bản có từ ‘software’ xuất hiện nhiểu hơn ià từ ‘computer’ thì nhiều khi kết quả trả lại chưa thoả mãn người dùng.
Do đó đòi hỏi có những nghiên cứu về xử lý các câu hỏi của người dùng Trong phần tìm kiếm văn bản của luận văn này, chúng tôi tạp trung xử lý trường hợp khi câu hỏi đưa vào có nhiều từ khoá, mỗi từ có trọng sô' khác nhau.
Đoàn Sơn - Luận văn Thạc s ĩ - Khoa Công nghệ, ĐHỌGHà Nội 2002
Trang 16CHUƠNG 2 CÁC PHUƠNG ÍM1ÁP BlỂU DlỄN v ă n b ả n
Trong chương này cluing tỏi trình bày những phương pháp biểu diỗn văn bàn thông dụng thông qua mô hình không gian vector khi biểu diễn văn bản và một số khái niệm cơ bản về tập mờ Trên cơ sờ đó, chúng tôi xây dựng khái niệm mờ và xác định một số tính chất của các khái niộm mờ thông qua việc tích hợp các từ khoá và mối quan hệ giữa chúng với nhau Cuối cùng chúng tôi trình bày phương pháp biểu diễn văn bản và chủ đề theo lập mờ thông qua các khái niệm mờ.
2.1 Mô hình không quan vcctor
Chúng ta sử dụng không gian vector để biểu diễn các vãn bản Trong cách biểu diễn này, mỗi văn bản được biểu diễn bằng một vector Mỗi thành phần của vcctor là một từ khoá riêng biệt trong (Ạp văn bản gốc (corpus) và được gán một giá trị là hàm f chỉ mật độ của từ khoá trong văn bản Có nhiẻu tiôu chuẩn để chọn hàm
f, do đó mà chúng ta có thể sinh ra nhiều giá trị trọng số khác nhau Chúng ta SC
xem xct cụ thể trong từng phàn sau.
Trang 17[To live is to compute.
Chúng ta có thể biểu diễn chúng dưới dạng với từ khoá là các từ đơn và hàm f biểu diễn tần sô' xuất hiện của chúng, cách biểu diễn này còn được gọi là biểu diễn theo túi các từ (bag of words).
Tir khoa Vector cho văn bản 1 Vector cho văn bản 2
Subject: Scheduling problem
I am a student and I want to create an employee timetabling system that uses AI I know that there are many types of AI concepts th a t I can apply i t However, I donot know which one is suitable The em ployees are scheduled to different shifts and system is supposed to identify the pick hours and schedule the em ployees accordingly
Fmm Jaist-imws comp oi 10 Dec 2001
Đoàn Sơn - Luận văn Thạc s ĩ - Khoa Công nghệ, ĐHQG Hà Nội 2002
Trang 18Khi dö cö thé biê’u diên duôi dang nhi phân nhir sau.
Subject: Scheduling problem
I am a student and I w a n t1
timetabling systerrfTfiituses ArTjJ«nC>w that
there are m^nyWpes o f Al'Conceptstftar I can
apply it However, HteoQtkpovrvvhich one is
suitable The employeeS^resCheiJuled to different
shifts and system is supposed to identTfy^tie pick
hours and schedule the employees accordingly.
Liroc bo iù (Words stemming)
Trong tiéng Anh hay trong nhiéu ngôn ngù khâc, nhiêu tir cö chung mot tù gô'c hoâc là biên thê sang tir môt tù gô'c nào do Châng han chüng ta cö tù
“computer”, “computers” hoâc “computing” dêu cö thê’ cô chung môt gô'c là
“comput”, do vây, môt tù khoâ cô thé là là môt tù không mang môt nghîa xâc dinh Trcf lai vi du trên chüng ta cô thé cö dang biéu diên van bân khâc nhir sau
Trang 19Khi đó, hai văn bản trên được biổu diễn thành dạng sau:
Từ khoá Vector cho văn bản 1 Vector cho văn bản 2
Bảng 2. V ecto r b iểu d iễn vãn bàn 1 và văn bản 2 th eo tần sô' c á c từ được lược bỏ
Chúng ta thấy rằng việc sử dụng từ gốc làm giảm đi số lượng của các từ khoá trong vãn bản Tuy nhiên, việc cắt bỏ các từ lại rất khó cho viộc hiổu vãn bản.
2.1.2 Mô hình Boolean
Giả sử có một cơ sở dữ liệu gồm m văn bản D=|d|, d2, Mỗi văn bản được biểu diễn dưới dạng một vector gồm 11từ khoá T=jt|, t2, Gọi W = ( W j j ) là
ma irẠn trọng số, trong dó W,J là gi;í Ilị cùa lìr khoií I; trong vãn bản dj.
Mô hình Boolean là mô hình đơn giản nhất, dược xác định như sau:
Trang 20Ví dụ trong hai vãn bản trên, chúng ta có thể biểu diễn thành hai vector như sau:
Từ khoá Vector cho ván bản 1 Vector cho văn bản 2
sở dữ liệu Có ba phương pháp phổ biến sau:
Phương pháp dựa trên tần số từ khoií (TF-Term Frequency)
Các giá trị của các từ khoá được tính dựa trên sô' lần xuất hiện của các lừ khoá trong văn bản Gọi tfjj là sô' lần xuất hiện của từ khoá t; trong vãn bản dj, khi đó
Wjj được tính bởi công thức:
w 0 = ho*c w ũ = 1 + loê ( tf,j) hoặc w ij = ^ j
Phưoiìg phấp dựa trên nghịch dùo tẩn sô' vẩn bắn (IDF - Inverse Document Frequency)
Giá trị từ khoá dược tính bởi công thức sau:
Đoàn Sơn - Luận văn Thạc s ĩ - Khoa Công lìglìệ, ĐHQGHà Nội 2002
Trang 212.2 Loại bỏ các từ Irong biểu diỗn văn bản
Bằng phương pháp biểu diển không gian vector, chúng ta có thể thấy một điểu rõ ràng là chiểu của một vector sẽ rất lớn bời chiều của nó được xác định bời số lượng các từ khác nhau trong tẠp từ khoá Chầng hạn sô' lượng các từ có thể từ I01 đến 105 đối với một tập hợp các văn bản nhỏ Vấn để đặt ra là làm sao để giảm bớt
số chiểu của vector xuống mà vẫn đảm bảo việc xử lý văn bản đúng và chính xác, đặc biệt là trong môi trường phAn tán như World Wide Web Ở đây, chúng ta sẽ đé cập tới một sô' phương pháp để làm giảm số chiều vector.
2.2.1 Loại bỏ các từ dừng
Trước hết chúng ta có thể quán sát thấy rằng trong tiếng Anh có nhiều từ chỉ dùng để phục vụ cho biểu diễn cấu trúc câu chứ không biểu đạt nội dung cùa nó, chẳng hạn như các giới lừ, lừ nối, Những lìr Iihir vây xnAÌ hiộn nhiéu trong văn bản
mà không có liôn quan gì tới chủ đé hoặc nội dung nào dó của văn bản Do đó chúng
ta có thể loại bỏ những tír như vậy (cũng có nghĩa là giảm số chiểu của vãn bản), những từ đó được xem như là những lừ dừng (stop words), ví dụ chúng ta có bảng các từ dừng sau:
Đoàn Sơn - Luận văn Tĩiạc s ĩ - Khoa Công nghẹ, ĐHỌG Hà Nội 2002
Trang 22a been do
bộ tập văn bản gốc thì các từ xuất hiện với tần số ít như một hoặc hai lẩn, hay nói cách khác là xuất hiộn l Ai ít lân (rong vãn bản tilt sc có những ảnh hưừng rất ít (rong các văn bàn dó.
Tiền đề cho lý luân loại bỏ những iừ có tán xuất nhỏ dựa vào sự quan sát tán xuất xuất hiện của các từ Irong tập văn bản gốc dược đưa ra bời Zipf nãm 1949
Zipf phát biểu dưới dạng một hiện tượng nhưng ngay ờ thời điểm đó, hiộn tượng <JÓ
Đoàn Sơn - Luận vân Thạc s ĩ - Khoa Công nghệ, ĐHỌG Hà Nội 2002
Trang 24Bủy giờ chúng ta xem xét phàn bố của các từ đơn xuất hiện ß lần trong tập
một sự phân bố dáng chú ý của các lừ riêng biệt trong một tâp hợp được hình thành bởi các từ khoá xuất hiện ít nhất trong tập hợp Trong một số hệ thực tế như SONIA [23], người ta đưa ra các ngưỡng chỉ liin sò' xuất liiộn của các tìr rồi loại bỏ các tìr có tần số xuất hiện ít hơn ngưỡng, giá trị của ngưỡng ở đây có thể là 10.
2.3 Phương pháp biểu diễn dựa trên các khái niệm mờ
2.3.1 Tạp mờ và các phép toán cư sở
Trong lý thuyết lập hợp cổ điển, khi cho trước một tạp E và A là tập con của
E thì với I11ỘI pliÀn tử xeE, chúng la chí có một (rong hai khả năng: Hoặc xe A, hoặc
x ể A Như vẠy viộc xác định tập con AcH lương dương với viộc xác định hàm dác trưng /A tlioả mãn:
Hàm đặc trưng có miển giá trị là 0 và 1, bầng cách mở rộng miền giá trị từ
hai điểm rời rạc 0 và 1 cùa hàm IA{\) thành đoạn [0, 1] của hàm /¿¿(x), L.A Zadeh
đã xây dựng khái niệm tập mờ là nền tảng của toàn bộ lý thuyết tập mờ.
Định nghĩa 2.1: Tập mờ.
Cho E là một tập hợp A được gọi là một tập mờ trong E nếu: A = {(x, (iA(x))l xeEỊ trong đó nA(x) là hàm, ị.iA: E -» |0,1] Hàm ị.iA được gọi là hàm thuộc (membership function) của A, H a ( x ) là một giá trị trong doạn Ị0,l I được gọi lí\ mức
độ thuộc của X trong A.
Nếu X là tâpcác điểm rời rạc X | , x2, x„ llù A dược kí hiệu là:
A = Ha(x, ) /x, + Ha(x2)/x2 + - M x „ )/ x n = X M x ) / xì
hợp, chia 2 vế cho nhau ta có được
ÍKIi+l) Do đó, định luẠt Zipf cho chúng ta thiíy
X e A
x ể A
Đoàn Sơn - Luận vãn Thạc s ĩ- Khoa Công nghệ, ĐHQG Hà Nội 2002
Trang 25N ếu X liên tục thì A được kí hiệu là:
A = L M x) /x
V í dụ:
X ét một tập hợp các số thực từ 0 đến 10 và ta coi đó là tập vũ trụ đang xét (Tức E = [0, 10]) Chúng ta muốn xem xét các giá trị được gọi là “gần với đoạn (5, 8)”, gọi A là tập các điểm thực nằm trong đoạn (5, 8) Theo nghĩa thông thường hàm
1 n ế u 5 < X < 8 [ o n ế u n g ư ợ c l ạ i
Hình 5: Hàm đặc trưng của tập rõ A và hàm thuộc của tập mờ A.
Đ iều này thể hiện chỉ các phán tử nào nằm trong đoạn |5 , 8] thì có giá trị 1, tức là nằm trong A , ngược lại thì cho giá trị 0, tức không nằm trong A Đ iều này chưa phản ánh hết khái niệm những s ố nằm gÀn với đoạn ị5, 8 Ị.
Tập m ờ A là những s ô ' thực gán đoạn 15, 8 |, theo định nghĩa tập m ờ được biểu diễn như hình vẽ Chúng ta có thể dễ dàng thấy, nếu mức độ thuộc của phần tử
hơn là 4 7 hởi hàm thuộc của nó IỚI1 hơn Mỗi s ố thực c l é u được xác định một mức
độ thuộc vào tập A thông qua hàm thuộc Chẳng hạn 6, 6.5 thì có độ thuộc 1 tức là hoàn toàn nàm trong tập A Còn 4.8 có độ thuộc chẳng hạn là 0 9 5 , 4 7 có độ thuộc
là 0 9 0 , chứng tỏ mức độ gần của 4.8 với đoạn [ 5 , 8] là 95% hay là 0 95, mức độ
Đoàn Sơti - Luận vàn Thạc s ĩ - Khoa Công nghệ, ĐHỌG Hà N ộ i2002
Trang 26gần của 4.7 với đoạn [5, 8] là 0.90, kí hiệu lần lượt là 4.8 £ A, 4.7 £ A Đó chính
là sự mờ rộng của hàm đặc trưng trên đoạn |(), I Ị.
Định nghĩa 2.2: Họp cùa hai tập mờ.
Cho E là tập hợp, A và B là hai tập mờ trong E, có các hàm thuộc lần luợt là
|iA , |aB Hợp của hai tập mờ A và B, ký hiệu AwB, là một tập mờ có hàm thuộc fiAoB được xác định như sau:
Haưb(x) ) = max(f.iA(x), Hu(x)) VxeE
Định nghía 2.3; Giao của hai tập mờ.
Cho E là tập hợp, A vil B là hai tập mờ trong E, có các hàm thuộc lần luợt là f.iA, ị.iB Giao của hai tạp mờ A và B, ký hiệu AnB, là một tạp mờ có hàm thuộc nAnH được xác dịnh như sau:
Trang 27\iK(x) = \in(x) VxeE.
Đ ịn h n g h ĩa 2 7 : Tổng rời của hai tập mờ.
Trang 28Đ ịn h n g h ĩa 2 1 2 : K h ôn g g ia n metric.
Trang 29Định nglìĩa 2 13: Đổ thị mờ(Fuy.zy Cniph)
Cho E|, E2 là hai tâp hựp và xeE|, y eE 2 Ký hiệu (x,y) là cặp thứ tự nằm trong tích Đồ-các E|XE2 Tạp mờ G Irong F.|XF<2 với hàm thuẠc
^ (x y ) : E|XE2 -> |0,l I V(x,y)e EịXEi được gọi là một đổ thị mờ.
Ví dụ:
Đoàn Sơn - Luận vãn Thạc s ĩ - Khoa Công nghệ, ĐHQG Hà Nội 2002
Trang 30Giả sử Eị={ XI ,x2,x:, }, E2= I y , ,y2} Ta có
E ,xE2 = |(x „ y ,), (x2,y ,), (x3ty ,) t (x „ y 2), (x2,y2), (x3,y2)Ị
Giả sử ta có ^ c(x „ y ,) = 0.3, Hc(x2,y,) = 0.4, Mc(*3.yi) = 0 9 , M X |,y a) = 1 0 -
fio (x2,y2) = 0 7 , Mo(x,,y,) = 0.5 Khi đó G = |((X |,y,), 0.3), ((x2,y,), 0 4 ), ((x „ y ,), 0.9) ((x „ y 2), 1.0), ((x2,y2), 0.7), ((x3,y2), 0.5) ) là một đồ thị mờ trong E|XE2.
X |
X2X3
TẠp m ờ G có thể biổu diễn bằng ma trân như hình vẽ.
Tổng quát hoá định nghĩa trên: Giả sử E|, E2 En là các tập hợp và x¡eE¡, i= l n E|XE2X XE„ là tích Đ ề-các của các tập E¡ Tập mờ G trong E|XE2X XE0 với hàm thuộc |iG(X |,x2, xn): E lxE2x xE„ —> | 0 , l | gọi là đổ thị m ờ trong E|XE2x xE n.
Một đổ thị mờ có thể gọi theo một lên khác là một quan hệ mờ Già sử G là một tập mờ trong E = E|XE2X XEM Khi đó G được gọi là một quan hệ mờ n ngối Quan hệ m ờ hai ngôi còn được gọi là quan hộ mờ nhị phân.
Các phép toán trên quan hệ mờ
Các phcp toán trên quan hệ m ờ như hợp, giao, phần bù, lổng rời, lổng đại sô', chính là các phép toán trên tẠp m ờ trong tạp tích Đé-các nên định nghĩa các
phép toán trên quan hệ mờ hoàn toàn không có gì thay đổi Ngoài các phép toán đã nêu, trôn quan hộ mờ có các phép toán quan trọng sau.
trong E|XE2, R ỉ là quan hệ mờ trong E2XE3 Ta định ngliĩa hợp thành max-miti R| o
R2 của hai quan hệ mờ R |,R2 là quan hệ mờ trong E2xE3 thoả mãn:
V x e E |, VZ£Ej, Hri0r2(x,z) = m a x (m m (m ,(x,y), f.iK2(y,z))) V y € E 2.
Trang 31Phép hợp thành max-tích (max - product composition) G ià s ử R | là q u a n h ệ
Đ ịn h n g h ĩa 2 1 4 Hàm tích hợp mờ (Fuzzy Aggregation)
MỎI h à m (íc h h ự p d ư ự c (.lịnh Iiglũn là m ò l (o á n l ỉ m n g ỏ i Iilu r su u :
F: |0 ,11" —» | 0 , I]
th o à m ã n h ai đ iề u k iệ n d ư ớ i đ â y :
1 F ( 0 , 0 ) = 0 và F ( 1 , ỉ ) = 1 ( Đ iề u k iộ n b iê n )
2 F ( x x n) > y„) v ớ i (Xị >y-„ i = l , n ) ( T ín h đ ơ n đ iệ u )
G iả s ử c ó c á c tậ p m ờ A | , A 2, A „ d ư ợ c x á c đ ịn h trên X K h i đ ó b ằ n g v iệ c líc h
4 T ( x , 0 ) = 0 v à T ( x , 1) = X Đ ié u k iệ n b iê n
Đoàn Sơn - Luận văn Thạc s ĩ - Khou Công Iiglìệ, ĐHỌG Hà Nội 2002
Trang 342 3 2 B iể u d iễ n văn b ả n sử d ụ n g c á c k h á i n iệ m m ờ
T r o n g p h ẩn n à y , c h ú n g tôi d ư a ra k h á i n iệ m v ề k h á i n iệ m m ờ ( tr o n g n g ô n
n g ữ ) và h à m tíc h h ợ p n g ô n n g ữ m ờ C h ú n g tô i c ũ n g x e m x é t m ộ t s ố tín h c h ấ t c ủ a
k h á i n iê m IĨ1Ờ v à m ố i q u a n h ệ c ủ a c h ú n g v ớ i c á c từ k h o á T rên c ơ s ở k h á i n iệ m m ờ ,
c h ú n g tô i đ ề x u ấ t m ộ t p h ư ơ n g p h á p b iể u d iễ n văn bản v à c á c c h ủ đ ể
Biểu diễn văn bàn
G iả s ử c h ú n g ta c ó m ộ t tậ p c á c v ãn b àn
D = ( d „ d 2,
K h i đ ó ta c ó m ộ t tập c á c từ k h o á , k í h iệ u
K = { k „ k2, .k p ị
S ự liê n q u a n c ủ a c á c từ k h o á tới m ộ t vă n bản đ ư ợ c x á c đ ịn h tư ơ n g ứ n g b ằ n g
c á c h s ứ d ụ n g m ó t p h ư ơ n g p h á p clánli c h í s ỏ IIÌIO d ó d ã biết:
Đ ể tiệ n c h o v iệ c trình b à y ở p hần sa u , c h ú n g ta d ễ d à n g c h u ẩ n h o á c á c g iá trị
c ủ a tập v à o k h o á n g |0, l |.
T rư ớ c h ế t c h ú n g ta x e m xét m ộ t vài th u ật n g ữ :
T ừ ‘ k h ái n i ệ m ’ th e o lừ đ iể n H á n V iệ t c ủ a Đ à o D u y A n h là: “ Đ e m c á c th ứ
q u a n n iệ m m à tó m lA'y c á c c h ỗ g iố n g n h au là m th àn h m ộ t c á i q u a n n iộ m c h u n g ” ( T h e o Đ à o D u y A n h , “ T ừ đ iể n H á n V iệ t ” , N X B K h o a h ọ c xã h ộ i, 1 9 9 6 )
K h á i n iệ m ‘c o n c e p t ’ ih e o từ đ iể n M e iïa m - W e b s le r c ù a M ỹ là: “ a n a b str a c t or
g e n e r ic id e a g é n é r a liz e d fro tn p a r tic u la r in s t a n c e s ” , lạ m d ịc h là “ m ộ t s ự trừu tư ợ n g
h o ặ c m ộ t ý tư ờ n g c h u n g đ ư ợ c t ổ n g q u á t h o á từ n h ũ n g m in h h o ạ c ụ t h ể ” ( T h e o từ
đ iổ n M c r ia m - W c b s lc r w w w m - w c o m ).
K h á i n iệ m ‘c o n c e p t ’ th e o từ d iổ n H a c h e tte c ù a P h áp là: “ r e p r é se n ta tio n
m e n ta le a b s tr a ite et g é n é r a le ” , lạ m d ịc h là “ m ộ t s ự h iể u d iẻ n c ó liê n tư ờ n g tới s ự trừu tư ợ n g và tổ n g q u á t” (T h e o tìr đ iể n H a c h e tte WWW.fr a n c o p h o n ie h a c h e t t e -
liv r e fr ).
Đoàn Sơn - Luận văn Thạc s ĩ- Khoa Công nghệ, ĐHQGHắ N ội 2002
Trang 35N h ư v ậ y c h ú n g ta c ó th ể h iể u m ộ t k h ái n iệ m từ m ộ t từ k h o á th e o n g h ĩa th ô n g
th ư ờ n g là g ồ m c á c từ c ó liê n q u a il tie'll lừ k h o á d ó V í d ụ c h ú n g ta c ó m ộ t k h á i n iộm
‘c o m p u t e r ’, k hi đ ó ‘C o m p u te r ’ c ó th ổ c h ứ a c á c lừ k lio á ‘m a c h in e ’, ‘h a r d w a r e ’,
‘s o f t w a r e ’, ‘ P C ’, ‘m o u s e ’ C á c từ n à y c ó thổ là từ đ ồ n g n g h ĩa h o ặ c từ c ó liê n quan
g ẩ n tới k h ái n iệ m d ó
G iả s ử c h ú n g ta c ó m ộ t tậ p c á c k h á i n iệ m c ó liê n q u a n tớ i c h ủ đ ể , k í h iệ u
T = { t | , t2, .tn ).
T r o n g đ ó tj là c á c k h á i n iệ m d o n g ư ừ i d ù n g x á c đ ịn h X é t m ộ t k h á i n iệ m t n ào
đ ó tr o n g tậ p c á c k h á i n iệ m , k h i đ ó m ộ t k h ái n iệ m c ó th ể b a o g ồ m m ộ t s ố từ k h o á và
đ ư ợ c x á c đ ịn h n h ư sa u
t= { k ị } - tr o n g d ó i e l,p
T ừ (ló c lìú n g la c ó Ihổ xAy d ự n g m ộ t k liói Iiiộm m ờ n lu r sn ii.
K h ái n iệ m m ờ là m ộ t tậ p m ờ tư ơ n g ứ n g v ớ i k h ái n iộ m tr o n g đ ó h à m th u ộ c
O n ế u k ị không tlniỏc vào khái n iệm t
f.iK( k j) = ' ln ế u k j th u ộc hoàn toàn vào khái n iệ m t.
M ứ c đ ộ q u a n tr ọ n g c ù a m ộ t k h á i n iệ m m ờ k h i đ ó đ ư ợ c x á c đ ịn h b ằ n g m ột
h à m tíc h h ợ p m ờ , k í h iệ u là |i ( t )
Trang 36Hình ớ. Mối quan hê giữa khái niêm và từ khoá, khái niêm với văn bàn.
Định Iighĩa 2.15 Hàm tích họp khái niệm mờ (Fuzzy Concept Aggregation)
Một hàm tích hợp khái niệm mờ là một hàm tích hợp F: [0, 1]" ->[0, 1] thoả mãn các tính chất của hàm tích hợp, tức là:
Mối quan hệ giữa các từ khoá với khái niệm và văn bản được biểu diẻn trên hình 6.
Các hàm tích hợp mở có thể là các hàm tích hợp trong định nghĩa 2.15.
Ví dụ: Chúng la có một tạp các từ khoá: ‘machine’, ‘hardware’, ‘software’,
‘PC’, ‘mouse*.
K=| ‘machine’, ‘hardware’, software’, ‘PC’, ‘mouse’ I
với độ liên quan tới văn bản được xác định bằng một hàm đánh chỉ số tương
ứng:
Đoàn Sơn - Luận văn Thạc s ĩ- Khoa Công nghệ, ĐHỌGHà N ội 2002