Đối với một số ứng dụng, đặc biệt là với văn bản, khi gỏn tài liệu vào một cụm, một trong cú thể ta muốn định lượng một tài liệu cú quan hệ với một cụm bằng một giỏ trị thực phự hợp. Giỏ trị đú được gọi là mức độ thành viờn (the membership degree). Trong phõn cụm tài liệu nếu chỳng ta coi cỏc cụm như là tập cỏc tài liệu thuộc cựng chủ đề thỡ về bản chất một tài liệu cú thể núi về một vài chủ đề và cú thể gỏn vào một vài cụm. Thuật toỏn sử dụng quan điểm trờn được gọi là sử dụng phộp gỏn mềm hoặc mờ với cỏc cụm phủ nhau. Ngược lại thuật toỏn với phộp gỏn cứng chỉ cho phộp mỗi văn bản chỉ thuộc vào duy nhất một cụm mà khụng quan tõm đến độ định lượng của quan hệ.
3.4. Cỏc bước thực hiện phõn cụm
1. Xõy dựng thủ tục biểu diễn đối tượng, 2. Xõy dựng hàm tớnh độ tương tự, 3. Xõy dựng cỏc tiờu chuẩn phõn cụm,
4. Xõy dựng mụ hỡnh cho cấu trỳc cụm dữ liệu,
5. Xõy dựng thuật toỏn phõn cụm và xỏc lập cỏc điều kiện khởi tạo, 6. Đỏnh giỏ kết quả phõn cụm
3.5. Đỏnh giỏ kết quả phõn cụm
Làm thế nào để đỏnh giỏ được chất lượng cụm? Trong thực tế, khụng cú một tiờu chuẩn tuyệt đối nào, tựy theo cỏc mục đớch phõn cụm sẽ cú cỏc tiờu chuẩn cụm khỏc nhau phự hợp với yờu cầu sử dụng. Cỏc tiờu chuẩn này được người sử dụng đưa ra tựy theo từng bài toỏn phõn cụm cụ thể.
Tuy nhiờn, nhỡn chung một phương thức phõn cụm được đỏnh giỏ là tốt nếu tạo ra được cỏc cụm cú chất lượng cao, tức là cỏc đối tượng trong cựng cụm cú mức tương tự với nhau rất cao, cũn cỏc đối tượng khụng cựng cụm mức tương tự rất thấp (phi tương tự). Ngoài ra, chất lượng của phương phỏp phõn cụm cũn được đỏnh giỏ bằng khả năng khỏm phỏ một vài hoặc tất cả cấu trỳc ẩn bờn trong nú.
Ta cú thể tổng quỏt rằng, bản chất của việc phõn cụm là xỏc định cỏc đối tượng tương tự nhau để nhúm lại thành cụm. Do đú, chất lượng của kết quả phõn cụm phụ thuộc chủ yếu hàm độ đo tương tự. Vậy hàm độ đo tương tự đúng vai trũ quyết định chất lượng cụm dữ liệu.
3.6. Phõn cụm kết quả tỡm kiếm web
Mặc dự xuất phỏt từ phõn cụm tài liệu, cỏc phương phỏp phõn cụm kết quả tỡm kiếm web lại khỏc so với cỏc thuật toỏn phõn cụm trước đú về nhiều mặt. Đỏng chỳ ý nhất, cỏc thuật toỏn phõn cụm tài liệu làm việc trờn tập dữ liệu văn bản dài (hay cỏc văn bản túm tắt) với số lượng lớn. Ngược lại, cỏc thuật toỏn phõn cụm kết quả tỡm kiếm web làm việc trờn cỏc tập tài liệu cú độ dài trung bỡnh (khoảng vài
trăm phần tử với độ dài từ 10-20 từ). Trong phõn cụm tài liệu, yếu tố quan trọng là chất lượng của cỏc cụm và khả năng mở rộng với độ lớn của số lượng tài liệu vỡ nú thường sử dụng để phõn cụm toàn bộ tập tài liệu. Đối với phõn cụm kết quả tỡm kiếm web, ngoài việc cung cấp cỏc cụm chất lượng tốt, nú cũn cần tạo ra cỏc mụ tả ngắn gọn xỳc tớch và cú ý nghĩa cho nhúm. Ngoài ra, cỏc thuật toỏn phải rất nhanh, cho kết quả ngay lập tức (vỡ phải xử lý cỏc kết quả tỡm kiếm ngay trước khi hiển thị đến người sử dụng) và phải mở rộng được qui mụ với sự gia tăng yờu cầu của người sử dụng.
Phõn cụm tài liệu Phõn cụm kết quả tỡm kiếm web Cỏc tài liệu dài (hoặc cỏc văn bản túm
tắt)
Cỏc đoạn văn bản túm tắt ngắn
Xử lý dữ liệu offline trờn tập dữ liệu lớn.
Xử lý trực tuyến trờn tập dữ liệu trung bỡnh.
Chất lượng của cụm Chất lượng cụm và mụ tả cú ý nghĩa cho cụm
Khả năng mở rộng với số lượng tài liệu
Khả năng mở rộng với số truy vấn của người dựng
Hỡnh 3- 3. So sỏnh giữa phõn cụm tài liệu và phõn cụm kết quả tỡm kiếm web.
3.7. Cỏc phương phỏp tỏch từ tiếng Việt 3.7.1. Đặc điểm từ trong tiếng Việt 3.7.1. Đặc điểm từ trong tiếng Việt
Khỏc với Tiếng Anh, từ là một nhúm ký tự liờn tiếp cú ý nghĩa được phõn cỏch nhau bằng cỏc khoảng trắng hoặc dấu cõu, đơn vị cơ bản trong Tiếng Việt là tiếng khụng phải là từ, một từ trong tiếng Việt cú thể gồm một hoặc nhiều tiếng. Từ tiếng Việt cú một số đặc điểm chớnh như sau:
- Từ ở dạng nguyờn thể, hỡnh thức và ý nghĩa của từ độc lập với cỳ phỏp - Từ được cấu trỳc từ “tiếng”
gồm từ lỏy và từ ghộp.
Như vậy, từ Tiếng Việt và từ Tiếng Anh cú những đặc điểm khỏc biệt chớnh như bảng dưới đõy.
Đặc điểm Tiếng Việt Tiếng Anh
Đơn vị cơ bản Tiếng Từ
Nhận dạng từ Tổ hợp cỏc tiếng liờn tiếp cú nghĩa dựa vào ngữ cảnh sử dụng
Cỏch nhau bởi cỏc khoảng trắng hoặc dấu cõu.
Từ loại Khụng thống nhất Định nghĩa rừ ràng
Tiền tố/hậu tố Khụng cú Cú
Bảng 3- 5. So sỏnh cỏc đặc điểm khỏc nhau giữa tiếng Anh và tiếng Việt
Từ những đặc điểm khỏc biệt trờn, khi phõn tỏch văn bản tiếng Việt thành cỏc từ cú nhiều khú khăn hơn so với việc phõn tỏch từ Tiếng Anh. Cỏc phần dưới đõy sẽ trỡnh bày một số phương phỏp tỏch từ Tiếng Việt đang được sử dụng hiện nay.
3.7.2. Phương phỏp so khớp cực đại
Phương phỏp so khớp cực đại (MM - Maximum Matching) hay cũn gọi là so khớp cực đại từ trỏi qua phải (LRMM - Left Right Maximum Matching). Ở phương phỏp này, chỳng ta sẽ duyệt một ngữ hoặc cõu từ trỏi sang phải và chọn từ cú nhiều õm tiết nhất cú mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết cõu.
Với tư tưởng đú, phương phỏp này thực hiện tỏch từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiờn, khuyết điểm của phương phỏp này cũng chớnh là từ điển, nghĩa là độ chớnh xỏc khi thực hiện tỏch từ phụ thuộc hoàn toàn vào tớnh đủ, tớnh chớnh xỏc của từ điển hơn nữa nú cũng tỏch từ sai trong một số trường hợp đặc biệt như cõu: Học sinh học sinh học
3.7.3. Phương phỏp học cải biến
Phương phỏp này tiếp cận dựa trờn tập ngữ liệu đó đỏnh dấu.Theo cỏch tiếp cận này để cho mỏy tớnh cú thể nhận biết ranh giới giữa cỏc từ để cú thể tỏch từ chớnh xỏc, chỳng ta sẽ cho mỏy học cỏc cõu mẫu trong tập ngữ liệu đó được đỏnh dấu ranh giới giữa cỏc từ đỳng.
Ta thấy phương phỏp rất đơn giản, vỡ chỉ cần cho mỏy học cỏc tập cõu mẫu và sau đú mỏy sẽ tự rỳt ra qui luật của ngụn ngữ và để từ đú sẽ ỏp dụng chớnh xỏc khi cú những cõu đỳng theo luật mà mỏy đó rỳt ra. Và rừ ràng để tỏch từ được hoàn toàn chớnh xỏc trong mọi trường hợp thỡ đũi hỏi phải cú một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lõu để cú thể rỳt ra cỏc luật đầy đủ.
3.7.4. Mụ hỡnh tỏch từ bằng WFST và mạng Neural
Mụ hỡnh mạng chuyển dịch trạng thỏi hữu hạn cú trọng số (WFST – Weighted Finit State Transducer) đó được ỏp dụng trong tỏch từ từ năm 1996. í tưởng cơ bản là ỏp dụng WFST với trọng số là xỏc suất xuất hiện của mỗi từ trong kho ngữ liệu. Dựng WFST để duyệt qua cỏc cõu cần xột, khi đú từ cú trọng số lớn nhất là từ được chọn để tỏch. Phương phỏp này cũng đó được sử dụng trong cụng trỡnh đó được cụng bố của tỏc giả Đinh Điền [2001], tỏc giả đó sử dụng WFST kốm với mạng Neural để khử nhập nhằng khi tỏch từ, trong cụng trỡnh tỏc giả đó xõy dựng hệ thống tỏch từ gồm tầng WFST để tỏch từ và xử lý cỏc vấn đề liờn quan đến một số đặc thự riờng của ngụn ngữ tiếng Việt như từ lỏy, tờn riờng,.. và tầng mạng Neural dựng để khử nhập nhằng về ngữ nghĩa sau khi đó tỏch từ (nếu cú).
Theo cụng bố trong cụng trỡnh của tỏc giả, mụ hỡnh này đạt được độ chớnh xỏc trờn 97%. Tỏc giả sử dụng thờm mạng Neural kết hợp với từ điển để khử cỏc nhập nhằng cú thể cú khi tỏch ra nhiều từ cú được từ một cõu; tầng mạng Neural sẽ loại bỏ đi cỏc từ khụng phự hợp bằng cỏch kết hợp với từ điển. Bờn cạnh đú, cũng tương tự như phương phỏp TBL điểm quan trọng của mụ hỡnh này cần tập ngữ liệu học đầy đủ.
3.7.5. Phương phỏp tỏch tỏch từ tiếng Việt dựa trờn thống kờ từ Internet và thuật giải di truyền
Phương phỏp tỏch tỏch từ tiếng Việt dựa trờn thống kờ từ Internet và thuật giải di truyền (IGATEC - Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tỏch từ với mục đớch phõn loại văn bản mà khụng cần dựng đến một từ điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tỏc giả kết hợp giữa thuật toỏn di truyền với dữ liệu thống kờ được lấy từ Internet.
Theo cỏch tiếp cận của tỏc giả, hệ thống tỏch từ gồm 2 thành phần
Lấy thụng tin trực tuyến (Online Extractor): Thành phần này cú tỏc dụng lấy thụng tin về tần số xuất hiện của cỏc từ trong văn bản bằng cỏch sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn. Sau đú, tỏc giả sử dụng cỏc cụng thức thớch hợp (xem [4]) để tớnh toỏn mức độ phụ thuộc lẫn nhau để làm cơ sở tớnh fitness cho GA engine.
Tỏch từ bằng thuật giải di truyền: mỗi cỏ thể trong quan thể được biểu diễn bởi chuỗi cỏc bit 0,1, trong đú, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhúm bit cựng loại đại diện cho cho một đoạn. Cỏc cỏ thể trong quần thể được khởi tạo ngẫu nhiờn, trong đú mỗi đoạn được giới hạn trong khoảng 5. GA engine sau đú thực hiện cỏc bước đột biến và lai ghộp nhằm mục đớch làm tăng giỏ trị fitness của cỏc cỏ thể để đạt được cỏch tỏch từ tốt nhất cú thể.
Chương 4: Lí THUYẾT TẬP THễ
4.1. Giới thiệu
Lý thuyết tập thụ (rough set theory) lần đầu tiờn được đề xuất bởi Z. Pawlak vào đầu những năm 1980 và nhanh chúng được xem như một cụng cụ xử lý cỏc thụng tin mơ hồ và khụng chắc chắn. Lý thuyết tập thụ là một cụng cụ hữu ớch được sử dụng nhiều trong việc phõn tớch và phõn lớp dữ liệu. Lý thuyết tập thụ đó được ỏp dụng thành cụng trong nhiều tỏc vụ khỏc nhau như: Trớch chọn cỏc đặc trưng, tổng hợp ra cỏc luật và phõn cụm dữ liệu.
Lý thuyết tập thụ dựa trờn giả thiết rằng để định nghĩa một tập hợp, chỳng ta cần phải cú thụng tin về mọi đối tượng trong tập vũ trụ, quan điểm này hoàn toàn khỏc với quan điểm truyền thống của tập hợp là mọi tập hợp đều được định nghĩa duy nhất bởi cỏc phần tử của nú mà khụng cần biết bất kỳ thụng tin nào về cỏc phần tử của tập hợp. Vấn đề nổi bật của lý thuyết tập thụ là việc đưa ra ý tưởng về tớnh mơ hồ của tri thức hay hệ thụng tin; nú dựa trờn khỏi niệm xấp xỉ dưới (Lower approximation) và xấp xỉ trờn (Upper approximation) của hệ thụng tin. Xấp xỉ dưới của một hệ thụng tin cho một khỏi niệm C là tập hợp cỏc đối tượng chắc chắn thuộc về khỏi niệm C; trong khi đú xấp xỉ trờn của một hệ thụng tin cho khỏi niệm C là tập hợp cỏc đối tượng cú thể thuộc về khỏi niệm C. Vựng khỏc biệt giữa xấp xỉ trờn và xấp xỉ dưới được gọi là vựng biờn (Boundary region) đú là những đối tượng khụng thể quyết định được là cú thuộc khỏi niệm C (xem hỡnh 4.1).
Trong chương này chỳng ta sẽ nghiờn cứu cỏc khỏi niệm và ý nghĩa cơ bản của lý thuyết tập thụ. Đõy là những kiến thức quan trọng cho việc ỏp dụng tập thụ vào phõn cụm kết quả tỡm kiếm web.
Hỡnh 4- 1. Hỡnh ảnh minh họa cỏc khỏi niệm của tập thụ
4.2. Hệ thụng tin
Một tập dữ liệu thể hiện dưới dạng bảng, trong đú mỗi dũng thể hiện cho một trường hợp, một sự kiện, một bệnh nhõn hay đơn giản là một đối tượng. Mỗi cột của bảng thể hiện một thuộc tớnh (là một giỏ trị, một quan sỏt, một đặc điểm …) được “đo lường” cho từng đối tượng. Ngoài ra giỏ trị của thuộc tớnh cũng cú thể được cung cấp bởi chuyờn gia hay bởi người sử dụng. Một bảng như vậy được gọi là mộthệ thụng tin (information system).
Một cỏch hỡnh thức, hệ thụng tin là một cặp A = (U,A) trong đú U là tập hữu hạn khỏc rỗng cỏc đối tượng và được gọi là tập vũ trụ, A là tập hữu hạn khỏc rỗng cỏc thuộc tớnh sao cho a: U→Vavới mọi aA. Tập Va được gọi là tập giỏ trị của thuộc tớnh a.
Vớ dụ 4-1 : Bảng 4-1dưới đõy cho ta hỡnh ảnh về một hệ thụng tin đơn giản
Age LEMS x1 16 – 30 50 x2 16 – 30 0 x3 31 – 45 1 – 25 x4 31 – 45 1 – 25 x5 46 – 60 26 – 49 x6 16 – 30 26 – 49 x7 46 – 60 26 – 49
Bảng 4- 1.Một hệ thụng tin đơn giản
Ta dễ dàng nhận thấy trong bảng trờn, cỏc cặp đối tượng x3, x4 cũng như x5,
x7 cú giỏ trị bằng nhau với cả hai thuộc tớnh. Trường hợp này ta núi rằng cỏc
đối tượng này khụng phõn biệt từng đụi đối với tập thuộc tớnh {Age, LEMS}.
Trong nhiều ứng dụng, tập vũ trụ được phõn chia thành cỏc tập đối tượng con bởi một tập cỏc thuộc tớnh phõn biệt được gọi là tập thuộc tớnh quyết định. Núi cỏch khỏc tập vũ trụ đó được phõn lớp bởi thuộc tớnh quyết định. Hệ thụng tin trong trường hợp này được gọi là một hệ quyết định. Như vậy hệ quyết định là một hệ thụng tin cú dạng: A = (U,C D) trong đú A C D, C và D lần lượt được gọi là tập thuộc tớnh điều kiện và tập thuộc tớnh quyết định của hệ thụng tin.
Vớ dụ 4-2 : Bảng 4-2 dưới đõy thể hiện một hệ quyết định, trong đú tập thuộc tớnh {walk} được thờm vào nhận hai giỏ trị kết xuất là Yes và No [10].
Age LEMS Walk x1 16 – 30 50 Yes x2 16 – 30 0 No x3 31 – 45 1 – 25 No x4 31 – 45 1 – 25 Yes x5 46 – 60 26 – 49 No x6 16 – 30 26 – 49 Yes x7 46 – 60 26 – 49 No
Bảng 4- 2. Một bảng quyết định đơn giản
Một lần nữa ta thấy rằng, cỏc cặp đối tượng x3, x4 và x5, x7 vẫn cú giỏ trị như nhau tại hai thuộc tớnh điều kiện, nhưng cặp thứ nhất {x3, x4}thỡ cú giỏ trị kết xuất khỏc nhau (tức giỏ trị tại thuộc tớnh quyết định khỏc nhau), trong khi đú cặp thứ hai {x5, x7} thỡ bằng nhau tại thuộc tớnh quyết định.
Từ bảng trờn cú thể rỳt ra được một luật: “Nếu Age là 16-30 và LEMS là 50 thỡ Walk là Yes”. Tớnh tối thiểu của cỏc thuộc tớnh điều kiện trong tập cỏc luật cú được từ hệ quyết định là một trong những vấn đề rất quan trọng.
4.3. Quan hệ bất khả phõn biệt
Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về cỏc đối tượng trong thực tiễn. Tuy nhiờn trong nhiều trường hợp bảng này cú thể được thu gọn lại vỡ cỏc lý do sau:
Nhiều đối tượng giống nhau, hay khụng thể phõn biệt với nhau lại được thể hiện lặp lại nhiều lần.
Khi bỏ đi một số thuộc tớnh thỡ thụng tin do bảng quyết định cung cấp mà chỳng ta quan tõm sẽ khụng bị mất mỏt. Những thuộc tớnh như vậy
được coi là cỏc thuộc tớnh thừa.
4.3.1. Quan hệ tương đương - Lớp tương đương
Một quan hệ hai ngụi RX x Xđược gọi là quan hệ tương đương khi và chỉ khi :
R là quan hệ phản xạ: xRx, x X
R là quan hệ đối xứng: xRy yRx, x,y X