III 2.2.3 Biểu diễn văn bản HyperText theo mụ hỡnh quan hệ
CHƯƠNG 4 HỆ THỐNG THỬ NGHIỆM 4.1 MỘT SỐ CễNG TRèNH NGHIấN CỨU LIấN QUAN
4.1. MỘT SỐ CễNG TRèNH NGHIấN CỨU LIấN QUAN
Hệ thống thử nghiệm được xõy dựng dựa trờn sự kết hợp những ưu điểm của cỏc giải phỏp trong cỏc cụng trỡnh nghiờn cứu về vấn đề tỡm kiếm và phõn lớp văn bản trước đõy. Sau đõy là nội dung và kết quả của cỏc cụng trỡnh nghiờn cứu
1.. [Sộan Slattery (May 20002_CMU-CS-02-142)] Luận ỏn tiến sỹ ”HyperText Classification”
Trong luận ỏn tiến sĩ của mỡnh, tỏc giả đó so sỏnh cỏc thuật toỏn học mỏy ỏp dụng cho phõn lớp trang Web cựng với cỏc cỏch biểu diễn tương ứng, đú là:
1. Dựng Naùve Bayes với cỏch biểu diễn tài liệu thành một tỳi cỏc từ (bag of words)
2. Dựng k người lỏng giềng gần nhất với mụ hỡnh tấn số cho biểu diễn trang Web (TF-IDF)
3. Thuật toỏn FOIL với cỏch biểu diễn thành tập cỏc từ (set of words) cho mỗi tài liệu (khụng tớnh đến cỏc liờn kết trong mỗi tài liệu)
4. Thuật toỏn FOIL với cỏch biểu diễn thành tập cỏc từ (set of words) và cú tớnh đến cỏc thụng tin liờn kết trong cỏc tài liệu
Tỏc giả đó cài đặt và thử nghiệm và đưa ra kết quả, với tiờu chuẩn đỏnh giỏ là Độ
hồi tưởng(recall)và Độ chớnh xỏc( Precision)
Cỏch tiếo cận 4 ưu điểm hơn cả, cho độ hồi tưởng và độ chớnh xỏc cao hơn hẳn. Tiếp đến, tỏc giả đó xõy dựng một bộ phõn lớp HyperText mới sử dụng thuật toỏn FOIL_PILES với cỏch biểu diễn văn bản theo mụ hỡnh quan hệ.
2. [Đoàn Sơn] Luận văn thạc sĩ ”Phương phỏp sử dụng Logic mờ và ứng dụng trong khai phỏ dữ liệu FullText”
Trong luận văn này, tỏc giả thực hiện phõn lớp văn bản sử dụng cỏch biểu diễn văn bản bằng phương phỏp sử dụng Logic mờ và ứng dụng thuật toỏn học cõy quyết định.
Với cỏch giải quyết bài toỏn như vậy đó cho ta thấy một số ưu điểm: Sử dụng cỏc khỏi niệm mờ đó làm giảm số chiều của cỏc thuộc tớnh, dẫn đến làm giảm thời gian tớnh toỏn khi học cõy quyết định.
Tuy nhiờn cỏch biểu diễn này cũn cú một số mặt hạn chế, đú là việc con người cú thể sẽ tốn nhiều cụng sức cho việc xõy dựng chủ đề, cỏc khỏi niệm và mối liờn quan giữa chỳng.
3. [Bựi Quang Minh] “Mỏy tỡm kiếm Vietseek”. Bỏo cỏo kết quả nghiờn cứu thuộc đề tài khoa học đặc biệt cấp ĐHQGHN mó số QG 02-02.
Trong mỏy tỡm kiếm Vietseek, cỏc văn bản được tổ chức thành cơ sở dữ liệu. Vietseek đó xõy dựng được cả ba loại chỉ mục (TextIndex, StructureIndex và UtilityIndex). Cơ sở dữ liệu Vietseek được chia thành hai phần:
Phần 1: Dữ liệu về văn bản Web, Domain, Word được lưu trữ trong cỏc bảng của CSDL mySQL
Phần 2: Dữ liờu về chỉ mục (index) được lưu trữ riờng và cú cơ cấu riờng. Do phần này đũi hỏi tốc độ cao nờn khụng lưu trữ trong CSDL MySql mà lưu trữ trong 300 file nhị phõn khỏc nhau.
Vietseek thực hiện tỡm kiếm theo cụm từ đưa vào và trả về cỏc văn bản cú chứa cỏc cụm từ khúa đú chứ chưa thực hiện phõn lớp
4. [Phạm Thị Thanh Nam] Luận văn Thạc sỹ “Một số giải phỏp cho bài toỏn tỡm kiếm trong CSDL HyperText”.
Từ CSDL chỉ mục đó được xõy dựng của Vietsek, tỏc giả đó xõy dựng nờn vector biểu diễn cỏc trang Web, với thành phần của vector chớnh là tần suất xuất hiện của cỏc từ khúa trong văn bản đang xột.
Luận văn này đề xuất một số thuật toỏn:
- Liệt kờ danh sỏch cỏc trang Web “Gần nghĩa nhất” với trang Web hoặc cụm từ tỡm kiếm đưa vào theo tiờu chớ “Gần nhau về nội dung”. Độ gần nhau về nội dung sẽ thu được khi so sỏnh cỏc vector biểu diễn với nhau
- Độ quan trọng của trang Web dựa vào mối liờn kết với trang Web khỏc và tần số xuất hiện của cỏc từ khúa tỡm kiếm trong trang.
- Kết hợp độ gần nhau về nội dung và độ quan trọng của trang web thành một tiờu chớ gọi là “giỏ trị kết hợp”. Kết quả sẽ được hiển thị theo “giỏ trị kết hợp”.
Nhận xột
Tuy cụng trỡnh đầu tiờn [Sộan Slattery] đó giới thiệu khỏ tổng quan về cỏc phương phỏp phõn lớp và phõn tớch một số kết quả thử nghiệm, nhưng núi chung cả bốn cụng trỡnh nghiờn cứu núi trờn chưa thực sự đề cập tới vấn đề thiết kế và cài đặt những giải phỏp thực sự tinh tế giải quyết vấn đề từ đồng nghĩa và đa ngụn ngữ đối với hệ thống phõn lớp trong CSDL Web. Thực hiện việc khảo sỏt những giải phỏp cho vấn đề này và cài đặt thử nghiệm là một cụng việc nghiờn cứu cú ý nghĩa.
Tồn tại một số thuật toỏn điển hỡnh giải quyết bài toỏn phõn lớp trong cỏc CSDL văn bản. Việc cài đặt thử nghiệm và đỏnh giỏ hiệu quả hoạt động của một số thuật toỏn phõn lớp điển hỡnh như vậy trong một CSDL web thực sự (khoảng vạn trang ) cú thể được coi như những bước đi cần thiết đầu tiờn trong việc xõy dựng và phỏt triển cỏc mỏy tỡm kiếm tiếng Việt.
4.2. ĐỀ XUẤT MỘT CÁCH TỔ CHỨC CSDL VÀ THUẬT TOÁN ÁP
DỤNG
Theo những phương phỏp biểu diễn văn bản HyperText đó và đang được sử dụng, nghiờn cứu, ta cú nhận xột tổng quỏt sau: cỏch biểu diễn văn bản HyperText trong cỏc mỏy tỡm kiếm cú ưu điểm là khai thỏc được những thụng tin quan trọng về vị trớ xuất hiện của từ khúa, để từ đú xếp hạng được cỏc trang Web tỡm được theo thứ tự gần với nội dung từ khúa cần tỡm, nhưng chưa thấy đề cập đến tần số xuất hiện của cỏc từ khúa trong văn bản. Nờn việc tỡm theo nội dung là khú thực hiện được.
Cũn với cỏch biểu diễn theo mụ hỡnh Vector của Seỏn Slattery [2002] thỡ đó bỏ qua thụng tin về vị trớ xuất hiện của cỏc từ khúa, một thụng tin rất quan trọng cho phõn lớp văn bản. Hơn nữa nếu theo cỏch biểu diễn 2, văn bản gốc cần phõn lớp sẽ bị mờ nhạt đi trong tập hợp cỏc văn bản liờn qua đến nú, vỡ phõn lớp sẽ mất chớnh xỏc nhất là khi cỏc văn bản liờn quan khụng cú cựng chủ đề. Cũn với cỏch biểu diễn 3 và 4, số chiều của vector sẽ rất lớn và cú rất nhiều thành phần lặp (chớnh là cỏc từ xuất hiện lặp đi lặp lại trong tập cỏc văn bản liờn quan).
Từ những ưu nhược điểm của cỏc phương phỏp trờn, đề tài đưa ra một cỏch biểu diễn riờng. í t ưởng chớnh vẫn là dựa trờn mụ hỡnh vector, đồng thời trong cỏch xõy dựng file từ khúa cú tớnh đến cỏc từ đồng nghĩa