Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
654,4 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Hương Thảo
PHÂN LỚPPHÂNCẤPTAXONOMYVĂNBẢNWEB
VÀ ỨNGDỤNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: CN. Đặng Thanh Hải
HÀ NỘI - 2006
Tóm tắt nội dung
Phân lớpvănbản là quá trình gán vănbản một cách tự động vào một hoặc nhiều
lớp cho trước. Tuy nhiên, trong trường hợp có số lượng khá lớn các lớp, bài toán sẽ
phức tạp hơn rất nhiều, do đó, khi tiến hành phânlớp thường cho kết quả có độ chính
xác không cao. Vì vậy, một vấn đề được đặt ra là cần phânlớp các vănbản sử dụng
cấu trúc phân cấp. Hiện nay, bài toán này đã và
đang trở thành lĩnh vực nhận được
nhiều sự quan tâm, nghiên cứu của nhiều nhà khoa học trên thế giới. Khoá luận tốt
nghiệp với đề tài "Phân lớpphâncấpTaxonomyvănbảnWebvàứng dụng" nghiên
cứu nội dung, các thuộc tính, các thuật toán giải quyết bài toán phânlớpphân cấp.
Khóa luận đã tiến hành thực nghiệm trên 12 lớp dữ liệu, sử dụng thuật toán máy vector
hỗ trợ, kết qu
ả thu được rất tốt với độ đo F1 trung bình lên tới gần 90%.
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
1
Lời mở đầu
Trích chọn thông tin trên Web đã và đang tạo thêm nhiều tài nguyên thông tin,
tri thức mới đáp ứng ngày càng hiệu quả nhu cầu thông tin của con người. Ngày nay,
công nghệ trích chọn thông tin trên Web đã hình thành loại hình dịch vụ đầy triển
vọng trong việc cung cấp thông tin phong phú và hữu ích từ nguồn dữ liệu được coi là
vô hạn trên Web. Một trong những bài toán cơ bảnvà quan trọng trong trích chọn
thông tin trên Web là bài toán phát hiện các quan hệ của các lớp đối tượng trên Web
mà quan hệ phâncấp giữa chúng là m
ột loại quan hệ điển hình. Để thực hiện việc phát
hiện mối quan hệ phâncấp giữa các lớp đối tượng trên Web thì bài toán đầu tiên cần
giải quyết đó là bài toán phânlớp tự động các đối tượng. Tự động phânlớpvănbản là
một nhiệm vụ rất quan trọng có thể giúp ích trong việc tổ chức cũng như tìm kiếm
thông tin trên nguồn tài nguyên lớn này. Phânlớpvăn bả
n là quá trình gán vănbản
một cách tự động vào một hoặc nhiều lớp cho trước.
Trong các nghiên cứu phânlớpvăn bản, hầu hết đều tập trung vào bài toán phân
lớp mà các lớp cho trước được xem là tách biệt nhau và không có cấu trúc xác định
mối quan hệ giữa chúng. Những bài toán phânlớp như vậy được gọi là bài toán phân
lớp phẳng (flat classification). Tuy nhiên, trong trường hợp có số lượng khá lớn các
lớp, bài toán sẽ phức tạp hơn rất nhi
ều và khi thực hiện các giải pháp phânlớp thường
cho kết quả không chính xác. Vì vậy, một vấn đề được đặt ra là cần phânlớp các văn
bản sử dụng cấu trúc phân cấp. Thực hiện công việc này mặc nhiên cũng đã bao hàm
vấn đề phát hiện quan hệ phâncấp giữa các lớp đối tượng như đã nói ở trên. Về bản
chất đây cũng được coi là một loại quan hệ
ngữ nghĩa giữa các đối tượng vàlớp đối
tượng. Bài toán cần được giải quyết là phát hiện các lớpvà kiến trúc các lớp đã được
phát hiện vào một cây phân cấp. Đây là bài toán phânlớpphân cấp. Phânlớpphâncấp
cho phép định hướng vào bài toán phânlớp lớn ban đầu và sử dụng phương pháp chia
nhỏ và đệ quy.
Khoá luận tốt nghiệp với đề tài "Phân lớpphâncấpTaxonomyvănbảnWeb
và ứng dụ
ng" nghiên cứu nội dung, các thuộc tính, các thuật toán giải quyết bài toán
phân lớpphâncấpvà cố gắng đưa ra một số nhận xét, đề xuất thích hợp và thi hành
chương trình thực nghiệm để kiểm chứng tính khả thi của phương pháp.
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
2
Khóa luận được tổ chức thành ba chương mà nội dung chính của các chương
được giới thiệu như dưới đây.
Chương 1. Tổng quan về Taxonomyvàphânlớpvănbản trình bày những nét cơ
bản nhất về taxonomy, các khái niệm và nội dung cơ bản về bài toán phânlớpvăn bản.
Chương này cũng trình bày một số thuật toán phânlớpvănbản điển hình, đặc biệt tập
trung vào thuậ
t toán SVM - thuật toán hiện nay được đánh giá là bộ phânlớp nhanh và
hiệu quả nhất với bài toán phânlớpvăn bản.
Chương 2. PhânlớpphâncấpTaxonomyvănbảnWeb nghiên cứu các phương
pháp giải quyết bài toán phânlớpphâncấpvà cách xây dựng các bộ phânlớp cho cây
phân cấpvăn bản. Chương này cũng giới thiệu một số phương pháp đánh giá cho bài
toán phânlớp phẳng và độ đo dựa vào khoảng cách và độ tương tự
giữa các lớp.
Chương 3. Thực nghiệm trình bày các kết quả thực nghiệm thu được khi áp
dụng thuật toán SVM và phương pháp phânlớpphâncấp theo hướng top-down. Một
số nhận xét, đánh giá kết luận cũng được trình bày.
Phần kết luận tổng kết các kết quả của khóa luậnvà trình bày định hướng phát
triển nội dung của khóa luận. Bài toán phânlớpphâncấpvănbảnWeb thực sự có ý
nghĩ
a về nghiên cứu và triển khai.
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
3
MỤC LỤC
Chương I. TỔNG QUAN VỀ TAXONOMYVÀPHÂNLỚPPHÂNCẤP 5
1.1. Giới thiệu Taxonomy 5
1.2. Phânlớpvănbản 6
1. 2.1. Một số khái niệm 7
1.3. Quá trình tiền xử lý dữ liệu 11
1.3.1.1. Phương pháp biểu diễn tài liệu 12
1.3.1.2. Quá trình lựa chọn thuộc tính 14
1.4. Các thuật toán phânlớpvănbản 19
1.4.1. Thuật toán K người láng giềng gần nhất 19
1.4.2. Thuật toán phânlớp AdaBoost 19
1.4.3. Thuật toán máy vector hỗ trợ 21
Chương II. PHÂNLỚPVĂNBẢNWEB SỬ DỤNG CẤU TRÚC PHÂNCẤP
TAXONOMY 27
2.1. Hai phương pháp phânlớpphâncấp 27
2.2. Phânlớpphâncấpvănbản theo hướng top-down 28
2.2.1. Mô hình phânlớp 28
2.2.2. Xây dựng các bộ phânlớp nhị phân 31
2.3. Đánh giá 32
2.3.1. Đánh giá cho bài toán phânlớp phẳng 32
2.3.2. Đánh giá dựa vào độ tương tự 34
Chương III. THỰC NGHIỆM 37
3.1. Dữ liệu và chương trình 37
3.2. Môi trường thực nghiệm 40
3.3. Kết quả và đánh giá 40
3.3.1. Thực nghiệm1 : Phânlớpphâncấp theo hướng top-down 40
3.3.2. Thực nghiệm 2 : Khảo sát sự phụ thuộc thời gian huấn luyện và kết quả
vào tập thuộc tính. 46
KẾT LUẬN. 52
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
4
TÀI LIỆU THAM KHẢO 54
Tài liệu Tiếng Việt 54
Tài liệu Tiếng Anh 54
PHỤ LỤC A. DANH SÁCH TỪ DỪNG 57
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
5
Chương I. TỔNG QUAN VỀ TAXONOMYVÀPHÂN
LỚP PHÂN CẤP
1.1. Giới thiệu Taxonomy
Vào những năm 90 của thế kỉ XX, khái niệm taxonomy được sử dụng trong
nhiều lĩnh vực khác nhau như tâm lý học, khoa học xã hội và công nghệ thông tin để
thiết lập sự trùng hợp giữa thuật ngữ của người sử dụngvà thuật ngữ của hệ thống.
Các chuyên gia đầu tiên phát triển cấu trúc hệ thống Web đã dùng thuật ngữ taxonomy
để nói về tổ chức nội dung các trang web. Và từ đ
ó, khái niệm taxonomy được sử dụng
rộng rãi với mục đích này.
Do được sử dụng trong nhiều lĩnh vực khác nhau, nên có nhiều định nghĩa khác
nhau về taxonomy. Từ năm 2000 đến năm 2005, có khoảng 36 định nghĩa khác nhau
về taxonomy trong các nguồn tài liệu [24]. Trong lĩnh vực công nghệ thông tin,
taxonomy được định nghĩa như sau :
Định nghĩa : Taxonomy là sự phân loại của toàn bộ thông tin trong một hệ
phân cấp theo một mối quan hệ
có trước của các thực thể trong thế giới thực mà nó
biểu diễn.
Một taxonomy thường được mô tả với gốc ở trên cùng, mỗi nút của taxonomy –
bao gồm cả gốc – là một thực thể thông tin đại diện cho một thực thể trong thế giới
thực. Giữa các nút trong taxonomy có một mối quan hệ đặc biệt gọi là is
subclassification of nếu hướng liên kết từ nút con lên nút cha hoặc là is
superclassification of nế
u hướng liên kết từ nút cha xuống nút con. Đôi khi những
quan hệ này được xác định một cách chặt chẽ hơn là is subclass of hoặc is superclass
of, nếu thực thể thông tin là một lớp đối tượng.
Hình 1.1. mô tả một taxonomy đơn giản gồm lớp Person, lớp con của nó là
Employee, Manager; Lớp cha của Person là Agent. Khi đi lên từ gốc của taxonomy,
các thực thể chung chung hơn. Khi đi xuống những lá ở cuối, thực thể xác đị
nh rõ ràng
hơn. Ví dụ, Agent chung chung hơn Person, Employee cụ thể hơn Person.
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
6
Hình 1.1. Taxonomy đơn giản
Taxonomy rất có ích cho việc phânlớp thực thể thông tin theo ngữ nghĩa, chúng
thiết lập một quan hệ ngữ nghĩa đơn giản để phân biệt giữa các đối tượng trong một
miền thông tin.
Taxonomy đóng vai trò rất quan trọng trong việc tổ chức thông tin và tổ chức tri
thức. Nó được sử dụng chủ yếu để giúp cho việc tìm kiếm và duyệt thông tin thuận lợi
và nhanh chóng hơn, đặc biệ
t khi ta chỉ có những thông tin chung chung về vấn đề cần
tìm kiếm. Khi tìm kiếm trên Internet, nếu sử dụng từ khoá để tìm kiếm thông tin, kết
quả trả về có thể từ vài nghìn đến vài chục nghìn tài liệu về các chủ đề khác nhau. Sử
dụng taxonomy để tìm kiếm và duyệt thông tin sẽ tiết kiệm được rất nhiều thời gian
cho người dùng để tìm được thông tin cần thiết. Đồng thời, taxonomy cho phép các
máy tìm kiếm và các ứng dụ
ng có thể dễ dàng tìm được các thực thể thông tin nhanh
và chính xác hơn nhiều.
Taxonomy đã được áp dụng trong nhiều bài toán khác nhau: OU Shi-yan,
KHOO Christopher S.G, GOH Dion H. (2005 [15]) xây dựngtaxonomy hỗ trợ việc
tóm tắt tự động văn bản; H.T.Kung và C.H.Wu xây dựngtaxonomy cho mạng nội
dung [9], Wollersheim và Rahayu (2002 [5]) xây dựng một taxonomy hỗ trợ việc
duyệt cơ sở dữ liệu về y tế.
1.2. Phânlớpvănbản
Trong những năm gần đây, với sự phát triển vàứngdụng của Internet, khối
lượng dữ liệu đã tăng trưởng không ngừng theo cả hai phương diện tạo mới và lưu trữ.
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
7
Sự mở rộng các dữ liệu khoa học về địa lý, địa chất, khí tượng do vệ tinh thu thập, sự
giới thiệu quảng bá mã vạch đối với hầu hết các sản phẩm thương mại, việc tin học
hoá sâu rộng các thương vụ và giao dịch, sự phát triển việc ứngdụng công nghệ thông
tin trong quản lý hành chính nhà nước đã tạo ra một khối lượng dữ liệu khổng l
ồ. Tự
động phânlớpvănbản là một nhiệm vụ rất quan trọng có thể giúp ích trong việc tổ
chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn này.
1. 2.1. Một số khái niệm
Phânlớpvănbản (Text Classification) là quá trình gán nhãn các vănbản ngôn
ngữ tự nhiên một cách tự động vào môt hoặc nhiều lớp cho trước. Thông thường, các
lớp cho trước là các chủ đề nào đó, nhưng cũng có nhiều ứngdụng mà các lớp được
thiết lập theo những tiêu chí khác, ví dụ phânlớp theo thể loại, phânlớp theo độ ưu
tiên Hầu hết các bài toán này sẽ tốn thời gian, công sức và đôi khi không chính xác
nếu được phân loại mộ
t cách thủ công - tức là đọc từng vănbảnvà gán vào một lớp
nào đó. Phân loại những đối tượng mới vào các lớp bằng phương pháp thủ công gặp
phải những khó khăn sau:
♦ Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở dữ liệu về
y tế, pháp luật) vào các lớp cho trước cần có hiểu biết về các lĩnh vự
c đó.
♦ Phânlớp bằng tay đôi khi không chính xác vì quyết định phụ thuộc vào sự hiểu
biết và động cơ của người thực hiện.
♦ Quyết định của hai chuyên gia khác nhau có thể nảy sinh bất đồng ý kiến. Vì
vậy những công cụ để tự động phânlớpvănbản vào các lớp sẽ rất hữu ích với
công việc này nhất là khi thông tin tràn ngập như ngày nay. Một số ph
ương
pháp phânlớp thống kê và kĩ thuật học máy như Bayesian, máy vector hỗ trợ
(Support Vector Machines), K người láng giềng gần nhất (K-NN), mạng nơron
được áp dụng để giải quyết bài toán này.
Rõ ràng, kĩ thuật phânlớpvănbản là rất cần thiết, nhất là ngày nay khi hầu hết
các thông tin được sinh ra và lưu trữ điện tử. Các bài báo khoa học và giải trí là những
ví dụ về tập các tài liệu điện tử. Vớ
i sự phát triển ngày càng mạnh mẽ của mạng
Internet và Intranet đã tạo ra nguồn thông tin vô cùng phong phú. Các kĩ thuật phân
lớp vănbản sẽ giúp cho nguồn dữ liệu này được lưu trữ tự động một cách hiệu quả và
được tìm kiếm nhanh chóng.
Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng
Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ
8
Phânlớpvănbản được xuất hiện từ những năm 1960, nhưng chỉ 15 năm sau, nó
đã trở thành lĩnh vực nghiên cứu chính trong hệ thống thông tin bởi sự đa dạng của các
ứng dụng. Phânlớpvănbản được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin
(Information Retrieval), trích lọc thông tin (Information Extraction), lọc vănbản hoặc
tự động dẫn đường cho các vănbản tới nhữ
ng chủ đề xác định trước. Một ứngdụng
khác của phânlớpvănbản là trong lĩnh vực hiểu văn bản. Phânlớpvănbản có thể
được sử dụng để lọc vănbản hoặc một phầnvănbản chứa các dữ liệu cần tìm mà
không làm mất đi tính phức tạp của ngôn ngữ tự nhiên.
Định nghĩa phânlớpvăn bản: Phânlớpvănbản là nhiệm vụ đặt một giá trị
Boolean cho mỗi cặp (d
j
, c
i
) CD
×
∈
, trong đó D là tập các vănbảnvà C= {c
1
,c
2
c
c
}
là tập các lớp cho trước.
Giá trị T (True) được gán cho cặp
(
)
,
ji
dc có nghĩa là tài liệu
j
d thuộc lớp
i
c ;
Giá trị F (False) tức là tài liệu
j
d không thuộc lớp
i
c .
Hoặc, phânlớpvănbản là bài toán tìm một hàm
{
}
FTCD ,: →
×
Φ
trong đó D là
tập các vănbảnvà C= {c
1
,c
2
c
c
} là tập các lớp cho trước, hàm
{}
FTCD ,: →×Φ
được gọi là bộ phân lớp.
Tuỳ vào bài toán khác nhau, ta có các ràng buộc khác nhau. Nhìn chung có thể
phân biệt bài toán phânlớp theo hai cách sau :
• Phânlớpvănbản nhị phân/ đa lớp: Bài toán phânlớpvănbản được gọi là nhị
phân nếu
C
=2, gọi là đa lớp nếu
C
>2.
• Phânlớpvănbản đơn nhãn/ đa nhãn: Bài toán phânlớpvănbản được gọi là
đơn nhãn nếu mỗi tài liệu được gán vào chính xác một lớp. Một bài toán phân
lớp vănbản được gọi là đa nhãn nếu một tài liệu có thể được gán nhiều hơn một
nhãn.
Về mặt lý thuyết, thuật toán phânlớp nhị phân cũng có thể được sử dụng cho
bài toán phânlớp đa lớp b
ằng cách chuyển bài toán đa lớp
{
}
12
, , ,
C
cc c
thành |C| bài
toán nhị phân
{
}
,
ii
cc với 1, ,iC= . Hơn nữa thuật toán phânlớp đa lớp có thể được
sử dụng để giải quyết bài toán phânlớp đa nhãn.
[...].. .Phân lớpphâncấpTaxonomyvănbảnWebvàứngdụng Do đó, bài toán phânlớp nhị phân là bài toán rất quan trọng trong các ứngdụng của phânlớpvănbản Giải quyết bài toán phânlớp nhị phân cũng có nghĩa là giải quyết bài toán phânlớp đa lớp – ứngdụng quan trọng trong phânlớpvănbản Bài toán lọc vănbản (text filtering), lọc thư rác (spam mail) là những ứngdụng điển hình của phânlớp nhị phân. .. Lớp K47CA – Trường Đại học Công nghệ 25 PhânlớpphâncấpTaxonomyvănbảnWebvàứngdụng n 1 max − α T Λα + ∑ α i thoả mãn: 0 ≤ α i ≤ C α 2 i =1 i = 1, , n Bộ phânlớp theo cách này được gọi là bộ phânlớp máy vector hỗ trợ – Support Vector Machine Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 26 PhânlớpphâncấpTaxonomyvănbảnWebvàứngdụng Chương II PHÂNLỚPVĂNBẢNWEB SỬ DỤNG... lớpphâncấp bằng cách chia tập dữ liệu học thành những nhóm phù hợp và sử Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 29 PhânlớpphâncấpTaxonomyvănbảnWeb và ứngdụngdụng các bộ phânlớp nhị phân như SVMs Sử dụng chiến lược top-down cho bài toán phânlớpphân cấp, tại mỗi mức của taxonomy, ta chỉ cần phânlớp với số lớp nhỏ hơn rất nhiều so với phânlớp với tất cả các lớp Và. .. nghệ 30 PhânlớpphâncấpTaxonomyvănbảnWeb và ứngdụng 2.2.2 Xây dựng các bộ phânlớp nhị phân Các bộ phânlớp nhị phân thông thường được học với cả dữ liệu học dương và âm Trong phương pháp phânlớpphân cấp, một bộ phânlớp nhị phân được xây dựng cho mỗi lớp Các bộ phânlớp này được chia thành hai loại : – Bộ phânlớp xác định một tài liệu có thuộc lớp nào đó hay không gọi là bộ phânlớp cục bộ... bộ phânlớp ủy ban là kết hợp k bộ phânlớp độc lập để xây dựng một bộ phânlớp mới Với bộ phânlớp ủy ban, các nhà nghiên cứu thường sử dụng nhiều bộ phânlớp khác nhau như bộ phânlớp dựa cây quyết định, bộ phânlớp Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 19 PhânlớpphâncấpTaxonomyvănbảnWeb và ứngdụng dựa vào xác suất, bộ phânlớp tuyến tính Boosting điển hình chỉ sử dụng. .. được học lại Do đó, trong khóa luận này, chúng tôi tập trung vào bài toán phânlớpphâncấpvănbản theo hướng tiếp cận top-down 2.2 Phânlớpphâncấpvănbản theo hướng top-down Phânlớpphâncấpvănbản theo chiến lược top-down định hướng vào bài toán phânlớp lớn ban đầu theo phương pháp chia nhỏ và đệ quy Với phương pháp này, ta cần xây dựng nhiều bộ phânlớpvàphânlớp một tài liệu mới được thực... trong taxonomy lại phụ thuộc vào các bộ phânlớp nhánh Do đó, các các bộ phânlớp nhánh đóng vai trò rất quan trọng trong kết quả của hệ thống phânlớp Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 28 PhânlớpphâncấpTaxonomyvănbảnWeb và ứngdụng Với bài toán đa nhãn, giả sử có bốn lớp A, B, C, D và bốn bộ phânlớp nhị phân tương ứng Các dữ liệu có thể được gán vào nhiều hơn một lớp. .. toán phânlớp nhiều lớp thành bài toán phânlớp nhị phân Cách đơn giản nhất là chúng ta chuyển vấn đề n lớp cho Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 10 PhânlớpphâncấpTaxonomyvănbảnWebvàứngdụng trước thành n vấn đề nhị phân: bài toán nhị phân thứ i tương ứng với một cây quyết định xem tài liệu có thuộc về lớp thứ i hay không? 1.2.2.3 Phânlớp đa nhãn sử dụng cấu trúc phân. .. biểu diễn vănbản Thuật toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phânlớp nhị phân tức là số lớp hạn chế là hai lớp Hiện nay, SVM được đánh giá là bộ phânlớp chính xác nhất cho bài toán phânlớpvănbản [Soumen Chakrabarti, trang 183, Mining the web- discovering Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 21 PhânlớpphâncấpTaxonomyvănbảnWeb và ứngdụng knowledge... thuât phânlớpvănbản phẳng thì sẽ rất phức tạp đồng thời kết quả phânlớp không cao, bởi vì để phân biệt giữa hàng trăm lớp như vậy là rất khó khăn Vì vậy vấn đề đặt ra là cần phânlớpphâncấp Năm 1997 Koller và Sahami đưa ra bài báo đầu tiên về vấn đề phânlớpvănbản sử dụng cấu trúc phâncấp [6] Từ kết quả thực nghiệm, bài báo chỉ ra rằng phânlớpphâncấp cho kết quả tốt hơn so với phânlớp phẳng .
Chương II. PHÂN LỚP VĂN BẢN WEB SỬ DỤNG CẤU TRÚC PHÂN CẤP
TAXONOMY 27
2.1. Hai phương pháp phân lớp phân cấp 27
2.2. Phân lớp phân cấp văn bản theo hướng. lớp phân cấp văn bản Web thực sự có ý
nghĩ
a về nghiên cứu và triển khai.
Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng
Nguyễn Thị Hương Thảo - Lớp