Thực nghiệm 2: Khảo sát sự phụ thuộc thời gian huấn luyện và kết quả

Một phần của tài liệu phân lớp phân cấp taxonomy văn bản WEB và ứng dụng (Trang 48 - 61)

1. 2 Một số khái niệm

3.3.2. Thực nghiệm 2: Khảo sát sự phụ thuộc thời gian huấn luyện và kết quả

quả vào tập thuộc tính.

Ta biết rằng, việc lựa chọn tập thuộc tính là rất quan trọng vì nó ảnh hưởng trực tiếp tới thời gian huấn luyện và kết quả phân lớp. Đối với bài toán phân lớp phân cấp,

ở các mức trên của cây phân cấp, chỉ cần chọn tập thuộc tính phù hợp nhất để phân biệt giữa các lớp ở mức đó. Quay trở lại hình 2.2, như phần 2.2.1 đã trình bày, “Máy tính” là một thuộc tính rất tốt để phân biệt giữa các lớp ở mức 1. Nếu đi sâu xuống nhánh “Tin học” sẽ có nhiều thuộc tính chuyên biệt hơn để phân biệt giữa các lớp ở

nhánh này, và độ quan trọng của thuộc tính “Máy tính” tại nhánh “Tin học” sẽ bị giảm

đi. Vì vậy, khoá luận tiến hành một vài thực nghiệm nhằm khảo sát sự phụ thuộc của việc lựa chọn tập thuộc tính tại mức 1 của cây phân cấp hình 3.2 với thời gian huấn luyện và kết quả phân lớp thu được.

Tập thuộc tính của ba lớp ở mức 1 được thể hiện như sau (Bảng 3.4):

REC SCI TALK

16238 18596 19622

Tập thuộc tính được lựa chọn theo độđo thông tin qua lại(MI) :

( ), log( A N) ( ) I t c A C A B × ≈ + × +

Thử nghiệm trên ba lần lựa chọn số lượng thuộc tính có MI lớn nhất cho mỗi lớp giảm dần theo thống kê sau (Bảng 3.5) :

REC SCI TALK

50% 8119 9296 9622 40% 6495 7436 7697 30% 4871 5577 5773

Sử dụng tập dữ liệu kiểm tra cho ba lớp ở mức 1 như thực nghiệm 1 ta thu

được kết quả như sau (Bảng 3.6):

Lớp Phần trăm

Bảng 3.5 : Số lượng thuộc tính được lựa chọn cho mỗi lớ

Tỉ lệ phân lớp đúng Độ chính xác Độ hồi tưởng Độđo Fβ (β =1) Không lựa chọn 97.48% 95.73% 96.52% 96.12% 50% 97.45% 95.79% 96.37% 96.08% 40% 96.84% 95.09% 95.06% 95.08% REC 30% 97.55% 97.51% 94.86% 96.17% Không lựa chọn 94.42% 91.81% 90.83% 91.32% 50% 94.54% 92.22% 90.76% 91.48% SCI 40% 94.86% 92.30% 91.74% 92.02% 30% 95.13% 93.08% 91.74% 92.41% Không lựa chọn 95.49% 90.94% 96.88% 93.82% 50% 95.77% 91.18% 96.81% 93.91% 40% 95.98% 91.87% 97.22% 94.47% TALK 30% 95.94% 93.22% 95.42% 94.31%

Độ đo trung bình của cả ba lớp trong từng trường hợp được thể hiện trong bảng 3.7 và biểu đồ 3.2:

Độđo Phần trăm Tỉ lệ phân lớp đúng trung bình Độ chính xác trung bình Độ hồi tưởng trung bình Độđo F1 trung bình Không lựa chọn 95.68% 92.83% 94.74% 93.75% 50% 95.92% 93.06% 94.65% 93.82% 40% 95.89% 93.09% 94.67% 93.86% 305 96.21% 94.60% 94.01% 94.30% 93.57 93.82 93.86 94.3 93.2 93.4 93.6 93.8 94 94.2 94.4 Không lựa chọn 50% 40% 30% Các trường hợp Độ đ o F 1 Nhn xét :

Từ biểu đồ 3.2, dễ nhận thấy với bài toán phân lớp phân cấp văn bản, khi lựa

được tập thuộc tính phù hợp để phân biệt giữa các lớp thì kết quả phân lớp trung bình sẽ tăng lên. Từ bảng 3.6 và 3.7 ta thấy có một số lớp khi tập thuộc tính được rút gọn

Bảng 3.7: Kết quả trung bình cho từng trường hợp

Biểu đồ 3.2: Độđo F1 của bộ phân lớp khi sử dụng độđo thông tin MI

thì kết quả giảm đi. Điều này là hoàn toàn tự nhiên, và sẽ tồn tại một ngưỡng mà tại đó kết quả phân lớp trung bình sẽ thấp hơn so với khi không lựa chọn tập thuộc tính. Vì vậy, đối với các ứng dụng lớn, cần xem xét lựa chọn ngưỡng phù hợp để kết quả phân lớp cao nhất có thể.

REC SCI TALK Tổng thời gian

Không lựa chọn 7.44 7.89 8.15 23.48 50% 6.58 7.01 7.65 21.24 40% 4.50 5.02 5.36 14.88 30% 3.12 3.75 3.48 10.35 23.48 21.24 14.88 10.35 0 5 10 15 20 25 Không lựa chọn 50% 40% 30% Phần trăm đặc trưng được lựa chọn Th i g ian (s) Bảng 3.8 : Thời gian huấn luyện của từng lớp

Biểu đồ 3.3 : Tổng thời gian huấn luyện theo phần trăm thuộc tính

Lựa chọn được tập thuộc tính phù hợp không những làm tăng kết quả mà một

điều rất quan trọng là thời gian huấn luyện các bộ phân lớp sẽ giảm đáng kể. Điều này

được thể hiện trong bảng 3.8 biểu diễn thời gian huấn luyện cho từng lớp (tính theo

đơn vị giây) cho từng trường hợp.

Sự phụ thuộc tổng thời gian huấn luyện của cả ba lớp theo sự lựa chọn thuộc tính được thể hiện như biểu đồ 3.3.

Nhn xét:

Dễ nhận thấy, tập thuộc tính càng được rút gọn thì tổng thời gian huấn luyện cho cả ba lớp đều giảm đi rõ rệt. Đây là một trong những tiêu chí quan trọng mà các hệ thống phân lớp hướng tới, đặc biệt với các hệ thống lớn.

Từ thực nghiệm có thể rút ra kết luận rằng : lựa chọn được tập thuộc tính phù hợp cho các mức của cây phân cấp không chỉ làm giảm thời gian huấn luyện các phân lớp mà còn làm tăng kết quả phân lớp cuối cùng.

KT LUN

Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm có thể khẳng định rằng bài toán phân lớp phân cấp văn bản thực sự tốt. Đặc biệt, đối với các hệ thống phân lớp mà số lượng các lớp nhiều, thì phân lớp phân cấp văn bản sẽ phát huy được những ưu

điểm của mình, không chỉ về kết quả phân lớp mà cả mặt thời gian phân lớp. Bài toán phân lớp phân cấp văn bản Web thực sự có ý nghĩa về nghiên cứu và triển khai.

Về mặt nội dung, khoá luận đã đạt được những kết quả sau :

– Nghiên cứu một phương pháp giải quyết bài toán phân lớp phân cấp và cách xây dựng các bộ phân lớp cho cây phân cấp văn bản.

– Nghiên cứu, phân tích hoạt động các thuật toán kNN, AdaBoost và SVM giải quyết bài toán phân lớp phân cấp. Đề xuất ý tưởng đưa trọng số vào mỗi nút trong quá trình phân lớp phân cấp.

– Xây dựng chương trình thi hành phân lớp phân cấp được viết trên ngôn ngữ C/C++, môi trường Dev-C++ 4.9.8.0 được tích hợp từ module chương trình tiền xử lý văn bản (do khóa luận xây dựng) và module phân lớp phẳng (khai thác mã nguồn bộ phân lớp SVM nhị phân phiên bản 6.01). Kết quả thực nghiệm trên tập dữ liệu 20 NewsGroup cho thấy tính khả thi của chương trình phân lớp phân cấp với độđo F1 xấp xỉ 90%. Bên cạnh đó, do thời gian và kiến thức có hạn, khoá luận vẫn còn một vài hạn chế sau :

– Chương trình sử dụng thuật toán SVM cho bài toán phân lớp phân cấp mới thi hành trên một bộ dữ liệu nên chưa có kết quả trên nhiều bộ dữ

liệu. Chưa thi hành nhiều thuật toán để chọn được phương án tốt.

– Do chưa nhận được độ đo đánh giá phân lớp phân cấp chuẩn nên khóa luận tiến hành đánh giá kết quả phân lớp phân cấp theo các độ đo của phân lớp phẳng là độ chính xác, độ hồi tưởng và độ đo F1. Đây là một hạn chế của khóa luận.

Trong tương lai, khoá luận sẽ tiếp tục hoàn thiện theo hướng sau :

– Thử nghiệm trên nhiều bộ dữ liệu khác nhau, đặc biệt áp dụng bài toán phân lớp với các trang Web tiếng Việt.

– Sử dụng một số thuật toán phân lớp phẳng khác với SVM để từ đó tìm

được thuật toán hiệu quảđối với bài toán phân lớp phân cấp.

– Ý tưởng đánh trọng số cho các thuộc tính dựa vào độ sâu của taxonomy chưa tiến hành cài đặt được. Trong thời gian tới, chúng tôi sẽ tiến hành cài đặt chương trình này.

TÀI LIU THAM KHO

Tài liu Tiếng Vit

[1]. Đặng Thanh Hải. Thuật toán phân lớp văn bản web và thực nghiệm trên máy tìm kiếm Viettseek. Khoá luận tốt nghiệp 2004, Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội

Tài liu Tiếng Anh

[2]. Ahswin K Pulijala, Susan Gauch. Hierachical Text Classification, International Conference on Cybernetics and Information Technologies, Systems and Applications: CITSA 2004, Vol. 1, Orlando, FL, July 2004, pp. 257-262.

[3]. Aixin Sun and Ee-Peng Lim Hierarchical Text Classification and Evaluation –

Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001) Pages 521-528, California, USA, November 2001.

[4]. Andrew Mc Callum, Ronald Rosenfeld, Tom Mitchell, Andrew Y.Ng Improving Text Classification by Shrinkage in a Hierarchy of Classes, In Proceedings of The Eighteenth International Conference on Machine Learning, 1998.

[5] .D.Wollersheim, W.J.Rahayu Using Medical Test Collection Relevance Judgement to Identify Ontological Relationships Useful for Query Expansion 21st

International Conference on Data Engineering 2005.

[6]. Daphne Koller, Mehran Sahami Hierarchical classifying documents using very few words Proceedings of the Fourteenth International Conference on Machine Learning (ML-97) pages 170-178, Nashville, Tennessee, July 1997.

[7]. Delphi Group, a Perot Systems Company. Information intelligence: Content Classification and the Enterprise Taxonomy Practice, 2004.

[8]. Fabrizio Sebastiani. Machine Learning in Automated Text Categorization. ACM Computing Survey, 34(1) pages 1-47, 2002.

[9]. H.T.Kung, C.H.Wu Content Networks: Taxonomy and New Approaches The Internet as a Large-Scale Complex System, Kihong Park and Walter Willinger (Editors), published by Oxford University Press as part of Sante Fe Institute series, 2002.

[10]. Ian H.Witten & Eibe Frank. Data Mining – Practical Machine Learning Tools and Techniques – second Edition Morgan Kaufmann Publishers.

[11]. Lijuan Cai, Thomas Hofmann Hierarchical Document Categorization with Support Vector Machines Proceedings of the ACM Conference on Information and Knowledge Management, pages 78-87.

[12]. Michael Granitzer. Hierarchical Text Classification using methods from Machine Learning, Master Thesis at Graz University of Technology, submitted by Michael Granitzer – Institute of Theoretical Computer Science (IGI) Graz University of Technology A-8010 Graz, Austria, 27th Octorber 2003.

[13].Michael Granitzer,Peter Auer. Experiments With Hierarchical Text Classification. Proceedings of 9th IASTED International Conference on Artifical Interlligence, IASTED, ACTA Press, Benidorm, Spain.

[14]. Miguel E.Ruiz , Padmini srinivasan Hierarchical Text Categorization Using Neural Networks Information Retrieval, 2002 Kluwer Academic Publishers.

[15].OU Shi-yan, KHOO Christopher S.G, GOH Dion H. Division of Information Studies, Constructing a taxonomy to support multi-document summarization of dissertation abstracts. Proceedings Issue of the 1st International Conference on Universal Digital Library (ICUDL 2005).

[16]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth. Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003. [17]. Shrikanth Shankar, George Karypis. A weight adjustment algorithm for document

categorization, SIGKDD Wordshop on Text Mining, Boston, MA.

[18]. Soumen Chakrabarti, Indian Institute of Technology, Bombay, trang 183-188,

Mining the web- discovering knowledge from Hypertext Data Morgan Kaufman Publishers.

[19]. Soumen Chakrabarti, Byron Dom. Rakesh Agrawal, Prabhakar Raghavan Using taxonomy, discriminats, and signatures for navigating in text databases, Proceedings of the International Conference on Very Large Data Bases (VLDB). [20]. Svetlane Kiritchenko. Hierarchical Text Categorization and Its Application to

Bioinformatics, Ph.D thesis in Computer Science – School of Information Technology and Engineering Faculty of Engineering University of Ottawa, Canada 2005.

[21]. Susan Dumais, Hao Chen - Hierarchical Classification of Web Content, Proceedings of the ACM International Conference on Research and Development in Information Retrieval (SIGIR), pages 256-263.

[22]. Yiming Yang, Jan O.Pedersen A Comparative Study on Feature Selection in Text Categorization. Proceedings of the Fourteenth Internationcal Conference on Machine Learning (ICML ’97), 412-420, 1997.

[23]. Yongwook Yoon, Changkl Lee, Gary Geunbae Lee An effective procedure for constructing a hierarchical text classification system. Journal of American Society for Information Science and Technology (JASIST), 57(3), (pp. 431-442).

PH LC A. DANH SÁCH T DNG

Danh sách các từ dừng được sử dụng trong thực nghiệm : (danh sách các từ

dừng được sử dụng từ nguồn BOW toolkit – Andrew McCallum 1998,1999)

a, able, about, above, according, accordingly, across, actually, after, afterwards, again, against, all, allow, allows, almost, alone, along, already, also, although, always, am, among, amongst, an, and, another, any, anybody, anyhow, anyone, anything, anyway, anyways, anywhere, apart, appear, appreciate, appropriate, are, around, as, aside, ask, asking, associated, at, available, away, awfully.

b, be, became, because, become, becomes, becoming, been, before, beforehand, behind, being, believe, below, beside, besides, best, better, between, beyond, both, brief, but, by.

c, came, can, cannot, cant, cause, causes, certain, certainly, changes, clearly, co, com, come, comes, concerning, consequently, consider, considering, contains, corresponding, could, course, currently.

d, definitely, described, despite, did, different, do, does, doing, done, down, downwards, during.

e, each, edu, eg, eight, either, else, elsewhere, enough, entirely, especially, et, etc, even, ever, every, everybody, everyone, everything, everywhere, ex, exactly, example, except.

f, far, few, fifth, first, five, followed, following, follows, for, former, formerly, forth, four, from, further, furthermore.

g, get, gets, getting, given, gives, go, goes, going, gone, got, gotten, greetings. h, had, happens, hardly, has, have, having, he, hello, help, hence, her, here, hereafter, hereby, herein, hereupon, hers, herself, hi, him, himsefl, his, hither, hopefully, how, howbeit, however.

i, ie, if, ignored, immediate, in, inasmuch, inc, indeed, indicate, indicated, indicates, inner, insofar, instead, into, inward, is, it, its, itsefl.

j, just, k, keep, kept, know, knows, known.

l, last, lately, later, latter, latterly, least, less, lest, let, like, liked, likely, little, look, looking, looks, ltd.

m, mainly, many, may, maybe, me, mean, meanwhile, merely, might, more, moreover, most, much, must, my, mysefl.

n, name, namely, nd, near, nearly, necessary, need, needs, neither, never, nevertheless, new, next, nine, no, nobody, non, none, noone, nor, normally, not, nothing, novel, now, nowhere.

o, obviously, of, off, often, oh, ok, okay, old, on, once, one, ones, only, onto, or, other, others, otherwise, ought, our, ours, ourselses, out, outside, overall, own.

p, particular, particularly, per, perhaps, placed, please, plus, possible, presumably, probably, provides.

q, que, quite, qv.

r, rather, rd, re, really, reasonably, regarding, regardless, regards, relatively, respectively, right.

s, said, same, saw, say, saying, says, second, secondly, see, seeing, seem, seeming, seems, seen, self, selves, sensible, sent, serious, seriously, seven, shall, she, should, since, six, so, some, somebody, somehow, someone, something, sometime, sometimes, somewhat, somewhere, soon, sorry, specified, specify, specifying, still, sub, such, sup, sure.

t, take, taken, tell, tends, th, than, thank, thanks, thanx, that, thats, the, their, theirs, them, themselves, then, thence, there, thereafter, thereby, therefore, therein, theres, thereupon, these, they, think, third, this, thorough, thoroughly, those, though, three, through, throughout, thru, thus, to, together, too, took, toward, towards, tried, tries, truly, try, trying, twice, two.

u, un, under, unfortunately, unless, unlikely, until, unto, up, upon, us, use, used, useful, uses, using, usually, uucp.

v, value, various, very, via, viz, vs

w, want, wants, was, way, we, welcome, well, went, were, what, whatever, when, whence, whenever, where, whereafter, whereas, whereby, wherein, whereupon, wherever, which, while, whither, who, whoever, whole, whom, whose, why, will, willing, wish, with, within, without, wonder, would.

Một phần của tài liệu phân lớp phân cấp taxonomy văn bản WEB và ứng dụng (Trang 48 - 61)

Tải bản đầy đủ (PDF)

(61 trang)