Các phương pháp thử nghiệm

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 116 - 121)

Chúng emsử dụng 3cách khác nhauđể lấy kết quảtìm kiếm bao gồm sửdụng dịch vụ web do Google cung cấp, tải trang kết quả về máy cục bộ sau đó sử dụng XPathhaytìmkiếmchuỗi.

6.2.1.1. Googlewebservice

Dịch vụ web là một ứng dụng cung cấp giao diện lập trình, hỗ trợ sự truyền thôngtừ ứngdụng nàyđến ứngdụng khác quamạng dùng XML. Dịchvụ web của Google tại địa chỉ http://api.google.com/GoogleSearch.wsdl là một phương pháp tiện lợi để khai thác công cụ tìm kiếm này. Tuy nhiên, ta phải đăng kí tài khoản trước khi sử dụng. Với mỗi tài khoản Google giới hạn số lượng truy vấn là 1000 truyvấn/ngày.Cácthamsốcầnbiếtkhisửdụngdịchvụ:

MộtsốcâutruyvấnđặcbiệttrênGoogle:

82

Truyvấn đặcbiệt Câu truyvấn Ý nghĩa

Loạibỏmộttừ bass –music “-” để loại bỏ 1 từ ra khỏi kết

quảtìmkiếm

TừkhóaOR vacation london OR

paris OR

Giớihạnsite Admission

site:www.stanford.edu site: chỉ tìm kiếm trong site

đượcchỉđịnh

Giớihạnngày Star Wars

daterange:2452122- 2452234

daterange:chỉ trảvềcácfile có nhãnthờigianthõađiềukiện

Lọcfile Google filetype:doc O

R

filetype:pdf

filetype:chỉtìmkiếmcácfile cókiểumởrộngđượcliệtkê

Loạitrừfile Google doc -filetype:

-filetype:pdf -filetype:ngượclạivới

filetype:

Tìmtheotiêuđề intitle:Google search intitle:chỉtìmkiếmtiêuđềweb

Trong quá trình thử nghiệm sử dụng dịch vụ web của Google, chúng em nhận thấy thời gian đáp ứng không được nhanh (khoảng >5s cho một truy vấn-sử dụng mạng Internet của trường) hơn nữa còn tồn tại nhiều lỗi. Lý do có thể kể đến như phiênbản dịchvụ đang trongquá trìnhthửnghiệm (bản β), hạn chếdo dung lượng mạng,chiphíchứngthực. Giớihạn1000truyvấn/ngàycũngảnhhưởngđến chương trình khi phải thựchiện trích xuất trên lượng lớncác từ. Để khắc phục vấn đềnày, chúngemsửdụngbiệnpháptảitrangkếtquảvề.

6.2.1.2. Xpathtìmkiếmchuỗi

TrangkếtquảtrảvềsẽđượcchuyểnsangđịnhdạngxHTMLdùngchoviệctrích xuất dùng Xpath (http://www.w3.org/TR/XPath20) hay thực hiện tìm kiếm trên chuỗi.Cảhaiphươngphápnàyđềuchohiệusuấttốt(khoảng1-3s/truyvấn).

XpathlàđịnhdạngđượcW3Cđềnghịđượcsửdụngrộngrãitrongviệctruyvấn tập tinXML. Sửdụng Xpathcó thuậnlợihơn tìm kiếmchuỗiởchỗ có thểsửdụng trích xuấttrên nhiều ngônngữ trảvề từGoogle và nếucấu trúc củatrang web thay

83

chuỗi sẽ phụ thuộc vào các câu đặc biệt (như “các kết quả ”... ). Do đó, nếu các trangtrảvềcủaGoogletrìnhbàykhácđi,cáchtìmkiếmchuỗisẽkhôngchokếtquả mong muốn. Tuy nhiên, sử dụng cách tìm kiếm chuỗi sẽ cho kết quả nhanh hơn dùng Xpathvì hệ thống không phải tốn mộtthời gianphân tích dữliệu thành dạng tàiliệuXML.

6.2.2. Nhận xét (adsbygoogle = window.adsbygoogle || []).push({});

Hiện tại, điều chúng ta quan tâm hàng đầu là tốc độ trích thông tin từ Google. Mặt khác, trang web Google có cấu trúc khả ổn định, hầu như không thay đổi. Vì vậy khi thực hiện thử nghiệm, chúng em sử dụng cách thức tìm kiếm chuỗi để đạt tốiđộcaonhất.Tuynhiên, chúngemvẫnxâydựngcáclựachọnrúttríchđểtạotính linhhoạttrongthửnghiệm.

6.3.Dữ liệu thử nghiệm 6.3.1. Nguồn dữ liệu

Dữ liệu thử nghiệm được lấy từ trang tin tức VnExpress.net (www.vnexpress.net)tại thờiđiểmtháng 6/2005. Đâylà mộttrong nhữngtrang tin tức điện tử đầu tiên tại Việt Nam ra đời vào ngày 26/2/2001, đến nay đã hơn bốn năm hoạt động với lượng độc giả đông đảo trong cả nước và quốc tế. Ngoài các trangmục dophóngviên củatờ báoviết,VnExpress.net cònmởrộng đónnhận các bài viết dođộc giả gửivề từ khắpnơi đểlàm phong phú thêmcho nội dung củatờ báovàcậpnhậttintứcthườngxuyênnhanhchóng.

6.3.2. Sốlượngdữliệuthửnghiệm

Từ các mục của VnExpress.net, đầu tiên chúng em chọn lọc ra một số mục chínhđểlấydữliệuthửnghiệm.

Vì chúngem quy địnhtừ khóacho chủ đềchính là tênchủ đềđó nên trong quá trìnhthửnghiệm, chúngempháthiệnramộtsốtrườnghợpnhậpnhằng.

Đầu tiên, từ khóa Thế giới, Xã hội có ý nghĩa bao quát có thể về Kinh tế thế giới, chính trịthế giới, văn hóa xã hội…, nên khả năng các tintức được phân loại vàochủđềnàylàrấtcaodotầnsốxuấthiệncủachủđềnàyvớicáctừphổbiếnlớn.

Thứ hai, một số mục có tên khôngđồng nhất giữa các tờbáo điện tử như trang VnExpress.net dùng Vi tính trong khi đó TuoiTre.com.vn lại dùng Nhịp sống số, Vnn.vndùng Côngnghệ thông tinvà Viễn thông....Việc này làmgiảm kết quả khi sử dụng từ khóa khóa Vi tính cho chủ đề này vì từ khóanày không bao quátđược chocáctrangsửdụngtênchủđềkhácmặcdùcùngtrìnhbàymộtnộidung.

Do vậy, chúng em chỉ sửdụng một số mục có từ khóarõ ràng. Đối vớimỗi tin tức, chúngem chỉtách lấyphần tiêuđề, phần tómlược vàphần chúthích ảnh.Đây là các phầncó ý nghĩa phân loại cao dođược người viết bàitóm lược và chọn lọc. Ứng mỗi chủđề, chúng emlấy ngẫu nhiên 100 tin.Còn cách giải quyếtphần nhập nhằng trìnhbàyở trênsẽ làhướng mở rộng củaluận văn.Tổngdữ liệuthửnghiệm là1500tậptinbaogồm15chủđềcấp2,mỗichủđề100tậptin.

85

Hình 6. 6. Cây chủ đề 6.3.3. Nhậnxét

Mặc dù dữ liệu dùng thử nghiệm khá nhỏ do hạn chế về mặt thời gian, nhưng cách thức chọn dữ liệu và chủ đề thử nghiệm phân loại của chúng em đã mở rộng rất nhiều so với 35 văn bản thử nghiệm của [H. Nguyen et al, 2005] trên 5 chủ đề Chínhtrị,Giáodục,Kinhdoanh,Sứckhỏe, Thểthao.

86

CáchtínhMI Khôngtáchstopword Cótách stopword

MI1[H.Nguyenetal,2005] 74% 72%

MI2[Ong&Chen,1999] 60% 55%

MI3(chúngemđềnghị) 72% 69%

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 116 - 121)