Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
683 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Hương Thảo PHÂN LỚP PHÂN CẤP TAXONOMY VĂN BẢN WEB VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: TS Hà Quang Thụy Cán đồng hướng dẫn: CN Đặng Thanh Hải HÀ NỘI - 2006 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt nội dung Phân lớp văn trình gán văn cách tự động vào nhiều lớp cho trước Tuy nhiên, trường hợp có số lượng lớn lớp, toán phức tạp nhiều, đó, tiến hành phân lớp thường cho kết có độ xác khơng cao Vì vậy, vấn đề đặt cần phân lớp văn sử dụng cấu trúc phân cấp Hiện nay, toán trở thành lĩnh vực nhận nhiều quan tâm, nghiên cứu nhiều nhà khoa học giới Khoá luận tốt nghiệp với đề tài "Phân lớp phân cấp Taxonomy văn Web ứng dụng" nghiên cứu nội dung, thuộc tính, thuật tốn giải tốn phân lớp phân cấp Khóa luận tiến hành thực nghiệm 12 lớp liệu, sử dụng thuật toán máy vector hỗ trợ, kết thu tốt với độ đo F1 trung bình lên tới gần 90% LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Lời mở đầu Trích chọn thơng tin Web tạo thêm nhiều tài nguyên thông tin, tri thức đáp ứng ngày hiệu nhu cầu thông tin người Ngày nay, công nghệ trích chọn thơng tin Web hình thành loại hình dịch vụ đầy triển vọng việc cung cấp thơng tin phong phú hữu ích từ nguồn liệu coi vô hạn Web Một tốn quan trọng trích chọn thơng tin Web tốn phát quan hệ lớp đối tượng Web mà quan hệ phân cấp chúng loại quan hệ điển hình Để thực việc phát mối quan hệ phân cấp lớp đối tượng Web tốn cần giải tốn phân lớp tự động đối tượng Tự động phân lớp văn nhiệm vụ quan trọng giúp ích việc tổ chức tìm kiếm thơng tin nguồn tài nguyên lớn Phân lớp văn trình gán văn cách tự động vào nhiều lớp cho trước Trong nghiên cứu phân lớp văn bản, hầu hết tập trung vào toán phân lớp mà lớp cho trước xem tách biệt khơng có cấu trúc xác định mối quan hệ chúng Những toán phân lớp gọi toán phân lớp phẳng (flat classification) Tuy nhiên, trường hợp có số lượng lớn lớp, toán phức tạp nhiều thực giải pháp phân lớp thường cho kết khơng xác Vì vậy, vấn đề đặt cần phân lớp văn sử dụng cấu trúc phân cấp Thực công việc bao hàm vấn đề phát quan hệ phân cấp lớp đối tượng nói Về chất coi loại quan hệ ngữ nghĩa đối tượng lớp đối tượng Bài toán cần giải phát lớp kiến trúc lớp phát vào phân cấp Đây toán phân lớp phân cấp Phân lớp phân cấp cho phép định hướng vào toán phân lớp lớn ban đầu sử dụng phương pháp chia nhỏ đệ quy Khoá luận tốt nghiệp với đề tài "Phân lớp phân cấp Taxonomy văn Web ứng dụng" nghiên cứu nội dung, thuộc tính, thuật tốn giải toán phân lớp phân cấp cố gắng đưa số nhận xét, đề xuất thích hợp thi hành chương trình thực nghiệm để kiểm chứng tính khả thi phương pháp Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Khóa luận tổ chức thành ba chương mà nội dung chương giới thiệu Chương Tổng quan Taxonomy phân lớp văn trình bày nét taxonomy, khái niệm nội dung toán phân lớp văn Chương trình bày số thuật tốn phân lớp văn điển hình, đặc biệt tập trung vào thuật toán SVM - thuật toán đánh giá phân lớp nhanh hiệu với toán phân lớp văn Chương Phân lớp phân cấp Taxonomy văn Web nghiên cứu phương pháp giải toán phân lớp phân cấp cách xây dựng phân lớp cho phân cấp văn Chương giới thiệu số phương pháp đánh giá cho toán phân lớp phẳng độ đo dựa vào khoảng cách độ tương tự lớp Chương Thực nghiệm trình bày kết thực nghiệm thu áp dụng thuật toán SVM phương pháp phân lớp phân cấp theo hướng top-down Một số nhận xét, đánh giá kết luận trình bày Phần kết luận tổng kết kết khóa luận trình bày định hướng phát triển nội dung khóa luận Bài tốn phân lớp phân cấp văn Web thực có ý nghĩa nghiên cứu triển khai Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng MỤC LỤC Chương I TỔNG QUAN VỀ TAXONOMY VÀ PHÂN LỚP PHÂN CẤP 1.1 Giới thiệu Taxonomy 1.2 Phân lớp văn 2.1 Một số khái niệm 1.3 Quá trình tiền xử lý liệu 11 1.3.1.1 Phương pháp biểu diễn tài liệu .12 1.3.1.2 Quá trình lựa chọn thuộc tính .14 1.4 Các thuật toán phân lớp văn 19 1.4.1 Thuật toán K người láng giềng gần 19 1.4.2 Thuật toán phân lớp AdaBoost 19 1.4.3 Thuật toán máy vector hỗ trợ 21 Chương II PHÂN LỚP VĂN BẢN WEB SỬ DỤNG CẤU TRÚC PHÂN CẤP TAXONOMY 27 2.1 Hai phương pháp phân lớp phân cấp 27 2.2 Phân lớp phân cấp văn theo hướng top-down 28 2.2.1 Mơ hình phân lớp 28 2.2.2 Xây dựng phân lớp nhị phân .31 2.3 Đánh giá 32 2.3.1 Đánh giá cho toán phân lớp phẳng 32 2.3.2 Đánh giá dựa vào độ tương tự 34 Chương III THỰC NGHIỆM .37 3.1 Dữ liệu chương trình 37 3.2 Môi trường thực nghiệm .40 3.3 Kết đánh giá 40 3.3.1 Thực nghiệm1 : Phân lớp phân cấp theo hướng top-down .40 3.3.2 Thực nghiệm : Khảo sát phụ thuộc thời gian huấn luyện kết vào tập thuộc tính 46 KẾT LUẬN 52 Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng TÀI LIỆU THAM KHẢO .54 Tài liệu Tiếng Việt 54 Tài liệu Tiếng Anh 54 PHỤ LỤC A DANH SÁCH TỪ DỪNG .57 Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Chương I TỔNG QUAN VỀ TAXONOMY VÀ PHÂN LỚP PHÂN CẤP 1.1 Giới thiệu Taxonomy Vào năm 90 kỉ XX, khái niệm taxonomy sử dụng nhiều lĩnh vực khác tâm lý học, khoa học xã hội công nghệ thông tin để thiết lập trùng hợp thuật ngữ người sử dụng thuật ngữ hệ thống Các chuyên gia phát triển cấu trúc hệ thống Web dùng thuật ngữ taxonomy để nói tổ chức nội dung trang web Và từ đó, khái niệm taxonomy sử dụng rộng rãi với mục đích Do sử dụng nhiều lĩnh vực khác nhau, nên có nhiều định nghĩa khác taxonomy Từ năm 2000 đến năm 2005, có khoảng 36 định nghĩa khác taxonomy nguồn tài liệu [24] Trong lĩnh vực công nghệ thông tin, taxonomy định nghĩa sau : Định nghĩa : Taxonomy phân loại tồn thơng tin hệ phân cấp theo mối quan hệ có trước thực thể giới thực mà biểu diễn Một taxonomy thường mơ tả với gốc cùng, nút taxonomy – bao gồm gốc – thực thể thông tin đại diện cho thực thể giới thực Giữa nút taxonomy có mối quan hệ đặc biệt gọi is subclassification of hướng liên kết từ nút lên nút cha is superclassification of hướng liên kết từ nút cha xuống nút Đôi quan hệ xác định cách chặt chẽ is subclass of is superclass of, thực thể thông tin lớp đối tượng Hình 1.1 mơ tả taxonomy đơn giản gồm lớp Person, lớp Employee, Manager; Lớp cha Person Agent Khi lên từ gốc taxonomy, thực thể chung chung Khi xuống cuối, thực thể xác định rõ ràng Ví dụ, Agent chung chung Person, Employee cụ thể Person Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Hình 1.1 Taxonomy đơn giản Taxonomy có ích cho việc phân lớp thực thể thông tin theo ngữ nghĩa, chúng thiết lập quan hệ ngữ nghĩa đơn giản để phân biệt đối tượng miền thơng tin Taxonomy đóng vai trị quan trọng việc tổ chức thông tin tổ chức tri thức Nó sử dụng chủ yếu để giúp cho việc tìm kiếm duyệt thơng tin thuận lợi nhanh chóng hơn, đặc biệt ta có thơng tin chung chung vấn đề cần tìm kiếm Khi tìm kiếm Internet, sử dụng từ khố để tìm kiếm thơng tin, kết trả từ vài nghìn đến vài chục nghìn tài liệu chủ đề khác Sử dụng taxonomy để tìm kiếm duyệt thông tin tiết kiệm nhiều thời gian cho người dùng để tìm thơng tin cần thiết Đồng thời, taxonomy cho phép máy tìm kiếm ứng dụng dễ dàng tìm thực thể thơng tin nhanh xác nhiều Taxonomy áp dụng nhiều toán khác nhau: OU Shi-yan, KHOO Christopher S.G, GOH Dion H (2005 [15]) xây dựng taxonomy hỗ trợ việc tóm tắt tự động văn bản; H.T.Kung C.H.Wu xây dựng taxonomy cho mạng nội dung [9], Wollersheim Rahayu (2002 [5]) xây dựng taxonomy hỗ trợ việc duyệt sở liệu y tế 1.2 Phân lớp văn Trong năm gần đây, với phát triển ứng dụng Internet, khối lượng liệu tăng trưởng không ngừng theo hai phương diện tạo lưu trữ Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Sự mở rộng liệu khoa học địa lý, địa chất, khí tượng vệ tinh thu thập, giới thiệu quảng bá mã vạch hầu hết sản phẩm thương mại, việc tin học hoá sâu rộng thương vụ giao dịch, phát triển việc ứng dụng công nghệ thông tin quản lý hành nhà nước tạo khối lượng liệu khổng lồ Tự động phân lớp văn nhiệm vụ quan trọng giúp ích việc tổ chức tìm kiếm thơng tin nguồn tài nguyên lớn 2.1 Một số khái niệm Phân lớp văn (Text Classification) trình gán nhãn văn ngơn ngữ tự nhiên cách tự động vào môt nhiều lớp cho trước Thông thường, lớp cho trước chủ đề đó, có nhiều ứng dụng mà lớp thiết lập theo tiêu chí khác, ví dụ phân lớp theo thể loại, phân lớp theo độ ưu tiên Hầu hết toán tốn thời gian, cơng sức đơi khơng xác phân loại cách thủ công - tức đọc văn gán vào lớp Phân loại đối tượng vào lớp phương pháp thủ công gặp phải khó khăn sau: ♦ Đối với lĩnh vực đặc biệt, phân loại đối tượng (như sở liệu y tế, pháp luật) vào lớp cho trước cần có hiểu biết lĩnh vực ♦ Phân lớp tay đơi khơng xác định phụ thuộc vào hiểu biết động người thực ♦ Quyết định hai chuyên gia khác nảy sinh bất đồng ý kiến Vì cơng cụ để tự động phân lớp văn vào lớp hữu ích với cơng việc thông tin tràn ngập ngày Một số phương pháp phân lớp thống kê kĩ thuật học máy Bayesian, máy vector hỗ trợ (Support Vector Machines), K người láng giềng gần (K-NN), mạng nơron áp dụng để giải toán Rõ ràng, kĩ thuật phân lớp văn cần thiết, ngày hầu hết thông tin sinh lưu trữ điện tử Các báo khoa học giải trí ví dụ tập tài liệu điện tử Với phát triển ngày mạnh mẽ mạng Internet Intranet tạo nguồn thông tin vô phong phú Các kĩ thuật phân lớp văn giúp cho nguồn liệu lưu trữ tự động cách hiệu tìm kiếm nhanh chóng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Phân lớp văn xuất từ năm 1960, 15 năm sau, trở thành lĩnh vực nghiên cứu hệ thống thông tin đa dạng ứng dụng Phân lớp văn sử dụng để hỗ trợ q trình tìm kiếm thơng tin (Information Retrieval), trích lọc thông tin (Information Extraction), lọc văn tự động dẫn đường cho văn tới chủ đề xác định trước Một ứng dụng khác phân lớp văn lĩnh vực hiểu văn Phân lớp văn sử dụng để lọc văn phần văn chứa liệu cần tìm mà khơng làm tính phức tạp ngôn ngữ tự nhiên Định nghĩa phân lớp văn bản: Phân lớp văn nhiệm vụ đặt giá trị Boolean cho cặp (dj, ci) ∈ D × C , D tập văn C= {c1,c2 cc} tập lớp cho trước Giá trị T (True) gán cho cặp ( d j , ci ) có nghĩa tài liệu d j thuộc lớp ci ; Giá trị F (False) tức tài liệu d j không thuộc lớp ci Hoặc, phân lớp văn tốn tìm hàm Φ : D × C → {T , F } D tập văn C= {c1,c2 cc } tập lớp cho trước, hàm Φ : D × C → {T , F } gọi phân lớp Tuỳ vào tốn khác nhau, ta có ràng buộc khác Nhìn chung phân biệt tốn phân lớp theo hai cách sau : • Phân lớp văn nhị phân/ đa lớp: Bài toán phân lớp văn gọi nhị phân C =2, gọi đa lớp C >2 • Phân lớp văn đơn nhãn/ đa nhãn: Bài toán phân lớp văn gọi đơn nhãn tài liệu gán vào xác lớp Một toán phân lớp văn gọi đa nhãn tài liệu gán nhiều nhãn Về mặt lý thuyết, thuật toán phân lớp nhị phân sử dụng cho { } toán phân lớp đa lớp cách chuyển toán đa lớp c1 , c2 , , c C thành |C| toán nhị phân {ci , ci } với i = 1, , C Hơn thuật tốn phân lớp đa lớp sử dụng để giải toán phân lớp đa nhãn Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng 120 100 Độ đo F1 80 60 93.47 94.79 94.58 96.09 91.82 40 82.56 90.19 92.75 84.27 87.87 70.32 72.29 20 re c re au c to m s ot or re cy c sp cl es or t.b a re se c ba sp ll or t.h oc ke y sc i.c sc ry i.e pt le ct ro ni cs sc i.m ed sc ta i.s lk pa p ce ol ta iti lk c s .p gu ol iti ns cs m ta id lk ea p st ol iti c ta s lk m re is c lig io n m is c Lớp Biểu đồ 3.1.b: Biểu đồ biểu diễn độ đo F1 taxonomy Kết thực nghiệm cho thấy với phương pháp phân lớp phân cấp, kết thu tốt cho 12 taxonomy Lớp Talk.politics.misc đạt kết thấp với F1=70.32%, lớp Rec.sport.hockey đạt kết cao với F1=96.09% Sau tính tỉ lệ phân lớp đúng, độ xác độ hồi tưởng cho phân lớp Một vài độ đo tổ hợp tính tốn theo công thức sau: ♦ Tỉ lệ phân lớp trung bình: N Avg ( Acc) = ∑ Acc i i =1 N ♦ Macroaveraging: m ˆ M = Pr ∑ Pri i =1 m m ˆ M = Re Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ ∑ Re i =1 i m 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng ♦ Độ đo Fβ trung bình tính theo cơng thức: N Avg ( Fβ ) = ∑ Fβ i =1 N Kết thể bảng 3.3 : Bảng 3.3 : Kết trung bình Tỉ lệ phân lớp trung bình 92.97% Độ xác trung bình 89.51% Độ hồi tưởng trung bình 89.19% Độ đo F1 trung bình 89.18% 3.3.2 Thực nghiệm : Khảo sát phụ thuộc thời gian huấn luyện kết vào tập thuộc tính Ta biết rằng, việc lựa chọn tập thuộc tính quan trọng ảnh hưởng trực tiếp tới thời gian huấn luyện kết phân lớp Đối với toán phân lớp phân cấp, mức phân cấp, cần chọn tập thuộc tính phù hợp để phân biệt lớp mức Quay trở lại hình 2.2, phần 2.2.1 trình bày, “Máy tính” thuộc tính tốt để phân biệt lớp mức Nếu sâu xuống nhánh “Tin học” có nhiều thuộc tính chun biệt để phân biệt lớp nhánh này, độ quan trọng thuộc tính “Máy tính” nhánh “Tin học” bị giảm Vì vậy, khố luận tiến hành vài thực nghiệm nhằm khảo sát phụ thuộc việc lựa chọn tập thuộc tính mức phân cấp hình 3.2 với thời gian huấn luyện kết phân lớp thu Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Tập thuộc tính ba lớp mức thể sau (Bảng 3.4): Bảng 3.4 : Tập thuộc tính lớp mức REC SCI TALK 16238 18596 19622 Tập thuộc tính lựa chọn theo độ đo thông tin qua lại(MI) : I ( t , c ) ≈ log A× N ( A + C )× ( A + B) Thử nghiệm ba lần lựa chọn số lượng thuộc tính có MI lớn cho lớp giảm dần theo thống kê sau (Bảng 3.5) : Bảng 3.5 : Số lượng thuộc tính lựa chọn cho lớ Lớp REC SCI TALK 50% 8119 9296 9622 40% 6495 7436 7697 30% 4871 5577 5773 Phần trăm Sử dụng tập liệu kiểm tra cho ba lớp mức thực nghiệm ta thu kết sau (Bảng 3.6): Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Bảng 3.6: Kết phân lớp cho trường hợp Tỉ lệ phân lớp Độ xác Độ hồi tưởng Độ đo Fβ Khơng lựa chọn 97.48% 95.73% 96.52% 96.12% 50% 97.45% 95.79% 96.37% 96.08% 40% 96.84% 95.09% 95.06% 95.08% 30% 97.55% 97.51% 94.86% 96.17% Không lựa chọn 94.42% 91.81% 90.83% 91.32% 50% 94.54% 92.22% 90.76% 91.48% 40% 94.86% 92.30% 91.74% 92.02% 30% 95.13% 93.08% 91.74% 92.41% Không lựa chọn 95.49% 90.94% 96.88% 93.82% 50% 95.77% 91.18% 96.81% 93.91% 40% 95.98% 91.87% 97.22% 94.47% 30% 95.94% 93.22% 95.42% 94.31% ( β = 1) REC SCI TALK Độ đo trung bình ba lớp trường hợp thể bảng 3.7 biểu đồ 3.2: Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Bảng 3.7: Kết trung bình cho trường hợp Độ đo Tỉ lệ phân lớp trung bình Độ xác trung bình Độ hồi tưởng trung bình Độ đo F1 trung bình Khơng lựa chọn 95.68% 92.83% 94.74% 93.75% 50% 95.92% 93.06% 94.65% 93.82% 40% 95.89% 93.09% 94.67% 93.86% 305 96.21% 94.60% 94.01% 94.30% Phần trăm 94.4 Độ đo F1 94.2 94 93.8 94.3 93.6 93.4 93.82 93.86 50% 40% 93.57 93.2 Không lựa chọn 30% Các trường hợp Biểu đồ 3.2: Độ đo F1 phân lớp sử dụng độ đo thông tin MI Nhận xét : Từ biểu đồ 3.2, dễ nhận thấy với toán phân lớp phân cấp văn bản, lựa tập thuộc tính phù hợp để phân biệt lớp kết phân lớp trung bình tăng lên Từ bảng 3.6 3.7 ta thấy có số lớp tập thuộc tính rút gọn Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng kết giảm Điều hồn tồn tự nhiên, tồn ngưỡng mà kết phân lớp trung bình thấp so với khơng lựa chọn tập thuộc tính Vì vậy, ứng dụng lớn, cần xem xét lựa chọn ngưỡng phù hợp để kết phân lớp cao Bảng 3.8 : Thời gian huấn luyện lớp REC SCI TALK Tổng thời gian Không lựa chọn 7.44 7.89 8.15 23.48 50% 6.58 7.01 7.65 21.24 40% 4.50 5.02 5.36 14.88 30% 3.12 3.75 3.48 10.35 25 23.48 21.24 Thời gian (s) 20 15 14.88 10.35 10 Không lựa chọn 50% 40% 30% Phần trăm đặc trưng lựa chọn Biểu đồ 3.3 : Tổng thời gian huấn luyện theo phần trăm thuộc tính lựa chọn Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Lựa chọn tập thuộc tính phù hợp khơng làm tăng kết mà điều quan trọng thời gian huấn luyện phân lớp giảm đáng kể Điều thể bảng 3.8 biểu diễn thời gian huấn luyện cho lớp (tính theo đơn vị giây) cho trường hợp Sự phụ thuộc tổng thời gian huấn luyện ba lớp theo lựa chọn thuộc tính thể biểu đồ 3.3 Nhận xét: Dễ nhận thấy, tập thuộc tính rút gọn tổng thời gian huấn luyện cho ba lớp giảm rõ rệt Đây tiêu chí quan trọng mà hệ thống phân lớp hướng tới, đặc biệt với hệ thống lớn Từ thực nghiệm rút kết luận : lựa chọn tập thuộc tính phù hợp cho mức phân cấp không làm giảm thời gian huấn luyện phân lớp mà làm tăng kết phân lớp cuối Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng KẾT LUẬN Từ việc nghiên cứu lý thuyết kết thực nghiệm khẳng định toán phân lớp phân cấp văn thực tốt Đặc biệt, hệ thống phân lớp mà số lượng lớp nhiều, phân lớp phân cấp văn phát huy ưu điểm mình, khơng kết phân lớp mà mặt thời gian phân lớp Bài toán phân lớp phân cấp văn Web thực có ý nghĩa nghiên cứu triển khai Về mặt nội dung, khoá luận đạt kết sau : – Nghiên cứu phương pháp giải toán phân lớp phân cấp cách xây dựng phân lớp cho phân cấp văn – Nghiên cứu, phân tích hoạt động thuật tốn kNN, AdaBoost SVM giải toán phân lớp phân cấp Đề xuất ý tưởng đưa trọng số vào nút trình phân lớp phân cấp – Xây dựng chương trình thi hành phân lớp phân cấp viết ngôn ngữ C/C++, môi trường Dev-C++ 4.9.8.0 tích hợp từ module chương trình tiền xử lý văn (do khóa luận xây dựng) module phân lớp phẳng (khai thác mã nguồn phân lớp SVM nhị phân phiên 6.01) Kết thực nghiệm tập liệu 20 NewsGroup cho thấy tính khả thi chương trình phân lớp phân cấp với độ đo F1 xấp xỉ 90% Bên cạnh đó, thời gian kiến thức có hạn, khố luận cịn vài hạn chế sau : – Chương trình sử dụng thuật toán SVM cho toán phân lớp phân cấp thi hành liệu nên chưa có kết nhiều liệu Chưa thi hành nhiều thuật toán để chọn phương án tốt – Do chưa nhận độ đo đánh giá phân lớp phân cấp chuẩn nên khóa luận tiến hành đánh giá kết phân lớp phân cấp theo độ đo phân lớp phẳng độ xác, độ hồi tưởng độ đo F1 Đây hạn chế khóa luận Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Trong tương lai, khoá luận tiếp tục hoàn thiện theo hướng sau : – Thử nghiệm nhiều liệu khác nhau, đặc biệt áp dụng toán phân lớp với trang Web tiếng Việt – Sử dụng số thuật tốn phân lớp phẳng khác với SVM để từ tìm thuật tốn hiệu tốn phân lớp phân cấp – Ý tưởng đánh trọng số cho thuộc tính dựa vào độ sâu taxonomy chưa tiến hành cài đặt Trong thời gian tới, chúng tơi tiến hành cài đặt chương trình Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Đặng Thanh Hải Thuật toán phân lớp văn web thực nghiệm máy tìm kiếm Viettseek Khố luận tốt nghiệp 2004, Trường Đại học Cơng Nghệ - Đại học Quốc gia Hà Nội Tài liệu Tiếng Anh [2] Ahswin K Pulijala, Susan Gauch Hierachical Text Classification, International Conference on Cybernetics and Information Technologies, Systems and Applications: CITSA 2004, Vol 1, Orlando, FL, July 2004, pp 257-262 [3] Aixin Sun and Ee-Peng Lim Hierarchical Text Classification and Evaluation – Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001) Pages 521-528, California, USA, November 2001 [4] Andrew Mc Callum, Ronald Rosenfeld, Tom Mitchell, Andrew Y.Ng Improving Text Classification by Shrinkage in a Hierarchy of Classes, In Proceedings of The Eighteenth International Conference on Machine Learning, 1998 [5] D.Wollersheim, W.J.Rahayu Using Medical Test Collection Relevance Judgement to Identify Ontological Relationships Useful for Query Expansion 21st International Conference on Data Engineering 2005 [6] Daphne Koller, Mehran Sahami Hierarchical classifying documents using very few words Proceedings of the Fourteenth International Conference on Machine Learning (ML-97) pages 170-178, Nashville, Tennessee, July 1997 [7] Delphi Group, a Perot Systems Company Information intelligence: Content Classification and the Enterprise Taxonomy Practice, 2004 Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng [8] Fabrizio Sebastiani Machine Learning in Automated Text Categorization ACM Computing Survey, 34(1) pages 1-47, 2002 [9] H.T.Kung, C.H.Wu Content Networks: Taxonomy and New Approaches The Internet as a Large-Scale Complex System, Kihong Park and Walter Willinger (Editors), published by Oxford University Press as part of Sante Fe Institute series, 2002 [10] Ian H.Witten & Eibe Frank Data Mining – Practical Machine Learning Tools and Techniques – second Edition Morgan Kaufmann Publishers [11] Lijuan Cai, Thomas Hofmann Hierarchical Document Categorization with Support Vector Machines Proceedings of the ACM Conference on Information and Knowledge Management, pages 78-87 [12] Michael Granitzer Hierarchical Text Classification using methods from Machine Learning, Master Thesis at Graz University of Technology, submitted by Michael Granitzer – Institute of Theoretical Computer Science (IGI) Graz University of Technology A-8010 Graz, Austria, 27th Octorber 2003 [13].Michael Granitzer,Peter Auer Experiments With Hierarchical Text Classification Proceedings of 9th IASTED International Conference on Artifical Interlligence, IASTED, ACTA Press, Benidorm, Spain [14] Miguel E.Ruiz , Padmini srinivasan Hierarchical Text Categorization Using Neural Networks Information Retrieval, 2002 Kluwer Academic Publishers [15].OU Shi-yan, KHOO Christopher S.G, GOH Dion H Division of Information Studies, Constructing a taxonomy to support multi-document summarization of dissertation abstracts Proceedings Issue of the 1st International Conference on Universal Digital Library (ICUDL 2005) Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng [16] Pierre Baldi, Paolo Frasconi, Padhraic Smyth Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 [17] Shrikanth Shankar, George Karypis A weight adjustment algorithm for document categorization, SIGKDD Wordshop on Text Mining, Boston, MA [18] Soumen Chakrabarti, Indian Institute of Technology, Bombay, trang 183-188, Mining the web- discovering knowledge from Hypertext Data Morgan Kaufman Publishers [19] Soumen Chakrabarti, Byron Dom Rakesh Agrawal, Prabhakar Raghavan Using taxonomy, discriminats, and signatures for navigating in text databases, Proceedings of the International Conference on Very Large Data Bases (VLDB) [20] Svetlane Kiritchenko Hierarchical Text Categorization and Its Application to Bioinformatics, Ph.D thesis in Computer Science – School of Information Technology and Engineering Faculty of Engineering University of Ottawa, Canada 2005 [21] Susan Dumais, Hao Chen - Hierarchical Classification of Web Content, Proceedings of the ACM International Conference on Research and Development in Information Retrieval (SIGIR), pages 256-263 [22] Yiming Yang, Jan O.Pedersen A Comparative Study on Feature Selection in Text Categorization Proceedings of the Fourteenth Internationcal Conference on Machine Learning (ICML ’97), 412-420, 1997 [23] Yongwook Yoon, Changkl Lee, Gary Geunbae Lee An effective procedure for constructing a hierarchical text classification system Journal of American Society for Information Science and Technology (JASIST), 57(3), (pp 431-442) [24].http://www.hipertext.net/english/pag1011.htm#origenNota2 Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng PHỤ LỤC A DANH SÁCH TỪ DỪNG Danh sách từ dừng sử dụng thực nghiệm : (danh sách từ dừng sử dụng từ nguồn BOW toolkit – Andrew McCallum 1998,1999) a, able, about, above, according, accordingly, across, actually, after, afterwards, again, against, all, allow, allows, almost, alone, along, already, also, although, always, am, among, amongst, an, and, another, any, anybody, anyhow, anyone, anything, anyway, anyways, anywhere, apart, appear, appreciate, appropriate, are, around, as, aside, ask, asking, associated, at, available, away, awfully b, be, became, because, become, becomes, becoming, been, before, beforehand, behind, being, believe, below, beside, besides, best, better, between, beyond, both, brief, but, by c, came, can, cannot, cant, cause, causes, certain, certainly, changes, clearly, co, com, come, comes, concerning, consequently, consider, considering, contains, corresponding, could, course, currently d, definitely, described, despite, did, different, do, does, doing, done, down, downwards, during e, each, edu, eg, eight, either, else, elsewhere, enough, entirely, especially, et, etc, even, ever, every, everybody, everyone, everything, everywhere, ex, exactly, example, except f, far, few, fifth, first, five, followed, following, follows, for, former, formerly, forth, four, from, further, furthermore g, get, gets, getting, given, gives, go, goes, going, gone, got, gotten, greetings h, had, happens, hardly, has, have, having, he, hello, help, hence, her, here, hereafter, hereby, herein, hereupon, hers, herself, hi, him, himsefl, his, hither, hopefully, how, howbeit, however Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng i, ie, if, ignored, immediate, in, inasmuch, inc, indeed, indicate, indicated, indicates, inner, insofar, instead, into, inward, is, it, its, itsefl j, just, k, keep, kept, know, knows, known l, last, lately, later, latter, latterly, least, less, lest, let, like, liked, likely, little, look, looking, looks, ltd m, mainly, many, may, maybe, me, mean, meanwhile, merely, might, more, moreover, most, much, must, my, mysefl n, name, namely, nd, near, nearly, necessary, need, needs, neither, never, nevertheless, new, next, nine, no, nobody, non, none, noone, nor, normally, not, nothing, novel, now, nowhere o, obviously, of, off, often, oh, ok, okay, old, on, once, one, ones, only, onto, or, other, others, otherwise, ought, our, ours, ourselses, out, outside, overall, own p, particular, particularly, per, perhaps, placed, please, plus, possible, presumably, probably, provides q, que, quite, qv r, rather, rd, re, really, reasonably, regarding, regardless, regards, relatively, respectively, right s, said, same, saw, say, saying, says, second, secondly, see, seeing, seem, seeming, seems, seen, self, selves, sensible, sent, serious, seriously, seven, shall, she, should, since, six, so, some, somebody, somehow, someone, something, sometime, sometimes, somewhat, somewhere, soon, sorry, specified, specify, specifying, still, sub, such, sup, sure t, take, taken, tell, tends, th, than, thank, thanks, thanx, that, thats, the, their, theirs, them, themselves, then, thence, there, thereafter, thereby, therefore, therein, theres, thereupon, these, they, think, third, this, thorough, thoroughly, those, though, three, through, throughout, thru, thus, to, together, too, took, toward, towards, tried, tries, truly, try, trying, twice, two Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng u, un, under, unfortunately, unless, unlikely, until, unto, up, upon, us, use, used, useful, uses, using, usually, uucp v, value, various, very, via, viz, vs w, want, wants, was, way, we, welcome, well, went, were, what, whatever, when, whence, whenever, where, whereafter, whereas, whereby, wherein, whereupon, wherever, which, while, whither, who, whoever, whole, whom, whose, why, will, willing, wish, with, within, without, wonder, would x, y, yes, yet, you, your, yours, yourself, yourselves, z, zero Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... luanvanchat@agmail.com Phân lớp phân cấp Taxonomy văn Web ứng dụng Chương II PHÂN LỚP VĂN BẢN WEB SỬ DỤNG CẤU TRÚC PHÂN CẤP TAXONOMY 2.1 Hai phương pháp phân lớp phân cấp Phân lớp phân cấp văn hướng tới... cạnh tập hợp liệu này, phân lớp phân cấp văn thu kết tốt áp dụng cho miền liệu khác Phân loại thư ứng dụng phân lớp phân cấp văn Một ứng dụng khác phân lớp phân cấp văn áp dụng cho máy tìm kiếm... toán đánh giá phân lớp nhanh hiệu với toán phân lớp văn Chương Phân lớp phân cấp Taxonomy văn Web nghiên cứu phương pháp giải toán phân lớp phân cấp cách xây dựng phân lớp cho phân cấp văn Chương