1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân lớp phân cấp taxonomy văn bản WEB và ứng dụng

61 272 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 654,4 KB

Nội dung

luận văn về phân lớp phân cấp taxonomy văn bản WEB và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Hương Thảo PHÂN LỚP PHÂN CẤP TAXONOMY VĂN BẢN WEB ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: CN. Đặng Thanh Hải HÀ NỘI - 2006 Tóm tắt nội dung Phân lớp văn bản là quá trình gán văn bản một cách tự động vào một hoặc nhiều lớp cho trước. Tuy nhiên, trong trường hợp có số lượng khá lớn các lớp, bài toán sẽ phức tạp hơn rất nhiều, do đó, khi tiến hành phân lớp thường cho kết quả có độ chính xác không cao. Vì vậy, một vấn đề được đặt ra là cần phân lớp các văn bản sử dụng cấu trúc phân cấp. Hiện nay, bài toán này đã đang trở thành lĩnh vực nhận được nhiều sự quan tâm, nghiên cứu của nhiều nhà khoa học trên thế giới. Khoá luận tốt nghiệp với đề tài "Phân lớp phân cấp Taxonomy văn bản Web ứng dụng" nghiên cứu nội dung, các thuộc tính, các thuật toán giải quyết bài toán phân lớp phân cấp. Khóa luận đã tiến hành thực nghiệm trên 12 lớp dữ liệu, sử dụng thuật toán máy vector hỗ trợ, kết qu ả thu được rất tốt với độ đo F1 trung bình lên tới gần 90%. Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 1 Lời mở đầu Trích chọn thông tin trên Web đã đang tạo thêm nhiều tài nguyên thông tin, tri thức mới đáp ứng ngày càng hiệu quả nhu cầu thông tin của con người. Ngày nay, công nghệ trích chọn thông tin trên Web đã hình thành loại hình dịch vụ đầy triển vọng trong việc cung cấp thông tin phong phú hữu ích từ nguồn dữ liệu được coi là vô hạn trên Web. Một trong những bài toán cơ bản quan trọng trong trích chọn thông tin trên Web là bài toán phát hiện các quan hệ của các lớp đối tượng trên Web mà quan hệ phân cấp giữa chúng là m ột loại quan hệ điển hình. Để thực hiện việc phát hiện mối quan hệ phân cấp giữa các lớp đối tượng trên Web thì bài toán đầu tiên cần giải quyết đó là bài toán phân lớp tự động các đối tượng. Tự động phân lớp văn bản là một nhiệm vụ rất quan trọng có thể giúp ích trong việc tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn này. Phân lớp văn bả n là quá trình gán văn bản một cách tự động vào một hoặc nhiều lớp cho trước. Trong các nghiên cứu phân lớp văn bản, hầu hết đều tập trung vào bài toán phân lớp mà các lớp cho trước được xem là tách biệt nhau không có cấu trúc xác định mối quan hệ giữa chúng. Những bài toán phân lớp như vậy được gọi là bài toán phân lớp phẳng (flat classification). Tuy nhiên, trong trường hợp có số lượng khá lớn các lớp, bài toán sẽ phức tạp hơn rất nhi ều khi thực hiện các giải pháp phân lớp thường cho kết quả không chính xác. Vì vậy, một vấn đề được đặt ra là cần phân lớp các văn bản sử dụng cấu trúc phân cấp. Thực hiện công việc này mặc nhiên cũng đã bao hàm vấn đề phát hiện quan hệ phân cấp giữa các lớp đối tượng như đã nói ở trên. Về bản chất đây cũng được coi là một loại quan hệ ngữ nghĩa giữa các đối tượng lớp đối tượng. Bài toán cần được giải quyết là phát hiện các lớp kiến trúc các lớp đã được phát hiện vào một cây phân cấp. Đây là bài toán phân lớp phân cấp. Phân lớp phân cấp cho phép định hướng vào bài toán phân lớp lớn ban đầu sử dụng phương pháp chia nhỏ đệ quy. Khoá luận tốt nghiệp với đề tài "Phân lớp phân cấp Taxonomy văn bản Web ứng dụ ng" nghiên cứu nội dung, các thuộc tính, các thuật toán giải quyết bài toán phân lớp phân cấp cố gắng đưa ra một số nhận xét, đề xuất thích hợp thi hành chương trình thực nghiệm để kiểm chứng tính khả thi của phương pháp. Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 2 Khóa luận được tổ chức thành ba chương mà nội dung chính của các chương được giới thiệu như dưới đây. Chương 1. Tổng quan về Taxonomy phân lớp văn bản trình bày những nét cơ bản nhất về taxonomy, các khái niệm nội dungbản về bài toán phân lớp văn bản. Chương này cũng trình bày một số thuật toán phân lớp văn bản điển hình, đặc biệt tập trung vào thuậ t toán SVM - thuật toán hiện nay được đánh giá là bộ phân lớp nhanh hiệu quả nhất với bài toán phân lớp văn bản. Chương 2. Phân lớp phân cấp Taxonomy văn bản Web nghiên cứu các phương pháp giải quyết bài toán phân lớp phân cấp cách xây dựng các bộ phân lớp cho cây phân cấp văn bản. Chương này cũng giới thiệu một số phương pháp đánh giá cho bài toán phân lớp phẳng độ đo dựa vào khoảng cách độ tương tự giữa các lớp. Chương 3. Thực nghiệm trình bày các kết quả thực nghiệm thu được khi áp dụng thuật toán SVM phương pháp phân lớp phân cấp theo hướng top-down. Một số nhận xét, đánh giá kết luận cũng được trình bày. Phần kết luận tổng kết các kết quả của khóa luận trình bày định hướng phát triển nội dung của khóa luận. Bài toán phân lớp phân cấp văn bản Web thực sự có ý nghĩ a về nghiên cứu triển khai. Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 3 MỤC LỤC Chương I. TỔNG QUAN VỀ TAXONOMY PHÂN LỚP PHÂN CẤP 5 1.1. Giới thiệu Taxonomy 5 1.2. Phân lớp văn bản 6 1. 2.1. Một số khái niệm 7 1.3. Quá trình tiền xử lý dữ liệu 11 1.3.1.1. Phương pháp biểu diễn tài liệu .12 1.3.1.2. Quá trình lựa chọn thuộc tính .14 1.4. Các thuật toán phân lớp văn bản .19 1.4.1. Thuật toán K người láng giềng gần nhất .19 1.4.2. Thuật toán phân lớp AdaBoost 19 1.4.3. Thuật toán máy vector hỗ trợ 21 Chương II. PHÂN LỚP VĂN BẢN WEB SỬ DỤNG CẤU TRÚC PHÂN CẤP TAXONOMY .27 2.1. Hai phương pháp phân lớp phân cấp .27 2.2. Phân lớp phân cấp văn bản theo hướng top-down 28 2.2.1. Mô hình phân lớp 28 2.2.2. Xây dựng các bộ phân lớp nhị phân .31 2.3. Đánh giá .32 2.3.1. Đánh giá cho bài toán phân lớp phẳng 32 2.3.2. Đánh giá dựa vào độ tương tự .34 Chương III. THỰC NGHIỆM .37 3.1. Dữ liệu chương trình .37 3.2. Môi trường thực nghiệm .40 3.3. Kết quả đánh giá 40 3.3.1. Thực nghiệm1 : Phân lớp phân cấp theo hướng top-down .40 3.3.2. Thực nghiệm 2 : Khảo sát sự phụ thuộc thời gian huấn luyện kết quả vào tập thuộc tính. .46 KẾT LUẬN. .52 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 4 TÀI LIỆU THAM KHẢO .54 Tài liệu Tiếng Việt .54 Tài liệu Tiếng Anh .54 PHỤ LỤC A. DANH SÁCH TỪ DỪNG .57 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 5 Chương I. TỔNG QUAN VỀ TAXONOMY PHÂN LỚP PHÂN CẤP 1.1. Giới thiệu Taxonomy Vào những năm 90 của thế kỉ XX, khái niệm taxonomy được sử dụng trong nhiều lĩnh vực khác nhau như tâm lý học, khoa học xã hội công nghệ thông tin . để thiết lập sự trùng hợp giữa thuật ngữ của người sử dụng thuật ngữ của hệ thống. Các chuyên gia đầu tiên phát triển cấu trúc hệ thống Web đã dùng thuật ngữ taxonomy để nói về tổ chức nội dung các trang web. từ đ ó, khái niệm taxonomy được sử dụng rộng rãi với mục đích này. Do được sử dụng trong nhiều lĩnh vực khác nhau, nên có nhiều định nghĩa khác nhau về taxonomy. Từ năm 2000 đến năm 2005, có khoảng 36 định nghĩa khác nhau về taxonomy trong các nguồn tài liệu [24]. Trong lĩnh vực công nghệ thông tin, taxonomy được định nghĩa như sau : Định nghĩa : Taxonomy là sự phân loại của toàn bộ thông tin trong một hệ phân cấp theo một mối quan hệ có trước của các thực thể trong thế giới thực mà nó biểu diễn. Một taxonomy thường được mô tả với gốc ở trên cùng, mỗi nút của taxonomy – bao gồm cả gốc – là một thực thể thông tin đại diện cho một thực thể trong thế giới thực. Giữa các nút trong taxonomy có một mối quan hệ đặc biệt gọi là is subclassification of nếu hướng liên kết từ nút con lên nút cha hoặc là is superclassification of nế u hướng liên kết từ nút cha xuống nút con. Đôi khi những quan hệ này được xác định một cách chặt chẽ hơn là is subclass of hoặc is superclass of, nếu thực thể thông tin là một lớp đối tượng. Hình 1.1. mô tả một taxonomy đơn giản gồm lớp Person, lớp con của nó là Employee, Manager; Lớp cha của Person là Agent. Khi đi lên từ gốc của taxonomy, các thực thể chung chung hơn. Khi đi xuống những lá ở cuối, thực thể xác đị nh rõ ràng hơn. Ví dụ, Agent chung chung hơn Person, Employee cụ thể hơn Person. Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 6 Hình 1.1. Taxonomy đơn giản Taxonomy rất có ích cho việc phân lớp thực thể thông tin theo ngữ nghĩa, chúng thiết lập một quan hệ ngữ nghĩa đơn giản để phân biệt giữa các đối tượng trong một miền thông tin. Taxonomy đóng vai trò rất quan trọng trong việc tổ chức thông tin tổ chức tri thức. Nó được sử dụng chủ yếu để giúp cho việc tìm kiếm duyệt thông tin thuận lợi nhanh chóng hơn, đặc biệ t khi ta chỉ có những thông tin chung chung về vấn đề cần tìm kiếm. Khi tìm kiếm trên Internet, nếu sử dụng từ khoá để tìm kiếm thông tin, kết quả trả về có thể từ vài nghìn đến vài chục nghìn tài liệu về các chủ đề khác nhau. Sử dụng taxonomy để tìm kiếm duyệt thông tin sẽ tiết kiệm được rất nhiều thời gian cho người dùng để tìm được thông tin cần thiết. Đồng thời, taxonomy cho phép các máy tìm kiếm các ứng dụ ng có thể dễ dàng tìm được các thực thể thông tin nhanh chính xác hơn nhiều. Taxonomy đã được áp dụng trong nhiều bài toán khác nhau: OU Shi-yan, KHOO Christopher S.G, GOH Dion H. (2005 [15]) xây dựng taxonomy hỗ trợ việc tóm tắt tự động văn bản; H.T.Kung C.H.Wu xây dựng taxonomy cho mạng nội dung [9], Wollersheim Rahayu (2002 [5]) xây dựng một taxonomy hỗ trợ việc duyệt cơ sở dữ liệu về y tế. 1.2. Phân lớp văn bản Trong những năm gần đây, với sự phát triển ứng dụng của Internet, khối lượng dữ liệu đã tăng trưởng không ngừng theo cả hai phương diện tạo mới lưu trữ. Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 7 Sự mở rộng các dữ liệu khoa học về địa lý, địa chất, khí tượng do vệ tinh thu thập, sự giới thiệu quảng bá mã vạch đối với hầu hết các sản phẩm thương mại, việc tin học hoá sâu rộng các thương vụ giao dịch, sự phát triển việc ứng dụng công nghệ thông tin trong quản lý hành chính nhà nước đã tạo ra một khối lượng dữ liệu khổng l ồ. Tự động phân lớp văn bản là một nhiệm vụ rất quan trọng có thể giúp ích trong việc tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn này. 1. 2.1. Một số khái niệm Phân lớp văn bản (Text Classification) là quá trình gán nhãn các văn bản ngôn ngữ tự nhiên một cách tự động vào môt hoặc nhiều lớp cho trước. Thông thường, các lớp cho trước là các chủ đề nào đó, nhưng cũng có nhiều ứng dụng mà các lớp được thiết lập theo những tiêu chí khác, ví dụ phân lớp theo thể loại, phân lớp theo độ ưu tiên Hầu hết các bài toán này sẽ tốn thời gian, công sức đôi khi không chính xác nếu được phân loại mộ t cách thủ công - tức là đọc từng văn bản gán vào một lớp nào đó. Phân loại những đối tượng mới vào các lớp bằng phương pháp thủ công gặp phải những khó khăn sau: ♦ Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở dữ liệu về y tế, pháp luật) vào các lớp cho trước cần có hiểu biết về các lĩnh vự c đó. ♦ Phân lớp bằng tay đôi khi không chính xác vì quyết định phụ thuộc vào sự hiểu biết động cơ của người thực hiện. ♦ Quyết định của hai chuyên gia khác nhau có thể nảy sinh bất đồng ý kiến. Vì vậy những công cụ để tự động phân lớp văn bản vào các lớp sẽ rất hữu ích với công việc này nhất là khi thông tin tràn ngập như ngày nay. Một số ph ương pháp phân lớp thống kê kĩ thuật học máy như Bayesian, máy vector hỗ trợ (Support Vector Machines), K người láng giềng gần nhất (K-NN), mạng nơron . được áp dụng để giải quyết bài toán này. Rõ ràng, kĩ thuật phân lớp văn bản là rất cần thiết, nhất là ngày nay khi hầu hết các thông tin được sinh ra lưu trữ điện tử. Các bài báo khoa học giải trí là những ví dụ về tập các tài liệu điện tử. Vớ i sự phát triển ngày càng mạnh mẽ của mạng Internet Intranet đã tạo ra nguồn thông tin vô cùng phong phú. Các kĩ thuật phân lớp văn bản sẽ giúp cho nguồn dữ liệu này được lưu trữ tự động một cách hiệu quả được tìm kiếm nhanh chóng. Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 8 Phân lớp văn bản được xuất hiện từ những năm 1960, nhưng chỉ 15 năm sau, nó đã trở thành lĩnh vực nghiên cứu chính trong hệ thống thông tin bởi sự đa dạng của các ứng dụng. Phân lớp văn bản được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin (Information Retrieval), trích lọc thông tin (Information Extraction), lọc văn bản hoặc tự động dẫn đường cho các văn bản tới nhữ ng chủ đề xác định trước. Một ứng dụng khác của phân lớp văn bản là trong lĩnh vực hiểu văn bản. Phân lớp văn bản có thể được sử dụng để lọc văn bản hoặc một phần văn bản chứa các dữ liệu cần tìm mà không làm mất đi tính phức tạp của ngôn ngữ tự nhiên. Định nghĩa phân lớp văn bản : Phân lớp văn bản là nhiệm vụ đặt một giá trị Boolean cho mỗi cặp (d j , c i ) CD ×∈ , trong đó D là tập các văn bản C= {c 1 ,c 2 .c c } là tập các lớp cho trước. Giá trị T (True) được gán cho cặp ( ) , ji dc có nghĩa là tài liệu j d thuộc lớp i c ; Giá trị F (False) tức là tài liệu j d không thuộc lớp i c . Hoặc, phân lớp văn bản là bài toán tìm một hàm { } FTCD ,: →×Φ trong đó D là tập các văn bản C= {c 1 ,c 2 .c c } là tập các lớp cho trước, hàm {} FTCD ,: →×Φ được gọi là bộ phân lớp. Tuỳ vào bài toán khác nhau, ta có các ràng buộc khác nhau. Nhìn chung có thể phân biệt bài toán phân lớp theo hai cách sau : • Phân lớp văn bản nhị phân/ đa lớp: Bài toán phân lớp văn bản được gọi là nhị phân nếu C =2, gọi là đa lớp nếu C >2. • Phân lớp văn bản đơn nhãn/ đa nhãn: Bài toán phân lớp văn bản được gọi là đơn nhãn nếu mỗi tài liệu được gán vào chính xác một lớp. Một bài toán phân lớp văn bản được gọi là đa nhãn nếu một tài liệu có thể được gán nhiều hơn một nhãn. Về mặt lý thuyết, thuật toán phân lớp nhị phân cũng có thể được sử dụng cho bài toán phân lớp đa lớp b ằng cách chuyển bài toán đa lớp { } 12 , , , C cc c thành |C| bài toán nhị phân { } , ii cc với 1, .,iC= . Hơn nữa thuật toán phân lớp đa lớp có thể được sử dụng để giải quyết bài toán phân lớp đa nhãn. [...].. .Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Do đó, bài toán phân lớp nhị phân là bài toán rất quan trọng trong các ứng dụng của phân lớp văn bản Giải quyết bài toán phân lớp nhị phân cũng có nghĩa là giải quyết bài toán phân lớp đa lớpứng dụng quan trọng trong phân lớp văn bản Bài toán lọc văn bản (text filtering), lọc thư rác (spam mail) là những ứng dụng điển hình của phân lớp nhị phân. .. Lớp K47CA – Trường Đại học Công nghệ 25 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng n 1 max − α T Λα + ∑ α i thoả mãn: 0 ≤ α i ≤ C α 2 i =1 i = 1, , n Bộ phân lớp theo cách này được gọi là bộ phân lớp máy vector hỗ trợ – Support Vector Machine Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 26 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Chương II PHÂN LỚP VĂN BẢN WEB SỬ DỤNG... Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 29 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng dụng các bộ phân lớp nhị phân như SVMs Sử dụng chiến lược top-down cho bài toán phân lớp phân cấp, tại mỗi mức của taxonomy, ta chỉ cần phân lớp với số lớp nhỏ hơn rất nhiều so với phân lớp với tất cả các lớp do đó, kết quả phân lớp sẽ chính xác hơn Bởi vì thực hiện bài toán với ít lớp sẽ đơn giản... trung vào bài toán phân lớp phân cấp văn bản theo hướng tiếp cận top-down 2.2 Phân lớp phân cấp văn bản theo hướng top-down Phân lớp phân cấp văn bản theo chiến lược top-down định hướng vào bài toán phân lớp lớn ban đầu theo phương pháp chia nhỏ đệ quy Với phương pháp này, ta cần xây dựng nhiều bộ phân lớp phân lớp một tài liệu mới được thực hiện bằng cách bắt đầu từ gốc duyệt qua cây phân cấp. .. bộ phân lớp ủy ban là kết hợp k bộ phân lớp độc lập để xây dựng một bộ phân lớp mới Với bộ phân lớp ủy ban, các nhà nghiên cứu thường sử dụng nhiều bộ phân lớp khác nhau như bộ phân lớp dựa cây quyết định, bộ phân lớp Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 19 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng dựa vào xác suất, bộ phân lớp tuyến tính Boosting điển hình chỉ sử dụng. .. bộ phân lớp nhánh đóng vai trò rất quan trọng trong kết quả của hệ thống phân lớp Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 28 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng Với bài toán đa nhãn, giả sử có bốn lớp A, B, C, D bốn bộ phân lớp nhị phân tương ứng Các dữ liệu có thể được gán vào nhiều hơn một lớp Những dữ liệu này sẽ được phân lớp bằng hai phương pháp : phân lớp. .. toán phân lớp nhiều lớp thành bài toán phân lớp nhị phân Cách đơn giản nhất là chúng ta chuyển vấn đề n lớp cho Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 10 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng trước thành n vấn đề nhị phân: bài toán nhị phân thứ i tương ứng với một cây quyết định xem tài liệu có thuộc về lớp thứ i hay không? 1.2.2.3 Phân lớp đa nhãn sử dụng cấu trúc phân. .. thuât phân lớp văn bản phẳng thì sẽ rất phức tạp đồng thời kết quả phân lớp không cao, bởi vì để phân biệt giữa hàng trăm lớp như vậy là rất khó khăn Vì vậy vấn đề đặt ra là cần phân lớp phân cấp Năm 1997 Koller Sahami đưa ra bài báo đầu tiên về vấn đề phân lớp văn bản sử dụng cấu trúc phân cấp [6] Từ kết quả thực nghiệm, bài báo chỉ ra rằng phân lớp phân cấp cho kết quả tốt hơn so với phân lớp phẳng... phẳng phân lớp phân cấp Cấu trúc lớp được trình bày như hình 2.1 dưới đây : Hình 2.1 Cấu trúc lớp của 4 lớp Giả sử hai dữ liệu kiểm tra là Doc-1 Doc-2 Vì bài toán là phân lớp đa nhãn nên với phương pháp phân lớp phẳng, chúng ta áp dụng bốn bộ phân lớp tại cùng thời điểm với mỗi dữ liệu kiểm tra Với phương pháp phân cấp, đầu tiên chúng ta áp dụng hai bộ phân lớp lá cho lớp A D bộ phân lớp. .. biểu diễn văn bản Thuật toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phân lớp nhị phân tức là số lớp hạn chế là hai lớp Hiện nay, SVM được đánh giá là bộ phân lớp chính xác nhất cho bài toán phân lớp văn bản [Soumen Chakrabarti, trang 183, Mining the web- discovering Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệ 21 Phân lớp phân cấp Taxonomy văn bản Web ứng dụng knowledge . bài toán phân lớp văn bản. Chương 2. Phân lớp phân cấp Taxonomy văn bản Web nghiên cứu các phương pháp giải quyết bài toán phân lớp phân cấp và cách. Phân loại thư cũng là một ứng dụng của phân lớp phân c ấp văn bản. M ột ứng dụng khác của phân lớp phân cấp văn bản là áp dụng cho máy tìm kiếm. Như

Ngày đăng: 13/04/2013, 10:02

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Đặng Thanh Hải. Thuật toán phân lớp văn bản web và thực nghiệm trên máy tìm kiếm Viettseek. Khoá luận tốt nghiệp 2004, Trường Đại học Công Nghệ - Đại học Quốc gia Hà NộiTài liệu Tiếng Anh Sách, tạp chí
Tiêu đề: Thuật toán phân lớp văn bản web và thực nghiệm trên máy tìm kiếm Viettseek
[2]. Ahswin K Pulijala, Susan Gauch. Hierachical Text Classification, International Conference on Cybernetics and Information Technologies, Systems and Applications: CITSA 2004, Vol. 1, Orlando, FL, July 2004, pp. 257-262 Sách, tạp chí
Tiêu đề: Hierachical Text Classification
[3]. Aixin Sun and Ee-Peng Lim Hierarchical Text Classification and Evaluation – Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001) Pages 521-528, California, USA, November 2001 Sách, tạp chí
Tiêu đề: Hierarchical Text Classification and Evaluation –
[4]. Andrew Mc Callum, Ronald Rosenfeld, Tom Mitchell, Andrew Y.Ng Improving Text Classification by Shrinkage in a Hierarchy of Classes, In Proceedings of The Eighteenth International Conference on Machine Learning, 1998 Sách, tạp chí
Tiêu đề: Improving Text Classification by Shrinkage in a Hierarchy of Classes
[5] .D.Wollersheim, W.J.Rahayu Using Medical Test Collection Relevance Judgement to Identify Ontological Relationships Useful for Query Expansion 21 st International Conference on Data Engineering 2005 Sách, tạp chí
Tiêu đề: Using Medical Test Collection Relevance Judgement to Identify Ontological Relationships Useful for Query Expansion
[6]. Daphne Koller, Mehran Sahami Hierarchical classifying documents using very few words Proceedings of the Fourteenth International Conference on Machine Learning (ML-97) pages 170-178, Nashville, Tennessee, July 1997 Sách, tạp chí
Tiêu đề: Hierarchical classifying documents using very few words
[8]. Fabrizio Sebastiani. Machine Learning in Automated Text Categorization. ACM Computing Survey, 34(1) pages 1-47, 2002 Sách, tạp chí
Tiêu đề: Machine Learning in Automated Text Categorization
[9]. H.T.Kung, C.H.Wu Content Networks: Taxonomy and New Approaches The Internet as a Large-Scale Complex System, Kihong Park and Walter Willinger (Editors), published by Oxford University Press as part of Sante Fe Institute series, 2002 Sách, tạp chí
Tiêu đề: Content Networks: Taxonomy and New Approaches
[10]. Ian H.Witten & Eibe Frank. Data Mining – Practical Machine Learning Tools and Techniques – second Edition Morgan Kaufmann Publishers Sách, tạp chí
Tiêu đề: Data Mining – Practical Machine Learning Tools and Techniques – second Edition
[11]. Lijuan Cai, Thomas Hofmann Hierarchical Document Categorization with Support Vector Machines Proceedings of the ACM Conference on Information and Knowledge Management, pages 78-87 Sách, tạp chí
Tiêu đề: Hierarchical Document Categorization with Support Vector Machines
[12]. Michael Granitzer. Hierarchical Text Classification using methods from Machine Learning, Master Thesis at Graz University of Technology, submitted by Michael Granitzer – Institute of Theoretical Computer Science (IGI) Graz University of Technology A-8010 Graz, Austria, 27 th Octorber 2003 Sách, tạp chí
Tiêu đề: Hierarchical Text Classification using methods from Machine Learning
[13].Michael Granitzer,Peter Auer. Experiments With Hierarchical Text Classification. Proceedings of 9th IASTED International Conference on Artifical Interlligence, IASTED, ACTA Press, Benidorm, Spain Sách, tạp chí
Tiêu đề: Experiments With Hierarchical Text Classification
[14]. Miguel E.Ruiz , Padmini srinivasan Hierarchical Text Categorization Using Neural Networks Information Retrieval, 2002 Kluwer Academic Publishers Sách, tạp chí
Tiêu đề: Hierarchical Text Categorization Using Neural Networks
[15].OU Shi-yan, KHOO Christopher S.G, GOH Dion H. Division of Information Studies, Constructing a taxonomy to support multi-document summarization of dissertation abstracts. Proceedings Issue of the 1 st International Conference on Universal Digital Library (ICUDL 2005) Sách, tạp chí
Tiêu đề: Constructing a taxonomy to support multi-document summarization of dissertation abstracts
[16]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth. Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 Sách, tạp chí
Tiêu đề: Modeling the Internet and the Web: Probabilistic Methods and Algorithms
[17]. Shrikanth Shankar, George Karypis. A weight adjustment algorithm for document categorization, SIGKDD Wordshop on Text Mining, Boston, MA Sách, tạp chí
Tiêu đề: A weight adjustment algorithm for document categorization
[18]. Soumen Chakrabarti, Indian Institute of Technology, Bombay, trang 183-188, Mining the web- discovering knowledge from Hypertext Data Morgan Kaufman Publishers Sách, tạp chí
Tiêu đề: Mining the web- discovering knowledge from Hypertext Data
[19]. Soumen Chakrabarti, Byron Dom. Rakesh Agrawal, Prabhakar Raghavan Using taxonomy, discriminats, and signatures for navigating in text databases, Proceedings of the International Conference on Very Large Data Bases (VLDB) Sách, tạp chí
Tiêu đề: Using taxonomy, discriminats, and signatures for navigating in text databases
[20]. Svetlane Kiritchenko. Hierarchical Text Categorization and Its Application to Bioinformatics, Ph.D thesis in Computer Science – School of Information Technology and Engineering Faculty of Engineering University of Ottawa, Canada 2005 Sách, tạp chí
Tiêu đề: Hierarchical Text Categorization and Its Application to Bioinformatics
[21]. Susan Dumais, Hao Chen - Hierarchical Classification of Web Content, Proceedings of the ACM International Conference on Research and Development in Information Retrieval (SIGIR), pages 256-263 Sách, tạp chí
Tiêu đề: Hierarchical Classification of Web Content

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Taxonomy đơn giản - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.1. Taxonomy đơn giản (Trang 8)
Hình 1.1. Taxonomy đơn giản - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.1. Taxonomy đơn giản (Trang 8)
Để xây dựng mô hình trong bước thứ nhất, thông thường, được chia ra làm hai bước chính sau (Hình 1.2):  - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
x ây dựng mô hình trong bước thứ nhất, thông thường, được chia ra làm hai bước chính sau (Hình 1.2): (Trang 14)
Hình 1.2. Quá trình xây dựng mô hình được chia thành hai bước : tiền xử lý dữ liệu  và học các bộ phân lớp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.2. Quá trình xây dựng mô hình được chia thành hai bước : tiền xử lý dữ liệu và học các bộ phân lớp (Trang 14)
Hình 1.3. a: Lựa chọn thuộc tính theo hướng toàn cục - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.3. a: Lựa chọn thuộc tính theo hướng toàn cục (Trang 17)
Hình dưới mô tả cách lựa chọn thuộc tính toàn cục và cục bộ : - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình d ưới mô tả cách lựa chọn thuộc tính toàn cục và cục bộ : (Trang 17)
Hình 1.3. b: Lựa chọn thuộc tính theo hướng cục bộ - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.3. b: Lựa chọn thuộc tính theo hướng cục bộ (Trang 18)
Hình 1.3.b : Lựa chọn thuộc tính theo hướng cục bộ - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.3.b Lựa chọn thuộc tính theo hướng cục bộ (Trang 18)
dựa vào xác suất, bộ phân lớp tuyến tính.... Boosting điển hình chỉ sử dụng một bộ - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
d ựa vào xác suất, bộ phân lớp tuyến tính.... Boosting điển hình chỉ sử dụng một bộ (Trang 22)
Trong đó wR ∈m và w0 ∈R đóng vai trò là tham số của mô hình. Hàm phân lớp nhị phân h R:m→ { }0,1có thể thu được bằng cách xác định dấu của f(x) :  - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
rong đó wR ∈m và w0 ∈R đóng vai trò là tham số của mô hình. Hàm phân lớp nhị phân h R:m→ { }0,1có thể thu được bằng cách xác định dấu của f(x) : (Trang 24)
Trong hình 1.4, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian , và được tạo ra với cùng một xác suấ t - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
rong hình 1.4, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian , và được tạo ra với cùng một xác suấ t (Trang 25)
Hình 1.4. Mối quan hệ giữa các siêu phẳng phân cách - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.4. Mối quan hệ giữa các siêu phẳng phân cách (Trang 25)
Hình 1.5. Siêu phẳng tối ưu và biên. - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.5. Siêu phẳng tối ưu và biên (Trang 26)
Hình 1.5. Siêu phẳng tối ưu và biên. - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 1.5. Siêu phẳng tối ưu và biên (Trang 26)
Hình 2.1. Cấu trúc lớp của 4 lớp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 2.1. Cấu trúc lớp của 4 lớp (Trang 31)
Hình 2.1. Cấu trúc lớp của 4 lớp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 2.1. Cấu trúc lớp của 4 lớp (Trang 31)
Trong mô hình phân lớp phẳng, ta cần phân biệt giữa 6 lớp. Các lớp này được xem là tách biệt nhau và không có cấu trúc xác định mối quan hệ giữ a chúng - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
rong mô hình phân lớp phẳng, ta cần phân biệt giữa 6 lớp. Các lớp này được xem là tách biệt nhau và không có cấu trúc xác định mối quan hệ giữ a chúng (Trang 32)
Hình 2.2. Một Taxonomy - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 2.2. Một Taxonomy (Trang 32)
Hình 3.1: Cấu trúcTaxonomy của 20 lớp dữ liệu - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 3.1 Cấu trúcTaxonomy của 20 lớp dữ liệu (Trang 39)
Hình 3.1: Cấu trúc Taxonomy của 20 lớp dữ liệu - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 3.1 Cấu trúc Taxonomy của 20 lớp dữ liệu (Trang 39)
Hình 3.2. Cấu trúcTaxonomy tập dữ liệu - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 3.2. Cấu trúcTaxonomy tập dữ liệu (Trang 41)
Hình 3.2. Cấu trúcTaxonomy tập dữ liệu - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 3.2. Cấu trúcTaxonomy tập dữ liệu (Trang 41)
Với cấu trúc taxonomy như hình 3.2, ta cần xây dựng 3 bộ phân lớp nhánh cho các nút trong tại mức 1; hai bộ phân lớp nhánh tại mức hai và 12 bộ phân lớ p c ụ c b ộ - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
i cấu trúc taxonomy như hình 3.2, ta cần xây dựng 3 bộ phân lớp nhánh cho các nút trong tại mức 1; hai bộ phân lớp nhánh tại mức hai và 12 bộ phân lớ p c ụ c b ộ (Trang 43)
Hình 3.3.b: Phân phối dữ liệu kiểm tra cho các bộ phân lớp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 3.3.b Phân phối dữ liệu kiểm tra cho các bộ phân lớp (Trang 44)
Hình 3.3.b: Phân phối dữ liệu kiểm tra cho các bộ phân lớp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Hình 3.3.b Phân phối dữ liệu kiểm tra cho các bộ phân lớp (Trang 44)
Bảng 3.2.a: Kết quả phân lớp cho các nút trong của taxonomy - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.2.a Kết quả phân lớp cho các nút trong của taxonomy (Trang 45)
Kết quả phân lớp cho các nút trong của taxonomy được biểu diễn trong bảng 3.2.a và biểu đồ 3.1.a :  - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
t quả phân lớp cho các nút trong của taxonomy được biểu diễn trong bảng 3.2.a và biểu đồ 3.1.a : (Trang 45)
Bảng 3.2.a: Kết quả phân lớp cho các nút trong của taxonomy - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.2.a Kết quả phân lớp cho các nút trong của taxonomy (Trang 45)
K ết quả cho các lá của taxonomy được biểu diễn trong bảng 3.6. b: - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
t quả cho các lá của taxonomy được biểu diễn trong bảng 3.6. b: (Trang 46)
Bảng 3.2.b: Kết quả phân lớp cho các lá của taxonomy - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.2.b Kết quả phân lớp cho các lá của taxonomy (Trang 46)
Kết quả được thể hiện như bảng 3.3 : - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
t quả được thể hiện như bảng 3.3 : (Trang 48)
Bảng 3.3 : Kết quả trung bình - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.3 Kết quả trung bình (Trang 48)
được kết quả như sau (Bảng 3.6): - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
c kết quả như sau (Bảng 3.6): (Trang 49)
Tập thuộc tính của bal ớp ở mứ c1 được thể hiện như sau (Bảng 3.4): - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
p thuộc tính của bal ớp ở mứ c1 được thể hiện như sau (Bảng 3.4): (Trang 49)
Bảng 3.4 : Tập thuộc tính của mỗi lớp tại mức 1 - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.4 Tập thuộc tính của mỗi lớp tại mức 1 (Trang 49)
Bảng 3.5 : Số lượng thuộc tính được lựa chọn cho mỗi  lớ - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.5 Số lượng thuộc tính được lựa chọn cho mỗi lớ (Trang 49)
Bảng 3.6: Kết quả phân lớp cho từng trường hợp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.6 Kết quả phân lớp cho từng trường hợp (Trang 50)
Bảng 3.6: Kết quả phân lớp cho từng trường hợp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.6 Kết quả phân lớp cho từng trường hợp (Trang 50)
Bảng 3.7: Kết quả trung bình cho từng trường hợp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.7 Kết quả trung bình cho từng trường hợp (Trang 51)
Bảng 3.7: Kết quả  trung bình cho từng trường hợp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.7 Kết quả trung bình cho từng trường hợp (Trang 51)
Bảng 3.8 : Thời gian huấn luyện của từng lớp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.8 Thời gian huấn luyện của từng lớp (Trang 52)
Bảng 3.8 : Thời gian huấn luyện của từng lớp - phân lớp phân cấp taxonomy văn bản WEB và ứng dụng
Bảng 3.8 Thời gian huấn luyện của từng lớp (Trang 52)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w