Xây dựng danh bạ web Tiếng Việt với phương pháp phân cụm phân cấp văn bản

60 275 0
Xây dựng danh bạ web Tiếng Việt với phương pháp phân cụm phân cấp văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Chung XÂY DỰNG DANH BẠ WEB TIẾNG VIỆT VỚI PHÂN CỤM PHÂN CẤP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Hà Nội – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Chung XÂY DỰNG DANH BẠ WEB TIẾNG VIỆT VỚI PHÂN CỤM PHÂN CẤP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Giáo viên hướng dẫn: PGS.TS. Hà Quang Thụy Giáo viên đồng hướng dẫn: ThS. Nguyễn Thu Trang Hà Nội - 2009 LỜI CẢM ƠN Trước tiên, em xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới thày giáo Phó giáo sư, Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn Thu Trang đã tận tình hướng dẫn em trong suốt quá trình thực hiện khoá luận. Em cũng xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy em trong suốt bốn năm học qua, đã cho em những kiến thức quý báu để em có thể vững b ước trên con đường đi của mình. Em xin gửi lời cảm ơn tới các bạn trong lớp K50CA đã ủng hộ, khuyến khích em trong suốt quá trình học tập tại trường. Và lời cuối cùng, em xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ, và chị, những người luôn ở bên cạnh em những lúc tôi khó khăn nhất, giúp em vượt qua khó khăn trong học tập cũng như trong cuộc sống. Hà Nội, ngày 24 tháng 05 năm 2009 Sinh viên Nguyễn Thị Thu Chung TÓM TẮT Danh bạ web là một hệ thống các trang web được tổ chức dưới dạng cây phân cấp với mục đích định hướng người dùng tìm kiếm và truy cập thông tin dễ dàng hiệu quả. Xây dựng một danh bạ tiếng Việt với quy mô lớn và chất lượng cao là một việc làm rất có ý nghĩa. Tạo dựng một danh bạ theo hướng sử dụng kiến thức chuyên gia hay lấy ý kiến người dùng là tốn kém và mất nhi ều thời gian, vì vậy cần tìm ra một phương pháp tự động nhóm các trang web vào các chủ đề theo nội dung của chúng. Giải pháp sử dụng phân cụm web để xây dựng cây phân cấp chủ đề là một phương án hiệu quả để tạo danh bạ web [22][25][26]. Khóa luận nghiên cứu các phương pháp tạo danh bạ web, đi sâu vào giải pháp xây dựng cây phấp dựa trên phân cụm văn bản. Khóa luận cũng tập trung tìm hiểu hai phương pháp phân cụm điển hình nhất là phân cụm cây phân cấp và K-means. Hai phương pháp đánh giá chất lượng phân cụm được trình bày kỹ làm tiêu chí đánh giá cho thực nghiệm tiến hành phân cụm tạo danh bạ. Dựa trên bộ dữ liệu Vnexpress và Wikipedia, khóa luận đã sử dụng phân cụm cây phân cấp và K-means tạo danh bạ web tiếng Việt đạt kết quả bước đầu khả quan với chất lượng tốt, độ chính xác cao nhất đạt đến 99%. MỤC LỤC BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT i DANH MỤC HÌNH VẼ ii DANH MỤC BẢNG BIỂU iii Chương 1. GIỚI THIỆU 1 Chương 2. DANH BẠ WEB 4 1. Giới thiệu về danh bạ web 4 1.1. Phân loại 4 1.2. Đặc điểm 5 1.3. Mục đích 5 2. Một số danh bạ web điển hình và thực trạng ở Việt Nam 6 2.1. Một số danh bạ web điển hình 6 2.2. Thực trạng xây dựng danh bạ web ở Việt Nam 8 3. Phương pháp tạo danh bạ 9 3.1. Tích hợp các danh bạ sẵn có 9 3.2. Xây dựng danh bạ mới 15 Chương 3. PHÂN CỤM WEB 17 1. Phân cụm 17 1.1. Bài toán phân cụm nói chung 17 1.2. Đặc điểm phân cụm 22 1.3. Phân cụm kết quả trả về từ máy tìm kiếm 24 2. Một số thuật toán phân cụm web 25 2.1. Phân cụm cây phân cấp 25 2.2. Phân cụ m K-means 32 3. Phương pháp đánh giá chất lượng phân cụm 36 3.1. Đánh giá dựa vào kinh nghiệm người dùng 36 3.2. Đánh giá dựa vào cây chủ đề mẫu 36 Chương 4. THỰC NGHIỆM 39 1. Dữ liệu 39 2. Môi trường 40 3. Tiến hành thực nghiệm 41 3.1. Chuẩn hóa dữ liệu 41 3.2. Phân cụm 42 4. Kết quả và đánh giá 42 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 47 TÀI LIỆU THAM KHẢO 48 PHỤ LỤC 51 i BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Từ nguyên gốc Ý nghĩa HC Hierarchical Clustering Phân cụm phân cấp HAC Hierarchical Agglomerative Clustering Phân cụm phân cấp từ dưới lên STC Suffix Tree Clustering Phân cụm cây hậu tố ODP Open Directory Project Danh bạ web Dmoz VNSEN Việt Nam Search Engine Máy tìm kiếm tiếng Việt CRFs: Conditional Random Fields Mô hình trường ngẫu nhiên ii DANH MỤC HÌNH VẼ Hình 1: Danh bạ web DMOZ 6 Hình 2: Danh bạ web Yahoo!Directory 7 Hình 3: Danh bạ dọc FindLaw 8 Hình 4: Mô hình ghép cây S vào cây đích M 10 Hình 5: Quy trình phân cụm 17 Hình 6: Ma trận thuộc tính biểu diễn dữ liệu 18 Hình 7: Ma trận khoảng cách biểu diễn dữ liệu 18 Hình 8: Biểu đồ phân cụm HAC của 5 tài liệu 26 Hình 9: Phân cụm với single-linkage 27 Hình 10: Phân cụm với complete-linkage 27 Hình 11: Ba bước nhóm c ụm đầu tiên của Centroid clustering 30 Hình 12: Centroid clustering không đồng biến 31 Hình 13: Biểu diễn tài liệu trong không gian Eucliden 34 Hình 14: Chọn ngẫu nhiên 3 tài liệu làm tâm cụm 34 Hình 15: Tính lại tâm cụm 35 Hình 16: Mô hình thực nghiệm 41 Hình 17: Biểu đồ so sánh độ đo F1 mức 1 của 3 bộ dữ liệu 43 Hình 18: Biểu đồ so sánh độ đo F1 của 3 chủ đề con (Vnexpress) 44 Hình 19: Biểu đồ so sánh độ đo F1 củ a chủ đề giáo dục (Wikipedia) 45 Hình 20: Cây chủ đề Vnexpress ở hai mức đầu tiên 45 Hình 21: Cây chủ đề Wikipedia ở hai mức đầu tiên 46 iii DANH MỤC BẢNG BIỂU Bảng 1: Bốn luật quyết định tích hợp danh bạ 14 Bảng 2: Bảng tham số thuộc tính nhị phân 20 Bảng 3: Các chủ đề chính thuộc cây Vnexpress 39 Bảng 4: Các chủ đề chính thuộc cây Wikipedia 40 Bảng 5: Các chủ đề chính thuộc nhánh giáo dục 40 Bảng 6: Đánh giá kết quả phân cụm mức 1 43 Bảng 7: Đánh giá kết quả phân cụm trên 3 chủ đề con thu ộc cây Vnexpress 43 Bảng 8: Đánh giá kết quả phân cụm trên chủ đề giáo dục (Wikipedia) 43 Chương 1: Giới thiệu - 1 - Chương 1. GIỚI THIỆU Với sự phát triển nhanh chóng của Internet, thông tin là không sợ thiếu, việc cần thiết là chúng ta khai phá, tìm hiểu xem thông tin đó có mục đích gì và thông tin nào là có ích. Việc tổ chức các trang web thành một cấu trúc đầy đủ và có hệ thống là một việc làm rất có ý nghĩa giúp định hướng người dùng tìm kiếm thông tin dễ dàng từ những chủ đề họ quan tâm. Thông tin danh bạ thường dễ tìm kiếm với cấu trúc cây phân cấp rõ ràng, Dos là hệ điều hành sớm nh ất cũng sử dụng cách tổ chức thông tin danh bạ để lưu trữ và truy cập thông tin. Ngày nay, các danh bạ dường như luôn hiện diện mọi nơi, liệt kê tất cả các thông tin về các lĩnh vực cuộc sống, mà gần gũi với ta nhất là danh bạ các số điện thoại. Mọi danh bạ có chung một mục đích là giúp loại bỏ việc tìm kiếm một cách không mục đích đối vớ i thông tin có ích đồng thời nó cũng cho phép dữ liệu được quản lý thuận tiện hơn. Danh bạ web điển hình như Yahoo!, LookSmart và Open Directory Project (ODP) là tập các đường link liên kết tới các trang web và những trang web này được sắp xếp vào các chủ đề. Chúng điển hình được biểu diễn dưới dạng cây phân cấp, sắp xếp theo cấu trúc lớp, biểu diễn miền kiến thức dưới dạng chủ đề. Công nghệ này được bi ết đến với tên gọi “bản thể học” hay “ontology” [8]. Những bản thể này thường giống với cấu trúc được sử dụng trong hệ thống danh mục tại các thư viện, mỗi chủ đề chính được phân tách nhỏ hơn thành các danh mục con cụ thể. Chính công nghệ này giúp cho việc tìm kiếm nâng cao ở các máy tìm kiếm hiện nay như Google, Microsoft’s MSN và Netscape Search … Trên thế giới, việc xây dựng danh bạ web đã được quan tâm t ừ năm 1995 và đạt được những thành công cụ thể. Các trang web đang từng ngày được tích hợp vào cây thư mục của các danh bạ lớn, nhỏ giúp cho việc tổ chức các trang web ngày càng hoàn thiện hơn. Mặc dù mỗi tổ chức đứng ra xây dựng danh bạ web với mục đích khác nhau, một số tổ chức xây dựng danh bạ web theo hướng mở như các trang danh bạ web tiếng Anh: ODP, AOL, Google, HotBot, Lycos hay một số trang danh bạ nhỏ khác như Wherewithal, Zeal, Go Guides… một số tổ chức lại xây dựng danh bạ web mang tính thương mại và không công bố phương pháp tạo ra nó như LookSmart, MSN, time Warner, About.com, NBCi…; mỗi danh bạ có thế mạnh riêng ở các lĩnh vực riêng, bài toán đặt ra là làm thế nào để tích hợp các danh bạ này thành một danh bạ thống nhất, hoàn chỉnh. Dù vậy, việc này là khá khó khăn. [...]... với mục đích thương mại Ngoài việc cho phép người dung đăng thông tin của mình, các web danh bạ Việt Nam đều không công bố phương pháp xây dựng Khóa luận đã nghiên cứu một số phương pháp chung để tạo danh bạ web, dưới đây giới thiệu là hai phương pháp chính 3 Phương pháp tạo danh bạ Có hai phương pháp chính để tạo danh bạ web: tích hợp tạo danh bạ chung từ các danh bạ sẵn có và tiến hành xây dựng danh. .. phần chính với nội dung cơ bản như sau: Chương 1: Giới thiệu về danh bạ web, tình hình xây dựng danh bạ web trên thế giới nói chung và ở Việt Nam nói riêng Đồng thời, chương này cũng giới thiệu sơ bộ về phân cụm và tầm quan trọng của phân cụm trong nghiên cứu và thực tiễn Chương 2: Tìm hiểu về danh bạ web, khái niệm, một số đặc điểm của danh bạ web Giới thiệu hai phương pháp xây dựng danh bạ web Chương... đưa lại bộ phân cụm có độ chính xác cao nhất Thuật toán STC cũng được quan tâm làm rõ hơn trong [19][28] 2 Một số thuật toán phân cụm web 2.1 Phân cụm cây phân cấp Phương pháp phân cụm cây phân cấp xây dựng một cấu trúc cây phân cấp cho các tài liệu, và có hai phương pháp chính là xây dựng cây theo hướng từ trên xuống (top-down) và xây dựng theo hướng từ dưới lên (bottom-up) Với phương pháp bottom-up,... cụm được đưa ra, chúng ta sẽ xây dựng cây phân cấp chủ đề dựa trên các cấp của phân cụm và xây dựng một trang danh bạ hoàn chỉnh Các kỹ thuật phân cụm văn bản sẽ được giới thiệu ở chương 3 dưới đây 3.2.3 Kết hợp giữa phân loại tự động và kiến thức chuyên gia Để xây dựng một danh bạ web có hiệu quả, chúng ta có thể kết hợp cả hai phương pháp trên Sau khi tạo tự động một danh bạ, người quản trị có thể xin... toán xây dựng danh bạ web dựa trên phân cụm phân cấp văn bản Web thực sự có ý nghĩa về nghiên cứu và triển khai -3- Chương 2 :Danh bạ web Chương 2 DANH BẠ WEB Danh bạ web tổ chức thông tin một cách hệ thống, hỗ trợ người dùng định hướng tìm kiếm thông tin nhanh chóng hơn, nó cũng giúp cho việc tìm kiếm nâng cao ở các máy tìm kiếm Danh bạ web không phải là một máy tìm kiếm và nó không hiển thị danh sách... đầu tiên mỗi văn bản được coi như một cụm phân biệt và sau đó tiến hành ghép lần lượt 2 cụm giống nhau nhiều nhất hay khác nhau ít nhất làm một đến khi tất cả các cụm được ghép vào một cụm duy nhất chứa tất cả các văn bản Phân cụm phân cấp bottom-up được gọi là hierachical agglomerative clustering (HAC) Còn phân cụm phân cấp top-down lại đòi hỏi một phương pháp để phân chia cụm Phương pháp này được... dục … Hiện nay, danh bạ dọc ít được biết đến nhưng đang dần dần quen thuộc và phù hợp hơn với tất cả mọi người Tính đến nay, danh bạ dọc mới chỉ được xây dựng trên các trang web tiếng Anh điển hình là WebMD [37] cung cấp thông tin trên miền y tế, FindLaw [32] cung cấp thông tin về luật pháp … -4- Chương 2 :Danh bạ web 1.2 Đặc điểm Danh bạ web có một số đặc điểm như dưới đây [27]: Danh bạ web là một kho... khá thường so với các dữ liệu trong cơ sở dữ liệu Loại bỏ những dữ liệu này để tránh ảnh hưởng đến kết quả phân cụm Phân cụm hiện nay đang là vấn đề mở và khó: Vì phân cụm đang phải giải quyết một số vấn đề cơ bản: Xây dựng hàm tính độ tương tự, xây dựng các tiêu chuẩn phân cụm, xây dựng mô hình cho cấu trúc dữ liệu, xây dựng các thuật toán phân cụm và xác lập các điều kiện khởi tạo, xây dựng các thủ... các nhánh của cây phân cấp chủ đề Trong tìm kiếm, hỗ trợ cho việc tìm kiếm nâng cao thêm nhanh chóng và hiệu quả -5- Chương 2 :Danh bạ web 2 Một số danh bạ web điển hình và thực trạng ở Việt Nam 2.1 Một số danh bạ web điển hình Việc xây dựng danh bạ web trên thế giới đã được quan tâm từ lâu, dưới đây là một số trang danh bạ điển hình 2.1.1 Open Directory Project (ODP) Hình 1: Danh bạ web DMOZ Được đưa... Agglomerative Clustering (HAC) là thuật toán phân cụm cây phân cấp có tính gia tăng cao và tạo ra được một cây phân cấp có cấu trúc rất giống với cây -2- Chương 1: Giới thiệu chủ đề của danh bạ, theo hướng tiếp cận này khóa luận sẽ áp dụng phương pháp phân cụm HAC để tạo ra một cây phân cấp chủ đề nhằm xây dựng một danh bạ web; đồng thời khóa luận cũng tiến hành phân cụm dựa trên một thuật toán khác là K-means . Bảng 2: Bảng tham số thu c tính nhị phân 20 Bảng 3: Các chủ đề chính thu c cây Vnexpress 39 Bảng 4: Các chủ đề chính thu c cây Wikipedia 40 Bảng 5: Các chủ đề chính thu c nhánh giáo dục 40. mẫu làm cơ sở lý thuyết cho thực nghiệm ở chương 4. Chương 4: Trình bày các kết quả thực nghiệm thu được sau khi áp dụng thu t toán phân cụm phân cấp theo hướng bottom-up và thu t toán K-means. tưởng là nếu các chủ đề thu c lớp A và lớp B là giống nhau thì các tài liệu thu c lớp A được cho là thu c lớp B. Điểm yếu của các mô hình này là chỉ quan tâm đến các lớp có chung phần lớn các chủ

Ngày đăng: 20/08/2014, 09:40

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan