1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm Luận văn ThS. Công nghệ thông tin 1 01 10

90 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Phân Cụm Tài Liệu Web Và Áp Dụng Vào Máy Tìm Kiếm
Tác giả Nguyễn Thị Thu Hằng
Người hướng dẫn PGS.TS Hà Quang Thụy
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại luận văn
Năm xuất bản 2007
Thành phố Hà Nội
Định dạng
Số trang 90
Dung lượng 1,52 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hằng PHƯƠNG PHÁP PHÂN CỤM TÀI LIỆU WEB VÀ ÁP DỤNG VÀO MÁY TÌM KIẾM LUẬN VĂN THẠC SỸ Hà Nội – 2007 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hằng PHƯƠNG PHÁP PHÂN CỤM TÀI LIỆU WEB VÀ ÁP DỤNG VÀO MÁY TÌM KIẾM Ngành: Cơng nghệ thơng tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY Hà Nội - 2007 TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ, BẢNG BIỂU U MỞ ĐẦU U CHƯƠNG - KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU WEB 11 1.1 Khai phá liệu Web 11 1.1.1 Giới thiệu Khai phá liệu 11 1.1.2 Dữ liệu Web nhu cầu khai thác thông tin 14 1.1.3 Đặc điểm liệu Web 15 1.1.4 Các hướng tiếp cận khai phá liệu Web 16 1.1.5 Nhu cầu phân cụm tài liệu Web 17 1.2 Mơ hình tìm kiếm thơng tin 18 1.2.1 Giới thiệu 18 1.2.2 Quy trình tìm kiếm thơng tin hệ thống 19 1.2.3 Ứng dụng phân cụm vào hệ thống tìm kiếm 23 1.3 Kết luận chương 23 CHƯƠNG - THUẬT TOÁN PHÂN CỤM WEB 24 2.1 Khái quát thuật toán phân cụm tài liệu 24 2.2 Tiêu chuẩn đánh giá thuật toán phân cụm 27 2.3 Các đặc tính thuật tốn phân cụm web 29 2.3.1 Mơ hình liệu 29 -3- TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 2.3.2 Độ đo tương tự 33 2.3.3 Mơ hình phân cụm 35 2.4 Một số kỹ thuật Phân cụm Web điển hình 36 2.4.1 Phân cụm theo thứ bậc 36 2.4.2 Phân cụm cách phân mảnh 40 2.5 Các yêu cầu thuật toán phân cụm Web 43 2.5.1 Tách thông tin đặc trưng 43 2.5.2 Phân cụm chồng lặp 44 2.5.3 Hiệu suất 44 2.5.4 Khả khử nhiễu 45 2.5.5 Tính tăng 45 2.5.6 Việc biểu diễn kết 45 2.6 Bài toán tách từ tự động tiếng Việt 46 2.6.1 Một số khó khăn phân cụm trang Web tiếng Việt 46 2.6.2 Tiếng Từ tiếng Việt 48 2.6.3 Phương pháp tách từ tự động tiếng Việt fnTBL 48 2.6.4 Phương pháp Longest Matching 53 2.6.5 Kết hợp fnTBL Longest Matching 54 2.7 Kết luận chương 54 CHƯƠNG - THUẬT TOÁN PHÂN CỤM CÂY HẬU TỐ VÀ THUẬT TOÁN CÂY PHÂN CỤM TÀI LIỆU 55 U 3.1 Giới thiệu thuật tốn phân cụm trang Web có tính tăng 55 -4- TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 3.2 Thuật toán phân cụm hậu tố 56 3.2.1 Mô tả 56 3.2.2 Thuật toán STC 57 3.3 Thuật toán phân cụm sử dụng phân cụm tài liệu 62 3.3.1 Giới thiệu 62 3.3.2 Trích chọn đặc trưng phân cụm tài liệu 64 3.3.3 Cây phân cụm tài liệu –DC Tree 68 3.4 Kết luận chương 73 CHƯƠNG - PHẦN MỀM THỬ NGHIỆM VÀ KẾT QUẢ THỰC NGHIỆM 75 4.1 Giới thiệu 75 4.2 Thiết kế sở liệu 76 4.3 Chương trình thử nghiệm 80 4.4 Kết luận chương 84 TÀI LIỆU THAM KHÁO 86 -5- TIEU LUAN MOI download : skknchat@gmail.com Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 DANH MỤC CHỮ VIẾT TẮT AHC: Phân cụm tích tụ theo thứ bậc (Agglomerative Hierarchical Clustering) CSDL: Cơ sở liệu DF: Tần suất xuất tài liệu (Document Frequency) DC-tree: Cây phân cụm tài liệu (Document Clustering Tree) fnTBL: Học dựa biến đổi (Fast Transformation-based learning) FCM: Fuzzy C-means FCMdd: Fuzzy C-Medoids IR: Mơ hình tìm kiếm thông tin (Information Retrieval) IDF: Tần suất nghịch đảo tài liệu (inverse document frequency) KDD: Khai phá tri thức (Knowledge Discovery in Databases) STC: Phân cụm hậu tố (Suffix tree clustering) TF: Tần suất xuất (term frequency) -6- TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 DANH MỤC HÌNH VẼ, BẢNG BIỂU Hình Các bước KDD 12 Hình Mơ hình hệ thống tìm kiếm thơng tin 20 Hình Một ví dụ dendogram phân cụm sử dụng phân cụm có thứ bậc 37 Hình Quá trình học 52 Hình Giai đoạn xác định từ cho tài liệu 53 Hình Cây hậu tố cho xâu BANANA 57 Hình Cây hậu tố chuỗi “cat ate cheese”, “mouse ate cheese too”, “cat ate mouse too” 59 Hình Đồ thị cụm sở ví dụ Hình bảng 62 Hình Ví dụ DC 69 Hình 10 Sơ đồ liên kết thực thể chương trình thực nghiệm 80 Hình 11 Màn hình hỗ trợ chức cập nhật chỉnh sửa Từ điển 81 Hình 12 Màn hình chức hỗ trợ lấy liệu từ Internet 82 Hình 13 Màn hình hỗ trợ chức Phân cụm với liệu lấy từ Internet 83 Hình 14 Màn hình chức hỗ trợ Tìm kiếm 84 -7- TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 MỞ ĐẦU World Wide Web kho thông tin khổng lồ với tiềm coi khơng có giới hạn Khai phá Web vấn đề nghiên cứu thời thời gian gần đây, thu hút nhiều nhóm nhà khoa học giới tiến hành nghiên cứu, đề xuất mơ hình, phương pháp nhằm tạo công cụ hiệu hỗ trợ người dùng việc tổng hợp thơng tin tìm kiếm tri thức từ tập hợp trang Web khổng lồ Internet Phân cụm tài liệu Web tốn điển hình khai phá Web, nhằm phân hoạch tập văn thành tập có tính chất chung, tốn phân cụm trang Web kết trả từ máy tìm kiếm hữu dụng [4-6, 8-15, 18, 19, 22, 24] Như biết, tập hợp trang Web đáp ứng câu hỏi trả từ máy tìm kiếm nói chung lớn, vậy, thuật tốn phân cụm văn cần có tính chất quan trọng tính "tăng" theo nghĩa thuật tốn phân cụm khơng phải thực tồn tập liệu mà thực theo cách từ phận liệu tới toàn liệu [4, 6, 11, 14, 15, 24] Điều cho phép thuật tốn tiến hành giai đoạn máy tìm kiếm đưa trang web kết Luận văn tập trung khảo sát phương pháp phân cụm Web có tính chất tăng thực số thử nghiệm tích hợp kết nghiên cứu nói vào phần mềm tải trang Web theo dạng máy tìm kiếm Đồng thời, luận văn triển khai số bước việc áp dụng phân cụm cho trang Web tiếng Việt Luận văn xây dựng phần mềm thử nghiệm tiến hành thử nghiệm phân cụm Web tiếng Việt Ngoài Phần Mở đầu, Phần Kết luận Phụ lục, nội dung luận văn chia thành chương chính: -8- TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 Chương – Khái quát khai phá liệu Web Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát Khai phá liệu Web Đồng thời, luận văn mô tả sơ hệ thống thơng tin tìm kiếm nhu cầu phân cụm áp dụng cho hệ thống Chương – Thuật tốn phân cụm Web Chương trình bày cách khái quát thuật toán phân cụm Web, đặc trưng yêu cầu thuật toán phân cụm Web Những yêu cầu độ đo áp dụng cho thuật toán phân cụm Web trình bày chương Một số kiến thức tiếng Việt giới thiệu Chương – Thuật toán phân cụm hậu tố thuật toán phân cụm tài liệu Chương sâu vào phân tích thuật tốn phân cụm Web có tính chất tăng Luận văn tập trung vào hai thuật tốn phân cụm Web có tính “tăng” thuật tốn STC thuật tốn phân cụm có sử dụng cấu trúc DC (DC-tree) Chương – Phần mềm thử nghiệm kết thực nghiệm Chương trình bày kết thực nghiệm phân cụm Web theo phần mềm thử nghiệm sở thuật toán phân cụm DC-tree Chương trình cài đặt thử nghiệm viết ngơn ngữ lập trình C# tảng Net Framework Microsoft sử dụng SQL Server 2000 để lưu trữ sở liệu Phần mềm hoạt động, cho kết phân cụm, nhiên, thời gian hạn chế nên luận văn chưa tiến hành đánh giá kết phân cụm cách thống Phần Kết luận trình bày tổng hợp kết thực luận văn phương hướng nghiên cứu nội dung luận văn Luận văn đạt số kết khả quan bước đầu việc nghiên cứu triển khai thuật toán phân cụm Web có tính chất tăng, -9- TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 CHƯƠNG - PHẦN MỀM THỬ NGHIỆM VÀ KẾT QUẢ THỰC NGHIỆM 4.1 Giới thiệu Trong phạm vi luận văn này, tơi áp dụng thuật tốn phân cụm tài liệu sử dụng cấu trúc DC-tree vào chương trình thử nghiệm Để thực nghiệm kết phân cụm DC Tree, thể thuật tốn ngơn ngữ lập trình C# tảng Net Framework Microsoft sử dụng SQL Server 2000 để lưu trữ sở liệu Các chức chương trình bao gồm: - Lập liệu từ điển Dựa ý tưởng phân cụm sử dụng cụm từ, chương trình xây dựng hệ thống từ điển để phục vụ cho thuật toán tách từ Longest Matching Ban đầu, từ xây dựng dựa từ lấy từ liệu từ điển Việt-Anh nguồn http://www.stardict.org Các liệu bổ sung, sửa chữa để nâng cao hiệu phân cụm - Lấy liệu từ Internet Dữ liệu phân cụm lấy từ Internet cách độc lập với việc phân cụm Chương trình định nghĩa sẵn ngưỡng n cho việc lấy liệu từ Internet Điều có nghĩa là, sau người quản trị cung cấp cho chương trình URL, chương trình tự động lấy nội dung trang web từ URL sau phân tích nội dung trang web, tìm URL khác nằm trang web - 75 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 Q trình lặp lại với URL tìm độ sâu n thỏa mãn Như với độ sâu n phù hợp, ta lấy tồn nội dung trang Web - Tách từ phân cụm Chức cho phép chương trình tách từ phân cụm liệu lấy Trong chức này, có bước thực hiện: Bước 1: Tách từ sử dụng thuật toán Longest Matching với từ điển dựng sẵn Bước 2: Tách từ sử dụng thuật toán fnTBL từ liệu trả từ thuật toán Longest Matching Bước 3: Phân cụm dựa thuật toán DC-Tree sử dụng hàm tính độ tương tự dựa cụm từ tách - Tìm kiếm kết phân cụm Việc tìm kiếm áp dụng thuật toán bao gồm bước: Bước 1: Tính độ tương tự chuỗi tìm kiếm với đặc trưng phân cụm, độ tương tự lớn ngưỡng S1 đó, ta áp dụng bước cho phân cụm Bước 2: Tìm kiếm tài liệu phân cụm có độ tương tự cao ngưỡng S2 với chuỗi tìm kiếm 4.2 Thiết kế sở liệu Cơ sở liệu chương trình thiết kế hình phía Trong chức bảng mô tả sau: Bảng: Dictionary – Đây bảng chứa liệu từ điển tiếng Việt - 76 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 Tên trường Kiểu liệu Mơ tả PhraseID Int Là khóa bảng Phrase Nvarchar Là cụm từ cần lưu trữ PhraseDescription Ntext Là mô tả cụm từ cần lưu trữ Hiện chưa sử dụng Chứa liệu ngữ nghĩa tiếng Anh sau convert từ từ điển StarDict Bảng Documents – Đây bảng chứa tài liệu chương trình lấy Tên trường Kiểu liệu Mơ tả DocID Int Là khóa bảng Source Nvarchar Địa nguồn tài liệu gốc Dùng để đánh mục, tránh trùng lặp tài liệu Snipet Ntext Là trích đoạn tài liệu, phục vụ cho việc phân cụm IsTokenized Bit Cho biết tài liệu tách từ hay chưa IsClustered Bit Cho biết tài liệu phân cụm hay chưa - 77 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 Bảng DocumentIndex – Đây bảng liên kết tài liệu liệu từ điển Tên trường Kiểu liệu Mơ tả DocIndexID Int Là khóa bảng PhraseID Int Khóa ngồi, liên kết đến bảng Dictionary DocID Int Khóa ngồi, liên kết đến bảng Documents Score Float Cho biết độ tương tự/tần suất từ khóa tài liệu dựa hàm tính độ tương tự Bảng Nodes – Chứa nút DC Tên trường Kiểu liệu Mơ tả NodeID Int Là khóa bảng NodeParentID Int Chứa nút cha ClusterID Int Cho biết phân cụm nút thuộc vào - 78 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 Bảng Node-Document – Vì nút chứa nhiều tài liệu ngược lại, tài liệu nằm nhiều nút Bảng thể mối quan hệ nhiều-nhiều Tên trường Kiểu liệu Mô tả NodeDocumentID Int Là khóa bảng NodeID Khóa ngồi, liên kết đến bảng Int Nodes DocID Int Khóa ngồi, liên kết đến bảng Documents Bảng Clusters – Chứa phân cụm tìm Tên trường Kiểu liệu Mơ tả ClusterID Int Là khóa bảng Cho biết số thứ tự phân cụm Dưới sơ đồ liên kết thực thể bảng: - 79 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 Hình 10 Sơ đồ liên kết thực thể chương trình thực nghiệm 4.3 Chương trình thử nghiệm Áp dụng nghiên cứu lý thuyết phân cụm, chương trình thử nghiệm chúng tôi, bước thực tách thành phần riêng - 80 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 Tương ứng với chức mơ tả trên, chương trình bao gồm bốn module chính: Từ điển, Lấy liệu, Phân cụm, Tìm kiếm - Module Từ điển: hiển thị tất từ có từ điển Việt Với liệu ban đầu lấy từ nguồn từ điển Việt-Anh địa http://www.stardict.org ta có kho từ điển hoàn chỉnh từ Tiếng Việt Tuy nhiên ta thêm bớt từ có thấy cần thiết Tập từ từ điển sử dụng bước tách từ tài liệu cần phân cụm Hình 11 Màn hình hỗ trợ chức cập nhật chỉnh sửa Từ điển - Module Lấy liệu: Để xây dựng kho liệu tài liệu Web, ta tiến hành lấy liệu Người sử dụng nhập đường dẫn URL trang - 81 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 Web, hệ thống tự động tìm kiếm lấy tất nội dung trang Web với độ sâu n ( định trước) Hình 12 Màn hình chức hỗ trợ lấy liệu từ Internet - Module Phân cụm: Sau tiến hành lấy liệu, ta thực phân cụm tài liệu Hệ thống tiến hành phân cụm cách tự động Trong lần phân cụm khác với tập liệu lấy về, việc phân cụm không cần phân cụm lại với tập liệu cũ mà ta phân cụm trước Việc phân cụm cần thực tập liệu với kết cũ lần phân cụm trước Trong thuật tốn có sử dụng tham số sau: M: Số lượng nhỏ nút M=8 B: Hệ số nhánh B=20 - 82 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 S2:Ngưỡng tương tự S2=1.0 S1: Ngưỡng tương tự S1=0.3 repThreshold: Ngưỡng đặc trưng tiêu biểu repThreshold=0.4 MCS: Cỡ phân cụm nhỏ MCS=100 Hình 13 Màn hình hỗ trợ chức Phân cụm với liệu lấy từ Internet - Module Tìm kiếm: Người sử dụng nhập vào từ khố cần tìm kiếm Hệ thống tìm tài liệu liên quan với từ khoá - 83 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 Hình 14 Màn hình chức hỗ trợ Tìm kiếm 4.4 Kết luận chương Chương kết cài đặt thử nghiệm thuật toán phân cụm cho tài liệu Web Tiếng Việt sử dụng cấu trúc liệu DC-tree trình bày chương Chương trình cài đặt viết ngơn ngữ lập trình C# tảng Net Framework Microsoft sử dụng SQL Server 2000 để lưu trữ sở liệu Chương trình thực việc phân cụm với kết tương đối hợp lý - 84 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 KẾT LUẬN Luận văn cung cấp số nội dung phân cụm Web, đạt số kết sau: - Giới thiệu khái quát toán phân cụm web, giải pháp phân cụm web (các yêu cầu, kỹ thuật, đánh giá) ý tới tính tăng thuật tốn phân cụm Web, - Trình bày hai thuật tốn phân cụm web có tính tăng STC DCtree Đã phân tích nội dung kiến thức bản, tảng phát triển thuật toán - Xây dựng phần mềm thử nghiệm phân cụm tài liệu theo thuật toán DC-tree Hệ thống máy tìm kiếm - DC tree luận văn phát triển đưa lên web, có cơng cụ lưu câu truy vấn người dùng, phân cụm tìm thấy liên kết người dùng tới Hệ thống hoạt động thực việc phân cụm tài liệu Web Do hạn chế thời gian lực, luận văn chưa tiến hành đánh giá chất lượng phân cụm hệ thống Trong tương lai, tiến hành đánh giá công phu Chúng dự kiến đưa thống kê dựa hành vi hệ thống thực tế Ngồi ra, chúng tơi nghiên cứu hướng giải vấn đề từ đồng nghĩa tiếng Việt - 85 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 TÀI LIỆU THAM KHÁO Tiếng Việt [1] Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục Tiếng Anh [2] Clement T.Yu Weiyi Meng (1998), Principles of Database Query Processing for Advanced Application, Morgan Kaufmann Publisher, Inc [3] Gerard Salton/Michael J.McGill, Introduction to Modern Information Retrieval [4] M Steinbach, G Karypis, V Kumar (2000), A Comparison of Document Clustering Techniques, TextMining Workshop, KDD [5] O Zamir and O Etzioni (1998), Web Document Clustering: A Feasibility Demonstration, Proc of the 21st ACM SIGIR Conference, 46-54 [6] O Zamir, O Etzioni, O Madani, R M Karp (1997), Fast and Intuitive Clustering of Web Documents, Proc of the 3rd International Conference on Knowledge Discovery and Data Mining [7] K Cios, W Pedrycs, R Swiniarski (1998), Data Mining – Methods for Knowledge Discovery, Kluwer Academic Publishers [8] R Krishnapuram, A Joshi, L Yi (1999), A Fuzzy Relative of the kMedoids Algorithm with Application to Web Document and Snippet Clustering, Proc IEEE Intl Conf Fuzzy Systems, Korea - 86 - TIEU LUAN MOI download : skknchat@gmail.com Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 [9] Z Jiang, A Joshi, R Krishnapuram, L Yi (2000), Retriever: Improving Web Search Engine Results Using Clustering, Technical Report, CSEE Department, UMBC [10] T H Haveliwala, A Gionis, P Indyk (2000), Scalable Techniques for Clustering the Web, Extended Abstract, WebDB’2000, Third International Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX [11] A Bouguettaya (1996), On-Line Clustering, IEEE Trans on Knowledge and Data Engineering [12] A K Jain R C Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons [13] G Karypis, E Han, V Kumar (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32 [14] O Zamir O Etzioni (1999), Grouper: A Dynamic Clustering Interface to Web Search Results, Proc of the 8th International World Wide Web Conference, Toronto, Canada [15] D R Cutting, D R Karger, J O Pedersen, J.W Tukey (1993), Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval [16] R Michalski, I Bratko, M Kubat (1998), Machine Learning and Data Mining – Methods and Applications, John Wiley & Sons Ltd - 87 - TIEU LUAN MOI download : skknchat@gmail.com Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html TIEU LUAN MOI download : skknchat@gmail.com Thank you for evaluating AnyBizSoft PDF Merger! To remove this page, please register your program! Go to Purchase Now>> AnyBizSoft PDF Merger  Merge multiple PDF files into one  Select page range of PDF to merge  Select specific page(s) to merge  Extract page(s) from different PDF and merge into one TIEU LUAN files MOI download : skknchat@gmail.com ... GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hằng PHƯƠNG PHÁP PHÂN CỤM TÀI LIỆU WEB VÀ ÁP DỤNG VÀO MÁY TÌM KIẾM Ngành: Công nghệ thông tin Mã số: 1. 01. 10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN... DỮ LIỆU WEB 11 1. 1 Khai phá liệu Web 11 1. 1 .1 Giới thiệu Khai phá liệu 11 1. 1.2 Dữ liệu Web nhu cầu khai thác thông tin 14 1. 1.3 Đặc điểm liệu Web 15 1. 1.4 Các hướng... phá liệu Web 16 1. 1.5 Nhu cầu phân cụm tài liệu Web 17 1. 2 Mơ hình tìm kiếm thơng tin 18 1. 2 .1 Giới thiệu 18 1. 2.2 Quy trình tìm kiếm thơng tin hệ thống 19 1. 2.3

Ngày đăng: 27/06/2022, 15:43

HÌNH ẢNH LIÊN QUAN

Hình 1. Các bước trong KĐ - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 1. Các bước trong KĐ (Trang 13)
Hình 2. Mô hình hệ thống tìm kiếm thông tin - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 2. Mô hình hệ thống tìm kiếm thông tin (Trang 21)
Hình 3. Một ví dụ dendogram của phân cụm sử dụng phân cụm có thứ bậc - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 3. Một ví dụ dendogram của phân cụm sử dụng phân cụm có thứ bậc (Trang 38)
Hình 4. Quá trình học - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 4. Quá trình học (Trang 53)
Hình 5. Giai đoạn xác định từ cho tài liệu mới - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 5. Giai đoạn xác định từ cho tài liệu mới (Trang 54)
Hình 6. Cây hậu tố cho xâu BANANA - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 6. Cây hậu tố cho xâu BANANA (Trang 58)
- Các node của cây hậu tố được vẽ bằng hình tròn - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
c node của cây hậu tố được vẽ bằng hình tròn (Trang 60)
Hình 8. Đồ thị các cụm cơ sở của ví dụ trong Hình 7 và bảng 1. - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 8. Đồ thị các cụm cơ sở của ví dụ trong Hình 7 và bảng 1 (Trang 63)
Hình 9. Ví dụ của một cây DC - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 9. Ví dụ của một cây DC (Trang 70)
Bảng Documents – Đây là bảng chứa các tài liệu được chương trình lấy về - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
ng Documents – Đây là bảng chứa các tài liệu được chương trình lấy về (Trang 78)
PhraseID Int Là khóa chính của bảng. Phrase Nvarchar Là cụm từ cần lưu trữ  - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
hrase ID Int Là khóa chính của bảng. Phrase Nvarchar Là cụm từ cần lưu trữ (Trang 78)
Bảng DocumentIndex – Đây là bảng liên kết giữa các tài liệu và dữ liệu từ điển.  - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
ng DocumentIndex – Đây là bảng liên kết giữa các tài liệu và dữ liệu từ điển. (Trang 79)
DocIndexID Int Là khóa chính của bảng. - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
oc IndexID Int Là khóa chính của bảng (Trang 79)
Hình 10. Sơ đồ liên kết thực thể của chương trình thực nghiệm - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 10. Sơ đồ liên kết thực thể của chương trình thực nghiệm (Trang 81)
Hình 11. Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từ điển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến  hành lấy dữ liệu về - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 11. Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từ điển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến hành lấy dữ liệu về (Trang 82)
Hình 12. Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 12. Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet (Trang 83)
Hình 13. Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ Internet  - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 13. Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ Internet (Trang 84)
Hình 14. Màn hình chức năng hỗ trợ Tìm kiếm. - (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm  Luận văn ThS. Công nghệ thông tin  1 01 10
Hình 14. Màn hình chức năng hỗ trợ Tìm kiếm (Trang 85)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w