Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
1,38 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA HỒ NGUYỄN CHÍNH TÂM LUẬN VĂN THẠC SĨ: GOM CỤM TÀI LIỆU THEO THỰC THỂ CĨ TÊN Chun ngành : Khoa Học Máy Tính Mã ngành : 604801 TP Hồ Chí Minh, tháng 03 năm 2008 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA Cộng Hòa Xã Hội Chủ Nghĩa Việt Nam Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày 28 tháng năm 2008 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Hồ Nguyễn Chính Tâm Ngày, tháng, năm sinh : 13/09/1979 Giới tính : Nam 5/ Nữ Nơi sinh : TPHCM Chuyên ngành : Khoa học máy tính Khố (Năm trúng tuyển) : 2005 1- TÊN ĐỀ TÀI: Gom cụm tài liệu theo thực thể có tên 2- NHIỆM VỤ LUẬN VĂN: Gom cụm tài liệu phần tồn q trình truy xuất thơng tin Các hệ thống gom cụm chủ yếu dựa từ khóa xuất tài liệu Thực thể có tên đối tượng tham khảo đến tên người, tổ chức, nơi chốn Mục tiêu đặt cho đề tài nghiên cứu, đề xuất mơ hình gom cụm theo thực thể có tên có tính tốn đến thực thể có tên chưa nhận dạng đầy đủ thực hệ thống cho thấy ưu điểm hướng xử lý thông tin so với việc gom cụm tài liệu theo thực thể có tên bỏ qua thực thể chưa nhận dạng đầy đủ 3- NGÀY GIAO NHIỆM VỤ : 19/9/2006 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 28/03/2008 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS Cao Hoàng Trụ Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên LỜI CẢM ƠN Tơi xin gửi lời cảm ơn đến gia đình ln động viên, giúp đỡ tạo điều kiện để học tập hồn thành luận văn tốt nghiệp Tơi xin gởi lời cảm ơn chân thành đến PGS.TS Cao Hồng Trụ, thầy tận tình hướng dẫn, bảo giúp đỡ suốt thời gian thực luận văn Những kiến thức kinh nghiệm quý báu mà Thầy truyền đạt giúp tơi nhiều việc hồn tất luận văn Tơi xin gởi lời cám ơn đến tận tình dạy dỗ Q Thầy Cơ khoa Công nghệ Thông tin suốt hai năm qua Quý Thầy Cô mang đến cho học chuyên môn kinh nghiệm thực tế vô quý báu Cuối xin gởi lời cảm ơn đến công ty Global Cybersoft Vietnam hỗ trợ cho trình vừa học tập vừa làm việc suốt hai năm qua Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên MỤC LỤC LỜI CẢM ƠN .1 MỤC LỤC DANH MỤC HÌNH .4 CHƯƠNG : GIỚI THIỆU 1.1 Tổng quan web ngữ nghĩa gom cụm tài liệu 1.2 Mục tiêu phạm vi CHƯƠNG : TỔNG QUAN VỀ GOM CỤM TÀI LIỆU 10 2.1 Gom cụm tài liệu .10 2.2 Các giải thuật gom cụm tài liệu .11 CHƯƠNG : CÁC NGHIÊN CỨU LIÊN QUAN .29 3.1 Hệ thống KIM 29 3.2 Giới thiệu Ontology 30 3.3 Gom cụm theo lớp thực thể định danh thực thể 31 3.4 Mơ hình thiết kế RCP (Rich Client Platform) 32 CHƯƠNG : GIẢI QUYẾT VẤN ĐỀ 35 4.1 Gom cụm theo thực thể có tên 35 4.2 Gom cụm theo định danh có tính ảnh hưởng thực thể khác 39 4.3 Ảnh hưởng thực thể chưa nhận dạng hoàn chỉnh 40 CHƯƠNG : THIẾT KẾ VÀ HIỆN THỰC .52 5.1 Thiết kế kiến trúc .52 5.2 Thiết kế chi tiết 54 5.3 Hiện thực 65 CHƯƠNG : ĐÁNH GIÁ KẾT QUẢ 73 6.1 Đo lường kết gom cụm tài liệu 73 6.2 So sánh kết phương pháp đề nghị với phương pháp theo định danh 73 6.3 Đánh giá 76 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên CHƯƠNG : KẾT LUẬN 78 TÀI LIỆU THAM KHẢO .80 PHỤ LỤC 82 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên DANH MỤC HÌNH Hình 2.1 : Tìm kiếm sử dụng trình tìm kiếm thơng thường 12 Hình 2.2 : Tìm kiếm có thực chức gom cụm tài liệu 12 Hình 2.3 : Trình tìm kiếm Vivisimo với từ khóa "Sematic based document clustering" 13 Hình 2.4 : Trình tìm kiếm Clusty có thực gom cụm 14 Hình 2.5 : Dendogram sau gom cụm phân cấp 21 Hình 2.6 : Giải thuật gom cụm phân cấp 21 Hình 2.7 : Không gian tài liệu trước gom cụm 22 Hình 2.8 : Quá trình gom cụm tài liệu theo giải thuật gom cụm phân cấp tích tụ 22 Hình 2.9 : Giải thuật k-means 23 Hình 2.10 : Minh họa cho giải thuật gom cụm k-means 23 Hình 2.11 : Giải thuật Bisecting k-means 25 Hình 2.12 : Giải thuật Single-pass 25 Hình 2.13 : Một phân cụm tạo từ ứng dụng KIMCluster 27 Hình 3.14 : Sử dụng KIM để thích cho tài liệu 30 Hình 3.15 : Ví dụ Ontology .31 Hình 3.16 : Mơ hình gom cụm 32 Hình 3.17 : RCP GUI Eclipse 33 Hình 4.18 : Gom cụm tập tài liệu thành cụm tài liệu giống 36 Hình 4.19 : Chú thích tài liệu thơ thành tài liệu chứa thực thể có tên 37 Hình 4.20 : Các trình việc gom cụm có quan tâm thực thể chưa nhận dạng đầy đủ 42 Hình 4.21 : Giải thuật gom cụm theo thực thể có tên 43 Hình 4.22 : Quá trình sử dụng KIM để thích tài liệu văn thơ thành tài liệu chứa thực thể có tên .45 Hình 4.23 : Quá trình lược bỏ thực thể thuộc lớp cần loại bỏ .46 Hình 4.24 : Quá trình cập nhật tần số xuất thực thể có tên 48 Hình 4.25 : Lược đồ trình cập nhật tần số xuất thực thể nhận dạng đầy đủ 49 Hình 5.26 : Thiết kế kiến trúc chương trình KIMCluster 53 Hình 5.27 : Mơ hình chức ứng dụng 54 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên Hình 5.28 : Sơ đồ lớp khối Core 56 Hình 5.29 : Các lớp đối tượng khối View 59 Hình 5.30 : Minh họa cho Cluster View chương trình KIMCluster 61 Hình 5.31 : Minh họa Document View chương trình KIMCluster 62 Hình 5.32 : Hiện thực Log View 62 Hình 5.33 : Hiện thực lớp Measure View chương trình KIMCluster .63 Hình 5.34 : Lược đồ cho trình khởi tạo kết nối với KIMService 63 Hình 5.35 : Quá trình khởi tạo cluster 64 Hình 5.36 : Thiết kế lớp KIMUtility chứa tiện ích sử dụng ứng dụng 64 Hình 5.37 : Các gói thực ứng dụng 65 Hình 6.38 : Hình ảnh phân cụm tạo sử dụng chương trình KIMCluster .77 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên DANH MỤC BẢNG Bảng 2.1 : Bảng minh họa tần số từ khóa t1 t7 18 Bảng 2.2 : Bảng minh họa giá trị TF*IDF từ khóa khơng gian tài liệu 20 Bảng 2.3 : Các cơng thức tính độ tương đồng hai vector tài liệu - từ khóa 20 Bảng 5.4 : Bảng lớp thực gói Core 66 Bảng 5.5 : Chi tiết thực giao diện IWebPage 67 Bảng 5.6 : Chi tiết thực lớp Cluster 68 Bảng 5.7 : Chi tiết thực lớp DocumentPack .69 Bảng 5.8 : Chi tiết thực gói util 69 Bảng 5.9 : Chi tiết lớp KIMUtility 70 Bảng 5.10 : Hiện thực số đối tượng gói View 71 Bảng 5.11 : Chi tiết thực lớp ViewContentProvider 72 Bảng 6.12 : Kết đo lường trình gom cụm tài liệu theo thực thể có tên 73 Bảng 6.13 : Kết đo lường trình gom cụm 300 tài liệu 74 Bảng 6.14 : Kết đo lường trình gom cụm 500 tài liệu 75 Bảng 6:15 : Bảng kết đo lường không gian 960 tài liệu .76 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên CHƯƠNG : GIỚI THIỆU 1.1 Tổng quan web ngữ nghĩa gom cụm tài liệu Thế giới trải qua giai đoạn phát triển bùng nổ ngành công nghệ thông tin Cùng với tốc độ phát triển vũ bão mạng internet, kho tri thức vô tận lại đầy thêm kiến thức vô quý báu nhân loại Ngày tốn tìm kiếm thông tin nhanh đạt hiệu tối ưu toán then chốt Chúng ta thử nhớ lại kiện động đất làm đứt cáp quang kết nối châu Á châu lục khác năm 2006 để nhớ lại vai trò hệ thống mạng tồn cầu đời sống khơng người dân châu Á nói chung người dân Việt Nam nói riêng Hầu tất cơng việc làm việc công ty phầm mềm bị ngưng trệ đơn giản ngày đó, nhân viên khơng thể mở trang web tìm kiếm Google để tìm kiếm thơng tin, mã nguồn mẫu hay tài nguyên hệ thống mạng tồn cầu Như vậy, tốn tìm kiếm thơng tin kho tàng quý báu nhân loại cho xác hiệu trở nên cấp thiết lúc Chỉ cần hiệu suất tìm kiếm tăng, cơng việc mà lập trình viên nói riêng tăng hiệu suất nhiều Chúng ta biết trình tìm kiếm thơng dụng Google, Yahoo, trình tìm kiếm khác trả kết tìm kiếm thơng qua độ đo định Ta hồn tồn sử dụng ngơn ngữ truy vấn Google hay Yahoo để việc tìm kiếm đạt hiệu suất cao Tuy nhiên, công cụ có số giới hạn định Để phá vỡ hạn chế q trình tìm kiếm thơng tin, ta sử dụng trình tìm kiếm có thực chức gom cụm tài liệu trả cho người dùng Nói cách đơn giản, trình tìm kiếm khơng thực chức gom cụm có độ đo để xếp tài liệu lại với nhau, trình tìm kiếm có thực chức gom cụm Vivisimo, Clusty, Carrot xếp tài liệu trả nhiều độ đo thành nhiều nhóm tài liệu có độ tương tự gần giống Nhờ q trình tìm kiếm thơng tin hiệu nhiều so với trình tìm kiếm thơng dụng khơng có thực chức gom cụm tài liệu Nhằm mục đích giúp người sử dụng dễ dàng, nhanh chóng việc khai thác kho liệu tri thức to lớn mạng thông tin, thời gian gần người ta bắt đầu nói đến khái niệm, thuật ngữ web có nhúng ngữ nghĩa (Semantic Web) Thế hệ Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên Web hứa hẹn phát triển vượt bậc hệ thống mạng toàn cầu Với hệ web “máy tính” hiểu tốt nội dung tài liệu nhờ đó, q trình tìm kiếm nhanh đạt hiệu cao Với hệ Web, q trình tìm kiếm có thực gom cụm chứng tỏ ưu so với trình tìm kiếm khơng có thực chức gom cụm Bên cạnh đó, q trình thích tài liệu, có thực thể có tên chưa thể khơng thể nhận biết cách đầy đủ nhập nhằng mặt ngữ nghĩa thân tài liệu hay trình nhận biết thích chưa hồn thiện hết chức năng, chưa bổ sung đầy đủ tất thực thể luật để nhận biết thực thể, tài liệu đem thích khơng xác Vì trình gom cụm tài liệu, ta nên xét đến đóng góp thực thể đến nội dung thân tài liệu Bằng cách cập nhật tần số xuất thực thể có tên nhận dạng hồn chỉnh với thực thể có tên chưa nhận dạng hồn chỉnh có chung thơng tin liên quan lẫn nhau, kết gom cụm tài liệu dựa theo giá trị đại lượng TF*IDF sau tính tốn có ảnh hưởng thực thể có tên chưa nhận dạng hồn chỉnh 1.2 Mục tiêu phạm vi Mục tiêu phạm vi đề tài nhằm giải toán gom cụm tập hợp tài liệu có nhúng ngữ nghĩa hay gọi cách vắn tắt chúng tài liệu chứa thực thể có tên Các tài liệu tài liệu web bình thường thích hệ sở tri thức KIM thành tài liệu chứa thực thể có tên Bài tốn đặt q trình thích, có nhập nhằng mặt ngữ nghĩa hệ thống KIM khơng thể nhận biết hồn chỉnh tất thực thể có tên xuất tài liệu Và thế, việc gom cụm miền tài liệu chứa thực thể có tên cho ta kết chưa thật tốt trình thích, ta bỏ qua thực thể biểu diễn nội dung tài liệu Đề tài giới thiệu phương pháp gom cụm tài liệu theo thực thể có tên có sử dụng số giải thuật Heuristic việc xử lý thực thể chưa nhận dạng hoàn chỉnh hệ thống KIM Đề tài chủ yếu sử dụng giải thuật K-means giải thuật thông dụng lĩnh vực gom cụm tài liệu dựa theo từ khóa có cải tiến giải thuật Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên Trả Phương thức Đặc tả void initKIMUltility Hàm tĩnh khởi tạo cho đối tượng KIMUtility, bao gồm nhiệm vụ khởi tạo ServiceKIM, khởi tạo API Corpora, khởi tạo API Semantic Annotation, khởi tạo API Semantic Repository void inspectDocumentFeature Phương thức tĩnh khảo sát thực thể có tên có KIMDocument KIMDocument createKIMDocument Phương thức tĩnh tạo KIMDocument từ hai thông số đầu vào URL - đối tượng URL tài liệu code mã hóa tài liệu KIMDocument executeKIMDocument Phương thức tĩnh thực thi KIMDocument trả KIMDocument với tất thực thể có tên rút trích void updateConstance Cập nhật số thơng số cho chương trình Bảng 5.9 : Chi tiết lớp KIMUtility 70 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên 5.3.2 Chi tiết thực gói views Tên lớp Lớp kế thừa Đặc tả ClusterView ViewPart Kế thừa từ lớp ViewPart lấy từ gói plugin mơ hình lập trình đa giao diện Eclipse Đối tượng hiển thị liệu, đối tượng phương thức truy xuất sang view khác ứng dụng ViewLabelProvider LabelProvider Cung cấp liệu để tạo chứa cụm tài liệu Các liệu danh sách cụm chứa tài liệu chứa thực thể có tên trả kết trình thực thi giải thuật gom cụm theo giải thuật K-means DocumentView ViewPart Đối tượng thực góc nhìn biểu diễn nội dung tài liệu chọn từ phân cấp cụm tài liệu MeasureView ViewPart Đối tượng thực góc nhìn đo đạc thơng số đánh giá chất lượng gom cụm theo giải thuật K-means phương pháp tính tốn Entropy nội tính tốn Entropy ngồi LogView ViewPart Hiển thị view cho phép người dùng xem thông tin chi tiết giải thuật thực thi, thơng tin q trình gom cụm Bảng 5.10 : Hiện thực số đối tượng gói View 71 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên 5.3.3 Chi tiết thực gói GUI Tên lớp Lớp kế thừa Đặc tả KIMClusterPerspective Hiện thực interface Hiện thực chế độ chạy ứng IPerspectiveInterface dụng Về bản, góc nhìn lớn chứa góc nhìn khác góc nhìn phân cụm, góc nhìn độ đo, góc nhìn thơng tin, góc nhìn tài liệu Application ApplicationWorkbench Hiện thực interface Hiện thực interface cho IApplication ứng dụng RCP WorkbenchAdvisor Hiện thực lớp cho phép nạp Advisor KIMClusterPerspective chạy ứng dụng ConfigDialog Dialog Cho phép người dùng cấu hình lại thơng tin hệ thống Bảng 5.11 : Chi tiết thực lớp ViewContentProvider 72 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên CHƯƠNG : ĐÁNH GIÁ KẾT QUẢ 6.1 Đo lường kết gom cụm tài liệu Như nói phần trước, ngồi việc đánh giá cảm tính chất lượng gom cụm tài liệu sau thực thi phương pháp gom cụm đề nghị, ta đánh giá chất lượng gom cụm dựa vào độ đo nội độ đo entropy ngoại độ đo dung hòa hai độ đo Như trình bày phần 2.2.8 phương pháp đánh giá kết gom cụm, ta đánh giá chất lượng gom cụm dựa độ đo entropy nội EC độ đo entropy lớp EL Đồng thời ta dựa vào đo tổng hợp dung hòa hai độ đo entropy nội entropy lớp Kết đánh giá chất lượng gom cụm dựa độ đo tổng hợp dung hòa hai độ đo có xu hướng trái ngược với hệ số β thay đổi khoảng (0, 1) 6.2 So sánh kết phương pháp đề nghị với phương pháp theo định danh Phương pháp gom cụm theo định danh có bảng đo chất lượng cụm tài liệu sau: k EC EL ECL 10 15 20 25 26 28 29 30 31 32 34 35 39 40 0.8799 0.8363 0.824 0.8173 0.8069 0.8067 0.8066 0.8054 0.8052 0.7961 0.7962 0.7892 0.7889 0.783 0.7819 0.5833333 0.4998 0.5166 0.5296 0.5303 0.5307 0.5335 0.5227 0.523 0.5217 0.5238 0.54 0.5394 0.5557 0.5557 0.73161667 0.66805 0.6703 0.67345 0.6686 0.6687 0.67005 0.66405 0.6641 0.6589 0.66 0.6646 0.66415 0.66935 0.6688 Tốt 0.6589 Với giá trị k 31 Bảng 6.12 : Kết đo lường trình gom cụm tài liệu theo thực thể có tên 73 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên Với: - EC độ đo entropy nội tập tài liệu sau gom cụm - EL độ đo entropy lớp tập tài liệu sau gom cụm - ECL độ đo hỗn hợp ứng với giá trị hệ số β = 0.5 ECL ( β ) = β EC + (1 − β ).E L Phương pháp gom cụm theo định danh thực thể có tên có tính tốn đến ảnh hưởng thực thể chưa nhận dạng đầy đủ có bảng kết quả: Kết đo đạc toán gom cụm tài liệu có tính tốn đến ảnh hưởng thực thể chưa nhận dạng đầy đủ đo đạc dựa tập tài liệu gồm 960 tài liệu lấy từ nguồn BBC Các kết thu trình đo đạc 300 tài liệu, 500 tài liệu toàn tài liệu khơng gian tài liệu tóm tắt sau: EC EL β 0.2 0.3 0.4 0.5 0.6 0.7 0.8 K ECL ECL ECL ECL ECL ECL ECL 0.75183 0.1672 0.2841 0.3426 0.401 0.4595 0.74424 0.2018 0.3103 0.3645 0.4188 0.73226 0.2162 0.3194 0.71785 0.2162 0.3166 0.3667 0.4169 0.518 0.5764 0.6349 0.473 0.5273 0.5815 0.6357 0.371 0.4226 0.4742 0.5258 0.5775 0.6291 0.467 0.5172 0.5674 0.6175 0.71751 0.2162 10 0.3165 0.3666 0.4167 0.4669 0.517 0.5671 0.6173 0.72522 0.1879 11 0.2954 0.3491 0.4029 0.4566 0.5103 0.564 0.6178 0.72035 0.1832 12 0.2906 0.3444 0.3981 0.4518 0.5055 0.5592 0.6129 0.72634 0.1697 15 0.281 0.3367 0.3924 0.448 0.5037 0.5593 0.615 0.71361 0.2186 16 0.3176 0.3671 0.4166 0.4661 0.5156 0.5651 0.6146 0.68741 0.1791 20 0.2807 0.3316 0.3824 0.4332 0.4841 0.5349 0.5857 0.67874 0.0845 25 0.2034 0.2628 0.3222 0.3816 0.4411 0.5005 0.5599 0.67501 0.1139 30 0.2262 0.2823 0.3384 0.3945 0.4506 0.5067 0.5628 0.67121 0.1219 35 0.2317 0.2867 0.3416 0.3965 0.4515 0.5064 0.5613 0.66858 0.1221 40 0.2314 0.2861 0.3407 0.3953 0.45 0.5046 0.5593 0.65932 0.1279 45 0.2342 0.2873 0.3405 0.3936 0.4467 0.4999 0.553 0.64607 0.2305 50 0.3137 0.3552 0.3968 0.4383 0.4799 0.5214 0.563 Bảng 6.13 : Kết đo lường trình gom cụm 300 tài liệu 74 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên Dựa theo kết đo đạc ta nhận k=25, độ đo thu ứng với giá trị beta từ 0.2 đến 0.8 có giá trị tốt Trên miền khơng gian tài liệu khảo sát chứa 500 tài liệu, vùng k=20 đến k=25 cho ta đại lượng đánh giá chất lượng gom cụm vùng khác β 0.2 0.3 0.4 0.5 0.6 0.7 0.8 K ECL ECL ECL ECL ECL ECL ECL EC EL 0.7626393 0.203271 0.315 0.371 0.427 0.483 0.539 0.595 0.651 0.7603833 0.213201 0.323 0.377 0.432 0.487 0.542 0.596 0.651 0.7548933 0.203323 0.314 0.369 0.424 0.479 0.534 0.589 0.645 0.7417147 0.205077 0.312 0.366 0.7417147 0.206925 10 0.314 0.367 0.421 0.474 0.528 0.581 0.635 0.7361878 0.198245 11 0.306 0.72935 0.42 0.473 0.527 0.581 0.634 0.36 0.413 0.467 0.521 0.575 0.629 0.200978 12 0.307 0.359 0.412 0.465 0.518 0.571 0.624 0.7222823 0.141345 15 0.258 0.316 0.374 0.432 0.49 0.548 0.606 0.7176429 0.158881 16 0.271 0.327 0.382 0.438 0.494 0.55 0.606 0.698005 0.08045 20 0.204 0.266 0.327 0.389 0.451 0.513 0.574 0.6861536 0.090492 25 0.21 0.269 0.329 0.388 0.448 0.507 0.567 0.6839515 0.090492 26 0.209 0.269 0.328 0.387 0.447 0.506 0.565 0.6766426 0.096819 27 0.213 0.271 0.329 0.387 0.445 0.503 0.561 0.6748762 0.103136 28 0.217 0.275 0.332 0.389 0.446 0.503 0.561 0.6748403 0.110962 29 0.224 0.28 0.337 0.393 0.449 0.506 0.562 0.673459 0.118429 30 0.229 0.285 0.34 0.396 0.451 0.507 0.562 0.6721713 0.119163 32 0.229 0.285 0.34 0.396 0.451 0.507 0.562 0.6708518 0.120545 35 0.231 0.286 0.341 0.396 0.451 0.506 0.561 Bảng 6.14 : Kết đo lường trình gom cụm 500 tài liệu Bảng 6.14 mô tả kết đo đạc khảo sát gom cụm tập tài liệu chứa 960 tài liệu với số quy cho phép giải thuật k-means 50 Các kết đo đạc tính tốn với đại lượng K từ 10 đến 50 75 Sinh viên: Hồ Nguyễn Chính Tâm β EC EL Đề tài: Gom cụm tài liệu theo thực thể có tên 0.2 K ECL 0.3 ECL 0.4 ECL 0.5 0.6 ECL ECL 0.7 ECL 0.8 ECL 0.723218 0.16292 10 0.275 0.331 0.387 0.443 0.499 0.555 0.611 0.716256 0.138963 11 0.254 0.312 0.37 0.428 0.485 0.543 0.601 0.710169 0.171896 12 0.28 0.333 0.387 0.441 0.495 0.549 0.603 0.701969 0.173015 15 0.279 0.332 0.385 0.437 0.49 0.543 0.596 0.694476 0.129875 16 0.243 0.299 0.356 0.412 0.469 0.525 0.582 0.68409 0.130944 20 0.242 0.297 0.352 0.408 0.463 0.518 0.573 0.671567 0.146207 25 0.251 0.304 0.356 0.409 0.461 0.514 0.566 0.670161 0.137722 26 0.244 0.297 0.351 0.404 0.457 0.51 0.564 0.667675 0.137722 27 0.244 0.297 0.35 0.403 0.456 0.509 0.562 0.661704 0.21149 28 0.302 0.347 0.392 0.437 0.482 0.527 0.572 0.660993 0.212488 29 0.302 0.347 0.392 0.437 0.482 0.526 0.571 0.660713 0.212488 30 0.302 0.347 0.392 0.437 0.481 0.526 0.571 0.661384 0.222501 32 0.31 0.354 0.398 0.442 0.486 0.53 0.574 0.659073 0.219847 35 0.308 0.352 0.396 0.439 0.483 0.527 0.571 0.655593 0.220653 40 0.308 0.351 0.395 0.438 0.482 0.525 0.569 0.659394 0.209203 45 0.299 0.344 0.389 0.434 0.479 0.524 0.569 0.214913 50 0.3 0.343 0.385 0.428 0.47 0.513 Bảng 6:15 : Bảng kết đo lường không gian 960 tài liệu 0.556 0.640705 Trong trường hợp số lượng tài liệu khảo sát 960 tài liệu, vùng k∈[26,27] có giá trị đại lượng đánh giá chất lượng gom cụm vùng khác 6.3 Đánh giá Về mặt nhận xét chung, phương pháp gom cụm theo thực thể có tên chưa tính tốn đến thực thể có tên chưa nhận dạng nên mức hỗn độn cụm thấp so với phương pháp gom cụm có tính tốn đến ảnh hưởng thực thể chưa nhận dạng đầy đủ Kết độ đo Entropy cụm phương pháp gom cụm có tính tốn cập nhật tần số cao so với phương pháp gom cụm theo thực thể nhận dạng đầy đủ Tuy nhiên mặt cảm nhận phân cụm tạo có độ tương tự tốt 76 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên Về mặt độ đo Entropy class phương pháp gom cụm theo thực thể có tên có tính toán đến ảnh hưởng thực thể chưa nhận dạng đầy đủ tốt có xáo trộn thực thể có tên cộng dồn trình cập nhật làm cho nhãn phân cụm khác nhau, với độ phân hóa sâu sắc làm cho độ đo Entropy theo lớp hỗn độn Điều có nghĩa độ đo Entropy class có kết tốt so với phương án gom cụm thực thể có nhận dạng định danh Hình 6.38 : Hình ảnh phân cụm tạo sử dụng chương trình KIMCluster 77 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên CHƯƠNG : KẾT LUẬN Như phân tích phần trên, q trình tìm kiếm tích hợp với việc gom cụm tài liệu kết trả từ trình tìm kiếm thơng dụng hứa hẹn giải pháp giúp tăng độ hiệu nhanh chóng tiến trình tìm kiếm thơng tin Đứng trước kỷ nguyên xuất hệ web có nhúng ngữ nghĩa tài liệu web này, việc làm cho máy tính hiểu nội dung tài liệu đề cập hồn tồn thực tương lai gần Trong điều kiện đó, việc tìm kiếm thơng tin dựa theo thực thể có tên hứa hẹn cung cấp cho người dùng dịch vụ tìm kiếm nhanh chóng hiệu “tìm người dùng yêu cầu” Hạn chế q trình tìm kiếm khơng có thực gom cụm tài liệu kết trả hiển thị theo độ đo định Với thực tìm kiếm thơng tin có nhúng thêm chức gom cụm tài liệu hứa hẹn cải tiến đáng kể cho trình tìm kiếm Việc gom cụm tài liệu theo thực có tên trường hợp trình thích tự động chưa hồn thiện, chưa có nhận biết tất nhập nhằng ngơn ngữ có, việc gom cụm theo thực thể có tên có tính tốn đến ảnh hưởng thực thể chưa nhận dạng đầy đủ q trình thích trình thích tự động cho phép ta khơng bỏ qua ảnh hưởng thực thể nhận dạng chưa đầy đủ Các thực thể đóng góp phần giá trị q trình diễn đạt nội dung tài liệu Và thế, tần số xuất chúng nên tính tốn đến q trình tính tốn tần số xuất thực thể có tên nhận dạng hồn chỉnh Kết gom cụm theo thực thể có tên kết hợp với việc thực chức tự động cập nhật lại trọng số thực thể có tên đầy đủ với thực thể có tên chưa nhận dạng cách hồn chỉnh cho phép kết gom cụm khơng bỏ sót thực thể chưa nhận dạng cách xác Một cách nhìn xa hơn, ta cập nhật tần số xuất thực thể đầy đủ đối tượng ta nhận dạng mà trình nhận dạng tự động khơng thể nhận dạng Q trình thực đơn giản cách tìm kiếm dạng từ thực thể nhận biết tài liệu chia tần số xuất chúng cho thực thể có tên nhận biết hồn chỉnh trình thích Ứng dụng KIM Cluster thực tính tốn tần số xuất thực thể có tên cập nhật giá trị tần 78 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên số với tần số xuất thực thể có tên chưa nhận dạng hồn chỉnh hệ thống KIM Với việc xây dựng vector giá trị TF*IDF theo định danh thực thể có tên sau cập nhật tần số thực thể thực thể có tên chưa nhận dạng hồn chỉnh có liên quan với giải pháp chia tần số chúng, ta thu kết gom cụm khác so với phương pháp xây dựng vector TF*IDF theo định danh thực thể có tên nhận dạng đầy đủ Hơn ta dễ dàng mở rộng ứng dụng KIMCluster cách thay đổi trình, trình tự gom cụm tài liệu Bằng cách gom cụm đơn theo lớp đối tượng thực thể có tên, sau áp dụng giải thuật gom cụm dựa theo định danh thực thể có tên có tính tốn tần số thực thể có tên khơng nhận dạng đầy đủ, ta thu kết gom cụm bên gom cụm lớn bên ngồi theo nhóm lớp đối tượng Bài tốn cịn để mở viết tốn xây dựng nhãn cho tài liệu cụm tài liệu từ vector giá trị đại lượng TF*IDF Việc xây dựng nhãn giúp người dùng nhận xét cách trực quan, thân thiện việc hiển thị cho người dùng, cho phép người dùng tìm kiếm kết trả cách nhanh chóng cách dựa vào nhãn Giải thuật tạo nhãn đơn giản hệ thống KIMCluster kết hợp thực thể có tên có trị TF*IDF cao tài liệu cụm tài liệu Ta hồn tồn tạo nhãn cách thông minh giải thuật khác phức tạp Một dẫn chứng cho lợi ích việc tạo nhãn trang web Vivisimo Người sáng lập Vivisimo đưa phương thức tạo nhãn cho tài liệu tốt, phản ánh gần với nội dung tài liệu cần tìm kiếm 79 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên TÀI LIỆU THAM KHẢO [1] Ontology-based Text Document Clustering Andreas Hotho and Alexander Maedche and Steffen Staab Institute AIFB, University of Karlsruhe, 76128 Karlsruhe, Germany {aho, ama, sst}@aifb.uni-karlsruhe.de http://www.aifb.uni-karlsruhe.de/WBS [2] KIMPlatform - An overview, Copyright 2002-2006 Ontotext Lab, Sirma Group Corp [3] A tolerance rough set approach to clustering web search results Ngo Lang Chi, Warsaw University, Falcuty of mathematics, Informatics and Mechanics Index: 181191 [4] G Bisson Why and how to define a similarity measure for object based representation systems, 1995 [5] Ontology-based Text Document Clustering - Andreas Hotho and Alexander Maedche and Steffen Staab Institute AIFB, University of Karlsruhe, 76128 Karlsruhe, Germany [6] Graph-based clustering Approaches for Semantic Network, Author Q.Li, Dec 2003 [7] Text Clustering using Sematics, Bhoopesh Choudhary, CSE Department, Indian Institute of Technology, Bombay India [8] Conceptual Clustering of Text Clusters Andreas Hotho, Gerd Stumme Institute of Applied Informatics and Formal Description Methods AIFB, University of Karlsruhe, D-7618 Karlsruhe, Germany; http://www.aifb.uni-karlsruhe.de/WBS [9] LRD:Latent Relation Discovery for Vector Space Expansion and Information Retrieval, Alexandre Goncalves, Jianhan Zhu, Dawei Song, Victoria Uren, Robeerto Pacheco Technical report KMI-06-09, March, 2006 80 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên [10] Clustering Ontology-based Metadata in the Semantic Web Alexandre Maedche and Valentin Zacharias FZI Research Center for Information Technologies at University of Karlsruhe, Research Group WIM, Karlsruhe, Germany [11] On Quantitative Evaluation of Clustering Systems , Ji He, Ah-Hwee Tan, Chew Lim Tan , Sam-Yuan Sung School of Computing, National University of Singapore Science Drive 2, Singapore 117543 E-mail: {heji,tancl,ssung}@comp.nus.edu.sg Laboratories for Information Technology 21 Heng Mui Keng Terrace, Singapore 119613 E-mail: ahhwee@lit.org.sg [12] Khaled M Hammouda (2001) Web Mining: Clustering Web Documents A Preliminary Review [13] Michael Steinbach, George Karypis, Virpin Kumar A Comparison Of Document Clustering Techniques [14] Trang chủ KIM http://www.ontotext.com/kim [15] Trang chủ trình tìm kiếm Vivisimo http://www.vivisimo.com [16] Trang chủ tìm kiếm Clusty http://www.clusty.com [16] Trang chủ Carrot2 Framework http://www.carrot.org [17] Wikipedia http://en.wikipedia.org/wiki/Data_clustering 81 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên PHỤ LỤC Giải thuật k-means /** * @throws ClassNotFoundException * */ public void startAnalysis() throws ClassNotFoundException { // Count term frequency, document frequency (TF & DF) mLogger.info("Start analisys"); boolean isAnalize = true; try { setInitialCentroids(); } catch (IOException e) { isAnalize = false; e.printStackTrace(); } if (!isAnalize) { return ; } // Calculate TF*IDF of for all documents calculateTFIDFForWebPages(); // Choose arbitrarily k clusters isAnalize = chooseInitialClusters(); // Repeat until no changes or changes are small int i = m_nCluster; while (i < mMapPages.size()) { // Assign document to closest cluster String sURL = mPageSet.get(i); //IWebPage pDoc = (IWebPage)m_DataPoints.get(i); IWebPage pDoc = mMapPages.get(sURL); double temp = 0.0; int pos = 0; for (int k=0 ; k temp) { // Distance from current document to cluster is smaller than before pos = k; temp = dbCurr; } } // Add document to closest cluster and recalculate cluster representative m_arrClusters[pos].addWebPage(pDoc); i++; } mLogger.info("Start re-arranging"); doArrange(); mLogger.info("End analisys"); } 82 Sinh viên: Hồ Nguyễn Chính Tâm Đề tài: Gom cụm tài liệu theo thực thể có tên Giải thuật tạo nhãn tài liệu: public String createLabel() { mLabelString = ""; mFullLabel = ""; Iterator iterator = mLabelSet.iterator(); int i = 0; while (iterator.hasNext()) { KeyEntity keyEntity = iterator.next(); if (i