Gom cụm tài liệu theo thực thể có tên kết hợp từ khóa

66 8 0
Gom cụm tài liệu theo thực thể có tên kết hợp từ khóa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Trước tiên, tơi xin kính gửi lịng biết ơn sâu sắc đến Thầy PGS.TS Cao Hồng Trụ Thầy tận tình hướng dẫn tơi suốt thời gian thực luận án Thầy ñã ñịnh hướng cho tơi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, cơng việc cụ thể Tôi xin chân thành cảm ơn Thầy Cô Khoa Khoa học Kỹ thuật máy tính truyền ñạt cho kiến thức khoa học quý báu suốt khóa học Cảm ơn bạn học viên cao học Khoa học máy tính khóa 2006, anh chị đồng nghiệp Khoa Cơng Nghệ Thơng Tin trường ðại học Tơn ðức Thắng động viên, giúp đỡ tơi thời gian thực luận án Con xin cảm ơn Ba Mẹ gia đình ni nấng dạy dỗ cho có ngày hơm Tp.HCM, ngày 07 tháng 10 năm 2008 Dương Thị Thùy Vân Trang TĨM TẮT Các hệ thống xử lý thơng tin cổ điển thường dựa từ khóa Q trình xử lý dựa vào xuất từ văn cách so trùng chuỗi Sự nhập nhằng nghĩa ngữ cảnh khác đa nghĩa ngơn ngữ tự nhiên hạn chế xử lý thơng tin theo từ khóa ðể giải hạn chế trên, chúng tơi đề xuất khai thác ngữ nghĩa văn thơng qua thực thể có tên mối quan hệ chúng Luận án giới thiệu khảo sát số mơ hình gom cụm tài liệu kết hợp thực thể có tên từ khóa Các mơ hình đề xuất dựa mơ hình khơng gian vectơ truyền thống Trong đó, khơng gian từ khóa mở rộng thành khơng gian đặc trưng thực thể có tên, cụ thể tên, lớp danh hiệu Trong mơ hình gom cụm tài liệu này, chúng tơi sử dụng khoảng cách vectơ biểu diễn tài liệu ñể ño ñộ tương tự tài liệu Kết thực nghiệm cho thấy gom cụm tập liệu có nhiều thực thể có tên chất lượng gom cụm mơ hình đề xuất tốt mơ hình gom cụm tài liệu theo từ khóa Hơn nữa, chất lượng gom cụm mơ hình khơng bị ảnh hưởng tập liệu có chí khơng có thực thể có tên, hay ontology sở tri thức chưa đầy đủ ðiều giải thích nhờ kết hợp với từ khóa mơ hình chứng minh kết thực nghiệm Như vậy, chúng tơi xem ñây kết ñể tiếp tục phát triển nhằm nâng cao chất lượng gom cụm tài liệu Trang ABSTRACT Traditional information processing systems are based on keyword This process only relies on the appearance of words in the document by string matching The ambiguousness of the meaning in different context and the multi-meaning of natural language are limitation of information processing on keyword To solve this problem, we propose that we should exploit semantic of document through named entities and the relationships among them This thesis introduces and surveys some document clustering models combining named entities and keywords Those models are based on traditional vector space model Specially, the space of keyword are expanded to space of name entity feature, includes names, classes, and identifiers In those models, we also use distance between vectors presenting documents to measure the similarity between documents The experimental results show that when clustering on datasets with many named entities, clustering quality of suggested models is higher than keyword-based document clustering model Moreover, clustering quality of these models is not affected when datasets have few or even not named entities, or when ontology and knowledge base are not sufficient This can be explained by the combination with keywords in models and was demonstrated by the experimental results Therefore, we can consider that a good result to continue developing and increasing the quality of document clustering Trang MỤC LỤC LỜI CẢM ƠN TÓM TẮT .2 ABSTRACT MỤC LỤC DANH MỤC HÌNH DANH MỤC BẢNG BIỂU Chương 1: TỔNG QUAN 1.1 Phát biểu vấn ñề .8 1.2 Các cơng trình liên quan 12 1.3 Cơ sở lý thuyết 13 1.3.1 Tổng quan toán gom cụm 14 1.3.2 Mơ hình khơng gian vectơ .16 1.3.3 Phương pháp ñánh giá chất lượng kết gom cụm .18 Chương 2: GOM CỤM TÀI LIỆU THEO THỰC THỂ CÓ TÊN VÀ TỪ KHÓA .23 2.1 Gom cụm tài liệu theo từ khóa .23 2.2 Gom cụm tài liệu theo thực thể có tên .24 2.3 Gom cụm tài liệu theo thực thể có tên từ khóa 27 2.3.1 Mơ hình kết hợp chồng lấp liệu (VSM_OVL) 29 2.3.2 Mơ hình kết hợp không chồng lấp liệu (VSM_NOVL) 30 2.4 Kiến trúc hệ thống gom cụm tài liệu theo thực thể có tên từ khóa .33 Trang Chương 3: THIẾT KẾ VÀ HIỆN THỰC HỆ THỐNG .35 3.1 Phân tích, thiết kế hệ thống 35 3.2 Hiện thực hệ thống 36 3.3 Thiết lập tập liệu kiểm thử 43 Chương 4: THỰC NGHIỆM VÀ ðÁNH GIÁ 46 4.1 ðánh giá chất lượng kết gom cụm tài liệu 46 4.2 Thực nghiệm kết 49 4.2.1 Phương pháp thực nghiệm .50 4.2.2 Kết thực nghiệm 50 Chương 5: TỔNG KẾT 56 5.1 ðóng góp luận án 57 5.2 Hướng phát triển 57 Phụ lục A: PHÂN TÍCH TẬP REUTERS21578 .59 A.1 ðịnh dạng .59 A.2 Các tag bên tài liệu 60 A.3 Phân loại tài liệu 62 TÀI LIỆU THAM KHẢO 65 Trang DANH MỤC HÌNH Hình 1-1: Kết minh họa hệ thống Vivisimo [7] 12 Hình 1-2: Minh họa kết gom cụm theo NE [7] 14 Hình 1-3: Gom cụm mẫu liệu [1] 15 Hình 1-4: Các giai đoạn tốn gom cụm [1] 15 Hình 1-5: ðộ ño VI ñộ ño liên quan 21 Hình 2-1: Kiến trúc hệ thống gom cụm tài liệu theo NE từ khóa 34 Hình 3-1: Q trình xây dựng hệ thống gom cụm theo thực thể có tên từ khóa 37 Hình 3-2: Thơng tin Node file xml 39 Hình 3-3: Cấu trúc thẻ tài liệu 45 Hình 4-1: Quá trình đánh giá chất lượng kết gom cụm 46 Hình 4-2: Quá trình thực nghiệm 50 Hình 4-3: Biểu ñồ VI Ecl theo trọng số α kết hợp lớp NE từ khóa 51 Hình 4-4: Biểu ñồ VI Ecl theo số cụm k 52 Hình 4-5: Biểu đồ VI ứng với hai mơ hình VSM_OVL, VSM_NOVL 53 Hình 4-6: Biểu đồ VI Ecl theo trọng số α kết hợp tên NE từ khóa 54 Hình 4-7: Biểu đồ VI Ecl theo trọng số α kết hợp ID NE từ khóa 55 Trang DANH MỤC BẢNG BIỂU Bảng 3-1 : Các API Lucene module ñánh mục 38 Bảng 3-2 : Các lớp, phương thức thực module tính tốn vectơ theo NE 40 Bảng 3-3 : Các lớp, phương thức thực module gom cụm tài liệu 42 Bảng 3-4 : Các lớp, phương thức module ñánh giá chất lượng gom cụm 43 Bảng 4-1 : Các giá trị VI Ecl theo trọng số α kết hợp lớp NE từ khóa 51 Bảng 4-2 : Các giá trị VI Ecl theo số cụm k 52 Bảng 4-3 : Các giá trị VI ứng với hai mơ hình VSM_OVL, VSM_NOVL 52 Bảng 4-4 : Các giá trị VI Ecl theo trọng số α kết hợp tên NE từ khóa 54 Bảng 4-5 : Các giá trị VI Ecl theo trọng số α kết hợp ID NE từ khóa 55 Trang Chương TỔNG QUAN 1.1 Phát biểu vấn ñề Trong thời ñại công nghệ thông tin nay, nhu cầu khai thác thông tin cách hiệu thật cần thiết Một cách giúp cho người dùng nhận tài liệu họ cần tìm nhanh chóng phân loại tài liệu thành nhiều nhóm theo chủ đề khác Việc gom cụm tài liệu thành nhóm có tính chất gần giống hứa hẹn cho người dùng có nhìn tổng quan tập liệu Vấn ñề ñặt làm ñể tài liệu cụm giống nhiều tài liệu cụm khác “xa nhau” tốt ðiều muốn nói cần phải có mơ hình đo độ tương tự hai tài liệu hiệu Như ñã biết, ngữ nghĩa văn ngơn ngữ tự nhiên ñược thể thông qua từ xuất văn Tuy nhiên, đa nghĩa từ làm cho ngữ nghĩa văn khơng mơ tả trọn vẹn Do đó, để ngữ nghĩa văn ñược thể ñầy ñủ, cần xem xét thực thể có tên xuất văn mối quan hệ chúng Các hệ thống gom cụm tài liệu truyền thống chủ yếu quan tâm đến từ khóa, nghĩa dựa từ khóa để đo độ tương tự tài liệu Lúc tài liệu ñược xem tập từ nên nhiều ngữ nghĩa tài liệu bị từ hay nhóm từ có ý nghĩa từ vựng mơ hồ, từ đồng nghĩa Do đó, khơng có lạ vài tài liệu cụm khơng liên quan ñến chủ ñề cụm Từ hạn chế mô hình gom cụm tài liệu theo từ khóa, [2] nghiên cứu đề xuất mơ hình gom cụm tài liệu theo thực thể có tên Thực thể có tên (Named Entity – NE) ñối tượng ñược tham khảo thông qua tên tổ chức, nơi chốn, người Một thực thể có tên biểu diễn ba Trang Trong đó, danh hiệu xác định thực thể có tên Các thực thể có tên khác có tên lớp Ví dụ hai thực thể “đường Trần Hưng ðạo” “ơng Trần Hưng ðạo” có tên, hay thực thể “ñường Trần Hưng ðạo Tp.HCM” “ñường Trần Hưng ðạo ðà Nẵng” hai thực thể khác có tên lớp Như biết, thực thể có tên nói cá thể nên việc xử lý chúng cần ñến tri thức cụ thể giới ñang xét Vấn ñề ñặt nhận diện ñược thực thể có tên văn ðiều ñã thu hút nhiều nỗ lực nghiên cứu ñã ñạt ñược số thành tựu Thành tựu việc nhận diện NE ñã tạo ñiều kiện sở cho nghiên cứu khai thác ngữ nghĩa thực thể có tên Tóm lại, nhiều trường hợp, thực thể có tên mối quan hệ chúng tập tài liệu có nhúng ngữ nghĩa tạo thành ngữ nghĩa cho tài liệu Một ví dụ đơn giản cho thấy việc sử dụng thực thể có tên mối quan hệ chúng giúp q trình gom cụm đạt hiệu truy vấn thơng tin “chủ tịch Hồ Chí Minh” ðối với hệ thống gom cụm theo từ khóa tài liệu thành phố Hồ Chí Minh, đường Hồ Chí Minh, … gom vào cụm, thơng tin nhiễu cụm Trong đó, hệ thống gom cụm dựa thực thể có tên xem ñây thực thể khác nên loại bỏ thơng tin nhiễu, nữa, hệ thống cịn gom tài liệu Nguyễn Ái Quốc, Bác Hồ vào cụm, tên khác chủ tịch Hồ Chí Minh Tuy nhiên trường hợp, tập thực thể có tên tài liệu đại diện mặt ngữ nghĩa cho tài liệu ðặc biệt tài liệu chứa nhiều từ khóa nói trừu tượng khái niệm, ñịnh nghĩa, mối quan hệ, thuộc tính, … Ngồi ra, ontology sở tri thức khơng đầy đủ, thực thể có tên tài liệu khơng nhận dạng xác, lúc cần phải có hỗ trợ tập từ khóa để bổ sung phần ngữ nghĩa chưa thể tập thực thể Tóm lại, ngữ nghĩa văn ñược thể trọn vẹn đầy đủ xem xét từ khóa thực thể có tên xuất văn Như phân tích trên, mơ hình gom cụm tài liệu theo từ khóa mơ hình gom cụm tài liệu theo thực thể có tên có hạn chế riêng Do Trang 10 đó, chúng tơi đề xuất mơ hình gom cụm tài liệu theo thực thể có tên kết hợp từ khóa Trong q trình gom cụm tài liệu (xem phần 1.3.1), giai ñoạn ñầu tiên chọn ñặc ñiểm ñối tượng cần gom cụm Giai ñoạn nhận ñặc ñiểm bật ñối tượng ñể dùng giai ñoạn ño ñộ tương tự cặp ñối tượng Khi gom cụm hình ảnh, [3] chọn đặc điểm màu sắc hình dạng để đo khoảng cách đối tượng ảnh Tác giả chọn hai ñặc ñiểm với lý chúng giống ñối tượng ảnh tương ứng giống Sau ñó tác giả dựa khoảng cách cosine ñể ñưa phương pháp ño ñộ tương tự màu sắc hình dạng Cuối tác giả kết hợp hai độ tương tự để có độ tương tự hai ñối tượng hình ảnh ðối với ñối tượng gom cụm tài liệu phân tích trên, ngữ nghĩa văn thể thơng qua từ thực thể có tên Do đó, xem từ khóa thực thể có tên hai ñặc ñiểm tài liệu Mỗi tài liệu ñược biểu diễn vectơ khơng gian từ khóa (xem phần 1.3.2) vectơ không gian đặc trưng thực thể có tên (tên, lớp, tên-lớp, danh hiệu) [9] Dùng khoảng cách cosine ño khoảng cách cặp vectơ tương ứng ñể có độ tương tự hai tài liệu theo phương diện từ khóa phương diện thực thể có tên ðộ tương tự hai tài liệu ñược xác ñịnh cách kết hợp hai ñộ tương tự thành phần Tuy nhiên, hai đặc điểm màu sắc hình dạng hình ảnh tách biệt cịn hai ñặc ñiểm từ khóa thực thể có tên tài liệu khơng độc lập nhau, nghĩa thuật ngữ xem từ khóa xem thành phần thực thể có tên Sự khơng độc lập hai ñặc ñiểm tài liệu phát sinh vấn đề chồng lấp hay khơng chồng lấp q trình xác định vectơ tài liệu Nghĩa xác định thuật ngữ thành phần thành phần thực thể có tên sau có xem từ khóa hay khơng Ví dụ, thuật ngữ “thành phố” tài liệu xem lớp thực thể có tên, xác ñịnh vectơ tài liệu từ khóa có xem “thành phố” Trang 52 khảo sát giá trị k cho kết gom cụm tốt nhất, tiến hành thực nghiệm với k tăng từ ñến 10, α = 0.9 Kết thực nghiệm (bảng 4-2) cho thấy ñạt giá trị tối ưu k = mong ñợi (bằng số cụm phân hoạch C*) Hình 4-4 biểu đồ minh họa kết thực nghiệm ðộ ño k=2 10 VI 1.56 1.15 0.95 1.17 1.44 1.57 1.76 1.85 1.88 Ecl 0.78 0.58 0.47 0.59 0.72 0.79 0.88 0.92 0.94 Bảng 4-2: Các giá trị VI Ecl theo số cụm k Class + Keyword 1.5 VI Ecl 0.5 10 Number of clusters (k) Hình 4-4: Biểu đồ VI Ecl theo số cụm k Chúng tiến hành thực nghiệm ñể so sánh chất lượng gom cụm hai mô hình đề xuất, VSM_OVL VSM_NOVL Ở đây, chúng tơi dùng ñộ ño VI ñể ñánh giá Bảng 4-3 kết thực nghiệm hình 4-5 biểu đồ minh họa kết Mơ hình α=0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 VSM_OVL 2.14 1.63 1.39 1.21 1.20 1.15 1.15 1.14 0.96 0.94 1.31 VSM_NOVL 2.27 1.67 1.44 1.24 1.16 1.15 1.14 1.15 1.16 0.94 1.31 Bảng 4-3: Các giá trị VI ứng với hai mơ hình VSM_OVL VSM_NOVL Trang 53 n=500 k=4 2.5 1.5 0.5 VI VSM_OVL VSM_NOVL 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Weight_Class Hình 4-5: Biểu đồ VI ứng với hai mơ hình VSM_OVL VSM_NOVL Với kết thực nghiệm trên, chúng tơi thấy hai mơ hình cho kết gần tốt α = 0.9 Thật vậy, khác hai mơ hình thể khác simK Kết thực nghiệm cho thấy việc xem thuật ngữ có từ khóa hay khơng sau xem đặc trưng thực thể có tên khơng làm thay đổi simK nhiều làm tăng hay giảm simK hầu hết cặp tài liệu với mức thay ñổi gần ðó tập liệu kiểm thử ñược chọn tập 500 tài liệu thuộc lớp, chủ ñề tài liệu tổ chức, nơi chốn, người hay nói khác thực thể có tên Mà xét theo từ khóa từ worldbank, opec hoàn toàn khác xét theo thực thể có tên chúng lớp tổ chức (ORGS) Do đó, tập liệu chứa nhiều NE gom cụm theo thực thể có tên cho kết tốt theo từ khóa ðiều ñược chứng minh thực nghiệm kết gom cụm tốt α gần Và tập liệu có chủ đề thực thể có tên nên simK khơng đóng góp nhiều vào việc ño ñộ tương tự hai tài liệu, dẫn đến hai mơ hình cho kết gần Thực nghiệm gom cụm tài liệu theo tên thực thể kết hợp từ khóa Trong thực nghiệm này, chúng tơi chọn tập liệu kiểm thử đánh giá chất lượng gom cụm tài liệu theo tên gồm 500 tài liệu 24 cụm tạo trình bày Trang 54 phần 3.3 Tương tự trên, chọn k = 24 nhãn tài liệu ñược lấy từ phân hoạch C* Kết thực nghiệm thể bảng 4-4 hình 46 biểu ñồ minh họa kết ðộ ño α=0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 VI 3.49 3.29 3.19 2.99 2.89 3.17 2.81 2.77 3.24 3.24 2.66 Ecl 1.74 1.65 1.59 1.5 1.44 1.58 1.4 1.39 1.62 1.62 1.33 Bảng 4-4: Các giá trị VI Ecl theo trọng số α kết hợp tên NE từ khóa Thơng qua kết thực nghiệm, thấy chất lượng gom cụm tài liệu khơng khác nhiều mơ hình gom cụm theo tên NE (α = 1) mô hình gom cụm theo từ khóa (α = 0) Thật vậy, khai thác theo tên NE có ưu ñiểm có nhiều NE tài liệu có tên khác (alias), khơng phải đặc điểm tập liệu kiểm thử thực nghiệm Hơn nữa, tên NE thực chất chuỗi ký tự từ khóa n=500 k=24 VI Ecl 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Weight_Name Hình 4-6: Biểu đồ VI Ecl theo trọng số α kết hợp tên NE từ khóa Thực nghiệm gom cụm tài liệu theo danh hiệu thực thể kết hợp từ khóa Ở đây, chúng tơi chọn tập liệu kiểm thử gồm 500 tài liệu 24 cụm Với k = 24 nhãn tài liệu lấy từ phân hoạch C*, chúng tơi có Trang 55 kết thực nghiệm bảng 4-5 Hình 4-7 minh họa kết thực nghiệm biểu ñồ Cũng giống gom cụm theo tên NE, gom cụm theo danh hiệu NE khơng phát huy ưu điểm khơng có nhiều NE có tên khác tập liệu kiểm thử Hay nói khác hơn, thực nghiệm này, gom cụm theo danh hiệu NE không tốt nhiều so với gom cụm theo từ khóa ðộ đo α=0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 VI 3.49 3.31 3.05 2.94 2.87 2.97 3.03 3.03 3.2 3.21 2.9 OE 1.74 1.66 1.53 1.47 1.43 1.49 1.52 1.52 1.6 1.61 1.45 Bảng 4-5: Các giá trị VI Ecl theo trọng số α kết hợp ID NE từ khóa Tóm lại, dựa vào kết thực nghiệm trên, chúng tơi thấy mơ hình gom cụm tài liệu theo lớp thực thể kết hợp từ khóa cho kết tốt nhiều so với mơ hình gom cụm theo từ khóa túy Trong đó, mơ hình gom cụm theo tên thực thể kết hợp từ khóa mơ hình gom cụm theo danh hiệu thực thể kết hợp từ khóa cho kết tốt khơng đáng kể so với mơ hình gom cụm theo từ khóa ðiều hợp lý đặc trưng thực thể có tên lớp thành phần đặc trưng nhất, thể rõ vai trị thực thể có tên, điều mà từ khóa khơng thể có Cịn tên NE thực chất từ khóa làm việc thực thể có tên Do đó, tên danh hiệu NE phát huy tác dụng có nhiều NE có tên khác (alias) tập tài liệu ñược chọn ñưa vào hệ thống gom cụm n=500 k=24 VI Ecl 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Weight_Id Hình 4-7: Biểu đồ VI Ecl theo trọng số α kết hợp ID NE từ khóa Trang 56 Chương TỔNG KẾT Như trình bày chương 1, mục tiêu ñặt ñề tài nghiên cứu mơ hình gom cụm tài liệu kết hợp thực thể có tên từ khóa Với mục tiêu này, luận án ñã ñạt ñược số kết định, cụ thể sau: − Tìm hiểu mơ hình xử lý thơng tin theo từ khóa khảo sát hạn chế từ khóa việc thể ngữ nghĩa văn Từ kết khảo sát, nhận phần ngữ nghĩa văn bị bỏ qua thực thể có tên văn ðặc biệt số trường hợp, thực thể có tên mối quan hệ chúng thể ngữ nghĩa văn − Khảo sát nghiên cứu mơ hình gom cụm tài liệu theo thực thể có tên Mơ hình thừa kế mơ hình khơng gian vectơ cổ điển với khơng gian từ khóa thay bốn khơng gian tương ứng với bốn đặc trưng thực thể có tên, gồm tên, lớp, tên-lớp danh hiệu Trong trình nghiên cứu, chúng tơi nhận ngữ nghĩa văn thể trọn vẹn có ñóng góp thực thể có tên từ khóa − Cải tiến mơ hình gom cụm tài liệu theo thực thể có tên cách kết hợp với từ khóa Nghiên cứu mơ hình kết hợp thực thể có tên từ khóa, đề xuất hai mơ hình ứng với hai quan điểm chồng lấp liệu khơng chồng lấp liệu việc tính tốn vectơ biểu diễn tài liệu − Hiện thực ứng dụng gom cụm tài liệu theo mơ hình khảo sát dựa vào hỗ trợ thích ngữ nghĩa tài liệu KIM ñánh mục tài liệu Lucene Ứng dụng ñược sử dụng q trình thực nghiệm nhằm kiểm chứng mơ hình − Tìm hiểu phương pháp đánh giá chất lượng kết gom cụm tài liệu chọn ñược hai phương pháp đánh giá thích hợp ðó phương pháp Trang 57 ñánh giá dựa vào ñộ ño Entropy phương pháp ñánh giá dựa vào so sánh phân hoạch − Khảo sát tập liệu kiểm thử cho hệ thống gom cụm tài liệu Tập liệu Reuters21578 xem thích hợp ñược chọn ñể xây dựng tập liệu kiểm thử cho hệ thống − Thực nghiệm tập liệu kiểm thử Reuters21578 ðánh giá kết thực nghiệm theo ñộ ño Entropy VI, ñưa nhận xét kết luận mơ hình giới thiệu 5.1 ðóng góp luận án Luận án phát triển mơ hình gom cụm tài liệu theo từ khóa cách khai thác ñặc trưng thực thể có tên, cụ thể tên, lớp danh hiệu Thực nghiệm cho thấy gom cụm tập liệu có nhiều NE chất lượng gom cụm mơ hình kết hợp tốt mơ hình gom cụm tài liệu theo từ khóa Bên cạnh đó, nhờ việc kết hợp với từ khóa nên chất lượng mơ hình khơng bị ảnh hưởng ontology KB chưa hoàn thiện hay gom cụm tập liệu có NE ðiều chứng tỏ việc kết hợp thực thể có tên từ khóa khơng khắc phục hạn chế mơ hình riêng rẽ mà cịn tận dụng ưu điểm mơ hình Như vậy, với việc khảo sát phân tích mặt lý thuyết, kết khả quan mặt thực nghiệm, chúng tơi kết luận tính đắn mơ hình đề xuất, từ tiếp tục nghiên cứu phát triển Tóm lại, luận án này, chúng tơi giải ba vấn đề ðó đưa mơ hình gom cụm tài liệu theo thực thể có tên từ khóa, xây dựng tập liệu kiểm thử dựa tập liệu Reuters21578 đề xuất q trình đánh giá chất lượng kết gom cụm hình 4-1 5.2 Hướng phát triển Hướng phát triển cải tiến mơ hình gom cụm thành mơ hình gom cụm theo đa nhóm, nghĩa tài liệu thuộc nhiều nhóm Thật vậy, Trang 58 thực tế có tài liệu đồng thời đề cập đến nhiều vấn đề Ví dụ tài liệu nói người tiếng Mỹ, tài liệu vừa thuộc lớp người vừa thuộc lớp nơi chốn Do ñó, tài liệu phải ñược xuất nhóm ứng với lớp người nhóm ứng với lớp nơi chốn ðây hướng tiếp cận mà tiếp tục phát triển Một thuận lợi ñể phát triển theo hướng tập liệu Reuters21578 có nhiều tài liệu thuộc đa nhóm Ngồi hướng phát triển trên, cịn có số hướng phát triển cho hệ thống gom cụm tài liệu mà hệ thống xử lý thơng tin khác khai thác, là: − Mối quan hệ đồng nghĩa từ khóa − Mối quan hệ thực thể có tên, ñặc biệt mối quan hệ tiềm ẩn NE có quan hệ gần gũi với NE gốc tài liệu − Vị trí xuất từ khóa NE tài liệu, ví dụ xuất tiêu đề quan trọng xuất nội dung Do cần phải đánh trọng số cho từ khóa, NE theo vị trí xuất chúng tài liệu − Khơng có tiếng Anh mà cần phát triển cho nhiều ngôn ngữ khác Trang 59 Phụ lục A PHÂN TÍCH TẬP REUTERS21578 Reuters21578 tập mẫu tin chủ ñề kinh tế liên quan ñến quốc gia, tổ chức lớn nhân vật tiếng giới Thông tin tập liệu Reuters21578 tìm thấy file README.txt chứa tập Dưới đây, chúng tơi trình bày số thông tin tập Reuters21578 A.1 ðịnh dạng Tập Reuters21578 ñược tổ chức thành 22 file Mỗi file 21 file ñầu (từ reut2-000.sgm ñến reut2-020.sgm) chứa 1000 tài liệu, file cuối (reut2-021.sgm) chứa 578 tài liệu Mỗi tài liệu ứng với mẫu tin Tất file có định dạng SGML Ở chúng tơi khơng trình bày chi tiết ngôn ngữ SGML mà mô tả thẻ (tag) SGML ñược sử dụng ñể chia file thành tài liệu Tag REUTERS Mỗi tài liệu bắt đầu với tag mở có dạng: ?? ñược ñiền vào giá trị thích hợp Mỗi tài liệu kết thúc với thẻ đóng có dạng: Tag tag ñều ñược dịng Mỗi tag REUTERS chứa năm thuộc tính, TOPICS, LEWISSPLIT, CGISPLIT, OLDID NEWID Các thuộc tính để nhận dạng tài liệu nhóm tài liệu Trong đó, TOPICS cho biết tài liệu có ñược phân loại theo chủ ñề hay không Trang 60 LEWISSPLIT cho biết tài liệu thuộc nhóm tài liệu TRAINING, TEST hay NOT-USED OLDID số nhận dạng (identification number - ID) tài liệu tập Reuters-22173 NEWID số nhận dạng tài liệu tập Reuters21578 Những ID ñược gán cho tài liệu theo thứ tự thời gian A.2 Các tag bên tài liệu Tag ñể phân ranh giới các tài liệu file sgm Các thành phần tài liệu ñược xác định thơng qua tag trình bày ñây Tag DATE Cho biết ngày tài liệu Ví dụ: 26-FEB-1987 15:02:20.00 Tag TOPICS Cho biết tài liệu thuộc danh sách chủ ñề nào, thường chủ ñề kinh tế cà phê, gạo, ngũ cốc, thu nhập, lãi suất …Mỗi chủ ñề ñược ñặt tag Ví dụ: cocoawheatincome Tag PLACES Cho biết tài liệu ñề cập ñến nơi chốn nào, thường quốc gia giới Ví dụ: usabrazil Tag PEOPLE Cho biết tài liệu ñề cập ñến người nào, thường nhân vật tiếng giới tổng thống Nam Phi P.W.Botha, trưởng tài Trung Quốc Wang Bingqian, thủ tướng phủ Úc Robert Hawke, … Ví dụ: bothahawke Trang 61 Tag ORGS Cho biết tài liệu ñề cập ñến tổ chức nào, thường tổ chức lớn giới ngân hàng giới (Worldbank), tổ chức y tế giới (World Health Organization - WHO), … Ví dụ: worldbankwho Tag EXCHANGES Cho biết tài liệu ñề cập ñến thị trường chứng khoán nào, thường thị trường chứng khoán lớn giới thị trường chứng khoán Tokyo (Tokyo Stock Exchange - TSE), thị trường chứng khoán Mỹ (American Stock Exchange AMEX), thị trường chứng khoán New York (New York Stock Exchange – NYSE), … Ví dụ: amex Tag COMPANIES Cho biết tài liệu đề cập đến cơng ty Vì tài liệu tập khơng phân loại theo cơng ty nên cặp thẻ mở đóng ln ln kề sau: Tag TEXT Nội dung tài liệu ñược ñặt thẻ Bên thẻ có số thẻ cho biết thông tin tài liệu tác giả (AUTHOR), tựa ñề tài liệu (TITLE), … Không phải tất tài liệu có đủ thẻ By Sue Baker, Reuters : cho biết tác giả tài liệu CHICAGO, Feb 26 : cho biết ñịa ñiểm thời gian mẫu tin ñược tạo FRANCE FACES PRESSUE TO CHANGE POLICIES : cho biết tựa ñề tài liệu Trang 62 , : nội dung tài liệu đặt thẻ Ví dụ: STUDY GROUP URGES INCREASED U.S OIL RESERVES WASHINGTON, March 2A study group said the United States should increase its strategic petroleum reserve to one mln barrels as one way to deal with the present and future impact of low oil prices on the domestic oil industry U.S policy now is to raise the strategic reserve to 750 mln barrels, from its present 500 mln, to help protect the economy from an overseas embargo or a sharp price rise The Aspen Institute for Humanistic Studies, a private group, also called for new research for oil exploration and development techniques It predicted prices would remain at about 15-18 dlrs a barrel for several years and then rise to the mid 20s, with imports at about 30 pct of U.S consumption It said instead that such moves as increasing oil reserves and more exploration and development research would help to guard against or mitigate the risks of increased imports Reuter A.3 Phân loại tài liệu Một tập tài liệu kiểm thử cho hệ thống phân loại tài liệu phải chứa tập tài liệu ñặc tả loại mà tài liệu thuộc Tập Reuters-21578 tập tài liệu kinh tế có tập loại (category sets) ðối với tài liệu, người dựa vào nội dung tài liệu ñể phân loại, khơng phải máy Do đó, tin tưởng vào phân loại tài liệu tập Các tập loại sau: Trang 63 Loại Phân loại EXCHANGES 39 ORGS 56 PEOPLE 267 PLACES 175 TOPICS 135 Các phân loại TOPICS chủ ñề kinh tế Ví dụ: “cà phê”, “vàng”, “thu nhập”, “lãi suất”, … Trong đó, loại EXCHANGES, ORGS, PEOPLE PLACES tương ứng với lớp thực thể có tên Mỗi tài liệu phân vào số phân loại cụ thể loại tương ứng Ví dụ tài liệu ñề cập ñến Mỹ Úc ñược phân vào hai phân loại “usa” “australia” loại nơi chốn (PLACES) Ngoài 22 file sgm chứa tài liệu, tập Reuters-21578 bao gồm file chứa danh sách phân loại tương ứng với loại Cụ thể file all-exchangesstrings.lc.txt chứa tất phân loại loại EXCHANGES, file all-orgsstrings.lc.txt chứa tất phân loại loại ORGS, all-people-strings.lc.txt chứa tất phân loại loại PEOPLE, all-places-strings.lc.txt chứa tất phân loại loại PLACES file all-topics-strings.lc.txt chứa tất phân loại loại TOPICS Bên cạnh đó, file cat-descriptions_120396.txt cho thông tin chi tiết cụm từ viết tắt phân loại ñược liệt kê file thông qua mục Subject Codes, Organization Codes, Exchange Codes, Country Codes, People Codes, … Ví dụ file all-people-strings.lc.txt chứa giá trị sau: alfonsin alhaji-abdul-ahmed alptemocin amato botha bouey braks … Trang 64 Các giá trị ñược lưu theo thứ tự bảng chữ ðây cụm từ viết tắt tương ứng với nhân vật tiếng, ñể biết rõ nhân vật xem thông tin file cat-descriptions_120396.txt, mục People Codes sau: @heading[People Codes (269)] @begin[itemize] Argentina @begin[itemize] President Raul Alfonsin (ALFONSIN) Economy Minister Juan Sourrouille (SOURROUILLE) Finance Secretary Mario Brodersohn (BRODERSOHN) Central Bank Governor Jose Luis Machinea (MACHINEA) @end[itemize] South Africa @begin[itemize] President P.W Botha (BOTHA) Finance Minister Barend du Plessis (DU-PLESSIS) Central Bank (Reserve Bank) Governor Gerhard de Kock (DE-KOCK) @end[itemize] … Trang 65 TÀI LIỆU THAM KHẢO [1] Jain, A.K., Murty, M N and Flynn, P J., Data Clustering: A Review, ACM Computing Surveys, Vol.31, No.3, pp.264-323, 1999 [2] Tam, H.N.C., Document Clustering by Named Entity, Master thesis, HCM University of Technology, 2006 [3] Khan, L and Wang, L., Automatic Ontology Derivation Using Clustering for Image Classification, in Proceedings of the 8th International Workshop on Multimedia Information Systems, MIS 2002, Tempe, Arizona, pp.56-65, 2002 [4] He, J., Tan, A.-H., Tan, C.-L and Sung, S.-Y., On Quantitative Evaluation of Clustering Systems, in Wu, W., Xiong, H (Eds.), Information Retrieval and Clustering, Kluwer Academic Publishers, pp.105-134, 2002 [5] Pavagada, R., Purvee, E and Nanda, A., Clustering Based on Semantic Relationships in Graph Visualization, 2005 Available at http://www.cs.uga.edu/~purvee/cs8380/SemanticClustering.pdf (October 2007) [6] Maedche, A and Zacharias, V., Clustering Ontology-based Metadata in the Semantic Web, in Proceedings of the 6th European Conference on Principles of Data Mining and Knowledge Discovery, PKDD 2002, Helsinki, Finland, pp.348-360, 2002 [7] Toda, H and Kataoka, R., A Search Result Clustering Method using Informatively Named Entities, in Proceedings of the 7th Annual ACM International Workshop on Web Information and Data Management, WIDM 2005, Bremen, Germany, pp.81-86, 2005 [8] William, M.R., Objective Criteria for the Evaluation of Clustering Methods, Journal of American Statistical Association, Vol.66, No.336, pp.846-850, 1971 Trang 66 [9] Vuong, N.M., Information Retrieval by Named Entity, Master thesis, HCM University of Technology, 2006 [10] Owen, A., B., Information Retrieval and the Vector Space Model Available at http://www-stat.stanford.edu/~owen/courses/399/ir4up.pdf (October 2007) [11] Meilă, M., Comparing Clusterings – An Information Based Distance, Journal of Multivariate Analysis, Vol.98, No.5, pp.873-895, 2007 [12] Steinbach, M., Karypis, G and Kumar, V., A Comparison of Document Clustering Techniques, Department of Computer Science and Engineerin, University of Minnesota, Technical Report # 00-034, 2000 [13] Song, J., Shen, J., A Web Document Clustering Algorithm Based on Concept of Neighbor, in Proceedings of the Second International Conference on Machine Learning and Cybernetics, Xi’an, 2003 [14] Popov, B., et al., Towards Semantic Web Information Extraction, in 2nd International Sematic Web Conference, ISWC2003, 2003 [15] Popov, B., et al., KIM – Semantic Annotation Platform, in 2nd International Sematic Web Conference, ISWC2003, Springer Verlag, Berlin Heidelberg, pp.834-849, 2003 [16] Sekine, S., Named Entity: History and Future, 2004 [17] Mihalcea, R and Moldovan, D.I., Document Indexing using Named Entities, in Studies in Informatics and Control, Plenum Press, 2001 [18] Chinchor, N and Robinson, P., MUC-7 Named Entity Task Definition (version 3.5), in Proceedings of the MUC-7, 1998 [19] Berners-Lee, T., Hendler, J and Lassila, O., The Semantic Web, in Scientific American Magazine, May, 2001 [20] Baeza-Yates, R and Ribeiro-Neto, B., Modern Information Retrieval, Addison Wesley, 1999 [21] Salton, G and Buckley, C., Term Weighting Approaches in Automatic Text Retrieval, Information Processing & Management, p.513-523, 1998 ... thành gom cụm tài liệu túy theo từ khóa Ngược lại, α = mơ hình gom cụm tài liệu theo thực thể có tên Dưới chúng tơi tiến hành thực nghiệm gom cụm tài liệu theo lớp thực thể kết hợp từ khóa; tên thực. .. Nơi chốn 2.3 Gom cụm tài liệu theo thực thể có tên từ khóa Mơ hình gom cụm tài liệu theo thực thể có tên phần cải thiện chất lượng gom cụm so với mơ hình gom cụm tài liệu theo từ khóa Tuy nhiên,... Gom cụm tài liệu theo từ khóa .23 2.2 Gom cụm tài liệu theo thực thể có tên .24 2.3 Gom cụm tài liệu theo thực thể có tên từ khóa 27 2.3.1 Mơ hình kết hợp chồng lấp liệu

Ngày đăng: 08/03/2021, 23:43

Tài liệu cùng người dùng

Tài liệu liên quan