BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ CỦA TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành Công nghệ thông tin Mã số ngành 60480201 TP HỒ CHÍ M[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ CỦA TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS NGUYỄN CHÁNH THÀNH TS LÊ MẠNH HẢI TP HỒ CHÍ MINH, tháng năm 2015 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hƣớng dẫn khoa học : TS NGUYỄN CHÁNH THÀNH TS LÊ MẠNH HẢI (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày … tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên PGS.TSKH Nguyễn Xuân Huy PGS.TS Lê Hoài Bắc PGS.TS Quản Thành Thơ TS Vũ Thanh Hiền TS Cao Tùng Anh Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 11 tháng năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ HỒNG OANH Giới tính: Nữ Ngày, tháng, năm sinh: 09/03/1985 Nơi sinh: Cần Thơ Chuyên ngành: Công nghệ Thông tin MSHV: 1341860016 I- Tên đề tài: Nhận biết chủ đề tài liệu dựa Wikipedia II- Nhiệm vụ nội dung: - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận biết chủ đề văn Wikipedia - Phát triển (trên sở kế thừa) cải tiến phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa nguồn liệu tên thể loại sẵn có Wikipedia - Thực nghiệm, đánh giá viết báo cáo III- Ngày giao nhiệm vụ: 18/8/2014 IV- Ngày hoàn thành nhiệm vụ: V- Cán hƣớng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS Nguyễn Chánh Thành TS Lê Mạnh Hải CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Lê Hoàng Oanh ii LỜI CÁM ƠN Lời cảm ơn chân thành em xin gởi Ban Giám Hiệu, toàn thể cán nhân viên, giảng viên trƣờng Đại Học HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin tạo điều kiện thuận lợi cho em học tập nghiên cứu suốt học trình cao học Với lịng tri ân sâu sắc, em muốn nói lời cảm ơn chân thành đến TS Nguyễn Chánh Thành TS Lê Mạnh Hải tận tụy nghiêm túc hƣớng dẫn em trình thực nghiên cứu Em xin chân thành cảm ơn Q thầy ngồi trƣờng tận tâm dạy bảo em suốt trình học tập giúp đỡ em suốt trình nghiên cứu Em xin chân thành cảm ơn ngƣời thân yêu gia đình anh chị em, bạn bè, đồng nghiệp giúp đỡ động viên em q trình thực hồn thành luận văn Học viên thực Luận văn (ký ghi rõ họ tên) LÊ HỒNG OANH iii TĨM TẮT (Tóm tắt nội dung LV Tiếng Việt) Wikipedia bách khoa toàn thƣ tự do, kết cộng tác ngƣời đọc từ khắp nơi giới Mục tiêu phát triển Wikipedia nâng cao chất lƣợng viết, thêm nhiều viết chọn lọc, viết chất lƣợng ngày thu hút nhiều thành viên tham gia Với số lƣợng viết ngày gia tăng việc tìm kiếm báo nhƣ mong muốn khó khăn tốn nhiều thời gian Chẳng hạn, ngƣời dùng muốn tìm kiếm thơng tin kết thƣờng trả nhiều danh mục có chứa thơng tin Vậy làm để kết trả danh mục phù hợp mà tất danh mục có chứa thơng tin Việc đặt thách thức cho luận văn tìm kiếm giải pháp giúp nhận diện đƣợc danh mục có trọng số cao phù hợp với thơng tin cần tìm kiếm Chính thế, nghiên cứu chúng tơi trình bày thuật tốn đƣợc sử dụng để khai thác tiêu đề phân nhóm tiêu đề Wikipedia Giúp cho việc tìm danh mục phù hợp với báo cách tự động đạt độ xác cao iv ABSTRACT (Tóm tắt nội dung LV tiếng Anh) Wikipedia is a free encyclopedia, as a result of the collaboration of the readers from all over the world The objective of development of Wikipedia is to improve the quality of articles; add more selected articles, quality articles and increasingly attract more participants As regards the increasing number of articles these days, it is very difficult and time-consuming to find a specific article For instance, when a user wants to search some information, the results are often returned a lot of catalogues containing that information Thus, how the results are returned the most relevant catalogues related to information instead of all catalogues This is sue has rise to the challenge to the thesis for seeking a solution identifying the most significant catalogue being suitable for the required information Therefore, in this study, we will represent an algorithm used to exploit only the titles and divide titles into many groups in Wikipedia This helps to find the suitable catalogues to the articles automatically and accurately v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC iv Danh mục từ viết tắt vii Danh mục bảng ix Danh mục biểu đồ, đồ thị, sơ đồ, hình ảnh x CHƢƠNG MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục tiêu, nội dung phƣơng pháp nghiên cứu 1.2.1 Mục tiêu nghiên cứu 1.2.2 Nội dung nghiên cứu 1.2.3 Phương pháp nghiên cứu 1.3 Cấu trúc luận văn CHƢƠNG NGHIÊN CỨU TỔNG QUAN 2.1 Tình hình nghiên cứu giới 2.2 Tình hình nghiên cứu nƣớc 2.3 Tóm lƣợc CHƢƠNG PHƢƠNG PHÁP NHẬN BIẾT VÀ RÚT TRÍCH CHỦ ĐỀ 10 3.1 Khái niệm Wikipedia 11 3.1.1 Những ƣu điểm mơ hình Web Wiki 14 3.1.2 Wikipedia hoạt động nhƣ 17 3.1.3 Kiểu cách định dạng 17 3.1.4 Thực thể Wikipedia 18 vi 3.1.6 Thể loại 20 3.1.7 Kiến trúc Wikipedia 23 3.2 Phƣơng pháp nghiên cứu đề nghị 24 3.2.1 Hƣớng nghiên cứu luận văn 24 3.2.2 Việc chuẩn bị thu thập 25 3.2.3 Nhận diện chủ đề tài liệu 26 3.3 Một số cải thiện phƣơng pháp đề xuất 30 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 32 4.1 Tiến hành thực nghiệm 33 4.1.1 Môi trƣờng thực nghiệm 33 4.1.2 Nguồn liệu 33 4.1.3 Cấu trúc sở liệu 36 4.2 Thực chƣơng trình 38 4.2.1 Gỡ bỏ từ vô nghĩa 38 4.2.2 Tính trọng số từ tài liệu 39 4.2.3 Tính trọng số tiêu đề tài liệu 39 4.2.4 Tính trọng số cao tài liệu 41 4.2.5 Tính trọng số danh mục 42 4.2.6 Chọn danh mục phù hợp cho báo với trọng số chúng 42 4.3 Chƣơng trình thực nghiệm 42 4.4 Trƣờng hợp thành công thất bại 43 4.5 Đánh giá 44 4.5.1 Dữ liệu đánh giá 44 4.5.2 Độ xác chƣơng trình 45 4.6 Độ phản hồi chƣơng trình 50 4.7 Kết luận 53 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 53 vii 5.1 Kết luận 54 5.2 Hƣớng phát triển 54 TÀI LIỆU THAM KHẢO 55 viii Danh mục từ viết tắt STT Từ cụm từ Wikipedia World Wide Web Wikipedia Category Graph Support vector machine Latent Dirichlet Allocation Viết tắt Wiki WWW WCG SVM LDA ix Danh mục bảng Bảng 4.1 Cấu hình yêu cầu 33 Bảng 4.2 Cấu trúc sở liệu 37 Bảng 4.3 Một số từ vô nghĩa 38 Bảng 4.4 Độ xác thuật tốn 49 Bảng 4.5 Độ phản hồi chƣơng trình 52 x Danh mục hình ảnh Hình 3.1 Mơ hình Web Wiki 15 Hình 3.2 Giao diện Wiki 16 Hình 3.3 Thực thể Wikipedia 19 Hình 3.4 Thể loại Wikipedia 21 Hình 3.5 Mối quan hệ đồ thị viết đồ thị chủ đề Wiki 23 Hình 3.6 Sơ đồ thuật tốn 25 xi Danh mục biểu đồ Biều đồ 4.1 Đánh giá độ xác thuật tốn 50 Biểu đồ 4.2 Độ phản hồi chƣơng trình 52 CHƢƠNG MỞ ĐẦU 1.1 Lý chọn đề tài Khả cung ứng liệu lớn World Wide Web (WWW) phát triển theo cấp số nhân từ vài năm qua, việc tìm kiếm, trích xuất trì thơng tin nhiệm vụ khó khăn tốn thời gian Để khắc phục vấn đề tải thông tin, công cụ nhận biết chủ đề tài liệu cần thiết cho ngƣời dùng theo dõi xác định xác vị trí chủ đề tài liệu mà cần tìm kiếm Wikipedia [28] thức bắt đầu vào ngày 15 tháng 01 năm 2001 nhờ hai ngƣời sáng lập Jimmy Wales Larry Sanger với vài ngƣời cộng tác nhiệt thành có phiên tiếng Anh Chỉ ba năm sau, vào tháng năm 2004, có 6.000 ngƣời đóng góp tích cực cho 600.000 viết với 50 thứ tiếng Tính đến ngày có 4.847.953 viết tiếng Anh,763.384.059 chỉnh sửa, 24.524.565 ngƣời dùng đăng ký 1.358 nhà quản trị (Cập nhật 30-3-2015) Mỗi ngày hàng trăm nghìn ngƣời ghé thăm từ khắp nơi để thực hàng chục nghìn sửa đổi nhƣ bắt đầu nhiều viết Do số lƣợng viết ngày tăng, ngƣời dùng khó tìm kiếm tài liệu cách nhanh chóng phân loại tiêu đề theo mong muốn Vì thế, thách thức đƣợc đặt làm để nhận biết chủ đề có tài liệu văn cách hiệu quả, mà cụ thể làm để máy tính trợ giúp xử lý tự động đƣợc chúng Nhận biết chủ đề tài liệu dựa vào động tìm kiếm vấn đề quan trọng việc tra cứu tài liệu ngày ngƣời sử dụng giúp cho ngƣời dùng tiết kiệm đƣợc nhiều thời gian tìm kiếm tài liệu, giúp ngƣời dùng tìm kiếm tài liệu cách nhanh chóng, xác thơng tin cần Ngồi ra, việc nhận biết chủ đề tài liệu dựa Wikipedia giúp ngƣời dùng kiểm sốt lƣợng thơng tin tìm kiếm, tìm kiếm đƣợc đặc trƣng tài liệu cách nhanh chóng xác 2 Trong năm gần đây, qui mơ tầm cỡ bách khoa tồn thƣ trực tuyến miễn phí Wikipedia đạt đến tầm mức nhƣ ontology (bản thể luận) phân loại sử dụng để nhận diện chủ đề có tài liệu văn Vì đề tài “Nhận biết chủ đề tài liệu dựa Wikipedia” giúp hỗ trợ ngƣời dùng nhận biết đƣợc chủ đề tài liệu tìm kiếm cách nhanh chóng xác 1.2 Mục tiêu, nội dung phƣơng pháp nghiên cứu 1.2.1 Mục tiêu nghiên cứu Mục tiêu việc nhận diện chủ đề văn nhằm để tìm nhãn phân nhóm, giúp mơ tả tốt vấn đề cốt lõi văn phục vụ cho việc phân loại xếp nhóm Tìm đƣợc danh mục có trọng số phù hợp với báo cách tự động đạt độ xác cao Nhiệm vụ luận văn: - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận biết chủ đề văn Wikipedia - Phát triển (trên sở kế thừa) cải tiến phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa nguồn liệu tên thể loại sẵn có Wikipedia - Thực nghiệm, đánh giá viết báo cáo 1.2.2 Nội dung nghiên cứu Wikipedia bao gồm viết, trang hình ảnh tách biệt, ý kiến tranh luận nội dung viết, tác giả, trang thiết kế mẫu…Mỗi viết có tiêu đề, xếp theo phân loại có liên hệ đến viết khác Một số viết truy xuất với nhiều tiêu đề, trƣờng hợp này, tiêu đề phụ đƣợc xem nhƣ viết đặc biệt chuyển hƣớng gồm liên kết đến viết Việc phân loại đƣợc tổ chức theo phân tầng theo hạng mục hạ tầng (hạng mục con) hạng mục thƣợng tầng (hạng mục cha) Nội dung nghiên cứu luận văn tập trung vào hai vấn đề bản: Thứ nhất, luận văn trình bày phƣơng pháp để khai thác tiêu đề viết phân loại viết Wikipedia, để định yếu tố đặc trƣng tài liệu Trƣớc tiên, xem xét tất viết liên quan đến tài liệu việc kết hợp tìm tiêu đề từ khóa tài liệu Sau viết đƣợc xem xét theo ba yếu tố nhƣ sau: Từ khóa chia sẻ chung tài liệu tiêu đề, chẳng hạn tần suất số lƣợng phân nhóm mà từ khóa xuất Cƣờng độ kết hợp tài liệu viết, chẳng hạn số lƣợng từ khóa phổ biến, tỷ lệ phần trăm tên tiêu đề xuất tài liệu Bản thân viết, chẳng hạn số lƣợng viết Wikipedia có tiêu đề tƣơng tự Thứ hai, thu thập việc phân loại gắn liền với viết để hình thành nên phân loại chủ yếu dựa tính chất viết, đồng thời xem xét có từ có mối liên hệ hỗ tƣơng tài liệu xem xét mức độ mối liên hệ hỗ tƣơng từ khóa chia sẻ thuộc tính với phân nhóm khác Luận văn không khai thác sức mạnh tiềm Wikipedia luận văn khơng sử dụng thơng tin chứa đoạn văn viết, liên kết viết, hay phân tầng phân loại tài liệu Luận văn giải hai toán lớn sau: Bài toán 1: Loại bỏ từ dừng dƣ thừa, loại bỏ từ không xuất tiêu đề viết Thu thập từ tài liệu thu thập tiêu đề Wikipedia (ngoại trừ tiêu đề có từ) có xuất tài liệu Tiếp theo thu thập viết Wikipedia dẫn kết đến tiêu đề Cuối thu thập phân nhóm Wikipedia gắn với tiêu đề Bài toán 2: Tinh giảm mức độ phân nhóm có từ chia sẻ với phân nhóm khác có trị Rc cao Sau chọn phân nhóm chiếm tỷ lệ cao 1.2.3 Phương pháp nghiên cứu - Phƣơng pháp nghiên cứu lý thuyết: nghiên cứu tài liệu mô tả cách thức làm việc Wikipedia, cách thức phân nhóm Wikipedia - Phƣơng pháp thu thập số liệu: thống kê tổng số phân nhóm Wikipedia tiếng anh tiếng việt tính đến ngày 03/03/2015 - Phƣơng pháp thực nghiệm: tiến hành phân loại xếp nhóm số tài liệu để tìm tài liệu thuộc phân loại Wikipedia 1.3 Cấu trúc luận văn Chƣơng Mở đầu Trình bày lý chọn đề tài, mục tiêu nội dung phƣơng pháp nghiên cứu, cấu trúc luận văn Chƣơng Nghiên cứu tổng quan Phân tích, đánh giá cơng trình nghiên cứu có tác giả nƣớc liên quan mật thiết đến đề tài; nêu vấn đề tồn tại; vấn đề mà đề tài cần tập trung nghiên cứu, giải Chƣơng Phƣơng pháp nhận biết rút trích chủ đề Trình bày sở lý thuyết, lý luận, giả thuyết khoa học phƣơng pháp nghiên cứu đƣợc sử dụng Luận văn Chƣơng Thực nghiệm đánh giá Mô tả công việc nghiên cứu khoa học tiến hành, số thực nghiệm Đánh giá độ xác thuật toán Chƣơng Kết luận hƣớng phát triển Kết luận việc đạt đƣợc hạn chế luận văn Đề xuất hƣớng phát triển CHƢƠNG NGHIÊN CỨU TỔNG QUAN Chƣơng phân tích số nghiên cứu ngồi nƣớc có liên quan đến luận văn Mục đích nhằm xác định ƣu điểm hạn chế khó khăn nghiên cứu có liên quan đến luận văn để từ luận văn đƣa giải pháp nhằm phát triển hệ thống đạt kết Trong chƣơng này, 2.1 trình bày tóm lƣợc nghiên cứu giới, phần 2.2 trình bày tóm lƣợc nghiên cứu nƣớc có liên quan đến luận văn, tập trung nghiên cứu có liên quan đến Wikipedia để nghiên cứu luận văn 2.1 Tình hình nghiên cứu giới Trên giới, có nhiều mơ hình phân nhóm chủ đề tài liệu đời, số đƣợc thƣơng mại hóa, số cịn lại xây dựng riêng cho hệ thống phân nhóm chủ đề tài liệu hay đóng góp phần nhỏ cho khoa học M Aery, N Ramamurthy, and Y A Aslandogan [11] Nhận diện chủ đề văn động với mức độ phức tạp cao Vấn đề phân tích tự động phát liệu văn phát triển vài năm qua Một ví dụ liệu thảo luận xuất dòng chat Internet Trong nghiên cứu đề cập đến phƣơng pháp tách nguồn đƣợc giới thiệu gần đây, đƣợc gọi theo dõi mức độ phức tạp, đƣợc áp dụng cho vấn đề tìm kiếm chủ đề văn động học đƣợc so sánh ngƣợc lại với số thuật toán tách mù nội dung xem xét Theo dõi mức độ phức tạp khái niệm tổng quát phép chiếu chuỗi thời gian sử dụng hai biện pháp thống kê bậc cao thông tin phụ thuộc thời gian việc tách chủ đề Kết thực nghiệm liệu dòng chat nhóm tin chứng minh chuỗi thời gian tối thiểu đáp ứng chủ đề có ý nghĩa vốn có liệu văn động, cho thấy khả ứng dụng phƣơng pháp để thu hồi từ văn tạm thời thay đổi truy vấn dựa dòng ... ngành: Công nghệ Thông tin MSHV: 1341860016 I- Tên đề tài: Nhận biết chủ đề tài liệu dựa Wikipedia II- Nhiệm vụ nội dung: - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia. .. phí Wikipedia đạt đến tầm mức nhƣ ontology (bản thể luận) phân loại sử dụng để nhận diện chủ đề có tài liệu văn Vì đề tài ? ?Nhận biết chủ đề tài liệu dựa Wikipedia? ?? giúp hỗ trợ ngƣời dùng nhận biết. .. VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN