Luận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên WikipediaLuận văn Thạc sĩ Công nghệ thông tin: Nhận biết chủ đề tài liệu dựa trên Wikipedia
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ CỦA TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS NGUYỄN CHÁNH THÀNH TS LÊ MẠNH HẢI TP HỒ CHÍ MINH, tháng năm 2015 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hƣớng dẫn khoa học : TS NGUYỄN CHÁNH THÀNH TS LÊ MẠNH HẢI (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày … tháng … năm … Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên PGS.TSKH Nguyễn Xuân Huy PGS.TS Lê Hoài Bắc PGS.TS Quản Thành Thơ TS Vũ Thanh Hiền TS Cao Tùng Anh Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 11 tháng năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ HỒNG OANH Giới tính: Nữ Ngày, tháng, năm sinh: 09/03/1985 Nơi sinh: Cần Thơ Chuyên ngành: Công nghệ Thông tin MSHV: 1341860016 I- Tên đề tài: Nhận biết chủ đề tài liệu dựa Wikipedia II- Nhiệm vụ nội dung: - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận biết chủ đề văn Wikipedia - Phát triển (trên sở kế thừa) cải tiến phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa nguồn liệu tên thể loại sẵn có Wikipedia - Thực nghiệm, đánh giá viết báo cáo III- Ngày giao nhiệm vụ: 18/8/2014 IV- Ngày hoàn thành nhiệm vụ: V- Cán hƣớng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS Nguyễn Chánh Thành TS Lê Mạnh Hải CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Lê Hoàng Oanh ii LỜI CÁM ƠN Lời cảm ơn chân thành em xin gởi Ban Giám Hiệu, toàn thể cán nhân viên, giảng viên trƣờng Đại Học HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin tạo điều kiện thuận lợi cho em học tập nghiên cứu suốt học trình cao học Với lịng tri ân sâu sắc, em muốn nói lời cảm ơn chân thành đến TS Nguyễn Chánh Thành TS Lê Mạnh Hải tận tụy nghiêm túc hƣớng dẫn em trình thực nghiên cứu Em xin chân thành cảm ơn Q thầy ngồi trƣờng tận tâm dạy bảo em suốt trình học tập giúp đỡ em suốt trình nghiên cứu Em xin chân thành cảm ơn ngƣời thân yêu gia đình anh chị em, bạn bè, đồng nghiệp giúp đỡ động viên em q trình thực hồn thành luận văn Học viên thực Luận văn (ký ghi rõ họ tên) LÊ HỒNG OANH iii TĨM TẮT (Tóm tắt nội dung LV Tiếng Việt) Wikipedia bách khoa toàn thƣ tự do, kết cộng tác ngƣời đọc từ khắp nơi giới Mục tiêu phát triển Wikipedia nâng cao chất lƣợng viết, thêm nhiều viết chọn lọc, viết chất lƣợng ngày thu hút nhiều thành viên tham gia Với số lƣợng viết ngày gia tăng việc tìm kiếm báo nhƣ mong muốn khó khăn tốn nhiều thời gian Chẳng hạn, ngƣời dùng muốn tìm kiếm thơng tin kết thƣờng trả nhiều danh mục có chứa thơng tin Vậy làm để kết trả danh mục phù hợp mà tất danh mục có chứa thơng tin Việc đặt thách thức cho luận văn tìm kiếm giải pháp giúp nhận diện đƣợc danh mục có trọng số cao phù hợp với thơng tin cần tìm kiếm Chính thế, nghiên cứu chúng tơi trình bày thuật tốn đƣợc sử dụng để khai thác tiêu đề phân nhóm tiêu đề Wikipedia Giúp cho việc tìm danh mục phù hợp với báo cách tự động đạt độ xác cao iv ABSTRACT (Tóm tắt nội dung LV tiếng Anh) Wikipedia is a free encyclopedia, as a result of the collaboration of the readers from all over the world The objective of development of Wikipedia is to improve the quality of articles; add more selected articles, quality articles and increasingly attract more participants As regards the increasing number of articles these days, it is very difficult and time-consuming to find a specific article For instance, when a user wants to search some information, the results are often returned a lot of catalogues containing that information Thus, how the results are returned the most relevant catalogues related to information instead of all catalogues This is sue has rise to the challenge to the thesis for seeking a solution identifying the most significant catalogue being suitable for the required information Therefore, in this study, we will represent an algorithm used to exploit only the titles and divide titles into many groups in Wikipedia This helps to find the suitable catalogues to the articles automatically and accurately v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC iv Danh mục từ viết tắt vii Danh mục bảng ix Danh mục biểu đồ, đồ thị, sơ đồ, hình ảnh x CHƢƠNG MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục tiêu, nội dung phƣơng pháp nghiên cứu 1.2.1 Mục tiêu nghiên cứu 1.2.2 Nội dung nghiên cứu 1.2.3 Phương pháp nghiên cứu 1.3 Cấu trúc luận văn CHƢƠNG NGHIÊN CỨU TỔNG QUAN 2.1 Tình hình nghiên cứu giới 2.2 Tình hình nghiên cứu nƣớc 2.3 Tóm lƣợc CHƢƠNG PHƢƠNG PHÁP NHẬN BIẾT VÀ RÚT TRÍCH CHỦ ĐỀ 10 3.1 Khái niệm Wikipedia 11 3.1.1 Những ƣu điểm mô hình Web Wiki 14 3.1.2 Wikipedia hoạt động nhƣ 17 3.1.3 Kiểu cách định dạng 17 3.1.4 Thực thể Wikipedia 18 vi 3.1.6 Thể loại 20 3.1.7 Kiến trúc Wikipedia 23 3.2 Phƣơng pháp nghiên cứu đề nghị 24 3.2.1 Hƣớng nghiên cứu luận văn 24 3.2.2 Việc chuẩn bị thu thập 25 3.2.3 Nhận diện chủ đề tài liệu 26 3.3 Một số cải thiện phƣơng pháp đề xuất 30 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 32 4.1 Tiến hành thực nghiệm 33 4.1.1 Môi trƣờng thực nghiệm 33 4.1.2 Nguồn liệu 33 4.1.3 Cấu trúc sở liệu 36 4.2 Thực chƣơng trình 38 4.2.1 Gỡ bỏ từ vô nghĩa 38 4.2.2 Tính trọng số từ tài liệu 39 4.2.3 Tính trọng số tiêu đề tài liệu 39 4.2.4 Tính trọng số cao tài liệu 41 4.2.5 Tính trọng số danh mục 42 4.2.6 Chọn danh mục phù hợp cho báo với trọng số chúng 42 4.3 Chƣơng trình thực nghiệm 42 4.4 Trƣờng hợp thành công thất bại 43 4.5 Đánh giá 44 4.5.1 Dữ liệu đánh giá 44 4.5.2 Độ xác chƣơng trình 45 4.6 Độ phản hồi chƣơng trình 50 4.7 Kết luận 53 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 53 44 không đáp ứng đủ bảy bƣớc thí nghiệm thất bại Và điểm yếu thuật tốn xử lý phức tạp, rƣờm rà Rt : t : R : 3.70774243398595 at : 15 St : Lt : strTitle: Anarchism Rt : t : R : at : St : Lt : strTitle: AfghanistanHistory Rt : t : R : at : St : Lt : strTitle: AfghanistanGeography Rt : t : R : at : St : Lt : strTitle: AfghanistanPeople Rt : t : R : at : St : Lt : strTitle: AfghanistanCommunications Rt : t : R : at : St : Lt : strTitle: AfghanistanTransportations Rt : t : R : at : St : Lt : strTitle: AfghanistanMilitary Rt : t : R : at : St : Lt : strTitle: AfghanistanTransnationalIssues Rt : t : R : at : St : Lt : strTitle: AssistiveTechnology Rt : t : R : at : St : Lt : strTitle: AmoeboidTaxa Rt : t : R : 5.73940755071869 at : 13 St : Lt : strTitle: Autism Rt : t : R : at : St : Lt : strTitle: AlbaniaHistory Rt : t : R : at : St : Lt : strTitle: AlbaniaPeople Rt : t : R : at : St : Lt : strTitle: AsWeMayThink Rt : t : R : at : St : Lt : strTitle: AlbaniaGovernment Rt : t : R : at : St : Lt : strTitle: AlbaniaEconomy Rt : t : R : NaN at : St : Lt : strTitle: Albedo Rt : t : R : at : St : Lt : strTitle: AfroAsiaticLanguages Rt : t : R : at : St : Lt : strTitle: ArtificalLanguages 4.5 Đánh giá 4.5.1 Dữ liệu đánh giá Luận văn đánh giá thuật toán với liệu bao gồm 2588 báo 150435 danh 45 mục, sau thực thuật toán kết đƣợc lƣu vào sở liệu phục vụ cho việc tìm kiếm báo với danh mục tốt Luận văn tiến hành đánh giá thuật tốn với liệu 4.5.2 Độ xác chƣơng trình Để đo lƣờng độ xác thuật tốn tác giả tính top n danh mục có phần trăm danh mục thức báo Trong top n danh mục có nhiều báo mà danh mục khác lại có trọng số cao danh mục Tác giả dùng câu truy vấn SQL sau để lấy top 10 danh mục có chứa nhiều báo nhất: select top 10 category.cat_id,category.cat_title, count(CatIDMax) as TotalDocument from Document,Cat_Doc,category where Document.ID=Cat_Doc.DocumentID and Cat_Doc.CatID=category.cat_id and CatIDMax =category.cat_id group by category.cat_id,category.cat_title order by TotalDocument desc Kết truy vấn nhƣ sau: Mã danh mục, tên danh mục, số lƣợng báo danh mục 46 Để đánh giá độ xác thuật tốn tác giả sử dụng cơng thức sau: U A 100% D Trong : U: Độ xác thuật tốn A: Số danh mục thức D: Tổng số danh mục bao gồm danh mục thức danh mục khác báo Tiến hành thực nghiệm với danh mục thứ có ID „65358076‟ tác giả tiến hành kiểm tra xem danh mục thuộc top n có báo có danh mục nhƣng lại có danh mục ngồi top n lại có trọng số cao Với câu truy vấnSQL tác giả thu đƣợc kết nhƣ sau: select id,Document.Title,CatIDMax from Document,Cat_Doc,category where Document.ID=Cat_Doc.DocumentID and Cat_Doc.CatID=category.cat_id and category.cat_id =65358076 order by CatIDMax 47 Với câu truy vấn kết thu đƣợc 58 danhh mục thức 58 danh mục báo : Với kết ta có đƣợc 58 danh mục thức so với tổng 58 danh mục áp dụng công thức U A 100% ta có đƣợc kết độ xác thuật tốn nhƣ sau: D U 58 100% 100% 58 Tiến hành thực nghiệm với danh mục thứ có ID „65357824‟ tác giả tiến hành kiểm tra xem danh mục thuộc top n có báo có danh mục nhƣng lại có danh mục ngồi top n lại có trọng số cao Với câu truy vấn SQL tác giả thu đƣợc kết nhƣ sau: select id,Document.Title,CatIDMax from Document,Cat_Doc,category 48 where Document.ID=Cat_Doc.DocumentID and Cat_Doc.CatID=category.cat_id and category.cat_id =65357824 order by CatIDMax Với câu truy vấn thu đƣợc kết nhƣ sau : Với kết ta có đƣợc danh mục thức so với tổng danh mục áp dụng cơng thức U A 100% ta có đƣợc kết độ xác thuật tốn nhƣ sau: D U 100% 85% Tƣơng tự nhƣ tác giả tiến hành thực nghiệm với mã danh mục „65357288‟ thu đƣợc kết nhƣ sau: Với kết ta có đƣợc danh mục thức so với tổng danh mục áp dụng công thức U A 100% ta có đƣợc kết độ xác thuật toán nhƣ sau: D 49 U 100% 66% Tƣơng tự nhƣ tác giả tiến hành thực nghiệm với mã danh mục „65363217‟ thu đƣợc kết nhƣ sau: Với kết ta có đƣợc danh mục thức so với tổng danh mục áp dụng công thức U A 100% ta có đƣợc kết độ xác thuật toán nhƣ sau: D U 100% 66% Tƣơng tự với hai danh mục lại tác giả thu đƣợc độ xác U 66% Theo thực nghiệm ta có độ xác thuật tốn nhƣ sau: Bảng 4.4 Độ xác thuật tốn Top 10 danh mục Độ xác Daysthe year 100% Place name disambiguation pages 85% Functional groups 66% Batting statistics 66% Angiosperm orders 66% Độ xác trung bình thuật tốn : 76.6% 50 Biểu đồ 4.1 Đánh giá độ xác thuật tốn Biểu đồ thể độ xác thuật tốn tác giả tiến hành thí nghiệm theo tứ tự danh mục đƣợc lấy bảng 4.4 Trong biểu đồ dòng đƣợc thể theo trục X độ xác thuật tốn đƣợc thể theo trục Y Sau nhìn biểu đồ thấy đƣợc độ xác giảm dần theo số lƣợng danh mục Chúng ta dễ dàng thấy đƣợc đƣờng màu đỏ có chiều hƣớng xuống theo số lƣợng danh mục Từ đánh giá ta thấy đƣợc độ xác chƣơng trình cao giúp tăng cƣờng tính tự động phân loại tài liệu 4.6 Độ phản hồi chƣơng trình Độ phản hồi chƣơng trình đƣợc xác định tỉ lệ danh mục thức top n danh mục Độ phản hồi đƣợc tính theo cơng thức sau: H E 100% F 51 Trong đó: H: Độ phản hồi chƣơng trình E: Số danh mục thức F: Tổng số danh mục Theo kết thực nghiệm tác giả thu đƣợc 84 danh mục có báo Với kết thu đƣợc từ thí nghiệm áp dụng cơng thức ta có đƣợc độ phản hồi nhƣ sau: Trƣờng hợp lấy top danh mục theo thực nghiệm ta thu đƣợc 58 danh mục thức H 58 100% 69% 84 Trƣờng hợp lấy top danh mục theo thực nghiệm phần ta có thêm danh mục thức áp dụng cơng thức ta có kết nhƣ sau: H 64 100% 76% 84 Trƣờng hợp lấy top tác giả thu đƣợc thêm danh mục thức áp dụng cơng thức ta thu đƣợc kết nhƣ sau: H 68 100% 81% 84 Áp dụng cho trƣờng hợp lại tác giả thu đƣợc kết nhƣ bảng sau: Trong top năm danh mục tác giả tính đƣợc độ phản hồi nhƣ sau: 52 Bảng 4.5 Độ phản hồi chƣơng trình Số danh mục Độ phản hồi 69% 76% 81% 86% 91% Trung bình 80.6% Biểu đồ 4.2 Độ phản hồi chƣơng trình Biểu đồ thể độ phản hồi chƣơng trình với liệu thí nghiệm đƣợc lấy từ bảng 4.5 với trục X thể số chủ đề trục Y thể độ phản hồi thuật toán, thấy đƣợc độ phản hồi thuật toán tăng dần theo số lƣợng chủ đề qua chiều tăng dần cột hƣớng lên đƣờng màu đỏ, theo thực nghiệm ta có độ phản hồi trung bình chƣơng trình 80,6% 53 4.7 Kết luận: Phƣơng pháp đƣợc sử dụng túy cho việc phân loại xếp nhóm tiêu đề phân nhóm viết Wikipedia, thuật tốn giúp bỏ qua giai đoạn khai thác thơng tin phong phú đƣợc cung cấp danh mục viết, bỏ qua đƣờng kết nối tài liệu, cấu trúc phân tầng phân nhóm 54 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn giải đƣợc nhiệm vụ mà luận văn đƣa - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia - Khảo sát nghiên cứu liên quan đến việc nhận biết chủ đề văn Wikipedia - Phát triển (trên sở kế thừa) cải tiến phƣơng pháp nhận biết chủ đề tài liệu (dạng văn bản), dựa nguồn liệu tên thể loại sẵn có Wikipedia - Thực nghiệm, đánh giá viết báo cáo Qua kết thực nghiệm đạt đƣợc cho thấy đề tài nhận biết chủ đề tài liệu dựa Wikipedia khả thi áp dụng đƣợc Giúp tìm danh mục phù hợp cho báo tự động đạt độ xác cao Bên cạnh đó, hạn chế mặt thời gian kiến thức đề tài hạn chế sau: - Trong số trƣờng hợp, kết thực nghiệm chƣa cao - Đối với liệu lớn thời gian thực tìm danh mục phù hợp cho báo lâu chƣơng trình phức tạp 5.2 Hƣớng phát triển Tìm giải pháp giảm thời gian thực hiện, tăng độ xác tìm kiếm thuật tốn đơn giản 55 TÀI LIỆU THAM KHẢO Trong nƣớc [1] Nguyễn Chánh Thành (2010) Xây dựng mơ hình mở rộng truy vấn truy xuất thơng tin văn bản, Luận án tiến sĩ kỹ thuật Đại học Bách khoa TP.HCM [2] Đinh Quang Định (2013) Nghiên cứu công nghệ Web 3.0 (Semantic Web) khả triển khai áp dụng Học viện cơng nghệ bƣu viễn thơng [3] Phạm Đình Hồng (2013) Nghiên cứu phương pháp phân nhóm liệu động áp dụng vào truy vấn thông tin Đại học Đà Nẵng [4] Nguyễn Thị Bích Phƣơng (2012) Nghiên cứu phương pháp mở rộng truy vấn truy xuất thông tin (Information Retrieval) Học viện cơng nghệ bƣu viễn thơng [5] Nguyễn Đình Bình (2012) Nghiên cứu khai phá liệu web ứng dụng tìm kiếm trích chọn thơn tin theo chủ đề Đại học Đà Nẵng [6] Nguyễn Thị Hồng Nhung, Nguyễn Thị Tuyết Mai Hệ thống tìm kiếm thơng tin xun ngôn ngữ Việt – Anh – Hoa [7] Nguyễn Tiến Thanh (2010)- Trích chọn quan hệ thực thể Wikipedia Tiếng Việt dựa vào phân tích cú pháp Trƣờng Đại học Công nghệ [8] Trần Ngọc Phúc (2012) – Phân loại nội dung tài liệu Web Trƣờng Đại học Lc Hng Ngoi nc [9] Peter Schăonhofen Identifying document topics using the Wikipedia category network Computer and Automation Research Institute Hungarian Academy of Sciences Kende u 13–17, H-1111 Budapest [10] S F Adafre and M de Rijke Discovering missing links in Wikipedia In Proc of the 3rd int‟l workshop on Link discovery, pages 90–97, 2005 56 [11] M Aery, N Ramamurthy, and Y A Aslandogan Topic identification of textual data Technical Report CSE-2003-25, University of Texas at Arlington, Department of Computer Science and Engineering, 2003 [12] D Ahn, V Jijkoun, G Mishne, K Măuller, M de Rijke, and S Schlobach Using Wikipedia at the TREC QA track In Proc of the 13rd Text Retrieval Conf (TREC), 2004 [13] R Baeza-Yates and B Ribeiro-Neto Modern Information Retrieval Addison Wesley, 1999 [14] F Bellomi and R Bonato Network analysis for Wikipedia In Proc of Wikimania 2005, the 1st Int‟l Wikimedia Conf.,2005 [15] C.-Y Lin Knowledge-based automatic topic identification In Meeting of the Association for Computational Linguistics, pages 308–310, 1995 [16] C.-Y Lin Robust automated topic identification PhD thesis, University of Southern California, 1997 [17] A K McCallum Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering http://www.cs.cmu.edu/˜mccallum/bow, 1996 [18] G Mishne, M de Rijke, and V Jijkoun Using a reference corpus as a user model for focused information retrieval J of Digital Information Management, 3(1):47–52, 2005 [19] R Navigli Automatically extending, pruning and trimming general purpose ontologies In Proc of the 2nd IEEE Int‟l Conf on Systems, Man and Cybernetics, 2002 57 [20] M Ruiz-Casado, E Alfonseca, and P Castells Automatic assignment of Wikipedia encyclopedic entries to wordnet synsets In Proc of the 3rd Int‟l Atlantic Web Intelligence Conf (AWIC), pages 380–386, 2005 [21] M Ruiz-Casado, E Alfonseca, and P Castells Automatic extraction of semantic relationships for wordnet by means of pattern learning from Wikipedia In Proc of the 10th Int‟l Conf on Applications of Natural Language to Information Systems (NLDB), pages 67–79, 2005 [22] H Schmid Probabilistic part-of-speech tagging using decision trees In Proc of the Int‟l Conf on New Methods in Language Processing, Manchester, UK, 1994 [23] B Stein and S M zu Eien Topic identification: Framework and application In Proc of the 4th Int‟l Conf on Knowledge Management (I-KNOW 04), pages 353–360, 2004 [24] S Tiun, R Abdullah, and T E Kong Automatic topic identification using ontology hierarchy In Proc of the 2nd Int‟l Conf on Computational Linguistics and Intelligent Text Processing, pages 444–453, London, UK, 2001 [25] M Văolkel, M Krăotzsch, D Vrandecic, H Haller, and R Studer Semantic Wikipedia In Proc of the 15th int‟l conf on World Wide Web WWW2006, 2006 [26] J Voss Measuring Wikipedia In Proc of the Int‟l Conf Of the Int‟l Society for Scientometrics and Informetrics, Stockholm, Sweden, 2005 [27] Chau Q Nguyen, Tuoi T Phan An Ontology–Based Approach for Key Phrase Extraction 58 Trang web [28] http://vi.wikipedia.org/wiki/Wikipedia:Gi%E1%BB%9Bi_thi%E1%BB%87u [29] http://www.google.com.vn//giaidap/thread?tid=4a6585a2692334fa [30] http://dantri.com.vn/blog/tu-wiki-co-nghia-la-gi-443030.htm [31] https://voer.edu.vn/m/nhung-uu-diem-cua-mo-hinh-web-wiki/40d9cfad [32] http://tuanvietnam.vietnamnet.vn/wikipedia-hoat-dong-nhu-the-nao-phan-i [33] http://dumps.wikimedia.org/enwiki/latest/ ... phí Wikipedia đạt đến tầm mức nhƣ ontology (bản thể luận) phân loại sử dụng để nhận diện chủ đề có tài liệu văn Vì đề tài ? ?Nhận biết chủ đề tài liệu dựa Wikipedia? ?? giúp hỗ trợ ngƣời dùng nhận biết. .. ngành: Công nghệ Thông tin MSHV: 1341860016 I- Tên đề tài: Nhận biết chủ đề tài liệu dựa Wikipedia II- Nhiệm vụ nội dung: - Khảo sát, phân tích hệ thống chủ đề tài liệu dạng văn lƣu trữ Wikipedia. .. DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HOÀNG OANH NHẬN BIẾT CHỦ ĐỀ TÀI LIỆU DỰA TRÊN WIKIPEDIA LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201