Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
9,04 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN « NGUYỄN THÀNH LN KHAI THÁC DỮ LIỆU MẠNG XÃ HỘI ĐỂ NÂNG CAO HIỆU QUẢ TÌM KIẾM WEB THEO HƯỚNG NGƯỜI DÙNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TP HỒ CHÍ MINH - 2017 LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu cá nhân tôi, không chép Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tơi xin hồn tồn chịu trách nhiệm cơng trình nghiên cứu Học viên Nguyễn Thành Luân Page ii LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn chân thành sâu sắc đến PGS.TS Vũ Thanh Nguyên hướng dẫn nhiệt tình tạo điều kiện để tơi hồn thành tốt luận văn Trong thời gian làm việc với thầy học hỏi nhiều kiến thức bổ ích mà học tinh thần làm thái độ làm việc nghiêm túc Bên cạnh đó, chúng tơi xin gởi lời cảm ơn chân thành đến tất quý thầy cô trường Đại học Công Nghệ Thông Tin Thầy cô không truyền dạy cho kiến thức tảng vơ bổ ích mà chia sẻ thêm cho kinh nghiệm quý báu phương pháp nghiên cứu Tôi xin hứa vận dụng tốt kiến thức q trình học tập, nghiên cứu làm việc tới Gia đình vừa nguồn động viên, vừa chỗ dựa tinh thần cho tơi hồn thành khóa luận Tuy có lúc căng thẳng, mệt mỏi không chùn bước động viên tích cực từ phía gia đình Tơi xin cảm ơn gia đình động viên ủng hộ suốt trình nghiên cứu Mặc dù cố gắng hồn thiện luận văn với tất nỗ lực thân, chắn tránh khỏi thiếu sót Tơi kính mong nhận thơng cảm bảo quý Thầy Cô bạn Tôi xin chân thành cảm ơn! Học viên Nguyễn Thành Luân Page iii MỤC LỤC LỜI CAM ĐOAN ii LỜI CẢM ƠN iii DANH MỤC ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT .3 DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VÀ ĐỒ THỊ CHƯƠNG GIỚI THIỆU ĐỀ TÀI .8 1.1 Giới thiệu 1.2 Đặt vấn đề 1.3 Phương pháp tiếp cận 10 1.4 Các cơng trình liên quan 11 1.5 Mục tiêu phạm vi khóa luận .12 1.6 Cấu trúc luận văn 13 CHƯƠNG CƠ SỞ LÝ THUYẾT 14 2.1 Cơng cụ tìm kiếm thơng tin 14 2.2 Các thành phần hệ thống tìm kiếm 16 2.3 Giới thiệu giải thuật PageRank 17 2.3.1 Giới thiệu .17 2.3.2 Mơ hình PageRank 18 2.3.3 Giải thuật PageRank 19 2.4 Giải thuật LPageRank 21 2.5 Chú thích cộng đồng (Social Annotation) .23 2.5.1 Ý nghĩa mục đích thích .23 2.5.2 Một số hệ thống mạng xã hội, thích phổ biến .24 2.6 Mạng xã hội Twitter Twitter APIs 35 2.6.1 Mạng xã hội Twitter 35 2.6.2 Twitter APIs 37 Page 2.7 Mơ hình khơng gian vector 38 2.7.1 Mơ hình Boolean 39 2.7.2 Mơ hình tần suất 40 2.8 Hệ thống tìm kiếm với thích cộng đồng 41 2.8.1 Xếp hạng tương đồng dựa Term-Matching 43 2.8.2 Độ đo Social Similarity Ranking – SSR 44 2.8.3 Xếp hạng trang web với độ đo SocialPageRank (SPR) .47 2.8.4 Chuẩn hoá câu truy vấn với giải thuật Personalized Social Query Expansion (SoQuES) 49 2.8.5 Xếp hạng trang web với phương pháp Social Personalized Ranking (SoPRa) .52 CHƯƠNG XÂY DỰNG HỆ THỐNG 55 3.1 Mơ hình hệ thống 55 3.2 Phân hệ hoạt động offline 56 3.3 Tiền xử lý liệu 59 3.4 Search Engine 60 CHƯƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ .62 4.1 Phương pháp đánh giá 62 4.2 Môi trường thực nghiệm 63 4.3 Dữ liệu thực nghiệm 63 4.4 Kết thực nghiệm 64 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67 5.1 Kết đạt 67 5.2 Những khó khăn hạn chế 68 5.3 Hướng phát triển 68 TÀI LIỆU THAM KHẢO 70 Page DANH MỤC ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Annotation Chú thích Crawler Chương trình thu thập liệu web Twitter Hệ thống mạng xã hội Descriptions Mô tả Index Chỉ mục Internet Hệ thống mạng thơng tin tồn cầu Keywords Từ khóa Link Liên kết Mean Average Precision Độ xác trung bình Offline Không trực tuyến Online Trực tuyến Page Trang web Search engine Cỗ máy/Cơng cụ tìm kiếm Social search Tìm kiếm với thích xã hội Search engine user Người sử dụng cơng cụ tìm kiếm Server Máy chủ Social Annotation Chú thích cộng đồng Spider Một dạng tác tử thăm dò trang web Tag Chú thích User Người sử dụng Page Web log Nhật ký truy cập web Web page annotator Người thích trang web Web page creator Người tạo lập trang web Website Tập hợp trang web nằm tên miền Term Frequency – Inverse Document Frequency Trọng số từ khóa – TD-IDF Term Frequency Tần số xuất từ khóa tài liệu Inverse Document Frequency Tần số xuất từ khóa tất tài liệu Page DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt A HTML MAP P Thuật ngữ Annotaion Hypertext Text Markup Language Mean Average Precision Page VSM Vector Space Model SSR Social Similarity Ranking SPR Social Page Ranking SoPRa SoQuES U URL Social Personalized Ranking Personalized Social Query Expansion User Uniform Resource Locator Page DANH MỤC CÁC BẢNG Bảng 2.1 Danh sách 15 trang web thích phổ biến [18] 25 Bảng 2.2 Các thuật ngữ Twitter 36 Bảng 4.1 Kết đánh giá độ đo Average Precision 64 Page DANH MỤC HÌNH VÀ ĐỒ THỊ Hình 2.1 Mơ tả liên kết vào liên kết giải thuật PageRank 18 Hình 2.2 Hệ thống Facebook (https://www.facebook.com) .26 Hình 2.3 Hệ thống Twitter (https://twitter.com) .27 Hình 2.4 Hệ thống Pinterest (http://pinterest.com) 28 Hình 2.5 Hệ thống Google+ (https://plus.google.com) 29 Hình 2.6 Hệ thống reddit (http://www.reddit.com) 30 Hình 2.7 Hệ thống StumbleUpon (http://www.stumbleupon.com) 31 Hình 2.8 Hệ thống Delicious (http://delicious.com) 32 Hình 2.9 Hệ thống digg (http://digg.com) 33 Hình 2.10 Hệ thống FARK (http://www.fark.com) 34 Hình 2.11 Hệ thống Slashdot (http://slashdot.org) 35 Hình 2.12 Kiến trúc mơ hình REST API 37 Hình 2.13 Kiến trúc mơ hình Streaming API 38 Hình 2.14 Minh họa hệ thống social search với SocialSimRank [1] 42 Hình 2.15 Minh họa giải thuật SocialSimRank 45 Hình 2.16 Minh họa trình tính tốn SPR [1] 49 Hình 2.17 Minh họa độ đo trang web phương pháp SoPRa 53 Hình 3.1 Mơ hình hoạt động hệ thống tìm kiếm 56 Hình 3.2 Cấu trúc hoạt động Data Miner 57 Hình 3.3 Quá trình thu thập liệu từ twitter.com 58 Hình 3.4 Mơ hình hoạt động Search Engine 60 Hình 4.1 Biểu đồ thể giá trị Average Precision câu truy vấn .65 Page • AnnotationGraph: Thể cấu trúc đồ thị thực ma trận người dùng, thích trang • SocialSimRank: Dùng để tính tốn độ đo SocialSimRank Quá trình thu thập liệu từ website twitter.com tiến hành sau: Twitter Twitter Streaming API Tweet Valid? No Stop Yes Add Page to Graph Add User to Graph Add Tag to Graph Add Edge Page-User-Tag Hình 3.3 Quá trình thu thập liệu từ twitter.com Page 58 Bước 1: Thực tải tweet gần từ website twitter.com thông qua Twitter Streamming API Đây cổng cho phép download tweet người dùng theo thời gian thực Bước 2: Ứng với tweet thoả điều kiện (chứa thích trang web), tiến hành: - Thêm trang web vào đồ thị AnnotationGraph - Thêm user trang web vào đồ thị AnnotationGraph - Lấy danh sách thích mà user sử dụng - Thêm danh sách thích mà user sử dụng vào đồ thị AnnotationGraph - Xây dựng cạnh cho user, trang web tag Bước 3: Tính độ đo SSR dựa tập liệu thu thập 3.3 Tiền xử lý liệu Sau có nguồn liệu thu thập từ hệ thống Twitter, module Clean Up tiến hành chuẩn hoá, làm liệu qua thao tác sau trước sử dụng cho thực nghiệm: - Loại bỏ địa trang web mà không thuộc ngôn ngữ tiếng Anh thông qua Apache Tika toolkit - Loại bỏ thích vô nghĩa “!picspam”, “atthissummer” dựa từ điển WordNet [21] - Loại bỏ thích stop word - Đối với thích chứa ký tự đặc biệt @, #, $, %, ^, &, *, ~, …, ký tự đặc biệt xóa bỏ khỏi thích Ví dụ: #table => table book_store => book store Page 59 3.4 Search Engine Là thành phần giao tiếp trực tiếp với người sử dụng hệ thống, module thực việc tìm kiếm xếp trang tìm kiếm dựa vào tất liệu chuẩn bị sẵn bước Mơ hình hoạt động Search Engine sau: Bắt đầu xử lý Nhận truy vấn từ người dùng Tìm trang phù hợp Hiển thị thơng báo khơng có trang phù hợp No Tìm thấy? Yes Ranking trang Hiển thị kết Kết thúc Hình 3.4 Mơ hình hoạt động Search Engine Page 60 Q trình thực tìm kiếm gồm bước chính: • Nhận câu truy vấn: Người sử dụng nhập câu truy vấn vào phần nhận câu truy vấn hệ thống • Tìm kiếm trang phù hợp với câu truy vấn: Chương trình thực tính tốn độ đo tìm trang phù hợp với truy vấn Kết bước danh sách trang web có kết chứa tương đồng với từ khóa (chú thích) cần tìm • Sắp xếp tập trang tìm theo độ đo SoPRa hiển thị kết Bên cạnh đó, chương trình hiển thị liên kết (link) trang kết tương ứng Page 61 CHƯƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương mô tả kết thực nghiệm tiến hành đánh giá hiệu module hệ thống 4.1 Phương pháp đánh giá • Đánh giá hiệu module xây dựng: để đánh giá hiệu module cách triệt để cần đánh giá độ phức tạp giải thuật thực bên nhiều yếu tố khác Trong phạm vi đề tài này, hiệu đánh giá chủ yếu thông quan thời gian thực module đó, đánh giá xem liệu hiệu có khả thi hay khơng đưa vào sử dụng thực tế • Đánh giá cơng cụ tìm kiếm: để đánh giá cơng cụ tìm kiếm, đề tài chọn vài từ khóa tiến hành đánh giá qua độ đo Mean Average Precision Cho Q = {q1, q2, …, qN} tập câu truy vấn Chọn R = {r1, r2, …., rk} top K tập kết trả về, ri mã hóa sau: ⎧1, if relevance ri = ⎨ ⎩ 0, otherwise Đánh giá liên kết trả có tương quan hay không tương quan tùy vào ý kiến chủ quan người dùng, thực nghiệm chọn 10 kết để đánh giá Average Precision (AveP): đo lường mức độ xác tập kết trả | {rk , rk = 1, k ≤ j} | j j =1 AvP(qi ) = | {rk , rk = 1} | K ∑ Trong đó, Page 62 {rk, rk=1, k≤j}: số kết phù hợp tính đến j |{rk, rk=1}: tổng số kết phù hợp Mean Average Precision (MAP): tính trung bình độ xác câu truy vấn N ∑ AvP(q ) i Mean AveragePrecision( MAP ) = i =1 |Q| |Q|: số lượng câu truy vấn 4.2 Môi trường thực nghiệm Công cụ tìm kiếm xây dựng framework Ruby on Rails Dữ liệu lưu trữ PostgreSQL Hệ thống chạy máy Laptop cấu hình: Intel Core i5 CPU (8 CPUs) 2.9 Ghz, RAM 8G 4.3 Dữ liệu thực nghiệm Dữ liệu thích cộng đồng tải từ trang twitter.com thông qua Twitter Streaming API Module DataMiner tiến hành thu thập liệu theo thời gian thực hình Hình 4.1 Hoạt động Data Miner Page 63 Đến thời điểm thử nghiệm, liệu thu thập sau chuẩn hố mơ tả bảng sau: Bảng 4.1 Dữ liệu từ Twitter Tweets Người dùng Chú thích URL 520 358 365 939 162 987 745 286 4.4 Kết thực nghiệm Để đánh giá hiệu Search Engine, chọn số từ khóa bất kỳ, từ khóa tiến hành tìm kiếm chọn 10 tập kết để tính Average Precision Kết bảng 4.2 Bảng 4.2 Kết đánh giá độ đo Average Precision Độ tương đồng kết thứ i Từ khóa Book online 1.0 1.0 0.0 0.8 0.8 0.8 0.9 0.0 0.8 0.0 6.0 0.86 Html 1.0 0.0 0.7 0.8 0.0 0.7 0.7 0.8 0.0 0.7 5.2 0.75 Semanticweb 1.0 1.0 1.0 0.0 0.8 0.8 0.0 0.8 0.0 0.0 5.4 0.9 Chemical 1.0 1.0 0.0 0.8 0.8 0.8 0.9 0.0 0.0 0.7 5.9 0.85 Education 1.0 0.0 7.0 0.0 0.6 0.7 0.7 0.8 0.8 0.0 5.2 0.74 1.0 0.0 0.7 0.8 0.8 0.8 0.0 0.8 0.8 0.0 5.6 0.8 1.0 0.0 0.7 0.8 0.0 0.7 0.7 0.8 0.8 0.8 6.1 0.77 1.0 1.0 1.0 1.0 0.0 0.8 0.9 0.0 0.0 0.0 5.7 0.95 Visual studio 2010 Computer Science Music 10 Sum Rel AveP TT Page 64 Study english 1.0 1.0 0.0 0.8 0.8 0.8 0.9 0.9 0.0 0.0 6.1 0.87 10 Android app 0.87 1.0 0.0 0.7 0.0 0.6 0.7 0.7 0.8 0.8 0.0 5.2 0.8 0.6 0.4 0.2 Book online Html Semanticweb Chemical 10 Education 0.8 0.6 0.4 0.2 Visual studio 2010 Computer Science Music Study english 10 Android app Hình 4.2 Biểu đồ thể giá trị Average Precision câu truy vấn Page 65 Từ kết thống kê trên, chúng tơi tính tốn độ xác trung bình hệ thống MAP = 0.836 Điều cho thấy, độ xác trung bình hệ thống cao, đạt 83.6% Page 66 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chương đưa kết luận khó khăn thuận lợi giải vấn đề từ đề xuất hướng phát triển tương lai 5.1 Kết đạt Trong khóa luận này, chúng tơi tìm hiểu tổng quan cơng cụ cụ tìm kiếm, phân tích số giải thuật giúp nâng cao hiệu tìm kiếm sử dụng SoPRa, SoQuES Nghiên cứu thích cộng đồng vấn đề sử dụng chúng vào cơng cụ tìm kiếm Chúng quan sát thấy thích lên khơng cung cấp tóm tắt nhiều mặt mà cung cấp chất lượng trang web Cụ thể, thích cộng đồng có lợi cho cơng cụ tìm kiếm xếp hạng tương đồng xếp hạng tĩnh Vì vậy, xây dựng công cụ thực download thích từ mạng xã hội twitter.com Đồng thời tiến hành lọc bỏ thích rác xuất thích cộng đồng, để cung cấp nguồn liệu cho cơng cụ tìm kiếm Thơng qua cài đặt thuật tốn đo mức độ tương đồng thích xếp hạng trang web ứng dựng cơng cụ tìm kiếm Kết tìm kiếm khắc phục cứng nhắc việc tìm kiếm xác từ khóa câu truy vấn Nghiên cứu tận dụng ưu điểm quan tâm sở thích người dùng web để hỗ trợ người dùng tìm kiếm cách nhanh chóng thơng tin mà họ cần Kết tìm kiếm cho thấy mơ hình ứng dụng thích cộng đồng vào cơng cụ tìm kiếm hướng nghiên cứu khả thi có tiềm ứng dụng cao cơng cụ tìm kiếm Song với thời gian xây dựng ứng dụng có hạn nên nhiều hạn chế cần phải hồn thiện Page 67 5.2 Những khó khăn hạn chế Thứ nhất, sau tiến hành tiền xử lý liệu thích cộng đồng việc lọc bỏ thích rác khỏi tập liệu có số vấn đề gặp phải với liệu thích cộng đồng là: • Độ bao phủ thích: Người dùng gửi truy vấn khơng phù hợp với thích cộng đồng Trong trường hợp này, SSR không áp dụng SoPRa tiếp tục cung cấp trang web phổ biến cho người dùng Ngoài ra, nhiều trang web khơng có thích Có thể trang trang người dùng khơng quan tâm • Chú thích mơ hồ: Chú thích khơng rõ ràng vấn đề khác có liên quan đến thuật tốn SSR Nghĩa là, SSR tìm thấy thuật ngữ tương tự với thuật ngữ truy vấn thất bại với thuật ngữ đa nghĩa, thuật ngữ mà có nhiều nghĩa Ví dụ, “ticket” “airplane ticket” “concert ticket”, thuật ngữ có hai ý nghĩa khác bị xáo trộn Thứ hai, chúng tơi chưa phân tích truy vấn người dùng để biết người dùng quan tâm đến chủ đề mà hướng kết cho người dùng xác Đây vấn đề thiếu sót cần phải hồn thiện để phát triển hồn chỉnh mơ hình tìm kiếm ứng dụng với thích cộng đồng 5.3 Hướng phát triển Trong kết so với Google tỉ lệ độ bao phủ chưa cao Đây điểm cần cải tiến cho chương trình Mơ hình cần xây dựng thêm chế tách thuật ngữ xử lý thuật ngữ thành kho liệu cung cấp cho cơng cụ tìm kiếm thay sử dụng trực tiếp Page 68 Xử lý vấn đề nhập nhằng (đa nghĩa) thích cộng đồng Để nâng cao độ xác kết tìm kiếm, cần phân tích truy vấn người dùng ứng dụng phân lớp để nhóm liệu gần với mong muốn người dùng Page 69 TÀI LIỆU THAM KHẢO [1] S Bao, G Xue, X Wu, Y Yu, B Fei, Z Su (2007), “Optimizing web search using social annotations”, in: Proceedings of the 16th International Conference on World Wide Web, pp 501–510, WWW '07, ACM, New York, NY, USA [2] S Xu, S Bao, B Fei, Z Su, Y Yu (2008), “Exploring folksonomy for personalized search” In: SIGIR [3] Pavel A Dmitriev, Nadav Eiron, Marcus Fontoura, and Eugene Shekita (2006), “Using annotations in enterprise search”, In WWW ’06: Proceedings of the 15th international conference on World Wide Web, pages 811–817, New York, NY, USA [4] Lawrence Page, Sergey Brin, Rajeev Motwani , Terry Winograd (1998), The PageRank citation ranking: Bringing Order to the Web [5] M.G Noll, C Meinel (2007), “Web search personalization via social bookmarking and tagging”, in: ISWC'07 and ASWC'07 [6] Freyne J., Farzan R., Brusilovsky P., Smyth B., and Coyle M, Collecting (2007), Community Wisdom: Integrating Social Search & Social Navigation In Proceedings of International Conference on Intelligent User Interfaces, January 28-31, Honolulu, Hawaii, United States [7] Ding Zhou, Jiang Bian, Shuyi Zheng, Hongyuan Zha, and C Lee Giles (2008), “Exploring social annotations for information retrieval”, In WWW ’08: Proceeding of the 17th international conference on World Wide Web, pages 715– 724, New York, NY, USA [8] Vu Thanh Nguyen (2009), “Using social annotation and web log to enhance local search engine”, IJCSI International Journal of Computer Science Issues, Vol 6, No Page 70 [9] D Vallet, I Cantador, and J M Jose (2010), “Personalizing web search with folksonomy based user and document profiles”, In ECIR [10] Y Lin, H Lin, S Jin, and Z Ye (2011), “Social annotation in query expansion: a machine learning approach”, In SIGIR [11] M.R Bouadjenek, H Hacid, M Bouzeghoub, Johann Daigremont (2011), “Personalized social query expansion using social bookmarking systems”, in: Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2011, Beijing, China, July 2529 [12] M.R Bouadjenek, H Hacid, M Bouzeghoub (2013), “SoPRa: a new social personalized ranking function for improving web search”, in: Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR '13, ACM, New York, NY, USA [13] M.R Bouadjenek, A Bennamane, H Hacid, M Bouzeghoub (2013), “Evaluation of personalized social ranking functions of information retrieval, in: F Daniel, P Dolog, Q Li (Eds.), Web Engineering, Lecture Notes in Computer Science, vol 7977, Springer, Berlin, Heidelberg [14] M.R Bouadjenek, A Bennamane, H Hacid, M Bouzeghoub (2016), “Social Networks and Information Retrieval, How Are They Converging? A Survey, a Taxonomy and an Analysis of Social Information Retrieval Approaches and Platforms” Information Systems, 56 [15] Taher H Haveliwala (2003), Topic-Sensitive PageRank: A Context – Sensitive Ranking Algorithm for Web Search [16] Qing Cui, Alex Dekhtyar (2005), On Improving Local Website Search Using Web Server Traffic Logs: A Preliminary Report [17] Twitter, https://twitter.com Page 71 [18] Top 15 Most Popular Social Bookmarking Websites (Dec 2016), http://www.ebizmba.com/articles/social-bookmarking-websites [19] Twitter Statistics (Oct 2016), https://www.statista.com/topics/737/twitter [20] Wikipedia, https://www.wikipedia.org [21] Wordnet, http://wordnet.princeton.edu Page 72 ... hợp khai thác mối quan tâm người dùng để nâng cao hiệu tìm kiếm Do vậy, luận văn tập trung khai thác nguồn thích cộng đồng từ mạng xã hội Twitter, sau tiến hành chuẩn hoá câu truy vấn người dùng. .. [5] đề xuất phương pháp tìm kiếm hướng người dùng, phương pháp khai thác thích người dùng trang web để cải thiện hệ thống tìm kiếm web Phương pháp đơn giản mang lại hiểu cao - Năm 2008, Ding Zhou... cầu người dùng theo khía cạnh thời gian tìm kiếm nhanh lẫn tính phù hợp cao trang thơng tin kết tìm với yêu cầu tìm kiếm người dùng Như vậy, việc tìm kiếm thơng tin web khơng đơn giống tài liệu