PHÁT HIỆN SỰ TRÙNG LẶP NỘI DUNG CỦA CÁC BÀI BÁO

49 459 1
PHÁT HIỆN SỰ TRÙNG LẶP NỘI DUNG CỦA CÁC BÀI BÁO

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Hồng PHÁT HIỆN SỰ TRÙNG LẶP NỘI DUNG CỦA CÁC BÀI BÁO KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2013 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Hồng PHÁT HIỆN SỰ TRÙNG LẶP NỘI DUNG CỦA CÁC BÀI BÁO KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hƣớng dẫn: TS Phan Xuân Hiếu Cán đồng hƣớng dẫn: ThS Trần Mai Vũ HÀ NỘI – 2013 ii PHÁT HIỆN SỰ TRÙNG LẶP NỘI DUNG CỦA CÁC BÀI BÁO Phạm Thị Hồng Khóa QH-2009-I/CQ, ngành hệ thống thông tin Tóm tắt Khóa luận tốt nghiệp: Hiện phát triển nhanh chóng báo Điện tử dẫn đến loạt báo có nội dung giống xuất nhiều trang web Do toán phát trùng lặp báo toán thời sự, có ý nghĩa, đặc biệt hệ thống tìm kiếm Bản báo Web nhiều Các báo có khác phần quảng cáo, font chữ, cỡ chữ, nhãn thời gian… khác biệt không thích hợp trang tìm kiếm Trên sở phân tích tìm hiểu số hướng tiếp cận toán so sánh hai tài liệu, khóa luận áp dụng phương pháp lấy dấu vân tài liệu so sánh dấu vân để phát giống Dữ liệu thu thập từ web lưu trữ file text tiến hành trình xử lý liệu, từ làm liệu đầu vào cho mô hình học liệu để tìm dấu vân đặc trưng cho báo Khóa luận đưa mô hình thử nghiệm dựa mô hình lấy dấu vân simhash, tìm tập đặc trưng trọng số chúng báo Kết bước đầu cho thấy, mô hình khả quan tiếp tục thực nghiệm pha xử lý Từ khóa: Trùnglặp, đạo văn, chép, phát hiện, Simhash, Rabin, dấu vân, chữ ký iii LỜI CAM ĐOAN Em xin cam đoan phần nghiên cứu thực khóa luận riêng em, hướng dẫn PTS.TS Hà Quang Thụy TS Phan Xuân Hiếu ThS Trần Mai Vũ, không chép từ công trình nghiên cứu khác Em trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tế Nếu sai em xin chịu hoàn toàn trách nhiệm chịu kỷ luật ĐHQH Hà Nội Nhà trường Hà Nội, ngày 19 tháng năm 2013 Sinh viên Phạm Thị Hồng iv LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Hà Quang Thụy TS.Phan Xuân Hiếu ThS.Trần Mai Vũ người tận tình hướng dẫn em suốt trình nghiên cứu khoa học thực khóa luận tốt nghiệp Em xin chân thành cảm ơn thầy, cô giáo giảng dạy em bốn năm học qua, kiến thức mà em nhận giảng đường đại học hành trang giúp em vững bước tương lai Em xin gửi lời cảm ơn tới anh chị, bạn sinh viên phòng thí nghiệm KT-Sislab cho em lời khuyên bổ ích chuyên môn trình nghiên cứu Em xin gửi lời cảm ơn tới bạn lớp K54CD ủng hộ khuyến khích em suốt trình học tập trường Cuối cùng, em muốn gửi lời cảm ơn sâu sắcđến tất bạn bè, đặc biệt ba mẹ chị - người thân yêu kịp thời động viện giúp đỡ em vượt qua khó khăn học tập sống Hà Nội, ngày 19 tháng 05 năm 2013 Sinh viên Phạm Thị Hồng v MỤC LỤC Tóm tắt Khóa luận tốt nghiệp iii LỜI CAM ĐOAN iv DANH SÁCH CÁC BẢNG viii DANH SÁCH CÁC HÌNH VẼ ix DANH SÁCH CÁC TỪ VIẾT TẮT x MỞ ĐẦU Chương Sự phát báo gần 1.1 Sự phát triển trang web 1.2 Phát trùng lặp 1.2.1 Động lực mục đích 1.2.2 Các văn trùng lặp gần trùng lặp 1.2.3 Phát biểu toán phát trùng lặp nội dung báo Chương Một số hướng tiếp cận toán, khái niệm công việc liên quan 2.1 Shingling 2.2 I-Match 2.3 Phép chiếu ngẫu nhiên .10 2.4 SpotSigs 10 2.5 Sự tương đồng (resemblance) hai tài liệu .11 2.6 Ước tính tương đồng (resemblance) 14 2.7 Lấy dấu vân shingle .17 2.7.1 2.8 Lấy dấu vân shingle dấu vân Simhash 17 Nén dấu vân 26 Chương Mô hình thực nghiệm .28 3.1 Loại bỏ từ dừng 29 3.2 Quá trình shingling tài liệu .29 3.3 Lấy dấu vân tài liệu simhash 30 3.4 So sánh dấu vân 30 Chương Thực nghiệm đánh giá kết .31 4.1 Môi trường thực nghiệm 31 4.1.1 Cấu hình phần cứng .31 4.1.2 Công cụ phần mềm 31 4.2 Dữ liệu thực nghiệm .32 vi 4.3 Thực nghiệm 33 4.4 Kết thực nghiệm 35 4.5 Nhận xét 36 Kết Luận 37 Tài liệu tham khảo 38 vii DANH SÁCH CÁC BẢNG Bảng 1: Bảng từ dừng 29 Bảng 2: Cấu hình phần cứng 31 Bảng 3: Công cụ phần mềm 31 viii DANH SÁCH CÁC HÌNH VẼ Hình 1:Ảnh chụp từ báo trang web khác Hình 2: Độ tương đồng hai tài liệu D1 D2 13 Hình 3:Minh họa lấy dấu vân simhash [5] 18 Hình 4: Độ xác độ hồi tưởng với giá trị khác k [5] 21 Hình 5: Sự phân bố 1-bit hàng đầu [5] 22 Hình 6: Bucketization dấu vân [5] 23 Hình 7: File liệu thực nghiệm 32 Hình 8: Nội dung báo 32 Hình 9: Nội dung báo loại bỏ thẻ html 33 Hình 10: Kết sử dụng JvnTextPro cho báo 34 Hình 11: Kết 4-shingling cho báo 34 Hình 12: Kết lấy dấu vân 2000 báo 35 Hình 13: Kết thực nghiệm 36 ix DANH SÁCH CÁC TỪ VIẾT TẮT Mô tả Từ viết tắt IR Information Retrieval NDD Near Dupplicate Detection IDF Inverse Document Frequency TF-IDF Term Frequency- Inverse Document Frequency LSH Locality Sensitive Hashing x Bƣớc 2: Đối với hoán vị dấu vân tay xác định bước 1, kiểm tra xem có khác với πi (F) hầu hết k vị trí bit hay không Trong Bước 1, xác định dấu vân tay bảng Ti có top pi-bit vị trí phù hợp với pi top-bit vị trí πi (F) thực O (pi) bước tìm kiếm nhị phân Thăm dò thông số thiết kế : Ví dụ[4]: Xét f = 64 (các dấu vân tay 64-bit), k = đó, dấu vân gần trùng lặp khác tối đa vị trí bit Giả sử có 8B = 234 dấu vân có, tức d = 34 Dưới bốn mẫu thiết kế khác nhau, mẫu thiết kế có tập khác hoán vị giá trị pi 20 bảng: Chia 64 bit thành khối có 11, 11, 11, 11, 10 10 bit tương ứng Có = 20 cách chọn khối khối Đối với lựa chọn vậy, hoán vị π tương ứng để tạo bit nằm bit khối lựa chọn hàng đầu bit (có số hoán vị vậy; chọn số chúng thống cách ngẫu nhiên) Giá trị pi tổng số bit khối chọn.Vì pi = 31, 32 33 Trung bình, thăm dò lấy nhiều 234-31= (hoán vị) dấu vân 16 bảng: Chia 64 bit thành khối, khối có 16 bit Có = cách lựa chọn khối khối Đối với lựa chọn vậy, chia 48 bit lại vào bốn khối, khối có 12 bit Có 41 = cách lựa chọn khối Hoán vị cho bảng tương ứng với cách đặt bit vào khối chọn vị trí hàng đầu (leading) Giá trị pi 28 tất khối Trung bình, thăm dò lấy 234-28 = 64 (hoán vị) dấu vân 10 bảng: Chia 64 bit thành khối có 13,13,13,13 12 bit tương ứng Có Có = 10 cách chọn khối khối Đối với lựa chọn vậy, hoán vị π Tương ứng để tạo bit nằm khối lựa chọn hàng đầu bit Giá trị pi tổng số bit khối chọn Vì pi = 25 26 Trung bình, thăm dò lấy nhiều 234-25 = 512 (hoán vị) dấu vân 25 bảng: Chia 64 bit thành khối, có 16 bit Có = cách lựa chọn khối khối Đối với lựa chọn vậy, hoán vị π Tương ứng để làm cho bit nằm khối lựa chọn hàng đầu bit Giá trị pi tổng số bit khối chọn.Vì pi = 16 Trung bình, thăm dò lấy nhiều 234-16 = 256 K (hoán vị) dấu vân Ví dụ cho thấy có nhiều lựa chọn thiết kế khác lựa chọn cố định f k Tăng số lượng bảng tăng pi làm giảm thời gian truy vấn Giảm số lượng bảng làm giảm yêu cầu lưu trữ, giảm pi dẫn đến làm tăng thời gian truy vấn 2.8 Nén dấu vân Nén dấu vân giảm bớt kích thước bảng lưu trữ dấu vân Ví dụ, kích thước bảng cho tỷ tài liệu dấu vân 64-bit giảm xấp xỉ nửa kích thước chúng Cái nhìn sâu sắc dấu vân tay chia sẻ d bit hàng đầu kỳ vọng[4] Để h biểu thị vị trí bit có ý nghĩa XOR hai dấu vân tay liên tiếp Như h lấy giá trị f - Đối với bảng đưa ra, tính toán phân bố giá trị h sau tính toán mã Huffiman [0; f - 1] cho phân phối Tiếp theo, chọn tham số B biểu thị kích thước block Một giá trị tiêu biểu cho B 1024 bytes Một block với B bytes có 8B bits Quét chuỗi xếp dấu vân bảng trình tự xếp (hoán vị) dấu vân tay bảng khối liên tiếp sau: Bƣớc 1: Các dấu vân tay block ghi nhớ hoàn toàn Việc tốn 8f bit Sau đó, Bước lặp lặp lại cho dấu vân tay block đầy, tức là, thực Bước mà không cần 8B + bit Bƣớc 2: Tính toán XOR dấu vân tay với dấu vân tay trước Tìm vị trí bit có ý nghĩa Gắn thêm mã Huffman cho vị trí bit đến block Sau đó, (gắn) thêm bit vào bên phải 1-bit có ý nghĩa khối đến block key liên quan đến block vân cuối ghi nhớ khối Khi dấu vân (hoán vị), tìm kiếm nội suy key giúp tìm khối để giải nén Tùy thuộc vào giá trị số pi d, phân bố dấu vân tay (simhash có xu hướng nhóm tài liệu tương tự với nhau) 26 Tóm tắt chƣơng Giới thiệu số nghiên cứu hướng tiếp cận giải toán phát trùng lặp cho báo Chương tập trung vào việc nêu đặc trưng hướng tiếp cận, trình bày chi tiết thực số kỹ thuật bản, sở phương pháp luận quan trọng để khóa luận đưa mô hình thực nghiệm dựa mô hình hệ thống tác giả xây dựng 27 Chƣơng Mô hình thực nghiệm Trên sở phân tích hướng tiếp cận giải phát trùng lặp báo, khóa luận lựa chọn cách giải toán xác định báo dấu vân dựa simhash Sau so sánh dấu vân với nhau, hai tài liệu khác nhiều k vị trí bit dấu vân đánh giá có nội dung giống/gần giống (với giá trị k nhỏ) Chương trình thực nghiệm thực kiểm tra báo điện tử thu thập xem có giống/gần giống với thu thập trước hay không, lấy báo điện tử viết Tiếng Việt Bƣớc 1: Thu thập báo điện tử Bƣớc 2: Lấy nội dung báo thu thập loại bỏ nhiễu (loại bỏ thẻ, định dạng, quảng cáo, nhãn thời gian, … có báo để 28 lấy nội dung sau loại bỏ sơ số từ có tần số xuất cao mà nhiều ý nghĩa Ở thực loại bỏ từ dừng chữ số, từ phủ định, …) Bƣớc 3: Thực shingling cho tài liệu Bƣớc 4: Lấy dấu vân cho tài liệu Bƣớc 5: So sánh cho kết 3.1 Loại bỏ từ dừng Một số từ có tần số xuất cao tài liệu mà không mang nhiều ý nghĩa, bị thay tài liệu khác, chỉnh sửa nội dung để biến thành viết họ Đó gọi đạo văn Chúng loại bỏ để giảm số lượng shingle tài liệu, giảm không gian lưu trữ công việc cần làm nhẹ nhàng hơn, mà lại không ảnh hưởng tới chất lượng phát trùng lặp từ không mang nhiều ý nghĩa Danh sách từ dừng tạo tay, dựa bảng thống kê sau: Bảng 1: Bảng từ dừng Ví dụ Loại từ Từ đếm Một, hai, ba, … Số đếm 1, 2, 3, … Từ phủ định Không, ngược lại, … Từ nối Và, nhưng, nhiên, thế, vậy, … Giới từ Ở, trong, trên, … Từ định Ấy, đó, nhỉ, … 3.2 Quá trình shingling tài liệu Chúng chọn cách tạo shingle tài liệu dựa từ, mà dựa chữ q-gram 29 Coi nội dung báo điện tử thu thập tài liệu D (sau thực bước loại bỏ nhiễu 3.1) Để sinh tập w-shingling tài liệu D, chọn w = 4, chương trình tự động nhóm tiếng cạnh tài liệu D ghi vào file txt 3.3 Lấy dấu vân tài liệu simhash Thực lấy dấu vân đặc trưng cho tài liệu D mô tả phần trên, chọn token từ Mỗi từ Tiếng Việt chứa nhiều tiếng, ví dụ quyển_sách, hình_ảnh, điện_thoại,… từ Mỗi shingle gồm từ, băm vào hàm băm 64bit Sau tính giá trị vecto 64 chiều, lấy dấu vân cuối theo 2.7.1 3.4 So sánh dấu vân Sau lấy dấu vân cho tài liệu sưu tập, ta lưu vào sở liệu mã tài liệu dấu vân tương ứng Mỗi thu thập trang web mới, lại thực lấy dấu vân trang web so sánh với dấu vân có tài liệu cách tìm khoảng cách Hamming Xác định ngưỡng k cho khoảng cách Hamming, khoảng cách Hamming hai báo nhỏ k kết luận chúng trùng lặp với Tóm tắt chƣơng Trên sở phân tích dựa vào miền liệu, khóa luận lựa chọn xây dựng mô hình thực nghiệm, phát trùng lặp nội dung báo dựa vào kỹ thuật shingling Broder cộng sự, đồng thời sử dụng simhash để lấy dấu vân cho tài liệu phục vụ cho trình so sánh phát trùng lặp Do hạn chế mặt thời gian kiến thức tiến hành thực nghiệm phần mô hình đề xuất Quá trình thực nghiệm kết thực nghiệm phần mô hình trình bày chương sau 30 Chƣơng Thực nghiệm đánh giá kết 4.1 Môi trƣờng thực nghiệm Chúng tiến hành thực nghiệm máy tính có cấu hình ổn định Với CPU có nhân Intel Core i3 2.27GHz, Ram 2G, dung lượng ổ cứng 500G, cài hệ điều hành Window Ultimate 32bit Cùng với công cụ phần mềm có sẵn, phục vụ cho trình thực thực nghiệm 4.1.1 Cấu hình phần cứng Bảng 2: Cấu hình phần cứng Thành phần Chỉ số CPU Intel Core i3 2.27Ghz RAM 2G HDD 500G OS Window Ultimate 32 bit 4.1.2 Công cụ phần mềm Bảng 3: Công cụ phần mềm STT Tên phần mềm Tác giả Nguồn Crawler http://code.google.com/p/crawler4j/ Eclipse SDK 4.2.0 http://www.eclipse.org/dowloads SQL Server 2008 Microsoft http://www.microsoft.com/ JVnTextPro-v.2.0 Phan Xuân Hiếu, Nguyễn Cẩm Tú http://sourceforge.net/projects/jvntex tpro/files/v2.0/ 31 4.2 Dữ liệu thực nghiệm Dữ liệu lấy từ 5.000 báo khoảng 30 trang báo điện tử uy tín Việt Nam, Sau trình phân tích tiến hành loại bỏ parser liệu nhiễu, nội dung báo ta thu báo “sạch” dạng txt lưu file News Hình 7: File liệu thực nghiệm Tiêu đề Nội dung Hình 8: Nội dung báo 32 4.3 Thực nghiệm Thực nghiệm tiến hành qua bước mô tả đây: Bước 1: Sử dụng công cụ Crawler để lấy liệu từ trang báo điện tử từ trang Baomoi.com Bước 2: Lọc lần 1: bỏ thẻ HTML lấy nội dung báo Hình 9: Nội dung báo đƣợc loại bỏ thẻ html Hình minh họa cho kết thu thực bước Nội dung báo lấy, không thẻ html Bước 3: Lọc lần 2: - Sử dụng công cụ JvnTextPro tác giả Phan Xuân Hiếu Nguyễn Cẩm Tú để tách câu, tách từ Sử dụng StopWord để loại bỏ từ dừng ký tự đặc biệt Bước 4: Shingling tài liệu, sử dụng chương trình 4Words cho liệu thu bước Bước 5: Lấy dấu vân cho báo, sử dụng chương trình fingerprint cho liệu thu bước Bước 6: So sánh đưa kết 33 Hình 10: Kết sử dụng JvnTextPro cho báo Hình 11: Kết 4-shingling cho báo 34 Hình 12: Kết lấy dấu vân 2000 báo 4.4 Kết thực nghiệm Độ xác, độ hồi tưởng độ đo F1 đo với giá trị k khác hình 13 Với k nhỏ, độ xác cao, độ hồi tưởng thấp, giá trị k lớn độ xác thấp, độ hồi tưởng cao Theo thực nghiệm cho test, giá trị k = hợp lý, cho độ đo F1 lớn Với giá trị k khác nhau, ta áp dụng cho toán chép toán trùng lặp 35 Hình 13: Kết thực nghiệm 4.5 Nhận xét Bước đầu thực nghiệm xử lý liệu để phục vụ cho trình shingling lấy dấu vân cho báo Qua mô hình lấy dấu vân đặc trưng cho tài liệu 64bit Dấu vân đặc trưng cho tài liệu Sử dụng chương trình tính khoảng cách Hamming cho cặp dấu vân phát trùng lặp nội dung báo Bên cạnh trường hợp từ bị phân tách không đúng, dẫn đến file shingle chưa đảm bảo cho liệu đầu vào số lượng liệu lớn nên sử dụng kỹ thuật loại từ dừng, từ nhiễu chưa ý Chưa thử nghiệm toàn tập liệu test, chưa đánh giá độ xác hồi tưởng chương trình 36 Kết Luận Từ việc nghiên cứu toán phát trùng lặp tài liệu, kỹ thuật đưa Broder cộng [1, 2, 8, 11], khóa luận đưa mô hình phát trùng lặp nội dung báo, phục vụ cho việc tìm kiếm, đánh giá chất lượng trang tin tức điện tử ngăn chặn đạo tin, cung cấp cho người dùng tin thiết thực đáng tin cậy  Khóa luận đạt kết sau:  Giới thiệu toán phát trùng lặp nội dung báo điện tử, động lực mục đích nghiên cứu khóa luận  Tìm hiểu trình bày số phương pháp để tiếp cận toán xác định trùng lặp dựa nhiều kỹ thuật nhiều tác giả khác Chủ yếu kỹ thuật chính: Độ tương đồng, shingling, lấy dấu vân  Thực thu thập nội dung báo, loại bỏ nhiễu lấy nội dung  Dựa vào đặc trưng Tiếng Việt, thực loại bỏ từ có ý nghĩa thấp nội dung báo, phục vụ cho việc phát trùng lặp liệu báo viết Tiếng Việt  Khóa luận thực cài đặt thực nghiệm theo bước mô hình thu dấu vân tài liệu  Dữ liệu sau xử lý lưu trữ sở liệu để làm đầu vào cho pha xử lý  Do hạn chế mặt thời gian kiến thức, khóa luận số khiếm khuyết:  Mới tiến hành thực nghiệm phần mô hình đề xuất  Lấy dấu vân đặc trưng cho tài liệu mà chưa thử nghiệm với nhiều giá trị tham số khác nhau, chưa đánh giá đắn chất lượng mô hình  Hướng phát triển: Thực nghiệm khóa luận dừng mức lấy dấu vân simhash mà chưa tiến hành thực nghiệm với phương pháp khác, xác định công việc cho thời gian tới tiến hành thực nghiệm nhiều phương pháp khác để tìm phương pháp tối ưu giải toán đặt Có thể áp dụng vào cài đặt tìm kiếm online trang web tin tức cho mục đích sử dụng 37 Tài liệu tham khảo [1] A Z Broder Identifying and Filtering Near-Duplicate Documents Combinatorial Pattern Matching Spinger, 2000 [2] A Z Broder, S C Glassman, M S Manasse, G Zweig Syntactic Clustering of the Web Computer Networks, 29(8-13):1157-1166, 1997 [3] M Charikar Similarity estimation techniques from rounding algorithms In Proc 34th Annual Symposium on Theory of Computing(STOC2002), pages 380-388, 2002 [4] G.S Manku, A Jain, A D Sarma Detecting Near-Duplicates for Web Crawling 2007 Conference on World Wide Web, 2007 [5] M R Henzinger Finding near-duplicate web pages: a large-scale evaluation of algorithms In SIGIR 2006, pages 284-291, 2006 [6] M O Rabin Fingerprinting byrandom polynomials Technical Report Report TR15-81, Center for Research in Computing Techonlogy, Harvard University, 1981 [7] A Z Broder On the resemblance and containment of documents In Proceedings of Compression and Complexity of Sequences 1997, pages 21-29 IEEE Computer Society, 1997 [8] A Z Broder Some applications of Rabin's fingerprinting method In R Capocelli, A De Santis, and U Vaccaro, editors, Sequences II: Methods in Communications, Security, and Computer Science, pages 143-152 Springer-Verlag, 1993 [9] U Manber Finding similar files in a large file system In Proc 1994 USENIX Conference, pages 1-10, Jan 1994 [10] S Brin, J Davis, and H Garcia-Molina Copy detection mechanisms for digital documents In Proc ACM SIGMOD Annual Conference, pages 398-409, May1995 [11] A Broder On the resemblance and containment of documents In Compression and Complexity of Sequences, 1998 [12] A Broder, S C Glassman, M Manasse, and G Zweig Syntactic clustering of the web Computer Networks, 29(8-13):1157-1166, 1997 [13] E Ukkonen Approximate string-matching distance and the q -gram distance In R Capocelli, A De Santis, and U Vaccaro, editors, Sequences II: Methods in Communications, Security, and Computer Science, pages 300-312 Springer-Verlag, 1993 38 [14] N Heintze Scalable Document Fingerprinting Proceedings of the Second USENIX Workshop on Electronic Commerce, pages 191-200, 1996 [15] N Shivakumar and H Garía-Molina Building a Scalable and Accurate Copy Detection Mechanism Proceedings of the 3nd International Conference on Theory and Practice of Digital Libraries , 1996 [16] E Uyar Near-duplicate news detection using name entities, 2009 39 [...]... khi chúng có nội dung giống nhau hoàn toàn hoặc có nội dung tương tự nhau nhưng có một số ít từ khác nhau, hoặc hai bản tin có cùng nội dung nhưng định dạng font chữ, cấu trúc hiển thị khác nhau, … 1.2.3 Phát biểu bài toán phát hiện sự trùng lặp nội dung của các bài báo Bài toán phát hiện sự trùng lặp nội dung của các bài báo thực chất là bài toán tìm sự tương đồng giữa hai tài liệu Các bài báo trên Web... toán phát hiện sự trùng lặp nội dung của các bài báo , chủ yếu dựa trên các phương pháp giải quyết bài toán phát hiện sự trùng lặp của các tài liệu, mà Broder và cộng sự đã trình bày một kỹ thuật shingling tài liệu [4] để giải quyết vấn đề này Chúng tôi thử nghiệm phát hiện trên các báo điện tử viết bằng Tiếng Việt dựa trên các kỹ thuật shingling của Broder và lấy dấu vân simhash Nội dung của khóa luận... Giới thiệu khái quát về bài toán phát hiện sự trùng lặp nội dung của các bài báo 1 Chƣơng 2: Giới thiệu các hướng tiếp cận giải quyết bài toán phát hiện sự trùng lặp nội dung của các bài báo Chương này tập trung vào việc giới thiệu các phương pháp mà nhiều tác giả đề xuất Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mô hình thực nghiệm một phần mô hình hệ thống được các tác giả xây dựng... lặp  Output: - Các bài báo giống hoặc gần giống với bài báo được đưa vào kiểm tra Tóm tắt chƣơng 1 Trong chương này, khóa luận đã giới thiệu khái quát một số nội dung liên quan và trình bày về động cơ và mục đích của bài toán phát hiện sự trùng lặp của các bài báo Trong chương tiếp theo, khóa luận sẽ tập trung làm rõ một số hướng tiếp cận về bài toán phát hiện sự trùng lặp giữa các bài báo 6 Chƣơng 2... sự trùng lặp nội dung của cùng 1 bài báo trên hai trang web khác nhau 3 1.2 Phát hiện sự trùng lặp 1.2.1 Động lực và mục đích Do sự tăng trưởng nhanh chóng của các trang báo điện tử, nhiều bài báo cùng đưa một thông tin như nhau, dẫn đến dư thừa thông tin Một trong những lý do của vấn đề này là các bài báo bị lặp, bị sao chép hay chỉnh sửa lại được tồn tại và đăng tại nhiều vị trí khác nhau trên các. .. lượng cung cấp tin của mình Vì vậy, việc phát hiện các bài báo có cùng nội dung là thực sự cần thiết cho trình thu thập thông tin, đảm bảo thông tin cung cấp tới người dùng đúng và đủ Việc phát hiện sự trùng lặp của các tài liệu đã trở thành một lĩnh vực nghiên cứu Trong khóa luận này, chúng tôi tập trung tìm cách nhận dạng một bài báo điện tử có nội dung giống hoặc gần giống với các bài báo điện tử đã... dụng các thông tin có sẵn trên các trang web rất nhiều công nghệ đã xuất hiện, và hệ thống tìm kiếm thông tin là một trong số đó Nhưng sự tồn tại của các bài báo điện tử trùng lặp làm giảm cả tính hữu dụng và sự hiệu quả của các công cụ tìm kiếm Bởi vì các kết quả trùng lặp cho các truy vấn của người sử dụng sẽ làm giảm số lượng các kết quả hợp lệ của các truy vấn và điều này cũng làm giảm hiệu quả của. .. bỏ các thẻ định dạng, các quảng cáo, chỉ lấy nội dung … và sau đó được coi như một văn bản 5 text Từ đó ta áp dụng các phương pháp như đối với các tài liệu dạng văn bản Kể từ đây sẽ coi nội dung của một bài báo điện tử như là một tài liệu D (khi đã được loại bỏ nhiễu ở trang web) Phát biểu bài toán:  Input: - Tập các bài báo được thu thập trên web - Bài báo mới được thu thập, cần kiểm tra sự trùng lặp. .. trong kho lưu trữ hay không Mục đích chính là để phát hiện và gom nhóm các bài báo dư thừa, tăng chất lượng tìm kiếm và quá trình lưu trữ của công cụ tìm kiếm được hiệu quả Ví dụ, Google không hiển thị các kết quả tìm kiếm bản sao của một truy vấn Google News một lần nữa loại bỏ tin tức trùng lặp ở bước đầu tiên Phát hiện các bài báo có nội dung trùng lặp một cách nhanh chóng có tầm quan trọng rất lớn cho... tới 2 Chƣơng 1 Sự phát hiện các bài báo là bản sao hoặc gần nhƣ bản sao của nhau 1.1 Sự phát triển của các trang web hiện nay Sự phát triển mạnh mẽ của Internet và các mạng tin tức ngày nay dẫn đến sự bùng nổ về thông tin, kèm theo đó là sự tràn ngập lượng lớn các trang web tin tức trong kết quả tìm kiếm làm chúng vô ích cho người sử dụng do đó tạo ra một vấn đề nghiêm trọng đối với các công cụ tìm

Ngày đăng: 08/04/2016, 16:24

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan