Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	424,9 KB

Nội dung

Trùng lặp nội dung văn bản là vấn đề phổ biến từ các trang báo, trang tin đến các tác phẩm. Bài viết này trình bày việc đề xuất một cải tiến độ đo tương tự dựa trên logic mờ và ứng dụng trong vấn đề phát hiện trùng lặp nội dung bài báo.

TẠP CHÍ KHOA HỌC − SỐ 8/2016 105 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ Đỗ Nam Tiến1( ), Khiếu Văn Bằng1, Nguyễn Tu Trung1, Trần Thành Trung2, Nguyễn Huy Đức3 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Trường Đại học Sư phạm Hà nội Trường Cao ñẳng Sư phạm Trung Ương Tóm tắ tắt: Trùng lặp nội dung văn vấn ñề phổ biến từ trang báo, trang tin ñến tác phẩm Việc phát trùng lặp cần thiết Bản chất kiểm tra tương tự tài liệu Tuy nhiên, ñây toán phức tạp ñang ñược quan tâm nghiên cứu Hiện nay, có nhiều phương pháp nghiên cứu ñể giải vấn ñề Trong báo này, chúng tơi đề xuất cải tiến độ ño tương tự dựa logic mờ ứng dụng vấn ñề phát trùng lặp nội dung báo Từ khoá: khoá Văn bản, phát trùng lặp, ñộ tương tự ĐẶT VẤN ĐỀ Trùng lặp nội dung văn tượng phổ biến ñời sống Vì nhiều nguyên nhân, văn thường bị chép, trích dẫn Đây lí mà văn tìm từ nhiều nguồn khác trang báo điện tử Vì lí khác nhau, nhiều muốn tìm phát trùng lặp văn Ví dụ liên quan ñến vấn ñề tác quyền, tác giả muốn kiểm tra xem nội dung tác phẩm họ có bị sử dụng dụng lại cách trái phép hay khơng Vấn đề đạo nhạc, đạo hát, tác phẩm văn học khiến giới chun mơn xúc Đối với hệ thống lưu trữ tài liệu, việc lưu văn có độ trùng lặp cao gây lãng phí tốn tài nguyên Với máy tìm kiếm, thu thập liệu từ Internet, ñánh giá tốt ñộ trùng lặp liệu so với tài liệu có kho liệu tránh ñược việc tiếp tục tải thêm lưu trữ liệu trùng lặp vào kho liệu Vì vậy, vấn đề phát trùng lặp ñang ñược quan tâm (1) Nhận ngày 11.8.2016; gửi phản biện duyệt ñăng ngày 15.9.2016 Liên hệ tác giả: Đỗ Nam Tiến; Email: tiendonam@gmail.com TRƯỜNG ĐẠI HỌC THỦ ĐÔ H 106 NỘI Phát trùng lặp tốn phức tạp văn thường khơng bị chép tồn phần mà phần ít, nhiều Các phần bị chép bị thay đổi nằm vị trí khác văn chép Hiện tại, có nhiều kĩ thuật phát trùng lặp khác bao gồm: Shingling[1], I-Match[2], Phép chiếu ngẫu nhiên, SpotSigs, Sự tương tự hai tài liệu Có thể thấy vấn ñề phát trùng lặp thực chất việc tính tốn độ tương tự nội dung văn cần so sánh với văn có sẵn kho liệu (Corpus) Độ tương tự văn ñược xác ñịnh dựa số như: • Độ tương tự ngữ nghĩa văn bản: Từ khố, TF - IDF; • Độ tương tự câu văn, đoạn văn; • Độ tương tự ngữ pháp văn bản: Cú pháp câu, từ loại, • Độ tương tự thẻ HTML trang web; Việc sử dụng tiêu chí để ñánh giá ñộ tương tự văn kho văn ngày trở nên thiếu hiệu người dùng Internet công cụ chép nội dung ngày thơng minh Do đó, ngày có nhiều nghiên cứu tập trung vào việc kết hợp tiêu chí đánh giá độ tương tự với để từ làm tăng độ xác cơng cụ đánh giá độ tương tự văn bản, phát trùng lặp, máy tìm kiếm, Trong [4], Muneer cộng đề xuất thuật tốn cho việc thiết lập cụm trang web trùng lặp Ngoài ra, Fresno cộng ñã ñề xuất hàm trọng số FCC hệ mờ cho việc gán trọng số ñặc trưng kết hợp chúng [5][3] Hiện nay, nước có số cơng trình nghiên cứu việc phát nội dung trùng lặp kho văn tiếng Việt [9], [6], [8], nghiên cứu cho thấy việc kết hợp tiêu chí đánh giá nội dung văn để phát trùng lặp kho văn tiếng Việt làm tăng độ xác việc đánh giá thuật toán Tuy nhiên, nghiên cứu cho thấy cần phải nghiên cứu thêm ñể cải tiến, tối ưu hố việc kết hợp tiêu chí đánh giá ñể nâng cao ñộ xác việc phát trùng lặp Bài báo ñề xuất cải tiến ñánh giá ñộ tương tự hai văn tiếng Việt.Các phần cịn lại báo trình bày sau Phần trình bày hệ thống tra cứu văn nói chung đo tương tự hai văn Phần trình bày độ đo tương tự cải tiến từ độ đo có sử dụng logic mờ Một số thử nghiệm trình bày phần Phần kết luận báo HỆ THỐNG TRA CỨU VĂN BẢN TRÙNG LẶP Trong [6] đưa mơ hình hệ thống tra cứu văn trùng lặp Chương trình thực kiểm tra báo ñiện tử ñược thu thập xem có giống/gần giống với TẠP CHÍ KHOA HỌC − SỐ 8/2016 107 thu thập trước hay khơng Dữ liệu lấy từ báo điện tử viết Tiếng Việt Hình Mơ hình thử nghiệm vấn đề phát trùng lặp nội dung báo [6] Các bước thực sau: • Bước 1: Thu thập báo điện tử • Bước 2: Lấy nội dung báo thu thập loại bỏ nhiễu • Bước 3: Thực shingling cho tài liệu • Bước 4: Lấy dấu vân cho tài liệu • Bước 5: So sánh cho kết ĐỘ ĐO TƯƠNG TỰ Hình Mơ hình khơng gian vector cho văn [7] Văn thường ñược biểu diễn dạng vector dựa theo mơ hình tần suất [7] mà tiêu biểu phương pháp dựa tần số (TF) nghịch đảo tần số (IDF) Hình ví dụ trường hợp biểu diễn văn với số Token Về mặt tổng quát, sơ Token nhiều, ví dụ: Tổng số âm tiết (nếu dùng ñặc trưng âm tiết), Tổng số từ (nếu dùng đặc trưng từ) TRƯỜNG ĐẠI HỌC THỦ ĐƠ H 108 NỘI Có số độ đo sử dụng như: ñộ tương tự cosine (cosine similarity), hệ số Jaccard (Jaccard coeficient), khoảng cách Euclide(Euclideandistance), hệ số tương quan Pearson (Pearson Correlation coeficient) [7] Trong báo này, chúng tơi xem xét độ đo khoảng cách Euclide biểu diễn theo cơng thức sau (1): THUẬT TỐN PHÂN CỤM DỮ LIỆU Khi sở liệu văn lớn, việc tra cứu toàn kho văn khiến tốc độ thực thi chậm Vì vậy, người ta tiến hành cụm kho văn trước để tăng tốc độ tra cứu Ngồi ra, kĩ thuật phân cụm cịn sử dụng để hỗ trợ phân lớp kho liệu văn Thuật toán KMeans [10] bao gồm bước, trình bày sau: Đầu vào: n ñối tượng xi với i = n số cụm c Đầu ra: Các cụm Cj (j = c) cho hàm mục tiêu E sau ñây ñạt cực tiểu: (1) Các bước thuật tốn sau: Bước 1: Khởi tạo Chọn k đối tượng Cj (j=1 c) tâm ban ñầu c cụm liệu ñầu vào (lựa chọn ngẫu nhiên theo kinh nghiệm) Bước 2: Gán tâm cụm theo khoảng cách Với ñối tượng xi (i = n), tính khoảng cách tới tâm Cj với j = c Đối tượng thuộc cụm CS mà khoảng cách từ tâm CS tương ứng ñến ñối tượng nhỏ (2) Bước 3: Cập nhật tâm cụm Đối với j = 1…c, cập nhật lại tâm cụm Cj cách xác định trung bình cộng vector ñối tượng liệu ñã ñược gán cụm (3) Bước 4: Lặp kiểm tra ñiều kiện dừng Lặp lại bước tâm cụm khơng thay đổi hai lần lặp liên tiếp TẠP CHÍ KHOA HỌC − SỐ 8/2016 109 Trong đó: • : khoảng cách từ x đến tâm Cj • : thành phần thứ k tâm cụm Cj • : thành phần thứ k ñối tượng x ĐỀ XUẤT ĐỘ ĐO TƯƠNG TỰ CẢI TIẾN Hiện tại, ñộ ño tương tự đánh giá đặc trưng có vai trị dựa vào tần suất ñể phân biệt giá trị ñặc trưng theo văn cụ thể Nếu sử dụng ñặc trưng rmức âm tiết – đơn vị đặc trưng khơng có nghĩa khơng Tuy nhiên, sử dụng ñặc trưng mức từ, ñiều khơng hợp lí Lí từ thơng thường sử dụng nhiều so với tên riêng, tên người, số… nên khả lặp lại cao nhiều Hay chữ viết tắt có khả lặp lại thấp văn Nói cách khác, xét khả lặp lại từ thơng thường có ảnh hưởng lớn cịn chữ viết tắt ảnh hưởng Như vậy, phân hạng ñặc trưng theo mức khác đánh giá độ tương tự văn xác Từ đây, nhóm tác giả ñề xuất tập luật ñể xác ñịnh mức ñộ ảnh hưởng loại ñặc trưng sau: 1) Nếu đặc trưng Từ thơng thường ảnh hưởng lớn 2) Nếu đặc trưng Tên riêng ảnh hưởng lớn 3) Nếu ñặc trưng Tên người tên thực thể ảnh hưởng trung bình 4) Nếu đặc trưng Phần trăm Số ảnh hưởng nhỏ 5) Nếu ñặc trưng Chữ viết tắt ảnh hưởng nhỏ Gọi đặc trưng thứ i, hàm ảnh hưởng theo loại ñặc trưng ñặc trưng Khi này, cơng thức đo độ tương tự (1) cải tiến trở thành (2): THỰC NGHIỆM Độ ño tương tự văn ñược ứng dụng vấn ñề tra cứu văn trùng lặp Cụ thể, sở liệu nhóm tác giả sử dụng bao gồm danh sách 500 báo (tên, tóm tắt) Với báo mới, hệ thống thực việc so sánh độ tương tự phần tóm tắt với báo sở liệu Từ ñây, hệ thống thực việc phân cụm kho văn Trong giai ñoạn tra cứu, hệ thống ñưa danh sách báo có độ tương tự cao từ cụm Hệ thống đưa hai cách thức tìm văn trùng lặp Trường hợp 1, số lượng văn kho khơng q nhiều, duyệt tồn văn so sánh độ tương tự với văn 110 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI ñầu vào Trường hợp 2, số lượng văn kho lớn, giai ñoạn tra cứu chia làm hai bước Bước 1, hệ thống thực so sánh ñộ tương tự văn ñầu vào với cụm liệu kho văn Bước 2, từ cụm gần nhất, hệ thống so sánh văn ñầu vào với văn thuộc cụm Trong thử nghiệm chúng tơi, để rút trích đặc trưng mức từ phân biệt loại ñặc trưng trên, chúng tơi sử dụng cơng cụ phân tích đoạn văn "vn.hus.nlp.tokenizer" nhóm nghiên cứu TS Lê Hồng Phương 6.1 Thử nghiệm ño ñộ tương tự hai văn Hình So sánh hai văn khác Hình So sánh văn TẠP CHÍ KHOA HỌC − SỐ 8/2016 111 6.2 Đánh giá chất lượng phân cụm kho văn Để ñánh giá chất lượng phân cụm, [11], tác giả ñã sử dụng số F(I) [13], tuân theo tiêu chí ñồng cụm [11] [12], ñể so sánh kết phân cụm thuật toán Giá trị F(I) nhỏ độ đồng cao Chỉ số tính sau: (8) Bảng hình thống kê số so sánh chất lượng phân cụm văn trường hợp dùng không dùng trọng số mờ trường hợp 3, 5, cụm Bảng So sánh ñộ ñồng cụm Not Fuzzy 0.00303 0.00485 0.00521 0.0072 Fuzzy 0.0016 0.00266 0.00316 0.00415 Hình Hình So sánh ñộ ñồng cụm văn 6.3 Tra cứu văn tương tự a) Thử nghiệm Bảng Văn ñầu vào thử nghiệm Tên Tóm tắt Nghiên cứu hành vi xã hội, trí nhớ học tập ñộng vật thực nghiệm ñược tiêm thuốc gây bệnh tâm thần phân liệt Đánh giá hoạt động vận động, tương tác xã hội, trí nhớ khơng gian chuột nhắt chủng Swiss trước sau tiêm ketamine trường diễn với dải liều từ 10 - 35 mg/kg/ngày; Xây dựng mơ hình gây bệnh TTPL thực nghiệm liều ketamine phù hợp, sau điều trị thuốc chống loạn thần Đánh giá biến ñổi hành vi, trí nhớ học tập ñộng vật trước sau ñiều trị TRƯỜNG ĐẠI HỌC THỦ ĐƠ H 112 NỘI Bảng Kết tìm kiếm với thử nghiệm cở sở liệu Tên Độ tương tự Nghiên cứu hành vi xã hội, trí nhớ học tập động vật thực nghiệm ñược tiêm thuốc gây bệnh tâm thần phân liệt 100% Nghiên cứu, ứng dụng hệ thống thơng tin địa lí (GIS) mơ hình SWAT để dự báo lưu lượng dịng chảy xói mịn đất tiểu lưu vực sơng Ơn Lương - Hợp Thành 71% Nghiên cứu ảnh hưởng mật ñộ trồng ñến suất chất lượng giống sắn HL2004-28 trường Đại học Nông Lâm Thái Nguyên 71% Nghiên cứu vi sinh vật ứng dụng cho sản xuất biogas làm tăng hiệu suất ñiều kiện môi trường nước lợ nước mặn 70% Phần mềm ôn luyện A IC trực tuyến 70% b) Thử nghiệm Bảng Văn ñầu vào thử nghiệm Tên Tóm tắt Tác ñộng biến đổi khí hậu đến hạn hán khu vực Nam Trung Bộ Việt Nam, khả dự tính giải pháp ứng phó Tổng quan tình hình hạn hán nghiên cứu hạn hán, dự tính hạn hán theo kịch phát thải khí nhà kính; Thử nghiệm, lựa chọn số hạn khí tượng phù hợp, từ xác định mức độ biến đổi hạn hán khu vực Nam Trung Bộ khứ, xu biến ñổi tương lai theo kịch phát thải khí nhà kính đề xuất giải pháp ứng phó Bảng Kết tìm kiếm với thử nghiệm cở sở liệu Tên Độ tương tự Tác động biến đổi khí hậu ñến hạn hán khu vực Nam Trung Bộ Việt Nam, khả dự tính giải pháp ứng phó 100% Phân tích đặc điểm địa hố thạch học ñá mẹ than sét than trầm tích miocen khu vực phía bắc bể trầm tích sơng Hồng 71% Nghiên cứu, ứng dụng hệ thống thơng tin địa lí (GIS) mơ hình SWAT để dự báo lưu lượng dịng chảy xói mịn đất tiểu lưu vực sơng Ôn Lương - Hợp Thành 70% Nghiên cứu vi sinh vật ứng dụng cho sản xuất biogas làm tăng hiệu suất điều kiện mơi trường nước lợ nước mặn 70% Xác lập sở khoa học phục vụ quy hoạch bảo vệ môi trường huyện phú lộc tỉnh thừa thiên huế 70% TẠP CHÍ KHOA HỌC − SỐ 8/2016 113 c) Thử nghiệm Bảng Văn ñầu vào thử nghiệm Tên Tóm tắt Nâng cao lực tài ngân hàng thương mại cổ phần Việt Nam Hệ thống hoá hồn thiện lí luận lực tài NHTM đưa quan ñiểm tài chính, lực tài NHTM Đặc biệt luận án trọng vào việc phân tích sở để dẫn giải đưa đến nội dung trình bày lí luận lực tài NHTM; Phân tích rõ sở ý nghĩa tiêu chí đánh giá lực tài NHTM, ñồng thời cách tiếp cận phân tích nhân tố ảnh hưởng thể tính logic hệ thống với giải pháp; Trên sở nghiên cứu kinh nghiệm nâng cao lực tài ngân hàng số nước giới, ngun dẫn đến yếu lực tài ngân hàng tình trạng tăng trưởng tín dụng nóng phát triển thiếu bền vững Mặt khác, ñể nâng cao lực tài NHTM ngồi nỗ lực NHTM cịn cần hỗ trợ từ phía Ngân hàng Trung ương Chính Phủ Đây học cần thiết việc nâng cao lực tài NHTMCP Việt Nam Bảng Kết tìm kiếm với thử nghiệm cở sở liệu Tên Độ tương tự Nâng cao lực tài ngân hàng thương mại cổ phần Việt Nam 100% Hồn thiện cơng tác lập trình bày báo cáo tài hợp doanh nghiệp sản xuất thép thuộc Hiệp hội Thép Việt Nam 46% Quản trị rủi ro tài doanh nghiệp Việt Nam 46% Phân tích đặc điểm địa hố thạch học đá mẹ than sét than trầm tích miocen khu vực phía bắc bể trầm tích sơng Hồng 45% Một thuật tốn phân cụm K-Means tăng cường cho phân đoạn ảnh đa phổ khơng giám sát 45% KẾT LUẬN Trong báo này, chúng tơi đề xuất cải tiến độ đo tương tự hai văn dựa luật mờ Luật mờ ñược xây dựng ñể sinh trọng số ảnh hưởng theo loại ñặc trưng Kết cho thấy ñộ ño cải tiến áp dụng tốt cho việc so sánh văn tiếng Việt Ngồi ra, chúng tơi áp dụng độ ño cải tiến việc tìm kiếm văn trùng lặp Trong nghiên cứu tiếp theo, dự kiến phân tích nghiên cứu sâu vai trị, vị trí đặc trưng câu để đưa mức ñộ ảnh hưởng theo ngữ cảnh cụ thể 114 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI TÀI LIỆU THAM KHẢO 10 11 12 13 A.Z Broder, S.C Glassman, M.S Manasse, G Zweig (1997), "Syntactic Clustering of the Web", Computer Network E Uyar (2009), Near-duplicate news detection using name entities M.A Hearst (2006), "Clustering versus faceted categories for information exploration", In Communications of the ACM Muneer K., Syed Farook K (2014), "An Innovative Approach for Clustering of Web Pages Based on Transduction", International Journal of Advanced Research in Computer Science & Technology IJARCST, Vol 2, Issue 3, pp 241-244 Xuemin Lin Chuan Xiao (2008), "Efficient similarity joins for near duplicate detection", In 17th International conference on World Wide Web Phạm Kim Hồng (2013), Phát trùng lặp nội dung báo, Luận văn Thạc sĩ Lê Mạnh Hùng (2012), Tra cứu văn tiếng Việt dựa kĩ thuật phân cụm, Luận văn Thạc sĩ Dương Thăng Long, Báo cáo ñề tài nghiên cứu: Nghiên cứu ñộ ño tương tự văn tiếng Việt ứng dụng ñánh giá việc chép ñiện tử Nguyễn Tuấn Anh (2009), Phát trùng lặp văn và xây dựng mục hiệu cho WebCrawler, Luận văn Thạc sĩ http://www.onmyphd.com/?p =KMeans.clustering Valliammal N., S.N.Geethalakshmi (2012), "Leaf Image Segmentation Based On the Combination of Wavelet Transform and K Means Clustering", International Journal of Advanced Research in Artificial Intelligence, Vol 1, No.3 R H Haralick, and L G Shapiro (1985), "Image segmentations techniques", Computer Vision Graphics Image Processing 29, pp.100-132 J Liu, and Y H Yang (1994), "Multiresolution color image segmentation", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.16, no.7, pp.689-700 AN APPROACH TO ASSESS DUPLICATION LEVEL OF TEXT USING FUZZY WEIGHT Abstract: Abstract Content duplication of text is a common issue of newspapers, news websites and publications Duplication detecting is essential Essence of this work is checking the similarity of documents However, this is the complex problem and being interested in research Presently, there are many researching methods to solve this problem In this paper, we propose an improvement of similarity measure, which is based on fuzzy logic and applied it in duplication detecting of article content Keywords: Keywords Text, duplication detecting, similarity measure ... - IDF; • Độ tương tự câu văn, đoạn văn; • Độ tương tự ngữ pháp văn bản: Cú pháp câu, từ loại, • Độ tương tự thẻ HTML trang web; Việc sử dụng tiêu chí ñể ñánh giá ñộ tương tự văn kho văn ngày... đánh giá độ tương tự với để từ làm tăng độ xác cơng cụ đánh giá độ tương tự văn bản, phát trùng lặp, máy tìm kiếm, Trong [4], Muneer cộng đề xuất thuật tốn cho việc thiết lập cụm trang web trùng. .. chung đo tương tự hai văn Phần trình bày độ đo tương tự cải tiến từ độ đo có sử dụng logic mờ Một số thử nghiệm trình bày phần Phần kết luận báo HỆ THỐNG TRA CỨU VĂN BẢN TRÙNG LẶP Trong [6] đưa mơ

Ngày đăng: 09/06/2021, 09:10