Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	3
Dung lượng	312,99 KB

Nội dung

Bài viết Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản đề xuất cải tiến đánh giá độ tương tự giữa hai văn bản tiếng Việt và ứng dụng trong hệ thống tra cứu văn bản.

Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ VÀ ỨNG DỤNG TRONG TRA CỨU VĂN BẢN Nguyễn Tu Trung Trường Đại học Thủy lợi, email: trungnt@tlu.edu.vn GIỚI THIỆU CHUNG Trùng lặp nội dung văn tượng phổ biến đời sống Vì nhiều nguyên nhân, văn thường bị chép, trích dẫn Đối với hệ thống lưu trữ tài liệu, việc lưu văn có độ trùng lặp cao gây lãng phí tốn tài nguyên Với máy tìm kiếm, thu thập liệu từ Internet, đánh giá tốt độ trùng lặp liệu so với tài liệu có kho liệu tránh việc tiếp tục tải thêm lưu trữ liệu trùng lặp vào kho liệu Phát trùng lặp tốn phức tạp văn thường khơng bị chép tồn phần mà phần ít, nhiều Các phần bị chép bị thay đổi nằm vị trí khác văn chép Trong [1], Muneer cộng đề xuất thuật toán cho việc thiết lập cụm trang web trùng lặp Ngoài ra, Fresno cộng đề xuất hàm trọng số FCC hệ mờ cho việc gán trọng số đặc trưng kết hợp chúng [2] Hiện nay, nước có số cơng trình nghiên cứu việc phát nội dung trùng lặp kho văn tiếng Việt [3], [5], nghiên cứu cho thấy việc kết hợp tiêu chí đánh giá nội dung văn để phát trùng lặp kho văn tiếng Việt làm tăng độ xác việc đánh giá thuật toán Bài báo đề xuất cải tiến đánh giá độ tương tự hai văn tiếng Việt ứng dụng hệ thống tra cứu văn kiểm tra báo điện tử thu thập xem có giống/gần giống với thu thập trước hay khơng 2.2 Độ đo tương tự Hình Mơ hình khơng gian vector cho văn [4] Văn thường biểu diễn dạng vector dựa theo mơ hình tần suất [4] mà tiêu biểu phương pháp dựa tần số (TF) nghịch đảo tần số (IDF) Hình ví dụ trường hợp biểu diễn văn với số Token Về mặt tổng quát, số Token nhiều, ví dụ: Tổng số âm tiết (nếu dùng đặc trưng âm tiết), Tổng số từ (nếu dùng đặc trưng từ) Có số độ đo sử dụng như: độ tương tự cosine (cosine similarity), hệ số Jaccard (Jaccard coeficient), khoảng cách Euclide(Euclideandistance), hệ số tương quan Pearson (Pearson Correlation coeficient) [4] Trong báo này, xem xét độ đo khoảng cách Euclide biểu diễn theo công thức sau đây: d Euclide ( A,B ) = ∑ ( Ai − Bi ) (1) i PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Hệ thống tra cứu văn trùng lặp 2.3 Thuật toán phân cụm liệu Trong [3] đưa mơ hình hệ thống tra cứu văn trùng lặp Chương trình thực Khi sở liệu văn lớn, việc tra cứu toàn kho văn khiến tốc độ thực 142 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 thi chậm Vì vậy, người ta tiến hành phân cụm kho văn trước để tăng tốc độ tra cứu Ngoài ra, kĩ thuật phân cụm sử dụng để hỗ trợ phân lớp kho liệu văn Thuật toán KMeans [6] bao gồm bước, trình bày sau: Đầu vào: n đối tượng xi với i = n số cụm c Đầu ra: Các cụm Cj (j = c) cho hàm mục tiêu E sau đạt cực tiểu: c E=∑ ∑ d ( x,C j ) (2) j =1 x∈C j Các bước thuật toán sau: Bước 1: Khởi tạo Chọn k đối tượng Cj (j = c) tâm ban đầu c cụm liệu đầu vào (lựa chọn ngẫu nhiên theo kinh nghiệm) Bước 2: Gán tâm cụm theo khoảng cách Với đối tượng xi (i = n), tính khoảng cách tới tâm Cj với j = c Đối tượng thuộc cụm CS mà khoảng cách từ tâm CS tương ứng đến đối tượng nhỏ d ( x,CS ) = min d ( x,C j ) , j = c (3) Bước 3: Cập nhật tâm cụm Đối với j = c, cập nhật lại tâm cụm Cj cách xác định trung bình cộng vector đối tượng liệu gán cụm ∑ x∈cluster( j )xk C jk = (4) count ( cluster ( j ) ) hợp lý Lý từ thơng thường sử dụng nhiều so với tên riêng, tên người, số… nên khả lặp lại cao nhiều Hay chữ viết tắt có khả lặp lại thấp văn Nói cách khác, xét khả lặp lại từ thơng thường có ảnh hưởng lớn cịn chữ viết tắt ảnh hưởng Như vậy, phân hạng đặc trưng theo mức khác đánh giá độ tương tự văn xác Từ đây, nhóm tác giả đề xuất tập luật để xác định mức độ ảnh hưởng loại đặc trưng sau: 1) Nếu đặc trưng Từ thơng thường ảnh hưởng lớn 2) Nếu đặc trưng Tên riêng ảnh hưởng lớn 3) Nếu đặc trưng Tên người tên thực thể ảnh hưởng trung bình 4) Nếu đặc trưng Phần trăm Số ảnh hưởng nhỏ 5) Nếu đặc trưng Chữ viết tắt ảnh hưởng nhỏ Gọi Fi đặc trưng thứ i, hàm ảnh hưởng theo loại đặc trưng đặc trưng Fi effect(Fi) Khi này, công thức đo độ tương tự (1) cải tiến trở thành: dEuclide(A,B) = ∑(effect( Ai )Ai − effect( Bi )Bi )2 (5) 3.2 Thử nghiệm đo độ tương tự hai văn Bước 4: Lặp kiểm tra điều kiện dừng Lặp lại bước tâm cụm không thay đổi hai lần lặp liên tiếp Trong đó: d ( x,C j ) : khoảng cách từ x đến tâm Cj C jk : thành phần thứ k tâm cụm Cj xk: thành phần thứ k đối tượng x Hình So sánh hai văn khác KẾT QUẢ NGHIÊN CỨU Hình So sánh văn 3.1 Đề xuất độ đo tương tự cải tiến Hiện tại, độ đo tương tự đánh giá đặc trưng có vai trị dựa vào tần suất để phân biệt giá trị đặc trưng theo văn cụ thể Tuy nhiên, sử dụng đặc trưng mức từ, điều không 3.3 Đánh giá chất lượng phân cụm kho văn Để đánh giá chất lượng phân cụm, tác giả sử dụng số F(I), tuân theo tiêu chí đồng cụm [7] Giá trị F(I) 143 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 nhỏ độ đồng cao Chỉ số tính sau: R e F (I ) = R∑ i (6) 1000 ( N × M ) i =1 Ai Bảng thống kê số so sánh chất lượng phân cụm văn trường hợp dùng không dùng trọng số mờ trường hợp 3, 5, cụm Bảng So sánh độ đồng cụm Số cụm Not Fuzzy 0.00303 0.00485 0.00521 0.0072 Fuzzy 0.0016 0.00266 0.00316 0.00415 3.4 Tra cứu văn tương tự Độ đo tương tự văn ứng dụng vấn đề tra cứu văn trùng lặp Cơ sở liệu bao gồm danh sách 500 báo (tên, tóm tắt) Với báo mới, hệ thống thực việc so sánh độ tương tự phần tóm tắt với báo sở liệu Từ đây, hệ thống thực việc phân cụm kho văn Trong giai đoạn tra cứu, hệ thống đưa danh sách báo có độ tương tự cao từ cụm Hệ thống đưa hai cách thức tìm văn trùng lặp Trường hợp 1, số lượng văn kho khơng q nhiều, duyệt toàn văn so sánh độ tương tự với văn đầu vào Trường hợp 2, số lượng văn kho lớn, giai đoạn tra cứu chia làm hai bước: • Bước 1: hệ thống thực so sánh độ tương tự văn đầu vào với cụm liệu kho văn • Bước 2: từ cụm gần nhất, hệ thống so sánh văn đầu vào với văn thuộc cụm Bảng Một số văn đầu vào thử nghiệm Mã Tên VT1 Nghiên cứu hành vi xã hội, trí nhớ học tập động vật thực nghiệm tiêm thuốc gây bệnh tâm thần phân liệt VT2 Tác động biến đổi khí hậu đến hạn hán khu vực nam trung Việt Nam, khả dự tính giải pháp ứng phó VT3 Nâng cao lực tài ngân hàng thương mại cổ phần Việt Nam Bảng Một số văn CSDL Mã Tên VD1 Nghiên cứu hành vi xã hội, trí nhớ học tập động vật thực nghiệm tiêm thuốc gây bệnh tâm thần phân liệt VD2 Nghiên cứu, ứng dụng hệ thống thơng tin địa lý (GIS) mơ hình SWAT để dự báo lưu lượng dịng chảy xói mịn đất tiểu lưu vực sơng Ơn Lương - Hợp Thành VD3 Nghiên cứu ảnh hưởng mật độ trồng đến suất chất lượng giống sắn HL2004-28 Trường Đại học Nông Lâm Thái Nguyên VD4 Tác động biến đổi khí hậu đến hạn hán khu vực Nam Trung Bộ Việt Nam, khả dự tính giải pháp ứng phó VD5 Phân tích đặc điểm địa hoá thạch học đá mẹ than sét than trầm tích miocen khu vực phía Bắc bể trầm tích sơng Hồng VD6 Nghiên cứu, ứng dụng hệ thống thơng tin địa lý (GIS) mơ hình SWAT để dự báo lưu lượng dịng chảy xói mịn đất tiểu lưu vực sơng Ơn Lương - Hợp Thành Bảng Kết tìm kiếm với VT1 CSDL Tên Độ tương tự VD1 100% VD2 71% VD3 71% Bảng Kết tìm kiếm với VT2 CSDL Tên Độ tương tự VD4 100% VD5 71% VD6 70% KẾT LUẬN Trong báo này, tác giả đề xuất cải tiến độ đo tương tự hai văn dựa luật mờ Kết cho thấy độ đo cải tiến áp dụng tốt cho việc so sánh văn tiếng Việt Ngoài ra, tác giả áp dụng độ đo cải tiến việc tìm kiếm văn trùng lặp Trong nghiên cứu tiếp theo, tác giả dự kiến phân tích nghiên cứu sâu vai trị, vị trí đặc trưng câu để đưa mức độ ảnh hưởng theo ngữ cảnh cụ thể TÀI LIỆU THAM KHẢO [1] Muneer K., Syed Farook K, An Innovative Approach for Clustering of Web Pages Based on Transduction, International Journal of Advanced Research in Computer Science & Technology IJARCST, Vol 2, Issue 3, 2014, pp 241-244 144 ... So sánh độ đồng cụm Số cụm Not Fuzzy 0.00303 0.00485 0.00521 0.0072 Fuzzy 0.0016 0.00266 0.00316 0.00415 3.4 Tra cứu văn tương tự Độ đo tương tự văn ứng dụng vấn đề tra cứu văn trùng lặp Cơ sở... hai cách thức tìm văn trùng lặp Trường hợp 1, số lượng văn kho khơng q nhiều, duyệt tồn văn so sánh độ tương tự với văn đầu vào Trường hợp 2, số lượng văn kho lớn, giai đoạn tra cứu chia làm hai... thực so sánh độ tương tự văn đầu vào với cụm liệu kho văn • Bước 2: từ cụm gần nhất, hệ thống so sánh văn đầu vào với văn thuộc cụm Bảng Một số văn đầu vào thử nghiệm Mã Tên VT1 Nghiên cứu hành vi

Ngày đăng: 30/07/2022, 16:14