Phân loại câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng dựa vào quan hệ người dùng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	529,05 KB

Nội dung

Bài viết trình bày cách phân loại các câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông qua mối quan hệ người dùng. Các thử nghiệm được làm với hai bộ dữ liệu được thu thập từ trang Yahoo hỏi đáp và Facebook. Kết quả cho thấy việc sử dụng quan hệ người dùng cho phép phân loại tốt hơn các phương pháp phân loại dựa vào văn bản. Mời các bạn cùng tham khảo!

+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Phân Loại Câu Trả Lời Giả Mạo Trên Các Trang Web Hỏi Đáp Cộng Đồng Dựa Vào Quan Hệ Người Dùng Nông Thị Hoa, Quách Xuân Trưởng, Nguyễn Thùy Linh, Vũ Thị Thúy Thảo, Nguyễn Xuân Hưng Trường Đại học Công nghệ thông tin & Truyền thông, Đại học Thái Nguyên Email: nongthihoa@gmail.com, qxtruong@ictu.edu.vn, gianglinhtn@gmail.com,vttthao@ictu.edu.vn, nxhung@ictu.edu.vn Abstract – Việc xuất câu trả lời giả mạo (câu trả lời có chứa thông tin quảng cáo) trang web hỏi đáp cộng đồng làm giảm tin tưởng người dùng tri thức trang Vì vậy, nhu cầu loại bỏ câu trả lời giả mạo cần thiết Hiện nay, tiếp cận thường tập trung vào phân loại dựa đặc điểm văn ngữ cảnh Dựa vào hoạt động trang web hỏi đáp, người dùng tốt thường thích bầu chọn câu trả lời xác thực Ngược lại, người dùng chuyên đăng quảng cáo thường thích bầu chọn câu trả lời có chứa quảng cáo Vì vậy, việc dùng mối quan hệ để phân loại câu trả lời tăng thêm khả tìm câu trả lời giả mạo Trong báo này, chúng tơi trình bày cách phân loại câu trả lời giả mạo trang web hỏi đáp cộng đồng thông qua mối quan hệ người dùng Các thử nghiệm làm với hai liệu thu thập từ trang Yahoo hỏi đáp Facebook Kết cho thấy việc sử dụng quan hệ người dùng cho phép phân loại tốt phương pháp phân loại dựa vào văn giúp cho người hỏi Nếu người hỏi bị lừa câu trả lời giả mạo người hỏi không tin tưởng ko ghé thăm trang web Vì vậy, nhiệm vụ phân loại để lọc câu trả lời giả mạo Trong báo này, chúng tơi trình bày cách phân loại câu trả lời giả mạo trang web hỏi đáp cộng đồng thông qua mối quan hệ người dùng Dựa vào đặc điểm: người dùng tốt thường thích bầu chọn câu trả lời xác thực cịn người dùng chun đăng quảng cáo thường thích bầu chọn câu trả lời có chứa quảng cáo Việc phân loại câu trả lời thực qua hai bước: (i) Phân loại dựa thuộc tính văn thu tập câu trả lời giả mạo tập câu trả lời xác thực; (ii) Phân loại dựa quan hệ người dùng câu xếp loại xác thực bước trước Bài báo tổ chức thành phần sau: phần II, tổng kết nghiên cứu liên quan Phần III trình bày đặc điểm câu trả lời Tiếp theo, quan hệ người phân loại câu trả lời mô tả chi tiết phần IV Phần V thể kết thực nghiệm Cuối cùng, kết luận đưa Phần VI Keywords – Câu trả lời giả mạo, quan hệ người dùng, phân loại câu trả lời, trang web hỏi đáp cộng đồng, phân loại I. GIỚI THIỆU Hiện nay, trang web hỏi-đáp cộng đồng, chẳng hạn Yahoo! Hỏi & Đáp WikiAnswers, trở thành phương pháp thu thập thông tin quan trọng Ngồi cơng cụ tìm kiếm web có mục đích chung, trang web hỏi-đáp cộng đồng trở lên phổ biến, có hiệu trở thành phương tiện tìm kiếm thơng tin web Hiện có hàng trăm triệu câu trả lời hàng triệu câu hỏi tích lũy trang web hỏi-đáp cộng đồng Các nguồn tài nguyên câu hỏi câu trả lời trước chứng minh sở tri thức có giá trị Từ trang web hỏi-đáp cộng đồng, người dùng trực tiếp nhận câu trả lời để đáp ứng số nhu cầu thơng tin cụ thể Do đó, năm gần đây, khai thác kiến thức trang web hỏi-đáp cộng đồng trở thành chủ đề phổ biến lĩnh vực trí tuệ nhân tạo Tuy nhiên, số câu trả lời giả mạo Các trang web hỏi-đáp cộng đồng có hàng triệu người dùng ngày Do câu trả lời dẫn hành vi người dùng nên số người dùng độc hại cố ý cung cấp câu trả lời giả mạo để quảng cáo sản phẩm dịch vụ Câu trả lời giả mạo gây nhiều vấn đề đặc biệt gây hiểu lầm cho người dùng làm người dùng đưa định sai Về phía cộng đồng hỏi-đáp, câu trả lời giả mạo làm tổn hại sức mạnh trang web hỏi-đáp cộng đồng Một trang web hỏi-đáp cộng đồng mà khơng có kiểm sốt câu trả lời giả mạo có lợi kẻ gửi thư rác mà không ISBN: 978-604-67-0635-9 II. CÁC NGHIÊN CỨU LIÊN QUAN Trong vài năm qua, tìm câu trả lời trang web trở thành nhiệm vụ phổ biến để khai thác kiến thức từ trang web hỏi đáp cộng đồng Các nghiên cứu gồm lấy cặp câu hỏi - câu trả lời tích lũy để tìm câu trả lời liên quan cho câu hỏi mới, tổng hợp câu trả lời để cung cấp kết xác [1][2][3][4][5][6] Tuy nhiên, việc phát câu trả lời giả mạo chưa quan tâm thực Nếu thu thập tập hợp câu hỏi – câu trả lời có nhiều câu trả lời giả mạo kiến thức thu vơ nghĩa Do đó, bước dự đốn để lọc câu trả lời giả mạo Một số nghiên cứu khác tập trung vào dự đoán chất lượng câu trả lời [7] [8] [9][10] Tuy nhiên, có khác biệt đáng kể dự đoán chất lượng câu trả lời dự đoán câu trả lời giả mạo Dự đoán chất lượng câu trả lời đo chất lượng tổng thể câu trả lời, thông qua tính xác, tính dễ đọc đầy đủ câu trả lời Trong dự đoán câu trả lời giả mạo dự đốn mục đích câu trả lời có chứa quảng cáo hay khơng Một số nghiên cứu [7][10][11] xem việc chọn “câu trả lời tốt nhất” câu trả lời chất lượng cao mà chọn người hỏi trang web hỏi đáp cộng đồng Tuy nhiên, câu trả lời giả mạo lựa chọn câu trả lời chất lượng cao 288 Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7 Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) người dùng độc hại, người dùng hiểu lầm Trong đó, số câu trả lời từ người khơng phải người xứ có lỗi ngơn ngữ mà làm cho câu trả lời có chất lượng thấp câu trả lời xác thực Một số nghiên cứu dùng đồ thị người dùng để nghiên cứu mối quan hệ người dùng [12][13] Các nghiên cứu chủ yếu xây dựng đồ thị người dùng với mối quan hệ người hỏi-người trả lời để ước tính số điểm chun mơn với quan điểm người trả lời có hiểu biết người hỏi Tuy nhiên, tốn khơng quan tâm người dùng có kiến thức hơn, mà cho biết hai người dùng hai kẻ gửi thư rác hai người dùng xác thực Vì vậy, mối quan hệ người dùng đưa vào để nâng cao chất lượng phân loại câu trả lời giả mạo Lý người gửi thư rác đưa câu trả giả mạo thăng cấp câu trả giả mạo người dùng xác thực thường gửi câu trả lời xác thực giáng cấp câu trả lời giả mạo Quan hệ người dùng xây dựng dựa đánh giá câu trả lời người dùng khác “hữu ích” lựa chọn “câu trả lời tốt nhất” Theo quan sát, câu trả lời giả mạo thường dài câu trả lời xác thực câu trả lời giả mạo chuẩn bị tốt để quảng cáo mục tiêu Vì vậy, số từ số câu câu trả lời xét thuộc tính B Các thuộc tính theo ngữ cảnh Bên cạnh thuộc tính theo văn bản, xem xét đến thuộc tính khác từ ngữ cảnh câu trả lời 1) Sự liên quan câu hỏi câu trả lời Đặc điểm câu trả lời trang web hỏi-đáp cộng đồng câu trả lời cung cấp để trả lời câu hỏi tương ứng Vì vậy, câu hỏi tương ứng dùng thuộc tính ngữ cảnh cách đo liên quan câu trả lời câu hỏi Ba mơ hình phổ biến dùng để xác định liên quan câu hỏi câu trả lời: Mơ hình khơng gian vector Mỗi câu trả lời câu hỏi xem vector từ Cho câu hỏi q câu trả lời a, mơ hình vector sử dụng đếm từ có trọng số tương tự cosine vector từ hàm liên quan [15] Tuy nhiên, mơ hình vector xem xét đối chiếu từ xác câu hỏi câu trả lời thường ngắn so với tài liệu Ví dụ, Hà nội thủ Việt Nam thành phố Nhưng mơ hình vector cho thấy chúng phải khác Mơ hình dịch Một mơ hình dịch mơ hình tốn học mà việc dịch ngơn ngữ mơ hình hóa dựa thống kê liệu Khả dịch câu nguồn (câu trả lời) sang câu mục tiêu (câu hỏi) thu cách gióng từ để cực đại tích xác suất từ Với mơ hình dịch, tính điểm dịch cho câu hỏi câu trả lời Mơ hình chủ đề Để giảm lỗi đối chiếu từ mơ hình vector, dùng mơ hình chủ đề để mở rộng việc đối chiếu ngữ nghĩa chủ đề Mơ hình chủ đề xem xét tập hợp tài liệu với chủ đề [17] Về chất, mơ hình ánh xạ thơng tin từ số chiều từ sang số chiều chủ đề ngữ nghĩa 2) Các thuộc tính hồ sơ người dùng Từ số liệu thống kê hoạt động người dùng, thuộc tính hồ sơ cá nhân xây dựng bao gồm mức độ sử dụng trang web hỏi-đáp cộng đồng, số lượng câu hỏi, số lượng câu trả lời, tỷ lệ câu trả lời tốt 3) Điểm thẩm quyền người dùng Các chuyên gia tìm kiếm nhiệm vụ thực chấm điểm thẩm quyền cho người dùng [5][12][13] Điểm biểu thị số điểm chun mơn người dùng Để tính điểm thẩm quyền, cần xây dựng đồ thị có hướng thể tương tác người dùng cộng đồng Mỗi nút đồ thị biểu diễn cho người dùng Một cạnh hai người dùng hình thành người dùng trả lời câu hỏi người dùng Trọng lượng cạnh cho biết số tương tác 4) Các thuộc tính tự động Loại thứ ba thuộc tính liên quan đến tác giả sử dụng để phát xem tác giả có robot lập trình để gửi câu trả lời tự động Theo quan sát, phân phối thời gian gửi trả lời khác người dùng robot III. CÁC ĐẶC TRƯNG CỦA CÂU TRẢ LỜI Đầu tiên, xem việc dự đoán câu trả lời giả mạo vấn đề phân loại nhị phân Hai loại thuộc tính câu trả lời dùng phân loại gồm thuộc tính theo văn thuộc tính theo ngữ cảnh A Các thuộc tính theo văn Đầu tiên, dự đốn câu trả lời giả mạo cách phân tích nội dung câu trả lời Một số thuộc tính theo văn lấy từ nội dung câu trả lời 1) Unigrams Bigrams Loại phổ biến thuộc tính để phân loại văn túi từ (bag of words) Sử dụng phương pháp lựa chọn thuộc tính để chọn 200 từ đơn từ ghép thuộc tính từ Danh sách từ có liên quan đến mục đích quảng cáo gồm: chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile, address, phone, liên hệ, dt, điện thoại 2) Các thuộc tính URL Một số người dùng độc hại quảng bá sản phẩm cách liên kết với URL Do đó, URL thể tốt cho câu trả lời giả mạo Tuy nhiên, số URL cung cấp tài liệu tham khảo cho câu trả lời xác thực Ví dụ, hỏi thời tiết vùng núi, người gửi liên kết đến “http://www.weather.com/" Vì vậy, bên cạnh tồn URL, cần sử dụng thêm thuộc tính URL sau đây: - Chiều dài URL: URL dài có nhiều khả rác - Điểm xếp hạng trang: sử dụng số điểm xếp hạng trang URL điểm phổ biến [14] Trang có độ phổ biến trang có câu trả lời giả mạo 3) Số điện thoại email Câu trả lời giả mạo thường có nhiều thơng tin liên lạc số điện thoại, địa email Câu trả lời xác thực tham khảo đến số điện thoại địa email Số lần xuất email số điện thoại coi thuộc tính 4) Chiều dài 289 Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7 Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thơng Tin (ECIT 2015) “khơng hữu ích”, người dùng u6 bỏ phiếu câu trả lời thứ hai “hữu ích” Cuối cùng, người hỏi u1 chọn câu trả lời “câu trả lời tốt nhất” Do người dùng u4 u5 đưa đánh giá “khơng hữu ích” câu trả lời nên hai người dùng có quan hệ với Về phía đánh giá “hữu ích” thực sự, giả sử tác giả câu trả lời cho đánh giá “hữu ích” câu trả lời Sau đó, người dùng u6 đưa đánh giá “hữu ích” với câu trả lời thứ hai người dùng u3 người dùng u6 có quan hệ với người dùng u3 Tiếp tục xác định quan hệ người dùng với lựa chọn “câu trả lời tốt nhất” Nếu người hỏi chọn “câu trả lời tốt nhất” tất câu trả lời người hỏi có quan hệ với tác giả “câu trả lời tốt nhất” Theo ví dụ, người dùng u1 có quan hệ với người dùng u2 Trong trang web hỏi đáp cộng đồng, kẻ gửi thư rác chủ yếu quảng cáo sản phẩm mục tiêu cách đưa câu trả lời giả mạo Kẻ gửi thư rác làm cho câu trả lời giả mạo trơng thật, cách bầu chọn cho chúng câu trả lời chất lượng cao, lựa chọn chúng “câu trả lời tốt nhất" Tuy nhiên, người dùng xác thực thường có đánh giá riêng cho câu trả lời xác thực câu trả lời giả mạo Vì vậy, việc đánh giá câu trả lời phản ánh mối quan hệ người dùng Tuy nhiên, có quan hệ nhiễu người dùng xác thực bị lừa chọn câu trả lời giả mạo “câu trả lời tốt nhất" Robot gửi câu trả lời liên tục nên khoảng thời gian hai câu trả lời nhỏ người dùng thực người cần thời gian để suy nghĩ xử lý hai viết 5) Đánh giá từ người dùng khác Trên trang web hỏi-đáp cộng đồng, người dùng bày tỏ ý kiến đánh giá câu trả lời Ví dụ, người hỏi chọn câu trả lời tốt Ngoài ra, người dùng dán nhãn cho câu trả lời “hữu ích” “khơng hữu ích” Đánh giá người dùng khác tính theo tỷ lệ số phiếu bầu “hữu ích” số tổng số phiếu bầu 6) Sao chép câu trả lời Người dùng xấu gửi tài liệu quảng bá sản phẩm viết trước cho nhiều câu trả lời, thay đổi tên sản phẩm Xét tương đồng câu trả lời cho thấy hai câu trả lời giống câu hỏi khác câu trả lời giả mạo IV. DỰ ĐOÁN CÂU TRẢ LỜI GIẢ MẠO DỰA VÀO MỐI QUAN HỆ NGƯỜI DÙNG Bên cạnh thuộc tính theo văn thuộc tính theo ngữ cảnh, mối quan hệ người dùng dùng để dự đoán câu trả lời giả mạo Giả sử, người dùng tương tự có xu hướng thực hành vi tương tự (cùng gửi câu trả lời giả mạo đăng câu trả lời xác thực) Đầu tiên, cần xác định mối quan hệ người dùng thông qua phiếu bầu người dùng câu trả lời Sau đó, dùng mối quan hệ người dùng để dự đốn câu trả lời giả mạo B Kết hợp mối quan hệ người dùng thuộc tính văn để phân loại câu trả lời giả mạo Ý tưởng dùng quan hệ người dùng để phân loại câu trả lời giả mạo trình bày chi tiết [18] Trong nghiên cứu này, đồ thị quan hệ người dùng xây dựng với trọng số cạnh thể mức quan hệ hai người dùng dùng hàm mục tiêu để cực tiểu khác biệt xác thực câu trả lời người dùng có quan hệ Do đó, kết phân loại có độ xác cao địi hỏi tính tốn phức tạp Chúng đề xuất thủ tục phân loại đơn giản dựa ý tưởng nghiên cứu Do việc xây dựng quan hệ người dùng đơn giản nên độ xác kết phân loại giảm so với phương pháp nêu 1) Thủ tục phân loại câu trả lời Trong thủ tục này, người dùng có quan hệ với người dùng độc hại xem người dùng độc hại Việc phân loại câu trả lời giả mạo thực qua bước sau: Bước 1: Phân loại câu hỏi dựa thuộc tính văn để lọc câu trả lời giả mạo Với câu trả lời giả mạo thu được, lấy tác giả câu trả lời đưa vào danh sách người dùng độc hại Bước 2: Với câu trả lời lại, làm hai bước sau: Bước 2.1: Tìm người dùng có quan hệ với người dùng độc hại danh sách thu Bước theo cách xác định phần mục A số lần có quan điểm vượt qua ngưỡng q với q nguyên dương Điều để tránh người dùng xác thực bị lừa người dùng độc hại chưa xem xét kỹ thơng tin câu trả lời bình chọn Bước 2.2: Phân loại câu trả lời giả mạo người trả lời người dùng độc hại Các câu trả lại câu trả lời xác thực A Xác định mối quan hệ người dùng Cho câu hỏi Q1, có số câu trả lời cho Q1 từ người dùng khác Hai người dùng U1 U2 có mối quan hệ trường hợp sau: (i) Người dùng U1 trả lời câu hỏi Q1 Người dùng U2 bình chọn câu trả lời người dùng U1 “hữu ích” “không hữu ích”; (ii) Người dùng U2 trả lời câu hỏi Q1 Người dùng U1 bình chọn câu trả lời người dùng U2 “hữu ích” “khơng hữu ích”; (iii) Cả người dùng U1 người dùng U2 bình chọn câu trả lời A1 người dùng khác “câu trả lời tốt nhất” Hình 1: Ví dụ quan hệ người dùng Ví dụ: người hỏi, u1, hỏi câu Sau đó, người dùng u2 u3 trả lời cho câu hỏi Sau câu trả lời cung cấp, người dùng u4 u5 bầu chọn câu trả lời 290 Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7 Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) 2) Ưu điểm nhược điểm Thủ tục đề xuất có tốc độ xử lý nhanh phương thức phát câu trả lời giả mạo từ thuộc tính văn đơn giản Hơn nữa, việc xác định mối quan hệ người dùng dễ thực phép so sánh Do thủ tục đạt tốc độ xử lý nhanh nên chất lượng phân loại bị giảm số câu trả lời giả mạo coi câu trả lời thật chưa xét hết thuộc tính liên quan đến ngữ cảnh mối quan hệ người dùng mức đơn giản Nếu mối quan hệ người dùng xây dựng tốt gồm thông tin trọng số mối quan hệ giải tốt mối quan hệ cịn nhập nhằng Ví dụ người dùng có nhiều quan hệ với nhiều người dùng xác thực quan hệ với người dùng độc hại coi người dùng xác thực Với thủ tục trên, số lần người dùng xác thực đồng ý với ý kiến người dùng độc hại vượt qua ngưỡng định bị coi người dùng độc hại V. Câu trả lời chứa từ liên quan đến quảng cáo gồm chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile, address, phone, liên hệ, dt, điện thoại x Với địa URL, xét phần địa gắn với tên miền Các địa chia thành nhóm: bắt đầu www độ dài lớn 10 ký tự, bắt đầu http:// độ dài lớn 17 ký tự, bắt đầu https:// độ dài lớn 18 ký tự Kết thực nghiệm trình bày Bảng Số liệu Bảng cho thấy thủ tục đề xuất cải thiện đáng kể khả phát câu trả giả mạo so với kết phân loại theo thuộc tính văn x Bảng 2: Tỷ lệ % phân loại với tập liệu từ Yahoo Số mẫu KẾT QUẢ THỰC NGHIỆM Độ dài Trong báo này, thực nghiệm làm hai tập liệu thu thập trừ trang Yahoo hỏi-đáp Việt Nam nhóm IELTS SHARE Facebook Với câu trả lời, tiến hành gán nhãn giả mạo hay xác thực dựa vào nội dung câu hỏi nội dung câu trả lời Với tập liệu, thực phân loại theo cách sau: độ dài câu trả lời, danh sách từ thường dùng quảng cáo, địa URL, tổng hợp ba thuộc tính văn thủ tục đề xuất Để đánh giá hiệu phân loại, tỷ lệ phần trăm phân loại dùng cho câu trả lời giả mạo, câu trả lời xác thực, toàn tập liệu Viet Bup Be Mat troi Xanh, KYNGVI Lực Nam, Trung Hehe Suri, Iu, Na chung doan, phuc, nguyen ngocn nam viet, thi, hung, uyên Thoa Mỹ Vy, Hien Hưng Lê đức huệ, Xuan Thien, Smart Dev Thành Mobile Tổng thể 744 832 6.82 91.67 49.25 Danh sách từ 29.55 97.18 63.37 Địa URL 29.55 98.25 63.90 Tổng hợp 57.95 100.00 78.98 Quan hệ người dùng 85.23 100.00 92.62 Bảng 3: Các quan hệ người dùng tập liệu từ Facebook Người trả lời Người thích câu trả lời Bảng 1: Các quan hệ người dùng tập liệu từ Yahoo Người trả lời Người thích/chọn câu trả lời hay ShopOnline4Sure, Vip Ooz Xác thực 88 B Thực nghiệm với tập liệu từ Facebook Tập liệu gồm 250 mẫu thu thập từ nhóm IELTS SHARE Facebook – Nơi hỏi đáp tài liệu học tiếng anh trình độ IELTS Trong đó, có 31 mẫu câu trả lời giả mạo 219 mẫu câu trả lời xác thực Bảng thể số quan hệ người dùng thu từ tập số liệu A Thực nghiệm với tập liệu từ Yahoo hỏi-đáp Tập liệu gồm 832 mẫu thu thập từ nhiều chủ đề khác trang Yahoo hỏi-đáp Việt Nam Trong đó, có 88 mẫu câu trả lời giả mạo 744 mẫu câu trả lời xác thực Bảng thể quan hệ người dùng thu từ tập số liệu SGC Giả mạo Các tham số chọn cho thuộc tính văn dùng thực nghiệm gồm: x Số từ câu trả lời 80 từ 291 Đỗ Trọng Thiêm Thanh Hồ, Phương Mai, Dung Trinh,Yoo Su, Linh Chan, Len Pham, Nguyễn Đức Nghĩa, Hằng Nga, Nguyễn Thảo, Dương Trịnh Hồ Trọng Đại Tuyết Anh, Linh Sogogi, Phương Thảoo Ngo Bla Phuong Anh Bùi, Link Chee Twig, Trần Thanh Phương, Trần Thảo Ngọc, Tuyết Anh, Trâm Nguyễn, Nguyễn Thảo,Phương Thảoo, Nguy Hiểm Nguyễn Ngọc Trung Phạm Ngọc Diệp, Chi Phan, Phan Thị Ngọc Phú, Hạ Nhật, Thân Hương, Mun Mun, AnhThu Tran,Kỵ Sỹ Văn Trần, Mai Anh BaeKarry Hoàng Phúc Mun Mun, Ha Cuong, Dương Trịnh, Phạm Ngọc Diệp, Thân Hương Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7 Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Kết thực nghiệm Bảng cho thấy thủ tục cải tiến tăng mạnh khả phát câu trả giả mạo so với kết phân loại theo thuộc tính văn [4] Bảng 4: Tỷ lệ % phân loại với tập liệu từ Facebook Giả mạo Xác thực Tổng thể Số mẫu 31 219 250 Độ dài 19.35 99.54 59.45 Danh sách từ 6.45 99.54 53.00 Địa URL 48.39 98.17 73.28 Tổng hợp 74.19 100.00 87.10 Quan hệ người dùng 90.32 100.00 95.16 [5] [6] [7] [8] VI. KẾT LUẬN [9] Trong báo này, thủ tục dự đoán câu trả lời giả mạo trang web hỏi đáp cộng đồng đưoạc đưa Với hai tập liệu đánh nhãn tay, thực dự đoán câu trả lời giả mạo dựa vào thuộc tính văn thành lập danh sách người dùng độc hại dựa đánh giá người dùng câu trả lời Tiếp theo, xác định người dùng có với người dùng độc hại danh sách Cuối cùng, áp dụng quan hệ người dùng để phân loại câu trả lời Các thực nghiệm hai tập liệu lấy từ Yahoo Facebook cho thấy việc sử dụng quan hệ người dùng cải thiện đáng kể độ xác việc dự đốn câu trả lời giả mạo Độ xác dự đốn câu trả lời giả mạo cịn cải thiện kết hợp thêm nhiều thuộc tính phân loại Hơn nữa, việc dự đốn chủ đề hàng loạt câu hỏi giả mạo phát nhóm người dùng độc hại nhiệm vụ quan trọng tương lai [10] [11] [12] [13] [14] [15] TÀI LIỆU THAM KHẢO [16] [1] Jiwoon Jeon, W Bruce Croft, and Joon Ho Lee (2005), “Finding similar questions in large question and answer archives” in Proceedings of the 14th ACM CIKM conference, 05, pages 84–90, NY, USA ACM [2] Lada A Adamic, Jun Zhang, Eytan Bakshy, and Mark S Ackerman (2008), “Knowledge sharing and yahoo answers: everyone knows something”, Proceedings of the 17th international conference on World Wide Web, WWW ’08, pages 665–674, New York, NY, USA ACM [3] Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han, and Yong Yu (2008), “Understanding and summarizing answers in community-based question answering services”, Proceedings of the 22nd International Conference on Computational Linguistics - Volume [17] [18] 292 1, COLING ’08, pages 497– 504, Stroudsburg, PA, USA Association for Computational Linguistics Young-In Song, Chin-Yew Lin, Yunbo Cao, and HaeChang Rim (2008), “Question utility: a novel static ranking of question search” Proceedings of the 23rd national conference on Artificial intelligence - Volume 2, AAAI’08, pages 1231–1236 AAAI Press X Si, Z Gyongyi, and E Y Chang (2010), “Scalable mining of topicdependent user reputation for improving user generated content search quality”, In Google Technical Report A Figueroa and J Atkinson (2011), “Maximum entropy context models for ranking biographical answers to open-domain definition questions”, Twenty-Fifth AAAI Conference on Artificial Intelligence Y.I Song, J Liu, T Sakai, X.J Wang, G Feng, Y Cao, H Suzuki, and C.Y Lin (2010), “Microsoft research asia with redmond at the ntcir-8 community QA pilot task”, Proceedings of NTCIR F Maxwell Harper, Daphne Raban, Sheizaf Rafaeli, and Joseph A Konstan (2008), “Predictors of answer quality in online q&a sites”, Proceedings of the twenty-sixth annual SIGCHI conference on Human factors in computing systems, CHI ’08, pages 865– 874, New York, NY, USA ACM Chirag Shah and Jefferey Pomerantz (2010), “Evaluating and predicting answer quality in community QA”, Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’10, pages 411–418, New York, NY, USA ACM Daisuke Ishikawa, Tetsuya Sakai, and Noriko Kando (2010), “Overview of the NTCIR-8 Community QA”, Pilot Task (Part I): The Test Collection and the Task, pages 421–432 Number Part I Jiang Bian, Yandong Liu, Ding Zhou, Eugene Agichtein, and Hongyuan Zha (2009), “Learning to recognize reliable users and content in social media with coupled mutual reinforcement”, Proceedings of the 18th international conference on World wide web, WWW ’09, pages 51–60, NY, USA ACM P Jurczyk and E Agichtein (2007), “Discovering authorities in question answer communities by using link analysis”, Proceedings of the sixteenth ACM CIKM conference, pages 919–922 ACM Jing Liu, Young-In Song, and Chin-Yew Lin (2011), “Competitionbased user expertise score estimation”, Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, pages 425–434, ACM Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd (1999), “The pagerank citation ranking: Bringing order to the web”, Technical Report 1999-66, Stanford InfoLab, SIDL-WP-1999-0120 Gerard Salton and Michael J McGill (1986), “Introduction to Modern Information Retrieval”, McGraw-Hill, Inc., New York, NY, USA Franz Josef Och and Hermann Ney (2003), “A systematic comparison of various statistical alignment models”, Comput Linguist., 29:19–51, March David M Blei, Andrew Y Ng, and Michael I Jordan (2003), “Latent dirichlet allocation”, J Mach Learn Res., 3:993–1022, March Fangtao Li, Yang Gao, Shuchang Zhou, Xiance Si, and Decheng Dai (2013), “Deceptive Answer Prediction with User Preference Graph”, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pages 1723–1732, ACL ... 2.2: Phân loại câu trả lời giả mạo người trả lời người dùng độc hại Các câu trả lại câu trả lời xác thực A Xác định mối quan hệ người dùng Cho câu hỏi Q1, có số câu trả lời cho Q1 từ người dùng. .. ngữ cảnh câu trả lời 1) Sự liên quan câu hỏi câu trả lời Đặc điểm câu trả lời trang web hỏi- đáp cộng đồng câu trả lời cung cấp để trả lời câu hỏi tương ứng Vì vậy, câu hỏi tương ứng dùng thuộc... cấp câu trả lời giả mạo Quan hệ người dùng xây dựng dựa đánh giá câu trả lời người dùng khác “hữu ích” lựa chọn ? ?câu trả lời tốt nhất” Theo quan sát, câu trả lời giả mạo thường dài câu trả lời

Ngày đăng: 27/04/2022, 10:13