Bài viết giới thiệu một mô hình đa đặc điểm kết hợp với sự cải tiến trọng số từ CFC (Class-Feature-Centroid) để phát hiện các báo cáo lỗi trùng nhau chính xác hơn. Chúng tôi đã tiến hành thực nghiệm trên ba kho phần mềm chứa lỗi lớn từ Firefox, Eclipse và OpenOffice. Kết quả cho thấy rằng kỹ thuật của chúng tôi có thể cải thiện tốt hơn từ 8-11 % khi so với các phương pháp được so sánh.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00011 CẢI TIẾN TRỌNG SỐ KẾT HỢP KỸ THUẬT RÚT TRÍCH ĐA ĐẶC ĐIỂM TRONG VIỆC DỊ TÌM NHỮNG BÁO CÁO LỖI TRÙNG NHAU Nhan Minh Phúc1, Nguyễn Hoàng Duy Thiện2, Dƣơng Ngọc Vân Khanh3 Khoa Kỹ thuật Công nghệ, Trường Đại học Trà Vinh nhanminhphc@tvu.edu.vn, thiennhd@tvu.edu.vn, vankhanh@tvu.edu.vn 1,2,3 TÓM TẮT: Đối với phần mềm mở Firefox, Eclipse, Subversion,… họ thường có hệ thống kho lưu trữ báo cáo lỗi người dùng gửi đến Những báo cáo lỗi giúp cho hệ thống xác định lỗi khác phần mềm, điều làm cho việc bảo trì phần mềm tốt Do số lượng người dùng ngày tăng, số lượng báo cáo lỗi phát ngày nhiều Điều dẫn đến tình có nhiều báo cáo lỗi gửi đến kho xử lý mà báo cáo lỗi người dùng khác báo cáo trước đó, điều gọi báo cáo lỗi trùng Để giải vấn đề này, lập trình viên phần cơng phụ trách việc xử lý lỗi cần phải gắn nhãn báo cáo lỗi theo cách thủ công dạng báo cáo lỗi trùng Tuy nhiên, thực tế có nhiều báo cáo lỗi trùng gửi hàng ngày, thực công việc nhận biết thủ công tốn nhiều thời gian công sức Để giải vấn đề này, gần đây, số kỹ thuật đề xuất để tự động phát báo cáo lỗi trùng lặp, nhiên kết xác chiếm khoảng 36-89 %, lý hai báo cáo lỗi viết theo nhiều cách khác nhau, việc cải tiến tính xác q trình phát trùng lặp chủ đề nhiều quan tâm nhà nghiên cứu gần Trong báo này, chúng tơi giới thiệu mơ hình đa đặc điểm kết hợp với cải tiến trọng số từ CFC (Class-Feature-Centroid) để phát báo cáo lỗi trùng xác Chúng tiến hành thực nghiệm ba kho phần mềm chứa lỗi lớn từ Firefox, Eclipse OpenOffice Kết cho thấy kỹ thuật chúng tơi cải thiện tốt từ 8-11 % so với phương pháp so sánh Từ khóa: Duplication detection, bug reports, CFC-27, feature weighting I GIỚI THIỆU Do phức tạp trình xây dựng nên hầu hết phần mềm thường nhiều lỗi sau hoàn chỉnh Những lỗi phần mềm dẫn đến thiệt hại nhiều triệu USD [4] Vì việc xử lý lỗi trở thành vấn đề quan trọng cần thực thường xuyên việc bảo trì phần mềm Để giúp quản lý lỗi phần mềm làm cho hệ thống đáng tin cậy hơn, công cụ quản lý lỗi xây dựng ứng dụng vào hệ thống lớn Bugzilla, Eclipse,… công cụ cho phép người dùng sử dụng phần mềm “tester” gửi báo cáo lỗi mà họ phát đến hệ thống quản lý lỗi, thơng tin sau tiếp nhận xử lý để hoàn thiện độ tin cậy phần mềm Mặt dù mang lại nhiều lợi ích việc cung cấp hệ thống báo cáo lỗi, gây nhiều thách thức Một thách thức lỗi phát nhiều người dùng, có nhiều người gửi báo cáo lỗi đến hệ thống, gây nên tình trạng gọi trùng lặp báo cáo lỗi Điều làm nhiều thời gian công sức cho người phân loại, nghĩa báo cáo gửi đến, họ phải kiểm tra xem báo cáo lỗi gửi đến trước chưa Theo thống kê [2], [3] ngày có 300 báo cáo lỗi gửi đến hệ thống quản lý lỗi Mozilla, số lượng xem nhiều cho cơng việc phân loại Vì việc xây dựng hệ thống tự động phân chẳng hay báo cáo lỗi vừa gửi đến báo cáo trước hay chưa Đây chủ đề nhà nghiên cứu quan tâm Để giải vấn đề báo cáo lỗi trùng nhau, cộng đồng nghiên cứu có hai hướng Hướng thứ có báo cáo lỗi gửi đến, sau xây dựng mơ hình xử lý kết trả danh sách báo cáo lỗi gần giống với báo cáo lỗi gửi đến top K Phương pháp công bố [3], [4], [5], [1] Hướng thứ hai công bố Jalbert and Weimer [6] sau, có báo cáo gửi đến, họ thực việc phân loại thành hai nhóm, trùng hay khơng trùng nhau, nghiên cứu cịn gọi phân loại báo cáo lỗi cách gán nhãn báo cáo lỗi trùng nhau, báo cáo lỗi khơng trùng Theo thống kê [9] hướng Hình Một báo cáo lỗi dataset Eclipse thứ nhận nhiều quan tâm nhà nghiên cứu, ly việc trả kết top K danh sách báo cáo lỗi trùng nhau, gần bao gồm hướng thứ hai phân loại báo cáo lỗi Trong báo nghiên cứu theo phương pháp thứ II BÁO CÁO LỖI TRÙNG NHAU Một báo cáo lỗi thông thường tập tin bao gồm vài thuộc tính tóm tắt lỗi (summary), mơ tả lỗi (description), dự án (project), người gửi (submitter), bình luận (comment),… Mỗi thuộc tính chứa thơng tin Nhan Minh Phúc, Nguyễn Hồng Duy Thiện, Dương Ngọc Vân Khanh 79 khác Ví dụ, thuộc tính summary dùng mơ tả cách ngắn gọn nội dung lỗi, thuộc tính description mơ tả cách chi tiết lý phát sinh lỗi, thao tác gây lỗi, hai thuộc tính thường đươc mô tả theo dạng ngôn ngữ tự nhiên Những thuộc tính khác project, comment,… phần hỗ trợ cho việc mô tả lỗi thêm rõ Trong công nghệ phần mềm, hệ thống phần mềm mã nguồn mở, hệ thống quản lý lỗi thường mở cho người dùng thử nghiệm phần mềm, khó tránh khỏi trường hợp người dùng khác báo cáo lỗi giống nhau, gọi báo cáo lỗi trùng Hình hình ví dụ hai báo cáo lỗi trùng kho phần mềm Eclipse Trong hình cho thấy mã báo cáo lỗi 009779 thông báo trùng với báo cáo lỗi có mã số 000002 Thơng thường báo cáo lỗi vừa gửi đến mà người phân loại xác định báo cáo lỗi bị trùng với báo cáo gửi trước báo cáo đánh dấu trùng lặp (duplicate) Khi tất báo cáo lỗi có lỗi, báo cáo lỗi số không bị đánh dấu trùng lặp Trong báo chúng tơi gọi báo cáo lỗi báo cáo lỗi (master) báo cáo lỗi gửi sau trùng với báo cáo lỗi gọi trùng lắp (duplicates) III NHỮNG NGHIÊN CỨU LIÊN QUAN Một người tiên phong đưa phương pháp giải vấn đề báo cáo lỗi trùng phải kể đến Runeson et al [5] Trong phương pháp giới thiệu, họ sử dụng phương pháp xử lý ngôn ngữ tự nhiên với kỹ thuật tách từ (tokenization), chuyển từ dạng gốc (stemming) xóa bỏ từ ý nghĩa (stop word removal) Những từ lại báo cáo lỗi chuyển sang mơ hình khơng gian vector (vector space), từ tương ứng vector tính dựa vào trọng số từ (weight(word)) theo công thức TF (term frequence) sau: Weight (word) = 1+log2(TF(word)) (3) Phương pháp cho kết đạt khoảng 40% với kho liệu báo cáo lỗi Sony Ericsson Mobile Communications Trong [6], Wang et al cải tiến từ phương pháp Runeson et al sang hai hướng Đầu tiên họ xem xét trọng số từ không TF mà IDF (invert document frequence) Khi trọng số từ họ tính sau: Weight (word) = TF(word)∗IDF(word) (4) Thứ hai họ xem xét thông tin thực thi báo cáo lỗi dẫn đến trùng Sau họ tính độ tương tự hai báo cáo lỗi sử dụng cosine similarity Kết thực nghiệm với dataset Firefox cho thấy kết đạt độ xác dị tìm báo cáo lỗi trùng từ 67-93% Alipour et al [10] giới thiệu kỹ thuật sử dụng thuật toán định, phương pháp đưa dự đoán dựa vào cặp báo cáo lỗi để xem họ có trùng hay khơng? Trong kỹ thuật họ sử dụng trọng số BM25F thông tin văn file báo cáo lỗi phân loại theo lĩnh vực Phương pháp đánh giá đạt tốt 11.55% so với phương pháp Sun et al [9] cho tập liệu Android Năm 2016, Meng-jie Lin at el [11] giới thiệu chiến lược dị tìm dựa vào đặc điểm tương quan Trong xem xét yếu tố liên quan dựa vào đặc điểm khác báo cáo lỗi Phương pháp cho kết đạt gần 87 - 90% tập liệu Apache, ArgoUML SVN IV KỸ THUẬT TRÍCH CHỌN ĐẶC ĐIỂM Trong kỹ thuật phân loại văn bản, hay xác định văn tương tự kỹ thuật chọn đặc điểm đóng vai trị quan trọng Trong trường hợp xác định trùng lắp hai báo cáo lỗi kho phần mềm mã nguồn mở tương tự Việc trích chọn đặc điểm tốt góp phần lớn vào việc xác định báo cáo lỗi trùng xác Trong phương pháp giới thiệu, triển khai công thức bên để đánh giá giống (sim) hai báo cáo lỗi Hình Một báo cáo lỗi xem trùng với báo cáo lỗi hình 80 CẢI TIẾN TRỌNG SỐ KẾT HỢP KỸ THUẬT RÚT TRÍCH ĐA ĐẶC ĐIỂM TRONG VIỆC DỊ TÌM… ( ) ∑ ( ) ( ) ( ) trả kết giống hai túi từ B1 B2 Sự giống hai báo cáo lỗi Trong (1) tính tổng giá trị trọng số từ giống IDF Giá trị trọng số từ báo cáo lỗi tính dựa vào tất báo cáo lỗi kho liệu Lý phương pháp khơng sử TF*IDF cho việc tính trọng số từ mà sử dụng CFC Theo [10] TF-IDF hạn chế, [11] cho thấy ưu điểm việc hỗ trợ phân loại văn tốt, điều giúp cho kết xác định độ tương đồng việc dị tìm báo cáo lỗi trùng hiệu Ngồi chúng tơi tiến hành thực nghiệm để kiểm chứng với phương pháp phổ biến việc trích chọn đặc điểm Fisher score [16] cho thấy, với 27 đặc điểm sử dụng CFC, nhận thấy kết tốt việc xác định độ giống hai báo cáo lỗi so với kết hợp 27 đặc điểm với TF*IDF Vì vậy, chúng tơi định chọn CFC-27 cho việc tính trọng số đặc điểm phương pháp chúng tơi Nói cách khách, đặc điểm sau trích chọn phương pháp chúng tơi tính giống dựa vào từ báo cáo lỗi R1, với từ báo cáo lỗi R2 Kết đặc điểm sau trích chọn thực sự tương tự hai túi từ hai báo cáo lỗi R1 R2 thể công thức bên dưới: ( )= sim (những từ báo cáo R1, từ báo cáo R2) (2) Quan sát từ file báo cáo lỗi thấy báo cáo lỗi bao gồm hai trường (field) quan trọng trường tóm tắt (summary) trường mơ tả (description) Khi chúng tơi sử dụng ba túi từ từ file báo cáo lỗi Trong túi từ sử dụng cho trường tóm tắt, túi thứ hai sử dụng cho trường mơ tả túi thứ ba sử dụng cho hai trường (tóm tắt + mơ tả) Ví dụ để rút trích đặc điểm để so sánh từ hai hai báo cáo lỗi, tính độ tương tự túi từ 𝑠 𝑠 Feature 𝑠𝑢𝑚 𝑠𝑢𝑚 Túi từ (𝐵 𝐵 ) báo cáo lỗi thứ (𝑤𝑚 𝑖 + 𝑤𝑚 𝑗 ) ∑ trường tóm tắt với túi từ ……… 𝑠 𝑑 Túi từ (𝐵 𝐵 ) 𝑡𝑚 báo cáo lỗi thứ hai Tóm tắt (sum) Feature 𝑠 trường mô tả 𝑏 Túi từ (𝐵 𝐵 ) Mô tả (Desc) Tương tự chúng Feature 10 𝑠 𝑑 Cả hai (Both) ta tính giống Túi từ (𝐵 𝐵 ) 𝑑𝑒𝑠𝑐 𝑑𝑒𝑠𝑐 (𝑤 + 𝑤 ) 𝑚𝑖 𝑚𝑗 từ ………… ∑ 𝑑 𝑑 Túi từ (𝐵 𝐵 ) báo cáo lỗi từ 𝑡𝑚 hai trường tóm tắt mơ Feature 18 𝑑 𝑏 Túi từ (𝐵 𝐵 ) tả báo cáo lỗi Tóm tắt (sum) Feature 19 𝑠 𝑏 với trường tóm tắt Túi từ (𝐵 𝐵 ) Mơ tả (Desc) báo cáo lỗi khác, 𝑏𝑜𝑡ℎ 𝑏𝑜𝑡ℎ ………… 𝑏 𝑑 (𝑤𝑚 Túi từ (𝐵 𝐵 ) 𝑖 + 𝑤𝑚 𝑗 ) Cả hai (Both) điều tương tự ∑ với kết hợp Feature 27 𝑏 𝑏 𝑡𝑚 Túi từ (𝐵 𝐵 ) trường khác hai báo cáo lỗi Ngồi Hình 27 đặc điểm dựa vào trọng số TF-IDF-CFC chúng tơi tính để tách từ ba loại IDF kho báo cáo lỗi Một tập hợp từ tất trường tóm tắt, loại thứ hai từ tất trường mô tả cuối từ hai trường tóm tắt mơ tả Chúng thể ba loại IDF theo quy ước IDFsum, IDFdesc IDFboth Kết hàm f định nghĩa Kho báo cáo lỗi (2) phụ thuộc vào lựa chọn túi từ báo cáo Trọng số Cosine lỗi R1, lựa chọn Sắp xếp danh CFC-27 Tiền xử lý báo cáo lỗi Similarity sách báo cáo túi từ cho báo lỗi trùng cáo lỗi R2 lựa chọn tính IDF Chúng xem kết hợp đặc Báo cáo lỗi Hình Luồng xử lý dị tìm báo cáo lỗi trùng điểm khác nhau, tổng số đặc điểm khác trích chọn 3x3x3, nghĩa có 27 đặc điểm trích chọn Hình cho thấy cách 27 đặc điểm trích chọn từ hai báo cáo lỗi Nhan Minh Phúc, Nguyễn Hoàng Duy Thiện, Dương Ngọc Vân Khanh 81 V PHƢƠNG PHÁP ĐA ĐẶC ĐIỂM Phương pháp dị tìm tự động báo cáo lỗi trùng xem ứng dụng sử dụng kỹ thuật trích chọn thơng tin phân loại văn bản, mục đích cải thiện chất lượng phần mềm giảm thời gian chi phí cho người phát triển để phân loại xác định báo cáo lỗi trùng nhau, nghĩa báo cáo lỗi người dùng gửi rồi, sau có người dùng khác gửi lại, trường hợp gọi trùng Trong phương pháp giới thiệu, chúng tơi có thay đổi cải tiến từ phương pháp trước [5], [6] Đầu tiên báo cáo lỗi gửi đến, hệ thống xử lý để phân loại báo cáo lỗi sang hai lớp: trùng lắp khơng trùng lắp, chúng tơi tính 27 loại đặc điểm khác dựa vào độ tương tự báo cáo lỗi sử dụng đặc điểm cho việc tính trọng số đặc điểm để giúp xác định độ giống báo cáo lỗi xác Hình thể luồng liệu phương pháp dị tìm báo cáo lỗi trùng Hình cho thấy thuật toán xử lý tổng quát bước thực A Tiền xử lý Đây bước bước quan trọng góp phần xác định độ xác phương pháp dị tìm báo cáo lỗi trùng Trong bước sử dụng kỹ thuật trích chọn đặc điểm giới thiệu phần 3, hình Đới với xử lý ngôn ngữ tự nhiên, theo Manning and Schütze [6], việc xử lý ngơn ngữ tự nhiên (NLP) báo cáo lỗi chia làm bước sau: Tách từ (tokenization); Chuyển từ dạng gốc (Stemming); Xóa bỏ từ ý nghĩa (stop words removal) Tách từ Tách từ kỹ thuật nhằm mục đích xác định ranh giới từ văn bản, hiểu đơn giản tách từ tách đoạn text (một chuỗi liên tiếp ký tự) thành từ (word hay token) riêng lẻ loại bỏ dấu câu gây nhiễu, ví dụ dấu ngoặc, dấu nháy đơn, dấu nháy kép, dấu gạch nối,… Chuyển từ dạng gốc Do báo cáo lỗi kho phần mềm mã nguồn mở sử dụng ngôn ngữ tiếng anh, từ báo cáo lỗi viết theo dạng ngữ pháp khác chứa thơng tin Do việc xử dụng stemming mục đích để xử lý từ dạng ngữ pháp khác trở từ gốc nó, điều giúp dễ dàng việc tính tốn xác định báo cáo lỗi trùng Ví dụ từ worded working chuyển thành từ gốc work Những động từ chuyển trở lại nguyên mẫu Ví dụ was being trở thành be Xóa từ khơng có nghĩa Thơng thường file báo cáo lỗi thường từ hay thông tin dư thừa, hay nói xác chứa từ mà thân khơng có nghĩa, hay từ nối giống the, that, when, and, or…những từ khơng chứa thơng tin cụ thể có ích cho việc xử lý tự động báo cáo lỗi trùng Những từ có nhiều file báo cáo lỗi khơng liên quan đến nội dung cụ thể khơng loại bỏ ảnh hưởng nhiều đến việc xác định giống file báo cáo lỗi Thông thường việc xử lý từ cách liệt kê danh sách từ khơng có nghĩa hay cịn gọi khơng có ích cho việc xử lý Danh sách thường gọi danh sách “stop words”, báo cáo lỗi có chứa từ danh sách bị loại bỏ B Tính trọng số từ CFC-27 Phương pháp phổ biến việc tính trọng số từ chuyển đổi văn sang mơ hình khơng gian vector tính TF-IDF (Term FrequencyInverse Document Frequency) Nó phương pháp thống kê để đánh giá tầm quan trọng từ văn định nghĩa sau: ( ) ( ) (1) Hình Thuật tốn tổng qt q trình xử lý Trong (1), Dall số báo cáo lỗi kho báo báo lỗi, Dterm số báo cáo lỗi có chứa từ báo cáo lỗi Nghĩa từ báo cáo lỗi, xuất báo cáo lỗi, có ý nghĩa quan trọng việc phân loại báo cáo lỗi CẢI TIẾN TRỌNG SỐ KẾT HỢP KỸ THUẬT RÚT TRÍCH ĐA ĐẶC ĐIỂM TRONG VIỆC DỊ TÌM… 82 Tuy nhiên theo [12] TF-IDF nhiều hạn chế dựa vào cho thấy ưu điểm CFC [12] việc phân loại văn Chúng định điều chỉnh cách tính trọng số phương pháp với thực nghiệm TFIDF, IDF-IDF-27 CFC-27 Trong CFC, trọng lượng từ wij tính sau: ( ) ) Trong ti từ (term) báo cáo lỗi, số báo cáo lỗi chứa ti lớp Cj,|Cj số báo cáo lỗi lớp Cj, C tổng số lớp, số lớp chứa ti, b tham số lớn một, dùng để điều chỉnh cho trọng lượng wij Trong CFC, xem xét đến số báo cáo lỗi chứa mức độ xuất thường xuyên từ bên lớp Công thức log xem xét mức độ giống IDF truyền thống C Tính độ tương đồng hai báo cáo lỗi Trong bước tiến hành xác định tương đồng báo cáo lỗi, có báo cáo lỗi gửi đến Độ tương đồng hai báo cáo lỗi BRi BRj tính dựa vào việc trích chọn từ 27 đặc trưng với cải tiến cách tính trọng số CFC-27 sau: (⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗ ) ⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗ ( ) |⃗⃗⃗⃗⃗ | ⃗⃗⃗⃗⃗ VI KẾT QUẢ THỰC NGHIỆM A Môi trường thực nghiệm Chúng tiến hành thực nghiệm với ba kho báo cáo lỗi dự án phần mềm mở Mozilla, OpenOffice, Eclipse Thống kê chi tiết kho phần mềm mô tả bảng 6.1 Kho báo cáo lỗi Bảng 6.1 Thông tin datasets Thời gian Số lƣợng báo cáo lỗi Số lƣợng trùng Mozilla 01/2010-12/2010 75.653 6.925 OpenOffice Eclipse 01/2008-12/2010 01/2008-12/2008 31.138 45.234 3.171 3.080 B Phương pháp đánh giá Để đánh giá phương pháp dị tìm, chúng tơi sử dụng đơn vị đo lường gọi Recall rate, phương pháp công bố trước sử dụng cho phương pháp dị tìm báo cáo lỗi trùng nhau, tính dựa báo cáo lỗi dị tìm danh sách báo cáo lỗi trùng định nghĩa sau: Recal rate = C Nghiên cứu kết thực nghiệm Để thấy hiệu phương pháp giới thiệu dựa vào trọng số CFC kết hợp với rút trích 27 đặc điểm (CFC-27), chúng tơi tiến hành so sánh với phương pháp truyền thống tính trọng số dựa vào TF-IDF với kết hợp TF-IDF với rút trích 27 đặc điểm (TF-IDF-27) Chúng so sánh với phương pháp Alipour Meng-jie Lin Kết thực nghiệm cho thấy phương pháp giới thiệu cải tiến rõ rệt tất ba dự án Hình cải thiện đáng kể CFC-27 so với phương pháp so sánh a) Kết thực nghiệm với kho báo cáo lỗi Mozilla b) Kết thực nghiệm với kho báo cáo lỗi Mozilla Eclipse Nhan Minh Phúc, Nguyễn Hoàng Duy Thiện, Dương Ngọc Vân Khanh 83 b) Kết thực nghiệm với kho báo cáo lỗi Mozilla OpenOffice Hình Kết so sánh CFC-27 với phương pháp khác VII KẾT LUẬN Việc dò tìm trùng báo cáo lỗi vấn đề quan trọng việc bảo trì phần mềm năm gần Trong báo chúng tơi giới thiệu phương pháp dị tìm dựa vào trọng số mở rộng rút trích đa đặc điểm (CFC-27) để cải tiến việc thực thi dò tìm báo cáo lỗi trùng Kết thực nghiệm từ ba dự án mã nguồn mở cho thấy phương pháp mang lại hiệu cao việc dị tìm báo cáo lỗi trùng nhau, đặc biệt so sánh với phương pháp giới thiệu trước đây, phương pháp CFC-27 cho kết tốt hiệu việc dị tìm báo cáo lỗi trùng khoảng 8-12% so với phương pháp trước VIII TÀI LIỆU THAM KHẢO [1] D D H Z Y F C Z Y Chao-Yuan Lee, "Mining Temporal Information to Improve Duplication Detection on Bug Reports," in Advanced Applied Informatics (IIAI-AAI) 2015 IIAI 4th International Congress on 2015, pp 551-555, Taiwan, 2015 [2] L Hiew, "Assisted Detection of Duplicate Bug Reports," in Master Thesis, The University of British Columbia, May 2006, The University of British Columbia, 2006 [3] M A a O N Runeson, "Detection of Duplicate Defect Reports using Natural Language Processing," in in Proceedings of the 29th International Conference on Software Engineering (ICSE 2007),ACM, pp 499–510., 2007 [4] L Z T X J A J S Xiaoyin Wang, "An approach to detecting duplicate bug reports using natural language and execution information,IEEE, ACM," in In Proceedings of the 30th international conference on Software engineering, pp 461-470, 2008 [5] C Sun, D Lo, X Wang, J Jiang and S C Khoo, "A discriminative model approach for accurate duplicate bug report retrieval," in in Proceedings of the 32nd ACM/IEEE International Conference on Software Engineering, ACM, pp 45-54 , 2010 [6] W W Nicholas Jalbert, "AutomatedDuplicateDetectionforBugTrackingSystems," in 2008 IEEE International Conference on Dependable Systems and Networks With FTCS and DCC (DSN) , Anchorage, AK, USA, 2008 [7] J y Z a M y G Hu Guan, "A Class-Feature-Centroid Classifier for Text Categorization," in in Proceedings of the18th International Conference on World Wide Web,IEEE, Marid, 2009 [8] A H a E S Alipour, "A contextual approach towards more accurate duplicate bug report detection," in 10th Working Conference on Mining Software Repositories (MSR), San Francisco, CA,, pp 183-192., 2013 [9] T T N., T N N., D L., C S Anh Tuan Nguyen, "Duplicate bug report detection with a combination of information retrieval and topic modeling," in ASE 2012 Proceedings of the 27th IEEE/ACM International Conference on Automated Software Engineering , Essen, Germany , 2017 [10] Meng-JieLinCheng-ZenYangChao-YuanLeeChun-ChangChen, "Enhancements for duplication detection in bug reports with manifold correlation features," Journal of Systems and Software, Elservier, vol 121, pp Pages 223233, 2016 [11] J G B X TaoZhang, "Towards more accurate severity prediction and fixer recommendation of software bugs," Journal of Systems and Software, Elservier, vol 117, no July 2016, pp Pages 166-184, 2016 [12] L Z Y C Y C Meng-Jie, "Enhancements for duplication detection in bug reports with manifold correlation features," Journal of Systems and Software, Elservier, vol Volume 121, no November, pp Pages 223-233, 2016 84 CẢI TIẾN TRỌNG SỐ KẾT HỢP KỸ THUẬT RÚT TRÍCH ĐA ĐẶC ĐIỂM TRONG VIỆC DỊ TÌM… [13] Z J M K B SeanBanerjee, "Automated triaging of very large bug repositories," Information and Software Technology Elservier, vol Volume 89, no September, pp Pages 1-13, 2017 [14] L H a G C M John Anvik, "Coping with an Open Bug Repository," in Proceedings of the OOPSLA workshop on Eclipse technology eXchange, LA, USA, 2005 IMPROVED WEIGHTING USING EXTRACTION TECHNOLOGY MULTI-FEATURES IN DETECTING DUPLICATE BUG REPORTS Nhan Minh Phuc, Nguyen Hoang Duy Thien, Duong Ngoc Van Khanh ABSTRACT: For open source software such as Firefox, Eclipse, Subversion, etc They usually have a repository system for bug management that sent by users These bug reports help the system identify various software bugs which makes software maintenance better More and more users, so the number of bug reports is increasing A situation is that have multiple bug reports are sent to repository where these bug reports have been previously reported by different users, this is called duplicate bug reports To solve this problem, a developer assigned a work for manually label as duplicate bug reports However, in fact there are too many duplicate bug reports being sent daily, this wastes time and effort [1], [2], [3] To solve this problem, recently a number of techniques have been proposed to automatically detect duplicate bug reports, but the exact results only about 36-85%, the reason is that the two reports of the same bug can be written in many different ways, so improving the accuracy of the duplicate detection process is the subject of much concern by recent researchers In this paper, we proposed a multi-feature model combined with weighting improvements from CFC (Class-Feature-Centroid) to detect more accurate duplicate bug reports We have experimented on three open source software from Mozilla, Eclipse and Open Office The results show that our method can improve 8-11% better when compared to previous methods ... cáo lỗi xem trùng với báo cáo lỗi hình 80 CẢI TIẾN TRỌNG SỐ KẾT HỢP KỸ THUẬT RÚT TRÍCH ĐA ĐẶC ĐIỂM TRONG VIỆC DỊ TÌM… ( ) ∑ ( ) ( ) ( ) trả kết giống hai túi từ B1 B2 Sự giống hai báo cáo lỗi Trong. .. lỗi Nghĩa từ báo cáo lỗi, xuất báo cáo lỗi, có ý nghĩa quan trọng việc phân loại báo cáo lỗi CẢI TIẾN TRỌNG SỐ KẾT HỢP KỸ THUẬT RÚT TRÍCH ĐA ĐẶC ĐIỂM TRONG VIỆC DỊ TÌM… 82 Tuy nhiên theo [12] TF-IDF... báo lỗi trùng cáo lỗi R2 lựa chọn tính IDF Chúng tơi xem kết hợp đặc Báo cáo lỗi Hình Luồng xử lý dị tìm báo cáo lỗi trùng điểm khác nhau, tổng số đặc điểm khác trích chọn 3x3x3, nghĩa có 27 đặc