ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHẸ - ĐẠI HỌC ĐÀ NẰNG, VOL 19, NO 7, 2021 53 TÀNG CƯỜNG TRỌNG SỐ BM25 KÉT HỢP MƠ HÌNH NGỮ CẢNH CHO VIỆC DỊ TÌM BÁO CÁO LỎI TRÙNG NHAU IMPROVING BM25 WEIGHTING COMBINED WITH CONTEXTUAL MODEL FOR DUPLICATE BUG REPORT DETECTION Nhan Minh Phúc1*, Nguyễn Thừa Phát Tài1, Nguyễn Hoàng Duy Thiện' ‘Trường Đại học Trà Vinh ‘Tác giả liên hệ: nhanminhphuc@tvu.edu.vn (Nhận bài: 07/9/2020; Chấp nhận đăng: 28/6/2021) Tóm tắt - Những báo cáo lỗi nhũng người sử dụng gửi thường lưu trữ quản lý hệ thống quản lý lỗi dự án phần mềm nguồn mở Open Office, Mozilla Firefox, Eclipse Nhũng lập trình viên dựa vào nhũng báo cáo lỗi để xử lý lỗi Tuy nhiên, có nhiều báo cáo lỗi gửi đến hệ thống, có báo cáo lỗi trùng Do đó, việc phải xác định báo cáo lỗi vừa gửi đến có bị trùng hay khơng nhiều thời gian công sức người phân cơng xử lý lỗi Trong báo này, nhóm tác già giới thiệu phương pháp tự động dị tìm nhũng báo cáo lỗi trùng cách sử dụng mị hình LDANWF (Latent Dứichlet Allocation-New Weight Feature) Mơ hình kết hợp mơ hình LDA với đặc điểm ưọng số Kết quà thực nghiệm hên ba hệ thống Open Office, Eclipse Mozilla cho thây, phương pháp giới thiệu đạt ti lệ xác cao phương pháp trước từ khoảng 4-9% Abstract - Bug reports submitted by users are usually stored and managed by issue management systems in open source software projects such as Open Office, Mozilla Firefox, Eclipse The developers will rely on these bug reports to process bugs However, there are too many bug reports sent to the system, which leads to the duplication of bug reports Therefore, it will take time and effort of the person assigned to handle the bug for determining if the bug has been duplicated or not In this paper, we introduce a new approach of detecting duplicate bug reports automatically using the Latent Dirichlet Allocation-New Weight Feature (LDA) model This model is a combination of the LDA model with the new weighting feature Experimental results on the three systems of Open Office, Eclipse and Mozilla show that, the inơoduced method achieves a higher accuracy rate than previous methods at about 4-9% Từ khóa - Báo cáo lỗi; LDA; trọng số BM25; báo cáo lỗi trùng nhau; hệ thống báo cáo lỗi Key words - Bug report; Latent Dirichlet Allocation (LDA); BM25 weighting; duplicate bug report; bug report system Đặt vấn đề Space Model) [3, 4] Một phương pháp khác cải tiến sử dụng kỹ thuật lấy thông tin kết hợp với phương pháp xử lý ngôn ngữ tự nhiên [5, 6] Ngồi ra, cịn số phương pháp khác sử dụng mơ hình học máy [7], mơ hình phân loại nhị phân [8] Tuy nhiên, giới hạn phương pháp tỷ lệ xác kết thực nghiệm cịn thấp Gần đây, phương pháp cải tiến kỹ thuật rút trích thơng tin nhóm tác giả Sun cộng [9] giới thiệu cho thấy, có cải tiến phương pháp tự động dị tìm trùng báo cáo lỗi Phương pháp sử dụng đặc diêm trọng số BM25F kết hợp với việc xem xét ưên nhiều thuộc tính tập tin báo cáo lỗi Phương pháp sau thực nghiệm cho thấy, kết có cài tiến dựa vào tương đồng báo lỗi cao Tuy nhiên, thực tế có nhiều báo cáo lỗi khác sử dụng từ (term) khác để diễn tả cho lỗi Do đó, so sánh báo cáo lỗi độ tương đồng cho kết rât khác Trong trường hợp phương pháp Sun et al không cho kết tốt Trong báo này, nhóm tác giả giới thiệu mơ hình LDA-NWF, mơ hình dị tìm báo cáo lỗi tự động để kiểm tra xem có bị trùng hay khơng?, tận dụng ưu điểm khơng kỹ thuật rút trích thơng tin mà cịn dựa vào mơ hình đặc điểm chủ đề sử dụng LDA Mơ hình thiết kế để giải toán cho hai báo cáo lỗi không tương đồng xem trùng họ báo cáo cho lỗi giống Những dự án mã nguồn mở lớn Bugãlla, Open Office thường có phần mềm để lưu trữ quản lý lỗi người dùng sử dụng gặp phải để xử lý Những lỗi gửi người dùng trinh họ sử dụng phần mềm giúp việc bảo trì cải thiện tính hệ thống tốt [1] Theo nghiên cứu gần đây, với việc phát triển nhanh chóng hệ thống phần mềm, ngày có hàng trăm báo cáo lỗi gửi đến Khi xảy tình trạng báo cáo lỗi bị trùng, lý lỗi người dùng trước gửi đến hệ thống Hay nói cách khác báo cáo lỗi bị trùng có nhiều người dùng gửi báo cáo lỗi giống [2], Những báo cáo lỗi thường mô tả dùng ngôn ngữ tự nhiên lỗi giống được diễn tả từ ngữ khác hay nhiều cách khác Bảng 1, Bảng minh họa hai báo cáo lỗi trùng hệ thống quản lý lỗi Open Office Chúng ta dễ nhận thấy hai báo cáo lỗi báo cáo lỗi nhiên lại sử dụng từ ngữ khác Với số lượng báo cáo lỗi ngày tăng, việc dị tìm báo cáo lỗi trùng bàng thủ cơng việc gây lãng phí nhiều thời gian, tốn nhiều cơng sức người Vì vậy, ương năm gần đây, nhiều phương pháp việc tự động dị tìm báo cáo lỗi trùng lắp nghiên cứu để giải vấn đề Hiện có vài phương pháp giới thiệu Phương pháp sử dụng phổ biến trước sử dụng kỹ thuật lấy thơng tin (IR) sử dụng mơ hình vector (Vector Tra Vinh University (Nhan Minh Phuc, Nguyen Thua Phat Tai, Nguyen Hoang Duy Thien) Nhan Minh Phúc, Nguyễn Thừa Phát Tài, Nguyễn Hoàng Duy Thiện 54 Phưong pháp giới thiệu Phương pháp nhóm tác giả gồm hai phần chính: Đầu tiên xây dựng mơ hình LDA tính độ tương đơng LDA; Tiếp theo xây dựng phương pháp tính đặc diêm họng số (NWF) Sau đó, kết hợp hai mơ hình lại với gọi LDA-NWF Hình cho thấy phương pháp tổng thể mơ hình Hình Mơ hình tống quát 2.1 Cấu trúc tiền xử lý báo cáo lỗi Tất báo cáo lỗi kho quản lý lỗi tố chức theo cấu trúc liệu kiểu danh sách, cấu trúc dạng kiểu liệu bàng băm Trong đó, danh sách chứa báo cáo lỗi Bc (được xem báo cáo lôi đâu tiên) Những báo cáo lỗi Bc xem khóa danh sách, tất báo cáo lỗi Trl trùng với báo cáo lỗi xem giá trị danh sách chứa loại lỗi với báo cáo chinh Điều có nghĩa danh sách chứa lỗi khác tât báo cáo lỗi danh sách có loại lỗi Khi báo cáo lỗi người dùng gửi đến, kiểm tra có trùng với báo cáo lỗi gửi đến kho trước hay khơng Nếu báo cáo phát trùng, thêm vào danh sách tương ứng với danh sách báo cáo lỗi mà trùng, ngược lại danh sách tạo báo cáo lỗi trở thành báo cáo danh sách tạo Ngồi ra, nhóm tác giả tiến hành bước tiền xử lý với báo cáo lỗi Do tập tin báo cáo lỗi thường chứa nhiêu thông tin Những thơng tin có vài thơng tin khác hệ thống kho mã nguồn mở khác Nhưng nhìn chung họ giống Bảng Bảng cho thấy cụ thể tập tin báo cáo lỗi Open Office Bảng Báo cáo lỗi Open Office có mã lỗi: 9002 Bug ID 9002 Pro Math Com Code Sum formatting of font attributes Des The attributes: vector, check, bar, grave, tilde, so on which are removed from the font The problem seems to be used to define for Font Widebar or widehat are works around It is seems that this has a change from SVv4 that used according toTimes bold which is a conventional mathematical notation, and it is incidentally has better character kerning Beside the ‘wide’ version almost don’t exist for all properties Font ‘bold’ is translated into some type of arial font which has characters which is poor spacing Bảng Báo cáo lỗi Open Ọfìce có mã lỗi 4524 Bug ID 4524 Pro Math Com UI Sum It is too big for spacing between a arrow and vector Des Dear, The space is too big making the formula so high between a arrow and its It is clumsy when formular is a own paragraph It is easy to make more clear is to copy this file in a sxw text after that insert the formula in middle the previous text like “vec u” as the formula “AB and widevec” This is compared with what you get to insert to the formula “overline AB” Thanks Do tập tin báo cáo lỗi gốc thuộc dạng XML chứa nhiều thơng tin dư thừa, nhóm tác giả sử dụng công cụ Java SAX để chuyển đổi rút trích lấy bốn thơng tin tập tin báo cáo lỗi như: Thơng tin nội dung tóm tăt lôi, thông túi dùng để mô tả chi tiết lỗi, loại lỗi thông tin trùng lắp Thông tin tóm tắt lỗi phần mơ tả chi tiêt lơi chứa thông tin văn tập tin báo cáo lôi Thông tin loại lỗi chứa bốn phần gồm: Loại lỗi, sản phâm, thành phần phiên Thông tin trùng lắp dùng đê kiêm tra độ xác kết thực nghiệm Tiền xử lý bước thực việc trích liệu bao gôm bước: Làm liệu, tách từ, tim từ gốc, tim từ đồng nghĩa, tìm từ khơng có nghĩa để loại bỏ Với bước tiền xử lý trong báo nhóm tác giả sử dụng công cụ GATE [10] Lucene [11] đê làm việc 2.2 Xây dựng mơ hình LDA Vấn đề mơ hình LDA làm để tạo chủ đề từ tập tin báo cáo lỗi phân tích Trong LDA, thuật ngữ (term) hay từ tất tập tin báo cáo lỗi thu thập thành tập từ vựng, nhóm tác giả gọi V Một chủ đề tạo từ từ khác tập tập từ vựng Khi mơi từ tập từ vựng V có tầng suất xuất khác việc tạo chủ đề k, chủ đê có thê tạo thông qua hay nhiều từ Đê làm điêu này, LDA sử dụng vector chọn từ gọi 0fccó kích thước V cho chủ đề k Mỗi thành phần vector 0fcdựa vào phân bố xác suất từ, tương ứng với vị trí thành phần tập từ vựng V dùng để tạo chù đề k Mỗi thành phần 19 0fc có giá trị khoảng [0-1 ] Giả sử chủ đề 1,0i=[O,24; 0,23; 0,14; Ị Hình 2, điệu cho thấy, việc phân bố tầng suất xuất từ tập từ vựng sử dụng để tạo chủ đề k chiếm 24%, từ thứ hai chiếm 23%, tương tự 14% từ thứ ba, Một chủ đề tạo từ tập từ tùy vào phân bố xác suất chúng Khi đó, ta có ma trận 0=K X V dùng đề chọn từ dựa vào việc phân bố từ cho chủ đề Topic editor open tite 01 0.24 0.23 0.14 Topic repository' revision remote 01 026 18 0.13 Topic K navisaror browser display Hình Chủ đề cách chọn chù đề 024 0.23 0.14 ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHẸ - ĐẠI HỌC ĐÀ NĂNG, VOL 19, NO 7, 2021 2.2.1 Sử dụng LDA xử lý tập tin báo cáo lỗi Nhóm tác giả tiến hành rút trích tất cà liệu từ hai trường cùa báo cáo lỗi: Mơ tả (descriptions) tóm tắt (summaries) Khi đó, tập tin báo cáo lỗi b chứa Nb từ, để sử dụng LDA với báo cáo lỗi cần hai tham số Đầu tiên vector dùng để gán chủ đề zb Đối với vị trí Nb báo cáo lỗi b xem xét gán cho chủ đề Vector zbdùng để gán chủ đề cho báo cáo lỗi b có kích thước Nb Mỗi thành phần vector zb chi mục cho chủ đề Tham số thứ hai ỡ, báo cáo lỗi b có nhiều chủ đề, thuật tốn LDA sử dụng tham số để xác định tỷ lệ xác suất cho chủ đề báo cáo lỗi b ớ/, cùa báo cáo lỗi b trình bày vector với K thành phần Mỗi thành phần giá trị nằm khoảng [0-1] đê mơ hình hóa tỷ lệ chủ đề báo báo lỗi b Mỗi giá trị đề cập đến chủ đề tổng chúng 100% Giá trị ob [k] cao thi có nhiều từ thuộc chủ đề k có ttong báo cáo lỗi b Ví dụ báo cáo lỗi Hình 3, ớb=[0,20; 0,24; 0,13; ], có nghĩa 20% ưong báo cáo b có chứa từ “editing”, 24% chứa từ “versioning”, BAo lói L> C-hú’rf Nn Lù* Summ—ry: Opening d remote reviion of d fll« should not always the d^Kaolt text -editor Description; OpenRemotaFileActlor' hardwires editor that fV» used to'open remote fl I— \ \ \ * * -V Gán crKúi CĨ& Z|3—[Topic 1, Topic 2, Tcjfjic.- 2, I TnẠ • ] i lt Hình Mơ hình liệu 2.2.2 Mơ hình sinh Tirifi Ly ly dụ-* vào lit ló d- 55 nhóm báo cáo lỗi trùng lắp G Nhóm tác giả dùng phương pháp Jensen-Shannon divergence để làm việc Cuối tất nhóm báo cáo lỗi trùng Gj xếp lại nhóm có độ tương đồng cao theo săp xêp top-k xem ứng viên trùng với báo cáo lỗi bnew 2.3 Mơ hình đặc điểm trọng số (NWF) 2.3.1 Trọng số BM25 Sau rút trích tồn từ tập tin báo cáo lỗi sang mơ hình vector, từ xem tương ứng chiều mơ hình vector, giá trị trọng số tùy thuộc vào xác suât từ xuất ữong file báo cáo lỗi Việc xác định độ tương đồng hai báo cáo lỗi tính dựa vào khoảng cách giá trị trọng số mơ hình vector Phương pháp cổ điển trước thường dùng sử dụng mơ hình TF-IDF Tuy nhiên, phương pháp nhiều hạn chê Gân vài nghiên cứu giới thiệu mơ hình tính ừọng sơ gọi BM25 [12] Phương pháp cho thấy, hiệu thơng qua kết dựa vào thực nghiệm hệ thống báo cáo lỗi mã nguồn mở Mozila, Open Office BM25 mô hình dùng để xếp thứ hạng phát triên cho việc sử dụng hệ thống tìm kiêm truy xuất thông tin Okapi [12], Đối với BM25, liệu đánh giá xếp dựa vào số lần truy xuất từ, xem từ câu lệnh truy vấn để xác định phụ thuộc cùa dựa xác suất tính từ file báo cáo lỗi Đơn giản hơn, hiểu BM25 xác định mối quan hệ bên từ câu truy vấn file báo cáo lỗi, thay xác định mối quan hệ từ truy vấn báo cáo lỗi Ngoài đặc diêm trên, BM25 sử dụng để biểu diễn cho số hàm sử dụng giá trị trọng số biến thể đối vói báo cáo lỗi khác để dùng thay đổi giá trị tham sò cho phương pháp dùng đê truy xuất liệu tương ứng Trong báo này, nhóm tác giả sử dụng giá trị trọng số BM25 cho câu truy vấn q file báo cáo lỗi d định nghĩa bên dưới: LDA dạng học máy thường gọi mơ hình sinh (generative model) Từ khía cạnh sinh nó, báo cáo lỗi b xem đối tượng tạo ba tham số zb, 9b, L ỉJLwb) ^b-i.+Kai.(NBk,k-l+VP') (9) Trong đó, (Wefi k [—ỉ, W;] số từ Wi ưong tất báo cáo lỗi B, ngồi trừ vị trí gán đến k, NBRk số từ ưong s mô tả thông tin k So với công thức (4), báo cáo lỗi trùng có chủ đề với báo cáo lỗi ưong nhóm Tỷ lệ chủ đề k mô tà frong báo cáo lỗi, bao gồm tỳ lệ chủ đề 9b tỷ lệ chủ đề chia 0F) nhóm báo cáo lỗi trùng Gj ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VẦ CÔNG NGHẸ - ĐẠI HỌC ĐẦ NẨNG, VOL 19, NO 7, 2021 Từ ta CÓ N *b [~i,k] = Nb[-i,k]NGjk N *b [-i] = (Nb — ỉ)NGjk Trong đó, Nb[-i,k] làsố thuật ngữ b ngoại trừ cho vị trí mà gán chủ đề k; Nb tổng số từ b; NG.k tổng số vị trí gán cho chủ đề k ưong tập liệu báo cáo lỗi trùng ưong nhóm Gj NGj tổng báo cáo lỗi dựa vào chiều dài Cơng thức tác động đến việc chia chủ đề việc ước lượng ỡb[Ar| làm 9F [ZcJ phản ánh ước lượng thông qua ti lệ NGj k/NGj 3.1.2 ước lượng cho chù đề dựa vào 9bcho báo cáo lỗi b Sau việc gán chủ đề cho tất vị trí b ước lượng, tỷ lệ ước lượng 9b [k] chù đề k ưong b có thê tính đon giản băng tỷ lệ sô từ mô tả chủ đề k chiều dài cùa báo cáo lỗi 3.1.3 ước lượng việc phân bố từ 9BR Đây bước cuối dùng để ước lượng việc phân bô từ chủ đề Đối với từ Wi Voc chủ đề k tính dựa vào tỷ lệ số lần mà từ xuất vị trí thứ i Voc dùng để diễn tả chủ đề k tổng số lần mà thuật ngữ sử dụng để mơ tả cho chủ đề k 3.2 Mơ hình LDA-NWF Mơ hình LDA-NWF kết hợp mơ hình LDA mơ hình đặc điểm ưọng số Khi đó, ta cần xác định al cũ để tính độ tưong đồng báo cáo lỗi nhóm báo cáo lỗi phân loại trùng Đầu tiên nhóm tác giả training mơ hình LDA NWF Những tham số mơ hình training dùng để ước lượng mức độ tương tự hai báo cáo lỗi mức độ giống chủ đề cùa báo cáo lỗi nhóm báo cáo lỗi giống Những mức độ tương đồng kết hợp sử dụng sim(Btest, Gtest) thông qua đặc diêm trọng lượng khác Việc kết hợp nhũng giá trị tương đồng dùng để xếp hạng báo cáo lơi nhóm báo cáo lỗi phân loại trùng Danh sách xếp hạng Lpred sử dụng để đánh giá chức MAP(Gtest, Lpred) sử dụng để tìm giá trị tối ưu cho al Giá trị a nhận từ giá trị cao trả từ MAP(Gtest, Lpred) Hàm sừ dụng để tính độ xác trung bình [3] định nghĩa sau: (10) Trong đó, Ltest liên kết đến báo cáo lỗi trùng kho liệu dùng cho testing Lpred danh sách xếp cùa liên kết đực dự đốn Indexi vị trí nhóm báo cáo lỗi trùng lấy từ truy vấn thứ i Do MAP sử dụng để đo lường độ xác thuật tốn xếp liên kết nên có thê coi chức việc ứaining cho mơ hình LDA-NWF Trọng lượng từ al a2 training dùng để tính ương việc kết hợp báo cáo lỗi độ tương đồng chủ đề tính sau: Sim=al*siml+a2*sim2 (11) Trong đó, siml sim2 tập tin báo cáo lỗi độ tương đồng chù đề báo cáo lỗi bnew nhóm báo cáo lỗi G Độ tương đồng kết hợp cao bnew xem trùng với báo cáo lỗi nhóm G Thuật tốn thể Hình 57 / /thuật toán function PredictModel(.^aa BugReport ỉ»new DuplicateGroups Gj ) // ước lượng tỳ lộ chủ đê bao cáo lỗi brxew repeat 3' _ “new new ífcl/-vi>r>«w / ước lượng tỷ lộ đè w i I «- sarr»p/e(p(i|,„IW [«])> end //Tính độ tương địng of b„,w nhám béo cáo lỗi function TopicSim(b„ew Gj ) for ( BugReports b, € Gj ) TopicSim(b„ew, b, ) = — JSDit:ergence(9brlg ÌẺJ 3(,t ) end TopicSiml bnt>ut, Gj ) = max (TopicSim(b,ie w b')) bt € Gj return TopicSim( fcnew • Gj ) end Hình Thuật tốn Kết đánh giá 4.1 Tập liệu tham số K Đe đánh giá phương pháp giới thiệu, nhóm tác giả sử dụng tập liệu báo cáo lỗi công bố ương [9] Hai thông tin quan ưọng ttong file báo cáo lỗi thông tin dùng đê tóm tãt (summary) phần mơ tả (description) sau rút trích từ tập tin báo cáo lỗi lưu tập tin liệu Sau đó, nhóm tác giả thực tiên xử lý với kỹ thuật tách từ, phục hồi từ gơc, bỏ từ khơng có nghĩa Khi đó, tất thuật ngữ cịn lại đánh chi mục Sau giai đoạn báo cáo lỗi xem vector từ mục tương ứng Tất báo cáo lỗi xếp theo trình tự thời gian Nhóm tác giả chia tập liệu sang hai phần: Phần dùng cho huấn luyện phần dùng cho kiểm tra Phần dùng để huấn luyện bao gồm M báo cáo lỗi xác định đầu tiên, 200 báo cáo lỗi số trùng nhau, dùng để huấn luyện cho mơ hình LDA va NWF Những báo cáo lại dùng cho việc kiểm tra đánh giá Sau nhóm tác giả thực nghiệm cho phần kiểm ưa (testing), xác định báo cáo trùng b, ưả danh sách top-k ứng viên nhóm báo cáo lỗi trùng Neu báo cáo lỗi xác định trùng với nhóm lơi G ưong danh sách top-k, nhóm tác giả đếm có xác định Khi đó, thêm báo cáo lỗi b đến nhóm để huấn luyện sau Độ xác top-k hay cịn gọi recall rate tính tỷ lệ số báo cáo xác định ưên tổng số báo cáo lỗi xem xét „ _, , _ Sỗ dự đoán ■ —:— Tong so báo cáo lỗi trùng Recal rate =——— (12) Ngoài ra, nhóm tác giả xem xét tác động liên quan đên việc chọn số chủ đề K Nhóm tác giả thực nghiệm ưên tập liệu Eclipse ưong khoảng 20 đến 400 với khoảng cách 20 kêt lấy frong top-10 Kết Hình Từ việc quan sát kết ta thấy, K nhỏ (K380 độ xác bắt đầu giảm sơ chủ đề lớn có thê dẫn đến chồng lăp ngữ nghĩa báo cáo lỗi có nhiều chủ đề với tỳ lệ tương đồng gần giong nhaư Điều ảnh hưởng đến tỷ lệ xác định mức độ xác ưong việc xác định báo cáo lỗi trùng 100% 90% 30% 70% *) 60% tx 50% 40% 30% 20% 1O% o% 123456789 10 11 12 13 14 15 16 17 18 19 20 Top K-Mozĩlla Hình So sánh phương pháp trước Mozilla Kết luận Bài báo sử dụng kỹ thuật LDA-NWF việc xác định báo cáo lỗi trùng Phương pháp không dựa vào kỹ thuật lấy thơng tin mà cịn dựa vào mơ hình chủ đề LDA Mơ hình tận dụng ưu điểm mơ hình kỹ thuật lấy thơng tin file báo cáo lỗi có độ tương đồng, mơ hình LAD sử dụng cho file báo cáo lỗi với độ tương đồng Kết sau thực nghiệm cho thấy, mơ hình LAD-NWF cho kết dị tìm tốt kỹ thuật trước công bô so sánh cà ba hệ thống mã nguồn mờ từ 4-9% 4.2 So sánh với phương pháp khác Để đánh giá hiệu phương pháp, nhóm tác giả làm thực nghiệm để so sánh phương pháp giới thiệu với kỹ thuật công bố gần Cụ thê, bố ttong [9] sử dụng mơ hình ưọng so BM25F Mặc dù, phương pháp cho kết q dị tìm dựa ưèn kết thực nghiệm có cài tiến so với phương pháp khác Tuy nhiên, chì hiệu báo cáo lỗi diễn tả từ hay thuật ngữ (term) tương tự mô tà lỗi, không hiệu trường hợp báo cáo lỗi sử dụng từ hay thuật ngữ khác mơ tả lỗi Ngồi ra, để so sánh kết đánh giá cùa phương pháp giới thiệu với phương pháp khác, nhóm tác giả thực so sánh với mơ hình LDA NWF riêng biệt Kết quan sát cho thấy, phương pháp LDA-NWF cho kết tốt phương pháp C.Sun, LDA NWF thấy Hình đến Hình TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] 1O% [8] Hình So sánh phương pháp trước Open Office [9] [10] [11] □% 123456789 10 11 12 13 14 15 16 17 18 19 20 Top K-Eclipse Hình So sánh phương pháp trước Eclipse [12] J Lerch and M Mezini, "Finding Duplicates ofYour Yet Unwritten Bug Report," 2013 I7th European Conference on Software Maintenance and Reengineering, pp 69-78, doi: 10.1109/CSMR.2013.17 N s a I Ciordia, "Bugzilla, ITracker, and other bug”, 2013, 17th European Conference on Software Maintenance and Reengineering IEEE, 69-78, 2005 M & B C.-P & H A E Rakha, "Revisiting the Performance Evaluation of Automated Approaches for the Retrieval of Duplicate Issue Reports”, in IEEE Transactions on Software Engineering, pp 10.1109/TSE.2017.2755005., 2017 s L D Chengnian, X Wang, J Jiang and S.-C Khoo, "A discriminative model approach for accurate duplicate bug report retrieval”, in Proceedings of the 32nd ACM/IEEE International Conference on Software Engineering, ACM, pp 45-54., 2010 Y Tian, c Sun and D Lo, "Improved Duplicate Bug Report Identification", 2012 16th European Conference on Software Maintenance and Reengineering, 2012, pp 385-390, doi: 10.1109/CSMR.2012.48 L z T X J A a J s X Wang, "An approach to detecting duplicate bug reports using natural language and execution information”, in ACM/IEEE 30th International Conference on Software Engineering, Leipzig, 2008, pp 461-470, 2008 Meng-Jie Lin, Cheng-Zen Yang, Chao-Yuan Lee, Chun-Chang Chen, "Enhancements for duplication detection in bug reports with manifold correlation features”, Journal ofSystems and Software, Elservier, vol Volume 121, no November, pp Pages 223-233, 2016 N J a w Weimer, "Automated duplicate detection for bug tracking systems”, in IEEE International Conference on Dependable Systems and Networks with FTCS and DCC (DSN), Anchorage, AK, 2008, pp 52-61, doi: 10.1109/DSN.2008.4630070 D L., K a J J C Sun, "Towards more accurate retrieval of duplicate bug reports”, in 26th IEEE/ACM International Conference on Automated Software Engineering (ASE 2016), pp 253-262, Lawrence, KS, 2017 D M K B H Cunningham, "GATE: an architecture for development of robust HLT applications”, in Proceedings of the 40th annual meeting on association for computational linguistics, pp.168-175,2002 M o Gospodnetic and E Hatcher, " Lucene in Action”, Manning Publications Co., Greenwich, CT2005 J Whissell and C Clarke, "Improving document clustering using Okapi BM25 feature weighting”, information Retrieval Journal, vol Vol 14, no Issue 5, pp p466-487, 2011 ... tin báo cáo lỗi Tuy nhiên, kỹ thuật cho kết thấp hai báo cáo lỗi khác lại mô tả lỗi (trùng nhau) , thuật ngữ khác hai báo cáo lỗi Ngược lại, phương pháp sử dụng mơ hình LDA xác định hai báo cáo lỗi. .. xem báo cáo lôi đâu tiên) Những báo cáo lỗi Bc xem khóa danh sách, tất báo cáo lỗi Trl trùng với báo cáo lỗi xem giá trị danh sách chứa loại lỗi với báo cáo chinh Điều có nghĩa danh sách chứa lỗi. .. đó, siml sim2 tập tin báo cáo lỗi độ tương đồng chù đề báo cáo lỗi bnew nhóm báo cáo lỗi G Độ tương đồng kết hợp cao bnew xem trùng với báo cáo lỗi nhóm G Thuật tốn thể Hình 57 / /thuật toán