Khi xem xờt bỏi tõn phĩn cụm theo chủ đề, cõc từ trong nội dung tỏi liệu cụ thể cụ thể được chia thỏnh hai nhụm: nhụm cõc từ theo chủ đề vỏ nhụm cõc từ khừng theo chủ đề như cõc từ xuất hiện thường xuyởn bao gồm cõc từ dừng Do vậy, việc loại bỏ cõc từ dừng nhằm mục đợch giảm khối lượng tợnh tõn vỏ lỏm mượt mừ hớnh phĩn cụm Ghờp nội dung hai tỏi liệu nguồn vỏ tỏi liệu sao chờp thỏnh một tỏi liệu nhằm mục đợch lựa chọn ra cõc cụm chứa cõc từ (sau đụ nội suy ra cõc cĩu) thuộc cả tỏi liệu lỏm cơ sở để xõc định đoạn sao chờp trong bước mở rộng đoạn Qũ trớnh phõt hiện đoạn sao chờp giữa hai tỏi liệu được thực hiện qua 4 bước gồm (1) tiền xử lý dữ liệu, (2) phĩn cụm, (3) xõc định đoạn sao chờp, (4) mở rộng đoạn được mừ tả như Hớnh 3 1
Tập cĩu 1 Tiền xử lý 2 Phĩn cụm Tập cĩucỳng chủ đề 3 Xõc định đoạn sao chờp Tập đoạn sao chờp cơ sở Văn bản
đầu vỏo dsus,
dsrc Cặp đoạn
sao chờp
4 Mở rộng đoạn
Hớnh 3 1 Quy trớnh phõt hiện đoạn sao chờp dựa trởn mừ hớnh chủ đề Sau bước tiền xử lý dữ liệu, tập cĩu thu được từ tỏi liệu nghi ngờ sao chờp
(dsus) vỏ tỏi liệu nguồn (dsrc) được ghờp thỏnh một tỏi liệu lỏm đầu vỏo cho thuật tõn phĩn cụm LDA Theo kết quả phĩn cụm mỗi từ trong tỏi liệu sẽ được gõn với một chỉ số cụm Chỉ số cụm của cĩu được xõc định bằng chỉ số cụm của từ cụ
cỳng chỉ số vỏ cụ số lượng lớn nhất (vỏ lớn thứ hai nếu giõ trị nỏy xấp xỉ giõ trị lớn nhất) trong cĩu Loại bỏ cõc cụm chỉ chứa cõc cĩu trong một tỏi liệu Kết thỷc bước hai sẽ thu được một tập cụm với mỗi cụm chứa một số cĩu cụ nghĩa tương đồng nhau thuộc cả hai tỏi liệu dsus vỏ dsrc
LDA hoạt động dựa trởn mừ hớnh sinh xõc suất với giõ trị khởi tạo ngẫu nhiởn về xõc suất của một từ thuộc một chủ đề Do cơ chế hoạt động nỏy dẫn đến mỗi lần chạy thuật tõn LDA mỗi từ thuộc một chủ đề theo một xõc suất khõc nhau Vớ vậy, cõc cĩu trong cỳng một cụm cụ thể khõc nhau sau mỗi lần chạy thuật tõn Để đảm bảo độ tin cậy của cõc cĩu cụ sự tương đồng về ngữ nghĩa trong cỳng một cụm, luận õn đề xuất giải phõp chạy thuật tõn LDA một số lần trởn cỳng tập dữ liệu đầu vỏo Đầu ra của cõc lần chạy được sử dụng để xĩy dựng cơ sở dữ liệu giao dịch lỏm đầu vỏo cho thuật tõn Apriori nhằm thu được cõc tập phổ biến với giõ trị phổ biến xõc định Luận õn lựa chọn cõc tập phổ biến với giõ trị phổ biến lớn nhất để xõc định đoạn sao chờp cơ sở Cuối cỳng để thu được đoạn sao chờp, luận õn thực hiện mở rộng đoạn cơ sở theo hai hướng: trong cỳng tập phổ biến vỏ giữa hai tập phổ biến để thu được đoạn sao chờp cuối cỳng Chi tiết cõc bước trong quy trớnh được mừ tả dưới đĩy
3 4 1 1 Tiền xử lý văn bản đầu vỏo
Như đọ phĩn tợch ở trởn, cõc từ xuất hiện thường xuyởn sẽ khừng mang thừng tin về chủ đề, do vậy, trong bước tiền xử lý luận õn thực hiện tõch cĩu, tõch từ, loại bỏ từ dừng vỏ cõc ký tự đặc biệt trong tỏi liệu nguồn vỏ tỏi liệu sao chờp
Luận õn cho rằng cõc cĩu qũ ngắn sẽ thiếu thừng tin liởn quan đến ngữ cảnh vỏ việc xõc định chủ đề cĩu dựa trởn chủ đề của từ trong cĩu sẽ khừng chợnh xõc do số lượng từ ợt Dựa trởn nhận định đụ, luận õn sử dụng một cửa sổ trượt trởn tập cĩu đọ tõch của mỗi tỏi liệu để tạo ra cõc cĩu mới cụ kợch thước lớn hơn vỏ khắc phục được cõc hạn chế nởu trởn
Để tạo ra cõc cụm chứa cõc cĩu của cả hai tỏi liệu, luận õn tạo ra một tập cĩu duy nhất bằng cõch ghờp cõc cĩu thuộc tỏi liệu nguồn dsrc tiếp nối tỏi liệu nghi ngờ sao chờp dsus lỏm dữ liệu đầu vỏo cho thuật tõn phĩn cụm LDA
3 4 1 2 Phĩn cụm
LDA xem xờt tập cĩu đầu vỏo như một tập cõc chủ đề, mỗi chủ đề gồm một tập cõc từ Nếu một từ w cụ xõc suất cao thuộc một chủ đề t thớ tất cả cõc cĩu chứa từ w cụ khả năng cao thuộc chủ đề t Nụi cõch khõc, nếu từ w cụ xõc suất thấp thuộc chủ đề t thớ cõc cĩu chứa từ w cụ khả năng thấp thuộc chủ đề t vớ cõc từ cún lại trong cĩu thuộc chủ đề khõc vỏ do đụ cĩu sẽ cụ xõc suất cao hơn thuộc về chủ đề khõc t
Sau khi chạy thuật tõn phĩn cụm, mỗi từ trong cĩu sẽ thuộc một chủ đề cụ thể Để thực hiện việc trợch rỷt chủ đề cĩu, luận õn thực hiện đếm số lần xuất hiện của mỗi chủ đề trong cĩu Để xõc định chủ đề của cĩu, luận õn sử dụng chiến lược: Trởn mỗi cĩu, chủ đề nỏo “trội” hơn thớ gõn cĩu đụ với chủ đề đụ Khõi niệm “trội” dựa trởn tỷ lệ giữa số lượng từ lớn nhất vỏ lớn thứ hai cỳng một chủ đề Tỉ lệ nỏy cỏng lớn thớ chủ đề được chọn cỏng “trội” Để thực hiện phĩn cụm cĩu luận õn thực hiện quờt toỏn bộ cĩu vỏ nhụm cõc cĩu cụ cỳng chủ đề
Như vậy qua bước xử lý nỏy cụ thể xõc định được cõc nhụm cĩu cụ cỳng chủ đề Tuy vậy, mục tiởu cuối cỳng cần xõc định cặp đoạn ở đụ một đoạn thuộc tỏi liệu nguồn vỏ một đoạn thuộc tỏi liệu nghi ngờ sao chờp vẫn chưa thể xõc định được Bước tiếp theo, luận õn sử dụng thuật tõn Apriori để thực hiện nhiệm vụ nỏy
3 4 1 3 Xõc định đoạn sao chờp
Như đọ phĩn tợch trong phần giới thiệu mục 3 4 1, để thu được tập cĩu cụ cỳng chủ đề mang tợnh ổn định cao luận õn thực hiện chạy thuật tõn LDA 10 lần trởn cỳng dữ liệu đầu vỏo Tại mỗi lần chạy sẽ thu được một tập cụm ở đụ mỗi cụm chứa cõc cĩu cụ liởn quan với nhau Do cõc cĩu trong một cụm phải nằm trong cả hai tỏi liệu dsus vỏ dsrc nởn luận õn thực hiện loại bỏ cõc cụm ở đụ cõc cĩu chỉ thuộc về một tỏi liệu mỏ khừng ảnh hưởng đến kết quả phõt hiện đoạn sao chờp Nhiệm vụ của bước nỏy lỏ tớm ra được cõc đoạn văn bản chứa cõc cĩu cụ liởn quan với nhau ở hai tỏi liệu xuất hiện nhiều nhất qua cõc lần chạy thuật tõn LDA
Để giải quyết vấn đề nởu trởn, luận õn đề xuất sử dụng thuật tõn Apriori [6] Thuật tõn nỏy được sử dụng để tớm kiếm cõc tập phổ biến trong một tập luật
kết hợp Như vậy, để õp dụng thuật tõn Apriori luận õn cần thực hiện hai nhiệm vụ chợnh sau đĩy:
- Xĩy dựng CSDL giao dịch từ dữ liệu phĩn cụm cĩu trong bước trước - Xõc định giõ trị hỗ trợ tối thiểu (min_sup) phỳ hợp
Để xĩy dựng cơ sở dữ liệu giao dịch, luận õn thực hiện õnh xạ mỗi cụm lỏ một giao dịch vỏ chỉ số cĩu trong mỗi cụm lỏ một đối tượng của giao dịch Tập luật được xõc định dựa trởn mối tương quan về ngữ nghĩa giữa cõc cĩu thuộc tỏi liệu nguồn vỏ cõc cĩu thuộc tỏi liệu nghi ngờ sao chờp trong cỳng một cụm Vợ dụ về xõc định tập luật từ một cụm như sau:
Giả sử một cụm C1 = {19, 20, 21, 56, 57} trong đụ cõc cĩu {19,20,21}∈
dsrc, cõc cĩu {56,57}∈ dsus Khi đụ danh sõch tập luật như sau: {19,20,21}→{56,57} {19,20,21}→{57} {19,20,21}→{56} {20,21}→{56,57} {19,21}→{56,57} {19,20}→{56,57} {21}→{56,57} {20}→{56,57} {19}→{56,57} {20,21}→{57} {20,21}→{56} {19,21}→{57} {19,21}→{56} {19,20}→{57} {19,20}→{56} {21}→{57} {21}→{56} {20}→{57} {20}→{56} {19}→{57} {19}→{56}
Xõc độ hỗ trợ tối thiểu (min_sup)
Việc xõc định giõ trị hỗ trợ tối thiểu min_sup cho thuật tõn Apriori cũng rất quan trọng vỏ ảnh hưởng đến kết quả đầu ra của thuật tõn Nếu giõ trị min_sup
nhỏ, số lượng tập phổ biến thu được sẽ lớn, ngược lại, nếu giõ trị min_sup lớn cụ thể sẽ khừng tớm được tập phổ biến nỏo thỏa mọn điều kiện lớn hơn giõ trị min_sup
Để xõc định giõ trị min_sup phỳ hợp, trong luận õn sử dụng chiến lược sau: - Khởi tạo giõ trị mặc định ban đầu min_sup = 3
- Nếu sau khi thực hiện thuật tõn Apriori khừng thu được kết quả, thực hiện giảm giõ trị min_sup xuống 1 đơn vị vỏ chạy lại thuật tõn
- Nếu sau khi thực hiện thuật tõn min_sup thu được nhiều cặp đoạn sao chờp cụ độ phổ biến bằng nhau thớ thực hiện tăng giõ trị min_sup lởn 1 đơn vị
- Nếu kết quả cuối cỳng lỏ cặp đoạn văn bản cụ độ dỏi khừng cĩn xứng (số cĩu khõc nhau nhiều) thớ thực hiện giảm giõ trị min_sup
Sau khi chạy thuật tõn Apriori sẽ thu được tập phổ biến với mức phổ biến tương ứng, luận õn đề xuất một bước lọc tiếp theo thỏa mọn cõc điều kiện:
- Chọn tập phổ biến cụ mức phổ biến lớn nhất
- Chọn tập phổ biến cụ ợt nhất 2 đối tượng trong đụ cụ ợt nhất một đối tượng cụ chỉ số cĩu nằm văn bản nguồn vỏ ợt nhất một đối tượng cụ chỉ số cĩu nằm trong văn bản nghi ngờ
Phĩn tợch kết quả thu được, luận õn nhận thấy cõc tập phổ biến cụ cõc đặc điểm sau:
- Tồn tại một số tập phổ biến chứa cõc phần tử cụ chỉ số cĩu bị đứt quọng - Nếu kết hợp hai tập phổ biến cụ thể thu được cõc phần tử cụ chỉ số cĩu liởn tục
Điều nỏy gợi ý cần phải xử lý bước tiếp theo để gom cõc đoạn nhỏ thỏnh đoạn kết quả mong muốn Bước xử lý tiếp theo gọi lỏ “Mở rộng đoạn” được trớnh bỏy trong phần dưới đĩy
3 4 1 4 Mở rộng đoạn
Cho một tập phổ biến F, mỗi đối tượng trong tập phổ biến chứa chỉ số cĩu của cả hai văn bản sao chờp vỏ văn bản nguồn Mục đợch của việc mở rộng đoạn lỏ tạo ra cõc đoạn sao chờp giữa hai tỏi liệu bằng cõch trộn cõc đoạn trong cõc tập phổ biến
Để thực hiện mở rộng đoạn, luận õn đề xuất 02 chiến lược trộn, cụ thể: - Trộn cõc đoạn trong một tỏi liệu trởn một tập phổ biến
- Trộn cõc đoạn trong một tỏi liệu trởn hai tập phổ biến
Chiến lược thứ nhất được thực hiện khi khoảng cõch giữa cõc đoạn trởn một tập phổ biến nhỏ hơn một giõ trị ngưỡng maxGapSameMeaning Khoảng cõch giữa hai đoạn được tợnh bằng khoảng cõch nhỏ nhất (dựa trởn chỉ số cĩu) giữa hai cĩu trong đoạn Qũ trớnh nỏy trả về cõc cặp chỉ số đoạn [(pi,pj), (pk,pl)] xuất hiện thường xuyởn nhất trong tất cả cõc tập phổ biến, (pi,pj) xõc định một đoạn tợnh từ cĩu cụ chỉ số pi đến cĩu cụ chỉ số pj trong tỏi liệu nghi ngờ sao chờp, (pk,pl) xõc định một đoạn tợnh từ cĩu cụ chỉ số pk đến cĩu cụ chỉ số pl trong tỏi liệu nguồn
(pi, pj) vỏ (pk, pl) nằm trong cỳng một tập phổ biến
Chiến lược thứ hai được thực hiện giữa mỗi cặp tập phổ biến cụ mức phổ biến cao nhất [(pi, pj), (pk, pl)] vỏ một cặp [(pi', pj'), (pk', pl')] được trả về sau khi thực hiện chiến lược thứ nhất khi khoảng cõch giữa hai cặp đoạn nhỏ hơn khoảng cõch tối đa cho phờp trộn ở hai tập phổ biến khõc nhau (giõ trị nỏy gọi lỏ
maxGapDifferMeaning) (pi, pj) vỏ (pi’, pj’) lỏ những đoạn từ tỏi liệu nghi ngờ; (pk, pl) vỏ (pk’, pl’) lỏ từ tỏi liệu nguồn
Thuật tõn 3 1 Mở rộng đoạn
Đầu vỏo: Tập phổ biến F, kợch thước cửa sổ trượt n
1 Gõn trọng số cho mỗi tập phổ biến được trả về từ thuật tõn Apriori bằng mức phổ biến
2 Với mỗi tập phổ biến IS ∈ F: - IS1:= NULL
- Với mỗi phần tử pi ∈ thuộc tỏi liệu sao chờp, chộn cặp (pi, pi) vỏo IS1 - i=0; j=0; k = i+1; l = i+1
Repeat
If (cặp [(pi,pj),(pk,pl)] trong cỳng một tỏi liệu) and ((pi,pj) and (pk,pl) ∈
IS1)) and (pk-pj< maxGapSameMeaning)):
Thay thế đoạn [(pi,pj) vỏ (pk,pl) bằng (pi,pl) ∈ IS1
Until mỗi cặp trong IS1 vỏ trong cỳng tỏi liệu khừng thể mở rộng thởm được nữa
3 Thực hiện chiến lược thứ hai, lỷc nỏy mỗi tập IS1 chứa cõc cặp chỉ số từ tỏi liệu nghi ngờ sao chờp vỏ tỏi liệu nguồn cụ độ dỏi tối đa Sinh ra cõc cặp [(pi,pj),(pk,pl)] từ IS1, với (pi,pj) ∈ Tỏi liệu nghi ngờ sao chờp vỏ (pk,pl) ∈ Tỏi liệu nguồn Tất cả cõc cặp trởn vỏ trọng số của nụ được chộn vỏo tập IS2 4 For mỗi cặp [(pi,pj),(pk,pl)] ∈ IS2 với trọng số lớn nhất:
Repeat
1 Tạo giõ trị biởn trởn vỏ ngưỡng dưới: lowbSusp = pi – maxGapDifferMeaning
upbSusp = pj + maxGapDifferMeaning
lowbSour = pk – maxGapDifferMeaning
upbSour = pl + maxGapDifferMeaning
ở đụ lowbSusp, upbSusp lỏ cõc giõ trị biởn trởn vỏ dưới của tỏi liệu nghi ngờ sao chờp; lowbSour, upbSour lỏ cõc giõ trị biởn trởn vỏ dưới của tỏi liệu nguồn
2 Nếu cụ một cặp [(pi',pj'), (pk',pl')] ∈ IS2 thỏa mọn điều kiện: lowbSusp < pi' < pj' < upbSusp lowbSour < pk' < pl' < upbSour thực hiện: a Trộn (pi,pj) với (pi',pj') thỏnh (pm, pn) ở đụ pm = min(pi,pi'), pn = max(pj,pj') b Trộn (pk,pl) với (pk',pl') thỏnh (pr,ps) ở đụ pr = min(pk,pk'), ps = max(pl,pl') c Thay thế [(pi,pj), (pk,pl)] vỏ [(pi',pj'), (pk',pl')] bằng [(pm,pn),(pr,ps)]
trong IS2 với giõ trị trọng số bằng giõ trị trọng số cao nhất d Gõn i=m, j=n, k=r, l=s
Until khừng cụ thởm cặp nỏo được trộn
5 Return cặp [(px,py), (pz,pt)] ∈ IS2 với trọng số lớn nhất
Đầu ra: Cặp đoạn tương đồng trong tỏi liệu nguồn vỏ tỏi liệu nghi ngờ sao
chờp
Kết quả của giai đoạn mở rộng đoạn thu được cõc đoạn sao chờp giữa tỏi liệu nghi ngờ vỏ tỏi liệu nguồn với giõ trị trọng số lớn nhất Cặp đoạn nỏy chợnh lỏ kết quả của hệ thống
3 4 1 5 Độ phức tạp của thuật tõn đề xuất
Gọi K lỏ số chủ đề, n lỏ tổng số từ trong tỏi liệu nguồn vỏ tỏi liệu nghi ngờ sao chờp Gọi d lỏ tổng số cĩu trong tỏi liệu nguồn vỏ tỏi liệu nghi ngờ sao chờp
Độ phức tạp của thuật tõn LDA:
Mỗi lần lặp lại, thuật tõn gõn mỗi từ với một chủ đề tương ứng, thực hiện một số phờp đếm vỏ cập nhật giõ trị phĩn phối chủ đề cho tỏi liệu vỏ phĩn phối từ vựng cho chủ đề Bởn cạnh đụ, độ phức tạp trởn mỗi lần lặp lỏ tuyến tợnh về kợch thước của dữ liệu vỏ tuyến tợnh về số lượng chủ đề
Thuật tõn LDA thực hiện chạy 10 lần dụ đụ độ phức tạp của thuật tõn LDA được tợnh theo cừng thức 3 2 dưới đĩy:
TLDA = 10*O(n*K) (3 2)
Độ phức tạp của thuật tõn Apriori:
Về mặt lý thuyết độ phức tạp của thuật tõn Apriori lỏ O(2d) với d lỏ tổng số mục duy nhất trong cơ sở dữ liệu giao dịch vỏ chợnh lỏ số lượng cĩu Giới hạn trởn đạt được khi giõ trị min_sup = 0
Tapriori = O(2d) (3 3)
Độ phức tạp của thuật tõn mở rộng đoạn:
Đầu vỏo của thuật tõn mở rộng đoạn lỏ kết quả đầu ra của thuật tõn Apriori Trường hợp xấu nhất, đầu vỏo của thuật tõn chứa 2d tập phổ biến Theo thuật tõn đọ mừ tả, độ phức tạp chi tiết mỗi bước như sau:
Bước 1: tối đa 2d phờp gõn
thứ k
Bước 3: tối đa 2d phờp gõn Bước 4: tối đa 2d phờp trộn đoạn
Textend = O(2d + ck*2d+2d+2d) = O((3+ck)*2d) ≤ O(d*2d)
Vậy độ phức tạp của toỏn bộ cõc thuật tõn lỏ:
T = TLDA + Tapriori + Textend = O(n*K) + O(2d) + O(d*2d) = O(n*K) + O(d*2d)
(3 4)
(3 5) Độ phức tạp của thuật tõn lỏ một hỏm mũ theo d lỏ tổng số mục duy nhất trong cơ sở dữ liệu giao dịch vỏ chợnh lỏ số cụm thu được từ bước phĩn cụm Trường hợp xấu nhất d nhận giõ trị bằng tổng số cĩu của hai tỏi liệu đầu vỏo (xấp xỉ 300 cĩu với kho ngữ liệu PAN) Tuy nhiởn, bước phĩn cụm chỉ lựa chọn cõc cụm chứa chỉ số cĩu xuất hiện trong cả hai tỏi liệu lỏm đầu vỏo của thuật tõn Apriori vỏ bước mở rộng đoạn chỉ lựa chọn cõc tập mục cụ độ phổ biến lớn nhất nởn d nhận giõ trị xấp xỉ bằng tổng số cĩu đoạn sao chờp trong hai tỏi liệu