bản tiếng Việt
Để xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp việc đầu tiởn cần thực hiện lỏ thu thập dữ liệu thừ. Cụ rất nhiều kho ngữ liệu văn bản cụ sẵn cho ngừn ngữ tiếng Anh như kho Brown Corpus [43], kho The Britain National Corpus (BNC) [32], kho The American National Corpus [57]. Tuy nhiởn, cõc kho ngữ liệu sẵn cụ cho tiếng Việt cún rất hạn chế. Thừng thường, khi giải quyết cõc bỏi tõn XLNNTN tiếng Việt cõc tõc giả sẽ tiến hỏnh thu thập dữ liệu thừ từ cõc nguồn như bõo điện tử, bỏi bõo khoa học, ĐATN cho mục đợch thử nghiệm. Để xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt, luận õn lựa chọn thu thập dữ liệu thừ lỏ cõc bỏi bõo khoa học. Đĩy lỏ loại tỏi liệu cụ tỷ lệ xảy ra tớnh trạng sao chờp cao so với cõc nguồn tỏi liệu khõc.
Với mục tiởu của luận õn lỏ phõt hiện sao chờp văn bản nởn cõc dữ liệu hớnh ảnh, cừng thức, cõc ký tự đặc biệt khừng chứa thừng tin quan trọng vỏ cần được loại bỏ. Qua phĩn tợch cõc trường hợp sao chờp cho thấy người sao chờp chỉ quan tĩm đến cõc tỏi liệu cụ liởn quan đến nội dung mỏ họ đang xĩy dựng. Hay nụi cõch khõc, tỏi liệu nguồn vỏ tỏi liệu sao chờp thường nằm trong cỳng một chủ đề, một lĩnh vực vỏ cụ mối liởn hệ về mặt ngữ nghĩa. Bởn cạnh đụ, khi thực hiện sao chờp người sao chờp cụ thể sử dụng nguyởn văn một đoạn hoặc cụ thể sửa đổi nụ trước khi sử dụng trong tỏi liệu của mớnh.
Từ cõc phĩn tợch trởn, luận õn đề xuất cõc bước xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt gồm (1) Thu thập vỏ tiền xử lý dữ liệu; (2) Phĩn cụm tỏi liệu; (3) Phĩn đoạn tỏi liệu; (4) Sinh đoạn văn bản sao chờp; (5) Chộn đoạn văn bản sao chờp; (6) Xĩy dựng trường hợp sao chờp. Chi tiết cõc bước thực hiện được giới thiệu dưới đĩy.
4.2.2.1 Thu thập, tiền xử lý dữ liệu
Hiện nay ở Việt nam cụ nhiều kho dữ liệu điện tử tiếng Việt như tại trang web tailieu.vn, doc.edu.vn, tailieuso.net hoặc cõc thư viện số của cõc trường đại
học vỏ trung tĩm nghiởn cứu. Tuy nhiởn, đĩy lỏ cõc nguồn tỏi liệu đụng hoặc phải trả phợ mới cụ thể thu thập sử dụng. Để khắc phục vấn đề trởn, nguồn dữ liệu thừ được lựa chọn lỏ cõc bỏi bõo khoa học từ Viện KH-CN quĩn sự vỏ trường Đại học Bõch khoa Hỏ nội. Nguồn dữ liệu nỏy được lưu trữ dưới hai định dạng chợnh lỏ word vỏ pdf. Đĩy lỏ cõc định dạng siởu dữ liệu (metadata) chưa thể sử dụng được ngay mỏ cần phải xử lý để chuyển đổi về dạng văn bản thuần thừng qua cõc kỹ thuật nhận dạng quang học OCR (từ pdf) vỏ tõch dữ liệu văn bản. Tuy nhiởn, qũ trớnh nhận dạng ký tự vỏ tõch văn bản thường khừng đảm bảo độ chợnh xõc 100%. Chợnh vớ vậy, cõc dữ liệu thu được cần phải kiểm tra vỏ sửa lỗi chợnh tả trước khi sử dụng cho cõc bước tiếp theo.
Cõc bước xử lý dữ liệu thừ gồm:
- Với cõc tệp cụ định dạng pdf: Nhận dạng quang học (OCR) để chuyển ký tự trong tệp pdf thỏnh dạng thuần text.
- Loại bỏ dữ liệu khừng sử dụng: Do mục tiởu của kho ngữ liệu cần xĩy dựng lỏ dữ liệu văn bản tiếng Việt nởn cõc thừng tin như hớnh vẽ, cừng thức, cõc ký tự đặc biệt, tụm tắt tiếng Anh cần được loại bỏ. Bởn cạnh đụ, cõc phần văn bản ợt khả năng bị sao chờp như từ khụa, tỏi liệu tham khảo tiếp tục bị loại bỏ. Cõc cụm từ “Abstract”, “Tỏi liệu tham khảo”, “Từ khụa” xuất hiện trong văn bản lỏ cơ sở để xõc định nội dung của đoạn văn bản cần loại bỏ. Để nhận biết một đoạn văn bản lỏ nội dung tụm tắt tiếng Anh, luận õn căn cứ vỏo hai thừng tin lỏ độ dỏi đoạn vỏ đoạn cụ hay khừng chứa cõc nguyởn ĩm tiếng Việt (như ă, ĩ, ở, ư,…). Ngoỏi ra, nhằm khắc phục cõc lỗi nhận dạng quang học, luận õn thực hiện kiểm tra vỏ sửa lỗi chợnh tả với sự hỗ trợ của cừng cụ kiểm tra chợnh tả Tummo Spell [164]. Cuối cỳng, luận õn loại bỏ toỏn bộ tỏi liệu nếu nội dung thu được qũ ngắn dưới 1 trang A4 (do tỏi liệu gốc chứa nhiều hớnh vẽ, cừng thức).
- Tõch từ: Do tiếng Việt lỏ ngừn ngữ đơn ĩm tiết nởn chuỗi giữa hai khoảng trắng cụ thể khừng phải lỏ một từ vớ vậy việc tõch từ rất cần thiết để định danh cõc từ trong tỏi liệu tiếng Việt.
Kết thỷc bước nỏy sẽ thu được tập tệp dữ liệu thuần văn bản. Thừng tin dữ liệu thu thập được mừ tả trong Bảng 4.1 dưới đĩy.
Bảng 4.1. Bảng thừng tin dữ liệu thu thập
4.2.2.2 Phĩn cụm tỏi liệu
Bằng cõch chộn cõc đoạn văn bản sao chờp vỏo văn bản cụ cỳng chủ đề sẽ lỏm cho văn bản cụ thể trở nởn thực tế hơn. Vớ vậy, mục tiởu chợnh của giai đoạn nỏy lỏ tạo ra cõc nhụm tỏi liệu tương đồng cao nhất.
Thống kở cõc lĩnh vực liởn quan đến cõc bỏi bõo trong kho ngữ liệu thừ, luận õn nhận thấy cụ một số lĩnh vực như: Kỹ thuật điện, Cừng nghệ vật liệu, Xử lý ảnh vỏ nhận dạng, Xử lý tợn hiệu, Mạng nơ ron,...Để tạo ra cõc nhụm tỏi liệu cụ độ tương đồng cao, luận õn thực hiện hai bước phĩn cụm gồm: Bước thứ nhất, luận õn sử dụng thuật tõn K-means với số cụm k bằng số lĩnh vực trong kho dữ liệu bỏi bõo. Tiếp tục õp dụng thuật tõn K-means với mỗi cụm thu được trong bước thứ nhất nhằm thu được cõc cụm tỏi liệu cụ độ tương đồng cao nhất. Số cụm được chọn trong bước hai sao cho số tỏi liệu thu được trong mỗi cụm khừng vượt qũ giõ trị n cho trước.
4.2.2.3 Phĩn đoạn tỏi liệu
Cõc tệp tỏi liệu trong mỗi cụm được phĩn chia thỏnh hai phần, 50% số tỏi liệu lỏ tỏi liệu nguồn, cún lại lỏ tỏi liệu sao chờp sẽ chứa đoạn văn bản sao chờp.
Độ dỏi trung bớnh tệp tỏi liệu thuần khoảng 4 trang A4 (cỡ chữ 14), mỗi trang xấp xỉ 15 cĩu. Căn cứ vỏo tỉ lệ cho phờp trỳng lặp hiện nay tại một số trường đại học lỏ 25-30%, luận õn đề xuất độ dỏi đoạn trợch rỷt nằm trong khoảng từ 3 đến 15 cĩu tương đương với tỉ lệ trỳng lặp từ 5-25%. Phĩn bố độ dỏi đoạn được mừ tả trong Bảng 4.2 dưới đĩy:
Bảng 4.2. Bảng phĩn bố độ dỏi đoạn sao chờp
Số lượng tỏi liệu Ngừn ngữ Kiểu Số từ trung bớnh Số cĩu trung bớnh
440 Tiếng Việt Bỏi bõo 1,495.62 59.6
Độ dỏi đoạn Tỷ lệ
Ngắn 3-5 cĩu 5%-8.3%
Trung bớnh 6-10 cĩu 10%-16.7%
Kết thỷc qũ trớnh phĩn đoạn sẽ thu được tập cõc đoạn chẵn cĩu trong phạm vi từ 3 đến 15 cĩu. Nhằm đảm bảo tợnh đa dạng trong cõc trường hợp sao chờp luận õn lựa chọn ngẫu nhiởn một đoạn sử dụng cho bước tiếp theo.
4.2.2.4 Sinh cõc trường hợp sao chờp
Như đọ trớnh bỏy trong Chương 1, ba trường hợp sao chờp chợnh gồm: (1) sao chờp nguyởn văn; (2) thay thế một số từ trong đoạn sao chờp bằng từ đồng nghĩa; vỏ (3) viết lại đoạn sao chờp theo cõch diễn đạt của mớnh (sao chờp ý tưởng). Xuất phõt từ cõc trường hợp sao chờp đụ, luận õn tạo ra kho ngữ liệu phõt hiện đoạn sao chờp dựa trởn cõc chiến lược sau:
- Sao chờp nguyởn văn: Đĩy lỏ trường hợp sao chờp đơn giản nhất được thực hiện bằng cõch chộn nguyởn văn đoạn văn bản nguồn vỏo văn bản sao chờp. - Thay thế từ đồng nghĩa: Thực hiện thay thế một số từ, ưu tiởn cõc từ lỏ Danh từ, Động từ vỏ Tợnh từ, trong đoạn văn bản nguồn sau đụ chộn vỏo văn bản sao chờp.
- Dịch hai lần văn bản nguồn: Luận õn đề xuất sử dụng tiện ợch của Google để dịch tự động đoạn văn bản nguồn thỏnh tiếng Anh, kết quả thu được tiếp tục được dịch ngược lại thỏnh tiếng Việt để thu được đoạn văn bản cụ ý nghĩa tương đương nhưng đọ bị biến đổi so với đoạn văn bản gốc. Đoạn văn bản sau khi dịch 2 lần sẽ được chộn vỏo văn bản sao chờp. Chi tiết ba chiến lược sinh trường hợp sao chờp được mừ tả sau đĩy.
a. Sao chờp nguyởn văn
Đĩy lỏ trường hợp sao chờp đơn giản nhất, đoạn văn bản nguồn khừng cụ bất cứ thay đổi nỏo vỏ được chộn vỏo văn bản sao chờp. Điều nỏy phỳ hợp với trường hợp văn bản sao chờp sao chờp nguyởn văn đoạn văn bản nguồn. Mừ hớnh sao chờp nguyởn văn như Hớnh 4.1.
Hớnh 4.1. Mừ hớnh tạo trường hợp sao chờp nguyởn văn
Chộn Văn bản nguồn Chọn một đoạn Tõch đoạn Văn bản sao chờp
b. Thay thế từ đồng nghĩa
Luận õn đề xuất phương phõp tự động thay thế từ đồng nghĩa nhằm tạo cõc đoạn văn bản sao chờp giống với ngừn ngữ của con người. Để thực hiện thay thế từ đồng nghĩa, luận õn sử dụng cơ sở dữ liệu từ điển đồng nghĩa được thu thập từ bộ Wordnet tiếng Việt với hơn 68.000 từ đọ được phĩn chia thỏnh Danh từ, Động từ, Tợnh từ, Trạng từ, ... Đĩy lỏ sản phẩm chợnh của nghiởn cứu khoa học cấp nhỏ nước “Nghiởn cứu, xĩy dựng vỏ phõt triển một số tỏi nguyởn vỏ cừng cụ thiết yếu cho xử lý văn bản tiếng Việt, mọ KC.01.20 / 11-15”. Bảng 4.3 mừ tả một số vợ dụ về cơ sở dữ liệu từ đồng nghĩa được sử dụng.
Bảng 4.3. Mừ tả dữ liệu từ đồng nghĩa
Từ điển tiếng Việt đồng nghĩa trong Bảng 4.3 cho thấy cỳng một từ được đọc vỏ viết giống nhau nhưng thuộc về từ loại khõc nhau. Vợ dụ: với cĩu lỏ "Sản xuất1 lỏ một loại hớnh hoạt động đặc trưng của con người vỏ xọ hội loỏi người, bao gồm: sản xuất2 vật chất, sản xuất3 tinh thần vỏ sản xuất4 ra bản thĩn con người”. Từ "Sản xuất" đầu tiởn lỏ danh từ, cõc từ "sản xuất" cún lại lỏ động từ. Vớ vậy, khi thực hiện thay thế từ bằng từ đồng nghĩa, việc gõn nhọn lỏ cần thiết. Mừ hớnh bỏi tõn thay thế từ đồng nghĩa được mừ tả như Hớnh 4.2.
Để xĩy dựng đoạn văn bản sao chờp từ đoạn văn bản đọ chọn, luận õn thực hiện cõc bước sau:
- Gõn nhọn từ loại: Luận õn sử dụng cừng cụ gõn nhọn từ loại vnTagger của tõc giả Lở Hồng Phương [104] cụ độ chợnh xõc trởn 96% khi thử nghiệm với bộ dữ
Từ Từ loại Từ đồng nghĩa
vinh quang Danh từ vinh quang, vẻ vang, sự hiển vinh, sự vinh hiển
sản xuất Danh từ sản sinh, chế tạo, sõng tõc, sõng tạo, sự sản sinh, sự sản xuất, sự chế tạo, sự sõng tõc, sự sõng tạo
tội phạm Danh từ tội nhĩn, người phạm tội, người phạm phõp mĩu thuẫn Tợnh từ trõi ngược, trõi nghịch
hiệu quả Tợnh từ năng suất
nhiệt tớnh Tợnh từ nhiệt huyết, say mở, đầy nhiệt huyết
chiến đấu Động từ tranh đấu, đấu tranh, chống chọi, đối chọi, đõnh lại, chống lại, quật lại, phản cừng lại
sống Động từ ở, hiện diện, xuất hiện, tồn tại, hiện hữu
liệu Treebank tiếng Việt. Đặc biệt cừng cụ nỏy cung cấp một thư viện liởn kết động cho phờp dễ dỏng tợch hợp với cõc ngừn ngữ lập trớnh trong qũ trớnh thử nghiệm.
- Thay thế cõc từ lỏ Danh từ, Động từ, Tợnh từ bằng cõc từ đồng nghĩa với tỉ lệ khoảng 30% số từ trong đoạn.
Hớnh 4.2. Mừ hớnh tạo trường hợp sao chờp thay thế từ đồng nghĩa
c. Dịch Việt-Anh, Anh –Việt đoạn văn bản nguồn
Với mục đợch sinh trường hợp sao chờp mang tợnh ngữ nghĩa, luận õn sử dụng cõc hỏm API dịch tự động của Google Translate để dịch đoạn văn bản nguồn từ tiếng Việt sang tiếng Anh, thu được kết quả vỏ dịch ngược từ tiếng Anh sang tiếng Việt. Để thực hiện được nhiệm vụ nỏy, luận õn lựa chọn một số đoạn trong văn bản nguồn vỏ tạo ra cõch diễn đạt khõc cho đoạn đụ. Mừ hớnh sinh trường hợp sao chờp dựa trởn dịch tự động của Google Translate thể hiện như Hớnh 4.3.
Hớnh 4.3 Mừ hớnh tạo trường hợp sao chờp dịch tự động Tỏi liệu nguồn Chọn một đoạn Tập đoạn Tỏi liệu sao chờp CSDL từ đồng nghĩa Thay thế Đoạn sao chờp Chộn Gõn nhọn từ loại Google Translation Văn bản nguồn Dịch Việt- Anh Tõch đoạn Văn bản sao chờp Đoạn sao chờp Chộn Dịch Anh- Việt
4.2.2.5 Chộn đoạn văn bản sao chờp
Để xõc định vị trợ chộn đoạn văn bản sao chờp, luận õn thực hiện tõch cĩu trong văn bản sao chờp vỏ lựa chọn vị chợ ngẫu nhiởn trong phạm vi từ cĩu đầu đến cĩu cuối. Vị trợ chộn lỏ sau cĩu được chọn.
4.2.2.6 Xĩy dựng trường hợp sao chờp
Cuối cỳng, với mỗi cặp văn bản nguồn vỏ văn bản sao chờp, luận õn tạo tệp .XML về trường hợp sao chờp gồm:
- reference: Tởn tệp sao chờp.
- this_length: Độ dỏi đoạn sao chờp.
- this_offset: Vị trợ bắt đầu đoạn sao chờp trong văn bản sao chờp. - source_reference: Tởn tệp nguồn.
- source_length: Độ dỏi đoạn văn bản nguồn.
- source_offset: Vị trợ bắt đầu đoạn văn bản trong văn bản nguồn.