Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,95 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN QUÝ NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHUẨN HÓA CHỮ VIẾT TẮT TRONG VĂN BẢN TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 Khóa: K30 TĨM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA, ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS Ninh Khánh Duy Phản biện 1: TS Huỳnh Hữu Hưng Phản biện 2: TS.Lê Xuân Việt Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ khoa học máy tính họp Trường Đại học Bách khoa vào ngày tháng 01 năm 2017 Có thể tìm hiểu luận văn tại: Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa Thư viện Khoa Công nghệ Thông tin, Trường Đại học Bách khoa ĐHĐN MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, sống xã hội (công nghiệp, nông nghiệp, văn hóa xã hội ) phát triển mạnh mẽ mặt, luợng thơng tin tăng nhanh, ngơn ngữ nói ngơn ngữ viết, tượng nói tắt, viết tắt trở nên phổ biến Điều đáp ứng yêu cầu tiết kiệm thời gian, giấy bút gây khó hiểu cho người nghe, người đọc Quy tắc hình thành chữ viết tắt (CVT) đa dạng Có CVT giống để vật giống giới công nhận cho dù tên gọi nước vật có khác Ví dụ: Ký hiệu nguyên tố hố học, đơn vị đo lường theo hệ SI Có CVT hình thành lấy trọn vẹn vài chữ cụm chữ tên gọi Có nhiều trường hợp tên gọi nguyên ngữ nghĩa có đến vài tên viết tắt khác ngược lại CVT lại dùng để nhiều tên gọi nguyên ngữ khác Tình hình gây khơng khó khăn cho người sử dụng Chữ viết tắt (CVT) tượng phổ biến nhiều thứ tiếng khác giới - có tiếng Việt, sử dụng rộng rãi nhiều lĩnh vực, nhiều chuyên ngành Chính xu hướng thể văn bản, lời nói ngắn gọn, đơn giản, chuyển tải lượng thông tin lớn mà lĩnh vực, chuyên ngành sử dụng ngày phổ biến CVT… làm cho hệ thống CVT trở nên vô phong phú đa dạng Điều gây khó khăn đọc - hiểu - nhận dạng văn Có nhiều quan điểm khác CVT Nhiều người nhận thấy rằng: Hình báo Việt Nam phép xả láng viết tắt phải, muốn viết tắt phải từ viết tắt thức (có đăng ký đàng hồng); Chẳng khác tự biến chứng dị dạng cho tiếng Việt Cho nên người nước học tiếng việt không hiểu kiểu viết tắt ấy, kiểu viết tắt chẳng có quy tắc ; riêng tả, nạn viết tắt đến mức "đáng sợ", với câu, cụm chữ tắt đánh đố bạn đọc Bách khoa toàn thư mở Wikipedia nhận định: “Từ Internet phát triển thập niên 1980 đến nay, loại tiếng Anh viết phát triển phổ biến người dùng Internet Loại tiếng Anh đơn giản dùng nhiều CVT dấu hiệu định trước (như dùng IMHO thay cho in my humble opinion - theo ý kiến nông cạn tôi, hay dùng dấu hiệu :) để phát biểu khôi hài thân thiện đoạn văn) Cũng giống tiếng Anh đơn giản khác, loại tiếng Anh có từ vựng tương đối giới hạn nhưng, khác với tiếng khác, chủ trương thay đổi lối đánh vần phức tạp tiếng Anh lối "phiên âm" đơn giản (thí dụ từ đơn giản you for thay U 4)” Việc sử dụng CVT có tác động nhân tố trao đổi thông tin Chẳng hạn, nhân tố công nghệ thông tin trợ giúp cho hoạt động giao tiếp Internet, nhắn tin di động, Email làm cho việc sử dụng CVT ngày đa dạng Sự bùng nổ thơng tin đồng nghĩa với địi hỏi trao đổi thông tin ngày nhiều CVT nhằm mục đích chuyển tải đến người đọc, người nghe lượng thơng tin lớn Tuy nhiên, lạm dụng CVT đem lại nhiều phiền toái không nhỏ Để đánh giá vấn đề đặt ra, cần có cách tiếp cận CVT cách hệ thống khoa học Chính lý này, việc nghiên cứu xây dựng kho liệu chuẩn hóa CVT cần thiết, giải nhu cầu tra cứu, sử dụng CVT thực tiễn, góp phần quan trọng việc phát triển hệ thống tra cứu, hỗ trợ việc diễn giải nghĩa xác giúp NSD xử lý văn có từ viết tắt thuận lợi CVT sử dụng nhiều lĩnh vực nghiên cứu, quản lý, khai thác xuất nội dung, giảng dạy học tập hiệu Mục đích nghiên cứu Xây dựng sở liệu (CSDL) CVT với giải pháp thu thập, phân loại theo lĩnh vực, chuyên ngành Nghiên cứu đề xuất phương pháp để chuẩn hóa CVT Hỗ trợ tra cứu phục vụ công tác nghiên cứu, học tập Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu bao gồm: Quy tắc cấu thành dấu hiệu đặc trưng CVT, công cụ xây dựng quản lý CSDL CVT, ngơn ngữ lập trình xây dựng ứng dụng khai thác CVT, tài liệu, văn bản, website có CVT Phạm vi nghiên cứu bao gồm: Nghiên cứu CVT, nghiên cứu kỹ thuật tìm kiếm CVT, nghiên cứu phương pháp chuẩn hóa CVT Phương pháp nghiên cứu Phương pháp nghiên cứu qua nguồn tư liệu xuất bản, báo đăng tạp chí khoa học, sưu tập tư liệu liên quan đến vấn đề nghiên cứu mạng Internet Xây dựng kiểm thử kho liệu CVT, đánh giá kết ứng dụng tìm kiếm CVT phương pháp chuẩn hóa CVT Ý nghĩa khoa học thực tiễn luận văn Nghiên cứu công nghệ tiên tiến, xây dựng tổng thể chuẩn hóa hệ thống CVT góp phần phát triển ngơn ngữ Làm cho văn chuẩn hóa, giúp người sử dụng văn dễ dàng đọc hiểu, ứng dụng cho hệ thống nghiên cứu xử lý ngôn ngữ tự nhiên CHƯƠNG – TỔNG QUAN VỀ XỬ LÝ CVT 1.1 GIỚI THIỆU VỀ CHUẨN HĨA VĂN BẢN Trong tất lĩnh vực cơng nghệ ngơn ngữ tiếng nói phải đối mặt với văn thực tế, ví dụ dịch máy, phát chủ đề hệ thống Tổng hợp tiếng nói (Text-to-Speech) văn đầu vào chúng Trong trường hợp khác, nhận diện tiếng nói tự động thường phụ thuốc vào mơ hình ngơn ngữ huấn luyện văn Trong giới lý tưởng, văn “sạch” nghĩa gồm tồn từ viết đầy đủ, cách viết rõ ràng Nhưng thật không máy, ngôn ngữ viết lệch khỏi ý nghĩa theo hai hướng quan Thứ nhất, hầu hết ngôn ngữ xuất nhập nhằng từ bình thường ví dụ tiếng Anh: từ bass văn bản, người đọc hiểu loại cá, bass dụng cụ chơi nhạc Thứ hai, hầu hết loại văn bản, thấy xuất từ khơng chuẩn (Non Standard Word), ví dụ : chữ số, ký tự la mã, viết tắt chuỗi ký tự, địa email,…v.v Chuẩn hóa văn trình định xem làm nhận phân loại từ khơng chuẩn này, từ vốn từ mà xử lý việc áp dụng quy tắc “từ thành tiếng” chẳng hạn “Nato” (Na tô), “WTO” (vê kép-tê-ơ) Có nhiều nghiên cứu chuẩn hóa văn nhiều ngơn ngữ tiếng Anh, tiếng Hidi, tiếng Nhật, tiếng Trung… Ở Việt Nam, có nhiều hệ thống tổng hợp tiếng nói đạt nhiều kết SAOMAI, HOASUNG, VOICE OF SOUTHERN, VieTalk, …, hầu hết hệ thống chưa dành đủ quan tâm cho chuẩn hóa văn Các nghiên cứu Thu-Trang Thi Nguyen[2] Dinh Anh Tuan[3] phần giải vấn đề chuẩn hóa văn Tiếng Việt, nhiên, nghiên cứu tập trung xử lý từ khơng chuẩn nói chung mà lại chưa dành nhiều quan tâm vào chuẩn hóa xử lý nhập nhằng CVT 1.2 TỔNG QUAN VỀ XỬ LÝ CVT 1.2.1 Các cách viết tắt Tiếng Việt phổ biến văn a Quy tắc chữ viết tắt b Quy tắc ghép âm (hay ghép tiếng) c Quy tắc ghép tắt theo từ có nghĩa d Quy tắc sử dụng chữ phụ e Quy tắc kết hợp tiếng nước f Quy tắc mượn chữ viết tắt tiếng nước g Quy tắc viết tắt ngẫu nhiên 1.2.2 Định nghĩa CVT luận văn Định nghĩa CVT không thống nhất, tùy thuộc tác giả nghiên cứu Trong luận văn này, gọi từ văn CVT có độ dài từ hai ký tự trở lên cấu thành từ thành phần sau: ⁻ Ký tự chữ hoa từ “A” đến “Z”, “Đ”, “Ư”; ⁻ Ký tự ký hiệu: “.”, “&”,“-” Các ví dụ CVT điển hình là: “GS.TS” (Giáo sư, tiến sỹ), “BCHTƯ” (Ban chấp hành Trung Ương) Chúng đưa hai trường hợp ngoại lệ sau không xem CVT: ⁻ Chữ số La Mã (ví dụ: “IV”) ⁻ Đơn vị tiền tệ (ví dụ: “USD”) 1.2.3 Các nghiên cứu liên quan đến xử lý CVT 1.3 KẾT CHƯƠNG Các nghiên cứu chuẩn hóa văn Tiếng Việt nhận nhiều quan tâm nghiên cứu, nhiên, nghiên cứu rộng nhằm xử lý chung cho tất từ khơng chuẩn, mà khơng có nghiên cứu tập trung vào xử lý CVT xử lý nhập nhằng CVT Nhận thấy điều đó, luận văn tập trung nghiên cứu xử lý vấn đề chuẩn hóa xử lý nhập nhằng CVT văn Tiếng Việt Để làm điều này, cần thu thập liệu từ điển khai triển CVT Trong luận văn thu thập CVT từ website báo điện tử phần trình bày Chương Trong Chương trình bày phương pháp chuẩn hóa CVT sau: ⁻ Phương pháp tìm kiếm khai triển văn ⁻ Phương pháp tìm kiếm khai triển từ điển ⁻ Phương pháp khử nhập nhằng học máy thống kê CHƯƠNG – XÂY DỰNG CSDL VÀ GÁN NHÃN CVT 2.1 GIỚI THIỆU CHƯƠNG Trong chương thực việc thu thập liệu chữ viết tắt từ trang báo điện tử thực việc gán nhãn để xây dựng từ điển chữ viết tắt Đồng thời, thu thập thông tin ngữ cảnh chữ viết tắt dùng để định phân lớp, khử nhập nhằng trường hợp chữ viết tắt có nhiều khai triển 2.2 NGUỒN DỮ LIỆU CVT Nguồn liệu chọn từ 10 trang báo điện tử phổ biến dựa xếp hạng http://alexa.com : Dữ liệu thu thập phải đảm bảo tính đa dạng mặt nội dung Do đó, trang báo chia thành 20 chủ đề lớn số lượng báo thu thập cho chủ đề xấp xỉ 2.3 TRIỂN KHAI CÔNG CỤ THU THẬP DỮ LIỆU CVT 2.3.1 Giới thiệu web crawler 2.3.2 Giới thiệu Framework Scapy a Khái niệm: b Thuật toán: Hình 2.3: Thuật tốn lấy liệu trang báo điện tử c Áp dụng Dữ liệu thu thập gồm thành phần: ⁻ Content: Nội dung báo ⁻ Subject: Tên chủ đề báo ⁻ Title: Tên tiêu đề báo ⁻ Url: Đường dẫn url báo 2.3.3 Tìm kiếm CVT biểu thức quy Dữ liệu nội dung lấy văn gồm tập hợp nhiều câu “content” Trong phần thực việc tách câu thu thập câu chữ viết tắt a) Thuật toán tách câu Dấu chấm dấu kết thúc câu dấu chữ viết tắt T.S viết tắt Tiến Sĩ Do đó, vị trí dấu chấm xem xét kiểm tra có phải dấu ngắt câu hay khơng Thuật tốn gồm bước sau: Bước Ta duyệt ký tự văn bản, gặp ký tự dấu chấm “.” gọi vị trí i chuyển sang Bước Bước2 Kiểm tra ký tự i-1, ký tự viết thường chuyển sang Bước 3, ký tự số chuyển sang Bước 4, ký tự viết hoa chuyển sang Bước Bước Kiểm tra ký tự i+1, ký tự viết thường, số hay khoảng trắng trả 1, ký tự viết hoa chuyển sang Bước Bước Kiểm tra ký tự i+1, ký tự thường, hoa trắng trả 1, ký tự số trả Bước Kiểm tra ký tự i+1, ký thường, số trắng trả 1, ký tự hoa chuyển sang Bước Bước Kiểm tra ký tự i+2, ký tự thường, số trắng trả 1, ký tự hoa trả Bước Kiểm tra ký tự i+2, ký tự hoa, số trắng trả 0, ký tự thường trả với: ⁻ i : vị trí ký tự ⁻ : khơng phải dấu ngắt câu ⁻ : vị trí ngắt câu 10 ⁻ Bảng expansions: Các bảng quan hệ với khóa ngoại đảm bảo tính chặt chẽ liệu 2.4.2 Công cụ gán nhãn liệu Sau thu thập liệu CVT ngữ cảnh nó, chúng tơi xây dựng ứng dụng web ngôn ngữ PHP sử dụng mySQL để thực việc gán nhãn cho CVT Việc gán nhãn liệu dựa nguồn: ⁻ Tìm khai triển khả thi văn ⁻ Tìm khai triển gán nhãn cho CVT trước ⁻ Người gán nhãn nhập vào Quan trọng người gán nhãn xác nhận liệu trước thực gán nhãn a Tìm khai triển văn Sử dụng biểu thức quy để tìm khai triển khả thi nằm văn chưa CVT, khai triển có số count rank kèm để xếp hạng ưu tiên cho Số count rank trình bày mục phần chương Tất khai triển lưu vào CSDL người gán nhãn xóa bỏ b Tìm khai triển gán nhãn cho CVT trước Khi người gán nhãn cách chọn khai triển từ gợi ý nhập vào thủ cơng tất khai triển lưu trữ vào CSDL Khi hệ thống gặp CVT phù hợp với khai triển liệu hệ thống tự động đề xuất cho người gán nhãn c Cho phép người gán nhãn nhập thủ công Khi hệ thống khơng thể tìm khai triển phù hợp văn kho liệu cho phép người gán nhãn nhập thủ công vào khai triển phù hợp với CVT 11 2.4.3 Kết Sử dụng framework Scapy thu thập nội dung 100.000 báo từ 10 trang báo điện tử tiếng Việt phổ biến Sau trình gán nhãn liệu, thu thập 1.011 chữ viết tắt với 159.050 ngữ cảnh khác cho liệu từ điển chữ viết tắt Các thống kê trình bay bảng 2.4 Số lượng Số website thu thập 10 Số báo thu thập 100.000 Số lượng CVT thu thập 1.011 Số lượng ngữ cảnh thu thập 159.050 Số lượng CVT có nhiều khai triển 40 Bảng 2.4 : Thống kê liệu thu thập 2.5 KẾT CHƯƠNG Chúng ta thấy rằng, số lượng CVT có khai triển thu thập tương đối lớn, sử dụng liệu để thực chuẩn hóa CVT Tuy nhiên, tồn CVT xuất nhập nhằng việc khai triển, tức có nhiều khai triển tương ứng với Do đó, cần phải đưa phương pháp để khử nhập nhằng này, xác định khai triển hợp lý chữ viết tắt Việc tiếp tục trình bày Chương 12 CHƯƠNG – PHƯƠNG PHÁP CHUẨN HÓA CVT 3.1 GIỚI THIỆU CHƯƠNG Trong chương này, chúng tơi trình bày giải thuật tổng quan khai triển CVT phương pháp để xử lý nhập nhằng khai triển CVT, kết thực nghiệm so sánh hiệu phương pháp khử nhập nhằng CVT 3.2 GIẢI THUẬT TỔNG QUAN Dựa thuật tốn khai triển CVT mơ tả [2], chúng tơi đề xuất thuật tốn khai triển CVT Hình 3.1 Hình 3.1: Sơ đồ khối thuật tốn khai triển CVT 3.3 TÌM KIẾM KHAI TRIỂN CVT TRONG VĂN BẢN 3.3.1 Phương pháp tìm kiếm khai triển CVT văn Chúng ta sử dụng biểu thức quy để tìm kiếm khai triển khả thi CVT văn Sau có CVT, ta sử dụng 13 thuật tốn tìm kiếm cụm từ văn tạo thành từ chữ đầu CVT Mỗi CVT tách thành từ riêng lẻ, sau sử dụng từ để tạo biểu thức quy Nếu khơng có khai triển chữ viết tắt văn bản, thực tìm từ điển 3.3.2 Tổng kết Đối với phương pháp sử dụng biểu thức quy để tìm kiếm khai triển CVT nhiều nghiên cứu sử dụng Ưu điểm phương pháp dễ triển khai, đơn giản xử lý nhanh Trong văn quy, sử dụng phương pháp tương đối hiệu quả, kết tìm kiếm tương đối xác Tuy nhiên, văn phổ thông, quy tắc viết tắt khơng xem trọng viết tắt bừa bãi phương pháp khó cho kết khả quan Để giải vấn đề này, sử dụng phương pháp khác trình bày sau 3.4 TÌM KIẾM KHAI TRIỂN CVT TRONG TỪ ĐIỂN 3.4.1 Phương pháp tìm kiếm khai triển CVT từ điển Thuật tốn tìm kiếm khai triển CVT từ điển thể hình 3.3 Khi khơng tìm thấy khai triển văn bản, tiếp tục tìm kiếm từ điển Nếu tìm thấy khai triển phù hợp trả Nếu tìm thấy nhiều khai triển khử nhập nhằng trình bày phần chương 14 CVT Tìm khai triển văn Khơng tìm thấy Tìm khai triển từ điển CVT Khơng tìm thấy Chuỗi chữ alphabet Chỉ tìm thấy kết Khai triển tìm thấy Tìm thấy nhiều khai triển Khử nhập nhằng (phần 3.5) Hình 3.3: Thuật tốn tìm kiếm khai triển CVT từ điển 3.4.2 Tổng kết Đối với phương pháp tìm khai triển CVT từ điển cho kết tìm kiếm phụ thuộc vào kích thước từ điển Tuy nhiên, CSDL thu thập nghiên cứu tập trung nội dung liên quan đến thời sự, kinh tế,…được đề cập thường xuyên trang báo điện tử, nên vốn từ bị hạn chế, cần phải có thời gian để phát triển số lượng từ lĩnh vực khác Nếu có khai triển tìm thấy khử nhập nhằng phần 3.5 KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CVT DỰA TRÊN HỌC MÁY THỐNG KÊ Cách tiếp cận điển hình tốn khử nhập nhằng khai triển CVT sử dụng quy tắc (ad hoc) thiết kế dựa kinh nghiệm rút từ tập liệu thu thập CVT Phương pháp có ưu điểm đơn giản, quy tắc rút từ tập liệu khó có khả tổng quát hóa cao tập liệu khác [1] Do đó, tơi chọn tiếp cận dựa học máy với phân lớp Nạve Bayes để giải tốn khử nhập nhằng Bằng 15 việc áp dụng kỹ thuật học máy, mơ hình phân lớp ước lượng dựa tập liệu huấn luyện đủ lớn có khả tổng quát hóa cao liệu không nằm tập huấn luyện 3.5.1 Mơ hình học máy thống kê Để xử lý phức tạp mơ hồ CVT có nhiều khai triển khác nhau, ngữ cảnh CVT đóng vai trò định Trong luận văn xem câu chứa CVT ngữ cảnh CVT Giai đoạn huấn luyện trình bày hình 3.4 Đầu vào khai triển ci CVT (nhãn) ngữ cảnh CVT ứng với khai triển ci , sau huấn luyện phân lớp khai triển ci ta có phân lớp Khai triển ci CVT (nhãn) + Các ngữ cảnh CVT tương ứng với khai triển ci Huấn luyện phân lớp Bộ phân lớp của khai triển ci khai triển ci (dữ liệu huấn luyện) Hình 3.4: Giai đoạn huấn luyện (training) Giai đoạn kiểm thử hình 3.5, liệu đầu vào ngữ cảnh CVT Ta sử dụng phân lớp khai triển ci có từ giai đoạn huấn luyện để phân lớp Kết trả khai triển ci có sroce cao nhất, khai triển phù hợp với CVT Bộ phân lớp khai triển c1 01 ngữ cảnh CVT (dữ liệu kiểm thử) Score i Khai triển cj có Score lớn (j = N) Bộ phân lớp khai triển cN Score N Hình 3.5: Giai đoạn phân lớp (hay Kiểm thử - Testing) 16 3.5.2 Phương pháp biểu diễn văn Bag-of-Word (túi từ) Mơ hình Bag-of-Word biểu diễn đơn giản hóa văn thường sử dụng xử lý ngơn ngữ tự nhiên tìm kiếm thơng tin Trong mơ hình này, văn biểu diễn tập hợp (gọi “túi”) từ xuất văn bản, không quan tâm đến ngữ pháp thứ tự xuất từ mà lưu lại tần suất xuất từ văn Mơ hình Bag-of-Word thường sử dụng phương pháp phân loại văn mà tần suất xuất từ sử dụng đặc trưng để huấn luyện phân lớp Tập từ xuất thường xuyên Mơ hình Bag-of-word Văn Hình 3.6: Mơ hình Bag-of-Word Trong mơ hình Bag-of-Word, chúng tơi dùng đặc trưng nhị phân xác định thuật tốn mơ tả Hình 3.7 Văn Từ thuộc tập hợp từ xuất thường xuyên Sai Đặc trưng từ “0” Đúng Đặc trưng từ “1” Mảng ký tự 0,1 Hình 3.7: Thuật tốn xác định đặc trưng nhị phân từ 17 3.5.3 Phương pháp biểu diễn từ Word2Vec (vec-tơ hóa từ) Trong word2vec , biểu diễn phân tán (distributed representation) từ sử dụng Sử dụng vector với vài trăm chiều Mỗi từ biểu diễn bới tập trọng số phần tử Như thay kết nối one-to-one phần từ vector từ , biểu diễn từ dàn trải tất thành phần vector , phần tử vector góp phần định nghĩa nhiều từ khác Mỗi vector đại diện cho cách tóm lược ý nghĩa từ Và tiếp theo, đơn giản cách kiểm tra ngữ liệu lớn học word vectors , ta nắm bắt mối quan hệ từ cách đáng ngạc nhiên Có thể sử dụng vector đầu vào cho mạng nơ ron Bao gồm mơ hình [5]: Mơ hình túi từ liên lục (CBOW): dự đốn từ có ⁻ từ lân cận Mơ hình Skip-gram: mơ hình đối lập hồn tồn ⁻ với mơ hình CBOW dự đốn từ lân cận có từ (theo thống kê mơ hình giúp làm mượt CBOW mượt nhiều) INPUT PROJECTION OUTPUT INPUT PROJECTION w(t-2) OUTPUT w(t-2) w(t-1) SUM SUM w(t) w(t-1) w(t) w(t+1) w(t+1) w(t+2) w(t+2) Hình 3.10: Mơ hình Skip-gram [5] 18 3.5.4 Phương pháp biểu diễn văn Doc2Vec (vec-tơ hóa văn bản) Mơ hình Doc2Vec phát triển dựa mơ hình Word2Vec [5] sở thừa kế ý tưởng Word2Vec xây dựng thêm ma trận đoạn Việc giúp cho mô hình Doc2Vec tập hợp tất từ câu thành vectơ Mơ hình Doc2Vec bao gồm hai mơ hình sau [6] a Mơ hình nhớ phân tán Classifier on Average/Concatenate Paragraph Matrix D W W W Paragraph id the cat sat Hình 3.11: Mơ hình nhớ phân tán cho việc học vectơ đoạn [5] Các từ ánh xạ với vectors trước Thêm vào paragraph (hay document, làm việc document level) kết nối tới vector Word vectors nằm cột matrix W, paragraph vectors nằm cột matrix D 19 b Mơ hình túi từ phân tán Classifier the cat Paragraph Matrix sat on D Paragraph id Hình 3.12: Mơ hình túi từ phân tán vectơ đoạn [5] 3.5.5 Bộ phân lớp Naïve Bayes Trong học máy, phân loại Naïve Bayes dựa xác suất nhờ áp dụng định lý Bayes [4] Bộ phân lớp Naïve Bayes báo xác định sau: liệu d (input) gồm CVT, ngữ cảnh tập hợp khai triển tương ứng (C) Chọn 𝑐̂ (output - khai triển xác) từ c thuộc C cho: 𝑐̂ = argmax 𝑃(𝑐|𝑑) 𝑐∈𝐶 (1) a) Các sở tốn học Cơng thức 1: Định lý Bayes Định lý Bayes cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy ra: 𝑃(𝐴|𝑏) = 𝑃(𝐵|𝐴)𝑃(𝐴) 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑝𝑟𝑖𝑜𝑟 = 𝑃(𝐵) 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔_𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡 Xác suất xảy A B không liên quan lẫn P(A) : xác suất tiền nghiệm( prior) P(B) : số chuẩn hóa ln giống 20 P(B|A) : khả năng( likelihood) xảy B biết A Công thức 2: 𝑁ế𝑢 {𝐴1 , 𝐴2 , … , 𝐴𝑛 }𝑙à 𝑐á𝑐 𝑏𝑖ế𝑛 𝑐ố độ𝑐 𝑙ậ𝑝 𝑡ℎì 𝑃(𝐴1 𝐴2 … 𝐴𝑛 ) = 𝑃(𝐴1 )𝑃(𝐴2 ) … 𝑃(𝐴𝑛 ) Các biến cố Ai với i=1, ,n gọi độc lập việc xảy hay không nhóm k biến cố với đoạn [1, n] không làm ảnh hướng đến biến cố lại Công thức 3: Với quan sát x = (x1, , xd) từ phân phối đa thức với thử nghiệm N vector tham số θ = (θ1, , θd), "vuốt" phiên liệu cung cấp cho ước lượng: Với alpha thông số làm ̂ = 𝜃𝑖 𝑥𝑖 +∝ 𝑁+∝ 𝐷 b) Áp dụng Theo [4] kết ĉ là: 𝑐̂ = argmax log 𝑃(𝑐) + 𝑐∈𝐶 ∑ log 𝑃(𝑤𝑖 |𝑐) 𝑖∈𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛𝑠 (2) 𝑁 với: 𝑃̂(𝑐) = 𝑁 𝑐 𝑑𝑜𝑐 (3) và: 𝑃̂(𝑤𝑖 |𝑐) = 𝑐𝑜𝑢𝑛𝑡(𝑤𝑖 ,𝑐)+1 ∑𝑤∈𝑉(𝑐𝑜𝑢𝑛𝑡(𝑤,𝑐)+1) = 𝑐𝑜𝑢𝑛𝑡(𝑤𝑖 ,𝑐)+1 (∑𝑤∈𝑉 𝑐𝑜𝑢𝑛𝑡(𝑤,𝑐))+|𝑉| (4) đó: wi từ vị trí i văn bản; V tập từ vựng không trùng văn bản; Nc số lượng khai triển c liệu huấn luyện; Ndoc tổng số khai triển liệu 21 c) Thuật tốn Sau q trình huấn luyện (training), nhận giá trị log 𝑃(𝑐) 𝑣à log 𝑃(𝑤|𝑐) với w ∈ V Các giá trị sử dụng trình kiểm chứng (testing) để tiên đốn 𝑐̂ thích hợp cho liệu vào khơng có mặt tập liệu 3.5.6 Thực nghiệm a Chuẩn bị liệu Sau trình lọc liệu, thu CVT thoả mãn điều kiện là: BHYT, NS, PT-TH, THA, KH Bảng thống kê sỗ mẫu liệu dùng để huấn luyện phân lớp CVT cho khai triển Chú ý số lượng mẫu liệu dùng để kiểm chứng với số lượng mẫu liệu dùng để huấn luyện STT CVT Khai triển BHYT NS PT-TH THA KH Số mẫu Tổng số mẫu huấn luyện huấn luyện hát yêu thích 52 bảo hiểm y tế 243 nghệ sĩ 44 nhạc sĩ 55 phát truyền hình 26 phổ thông trung học 23 thi hành án 17 tăng huyết áp 12 khoa học kế hoạch 10 295 99 49 29 17 Bảng 3.1 : Thống kê mẫu liệu huấn luyện 22 b Kết thực nghiệm Với liệu huấn luyện trình bày bảng 3.1, sử dụng phương pháp biểu diễn văn là: ⁻ Bag of Word ⁻ Doc2Vec sử dụng Naïve Bayes để phân lớp Kết thực nghiệm bảng 3.2 trình bày báo cáo Hội thảo CITA 2016 [8] Độ BagSTT CVT Khai triển of- Doc2Vec xác Word trung bình BHYT NS PT-TH THA KH hát yêu thích bảo hiểm y tế nghệ sĩ nhạc sĩ phát truyền hình phổ thơng trung học thi hành án tăng huyết áp khoa học kế hoạch Tỉ lệ Trung bình 98.0% 98.0% 98.0% 77.5% 74.5% 76.0% 83.7% 69.4% 76.5% 93.3% 90.0% 91.7% 77.8% 66.7% 72.2% 86.0% 79.7% Bảng 3.2 : Kết thực nghiệm độ xác 23 c Bàn luận Trong học máy thống kê thơng thường số lượng mẫu huấn luyện nhiều hiệu mơ hình phân lớp cao Từ Bảng 3.3 thấy rằng, với toán khử nhập nhằng khai triển CVT tiếp cận học máy thống kê mức độ gần gũi (hay khác nhau) lĩnh vực mà khai triển thuộc đóng vai trị quan trọng khơng lượng liệu huấn luyện Nếu lĩnh vực khơng liên quan đến nhiều (ví dụ với BHYT THA) việc khử nhập nhằng phương pháp cho tỉ lệ khai triển xác cao (đều 90%), cho dù nhiều hay liệu huấn luyện, ngữ cảnh CVT thể vai trị việc phân lớp Ngược lại, lĩnh vực gần liên quan đến nhiều ngữ cảnh khơng cịn đóng vai trị lớn việc phân lớp nữa, dẫn đến tỉ lệ khai triển xác thấp (đều 70%), cho dù nhiều hay liệu huấn luyện (ví dụ với NS KH) KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Qua thời gian nghiên cứu thực đề tài, luận văn trình bày phương pháp chuẩn hóa CVT văn Tiếng Việt Về mặt thực tiễn, luận văn xây dựng kho từ điển CVT lĩnh vực phổ biến báo điện tử: Thời sự, Thế giới, Văn Hóa-Văn học, Đời Sống, Sức Khỏe, Khoa học-Cơng nghệ, Kinh tế, Thể thao, Du lịch, Âm nhạc, Sao, Phim truyền hình điện ảnh, Pháp Luật, Xe , Thời Trang, Sống Trẻ, Giáo Dục, Tâm sự, Rao vặt, Khám phá-Lạ Dữ liệu sử dụng phục vụ cho nhiều mục đích tra cứu, giáo dục cho nghiên cứu khoa học khác xử lý ngôn ngữ tự nhiên ... Phạm vi nghiên cứu bao gồm: Nghiên cứu CVT, nghiên cứu kỹ thuật tìm kiếm CVT, nghiên cứu phương pháp chuẩn hóa CVT Phương pháp nghiên cứu Phương pháp nghiên cứu qua nguồn tư liệu xuất bản, báo... dành đủ quan tâm cho chuẩn hóa văn Các nghiên cứu Thu-Trang Thi Nguyen[2] Dinh Anh Tuan[3] phần giải vấn đề chuẩn hóa văn Tiếng Việt, nhiên, nghiên cứu tập trung xử lý từ không chuẩn nói chung mà... tâm vào chuẩn hóa xử lý nhập nhằng CVT 1.2 TỔNG QUAN VỀ XỬ LÝ CVT 1.2.1 Các cách viết tắt Tiếng Việt phổ biến văn a Quy tắc chữ viết tắt b Quy tắc ghép âm (hay ghép tiếng) c Quy tắc ghép tắt theo