Tiền xử lí dữ liệu

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng Chatbot biết cảm thông dựa trên mô hình Bert cho tiếng Việt (Trang 44 - 47)

ĐẦU RA Hình 4.1. Mô hành tổng quan của hệ thống chatbot

4.4 Tiền xử lí dữ liệu

Đối với việc thực hiện bất kỳ một bài toán nào trong học máy, bước đầu tiên trong quy trình này chính là tiền xử lý dữ liệu. Bởi lẽ, công đoạn này nhiều ảnh hưởng đến hiệu suất của mô hình học máy nếu dữ liệu không được xử lý đúng cách. Trong các công trình trước đó, đa số các mô hình này đều tập trung vào việc xây dựng kiến trúc của một mô hình mà quên đi việc xử lý dữ liệu một cách chặt chẽ. Nhận thấy điều đó, song song trong việc cải tiến mô hình, chúng tôi đã tiến hành một số bước tiền xử lý dữ liệu có ảnh hưởng tích cực đến kết

quả đánh giá của mô hình.

33

4.4.1 Phương pháp nỗi thêm cảm xúc - Emotion prepend

Trong một cuộc trò chuyện, dựa vào vốn từ, trải nghiệm, công việc của mỗi người mà họ sẽ có cách trả lời khác nhau cho từng ngữ cảnh, câu trả lời có thể

là câu hỏi, câu biểu cảm, câu hỏi tu từ, hoặc câu sử dụng phép tu từ tương phan,... mỗi một cách trả lời mang sắc thái riêng. Phương pháp nối thêm cảm xúc được tiến hành gồm 2 bước.

- Bước 1: Là công đoạn xây dựng bộ dữ liệu, gin nhãn cảm xúc cho từng

đoạn đối thoại, nhãn được xác định là cảm xúc chung của người dùng trong

ca đoạn.

- Bước 2: Nỗi nhãn cảm xúc ở bước 1 vào đầu câu của mỗi ứng viên.

Sau khi đã thực hiện xong bước này, tiến hành huấn luyện và đánh giá mô

hình như bình thường. Phương pháp này giúp mô hình nhận định được: nên

chọn cảm xúc nào để đáp lại câu truy vấn là phù hợp.

4.4.2 Thống nhất dai từ

Tiểu mục này đề cập đến những thay đổi về đại từ trong bộ dữ liệu và là phần tiền xử lí cho mô đun chuyển đổi đại từ [mục 4.5.2], được thực hiện như

sau:

- Chuyển đổi dai từ xưng hô ngôi thứ nhất và ngôi thứ hai trong bộ dữ liệu

về dạng thống nhất là: “tôi” cho ngôi thứ nhất và “bạn” ngôi thứ

hai.

- Việc chuyển đổi được thực hiện thủ công, duyệt qua từng mẫu có xét về ý nghĩa rõ ràng, nhằm đảm bảo không nhầm lẫn về các từ/cụm từ đồng âm

khác nghĩa như: minh trong “tụi minh” va minh trong “một minh”.

Ngay cả trong trường hợp bộ chuyển đổi đại từ không được xây dựng, việc thống nhất đại từ là động lực cho việc tăng mẫu dữ liệu huấn luyện

34

(oversampling), khi đại từ ngôi thứ nhất và thứ hai đã thống nhất về “tôi”x

và “bạn” thì việc phủ các cụm đại từ xưng hô khác nhau lên từng ngữ cảnh dễ

dàng hơn nhiều, ví dụ chỉ việc thay “tdi/ban” + “anh/em” là có một đoạn hội

thoại mới với cùng ngữ cảnh nhưng phân chia thứ bậc xã hội (ví dụ người dùng xưng anh thì chatbot phải trả lời là em).

4.4.3 Xử lí kí tự thừa

Chúng tôi gọi ký tự thừa là những ký tự không mang nhiều ý nghĩa cho việc

truy van văn bản. Bao gom:

ô Cỏc ký tự đặc biệt: l;? ; %; (; ), =_=; =);...

ô Cỏc từ sai chớnh tả tiếng Việt: oh, lol, haha, bla bla, ...

Thông thường các kí tự thừa không được đưa vào câu khi đối đáp, chang han

câu hỏi không có dấu “?”, câu biểu cảm không có dấu “!”, có thé vì lười, hoặc đơn giản là điều đó làm chậm tốc độ gõ phím. Để thống nhất cho các trường

hợp này, chúng tôi xử lí như sau:

ô Đối với cỏc dấu cõu bị lặp lại nhiều lần, chỳng tụi tiến hành loại bỏ cỏc

dấu câu thừa, chỉ giữ lại đúng một ký tự. Ví dụ: Thật không ??? + Thật

không ?

ô Doi với cỏc trường hợp những cõu cú cỏc ký tự đặc biệt được thờm vào,

chúng tôi tiến hành lọc và loại bỏ những ký tự đó.

ô Hợp thức hoỏ cỏc từ “oh, wow, haha, lol,..” thành “6, quao, ha ha, cười

bể bung, ..”.

Tuy nhiên chúng tôi không tiền xử lí toàn bộ các trường hợp này, một mặt

để đảm bảo học được ngữ cảnh tổng quan, một mặt xem như là thông tin nhiễu

có giá tri.

35

4.4.4 Kiểu gõ

Chuyển đổi bộ dữ liệu theo chuấn kiểu gõ mới, ví dụ “khỏe mạnh” — “khoẻ mạnh”, “thâm thúy” — “thâm thuý”, tổng cộng có 15 quy tắc về đánh thanh cho vần được liệt kê như sau: (òa, 6a, 6a, 6a, 0a, òc, óc, de, de, oe, bù, ty, ty,

iy, uy} + {od, od, od, od, oa, OÈ, OẾ, 0€, 0€, 0¢, uy, uy, uy, Mỹ, w} .

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng Chatbot biết cảm thông dựa trên mô hình Bert cho tiếng Việt (Trang 44 - 47)

Tải bản đầy đủ (PDF)

(83 trang)