bản tiếng Việt.
Bài tốn phân lớp các văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt trả lời
câu hỏi:”làm thế nào để phát hiện các bài báo tiếng Việt liên quan đến miền dữ liệu phạm tội và phân lớp chúng thành các lớp tội danh khác nhau ?”. Như vậy khi cho
trước đầu vào là một văn bản, bộ phân lớp cần phát hiện nĩ cĩ thuộc miền dữ liệu đang xét hay khơng, và nếu cĩ thì phân loại văn bản này vào đúng các lớp cho trước.
Như vậy miền dữ liệu bài tốn đang xét được phân chia thành 6 lớp, tương đương với 6 tội danh. Các tội danh này được tác giả gán nhãn sẵn lên dữ liệu đầu vào, trước khi đưa vào mơ hình thử nghiệm. Lý do chọn các tội danh này căn cứ theo quá trình tập hợp dữ liệu từ thực tế, đây là các tội danh cho thấy tần suất xuất hiện nhiều nhất trong số các tội danh mà tác giả thu thập. Đặc trưng của quá trình phân lớp được chọn bằng âm tiết, với N=1 trong mơ hình N-grams.
Bài tốn phân lớp văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt được tác giả chia thành hai mơ hình thử nghiệm. Mơ hình thứ nhất cĩ hai giai đoạn gồm phát hiện và sau đĩ phân loại các bài báo thuộc miền dữ liệu phạm tội, mơ hình thứ hai là phân loại trực tiếp.
Ở mơ hình 1, tổng số các bài báo thuộc miền dữ đoạn thứ nhất của mơ hình này, b báo cĩ thuộc hay khơng mi
sẽ tiếp tục phân loại các bài báo thu danh giống nhau, với tổng c
được mơ tả như sau:
Giai đoạn 1:Phát hiện
Input: Tập văn b miền chủ đề khác
Output: Phân lớp cho các bài báo thu
báo thuộc miền chủ đề
Hình 6: Quá trình phát hiện văn b
Giai đoạn 2:Phân lớp
Input: Tập văn bả
Output: Phân lớp cho các bài báo này thu
Hình 6: Quá trình phân l
-
38
bài báo dữ liệu đầu vào được đưa vào bộ phân l liệu phạm tội, và các bài báo thuộc miền khác. Do v a mơ hình này, bộ phân lớp cần làm nhiệm vụ phát hi c hay khơng miền dữ liệu đang xét. Tiếp theo, ở giai đoạn hai,
các bài báo thuộc miền dữ liệu phạm tội thành các nhĩm cĩ t ng cộng 6 tội danh được sử dụng. Các giai đo
n (Detection)
p văn bản là các bài báo thuộc miền dữ liệu phạm khác.
p cho các bài báo thuộc miền dữ liệu phạm tộ khác được xếp vào đúng lớp tương ứng.
n văn bản
p (Classification)
ản là các bài báo thuộc miền dữ liệu phạm tộ
p cho các bài báo này thuộc vào các lớp tội danh khác nhau.
Hình 6: Quá trình phân lớp và phát hiện văn b Hình 7: Quá trình phân lớp văn bản
phân lớp sẽ gồm cả n khác. Do vậy, ở giai phát hiện được các bài n hai, bộ phân lớp i thành các nhĩm cĩ tội Các giai đoạn ở mơ hình 1
m tội và thuộc các
ội và các bài
ội
i danh khác nhau.
n văn bản
Formatted: Indent: Left: 0.69", Level: 2 + Aligned at: 0.75" +
Formatted: Font: (Default) Times Roman, 13 pt, No underline, Font Formatted: Left, Indent: Left: 0", Space After: 8 pt, Line spacing: 1.08 li, No bullets or numbering Formatted: No underline, Font
Formatted: No underline, Font Formatted: Indent: Left: 0.69", Level: 2 + Aligned at: 0.75" +
Formatted: Indent: Left: 0.94", numbering
Formatted: Indent: Left: 0.5", numbering
Formatted: Indent: Left: 0.94", numbering
0.69", Bulleted + Indent at: 1"
Times New Font color: Auto Left: 0.5", Right: spacing: Multiple numbering
Font color: Auto
Font color: Auto 0.69", Bulleted +
Indent at: 1"
0.94", No bullets or 0.5", No bullets or
Ở mơ hình 2, tác giả dữ liệu đầu vào được đưa vào b tội và các bài báo thuộc mi này vào 6 lớp tội danh cho trư được phân loại trực tiếp là 7 l
hiện xem bài báo cĩ thuộc hay khơng thu phân lớp sẽ phân loại trực ti
Input: Tập văn bả
thuộc các miền dữ
Output: Phân lớp cho các bài báo này thu
thuộc lớp miền dữ
Hình
39
Hình 7: Quá trình phân lớp văn bản
thực hiện việc phân loại trực tiếp luơn. Tổng s c đưa vào bộ phân lớp sẽ vẫn gồm các bài thuộc mi
c miền khác, nhưng bộ phân lớp sẽ trực tiếp phân lo i danh cho trước và thêm một lớp cho các bài báo khác,
p là 7 lớp. Như vậy ở mơ hình 2, sẽ khơng cịn giai
c hay khơng thuộc miền dữ liệu đang xét hay khơng mà b c tiếp luơn:
ản là các bài báo thuộc miền dữ liệu phạm t ữ liệu khác.
p cho các bài báo này thuộc vào các lớp tội danh khác nhau và ữ liệu khác.
Hình 76: Quá trình phát hiệnphân lớp trực tiếp văn b
ng số các bài báo c miền dữ liệu phạm p phân loại các bài báo p cho các bài báo khác, tống số lớp khơng cịn giai đoạn phát u đang xét hay khơng mà bộ
m tội và các bài báo
i danh khác nhau và
văn bản
Formatted: Font: (Default) Times Roman, 13 pt, No underline, Font
Formatted: Normal, No bullets
Formatted: Font: (Default) Times Roman, 13 pt
Formatted: Indent: Left: 0.5", numbering
Times New Font color: Auto
bullets or numbering
Times New 0.5", No bullets or
3.4. Tổng kết
Trong chương này, tác gi về các lớp cụ thể mà tác gi đầy đủ về bài tốn mà luận vă trình bày về các kết quả thực nghiệm m
40 -
Trong chương này, tác giả đã trình bày về các đặc trưng của ngơn ngữ tiếng Việt, à tác giả quyết định đưa vào bộ phân lớp và cuối c
ận văn đang nghiên cứu. Trong chương tiếp theo, tác giả sẽ ề các kết quả thực nghiệm mà luận văn đạt được.
ủa ngơn ngữ tiếng Việt, ối cùng là phát biểu ếp theo, tác giả sẽ
Formatted: Font: (Default) Times Roman, 13 pt, No underline, Font Formatted: Centered, Indent: bullets or numbering
Times New Font color: Auto Indent: Left: 0.5", No
41
Chương 4
THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
Trong chương này tác giả sẽ trình bày về thực nghiệm của luận văn đối với bài tốn phân lớp văn bản miền phạm tội. Cách tổ chức dữ liệu, số lượng các bài báo, cách gán nhãn và các pha thực hiện việc phân lớp. Tác giả cũng trình bày rõ các kết quả đạt được đối với mỗi lần thực nghiệm, từ đĩ rút ra các kết luận cho bài tốn của mình.