Phát biểu bài tốnphân lớp các văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm 04 (Trang 41 - 45)

bản tiếng Việt.

Bài tốn phân lớp các văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt trả lời

câu hỏi:”làm thế nào để phát hiện các bài báo tiếng Việt liên quan đến miền dữ liệu phạm tội và phân lớp chúng thành các lớp tội danh khác nhau ?”. Như vậy khi cho

trước đầu vào là một văn bản, bộ phân lớp cần phát hiện nĩ cĩ thuộc miền dữ liệu đang xét hay khơng, và nếu cĩ thì phân loại văn bản này vào đúng các lớp cho trước.

Như vậy miền dữ liệu bài tốn đang xét được phân chia thành 6 lớp, tương đương với 6 tội danh. Các tội danh này được tác giả gán nhãn sẵn lên dữ liệu đầu vào, trước khi đưa vào mơ hình thử nghiệm. Lý do chọn các tội danh này căn cứ theo quá trình tập hợp dữ liệu từ thực tế, đây là các tội danh cho thấy tần suất xuất hiện nhiều nhất trong số các tội danh mà tác giả thu thập. Đặc trưng của quá trình phân lớp được chọn bằng âm tiết, với N=1 trong mơ hình N-grams.

Bài tốn phân lớp văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt được tác giả chia thành hai mơ hình thử nghiệm. Mơ hình thứ nhất cĩ hai giai đoạn gồm phát hiện và sau đĩ phân loại các bài báo thuộc miền dữ liệu phạm tội, mơ hình thứ hai là phân loại trực tiếp.

Ở mơ hình 1, tổng số các bài báo thuộc miền dữ đoạn thứ nhất của mơ hình này, b báo cĩ thuộc hay khơng mi

sẽ tiếp tục phân loại các bài báo thu danh giống nhau, với tổng c

được mơ tả như sau:

Giai đoạn 1:Phát hiện

Input: Tập văn b miền chủ đề khác 

 Output: Phân lớp cho các bài báo thu

báo thuộc miền chủ đề

Hình 6: Quá trình phát hiện văn b

Giai đoạn 2:Phân lớp

 Input: Tập văn bả

 Output: Phân lớp cho các bài báo này thu

Hình 6: Quá trình phân l

- 

38

bài báo dữ liệu đầu vào được đưa vào bộ phân l liệu phạm tội, và các bài báo thuộc miền khác. Do v a mơ hình này, bộ phân lớp cần làm nhiệm vụ phát hi c hay khơng miền dữ liệu đang xét. Tiếp theo, ở giai đoạn hai,

các bài báo thuộc miền dữ liệu phạm tội thành các nhĩm cĩ t ng cộng 6 tội danh được sử dụng. Các giai đo

n (Detection)

p văn bản là các bài báo thuộc miền dữ liệu phạm khác.

p cho các bài báo thuộc miền dữ liệu phạm tộ khác được xếp vào đúng lớp tương ứng.

n văn bản

p (Classification)

ản là các bài báo thuộc miền dữ liệu phạm tộ

p cho các bài báo này thuộc vào các lớp tội danh khác nhau.

Hình 6: Quá trình phân lớp và phát hiện văn b Hình 7: Quá trình phân lớp văn bản

phân lớp sẽ gồm cả n khác. Do vậy, ở giai phát hiện được các bài n hai, bộ phân lớp i thành các nhĩm cĩ tội Các giai đoạn ở mơ hình 1

m tội và thuộc các

ội và các bài

ội

i danh khác nhau.

n văn bản

Formatted: Indent: Left: 0.69", Level: 2 + Aligned at: 0.75" +

Formatted: Font: (Default) Times Roman, 13 pt, No underline, Font Formatted: Left, Indent: Left: 0", Space After: 8 pt, Line spacing: 1.08 li, No bullets or numbering Formatted: No underline, Font

Formatted: No underline, Font Formatted: Indent: Left: 0.69", Level: 2 + Aligned at: 0.75" +

Formatted: Indent: Left: 0.94", numbering

Formatted: Indent: Left: 0.5", numbering

Formatted: Indent: Left: 0.94", numbering

0.69", Bulleted + Indent at: 1"

Times New Font color: Auto Left: 0.5", Right: spacing: Multiple numbering

Font color: Auto

Font color: Auto 0.69", Bulleted +

Indent at: 1"

0.94", No bullets or 0.5", No bullets or

Ở mơ hình 2, tác giả dữ liệu đầu vào được đưa vào b tội và các bài báo thuộc mi này vào 6 lớp tội danh cho trư được phân loại trực tiếp là 7 l

hiện xem bài báo cĩ thuộc hay khơng thu phân lớp sẽ phân loại trực ti

 Input: Tập văn bả

thuộc các miền dữ

 Output: Phân lớp cho các bài báo này thu

thuộc lớp miền dữ

Hình

39

Hình 7: Quá trình phân lớp văn bản

thực hiện việc phân loại trực tiếp luơn. Tổng s c đưa vào bộ phân lớp sẽ vẫn gồm các bài thuộc mi

c miền khác, nhưng bộ phân lớp sẽ trực tiếp phân lo i danh cho trước và thêm một lớp cho các bài báo khác,

p là 7 lớp. Như vậy ở mơ hình 2, sẽ khơng cịn giai

c hay khơng thuộc miền dữ liệu đang xét hay khơng mà b c tiếp luơn:

ản là các bài báo thuộc miền dữ liệu phạm t ữ liệu khác.

p cho các bài báo này thuộc vào các lớp tội danh khác nhau và ữ liệu khác.

Hình 76: Quá trình phát hiệnphân lớp trực tiếp văn b

ng số các bài báo c miền dữ liệu phạm p phân loại các bài báo p cho các bài báo khác, tống số lớp khơng cịn giai đoạn phát u đang xét hay khơng mà bộ

m tội và các bài báo

i danh khác nhau và

văn bản

Formatted: Font: (Default) Times Roman, 13 pt, No underline, Font

Formatted: Normal, No bullets

Formatted: Font: (Default) Times Roman, 13 pt

Formatted: Indent: Left: 0.5", numbering

Times New Font color: Auto

bullets or numbering

Times New 0.5", No bullets or

3.4. Tổng kết

Trong chương này, tác gi về các lớp cụ thể mà tác gi đầy đủ về bài tốn mà luận vă trình bày về các kết quả thực nghiệm m

40 -

Trong chương này, tác giả đã trình bày về các đặc trưng của ngơn ngữ tiếng Việt, à tác giả quyết định đưa vào bộ phân lớp và cuối c

ận văn đang nghiên cứu. Trong chương tiếp theo, tác giả sẽ ề các kết quả thực nghiệm mà luận văn đạt được.

ủa ngơn ngữ tiếng Việt, ối cùng là phát biểu ếp theo, tác giả sẽ

Formatted: Font: (Default) Times Roman, 13 pt, No underline, Font Formatted: Centered, Indent: bullets or numbering

Times New Font color: Auto Indent: Left: 0.5", No

41

Chương 4

THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Trong chương này tác giả sẽ trình bày về thực nghiệm của luận văn đối với bài tốn phân lớp văn bản miền phạm tội. Cách tổ chức dữ liệu, số lượng các bài báo, cách gán nhãn và các pha thực hiện việc phân lớp. Tác giả cũng trình bày rõ các kết quả đạt được đối với mỗi lần thực nghiệm, từ đĩ rút ra các kết luận cho bài tốn của mình.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm 04 (Trang 41 - 45)

Tải bản đầy đủ (PDF)

(63 trang)