Xây dựng các đặc trưng

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm 04 (Trang 33)

2.2. Phương pháp sử dụng học máy

2.2.4.5. Xây dựng các đặc trưng

Luận văn sử dụng mơ hình ngơn ngữ N-gram để xây dựng các mệnh đề thơng tin ngữ cảnh, từ đĩ xây dựng các đặc trưng trước khi đưa vào huấn luyện mơ hình.

Mơ hình ngơn ngữ N-grams.

Xét trong một văn bản, N-gram là một cụm từ gồm N từ liên tiếp cùng xuất hiện trong văn bản đĩ. Như vậy N càng lớn thì số lượng N-gram sinh ra càng lớn.Trong luận văn, N được chọn N=1.

Theo cách mà nguyên lý Entropy đã cung cấp để xây dựng đặc trưng: một đặc

trưng là sự kết hợp giữa mệnh đề mơ tả thơng tin ngữ cảnh cp(x) và nhãn của lớp tương

ứng với văn bản. Cần chú ý rằng, số lượng các mệnh đề thơng tin ngữ cảnh sinh ra nhỏ hơn số lượng các N-gram (vì cĩ những N-gram trùng nhau cũng xuất hiện trong một văn bản), và cũng khơng bằng số lượng các đặc trưng.

Lựa chọn đặc trưng

Bản chất của các ngơn ngữ tự nhiên là luơn cĩ các từ xuất hiện nhiều, nhưng khơng mang nhiều ý nghĩa để phân loại. Trong tiếng Anh gọi đĩ là stop-word. Ngơn ngữ nào cũng cĩ stop-word, tuy nhiên do tiếng Anh được xử lý nhiều nên người ta xây dựng danh sách stop-word cho nĩ khá rõ ràng. Ở một số ngơn ngữ khác, ví dụ như tiếng Việt cũng sẽ cĩ danh sách stop-word cụ thể như tiếng Anh nếu được xử lý nhiều trong tương lai [2]. Stop-word khơng những dư thừa, khi kết hợp với các từ khác để xây dựng đặc trưng chúng cịn gây ra hiện tượng overfitting. Qua thử nghiệm trên một bộ phân

30

lớp văn bản trên tiếng Anh, sau khi lọc stop-word độ chính xác huấn luyện (trainning accuracy) tăng lên đáng kể. Vì vậy loại bỏ stop-word là rất cần thiết.

Thực tế cho thấy, cĩ những mệnh đề thơng tin ngữ cảnh xuất hiện nhiều lần trong một văn bản và những mệnh đề thơng tin ngữ cảnh xuất hiện rất ít lần. Ví dụ trong câu “Xu hướng tội phạm ma túy đang ngày càng tăng cao”:

[document has ma túy_đang_ngày]

Để loại bỏ những mệnh đề thơng tin ngữ cảnh khơng cĩ nhiều ý nghĩa này, chiến lược lọc đặt ngưỡng chỉ đơn giản đặt ngưỡng cho sự xuất hiện của một mệnh đề thơng tin ngữ cảnh trong tồn bộ tập mệnh đề thơng tin ngữ cảnh: nếu số lần xuất hiện nằm ngồi một khoảng nào đĩ thì bị loại bỏ.

Tiếp theo chúng ta sử dụng kỹ thuật TF.IDF để đánh giá ý nghĩa, độ quan trọng

của một cụm từ đối với một văn bản hoặc một lớp. TF (term frequency) là độ đo tần số:

tần suất xuất hiện của cụm từ trong một văn bản:

tf =

là số lần xuất hiện của cụm từ trong tồn bộ văn bản. IDF (inverse document

frequency) là độ đo tổng quát độ quan trọng của cụm từ:

= . | |

|( ⊃ )|

Trong đĩ:

D là số các văn bản trong tập dữ liệu huấn luyện

|( ⊃ )| là số các văn bản mà cụm từ xuất hiện thỏa mãn khác 0.

Một cụm từ t xuất hiện nhiều lần trong văn bản và xuất hiện ít lần trong các văn

bản khác của tập dữ liệu thì cĩ trọng số TF.IDF cao. Với tính chất như vậy, TF.IDF cĩ ý nghĩa trong việc lọc bỏ các cụm từ chung. Chúng ta cũng cĩ thể sử dụng phương pháp này để tìm những cụm từ mang ý nghĩa phân lớp cao bằng cách đánh trọng số của từ trên một lớp.

Formatted: Indent: Left: 0.75"

Formatted: Indent: First line: 0.44" Formatted: Font: (Default) Times New Roman, 13 pt, No underline, Font color: Auto

Formatted: Font: Italic, No underline, Font color: Auto

Formatted: Font: Italic, No underline, Font color: Auto

Formatted: Left, Indent: Left: 0.69", First line: 0.38" Formatted ... [1] Formatted ... [2] Formatted ... [3] Formatted ... [4] Formatted ... [5]

Formatted: Font: Italic, Subscript

Formatted: Indent: First line: 0"

Formatted ... [6]

Formatted ... [7]

Formatted ... [8]

Formatted ... [9]

Formatted: Indent: Left: 1"

Formatted ... [10] Formatted ... [11] Formatted ... [12] Formatted ... [13] Formatted ... [14] Formatted ... [15] Formatted ... [16] Formatted ... [17] Formatted ... [18] Formatted ... [19] Formatted ... [20]

Formatted: Normal, Indent: Left: 0"

Formatted ... [21] Formatted: Font: 13 pt Formatted ... [22] Formatted ... [23] Formatted ... [24] Formatted ... [25] Formatted ... [26]

Formatted: Normal, Indent: First line: 0.44"

Formatted ... [27]

31

2.2.4.5.2.2.4.6. Ưu điểm của mơ hình Entropy cực đại

Phương pháp Maximum Entropy cĩ một số ưu điểm sau:

- Cho phép khả năng hầu như khơng hạn chế trong việc biểu diễn các vấn đề phức

tạp về tri thức thơng qua dạng các hàm đặc trưng.

- Cĩ thể giải quyết nhiều dạng thuộc tính khác nhau.

- Các giả thiết khơng cần phải độc lập với nhau.

- Trọng số của các đặc trưng được xác định một cách tự động.

2.3. Tổng kết

Trong chương này, tác giả đã trình bày các phương pháp cơ bản để tiếp cận và giải quyết bài tốn phân lớp văn bản. Tác giả cũng đã đưa ra các điểm thuận lợi và hạn chế khi sử dụng từng phương pháp. Qua đĩ lựa chọn ra phương pháp phù hợp với bài tốn mà luận văn đang nghiên cứu. Trong chương tiếp theo, tác giả sẽ trình bày chi tiết bài tốn phân lớp văn bản thuộc miền dữ liệu tội phạm trên văn bản tiếng Việt.

32

Chương 3

BÀI TỐN PHÂN LỚP VĂN BẢN MIỀN DỮ LIỆU TỘI PHẠM TRÊN VĂN BẢN TIẾNG VIỆT.

Trong chương này tác giả sẽ trình bày giới thiệu về bài tốn phân lớp văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt. Trình bày về các đặc trưng ngơn ngữ của tiếng Việt, các lớp tội danh mà tác giả quyết định xây dựng và phát biểu đầy đủ về bài tốn liên quan đến miền dữ liệu mà luận văn quan tâm.

3.1. Một số đặc trưng của dữ liệu văn bản tiếng Việt.

Tiếng Việt thuộc ngơn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp [8].

Đặc điểm ngữ âm: Trong tiếng Việt cĩ một loại đơn vị đặc biệt gọi là "tiếng". Về

mặt ngữ âm, mỗi tiếng là một âm tiết. Hệ thống âm vị tiếng Việt phong phú và cĩ tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị cĩ nghĩa. Nhiều từ tượng hình, tượng thanh cĩ giá trị gợi tả đặc sắc. Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hồ về ngữ âm, đến nhạc điệu của câu văn.

Đặc điểm từ vựng: Mỗi tiếng, nĩi chung, là một yếu tố cĩ nghĩa. Tiếng là đơn vị

cơ sở của hệ thống các đơn vị cĩ nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng..., chủ yếu nhờ phương thức ghép và

33

phương thức láy.Việc tạo ra các đơn vị từ vựng ở phương thức ghép luơn chịu sự chi phối của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát... Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngơn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thơng tin, siêu liên kết văn bản, truy cập ngẫu nhiên, v.v.Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chơm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v.Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, cĩ thể cĩ nhiều từ ngữ khác nhau biểu thị. Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngơn ngữ, đặc biệt là trong phong cách ngơn ngữ nghệ thuật. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là cơng nghệ thơng tin, thì tiềm năng đĩ cịn được phát huy mạnh mẽ hơn.

Đặc điểm ngữ pháp: Từ của tiếng Việt khơng biến đổi hình thái. Đặc điểm này sẽ

chi phối các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ.Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp. Trong tiếng Việt khi nĩi "Anh ta lại đến" là khác với "Lại đến anh ta". Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trị chính, từ đứng sau giữ vai trị phụ. Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình". Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt.

Trên đây là những trình bày cơ bản về các đặc trưng của ngơn ngữ tiếng Việt. Như vậy, ta thấy rằng đặc trưng dữ liệu ngơn ngữ tiếng Việt là rất phong phú và phức tạp. So

34

với tiếng Anh, việc áp dụng bài tốn phân lớp lên miền dữ liệu ngơn ngữ tiếng Việt sẽ gặp một số khĩ khăn do các đặc trưng ngơn ngữ này.

3.2. Xây dựng các lớp trong miền dữ liệu tội phạm

3.2.1. Khái niệm tội phạm theo bộ luật hình sự.

Theo Bộ luật hình sự năm 1999, đã được sửa đổi, bổ sung năm 2009 (BLHS) [9]. Tội phạm là hành vi nguy hiểm cho xã hội được quy định trong Bộ luật hình sự, do người cĩ năng lực trách nhiệm hình sự thực hiện một cách cố ý hoặc vơ ý, xâm phạm độc lập, chủ quyền, thống nhất, tồn vẹn lãnh thổ Tổ quốc, xâm phạm chế độ chính trị, chế độ kinh tế, nền văn hố, quốc phịng, an ninh, trật tự, an tồn xã hội, quyền, lợi ích hợp pháp của tổ chức, xâm phạm tính mạng, sức khỏe, danh dự, nhân phẩm, tự do, tài sản, các quyền, lợi ích hợp pháp khác của cơng dân, xâm phạm những lĩnh vực khác

của trật tự pháp luật xã hội chủ nghĩa.

Cách phân loại tội phạm:Cách phân loại này được cụ thể hố trong khoản 3 Điều

8 BLHS:

“ Tội phạm ít nghiêm trọng là tội phạm gây nguy hại khơng lớn cho xã hội mà mức cao nhất của khung hình phạt đối với tội ấy là đến ba năm tù, tội phạm nghiêm trọnglà tội phạm gây nguy hại lớn cho xã hội mà mức cao nhất của khung hình phạt đối với tội ấy là đến bảy năm tù, tội phạm rất nghiêm trọng là tội phạm gây nguy hại rất lớn

cho xã hội mà mức cao nhất của khung hình phạt đối với tội ấy là đến mười lăm năm tù;

tội phạm đặc biệt nghiêm trọnglà tội phạm gây nguy hại đặc biệt lớn cho xã hội mà

mức cao nhất của khung hình phạt đối với tội ấy là trên mười lăm năm, tù chung thân hoặc tử hình”.

Theo quy định trên của Bộ luật hình sự, tội phạm được thành những loại tội sau:

Thứ nhất: Tội ít nghiêm trọng được hiểu là tội phạm gây nguy hại khơng lớn cho

xã hội mà mức cao nhất của khung hình phạt đối với tội ấy là đến ba năm tù

Thứ hai: Tội nghiêm trọng là tội phạm gây nguy hại lớn cho xã hội mà mức cao

nhất của khung hình phạt đối với tội ấy là đến bảy năm tù

Thứ ba: Tội rất nghiêm trọng là tội phạm gây nguy hại rất lớn cho xã hội mà mức

35

Thứ tư: Tội phạm đặc biệt nghiêm trọng là tội phạm gây nguy hại đặc biệt lớn cho

xã hội mà mức cao nhất của khung hình phạt đối với tội ấy là trên mười lăm năm, tù chung thân hoặc tử hình.

3.2.2. Các lớp tội danh được xây dựng trong thực tế bài tốn.

Theo thực tế khi tổng hợp các bài báo từ Internet, cụ thể là từ hai trang web http://vnexpress.net/tin-tuc/phap-luat và http://baophapluat.vn/xa-lo-phap-luat/thì tác giả nhận thấy, tần suất xuất hiện của các loại tội phạm sau là nhiều nhất: Giết người, tội phạm ma túy, tội phạm mại dâm, cướp giật, trộm cắp và lừa đảo. Do vậy tác giả sẽ xây dựng một tập dữ liệu bao gồm các lớp tương ứng với các loại tội phạm như trên. Sau đây là một số thơng tin về các tội danh trên, căn cứ theo Bộ luật hình sự năm 1999, đã

được sửa đổi, bổ sung năm 2009 (BLHS), chúng ta cĩ định nghĩa về các tội danh như

sau:thì:

Lừa đảo chiếm đoạt tài sản được hiểu là hành vi dùng thủ đoạn gian dối làm cho

chủ sở hữu, người quản lý tài sản tin nhầm giao tài sản cho người phạm tội để chiếm đoạt tài sản đĩ. Về khách quan, phải cĩ hành vi dùng thủ đoạn gian dối nhằm chiếm đoạt tài sản. Dùng thủ đoạn gian dối là đưa ra thơng tin giả (khơng đúng sự thật) nhưng làm cho người khác tin đĩ là thật và giao tài sản cho người phạm tội. Việc đưa ra thơng tin giả cĩ thể bằng nhiều hình thức khác như giả vờ vay, mượn, thuê để chiếm đoạt tài sản.

Về mặt chủ quan, lỗi của người phạm tội là lỗi cố ý.

Giết người bị coi là tội phạm là hành vi cố tước đoạt trái pháp luật tính mạng của

người khác. Hành vi giết người là hành vi cĩ khả năng gây ra cái chết hoặc chấm dứt sự sống của người khác. Hành vi này được thể hiện bằng hành động, như: một người bằng hành động như đâm, chém, bắn,…để tước đoạt tính mạng, sự sống của người khác; hoặc cũng cĩ thể dưới dạng khơng hành động như: cha mẹ bỏ đĩi trẻ sơ sinh dẫn đến đứa trẻ đĩ chết.

Trộm cắp là một hành vi phạm tội khi một người hoặc một nhĩm người lén lút, bí

36

thể là tiền, dịch vụ, thơng tin,...mà khơng cĩ sự cho phép của chủ nhân. Nĩi cách khác, mục đích trộm cắp là tước đoạt quyền sở hữu chính đáng của mĩn đồ. (Điều 138)

Cướp giật tài sản là hành vi cơng khai chiếm đoạt tài sản của người khác một cách

nhanh chĩng và bất ngờ rồi tẩu thốt để tránh sự phản kháng của chủ sở hữu hoặc người quản lý tài sản (Điều 136)

Tội phạm Mại dâm: Điều 3 của Pháp lệnh Phịng, chống mại dâm quy định:

- Mại dâm là hành vi mua dâm, bán dâm.

- Chứa mại dâm là hành vi sử dụng, thuê, cho thuê hoặc mượn, cho mượn địa điểm,

phương tiện để thực hiện việc mua dâm, bán dâm.

- Tổ chức hoạt động mại dâm là hành vi bố trí, sắp xếp để thực hiện việc mua dâm,

bán dâm.

- Mơi giới mại dâm là hành vi dụ dỗ hoặc dẫn dắt của người làm trung gian để các

bên thực hiện việc mua dâm, bán dâm.

- Bảo kê mại dâm là hành vi lợi dụng chức vụ, quyền hạn, uy tín hoặc dùng vũ lực,

đe doạ dùng vũ lực để bảo vệ, duy trì hoạt động mại dâm.

Tội phạm Ma túy: (Điều 193, 194, 195) và theo Mục 3 Phần II Thơng tư liên tịch

số 17/2007/TTLT-BCA-VKSNDTC-TANDTC-BTP [16] quy định:

- Tội tàng trữ, vận chuyển, mua bán trái phép hoặc chiếm đoạt chất ma túy (Điều 194):

- “Tàng trữ trái phép chất ma túy” là cất giữ, cất giấu bất hợp pháp chất ma túy ở bất cứ nơi nào mà khơng nhằm mục đích mua bán, vận chuyển hay sản xuất trái phép chất ma túy. Thời gian tàng trữ dài hay ngắn khơng ảnh hưởng đến việc xác định tội này.

- “Vận chuyển trái phép chất ma túy” là hành vi chuyển dịch bất hợp pháp chất ma

túy từ nơi này đến nơi khác dưới bất kỳ hình thức nào mà khơng nhằm mục đích

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm 04 (Trang 33)

Tải bản đầy đủ (PDF)

(63 trang)