MÔ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN

Một phần của tài liệu Trích chọn sự kiện trong văn bản tin tức tiếng Việt (Trang 31)

3.3.1. Phƣơng pháp đề xuất

Trong chƣơng 2, luận văn đã tập trung trình bày các phƣơng pháp tiếp cận: phƣơng pháp tiếp cận dựa trên luật (rule-based), phƣơng pháp học máy, và phƣơng pháp kết hợp luật và học máy (phƣơng pháp lai). Trong phần này, luận văn tiếp tục phát triển ý tƣởng của việc kết hợp giữa luật và học máy cho bài toán trích chọn sự kiện vụ tai nạn.

22

Pha 1- Phát hiện sự kiện vụ tai nạn: Dữ liệu đầu vào của pha này là các bản tin trên các trang báo điện tử, số lƣợng các bài rất nhiều và của rất nhiều các lĩnh vực khác nhau. Nên tôi chia bài toán này thành hai bƣớc; bƣớc 1 - dùng luật để lọc ra dữ liệu trong miền tai nạn giao thông, bƣớc 2 - dùng bộ lọc để nhận diện các bản tin có chứa sự kiện vụ tai nạn. Nhƣ vậy, để giải quyết bài toán phát hiện sự kiện vụ tai nạn là kết hợp giữa luật và học máy.

Pha 2- Trích chọn sự kiện vụ tai nạn: Trong pha này ta phải trích chọn ra các thông tin về thời gian xầy ra vụ tai nạn, địa điểm ở đâu, số thƣơng vong, và phƣơng tiên gây tai nạn. Trích chọn thông tin về địa điểm xảy ra vụ tai nạn dùng nhận dạng thực thể (NER) và ontology hoặc dùng từ điển; thông tin về thời gian có thể ở dạng chuẩn (dd/mm/yyyy) hoặc không chuẩn (“giữa trưa”, “nửa đêm”, “giờ tan tầm” …), nên ta dùng luật để trích chọn ra thông tin; Trích chọn thông tin số thƣơng vong (số tử vong và số bị thƣơng) sử dụng nhận dạng thực thể và luật để lọc ra thông tin; Trích chọn thông tin phƣơng tiện gây tai nạn, tác giả xây dựng một bộ từ điển các phƣơng tiện giao thông sau đó dùng luật để so khớp với bộ từ điển.

Nhƣ vậy, để giải quyết đƣợc các vấn đề trong hai pha ta kết hợp cả luật và học máy (ở đây là phân lớp và nhận dạng thực thể). Mô hình của cả hai pha sẽ đƣợc trình bầy chi tiết trong phần 3.3.2 và cách giải quyết chi tiết hai bài toán trong phần 3.4.

3.3.2. Mô hình phát hiện và trích chọn sự kiện vụ tai nạn

Để giải quyết các vấn đề ở cả hai pha phần 3.3.1, tác giả đề xuất mô hình phát hiện và trích chọn sự kiện vụ tai nạn gồm có bốn thành phần chính nhƣ sau:

23

Thu thập dữ liệu: phần này có nhiệm vụ thu thập dữ liệu tự động từ các bản tin từ các trang báo điện tử trên Internet sau đó chuyển cho bƣớc tiền xử lý dữ liệu.

Tiền xử lý dữ liệu: thành phần này có nhiệm vụ xử lý dữ liệu sau khi đã thu thập đƣợc ở phần trên, ta loại bỏ các thẻ HTML, lấy dữ liệu dạng thô (text). Sau đó chuyển nó sang bƣớc phát hiện sự kiện vụ tai nạn.

Phát hiện sự kiện: là phát hiện sự kiện vụ tai nạn, dữ liệu đƣợc lấy từ thành phần tiền xử lý dữ liệu, ta dùng luật để lấy các dữ liệu thuộc miền thông tin tai nạn giao thông, sau đó ta dùng học máy để phân lớp dữ liệu, kiểm tra dữ liệu đó có phải bản tin vụ tai nạn giao thông hay không, nếu không phải thì loại, nếu đúng thì lấy và chuyển dữ liệu đó cho bƣớc trích chọn sự kiện vụ tai nạn.

Trích chọn sự kiện: là bƣớc trích chọn sự kiện vụ tai nạn; Ở bƣớc này ta trích chọn những thông tin đặc trƣng của vụ tai nạn nhƣ: thời gian, địa điểm, số thƣơng vong, phƣơng tiện gây tai nạn giao thông.

3.4. GIẢI QUYẾT BÀI TOÁN PHÁT HIỆN SỰ KIỆN VÀ BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN

Nhiệm vụ của bài toán 1, từ dữ liệu thô (text) ở bƣớc tiền xử lý dùng luật để lọc lấy dữ liệu trong miền thông tin tai nạn giao thông, từ đó dùng bộ phân lớp để kiểm tra dữ liệu có phải là bản tin vụ tai nạn hay không, nếu dữ liệu là bản tin vụ tai nạn thì dữ liệu đó đƣợc chuyển sang bài toán 2 - Trích chọn sự kiện vụ tai nạn. Mô hình và các giải quyết chi tiết của hai bài toán sẽ đƣợc trình bầy trong mục 3.4.1 và 3.4.2.

3.4.1. Bài toán 1- Pháp hiện sự kiện vụ tai nạn (pha 1)

3.4.1.1. Phát biểu bài toán

Mục tiêu của bài toán 1- Phát hiện sự kiện vụ tai nạn, dữ liệu cần giải quyết đƣợc lấy từ bƣớc tiền xử lý dữ liệu (dữ liệu ở dạng thô - text), dữ liệu đầu ra có

24

chứa sự kiện vụ tai nạn hay không. Một các hình thức, bài toán đƣợc phát biểu nhƣ sau:

Đầu vào: một bản tin trên các trang báo có dạng thô.

Đầu ra: bản tin đó có chứa sự kiện tai nạn hay không?

Trong pha 1, gồm hai chức năng: một bộ lọc dữ liệu và một bộ phân lớp. Bộ lọc có chức năng lọc dữ liệu từ bƣớc tiền xử lý (dữ liệu dạng thô sau khi đƣợc lọc thẻ HTML từ bản tin đƣợc lấy trên các trang báo) các bản tin trong miền tai nạn giao thông; Còn chức năng phân lớp kiểm tra bản tin đó có chứa sự kiện vụ tai nạn hay không? Quá trình phát hiện sự kiện vụ tai nạn đƣợc trình bày trong hình 3.2

Hình 3.2 Thành phần phát hiện sự kiện

3.4.1.2. Xây dựng tập luật

Nhƣ trong phần 3.4.1.1 đã trình bày, pha phát hiện dự kiện gồm hai chức năng, chức năng lọc dữ liệu (là các bản tin thuộc miền tai nạn giao thông), sau đó chức năng phân lớp sẽ kiểm tra dữ liệu có chứa sự kiện vụ tai nạn hay không. Trong phần này tác giả sẽ trình bày chi tiết chức năng thứ nhất - lọc dữ liệu thuộc miền tai nạn giao thông.

Qua khảo sát dữ liệu, ta thấy tiêu đề của bản tin thƣờng nói lên khá đầy đủ nội dung của bản tin. Nên tác giả thay vì lọc dữ liệu qua nội dung thì lọc dữ liệu qua tiêu đề của bản tin.

Hoạt động của bộ lọc dữ liệu đƣợc mô tả nhƣ sau: (1) xây dựng tập luật dựa trên khảo sát miền dữ liệu, các từ khoá liên quan đến miền dữ liệu tai nạn giao

25

thông. (2) bộ lọc dữ liệu sẽ dùng các luật này so khớp với tiêu đề bản tin, nếu tiêu đề bản tin chứa các tập luật này thì điều đó bản tin thuộc miền tai nạn giao thông, ngƣợc lại thì không thuộc.

Qua khảo sát dữ liệu hầu hết các tiêu để bài bài thuộc miền tai nạn giao thông thƣờng có các từ liên quan đến phƣơng tiện giao thông. Ví dụ nhƣ, (adsbygoogle = window.adsbygoogle || []).push({});

“Tp.HCM: Xe khách kéo lê xe máy trên đường”, “Xe bus rơi xuống hẻm núi, 56 người thương vong”, “Ô tô đi trái đường, 1 người thiệt mạng”, “TP.HCM: Nam thanh niên tử vong dưới gầm xe ben” và một số ít các bản tin vụ tai nạn tiêu đề không chứa phƣơng tiện giao thông, ví dụ nhƣ: Nghệ An: Hai thí sinh không thể thi tốt nghiệp vì TNGT” thì nó lại chứa các từ nhƣ tai nạn, tai nạn giao thông, TNGT, tai nạn bi thảm,… Ví dụ các bản tin trong hình 3.3. và hình 3.4.

26

Hình 3.4 Tiêu đề không chứa các từ liên quan đến phương tiện giao thông

Qua khảo sát dữ liệu và thực tế, tác giả đã xây dựng đƣợc một tập các phƣơng tiện giao thông gọi là từ điển các phƣơng tiện giao thông. Chi tiết tên các loại phƣơng tiện đƣợc liệt kê dƣới bảng 3.1.

Bảng3.1 Phƣơng tiện giao thông

Stt Tên phƣơng tiện Stt Tên phƣơng tiện

1 Xe 29 Xe lu

2 Ô tô 30 Máy tuốt

3 Mô tô 31 Xe cần cẩu

4 Xe máy 32 Máy súc

5 Xe khách 33 tắc-xi

27 7 Xe hơi 35 Xe hàng 8 Xe bốn chỗ 36 Xe đò 9 xế hộp 37 Xe bò 10 Xe trâu 38 Xe ngựa 11 Xe điên 39 Công-te-nơ

12 Tàu hoả 40 cẩn cẩu

13 Máy bay 41 Xe ba gác

14 tàu lửa 42 Xe đua

15 Xe tải 43 Xe phân khối lớn

16 Xe ôm 44 Xe ga

17 Xe đạp 45 Xích-lô

18 Xe đạp điện 46 Trực thăng

19 Công nông 47 Xe bus

20 Máy kéo 48 Xe ben

21 Xe lu 49 Xe 3 bánh 22 Ô tô 4 chỗ 50 Xe ba bánh 23 Xe đầu kéo 51 Xe 3 gác 24 Xe 7 chỗ 52 Thuyền 25 Ô tô 7 chỗ 53 Đò 26 Xe 16 chỗ 54 Xuồng máy 27 Xe 24 chỗ 55 Tàu 28 Xe 29 chỗ 56 Ghe

Từ đó, tác giả đã xây dựng luật cho hai trƣờng hợp, trƣờng hợp thứ nhất dùng

28

khớp thì lọc ra; còn không dùng mẫu 2. Chi tiết các mẫu đƣợc minh hoạ trong công thức (3.1) và (3.2).

Mẫu1 =” phương tiện giao thông” (3.1)

Ví dụ minh hoạ cho mẫu 1:

Tìm thấy từ “xe” trong tiêu đề bản tin “Xe chở bia đâm cột điện, 2 người mắc kẹt trong cabin”

Tìm thấy từ “xe buýt” trong tiêu đề bản tin “Tp.HCM: Xe buýt cán nát chân người bộ hành”

Một ví dụ khác, “đưa em đi thi đại học chị bị tai nạn giao thông”, trong tiêu đề bản tin này không chứa phƣơng tiện giao thông nên mẫu 1 đƣợc bỏ qua mà sẽ chuyển sang sử dụng mẫu 2. (adsbygoogle = window.adsbygoogle || []).push({});

Mẫu 2= “động từ” # “danh từ” (3.2)

Trong đó:

Đông từ gồm các từ: Tai nạn, TNGT,…

Danh từ gồm các từ: giao thông, thƣơng tâm, … Ví dụ minh hoạ cho mẫu 2:

“tai nạn” # “thƣơng tâm” “tai nạn” # “giao thông”

3.4.1.3. Xây dựng mô hình phân lớp

Bộ phân lớp có nhiệm vụ phát hiện một bài báo có chứa sự kiện hay không. Bộ phân lớp sẽ phân ra thành hai lớp: lớp có chứa sự kiện vụ tai nạn nhãn là EVENT và lớp không chứa sự kiện vụ tai nạn nhãn là NOT_EVENT. Quá trình kháo sát cho thấy rằng phần tiêu đề và tóm tắt của bản tin đã chứa đầy đủ nội dung chính của cả bản tin. Nên, tác giả dùng thông tin này để xây dựng véctơ đặc trƣng biểu diễn văn bản. Các đặc trƣng đƣợc sử dụng trong quá trình huấn

29

luyện là 2-grams, 3-grams, 4-grams. Tác giả xây dựng một tập huấn luyện và dùng tập dữ liệu huấn luyện này để xác định văn bản chứa sự kiện.

Trong phần này tác giả sẽ dùng mô hình Maximum Entropy (ME) vì: (1) dữ liệu trong quá trình huấn luyện là văn bản, do vậy, khi biểu diễn dƣới dạng vector đặc trƣng thì đây là dữ liệu thƣa mà ME tốt khi dữ liệu đƣợc biểu diễn dƣới dạng thƣa: (2) tốc độ huấn luyện của ME khá tốt và thực nghiệm cho thấy phƣơng pháp này cho kết quả tốt với dữ liệu văn bản; (3) có thể tuỳ biến mã nguồn của ME do đây là mã nguồn mở. Mô hình ME dựa trên xác suất có điều kiện cho phép tích hợp sự đa dạng của các đặc trƣng từ tập huấn luyện cho bài toán phân lớp.Ý tƣởng của ME là mô hình phải xác định một phân phối đều thoả mãn các ràng buộc từ tập dữ liệu huấn luyện mà không thêm bớt bất kỳ một giả định nào. Điều này có nghĩa sự phân bố của mô hình phải thoả mãn các ràng buộc của dữ liệu quan sát và càng gần với phân bố càng tốt.

Sau quá trình huấn luyện, toàn bộ dữ liệu đã qua bộ lọc sẽ đƣợc đƣa vào mô hình. Tai đây, những văn bản có nhãn EVENT sẽ là đầu vào cho quá trình trích chọn; ngƣợc lại văn bản có nhãn NOT_EVENT mô hình sẽ bỏ qua.

3.4.2. Bài toán 2- Trích chọn sự kiện vụ tai nạn (pha 2)

3.4.2.1. Phát biểu bài toán

Bộ trích chọn sự kiện có thể coi là thành phần trọng tâm nhất của mô hình. Nơi mà các thông tin của một sự kiện vụ tai nạn giao thông đƣợc trích chọn. Một cách hình thức, có thể phát biểu bài toán trích chọn sự kiện nhƣ sau:

Đầu vào: bản tin chứa sự kiện vụ tai nạn

Đầu ra: các thông tin của một vụ tai nạn gồm: thời gian, địa điểm, số thƣơng vong, phƣơng tiện gây tai nạn. Ở đây số thƣơng vong bao gồm số nạn nhân tử vong và số nạn nhân bị thƣơng. Số thƣơng vong đƣợc liệt kêt dƣới dạng danh sách gồm hai trƣờng (số tử vong, số bị thƣơng), và một bản ghi tƣơng ứng ghi ra số tử vong và số bị thƣơng.

30

Bài toán trích chọn sự kiện có thể đƣợc minh hoạ trong hình 3.5.

Hình 3.5. Thành phần trích chọn sự kiện

Bộ trích chọn gồm 4 đặc trƣng: trích chọn thời gian, trích chọn địa điểm, trích chọn số thƣơng vong, và trích chọn phƣơng tiện gây tai nạn. Đặc trƣng thứ nhất sử dụng các luật để lấy về thông tin thời gian xảy ra vụ tai nạn (thông tin về thời gian là ngày xảy ra tai nạn (không phải là giờ trong này xảy ra vụ tai nạn). Đặc trƣng thứ hai dùng một từ điển chứa các địa điểm để lấy về địa điểm. Đặc trƣng thứ ba và thứ tƣ tác giả sử dụng các luật để lấy ra thông tin về số thƣơng vong và trích ra phƣơng tiện gây tai nạn.

3.4.2.2. Trích chọn thời gian

Qua khảo sát trên tập dữ liệu, kết quả cho thấy thông tin về thời gian thƣờng đƣợc biểu diễn dƣới hai dạng: tuyệt đối, tƣơng đối. Thời gian tuyệt đối thƣờng đƣợc biểu diễn dƣới dạng DD/ MM/YYYY hoặc dạng DD/MM (với DD là chỉ ngày, MM là chỉ tháng, và YYYY là chỉ năm xảy ra tai nạn). Ví dụ, “vào ngày 8/5 trên quốc lộ 5 xe máy va quyệt vào ô tô làm hai người bị thương”. Ví dụ khác “ vào ngày 09/7/2014, vì lái xe trong tình trạng say rượu mà xế hộp đã đâm thẳng xuống hồ nước, nạn nhân chết tại chỗ”. Tuy nhiên trong nhiều trƣờng hợp thông tin về thời gian đƣợc đề cập mật mờ và không trực tiếp. Ví dụ,

“ngay sáng sớm ngày 5/5, một vụ tai nạn thảm khốc đã xảy ra, tài xế xe tải đâm thẳng vào xe khách, rất may không có thiệt mạng nhưng toàn bộ hành khách bị thương được đưa đi cấp cứu”. Trong trƣờng hợp này, thông tin về thời điểm xảy

31

ra vụ tai nạn không rõ ràng, nó chỉ là chiều tối. Nhƣ vậy, cần kết hợp cụm từ

“sáng sớm” và ngày chính xác để đƣa ra thông tin về thời gian.

Từ thực tế thời gian đƣợc biểu diễn bằng hai cách, nên tác giả đã dùng các luật đƣợc xây dựng sẵn để lấy ra thông tin về thời gian. Trong trƣờng hợp thời gian đƣợc biểu diễn dƣới dạng tuyệt đối, thời gian có thể dễ ràng đƣợc trích ra bằng cách sử dụng biểu thức chính quy (Regular Expression - RE). Trƣờng hợp thứ hai, thời gian dƣới dạng tƣơng đối, có thể nhận thấy nó chứa hai thành phần: thành phần tiền tốthời gian. Thành phần tiền tố là tập các từ chỉ thời gian tƣơng đối (rạng sáng, nửa đêm, chiều,…) và thành phần thời gian đƣợc biểu diễn dƣới dạng DD/MM/YYYY. Luật trích chọn thời gian đƣợc minh hoạ trong công thức

Thời gian = <Tiền tố> + <Ngày tháng> (3.2) Trong đó, Tiền tố gồm các từ: vào, ngày, sáng, trƣa, chiều, tối, nửa đêm, trƣa nay, sáng nay, chiều nay, vào giờ tan tầm, hôm qua, hôm nay, tối qua, đêm qua, rạng sáng nay, tháng.

Ngày tháng, có định dạng DD/MM/YYYY hoặc DD/MM

Trong trƣờng hợp bản tin không đề cập đến ngày tháng, thì thời gian mặc định sẽ đƣợc lấy là thời gian đăng bản tin. (adsbygoogle = window.adsbygoogle || []).push({});

Một số ví vụ minh hoạ việc sử dụng biểu thức chính quy và luật để trích chọn thời gian của sự kiên.

Ví dụ 1: Ngày 23/5, ôtô khách chạy từ Nam ra Bắc đến khu vực trước chợ Thi Phổ thuộc địa phận xã Đức Thạnh, huyện Mộ Đức, bất ngờ lao sang bên trái đường, húc mạnh vào ôtô tải do tài xế Đỗ Đức Thọ điều khiển lưu thông ngược chiều. Do đang chạy tốc độ quá nhanh, xe khách tiếp tục lao thêm khoảng 100m, đâm vào ôtô tải khác của tài xế Nguyễn Đức Lên đang đậu bên đường. Cú va chạm mạnh khiến đầu của cả 3 ôtô vỡ nát, kính văng tung tóe trên đường. Tài xế, phụ xe và 3 hành khách trên ôtô khách bị thương nặng. Người dân xung quanh khu vực này phải đập kính xe cứu người bị nạn đưa đến bệnh

Một phần của tài liệu Trích chọn sự kiện trong văn bản tin tức tiếng Việt (Trang 31)