MÔI TRƢỜNG VÀ CÁC CÔNG CỤ SỬ DỤNG THỰC NGHIỆM

Một phần của tài liệu Trích chọn sự kiện trong văn bản tin tức tiếng Việt (Trang 46)

Cấu hình phần cứng và các công cụ phần mềm sử dụng để sử dụng trong thực nghiệm của luận văn đƣợc trình bày trong bảng 4.1, bảng 4.2.

Bảng 4.1 Cấu hình phần cứng Stt Thành phần Chỉ số

1 CPU 2.6GHz Intel Core i5

2 RAM 8GB

3 Hệ điều hành Win7

4 Bộ nhớ ngoài 256GB

Bảng 4.2. Công cụ phần mềm sử dụng

STT Tên phần mềm Chức năng Nguồn

1 Teleport Pro Tải dữ liệu từ các

website http://teleport-pro.en.softonic.com/ 2 Eclipse Stan- dard/Kepler

Release

Tạo môi trƣờng để viết

chƣơng trình http://eclipse.org/eclipse 3 JsoupParser Bộ công phân tích mã

html http://jsoup.org/apidocs/org 4 JvnTextPro v.2.1 Cam-Tu Nguyen http://jvntextpro.sourceforge.net

5 vn.hus.nlp.tokenizer-4.1.1 Mã nguồn mở

https://code.google.com/p/vntaggergate- plugin/source/browse/lib/vn.hus.nlp.token izer-4.1.1.jar?r=85418c90bafeec89da 9203f9a7f10338d2cff40c

37 4.2. XÂY DỰNG TẬP DỮ LIỆU

4.2.1. Thu thập dữ liệu

Dữ liệu đƣợc thu thập trên trang http://vovgiaothong.vn/giao-thong- trong-nuoc/ (kênh VOV Giao thông Quốc gia – Đài Tiếng nói Việt Nam) và trang http://antoangiaothong.gov.vn/tai-nan-giao-thong/ (của Uỷ ban An toàn giao thông Quốc gia). Tác giả chọn trang này vì các trang này luôn cập nhật nhanh và khá đầy đủ các vụ tai nạn trên cả nƣớc.

Việc thu thập dữ liệu sẽ đƣợc thực hiện bằng phần mềm Teleport Pro, phần mềm này sẽ lấy về 500 bản tin từ các website trên, nhƣ vậy sau khi thu thập dữ liệu ta có 3000 bản tin.

4.2.2. Tiền xử lý dữ liệu

Dữ liệu đƣợc lƣu dƣới dạng JSON, tác giả tiến hành đƣa dữ liệu về dạng HTML, sau đó tách thẻ HTML để thu văn bản dạng thô (text). Sau quá trình sử lý, tác giả thu đƣợc 3000 bản tin. Các thành phần trong một bản tin đƣợc minh hoạ trong bảng 4.3.

Bảng 4.3. Các thành phần của một bản tin

Stt Tên thành phần Mô tả

1 Tiêu đề Tiêu đề của bản tin 2 Tóm tắt Phần tóm tắt của bản tin 3 Ngày đăng tin Ngày mà bản tin đƣợc đăng 4 Nội dung Nội dung bản tin

4.3. ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN 4.3.1. Đánh giá bộ lọc dữ liệu 4.3.1. Đánh giá bộ lọc dữ liệu

Mô tả thực nghiệm: mục đích của thực nghiệm này đánh giá khả năng của bộ lọc dữ liệu.

38

- Đầu vào: một tập các bản tin đƣợc thu thập từ trang

http://vovgiaothong.vn/giao-thong-trong-nuoc/ và trang

http://antoangiaothong.gov.vn/tai-nan-giao-thong/

- Đầu ra: các bài báo liên quan tới miền dữ liệu tai nạn giao thông

Dữ liệu thực nghiệm: là 3.000 bản tin

Sau quá trình lọc dữ liệu thu đƣợc tổng sô 919 bản tin thuộc miền tai nạn giao thông, trong đó số bản tin không liên quan đến tai nạn giao thông rất ít, và có thể tính tỷ lệ lỗi theo công thức 4.1. Chi tiết đƣợc trình này trong bảng 4.4.

Bảng 4.4. Tỷ lệ lỗi của quá trình lọc dữ liệu

Tổng số bản tin số bản tin không liên quan Tỷ lệ lỗi

919 19 3.9%

Công thức tính tỷ lệ lỗi của quá trình lọc dữ liệu:

Trong đó:

Tổng số: là tổng số bản tin thu đƣợc sau quá trình lọc

Số bài không liên quan: là số bản tin không thuộc miền tai nạn giao thông. Kết quả của quá trình này, đƣợc trình bày trong bảng 4.4, thu đƣợc kết quả độ chính xác khá cao.

4.3.2. Đánh giá quá trình phân lớp

Mô tả thực nghiệm: mục đích của phần này là đánh giá quá trình phân lớp của thực nghiệm.

Pháp biểu thực nghiệm

Đầu vào: một tập các bản tin đã đƣợc lọc

39

Dữ liệu thực nghiệm: dữ liệu của mỗi lần đánh giá là 100 bản tin đƣợc lấy ngẫu nhiên từ các bản tin đƣợc lọc bởi bộ dữ liệu. Kết quả của các quá trình đánh giá đƣợc trình bày trong bảng 4.5.

Bảng 4.5. Đánh giá kết quả phân lớp

Stt Số bản tin chính xác Số bản tin không chính xác Số bản tin

không tìm thấy Precision Recall độ đo F-1

1 85 12 3 88% 97% 92% 2 81 16 3 84% 96% 90% 3 83 15 2 85% 98% 91% 4 85 11 4 89% 96% 92% 5 80 17 3 82% 96% 89% Trung binh 82.8 14.2 3 85% 97% 91%

Kết quả thực nghiệm trong bảng 4.5, cho thấy quá trình phân lớp cho thấy độ chính xác (P-Precision) đạt 85%, độ đo hồi tƣởng (R-Recall) đạt 97%, độ đo F-1 đạt 91%.

4.4. ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN 4.4.1. Thực nghiệm không qua bộ phân lớp 4.4.1. Thực nghiệm không qua bộ phân lớp

Mô tả thực nghiệm: mục đích của phần này là đánh giá khả năng trích chọn.

Phát biểu thực nghiệm

Đầu vào: một bản tin trong miền tai nạn giao thông

Đầu ra: thông tin về sự kiện vụ tai nạn gồm: thời gian xảy ra vụ tai nạn, địa điểm xảy ra vụ tai nạn, số thƣơng vong (số tử vong, số bị thƣơng), và phƣơng tiện gây tai nạn.

40 Dữ liệu thực nghiệm: dữ liệu là 200 bản tin lấy ngâu nghiên từ các bản tin trong niềm tai nạn tai nạn giao thông chƣa qua bộ phân lớp.

Một sự kiện E đƣợc định nghĩa là một bộ gồm thời gian, địa điểm, số thƣơng vong, và phƣơng tiện gây tai nạn đƣợc trình bày trong công thức 3.1. Nhƣ vậy một sự kiện đúng nên chứa cả bốn thành phần trên. Nếu một sự kiện không bao gồm phƣơng tiện gây tai nạn và thời gian gây tai nạn thì đƣợc xem là một sự kiện sai.

Để đánh giá khả năng trích chọn của sự kiện, tác giả sử dụng ba độ đo: độ chính xác (P - Precision), độ hồi tƣởng (R - Recall), và độ đo F1 (F-score). Các độ đo này đƣợc biểu diễn trong công thức (4.2), (4.3), (4.4)

Trong đó:

- Số sự kiện đúng: số sự kiện đƣợc mô hình trích chọn chính xác. - Số sự kiện sai: là số sự kiện mà mô hình trích chọn sai.

Trong đó:

- Số sự kiện đúng: số sự kiện đƣợc mô hình trích chọn chính xác.

- Số sự kiện không được trích chọn: là số sự kiện mà mô hình không trích chọn ra. 2 x P x R (4.4) F1 = (P + R) (4.2) Số sự kiện đúng Độ chính xác (P) =

Số sự kiện đúng + Số sự kiện sai

(4.3)

Số sự kiện đúng Độ hồi tưởng (R) =

41

Dựa vào công thức (4.2), (4.3), (4.4), tác giả đƣa ra bảng đánh giá mô hình trích chọn, chi tiết đƣợc trình bày trong bảng4.6.

Bảng 4.6. Đánh giá quá trình trích chọn - dữ liệu không qua bộ phân lớp

Tên website Số sự kiện đúng Số sự kiện sai Số sự kiện không tìm thấy P R F1 antoangiaothong.gov.vn 160 34 6 82% 96% 89% vovgiaothong.vn 154 37 9 81% 94% 87% Trung bình 314 71 15 82% 95% 88%

4.4.2. Thực nghiệm qua bộ phân lớp

Dữ liệu thực nghiệm: dữ liệu là 100 bản tin đƣợc lấy từ các bản tin chứa sự kiện vụ tai nạn (gán nhãn EVENT). Kết quả của quá trình trích chọn sự kiện, tác giả cũng sử dùng công thức (4.2), (4.3), (4.4) để đánh giá thực nghiệm. Kết quả đƣợc mô tả chi tiết trong bảng 4.7.

Bảng 4.7. Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp.

Tên website Số sự kiện đúng Số sự kiện sai Số sự kiện không tìm thấy P R F1 antoangiaothong.gov.vn 91 5 4 95% 96% 95% vovgiaothong.vn 93 4 2 96% 98% 97% Trung bình 184 9 6 95% 97% 96% 4.4.3. Nhận xét

Từ thực nghiệm đƣợc chi tiết trong bảng 4.6 (dữ liệu không qua bộ phân lớp) và bảng 4.7 (dữ liệu đƣợc xử lý qua bộ phân lớp). Kết quả cho thấy dữ liệu đƣợc xử lý qua bộ phân lớp cho kết quả cao hơn. Điều đó chứng tỏ tầm quan trọng của bộ phân lớp trong mô hình.

4.5 PHÂN TÍCH LỖI

4.5.1. Phân tích lỗi quá trình phát hiện sự kiện

Quá khảo sát và thống kê dữ liệu sau thực nghiệm, phát hiện lỗi khi tiêu đề có từ nhắc đến phương tiện giao thông nhƣng bản tin đó lại không thuộc miền

42

tai nạn giao thông: Ví dụ, ở hình 4.1 tiêu đề bản tin “khổ vì mua xe trả góp”, có chứa phƣơng tiện giao thông là “xe” nhƣng thực chất bản tin này thuộc miền dữ liệu thƣơng mai không phải miền tai nạn giao thông. Tuy thế, bộ lọc vẫn phát hiện dữ liệu đó thuộc miền dữ liệu tai nạn giao thông.

Hình 4.1. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông

4.5.2. Phân tích lỗi quá trình trích chọn sự kiện

Trong pha trích chọn thông tin thì khả năng trích chọn thông tin còn thấp, tác giả đã tìm hiểu nguyên nhân và thấy rằng thƣờng xảy ra ở các lỗi nhƣ: trích chọn địa điểm, đôi khi trong các bản tin chỉ nhắc đến tên đƣờng không nhắc đến tên địa phƣơng (xã/huyện/ tỉnh) trƣờng hợp này không thể xác định đƣợc địa điểm chính xác hoặc cho giá trị Null. Trong số ít các trƣờng hợp các thông tin đƣợc viết tắt là không trích chọn đƣợc.Trích chọn thông tin phƣơng tiện gây tai nạn trong một số trƣờng hợp trích chọn ra thông tin sai nhƣ: “xe máy bị đâm, nạn nhân chết tại chỗ”, thông tin đƣợc trích ra “xe máy” là phƣơng tiện gây tai nạn kết quả này là sai. Hay trong trƣờng hợp về trích chọn số nạn nhận nhƣ

“Nạn nhân đã được người dân đưa đi cấp cứu”, thì không trích chọn đƣợc ra số nạn nhân vì không có tiền tố về số lƣợng. Chi tiết hơn về các lỗi đƣợc trình bày trong bảng 4.8.

43

Bảng 4.8 Một số lỗi - trong quá trình trích chọn

Stt Thông tin đúng Thông tin trích chọn

1 Phƣờng 4, Quận 1, Phƣơng 9, TP Hồ Chí Minh Quận 5, Phƣờng 7, Quận Bình Thạch

2 Tỉnh Pray Veng Null

3 Huyện Xuân trƣờng, Nam Định Nam Định

4 Quốc lộ 1A Null

5 xe máy bị đâm Xe máy

6 Nạn nhân đã đƣợc ngƣời dân Null

4.6. MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN

Kết quả của quá trình trích chọn đƣợc sử dụng để thống kê nhƣ thống kê số vụ tai nạn theo Tuần, theo Thứ trên Tuần, theo Tỉnh, và thống kê số vụ tai nạn theo Phương tiện tham gia giao thông.

1./ Thống kê số vụ tai nạn theo tuần trong hai tháng (tháng 4 và tháng 5 năm 2014). Dữ liệu đƣợc tập trung vào tháng 4 và tháng 5 năm 2014, thống kê cho thấy các ngày nghỉ lễ 30/4 và 1/5 số vụ tai nạn tăng lên đáng kình ngạc, cả nƣớc đã xảy ra 191 vụ tai nạn và làm thiệt nạng 109 ngƣời. Chi tiết đƣợc mô tả trong biểu đồ 4.1.

44

2./ Thống kê số vụ tai nạn theo Thứ trên Tuần, kết quả cho thấy vào những này cuối tuần số vụ tai nạn tăng lên đáng kể. Chi tiết về số vụ tai nạn trong từng Thứ trên Tuần đƣợc thể hiện trong biểu đồ 4.2.

Biểu đồ 4.2. Thống kê số vụ tai nạn theo Thứ trên Tuần

3./ Thống kê số vụ tai nạn theo các tỉnh (thống kê trên 4 tỉnh điển hình) trên cả nƣớc. Kết quả cho thấy Thành phố Hồ Chí Minh có mức độ tai nạn cao nhất. Chi tiết xem biểu đồ 4.3.

45

4./ Thống kê các phƣơng tiện có tần suất gây tai nạn cao khi tham gia giao thông (thống kê 5 phƣơng tiện có mức độ tai nạn cao hơn). Chi tiết của từng loại phƣơng tiện đƣợc hiển thị trong biểu đồ 4.4

Biểu đồ 4.4. Thống kê số vụ tai nạn theo loại phƣơng tiện giao thông

Qua thống kê các vụ tai nạn giao thông tác giả rút ra nhận xét sau:

Đối với ngƣời dân khi tham gia giao thông vào những ngày nghỉ lễ, ngày cuối tuần, trong các thành phố lớn, và tham gia giao thông trên các phƣơng tiện nhƣ xe máy, xe buýt, xe khách, xe công – te- nơ và đặc biệt là xe tải phải hết sức cẩn thận đặc biệt là ngƣời điều khiển phƣơng tiện giao thông, để tránh những tai nạn đáng tiếc cho bản thân và cho ngƣời đi đƣờng.

Đối với các nhà quản lý cũng nên có các biệm pháp hiệu quả để ngăn ngừa tai nạn giao thông đặc biệt vào những ngày nghỉ lễ dài.

4.7. TỔNG KẾT

Trong chƣơng này, tác giả đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của mô hình trích chọn thông tin trong văn bản du lịch đƣợc xây dựng trong chƣơng ba. Kết quả thực nghiệm cho thấy tính khả thi của mô hình giải quyết bài toán trích chọn sự kiện vụ tai nạn.

46

KẾT LUẬN

1/. Kết quả đạt đƣợc của luận văn

Trong luận văn này, tác giả đã tìm hiểu các phƣơng pháp trích chọn sự kiện, phƣơng pháp kết hợp luật và học máy đƣợc sử dụng cho bài toán phát hiện sự kiện và bài toán trích chọn sự kiện. Trên cơ sở đó, xây dựng mô hình và phƣơng pháp giải quyết chi tiết cho bài toán phát hiện sự kiện vụ tan nạn và bài toán trích chọn sự kiện vụ tai nạn. Kết quả thực nghiệm của quá trình trích chọn sự kiện trên miền dữ liệu vụ tai nạn với độ đo P đạt 95%, độ đo R đạt 97 %, và độ đo F1 đạt 96%, điều đó chứng tỏ tính khả thi của mô hình.

2./ Hạn chế

- Kết quả của bộ phân lớp chƣa cao do nhập nhằng giữa bản tin có chứa sự kiện vụ tai nạn và bản tin chứa thông tin tai nạn giao thông khác.

- Xây dựng tập luật bằng tay, do đó khó có thể bao phủ toàn bộ dữ liệu. Điều này dẫn đến tập luật có thể bỏ sót những dữ liệu liên quan tới miền dữ liệu.

- Trích chọn địa điểm dựa trên từ điển trong một số trƣờng hợp còn bị nhập nhằng khi dữ liệu cung cấp không đủ thông tin về địa điểm.

- Trong một số trƣờng hợp viết tắt, khi trích chọn thông tin còn chƣa chính xác.

3/. Định hƣớng tƣơng lai

Định hƣớng nghiên cứu tiếp theo của luận văn là tiếp tục hoàn thiện và phát triển mô hình trích chọn sự kiện trong văn bản tin tức tiếng Việt. Phát triển trích chọn thêm các thuộc tính quan trọng nhƣ: giờ/ngày (giờ nào trong ngày xảy ra vụ tai nạn), độ tuổi của ngƣời điều kiển phƣơng tiện gây tai nạn, ngành nghề của ngƣời điều khiển phƣơng tiện gây tai nạn, địa hình gây tai nạn, … Kết quả của quá trình trích chọn đƣợc thống kê nhƣ: tai nạn hay xảy ra vào giờ/ngày (giờ nào trong ngày hay xảy ra tai nạn vào ban đêm, giờ đến công sở, giờ tan tầm…), thứ/tuần (tai nạn thƣờng xảy ra vào thứ nào trên tuần, nhƣ ngày đi làm hay ngày

47

cuối tuần,… ), mùa/năm (vào mùa lễ hội, mùa thi Đại học, mùa mƣa, hay vào các kỳ nghỉ mát mùa hè,…), địa hình gây tai nạn (đƣờng dốc, đƣờng vòng cua, hay đƣờng có nhiều ngã rẽ..), ngành nghề của ngƣời điều khiển phƣơng tiện giao thông… Từ những thống kê đó có thể tìm ra nguyên nhân xảy ra các vụ tai nạn, so sánh quy mô mức độ nghiêm trọng của các vụ tai nạn trong từng khoảng thời gian với nhau, từ đó đƣa ra bản đánh giá trung về sự phát triển của các vụ tai nạn theo chiều hƣớng nào. Mặt khác, kết quả của quá trình thống kê sẽ đƣợc trực quan hoá trên bản đồ Việt Nam các điểm hay xảy ra tai nạn bằng các cảnh báo, biển báo, và các ghi chú.

48 TÀI LIỆU THAM KHẢO

Tài liệu tiếng Anh

[1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India,

[2] Douglas E. Appelt. Introduction to information extraction technology. In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999.

[3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim. Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns. In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004). Lecture Notes in Computer Science. Springer- Verlag Berlin Heidelberg, vol. 3248:777 786, 2004.

[4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong. An overview of event extraction from text. Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp. 48 57, 2011.10

[5] M.A Hearst. Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on Computational Linguistics (COLING 1992), vol. 2:539 545, 1992.

[6] M.A Hearst. Wordnet: An electronic lexical database and some of its applications. In Automated Discovery of WordNet Relations, pp. 131 151. MIT Press, 1998.

[7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar. Semi-automatic

Một phần của tài liệu Trích chọn sự kiện trong văn bản tin tức tiếng Việt (Trang 46)

Tải bản đầy đủ (PDF)

(61 trang)