Giới thiệu về trích rút thông tin sử dụng biểu thức chính quy

Một phần của tài liệu 28012_171220200190175LUANVAN (Trang 45 - 47)

6. Bố cục của luận văn

2.2.2.Giới thiệu về trích rút thông tin sử dụng biểu thức chính quy

a. Định nghĩa biểu thức chính quy (Regular Expression)

Biểu thức chính quy (Regular Expression, viết tắt là regexp, regex, hay regxp) là một chuỗi miêu tả một bộ các chuỗi khác, theo những quy tắc cú

pháp nhất định. Biểu thức chính quy thƣờng đƣợc dùng trong các trình biên tập văn bản và các tiện ích tìm kiếm và xử lý văn bản dựa trên các mẫu đƣợc quy định.

Thuật ngữ Regular Expression xuất phát từ lý thuyết toán học và khoa học máy tính, nó phản ánh một đặc điểm của các biểu thức toán học đƣợc gọi là chính quy (Regularity). Một biểu thức có thể đƣợc thực hiện trong một phần mềm bằng cách sử dụng một bộ xác định giới hạn tự động (Deterministic Finite Automation - DFA). DFA là một trạng thái xác định và không sử dụng cơ chế quay lui (Backtracking).

Regular Expression là một công cụ mạnh mẽ trong việc thao tác và trích xuất văn bản trên máy tính. Do đó nắm vững biểu thức chính quy giúp chúng ta tiết kiệm nhiều thời gian và công sức trong việc lập trình. Một biểu thức chính quy có thể đƣợc sử dụng để mô hình mã hóa HTML.

b. Sử dụng biểu thức chính quy để trích rút thông tin từ web

Với một biểu thức chính quy, một otomat hữu hạn trạng thái có thể đƣợc xây dựng và đƣợc sử dụng để so khớp sự xuất hiện của nó trong chuỗi tuần tự các trang web. Trong quá trình này, dữ liệu có thể đƣợc trích rút.

Ví dụ: Với mã HTML nhƣ sau: <head>

<meta http-equyv="Content-Language" content="en-us">

<meta http-equyv="Content-Type" content="text/html; charset=windows- 1252">

<title>Tinh Tong cua cac so tu 1->n</title> </head>

Để lấy đƣợc phần tiêu đề của đoạn mã này thì ta có thể xây dựng biểu thức chính quy nhƣ sau: <head>.*?<title>(#text)</title>

Trong các phƣơng pháp trích rút thông tin cho dữ liệu bán cấu trúc, kỹ thuật chuyển đổi nội dung trang web về cây DOM sau đó dựa vào cấu trúc cây DOM để trích rút dữ liệu đƣợc đánh giá là phƣơng pháp hiệu quả nhất.

Một phần của tài liệu 28012_171220200190175LUANVAN (Trang 45 - 47)