MỤC LỤC
Đối với tiếng Việt đó cú một số cỏc sản phẩm liờn quan đến tiếng Việt như: Bộ gừ chữ tiếng Việt, chương trình nhận dạng chữ tiếng Việt như VnDOCR của viện Công Nghệ Thông Tin, các phần mềm như EVTRAN, gần đây tiêu biểu là kết quả của việc Việt hóa Windows và Office. Có rất nhiều phương pháp, trong luận văn này giới thiệu mô hình Conditional Random Field là cơ sở lý thuyết để thực hiện công việc và công cụ CRF++ để thực hành trích chọn thông tin trong tiếng Việt và cụ thể là bài toán trích chọn thông tin nhà đất.
Không giống như việc hiểu toàn văn bản (tất cả các câu chữ đều liên quan đến nhau), các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số nội dung thông tin đáng quan tâm. Có thể kể tới các mức độ trích chọn thông tin từ văn bản sau: Trích chọn các thực thể (Entity Extraction), trích chọn quan hệ giữa các thực thể (Relation Extraction), xác định đồng tham chiếu (Co-reference Resolution).
For years, Microsoft CorporationCEOBill Gatesrailed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a. Today, Microsoftclaims to "love" the open- source concept, by which software code is made public to encourage improvement and development by outside programmers.
Cũng như các bài toán trích chọn khác như: trích chọn thực thể, nhận dạng tên, trích chọn thông tin nhà đất cũng có các hướng tiếp cận khác nhau, trong luận văn này tập trung vào bài toán trích chọn thông tin nhà đất theo phương pháp học máy bằng cách sử dụng mô hình CRF. Như chúng ta đã biết thì mỗi một bản tin đăng trên những website khác nhau thì có những định dạng rất khác nhau: Có thể là định dạng văn bản thông thường, cũng có thể là dạng bảng biểu, hoặc các đường liên kết… Với những cách thể hiện văn bản như vậy thì việc tìm ra những thông tin như diện tích của ngôi nhà, địa chỉ… Là một việc tương đối khó khăn.
Mô hình MEMM [4] thay thế các xác suất chuyển trạng thái và các xác suất sinh quan sát trong HMM bởi một hàm xác suất duy nhất P(Si | Si-1, Oi) (xác suất dịch chuyển từ trạng thái hiện tại là Si-1 tới trạng thái trước đó là Si với dữ liệu quan sát hiện tại là Oi) thay vì sử dụng P(Si | Si-1) và P(Oi | Si). MEMM coi dữ liệu quan sát là các điều kiện cho trước thay vì coi chúng là các thành phần được sinh bởi mô hình như trong HMM vì thế xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát. Ở đây λa là các tham số cần được huấn luyện; Z(Ot, St) là thừa số chuẩn hóa để tổng xác suất chuyển từ trạng St-1 sang St kề với nó đều bằng 1; fa(Ot, St) là hàm thuộc tính tại vị trí thứ i trong chuỗi dữ liệu quan sát và trong chuỗi trạng thái.
Để giải quyết vấn đề alias Léon Bottou (1991) [4] đưa ra một số cách sau: Thứ nhất như mô hình ở trên ta có thể gộp trạng thái 1 và 4 và trì hoãn việc phân nhánh cho đến khi gặp một quan sát xác định ( Discriminating Observation ). Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mô hình MEMM. Ở đây x,y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; tk(yi-1,yi,x,i): là thuộc tính của toàn bộ chuỗi quan sát và các trạng thái tại vị trí i-1, i trong chuỗi trạng thái; sk(yi,x,i): là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại vị trí i trong chuỗi trạng thái; λj, μk: là các tham số được thiết lập từ dữ liệu huấn luyện.
Mỗi một hàm mô tả sẽ nhận một giá trị của một trong số các giá trị thực b(x,i) là trạng thái hiện tại( nếu trong trường hợp hàm trạng thái ) hoặc là trạng thái trước và trạng thái hiện tại (trong trường hợp là hàm dịch chuyển) nhận giá trị riêng.
Chương này giới thiệu những vấn đề cơ bản về CRF : định nghĩa CRF, việc gán nhãn cho dữ liệu dạng chuỗi, hàm tiềm năng cho các mô hình CRF, chứng tỏ được rằng CRF giải quyết được vấn đề label alias. Qua đó thấy được rằng CRF có khả năng xử lý dữ liệu tốt hơn rất nhiều so với các mô hình khác như HMM hay MEMM.
Hay nói cách khác mục đích của thuật toán là làm sao tìm ra chuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát. Để tìm được y*, thỏa mãn (3.1) thì gặp phải một khó khăn trong thời gian tính toán, vì thời gian tính toán là hàm mũ. Định nghĩa ∂i(y) là xác suất của chuỗi trạng thái độ dài i kết thúc bởi trạng thái y và có xác suất lớn nhất biết chuỗi quan sát là x.
Khi đó y* sẽ là một dàng buộc, Những ràng buộc trong công thức (3.4) sẽ được chuyển qua ràng buộc bởi các chuỗi nhãn con C được định nghĩa như sau C=<yt,yt+1..>. Trong ngữ cảnh của chúng ta thì ràng buộc C tương ứng với các chuỗi dữ liệu quan sát được chính xác bởi người sử dụng.
Kỹ thuật được sử dụng để đánh giá tham số cho một mô hình CRF [11] là làm cực đại hóa độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm. Việc thiết lập phương trình trên bằng 0 tương đương với việc đưa ra một ràng buộc cho mô hình: giá trị trung bình của tk theo phân phối pˆ(x)p(y|x,θ) bằng giá trị trung bình của tk theo phân phối thực nghiệm. CRF++ được thiết kế cho cùng một mục đích phổ dụng có thể ứng dụng trong những bài toán xử lý ngôn ngữ tự nhiên như nhận dạng thực thể tên, trích chọn thông.
Mỗi từ tố phải viết trên một dòng, Ngoài từ tố ra còn có các cột chứa các thông tin khác dùng để mô tả từ tố chẳng hạn như là từ loại của từ tố và cột cuối cùng chứa nhãn của từ tố. Với loại này tạo ra (L *L *N) (N là số lượng các đặc trưng riêng biệt được tạo ra) đặc trưng khác nhau do vậy có thể không hiệu quả trong huấn luyện và kiểm tra.
Trong khi test không cần tạo ra template_file bởi vì model file có thông tin giống như file template. -v level 0 Tùy chọn này đưa ra một số thông tin chi tiết từ CRF++bằng cách tăng cấp độ của level N best.
Do không có sẵn các công cụ xử lý cho tiếng Việt, như công cụ gán nhãn từ loại nên trong bài toán trích chọn thông tin nhà đất file huấn luyện và file kiểm tra chỉ sử dụng duy nhất chính từ tố đó, do vậy trong file huấn luyện và file kiểm tra chỉ có hai thông là từ và nhãn do vậy 2 file này chỉ có hai cột, cột thứ nhất chứa từ là chính từ đó và cột thứ hai là nhãn của loại từ. Với các thông tin trích chọn này ta có thể mô tả như sau: Đối với thông tin về số di động sẽ bao gồm một chuỗi toàn những số từ 0 đến 9 ví dụ 01678558976, đối với địa chỉ, vị trí của nhà hoặc đất cần bán hoặc cần mua thì là một danh từ chỉ địa điểm và thường viết hoa ký tự đầu tiên ví dụ như Mỹ Đình- Hà Nội. Từ những mô tả trên trong lần thử nghiệm thứ hai này, tôi sẽ thêm những tính năng mới mô tả cho những thông tin cần rút trích trên, giúp cho quá trình tự học của mô hình rút trích được tốt nhất.
Hàm thứ ba DigitandComma() hàm này xây dựng để mô tả đặc trưng của thông tin liên quan đến giá bán, ở đây giá bán thường được biểu diễn bằng một số trong đó có thể chứa các dấu phân cách ví dụ: 2,3 hoặc 1.55. Hàm này được xây dựng như ba hàm trên nó sẽ mô tả cho những dữ liệu khác ví dụ như ngoài những thông tin liên quan đến bài toán rút trích như địa chỉ, diện tích, số điện thoại, giá bán thì các dữ liệu khác sẽ được mô tả trong hàm này. Đây là vấn đề nhỏ nhưng lại góp phần to lớn trong việc xây dựng những bài toán lớn hơn.Ở đây tập chung vào ứng dụng trích chọn thông tin với các ứng dụng phổ biến trong tương lai gần như: trích chọn thông tin web, trích chọn các sự kiện, và ứng dụng cho việc hỏi và trả lời (Question-answering)- hệ hỏi đáp.
Sau đó các xử lý phức tạp hơn ra đời như hình ảnh, âm thanh, văn bản, ký hiệu hình thức, đồ thị, … Có thể kể đến một số bài toán tiêu biểu trong xử lý ngôn ngữ như: Nhận dạng tiếng nói, tổng hợp tiếng nói, nhận dạng chữ viết, dich tự động, tóm tắt văn bản, tìm kiếm thông tin và trích chọn thông tin.