0
  1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Báo cáo khoa học >

Báo cáo khoa học: "Feature-based Method for Document Alignment in Comparable News Corpora" ppt

Báo cáo khoa học:

Báo cáo khoa học: "Feature-based Method for Document Alignment in Comparable News Corpora" ppt

... http://www.straitstimes.com/ an English news agency in Singapore. Source © Singapore Press Holdings Ltd. 3 http://www.zaobao.com/ a Chinese news agency in Singa-pore. Source © Singapore Press Holdings Ltd. 4 http://cyberita.asia1.com.sg/ ... LinguisticsFeature-based Method for Document Alignment in Comparable News Corpora Thuy Vu, Ai Ti Aw, Min Zhang Department of Human Language Technology, Institute for Infocomm Research 1 Fusionopolis ... Malay news agency in Sin-gapore. Source © Singapore Press Holdings Ltd. Related Common Word: we also investigate the similarity in frequency distribution for related common single words in the...
  • 9
  • 352
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Method for Correcting Errors in Speech Recognition Using the Statistical Features of Character Co-occurrence" pptx

... the string including errors from the String- Database (the former string is referred to as the Similar-String, and the latter as the Error-String). Finally, the correction is made using the ... K (2 in the experiment) characters before and after an error-block in the Error-String, am found in the Similar- String, take out the string (denoted C) between A and B in 1 For detecting errors ... (B) No lacking in meaning, but with slightly awkward expression. (C) Slightly lacking in meaning. (D) Considerably lacking in meaning. (E) Unable to understand, and unable to imagine the actual...
  • 5
  • 588
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Distributional Representations for Handling Sparsity in Supervised Sequence-Labeling" pptx

... gasolines on newer engines.” In a common dataset for NP chunking, the word “re-formulated” never appears in the training data, butappears four times in the test set as part of theNP “reformulated ... the increased performance by the HMM-smoothed model on the rare-word subset con-tributes in part to an increase in performance onthe overall dataset of 1% for tagging and 3% for chunking. In ... Domain Adaptation For our experiment on domain adaptation, we fo-cus on NP chunking and POS tagging, and weuse the labeled training data from the CoNLL2000 shared task as before. For NP chunking,...
  • 9
  • 353
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Pivot Approach for Extracting Paraphrase Patterns from Bilingual Corpora" ppt

... phrasal paraphrases from bilingual corpora.Our method involves three steps: (1) corpus prepro-cessing, including English monolingual dependency780parsing and English-foreign language word align-ment, ... patterns extracted using their method. How-ever, the performance of their method is dependenton the hand-crafted queries for web mining.Shinyama et al. (2002) presented a method thatextracted ... but not in P STE(e) (denoted asSTE(e)/P STE(e)) are also useful for inducing pat-terns, since they can constrain the pattern slots. In the example in Figure 2, the word “demand” indi-cates...
  • 9
  • 264
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Method for Measuring Machine Translation Confidence" docx

... threenovel feature sets including source side information, alignment context, and dependency structures. Experi-mental results show that by combining the source sideinformation, alignment context, ... derived froma window of four words.Combining alignment context with POS tags: In- stead of using lexical context we have features to lookat source and target POS alignment context. For in- stance, ... consistently obtainedwhen combining the proposed features with baselinefeatures. Experimental results also indicate that source-side information, alignment context and dependency215Predicting Good/Bad...
  • 9
  • 543
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A Method for Relating Multiple Newspaper Articles by Using Graphs, and Its Application to Webcasting" pptx

... new information in each article. The thread- ing technique is suitable for Webcasting (push) ap- plications. A threading server determines relation- ships among articles from various news ... have links, or else must be manually linked at a high cost in terms of time and effort. This paper describes methods for relating news- paper articles automatically, and its application for ... is adjacent to Y). An article contains both known and unknown (new) information. Known information consists of words shared by the beginning and ending points of an arc. When node X is adjacent...
  • 7
  • 419
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A Method for Word Sense Disambiguation of Unrestricted Text" potx

... adverbs and adjectives in a text, using the senses pro- vided in WordNet. The senses are ranked us- ing two sources of information: (1) the Inter- net for gathering statistics for word-word co- ... words in the similarity lists of the noun report are: (investigate-report, investigate-study) (investigate-report, investigate -news report, investigate- story, investigate-account, investigate-write ... Search the Internet and rank the senses W~ (s). A search performed on the Internet for each set of pairs as defined above, results in a value indicating the frequency of occurrences for Wl and...
  • 7
  • 378
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "a Method for Automatic Evaluation of Machine Translation" pot

... the baseline metric in detail. In Section 3, we evaluate the performance ofBLEU. In Section 4, we describe a human evaluationexperiment. In Section 5, we compare our baselinemetric performance ... ample signal in any single n-gramprecision, it is more robust to combine all these sig-nals into a single number metric.2.1.3 Combining the modified n-gramprecisionsHow should we combine the modified ... (poor) machine translation systemusing 4 reference translations for each of 127 sourcesentences. The average precision results are shown in Figure 1.Figure 1: Distinguishing Human from Machine...
  • 8
  • 336
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A Method for Effective and Scalable Mining of Named Entity Transliterations from Large Comparable Corpora" doc

... scala-ble mining method, called MINT (MIning Named-entity Transliteration equivalents), for mining of NETEs from large comparable corpo-ra. MINT addresses several challenges in mining NETEs ... the world. The MINT method pro-posed in this paper addresses all the above is-sues. 8003 The MINT Mining Method MINT has two stages. In the first stage, for every document in the source ... results in the IDEAL environment – both for MINT and the Co-Ranking baseline: MINT outperformed Co-Ranking on all the language pairs, despite not using time series similarity in the mining process....
  • 9
  • 358
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A PROGRAM FOR ALIGNING SENTENCES IN BILINGUAL CORPORA" docx

... constructing a probabilistic dictionary (Table 3) for use in aligning words in machine translation (Brown et al., 1990), or for constructing a bilingual concordance (Table 4) for use in lexicography ... Crossing dependencies are possible in the latter, but not in the former. Table 1: Input to Alignment Program English According to our survey, 1988 sales of mineral water and soft drinks ... French According to our survey, 1988 sales of mineral water and soft drinks were much higher than in 1987, reflecting the growing popularity of these products. Cola drink manufacturers in particular...
  • 8
  • 494
  • 0

Xem thêm

Từ khóa: Báo cáo thực tập tại nhà thuốc tại Thành phố Hồ Chí Minh năm 2018Nghiên cứu sự biến đổi một số cytokin ở bệnh nhân xơ cứng bì hệ thốngBáo cáo quy trình mua hàng CT CP Công Nghệ NPVNghiên cứu tổ chức pha chế, đánh giá chất lượng thuốc tiêm truyền trong điều kiện dã ngoạiNghiên cứu vật liệu biến hóa (metamaterials) hấp thụ sóng điện tử ở vùng tần số THzđề thi thử THPTQG 2019 toán THPT chuyên thái bình lần 2 có lời giảiGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitNGHIÊN CỨU CÔNG NGHỆ KẾT NỐI VÔ TUYẾN CỰ LY XA, CÔNG SUẤT THẤP LPWAN SLIDEQuản lý hoạt động học tập của học sinh theo hướng phát triển kỹ năng học tập hợp tác tại các trường phổ thông dân tộc bán trú huyện ba chẽ, tỉnh quảng ninhPhối hợp giữa phòng văn hóa và thông tin với phòng giáo dục và đào tạo trong việc tuyên truyền, giáo dục, vận động xây dựng nông thôn mới huyện thanh thủy, tỉnh phú thọPhát triển mạng lưới kinh doanh nước sạch tại công ty TNHH một thành viên kinh doanh nước sạch quảng ninhTrả hồ sơ điều tra bổ sung đối với các tội xâm phạm sở hữu có tính chất chiếm đoạt theo pháp luật Tố tụng hình sự Việt Nam từ thực tiễn thành phố Hồ Chí Minh (Luận văn thạc sĩ)Phát hiện xâm nhập dựa trên thuật toán k meansSở hữu ruộng đất và kinh tế nông nghiệp châu ôn (lạng sơn) nửa đầu thế kỷ XIXGiáo án Sinh học 11 bài 15: Tiêu hóa ở động vậtchuong 1 tong quan quan tri rui roGiáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtGiáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtGiáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtMÔN TRUYỀN THÔNG MARKETING TÍCH HỢP