1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Building word sense taxonomy and automatic annotation for mandarin chinese 2

273 410 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 273
Dung lượng 4,3 MB

Nội dung

  ACKNOWLEDGEMENT First and the most, thank my supervisor, Dr Wang Hui, for her constant guidance, valuable advices, and unfailing support though my four years here, at National University of Singapore Not only is she an incrediblely responsible and patient advisor, but also an unforgettable friend who understands and cares about my life Thank Dr Zhang Min and Dr Chung Raung-Fu for serving on my committee board Dr Zhang is a Computer Scientist giving me advices in technique field Dr Chung provides many advices from the view of being a linguist I thank Lin Jinzhan, Liu Zengjiao, Qin Shaokang, Wang Yuelong, Xiao Hang, and Xu Tingting, for their critical and useful comments to my thesis And the time spent with them enriched my life in Singapore I thank NUS for supporting my dissertation research with the Research Scholarship This support made it possible for me to able to pursue doctoral degree in NUS I thank Faculty of Arts and Social Science at NUS, for the research support service they provide For general administration services, I thank Chinese Studies Department at NUS They are such a brilliant group, and I have learned so much from each one of them The most special thanks, of course, go to my family - my wife Ms Wu Yue, and my parents I could never have gone this far without their sweetest love and unconditional support   i     目录   ACKNOWLEDGEMENT    i   Abstract    1   第一章 绪论    3   1.1 义类和义类体系    3   1.2 课题的提出    4   1.3 本文的研究目标    6   1.3.1 义类体系    6   1.3.2 义类标注    8   1.4 语料来源    8   1.5 本文的章节安排    9   第二章 文献综述和理论框架    10   2.1 义类建设    10   2.1.1 基于词义特征的方法    10   2.1.2 基于组合特征的方法    13   2.1.3 基于语义场和领域特征的方法    15   2.1.4 建设义类方法的总结    17   2.2 语义标注    19   2.2.1 基于知识的词义消歧    20   2.2.2 基于语料库的有监督消歧    21   2.2.3 基于语料库的无监督消歧    22   2.2.4 词义消歧方法的总结    24   2.3 本文的理论框架和研究方法    27   2.3.1 前提理论    29   2.3.2 本文的研究方法    31   第三章 汉语词汇义类体系的定义(上) :名词部分    33   3.1 定义汉语词汇义类的特征    33   3.2 名词义类体系    37     ii     3.2.1 句法功能对于名词分类的作用    39   3.2.2 语义角色对于名词分类的作用    40   3.2.3 语义选择限制对于名词分类的作用    41   3.2.4 名词义类详解    42   3.3 小结    111   第四章 汉语词汇义类体系的定义(下) :动词、形容词部分    112   4.1 动词义类体系    112   4.1.1 句法功能对于动词分类的作用    113   4.1.2 论元结构对于动词分类的作用    113   4.1.3 语义选择限制对于动词分类的作用    114   4.1.4 动词义类详解    114   4.2 形容词义类体系    138   4.2.1 句法功能对形容词分类的作用    139   4.2.2 论元结构对形容词分类的作用    139   4.2.3 语义选择限制对形容词分类的作用    140   4.2.4 形容词义类详解    140   4.3 建立义类体系的难点    148   第五章 义类自动标注    152   5.1 基于词典的义类标注    152   5.1.1 拼音与义类的关系    153   5.1.2 义项与义类的关系    154   5.2 多义类消歧    155   5.2.1 高频义类标注    156   5.2.2 有监督的自动消歧实验    158   5.3 小结    171   第六章 基于语料库统计的义类研究    173   6.1 义类频率和分布    173   6.1.1 名词义类的分布及其频率    173   6.1.2 动词义类的分布及其频率    177   6.1.3 形容词义类的分布及其频率    179     iii     6.2 义类的内部特征    181   6.2.1 义类内外特征的互补关系    182   6.2.2 计算方法    183   6.2.3 个案研究一:名词义类“1.1 生物”子类的固定词根比例    185   6.2.4 个案研究二:动词义类“1 自主变化”子类的固定词根比例    188   6.3 小结    191   第七章 结论    192   附录    196   附录一:名词义类词表    197   附录二:动词义类词表    236   附录三:形容词义类词表    252   附录四:名词、动词、形容词义类分布表    259   参考文献    262                 iv       表格和图表目录 表格    13 个义类体系建设方法的统计    18   表格     各学习算法在 DSO 数据上的准确率    22   表格     各种词义消歧方法的比较    25   表格     定义和标注义类的三种分类特征    32   表格     义类定义框架中的语义角色    35   表格     多音多义类词条示例    153   表格     多音单义类词条示例    153   表格     可通过读音区分义类的词条示例    154   表格     可通过义项区分义类的词条示例    154   表格   10   高频义类标注正确率在 90%以上的词条    156   表格   11   高频义类标注正确率在 70%以上的词条    157   表格   12   高频义类标注正确率在 50%以上的词条    157   表格   13   语料库义类频率统计结果    157   表格   14   七个分类器的平均消歧正确率和消歧结果优异率    167   表格   15  560 条多义类词的消歧结果    167   表格   16   名词义类“1.1.5 生物部分”的子类分布    175   表格   17   名词义类“1.2 非生物”的子类分布    176   表格   18   动词义类“1 自主变化”子类的频次和成员词数量分布    178   表格   19   形容词义类“2.2 属性值”子类的频次和成员词数量分布    181   表格   20   名词义类“1.1 生物”各子类的固定词根比例    186   表格   21   名词义类“1.1.1 人”各子类的固定词根比例    186   表格   22   名词义类“1.1.2 动物”各子类的固定词根比例    187   表格   23   名词义类“1.1.3 植物”各子类的固定词根比例    187   表格   24   名词义类“1.1.4 群体”各子类的固定词根比例    187   表格   25   名词义类“1.1.5 生物部分”各子类的固定词根比例    188   表格   26   动词义类“1 自主变化”各子类的固定词根比例    188   表格   27   动词义类“1.1 过程”各子类的固定词根比例    189   表格   28   动词义类“1.2 状态”各子类的固定词根比例    189     v     表格   29   动词义类“1.2.1 境遇”各子类的固定词根比例    189   表格   30   动词义类“1.3 经历”各子类的固定词根比例    190     图表     语料库义类标注实验流程图    152   图表     义类自动消歧实验流程图    159   图表    WEKA 主界面    162   图表    WEKA 的选择分类器界面    162   图表    WEKA 提供的分类器参数设置界面    163   图表    WEKA 提供的测试方式    164   图表     名词义类的频次和成员词数量分布    174   图表     名词义类“1 具体名词”子类的频次和成员词数量分布    174   图表     名词义类“1.1 生物”的子类分布    175   图表   10   名词义类“2 抽象名词”子类的频次和成员词数量分布    176   图表   11   名词义类“2.1 属性”的子类分布    177   图表   12   动词子类的频次和成员词数量分布    178   图表   13   动词义类“3 行为活动”子类的频次和成员词数量分布    179   图表   14   形容词义类“2 一价形容词”子类的频次和成员词数量分布    180   图表   15   形容词义类“2.1 生物值”子类的频次和成员词数量分布    180     vi     Abstract In this dissertation, we study word sense class and word sense taxonomy We created word sense taxonomy for Chinese noun, verb and adjective, in terms of natural language processing Then conduct automatic word sense class annotation, generating Chinese word sense class corpus There are 97 word sense classes in noun taxonomy; 39 classes in verb taxonomy; 13 classes in adjective taxonomy We annotate 46650 words in corpus, among which are 25517 nouns, 15920 verbs and 5213 adjectives We have operatable definition for each class in the taxonomy, and make it suitable for corpus annotation, which are distinguishing characteristics of our word sense taxonomy We believe that the performance of word is decided by word meaning, and word sense is expressed in the form of the usage of the word We study the issue of word sense taxonomy in the frame of distributional theory, semantic selectional restrictions theory and syntagmatic theory Each class in the word sense taxonomy is defined with three types of features: syntactic performance, semantic role (for noun)/ argument structure (for verb), and semantic selectional restrictions Particually, features of syntactic performance and selectional restrictions are limited in quantity, which makes the definition operatable so that can be used as annotation instruction for human The result shows that the description of word sense class definition makes the taxonomy operateble in the process of sense class annotation The methodology applied for building the taxonomy is one of the contributions we made through this dissertation Scholars believe that the accuracy of word sense disambiguation system is hurt by the fine sense granularity of polysemous word, especially the senses with high similarity of external formation of usage Automatic classification experiments are performed for multi-class words 328 multi-class words get over 90% disambiguation precision, by simply using high-freqency class tagging techonology Then we employ machine-learning-based supervised classification techonology to disambiguate 560 multi-class words with more than 13 freqency in corpus The result of the experiments is quite encouraging, the accuracy is inspiring high: 84.1% words get the precision of       over 90%; 96% words get the precision of over 85% The disambiguation results show that the word sense taxonomy has enough distintion among sense classes, and verify that the word sense taxonomy is applicable in automatic annotation The capability of being used in automatic annotation distinguishes our word sense taxonomy from other word sense taxonomy built by now Additionally, we propose the complementary relationship of internal and external features of word sense class in classification process, in a corpus based quantitative research of word sense classes Chapter proposes the idea of this dissertation and our research objectives In chapter 2, we make literature review of creating lexical knowledge base and art-of-state word sense disambiguation technologies In chapter and Chapter 4, Chinese word sense taxonomy is presented, with class definition and sample words A critical discussion of the methods we applied in creating the taxonomy is made at the end of chapter In chapter 5, we perform the automatic annotation for corpus, and automatic classification experiments for multi-class words In chapter 6, there is a corpus based quantitative research of word sense classes Chapter is the conclusion of this dissertation Keywords: word sense taxonomy; corpus annotation; syntagmatic theory; word sense disambiguation; Chinese lexical semantics       现代汉语词义分类体系的建立和自动标注 第一章 绪论 1.1 义类和义类体系 本文研究的内容是汉语词义义类及义类体系。义类是在意义上有相似性的词 义的集合,被语言学分类特征明确定义,词义是义类的成员或实例;义类体系是 义类由分类特征的继承和扩充而形成的树形体系,它的基本单位是义类。在我们 看来,义类和义类体系与同义词词典,知识本体,词汇网络都有一定的相似性。 同义词词典是把相同词义的词的聚合起来形成的词典。同义词词典和义类体 系中都有若干集合,每一个集合表达了一个意义或概念,集合中有若干词语,这 些词是集合中的实例。从这个角度来说,义类和同义词是一样的,都是词义类聚 的集合;义类体系和同义词词典也是一样的,都是若干词义集合的集合体。 知识本体(ontology)是模式化描述知识的表示方式,它要求用形式化的特 征按照一定的方式(模型)去描述知识,这样用知识本体描述出来的知识库具备 共享性、可扩充性和可移植性特征(Gruber, T, 2009) 。共享性是说用知识本体描 述的知识可以被不同的用户使用。可扩充性是说知识本体可以描述知识库中不存 在的新知识,简单地扩充知识库。可移植性是说本体知识库是一种被规则定义的 数据库,所以可以方便的用于不同的计算系统。义类是被分类特征定义的词义集 合,在这点上义类体系的基本思想与本体知识库相同,描述义类的是支持词义分 类的语言学特征(Farrar, S, et al.,2002) ,这样做的目的是使得义类体系具备一定 的共享性和可扩充性。 词汇网络使用词语间的关系把词义连接起来。在义类体系中,词义之间没有 直接的联系,义类间的联系是通过分类特征的继承和扩充得以实现,所以义类体 系提供的关系基本上只有上下位关系,义类体系是以树的形式存在。       1.2 课题的提出 本文课题的提出主要来源于我们对计算语言学及基于语料库的语言学研究 的关注。当代语言学的研究大多是基于语料库的,尤其是应用语言学领域(如计 算语言和语言教学) ,不仅需要高质量的语料库,也需要其他的语言知识资源, 如机读词典,义类词典,语义网络等。 从计算语言学(自然语言处理)研究的两个方面来看:语言学和计算技术, 数据(语言知识)和算法(计算技术)是这个领域的两个基本研究问题。目前自 然处理技术的主流方法是统计和规则相结合的方法。所谓规则与统计相结合,指 的是运用统计模型从大规模语料库中学习到一些语言知识,然后把这些语言知识 作为规则参数实现一些应用,在应用的过程中对规则参数不断进行修正,从而使 得系统达到最佳。由于进入程序的语言知识都必须是规则化的、量化的信息,而 面向信息处理的语言理论在短时间不能获得,所以训练程序能够学习到多少、多 好的语言知识,完全依赖语料库提供了什么东西,所用到的语言学规则只是那些 概率几乎为 的公理化知识,这样的规则当然是很难得的,也就是说,语料库的 加工越精细,统计模型的效率越高。而现在被大规模运用的语料库大多只是提供 了浅层的句法信息,如词性,标注了短语的树库都很难得。可以看到,现在机器 可用的语言知识大多还是语法知识,解决的问题主要是句法剖析(parsing) 、模式 识别等不需要太多语义知识参与的问题。目前,计算语言学正面临知识瓶颈的问 题, 现有的语言知识已经无法满足进一步研究的需要了, 需要有语义知识的加入。 义类作为一种词义知识,可以被现有的技术利用,提高现有技术的效率并拓展研 究领域。 要使得义类成为计算机可用的语言知识, 首先得有一个合适的义类体系, 这是我们关注义类问题的第一个原因。 第二个原因是词义标注的问题。人们对语义标注的内容没能达成统一的认识, 即语义标注要标注什么。以词义标注为例,词义标注其实是对多义词进行标注的 问题。标注的目的是要对词义知识进行建模,所以首先要求用来标注的词典在多 义词的释义方面做到颗粒度一致,第二要求被标注的词义知识是可以被建模的, 即在语料库中可以抽取到足够的数据来作为词义分类的分类特征。词义标注首先       烦 胀 熨帖 凉 清爽 拘束 骄傲 轻快 光彩 沉重 清明 鼓舞 踏实 沉痛 洋气 乐意 高昂 遗憾 反感 难受 难过 安然 飘飘然 茫然 难为情 恶心 无聊 开心 刺眼 心慌 喜 恍惚 粗 直 精 正 正 黑 软 酸 风流 光明 正经 冷 凶 急   2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 6 5 5 4 4 3 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.2 心理值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 暴 开放 狭隘 含蓄 痛快 狭窄 深沉 优柔 神气 灵通 腐败 用功 仗义 努力 霸道 听话 负责 心虚 自觉 天真 矜持 乖 坏 硬 窝囊 厉害 积极 浑 疯 牛 唐突 烂漫 温和 恬淡 苦涩 开朗 香 香 生疏 宽广 讲理 蔫 碌碌 坎坷 巧 乏 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.3 品性值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 253     冲 稀松 浅薄 宽阔 香甜 险峻 精神 简单 低下 混沌 运气 背运 舒展 昏沉 落魄 要好 眼红 忙 啰唆 轩昂 闲 懒 反 辛苦 险恶 空闲 低下 下三烂 严整 走运 识趣 偏心 没出息 在行 有理 有福 要强 像话 受气 守本分 深 宽 粗 老 破 老   2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 11 8 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.1.4 状况值 2.2.1.1 可度量值 2.2.1.1 可度量值 2.2.1.1 可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 光 粉 肥 鼓 单 花 花 死 快 细 腻 粗 沉 细 松 紧 活 灰 粗 薄 响 横 整齐 粗重 立体 纵 直 早 圆 阴 腥 细 稀 秃 烫 碎 瘦 生 烂 淡 脆 粗 潮 笨 温润 清朗 8 7 6 6 5 5 4 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 2.2.1.2 不可度量值 254     整齐 朴素 勉强 经典 深 朴素 清淡 肯定 别扭 干巴 软 浅 抽象 软 晓畅 堂皇 谨严 高尚 邃密 轻盈 冷僻 干瘪 锋利 粗犷 基本 根本 深邃 平易 缠绵 曲折 支离 通畅 轻快 玄虚 散漫 平直 平白 精要 含蓄 冠冕 简捷 大概 严密 古典 深层 纯正   4 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2.2.1.2 不可度量值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 绝对 肯定 忠实 现实 严谨 行 对 中 光 好 通 尖 好 死 花 好 错 死 顺 紧 齐 轻 紧 坏 值 糟 圆 凶 透 酥 清 干 逗 差 清淡 不行 得力 准 袅袅 冥冥 考究 透 随便 软 怯 尖 2 2 10 10 9 8 7 7 6 5 5 4 4 4 4 4 4 3 3 3 3 3 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.2 内容值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 255     可人 可怜 含糊 干净 平和 宽绰 紧张 轻巧 净 头 头 正 细 老 热 左 正 新 熟 老 干 干 矛盾 小 土 铁 死 熟 深 浅 老 快 绝 活 厚 鬼 肥 多 毒 大 错 勉强 经济 一定 野 新   3 3 3 3 10 10 7 6 6 6 6 5 5 5 5 5 5 5 5 5 5 4 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.3 状态值 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 土 熟 生 满 灵 死 精 好 高 沉 洋 牢 活动 好 粗 轻 细 好 急 紧 正面 宽 狠 淡 急 盈盈 深 尖锐 火热 自由 狠 义务 稳 巧 盈盈 随便 辣 悠悠 形象 朴实 简单 肯定 立体 自动 密切 惨烈 4 4 4 4 4 4 10 6 6 5 4 4 4 4 3 3 3 3 3 3 3 3 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.2.4 其他 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 256     粲然 任意 统一 民主 自足 自然 慢 恍惚 荒唐 团团 漂亮 横 盈盈 随便 瑟瑟 偏 直 头 深 早 晚 旧 晚 临时 定期 久 近 短 原始 悠远 原 初始 空余 长远 长久 原先 永久 短暂 久长 永恒 永远 久远 深永 隽永 中生 史前   2 2 2 2 2 2 2 2 11 3 2 1 1 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.3 方式事件值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 先决 很久 好久 持久 悠久 悠长 漫长 暂时 长期 短期 历次 悠邈 间接 前不久 死 幽幽 相近 拥挤 寂寞 闭塞 远 近 相近 开豁 空茫 卑下 冷僻 深邃 宽松 雅静 喧闹 热闹 旷远 广大 茫茫 旷 溟濛 颟顸 迢迢 音近 黑寂 开旷 浩渺 浩淼 浩莽 浩茫 2 2 1 1 1 1 1 1 1 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.1 时间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 257     遥远 辽远 空寂 空凹 荒芜 荒僻 荒莽 荒凉 狭小 宽敞   2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 偏僻 嘈杂 幽雅 幽僻 幽寂 僻静 宁静 孤僻     2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值 2.4.2 空间值   258     附录四:名词、动词、形容词义类分布表   名词义类分布表   名词义类标记   1.1.1.1 身份   1.1.1.2 关系   1.1.1.3 超人   1.1.1.4 其他   1.1.2.1 兽   1.1.2.2 鸟   1.1.2.3 鱼   1.1.2.4 昆虫   1.1.2.5 微生物   1.1.3.1 草木   1.1.3.2 果实   1.1.4.1 机构   1.1.4.2 团体   1.1.4.3 其他   1.1.5.1 肢体   1.1.5.2 器官   1.1.5.3 其他   1.2.1.1.1 固体   1.2.1.1.2 液体   1.2.1.1.3 气体   1.2.1.2 能源   1.2.1.3 天文   1.2.1.4 地理   1.2.2.10 其他   1.2.2.1 食物   1.2.2.2 药物   1.2.2.3 衣物   1.2.2.4 材料   1.2.2.5 工具   1.2.2.6 标志物   1.2.2.7 作品   1.2.2.8 建筑物   1.2.2.9 钱财   1.2.3.1 生物废弃物   1.2.3.2 非生物废弃物   1.2.3.3 痕迹   1.2.3 废弃物   1.2.4 非生物部分   1.3 统称   2.1.10 其他属性   2.1.1 数量属性     词性   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   频次   13570   11905   688   11495   4906   2777   1091   1514   66   5735   1898   1722   3708   2758   6700   1604   5365   3319   3018   844   97   2718   10677   94   2225   188   1612   876   14012   944   6839   7072   1103   167   131   541     3422   1284   2359   1388   词形数量   1664   702   153   273   370   269   147   165   19   642   296   229   566   230   315   107   841   505   196   79   18   158   815   35   538   71   400   182   2793   186   892   1265   216   36   45   161     875   170   244   254   259     2.1.2 物理属性   2.1.3 生理属性   2.1.4 心理属性   2.1.5 社会属性   2.1.6 内容属性   2.1.7 事件属性   2.1.8 动作行为属性   2.1.9 时空属性   2.2.1.1 光影   2.2.1.2 声   2.2.1.3 其他自然现象   2.2.2 社会现象   2.2.3 生理现象   2.2.4 心理现象   2.3.1 具体符号   2.3.2 抽象符号   2.4.1 社会规范   2.4.2 学科领域   2.4.3 其他信息   2.5.1 事件   2.5.2 活动   2.6.1 数量值   2.6.2 物理属性值   2.6.3 生理属性值   2.6.4 心理属性值   2.6.5 社会属性值   2.6.6 内容值   2.6.7 动作行为属性值   2.6.8 其他属性值   2.7 统称   3.1 具体时间   3.2 相对时间   3.3 时间单位   4.1 处所   4.2 方位   总数     动词义类分布表   动词义类标记   1.1.1 存现   1.1.2 位移   1.1.3 变化   1.2.1.1 情绪   1.2.1.2 生理状态   1.2.1.3 其他境遇   1.2.2 自然现象     n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n   n     5008   2534   3402   3975   197   1501   2859   3189   1744   2103   4943   573   424   986   708   3537   623   2841   10689   1626   5150   379   2108   272   50   153   86   196   2286   784   821   3795   3065   6998   1198   223244   词性   v   v   v   v   v   v   v   223   219   273   512   38   130   298   165   171   180   586   110   155   192   111   360   113   230   1251   114   715   43   518   93   24   88   61   99   331   16   85   245   49   808   69   25801   频次   10770   13101   1931   1295   2198   2285   526   词性数量   153   294   149   259   257   601   75   260     1.2.3 一般状态   1.2.4 运动   1.3.1 经历   1.3.2 感知意向   1.3.3 所有   1.3.4 影响   1.3.5 产生   关系动词   3.1.1 人自动行为   3.1.2 社会行为   3.1.3 位移   3.1.4 一般自动行为   3.2.1 人对象行为   3.2.2 一般对象行为   3.3.1 予取   3.3.2 交际   3.3.3 生产   3.3.4 其他   3.4.1 认知   3.4.2 一般心理活动   能愿   总数     形容词义类分布表   形容词义类标记   1.1 关系值   2.1.1 生理值   2.1.2 心理值   2.1.3 品性值   2.1.4 状况值   2.2.1.1 可度量值   2.2.1.2 不可度量值   2.2.2 内容值   2.2.3 状态值   2.2.4 其他   2.3 方式事件值   2.4.1 时间值   2.4.2 空间值   总数       v   v   v   v   v   v   v   v   v   v   v   v   v   v   v   v   v   v   v   v   v     词性   a   a   a   a   a   a   a   a   a   a   a   a   a     7888   2034   3010   9000   4547   2705   2920   37910   6971   11283   5944   9283   15039   15110   6648   11195   2561   41808   3024   7390   5499   243875   频次   339   2730   4533   4261   443   200   22896   1579   5504   20201   5168   1177   1267   70298   1179   190   285   378   149   407   147   649   845   2695   279   453   1092   340   419   202   130   3918   101   235   38   15919   词形数量   20   220   347   488   112     1420   181   644   1232   420   43   83   5213     261     参考文献 Books: Lehrer, Adrienne, Semantic Fields and Lexical Structure, American Elsevier Publishing Co., 1974 Levin, Beth, English Verb Classes and Alternations: A Preliminary Investigation, University of Chicago Press, 1993 Christiane Fellbaum (ed.), WordNet: An Electronic Lexical Database, Massachusetts, USA: MIT Press, 1998 D.A Cruse, Lexical Semantics, New York: Cambridge University Press, 1986 Agirre, Eneko and Philip Edmonds ed., Word Sense Disambiguation: Algorithms and Applications, Springer, 2006 Zellig, Harris, Mathematical Structures of Language, New York: Interscience Publishers, 1968 Witten, Ian H., Eibe Frank and Mark A Hall, Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), Morgan Kaufmann, 2011 Lyons, John, Semantics, Cambridge University Press, 1973 Murphy, M Lynne, Semantic Relations and the Lexicon: Antonymy, Synonymy and other Paradigms, Cambridge University Press, 2003 Chomsky, Noam, Aspects of the theory of syntax, MIT Press, 1965 Patrick, Saint-Dizier and E.Viegas, Computational Lexical Semantics, Cambridge Press, 1998 Quinlan, Ross, C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers, San Mateo, CA, 1993 Abraham, Samuel and Ferenc Kiefer, A Theory of Structural Semantics, The Hague, Paris, Mouton & Co., 1966 Vossen P (ed), EuroWordNet: A Multilingual Database with Lexical Semantic Networks, Kluwer Academic Publishers, 1998 Dong, Zhendong and Qiang Dong, HowNet and the Computation of Meaning, Hackensack, NJ: World Scientific Publishing Co., 2006   262     Articles: Agirre, Eneko & David Martinez, “Learning Class-to-Class Selectional Preferences”, in Proceedings of the Conference on Natural Language Learning, Toulouse, France, 2001, pp.15-22 Bai, Xiaopeng & Wang Hui, “Syntactic-Semantic model for Defining and Subcategorizing for Attribute Noun Class”, in the Proceedings of 24th Pacific Asia Conference on Language, Information and Computation, Tohoku University, Sendai, Japan, 2010 Chklovski et al, “The Senseval-3 Multilingual English-Hindi Lexical Sample Task”, in Proceedings of the Senseval-3: Third International Workshop on the Evaluation of System for the Semantic Analysis of Text, Barcelona, Spain, 2004, pp.5-8 Chou, Ya-Min and Huang Chu-Ren, “Hantology: An Ontology based on Conventionalized Conceptualization”, in Ontologies and Lexical Resources for Natural Language Processing, Chu-Ren Huang et al eds., Cambridge: Cambridge University Press, 2008 Baker, Collin F., Charles J Fillmore & John B Lowe, “The Berkeley FrameNet Project”, in The Proceeding of 17th International conference on Computational Linguistics, Vol 1, 1998 Eleni Miltsakaki and Livio Robaldo et al, “Sense Annotation in the Penn Discourse Treebank”, in Lecture Notes in Computer Science, Vol 4919, Computational Linguistics and Intelligent Text, p275-286, 2008 John, George H and Pat Langley, “Estimating Continuous Distributions in Bayesian Classifiers”, in Eleventh Conference on Uncertainty in Artificial Intelligence, San Mateo, 1995, pp.338-345 Chao, Gerald and Michael G Dyer, “Word Sense Disambiguation of Adjectives Using Probabilistic Networks”, in Proceedings of the 17th International Conference on Computational Linguistics, Saarbrucken, 2000 Greame, Hirst and David St-Onge, “Lexical Chains as Representations of Context   263     in the Detection and Correction of Malaproprisms”, in WordNet: An Electronic Lexical Database, ed by Christiane Fellbaum, Massachusetts, USA: MIT Press, 1998, pp.305-332 Huang, Chu-Ren, Towards a Chinese Wordnet and a CE/EC Bi-Wordnet, in Chinese Language Sciences Workshop: Lexical Semantics, Department of Chinese, Translation and Linguistics, City University of Hong Kong, 2000 Platt, J., “Fast Training of Support Vector Machines using Sequential Minimal Optimization”, in Advances in Kernel Methods-Support Vector Learning, MIT Press, 1999, pp.185-208 Joachims T., “Making large-scale SVM Learning Practical”, in Advances in Kernel Methods, MIT-press, 1999, pp.169-184 Adam, Kilgarriff and Joseph Rosenzweig, “English Senseval: Report and Results”, in Proceedings of the International Conference on Language Resources and Evaluations (LREC), Athens, Greece, 2000, pp.1239-1244 Claudia, Leacock et al, “Using Corpus Statistics and WordNet Relations for Sense Identification”, in Computational Linguistics, Vol 24 (1), 1998, pp.147-165 Lee, Y.K., Ng H.T, “Supervised Word Sense Disambiguation with Support Vector Machines and Multiple Knowledge Sources”, in Proceedings of the SENSEVAL-3 workshop, Barcelona, Spain, 2004 Michael, Lesk, “Automatic Sense Disambiguation using Machine Readable Dictionaries: How to tell a pine cone from an ice cream cone”, in Proceedings of the ACM-SIGDOC Conference, Toronto, Canada, 1986, pp.24-26 Diana, McCarthy and John Carroll, “Disambiguation Nouns, Verbs and Adjectives Using Automatically Acquired Selectional Preferences”, in Computational Linguistics, Vol 29 (4), 2003, pp.639-654 Rada, Mihalcea, “Large Vocabulary Unsupervised Word Sense Disambiguation with Graph-Based Algorithm for Sequence Data Labeling”, in Proceedings of the Joint Human Language Technology and Empirical Methods in Natural Language Processing Conference, Vancouver, Canada, 2005, pp.411-418   264     Rada, Mihalcea and Dan Moldovan, “An Iterative Approach to Word Sense Disambiguation”, in Proceedings of the Annual Meeting of the Association for Computational Linguistics, Maryland, USA, 1999, pp.152-158 George, Miller and Walter Charles, “Contextual Correlates of Semantic Similarity”, in Language and Cognitive Processes, Vol (1), 1991, pp.1-28 George, Miller et al, “Using a Semantic Concordance for Sense Identification”, in Proceedings of the Fourth ARPA Human Language Technology Workshop, 1994, pp.303-308, Ide, Nancy and Jean Veronis, “Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art”, Computational Linguistics, MIT Press, 1998, pp.1~40 Ng, H.T and Hian B Lee, “Integrating Multiple Knowledge Sources to Disambiguation Word Senses: An Exemplar-Based Approach”, in Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics, Santa Cruz, USA, 1996, pp.40-47 Okumura Manabu and Takeo Honda, “Word Sense Disambiguation and Text Segmentation based on Lexical Cohesion”, in Proceedings of the International Conference on Computational Linguistics, Kyoto, Japan, 1994, pp.755-761 Redington M., “Chater N & Finch, Distributional information: a powerful cue for acquiring syntactic categories”, in Cognitive Science, 1998, Vol 22, pp.425-469 Philip, Resnik, “Selection and Information: A Class-Based Approach to Lexical Relationships”, PhD thesis, University of Pennsylvania, 1993 Saffran J.R et al., “Statistical Learning by 8-Month-Old Infants”, in Science, Vol 274, 1996, pp.1926-1928 Farrar, Scott et al., “A Common Ontology for Linguistic Concept”, in Proceedings of the Knowledge Technologies Conference, Seattle, WA, 2002 Mcdonald, Scott and Michael Ramscar, “Testing the distributional hypothesis: The influence of context on judgements of semantic similarity”, in   265     Proceedings of the 23rd Annual Conference of the Cognitive Science Society, Edinburgh, Scotland, 2001 Park, Seong-Bae et al., “Word Sense Disambiguation by Learning Decision Trees for Unlabeled Data”, in Applied Intelligence 19, 2003, pp.27-38 Mark, Stevenson and Yorick Wilks, “The Interaction of Knowledge Sources in Word Sense Disambiguation”, in Computational Linguistics, Vol 27 (3), 2001, pp.321-349 Gruber, Tom, “Ontology”, in Encyclopedia of Database Systems, Ling Liu and M.Tamer Özsu (Eds.), Springer-Verlag, 2009, pp.1963-1965 Wu, Yunfang et al., “A Chinese Corpus with Word Sense Annotation”, in Proceedings of ICCPOL, Singapore, 2006, pp.414-421 Freund, Yoav and Robert E Schapire, “Experiments with a new boosting algorithm”, in Thirteenth International Conference on Machine Learning, San Francisco, 1996, pp.148-156 专书: 董大年主编, 《现代汉语分类词典》 ,北京:汉语大词典出版社,1998。 符淮青, 《现代汉语词汇》 ,北京:北京大学出版社,1985。 符淮青, 《词义的分析和描写》 ,语文出版社,1996。 郭大方, 《现代汉语动词分类词典》 ,长春:吉林教育出版社,1994。 胡明扬 译,C.J Fillmore 著, 《格辩》 ,北京:商务印书馆,2002。 林杏光, 《词汇语义和计算语言学》 ,北京:语文出版社,1999。 林杏光、菲白编, 《简明汉语义类词典》 ,北京:商务印书馆,1987。 梅家驹, 《同义词词林》 ,上海:上海辞书出版社,1983。 王安节、周殿龙, 《形容词分类词典》 ,长春:吉林教育出版社,1993。 王惠, 《现代汉语名词词义组合分析》 ,北京:北京大学出版社,2004。 许嘉璐、 傅永和主编, 《中文信息处理现代汉语词汇研究》 广东教育出版社, , 2006。 张志毅、张庆云, 《词和词典》 ,中国广播电视出版社,1994。 张志毅、张庆云, 《词汇语义学》 ,北京:商务印书馆,2001。   266     论文: 柏晓鹏、林进展,,第 届汉语 词汇语义学研讨会,新加坡,2008,页 254-261。 陈群秀,, 《语言文字应 用》2001 年第 期,页 14-20。 陈小荷, , 《语言文字应用》 1998 年第 期, 页 71-76。 程月、陈小荷等,, 《中国计算技 术与语言问题研究——第七届中文信息处理国际会议论文集》 ,2007。 贾玉祥、俞士汶,, 《中文信息学报》2011 年 第 期,页 99-104。 苏新春、洪桂治、唐师瑶,, 《世界汉语 教学》第 24 卷第 期,2010,页 158-169。 田久乐、赵蔚,, 《吉林大学学报 (信息科学版) 》2010 年第 期,页 602-608。 王惠, , Computational Linguistics and in Chinese Language Processing, 2002, Vol (2), pp.77-88 王惠、詹卫东、俞士汶,,in The Journal of Chinese Language and Computing, 2003, Vol 13 (2), pp.159-176 肖航,,新加坡:新加坡国立大学硕士论文, 2008。 顏國偉、 譚慧敏, , 香港科技大學計算機科學系, 新加坡南洋理工大學中華語言文化中心,1999,页 5-9。   267   ... 其他属性 ――? ?2. 6.3 生理属性值 ―? ?2. 2 现象 ――? ?2. 6.4 心理属性值 ――? ?2. 2.1 自然现象 ――? ?2. 6.5 社会属性值 ―――? ?2. 2.1.1 光影 ――? ?2. 6.6 内容值 ―――? ?2. 2.1 .2 声音 ――? ?2. 6.7 动作行为属性值 ―――? ?2. 2.1.3 其他 ――? ?2. 6.8 其他属性值 ――? ?2. 2 .2 社会现象 ―? ?2. 7 统称 ――? ?2. 2.3... ――――1 .2. 1.4 地理 ――――1.1.1.4 其他 ―――1 .2. 2 人工物 ―――1.1 .2 动物 ――――1 .2. 2.1 食物 ――――1.1 .2. 1 兽 ――――1 .2. 2 .2 药物 ――――1.1 .2. 2 鸟 ――――1 .2. 2.3 衣物 ――――1.1 .2. 3 鱼 ――――1 .2. 2.4 材料 ――――1.1 .2. 4 昆虫 ――――1 .2. 2.5 工具 ――――1.1 .2. 5...   ――? ?2. 1.3 生理属性 ――? ?2. 4.3 其他 ――? ?2. 1.4 心理属性 ―? ?2. 5 运动 ――? ?2. 1.5 社会属性 ――? ?2. 5.1 事件 ――? ?2. 1.6 内容属性 ――? ?2. 5 .2 活动 ――? ?2. 1.7 事件属性 ―? ?2. 6 属性值 ――? ?2. 1.8 动作行为属性 ――? ?2. 6.1 数量值 ――? ?2. 1.9 时空属性 ――? ?2. 6 .2 物理属性值 ――? ?2. 1.10

Ngày đăng: 09/09/2015, 18:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w