|
|
更新时间 2010-7-15 19:14:14 点击数:  |
|
|
|
(四)分词和词性标注
利用分词和词性标注工具进行机器自动分词和词性标注。
(五)校对和句法、修辞方式标注机器自动分词和词性标注后,由人工校对。
在校对第四步分词和词性标注结果的同时,人工标注惯用表达格式、句型、句式、句类、修辞方式等属性信息。
(六)校对
对上述标注信息再次校对。校对后,一个工作会议讲话稿熟语料库就建成了。
基于工作会议讲话稿语料库,重点考察分析工作会议讲话稿在词汇、句子、修辞等方面的特点。
(一)词汇的统计分析
利用词频统计工具,统计常用词语、固定词语(包括成语和惯用语)、缩略语、口语词语的频度和频率,得出工作会议讲话稿语料库的频度词表。然后由人工对词表进行校改,得到一个工作会议讲话稿词表。将其与日常用语词表进行比对,总结工作会议讲话稿词汇的特点,并提取出工作会议讲话稿专用词汇和常用词汇。
从中分别抽取动词、副词、连词、介词等,制作常用动词频度频率表、副词频度频率表、连词频度频率表、介词频度频率表等。另外,提取工作会议讲话稿惯用表达格式,如“下面,我就……工作讲几点意见”,并对其进行分析,制作工作会议讲话稿惯用表达格式表。
(二)句子的统计分析
一是统计句型如主谓句、非主谓句、联合复句、偏正复句等的频度和频率,制作工作会议讲话稿句型使用频率表。根据统计结果,从历史、政治、文化、功能、语言等方面解释某些句型使用频率高的原因。
二是统计句类如陈述句、祈使句、感叹句等的频度和频率。预计得出以下结论:祈使句和陈述句使用频率高,感叹句次之,基本上无疑问句。然后从历史、政治、文化、功能、语言等方面分析祈使句和陈述句使用频率高的原因。
三是统计句式如把字句、将字句、是字句等的频度和频率,从句法、语法、语义等方面分析各种特殊句式在工作会议讲话稿中的作用。
四是统计句长。
(三)修辞格的统计分析
统计工作会议讲话稿修辞格如排比、对偶、引用、比喻等的频度和频率,并分析它们的特点和功能。
(鲁东大学)
上一页 [1] [2]
返回栏目页:文秘论文论文