您的位置:首页软件系统工具

《海量智能分词》研究版

资源分类:
软件/系统工具
发布者:
代序
发布时间:
2005-05-18 03:14
最新更新时间:
2005-05-18 03:14
浏览次数:
实用链接:
收藏此页
eMule资源

中文名称:海量智能分词
版本:研究版
简介
user posted image

[已通过安全检测]
[已通过安装测试]

软件版权归原作者及原软件公司所有,如果你喜欢,请购买正版软件


软件名称:海量智能分词研究版

软件版本:研究版

软件大小:6.8Mb

应用平台:win2000/XP/2003

软件介绍:
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
《海量智能分词研究版》主要用于学术研究和产品研发,所以与正式版本在速度上有一定差别,未经许可不得用于商业用途,如果需要,请与北京海量市场部霍刚联系。
电话:010-82601290-21 手机:13501275653
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

《海量智能分词研究版》仅供研究分析和学术交流,不能用于商业用途。

由于《海量智能分词研究版》仅供研究分析和学术交流,所以与正式版本在性能上有一定差别,如果需要正式版本用于商业用途,请与海量智能计算技术研究中心联系。

本次发布的海量分词研究版接口介绍:
一、 海量智能分词基础件:
何为分词? 中文分词与其他的分词又有什么不同呢? 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程. 我们知道, 在英文的行文中, 单词之间是以空格作为自然分界符的, 而中文只是字、句和段可以通过明显的分界符来简单划界, 唯独词没有一个形式上的分界符, 虽然英文也同样存在短语的划分问题, 但是在词这一层上, 中文比之英文要复杂的多、困难的多.
解决的问题: 在所有需要计算机对中文文字信息进行进一步分析处理的领域均能应用分词技术, 如: 信息检索、信息挖掘、自动分类、自动聚类、自动校对、机器翻译、语音识别与合成、人工智能等领域.

二、 分词颗粒度控制接口
我们认为各种应用对分词要求的颗粒度是不同的. 比如自动分类、关键词抽取比搜索需要的分词颗粒度要大, 因为这样表示文本语义特征时效果会更好, 而检索有一个查全率的要求, 就需要把分词单位做的更为细致, 不然就会造成漏查.
海量系统现在提供了两种颗粒的规则, 其中, 默认的为大颗粒接口, 主要用于自动分类、信息挖潜、机器翻译、语音合成、人工智能等领域, 用于提升信息分析的有效性和准确性; 另外一种应用为小颗粒度分词也叫检索优化分词接口, 用于信息检索领域, 用于提升查全率.
例如:
对"中华人民共和国"进行分词:
大颗粒度分词(默认方式)结果为: 中华人民共和国
小颗粒度分词(检索优化)结果为: 中华 人民 共和 国

三、 海量分词自定义词典接口
自定义词典就是允许用户自行定义在特殊领域中, 可以根据自己的需求定义新词, 利用该分词组件包的接口与分词系统进行挂接;
可以应用于化工、医药等特殊行业的准确分词需求.
例如:
对"氯化聚氯乙烯"进行分词:
未加载自定义词典时分词结果为: 氯化 聚氯乙烯
加载自定义词典时分词结果为: 氯化聚氯乙烯

四、 获取关键词接口
通过对分词结果与文章的內容进行分析计算, 从文章中选取指定个数的最相关的词, 即为该篇文章的关键词. 关键词分析技术是所有进一步智能分析技术的基础, 他可以应用在自动文摘、自动分类、自动聚类、信息挖掘等领域.

五、 获取语义指纹接口
在基于內容的消重应用中, 基于字符串比对方式进行消重的应用一方面因为功能简单, 无法实现真正的內容消重, 另外一方面是文本比对的效率非常低, 无法在实际中进行应用. 因此我们提出了根据对文章內容的分析, 然后基于生成一个128bit(16字节)的数字指纹, 再对数字指纹进行比对的消重方式, 不但实现了真正意义上的內容消重, 而且大幅提升了消重的效率.

六、 获取分词词性、属性接口
在词性的标注上, 我们参考了国家的相应规范以及其他研究单位的研究成果, 例如: 中科院计算所的汉语词性标记集等, 在此基础上我们制定了自己的汉语词性标记集, 该标记集包含了近30个标记符, 既包括了常用的名、动、形等词性, 也有一些特殊的属性标记(详细说明请参考"中文智能分词基础件研究版接口手册.doc"), 如: 产品词的标注. 对于多词性的处理我们采用了马尔科夫统计模型, 依据语境及语法识别其正确的词性. 另外, 我们依据其应用特别对人名兼类、公司名兼类的情况进行了处理, 例如: 宁静(与人名兼类)、联想(与公司名兼类)等. 这些对于分类、检索等应用贡献很大.

附官方网站:http://www.hylanda.com/home.htm

引用此页 (Trackback) (?)

引用后通告地址 (Trackback URL):http://service.verycd.com/trackback/lib/0000050904/

eMule 资源频道
首页
电影
音乐
游戏
软件
>操作系统
>应用软件
>网络软件
>系统工具
>联络聊天
>多媒体类
>图形图像
>行业软件
>编程开发
>安全相关
动漫
剧集
资料
综艺
杂志
论坛
eMule 客户端下载

eMule VeryCD 版  eMule 是下载迅速、资源丰富的新一代 P2P 软件,完全遵从 GPL 协议开发,开放源码,永久免费。利用他的卓越特性,我们不但可以与全世界的网友共同分享资源,更可以通过 VeryCD,下载和发布最新的资源,充分享受自由共享的乐趣!

  最新版本:
eMule 客户端下载

推荐下载

《Visual Studio 2005 Express Edition 中/英文正式版》软件资源区推荐软件--置顶1个月[ISO]

《WPS Office 2005》个人版

《恋爱时代》(Alone in Love)(更新至01集+新闻报道/YYcaF制作HDTV版)

水木年华 -《生命狂想曲》[MP3!]

周华健 -《雨人》[APE]

《茉莉花》TxTPS小组_作品(01-21/21)[RMVB]

Bernstein -《伯恩斯坦原版封套专辑》(Bernstein - The original Jacket Collection)[APE]

任贤齐 -《情义新歌+精选光耀全记录》预售限量版[APE]

原声大碟 -《跳跃大搜查线》(RHYTHM AND POLICE)系列辑[MP3!]

《不良家族》(bad family)更新03集+非完整OST/韩剧热线出品[RMVB]

《影音工作室RMVB电影作品2006年4月集合》(RMVB)dvb-RMVB(中文字幕)4月6日更新[RMVB]

《古墓丽影7传奇》(Tomb Raider Legend)DVDCLONE版[更新ISO破解版]

《新抢钱夫妻》(Fun with Dick and Jane)1CD/2CD AC3[DVDRip]

《城市猎人》(CITY HUNTER)001-006话+OPED等更新中[数码重制收藏版字幕暂无][DVDRip]

《MMS记忆管理系统补充》

《探索发现正版合集》《世界遗产之中国档案》4月6日更新10-12集/30集(VCD)

BERLINER PHILHARMONIKER -《柏林爱乐音乐总监的经典录音》(In Recordings With Their Music Directors)[更新完毕][MP3!]

《名侦探柯南TV版》(Detective Conan)[Aptx4869事务所][DVD版][001][更新中](更新OVA2)[DVDRip]

《与青春有关的日子》TxTPS作品(01-28/33集)推荐级别★★★★[RMVB]

Neal Schon -《Neal Schon个人音乐全集 》更新两张专辑[MP3!]
Get Firefox!