中名软件园:打造绿色软件,免费软件下载基地!

软件分类|下载排行|最近更新

软件
软件
文章
当前位置:首页网络工具网页制作 → Jcseg(Java中文分词器) V2.6.2官方版
Jcseg(Java中文分词器) V2.6.2官方版

Jcseg(Java中文分词器) V2.6.2官方版

Jcseg(Java中文分词器)评分:10
下载地址
  • 软件介绍
  • 软件截图
  • 猜你喜欢
  • 同类推荐
  • 相关文章

Jcseg是根据mmseg优化算法的一个轻量Java中文分词器,另外集成化了关键词获取,重要语句获取,重要语句获取和文章内容全自动引言等作用,而且出示了一个根据Jetty的web服务器,便捷各种語言立即http启用,另外出示了最新版的lucene,solr和elasticsearch的检索分词插口!



Jcseg(Java中文分词器)


【功能介绍】


  Jcseg关键作用:


  中文分词:mmseg优化算法 Jcseg 独创性的优化计算方法,七种分割方式。


  关键词获取:根据textRank优化算法。


  重要语句获取:根据textRank优化算法。


  重要语句获取:根据textRank优化算法。


  文章内容全自动引言:根据BM25 textRank优化算法。


  全自动词性标注:根据词库 (统计分析模棱两可除去方案),现阶段实际效果并不是很理想化,对词性标注結果规定较高的运用不建议应用。


  取名实体线标明:根据词库 (统计分析模棱两可除去方案),电子邮箱,网站地址,内地手机号,地名大全,人名,贷币,datetime時间,长短,总面积,距离单位等。


  Restful api:置入jetty出示了一个肯定性能卓越的server控制模块,包括所有作用的http插口,规范化json輸出文件格式,便捷各种各样語言手机客户端立即启用。


  Jcseg中文分词:


  七种分割方式:


  简易模式:FMM优化算法,合适速率规定场所。


  繁杂方式:MMSEG四种过虑优化算法,具备较高的模棱两可除去,分词准确度做到了98.41%。


  检验方式:只回到词库中现有的词条,很合适一些运用场所。


  数最多方式:粗粒度分割,专为查找为之,除开中文解决外(不具有中文的人名,数据识别等智能化作用)别的与繁杂方式一致(英语,组成词等)。


  分隔符方式:依照给出的标识符分割词条,默认设置是空格符,特定场合的运用。


  NLP方式:承继自繁杂方式,变更了数据,企业等词条的组成方法,提升电子邮箱,内地手机号,网站地址,人名,地名大全,贷币等及其无尽种自定实体线的识别与回到。


  n-gram方式:CJK和拉丁系标识符的通用性n-gram分割完成。


  分词作用特点:


  适用自定词库。在lexicon文件夹名称下,能够 随意加上/删掉/变更词库和词库內容,而且对词库开展了归类。


  适用词库多文件目录载入. 配备lexicon.path中应用';'分隔好几个词库文件目录.


  词库分成接下来/繁体字/简繁体混和词库: 能够 专业适用接下来分割, 繁体字分割, 简繁体混和分割, 而且能够 运用下边提及的近义词完成,简繁体的互相查找, Jcseg另外出示了词库2个简易的词库可视化工具来开展简繁体的变换和词库的合拼。


  中英近义词增加/近义词配对 中文词条拼音字母增加.词库融合了《现代汉语词典》和cc-cedict辞典中的词条,而且根据cc-cedict字典为词条标上了拼音,根据《中华同义词词典》为词条标到了近义词(并未进行)。变更jcseg.properties配备文本文档能够 在分词的情况下加入拼音和近义词到分词結果中。


  中文数据和中文成绩识别,比如:"一百五十个人都来啦,四十分之一的人。"中的"一百五十"和"四十分之一"。而且 Jcseg会全自动将其变换为阿拉伯数添加到分词結果中。如:150, 1/40。


  适用英中混和词和英中混和词的识别(维护保养词库能够 识别一切一种组成)。比如:B超, x放射线, 拉卡ok, 奇都KTV, 哆啦a梦。


  支持英文的类中文分割,一样应用mmseg优化算法来清除模棱两可,比如:“openarkcompiler”会被切分为:“open ark compiler”,该作用还可以被关掉。


  更强的拉丁适用,电子邮箱,网站域名,小数,成绩,百分比,英文字母和标点符号组成词(比如C , c#)的识别。


  自定分割保存标点符号. 比如: 保存amp;, 就可以识别kamp;r这类繁杂词条。


  复杂英文分割結果的二次分割: 能够 保存原组成,另外能够 防止繁杂分割产生的查找准确率降低的状况,比如QQ2013会被切分为: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分为: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。


  适用阿拉伯数/小数/中文数据基础一个字企业的识别,比如二0一二年,1.75米,38.6℃,五折,而且 Jcseg会将其变换为“半价”添加分词結果中。


  智能化圆弧半角, 英语大小写转换


  特殊字母识别:比如:Ⅰ,Ⅱ;特殊数字识别:比如:①,⑩。


  匹配标点符号內容获取:比如:最好是的Java书《java编程思想》,‘想象杯网站渗透比赛’,被《,‘,“,『标点符号标识的內容。(1.6.8版刚开始适用)。


  智能化中文人名/外文文献翻译人名识别。中文人名识别准确率达94%之上。(中文人名能够 维护保养lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提升准确度),(引进标准和词性后会做到98%之上的识别准确率)。


  全自动中英终止词过虑作用(必须在jcseg.properties中打开该选择项,lex-stopwords.lex为终止词词库)。


  词库升级全自动载入作用, 打开一个守护线程定时执行的检验词库的升级而且载入(留意必须有相匹配词库文件目录下的的lex-autoload.todo文档的载入管理权限)。


  全自动词性标注(现阶段根据词库)。


  全自动实体线的识别,默认设置适用:电子邮箱,网站地址,内地手机号,地名大全,人名,贷币等;词库中能够 自定各种各样实体线而且再分割中回到。


展开内容

软件截图

同类推荐

推荐文章

本类排行

  • 周排行
  • 月排行

关于中名 | 联系方式 | 发展历程 | 版权声明 | 下载帮助(?) | 广告联系 | 网站地图 | 友情链接

Copyright © 2023 WWW.FEELCN.NET 中名软件园 版权所有

声明: 本站非腾讯QQ官方网站 所有软件和文章来自互联网 如有异议 请与本站联系 本站为非赢利性网站 不接受任何赞助和广告