/简体中文/
/其他语言/
/其他语言/
/其他语言/
/其他语言/
/简体中文/
/其他语言/
/其他语言/
/简体中文/
/其他语言/
软件Tags: Jcseg(Java中文分词器)
Jcseg是根据mmseg优化算法的一个轻量Java中文分词器,另外集成化了关键词获取,重要语句获取,重要语句获取和文章内容全自动引言等作用,而且出示了一个根据Jetty的web服务器,便捷各种語言立即http启用,另外出示了最新版的lucene,solr和elasticsearch的检索分词插口!
【功能介绍】
Jcseg关键作用:
中文分词:mmseg优化算法 Jcseg 独创性的优化计算方法,七种分割方式。
关键词获取:根据textRank优化算法。
重要语句获取:根据textRank优化算法。
重要语句获取:根据textRank优化算法。
文章内容全自动引言:根据BM25 textRank优化算法。
全自动词性标注:根据词库 (统计分析模棱两可除去方案),现阶段实际效果并不是很理想化,对词性标注結果规定较高的运用不建议应用。
取名实体线标明:根据词库 (统计分析模棱两可除去方案),电子邮箱,网站地址,内地手机号,地名大全,人名,贷币,datetime時间,长短,总面积,距离单位等。
Restful api:置入jetty出示了一个肯定性能卓越的server控制模块,包括所有作用的http插口,规范化json輸出文件格式,便捷各种各样語言手机客户端立即启用。
Jcseg中文分词:
七种分割方式:
简易模式:FMM优化算法,合适速率规定场所。
繁杂方式:MMSEG四种过虑优化算法,具备较高的模棱两可除去,分词准确度做到了98.41%。
检验方式:只回到词库中现有的词条,很合适一些运用场所。
数最多方式:粗粒度分割,专为查找为之,除开中文解决外(不具有中文的人名,数据识别等智能化作用)别的与繁杂方式一致(英语,组成词等)。
分隔符方式:依照给出的标识符分割词条,默认设置是空格符,特定场合的运用。
NLP方式:承继自繁杂方式,变更了数据,企业等词条的组成方法,提升电子邮箱,内地手机号,网站地址,人名,地名大全,贷币等及其无尽种自定实体线的识别与回到。
n-gram方式:CJK和拉丁系标识符的通用性n-gram分割完成。
分词作用特点:
适用自定词库。在lexicon文件夹名称下,能够 随意加上/删掉/变更词库和词库內容,而且对词库开展了归类。
适用词库多文件目录载入. 配备lexicon.path中应用';'分隔好几个词库文件目录.
词库分成接下来/繁体字/简繁体混和词库: 能够 专业适用接下来分割, 繁体字分割, 简繁体混和分割, 而且能够 运用下边提及的近义词完成,简繁体的互相查找, Jcseg另外出示了词库2个简易的词库可视化工具来开展简繁体的变换和词库的合拼。
中英近义词增加/近义词配对 中文词条拼音字母增加.词库融合了《现代汉语词典》和cc-cedict辞典中的词条,而且根据cc-cedict字典为词条标上了拼音,根据《中华同义词词典》为词条标到了近义词(并未进行)。变更jcseg.properties配备文本文档能够 在分词的情况下加入拼音和近义词到分词結果中。
中文数据和中文成绩识别,比如:"一百五十个人都来啦,四十分之一的人。"中的"一百五十"和"四十分之一"。而且 Jcseg会全自动将其变换为阿拉伯数添加到分词結果中。如:150, 1/40。
适用英中混和词和英中混和词的识别(维护保养词库能够 识别一切一种组成)。比如:B超, x放射线, 拉卡ok, 奇都KTV, 哆啦a梦。
支持英文的类中文分割,一样应用mmseg优化算法来清除模棱两可,比如:“openarkcompiler”会被切分为:“open ark compiler”,该作用还可以被关掉。
更强的拉丁适用,电子邮箱,网站域名,小数,成绩,百分比,英文字母和标点符号组成词(比如C , c#)的识别。
自定分割保存标点符号. 比如: 保存amp;, 就可以识别kamp;r这类繁杂词条。
复杂英文分割結果的二次分割: 能够 保存原组成,另外能够 防止繁杂分割产生的查找准确率降低的状况,比如QQ2013会被切分为: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分为: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
适用阿拉伯数/小数/中文数据基础一个字企业的识别,比如二0一二年,1.75米,38.6℃,五折,而且 Jcseg会将其变换为“半价”添加分词結果中。
智能化圆弧半角, 英语大小写转换。
特殊字母识别:比如:Ⅰ,Ⅱ;特殊数字识别:比如:①,⑩。
匹配标点符号內容获取:比如:最好是的Java书《java编程思想》,‘想象杯网站渗透比赛’,被《,‘,“,『标点符号标识的內容。(1.6.8版刚开始适用)。
智能化中文人名/外文文献翻译人名识别。中文人名识别准确率达94%之上。(中文人名能够 维护保养lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提升准确度),(引进标准和词性后会做到98%之上的识别准确率)。
全自动中英终止词过虑作用(必须在jcseg.properties中打开该选择项,lex-stopwords.lex为终止词词库)。
词库升级全自动载入作用, 打开一个守护线程定时执行的检验词库的升级而且载入(留意必须有相匹配词库文件目录下的的lex-autoload.todo文档的载入管理权限)。
全自动词性标注(现阶段根据词库)。
全自动实体线的识别,默认设置适用:电子邮箱,网站地址,内地手机号,地名大全,人名,贷币等;词库中能够 自定各种各样实体线而且再分割中回到。