几款开源的中文分词系统
以下介绍4款开源中文分词系统。 1、ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese
以下介绍4款开源中文分词系统。 1、ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese
当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。 我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Bamboo, 我随后也会对该工具进行调研。 从 ICTCLAS 出发是个不错的选择, 因为其算法传播比较广