中文分词在所有搜索引擎中都是一个很大的难点,中文的句子应该是切分成一个个的词,但是一句中文,在不同的上下文,其实是不同的理解,例如: 这个苹果,不大好吃/这个苹果,不大,好吃。有一些比较不错的中文分词插件:IK、THULAC等。我们可以试试用IK进行中文分词。
我的 ElasticSearch 是使用 Docker 安装的,所以先给容器分配一个伪终端.之后就可以像登录服务器一样直接操作docker 中的内容了
ElasticSearch中文分词器及热更新词库。
关注时代Java