lucene怎么保留自己不想再拆分的词?

2024-11-15 09:27:11
推荐回答(1个)
回答1:

可以选择建立自定义词库。
以中文分词器mmseg4j-1.8为例,字符串“山东省”会被解析为“山东”、“省”,如果希望不再拆分,可以打开mmseg4j-1.8/data文件夹,找到words-my.dic文件,使用记事本打开,在里面添加“山东省”,然后保存退出。这时“山东省”就不会再被拆分了……

参考资料:

http://blog.csdn.net/yiwangxianshi/article/details/9787839