在Doris中我们如果使用倒排索引的话,那么对应部分字段我们会涉及到分词,本文的话,我们来介绍下分词的使用测试案例。
1)测试中文细粒度分词
SELECT TOKENIZE('中华人民共和国','"parser"="chinese","parser_mode"="fine_grained"');
2)测试中文粗粒度分词
SELECT TOKENIZE('中华人民共和国','"parser"="chinese","parser_mode"="coarse_grained"');
3)测试英文分词
SELECT TOKENIZE('I love CHINA','"parser"="english"');
4)测试中英文混合分词
SELECT TOKENIZE('I love CHINA 中华人民共和国','"parser"="unicode"');
从上面的分词测试结果可以看出,混合分词和英文分词的效果都差不多,如果是中文的话,还是建议使用中文分词。
还没有评论,来说两句吧...