推荐 最新
万码BPKPWE8Y

从大量评论中提取高频长词汇的分词工具?

目前有100w条各种评论信息,如何从这堆信息中提取出高频词汇 目前使用百度、阿里等NLP分词效果不太理想,大部分分出来都是2个单词,市面上有没有那种长词汇分词的工具,或者如何实现4个或者5个词分词效果

1
1
0
浏览量182
万码BPKPWE8Y

NER的BIO标签源码改写为BME代码

求指教: 这里是github上中文NER源码(BIO标签),想要改成BME标签(可以不用S),这段代码该怎么改呐? 输出PER对应的字符 def get_PER_entity(tag_seq, char_seq): length = len(char_seq) PER = [] #构成一个zip对象,形状类似[( 1, ),( 1, ),( 2, ),( 2, )] #zip函数可以接受一系列的可迭代对象作为参数,将对象中对应的元素打包成一个个tuple(元组), #在zip函数的括号里面加上*号,则是zip函数的逆操作 for i, (char, tag) in enumerate(zip(char_seq, tag_seq)): #tag里包含了O,B-PER,I-PER,B-LOCI-PER,B-ORG,I-PER if tag == 'B-PER': if 'per' in locals().keys(): PER.append('per') del per per = char if i+1 == length: PER.append(per) if tag == 'I-PER': per += char if i+1 == length: PER.append(per) if tag not in ['I-PER', 'B-PER']: if 'per' in locals().keys(): PER.append(per) del per continue return PER

0
0
0
浏览量129