推荐最新

从大量评论中提取高频长词汇的分词工具？

目前有100w条各种评论信息，如何从这堆信息中提取出高频词汇目前使用百度、阿里等NLP分词效果不太理想，大部分分出来都是2个单词，市面上有没有那种长词汇分词的工具，或者如何实现4个或者5个词分词效果

浏览量266

NER的BIO标签源码改写为BME代码

求指教：这里是github上中文NER源码(BIO标签)，想要改成BME标签（可以不用S），这段代码该怎么改呐？输出PER对应的字符 def get_PER_entity(tag_seq, char_seq): length = len(char_seq) PER = [] #构成一个zip对象,形状类似[( 1, ),( 1, ),( 2, ),( 2, )] #zip函数可以接受一系列的可迭代对象作为参数，将对象中对应的元素打包成一个个tuple(元组)， #在zip函数的括号里面加上*号，则是zip函数的逆操作 for i, (char, tag) in enumerate(zip(char_seq, tag_seq)): #tag里包含了O,B-PER,I-PER,B-LOCI-PER,B-ORG,I-PER if tag == 'B-PER': if 'per' in locals().keys(): PER.append('per') del per per = char if i+1 == length: PER.append(per) if tag == 'I-PER': per += char if i+1 == length: PER.append(per) if tag not in ['I-PER', 'B-PER']: if 'per' in locals().keys(): PER.append(per) del per continue return PER

浏览量210