def text_segmentation(text):
使用spaCy进行分词和命名实体识别
doc = nlp(text)
segments = []
for sent in doc.sents:
简单的分栏逻辑:根据句子长度
if len(sent.text) 50:
segments.append(sent.text)
return segments
测试文本
text = 这是一个测试文本。这个文本比较短。那个文本也比较短,但是这个文本很长,很有可能是多个栏目中的一个。
分栏
segments = text_segmentation(text)
输出分栏结果
for i, segment in enumerate(segments):
print(f栏目 {i+1}:{segment})