词例化程序

来自术语
跳转至: 导航搜索

    将自然语言文本或句子划分为词、标点等基本组成单位的过程,对汉语而言即为分词,对于英语等已有空格标记的语言,主要完成标点与词的分离、连写形式的分解等。

英文名 tokenizer



链接[编辑]

Wikipedia https://en.wikipedia.org/wiki/tokenizer