首页 > 最新动态 > 专家解读——词元(token)
最新动态
专家解读——词元(token)
2026-03-2711


全国计算机科学技术名词审定委员会推荐“词元”作为人工智能领域token的中文名,该定名符合单义性、科学性、简明性、协调性等科技名词审定原则,全国各科研、教学、生产经营及新闻出版单位可积极推广使用。


来源:术语中国

词元(token)是人工智能时代智能设备中信息存储、处理和交换的具有一定语义的基本符号单元,特别是在大模型中作为模型处理和交换信息的最小单位。“词元”的定名准确捕捉了其在人工智能语言模型中作为“基本离散符号单元”的本质,又可以通过类比自然延伸至多模态领域。该定名经全国计算机科学技术名词审定委员会审定后,由全国科学技术名词审定委员会批准向全社会发布试用。


“token”一词源于古英语tācen,意为“符号”或“标记”。在语言模型中,token是文本经过切分或字节级编码后得到的最小离散单元。它既可能是人类语言意义上的词串、单个词,也可能是词根、词缀、子词或单个字符。语言模型通过对token序列建模,展现出一定的智能水平。


在“词元”这一定名中,“词”点明其在语言场景下的根源,体现出token与表达对象语义的密切关联;“元” 传达出“基本单元”之意,与 “元素”等术语中的“元”保持一致的语义脉络。“词元”一词可以将“作为语言基本语义单元”这一最初本质清晰表达出来,更贴合其在人工智能中的初始角色。


随着大模型从纯文本走向多模态(图像、语音、视频等),“token”的所指已经扩展。图像被切分为“图像块”并映射为嵌入序列,语音片段可以被量化编码为离散单元,这些单元在多模态模型中同样被称为token,主要建模手段仍为序列模型。此时“词元”中的“词”在这里超越了人类语言意义上的“词”,却能暗合术语命名中普遍存在的类比思维——将非文本模态的离散基本单元,也视作“广义的词”。这种用法与“词云”(word cloud)类似,虽由文本衍生,但已成为人工智能领域通用术语。“词元”在跨模态场景中承载了“离散基本单元”的语义,这种语义普遍存在于所有模态之中。


在中文文献、技术文档及学术交流中,“词元”作为描述大模型中token的一种选择,逐渐被学术界很多学者所认同。token是模型将数据映射为离散符号序列的基本单位,本身并不携带智能,只是承载信息的载体;它与“嵌入”“注意力”“隐状态”等术语并列时,保持了风格一致性;它符合中文“二字词”偏好,表述简洁,易于传播。


因此,全国计算机科学技术名词审定委员会推荐“词元”作为人工智能领域token的中文名,该定名符合单义性、科学性、简明性、协调性等科技名词审定原则,全国各科研、教学、生产经营及新闻出版单位可积极推广使用。



全国计算机科学技术名词审定委员会

2026年3月25日





图片


图片


点击“阅读原文”,加入CCF。

点我访问原文链接