[CL]《Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language》A Boggust, D Ren, Y Assogba, D Moritz... [MIT CSAIL & Apple] (2025)
用结构化语言自动解释大型语言模型特征
1/ 目前自动解释大语言模型(LLM)特征的方法多用自然语言描述,但自然语言模糊、不一致,且需人工反复标注。
2/ 本文提出“语义正则表达式”(semantic regexes),用结构化语言精确描述LLM特征。它结合了原子成分——符号(symbol)、词素(lexeme)、语义域(field),及修饰符——上下文、组合和量化,形成表达力强且明确的语言。
3/ 语义正则表达式既能描述简单的词汇匹配,也能表达复杂的语义组合,如“政治头衔后面的姓氏”。
4/ 评测显示,语义regexes在准确度上不输自然语言描述,且显著更简洁、一致,有助于快速识别功能相似或冗余特征。
5/ 结构化特点使得语义regexes可作为衡量特征复杂度的指标,发现模型越深层,特征表达越复杂,且多采用抽象成分。
6/ 用户研究表明,语义regexes帮助使用者更准确地理解LLM特征激活模式,减少歧义,提高人机协作效率。
7/ 总结:语义正则表达式作为一种中间语言,有效桥接了机器特征与人类理解,促进自动化解释的规模化和精细化,未来可扩展以适应更多模型解释需求。
🔗 原文链接:arxiv.org/abs/2510.06378
AI解释性 LLM 结构化语言 语义正则表达式 自动化理解