ICS35.240.30
CCSL60
中华人民共和国国家标准
GB/T45949—2025
中文新闻语义结构化标注
SpecificationforsemanticstructuringannotationofChinesenews
2025-06-30发布 2025-06-30实施
国家市场监督管理总局
国家标准化管理委员会发布目 次
前言 Ⅲ …………………………………………………………………………………………………………
引言 Ⅳ …………………………………………………………………………………………………………
1 范围 1 ………………………………………………………………………………………………………
2 规范性引用文件 1 …………………………………………………………………………………………
3 术语和定义 1 ………………………………………………………………………………………………
4 新闻语义结构化标注概述 2 ………………………………………………………………………………
4.1 标注流程 2 ……………………………………………………………………………………………
4.2 标注范式 3 ……………………………………………………………………………………………
5 预处理 4 ……………………………………………………………………………………………………
5.1 标注对象标识符设置 4 ………………………………………………………………………………
5.2 新闻稿件元数据采集 4 ………………………………………………………………………………
6 关键词标注 5 ………………………………………………………………………………………………
6.1 标注内容 5 ……………………………………………………………………………………………
6.2 标注模板 5 ……………………………………………………………………………………………
6.3 标注方法 5 ……………………………………………………………………………………………
7 语义模板标注 6 ……………………………………………………………………………………………
7.1 标注内容 6 ……………………………………………………………………………………………
7.2 标注模板 14 ……………………………………………………………………………………………
7.3 标注方法 15 ……………………………………………………………………………………………
8 语义单元标注 16 ……………………………………………………………………………………………
8.1 标注内容 16 ……………………………………………………………………………………………
8.2 标注模板 17 ……………………………………………………………………………………………
8.3 标注方法 18 ……………………………………………………………………………………………
附录A(资料性) 应用场景举例 23 …………………………………………………………………………
A.1 新闻内容结构化管理 23 ……………………………………………………………………………
A.2 生成稿件内容知识库 23 ……………………………………………………………………………
A.3 建立高质量知识图谱 23 ……………………………………………………………………………
A.4 低耗高效训练人工神经网络模型 23 ………………………………………………………………
附录B(资料性) 新闻语义结构化标注完整示例 24 ………………………………………………………
B.1 原文 24 …………………………………………………………………………………………………
B.2 预处理 24 ………………………………………………………………………………………………
B.3 关键词标注 26 …………………………………………………………………………………………
B.4 语义模板标注 27 ………………………………………………………………………………………
B.5 语义单元标注 29 ………………………………………………………………………………………
参考文献 32 ……………………………………………………………………………………………………
ⅠGB/T45949—2025
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由全国中文新闻信息标准化技术委员会(SAC/TC352)提出并归口。
本文件起草单位:文灵科技(北京)有限公司、北京语言大学、东南大学、新华通讯社、中国互联网新
闻中心、中国信息通信研究院、浙江日报报业集团、保定市数据局(国家数据标注基地)。
本文件主要起草人:王楠、饶高崎、杨鹏、丁德胜、王熠、付蓉、王贵荣、王建平、黄菁、李荪、贾成喜、
张闯、李冰、杨冬梅、周天外、宋永生。
ⅢGB/T45949—2025
引 言
随着人工智能技术在新闻领域的广泛应用,建立规范化的中文新闻数据加工标准已成为行业发展
的重要基础。本文件的制定旨在构建统一的中文新闻语义标注体系,通过标准化的数据加工流程,实现
以下两大目标:一是为新闻知识库与知识图谱的体系化建设提供支撑;二是提升人工神经网络模型训练
的数据质量与效率,推动新闻行业的智能化转型。
ⅣGB/T45949—2025
中文新闻语义结构化标注
1 范围
本文件规定了中文新闻语义结构化标注的预处理、关键词标注、语义模板标注和语义单元标注的
方法。
本文件适用于新闻内容提供商、媒体应用与研究机构对新闻稿件的人工标注,也能用于机器自动化
标注。
本文件不适用于跨稿件的语义结构化标注。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于
本文件。
GB/T20092.2—2022 中文新闻信息内容 第2部分:新闻元数据
GB/T20093—2022 中文新闻信息分类与代码
3 术语和定义
下列术语和定义适用于本文件。
3.1
关键词 keyword
代表新闻稿件中特定语义的词汇。
注:“特定语义”指标注者认为重要的新闻稿件内容,涵盖稿件主题、重要人物、重要事件及重要常识等。
3.2
语义单元 semanticunit
新闻稿件中表达完整语义的基本单元。
注:语义单元主要分为实体、事物、事件等类型,是组成包括知识图谱在内的复杂语义结构的基础。
3.3
语义单元参数 parameterofsemanticunit
描述或限定语义单元的特征量。
注:语义单元参数包括属性、性质、方面、能力(用途)、类别、限定和状态等类型。
3.4
语义单元状态 stateofsemanticunit
语义单元参数在特定时空中的取值集合。
注:语义单元状态用于描述事物发展变化的动态性,标注时,作为语义单元的一个参数来标注。
3.5
语义模板 semantictemplate
表达语义的固定结构。
注:由核心要素、限定要素及其相互关系组成。
1GB/T45949—2025
3.6
核心要素 pivotelement
组成语义的关键要素。
3.7
限定要素 constraintelement
促成核心要素发挥作用的要素。
示例:时间、空间等。
注:在表达包括新闻事件的行为事件时,限定要素常称为“论元”。
3.8
语义结构化 semanticstructuring
将语义结构(关键词、语义模板、语义单元及其参数)标注为通用的结构化形式。
3.9
标注点 annotatingposition
在新闻稿件中的标注位置。
3.10
内容块 contentblock
新闻稿件中的标注对象。
注:一个文本字符串标注对象在新闻稿件中由“起始标注点~结束标注点”表示。
3.11
标注模板 annotationtemplate
为确保标注一致性、准确性及标注结果的可交换性,而使用的标准标注格式及其交互界面。
3.12
指代消歧 coreferenceresolution
正确理解代词所代表的实体或事物,并将原文中的代词替换为代表相关实体或事物的词语。
3.13
子句 clause
完整句子中的一个成分,有其自己的主谓结构或其他语义结构。
3.14
母句 mainclause
包含子句的句子。
注:子句与母句共同形成嵌套结构。
4 新闻语义结构化标注概述
4.1 标注流程
稿件内的语义结构化标注流程见图1。
2GB/T45949—2025
GB-T 45949-2025 中文新闻语义结构化标注
文档预览
中文文档
39 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共39页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2025-07-27 19:04:18上传分享