说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211119589.8 (22)申请日 2022.09.14 (71)申请人 同方知网 (北京) 技 术有限公司 地址 100192 北京市海淀区西小口路6 6号 东升科技园北 领地A2楼 申请人 同方知网数字出版技 术股份有限公 司 (72)发明人 张良 肖银涛 相生昌  (74)专利代理 机构 北京天奇智新知识产权代理 有限公司 1 1340 专利代理师 陈新胜 (51)Int.Cl. G06F 16/2457(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于用户行为数据的学术用户画像构 建方法 (57)摘要 本发明公开了一种基于用户行为数据的学 术用户画像构建方法, 包括标记用户行为数据, 并通过三个维度标记用户身份; 收集、 清洗用户 行为数据; 收集、 清洗用户访问过的学术资源的 特征信息; 构建用户兴趣领域的向量表达; 构建 用户每个兴趣 领域的关键词向量表达; 结合用户 账号相关信息构建学术用户画 像。 本发明能够基 于用户IP、 账号、 终端标识三个维度的历史行为 数据, 通过挖掘分析相关学术资源特征信息, 构 建学术用户画 像。 其中基于终端的学术用户画像 不依赖于用户账号体系, 为后续的机构读者个性 化知识推荐服 务提供支撑 。 权利要求书2页 说明书7页 附图1页 CN 115455063 A 2022.12.09 CN 115455063 A 1.一种基于用户行为数据的学术用户画像构建方法, 其特 征在于, 包括: A、 标记用户行为数据, 并通过三个维度标记用户身份; B、 收集、 清洗用户行为数据; C、 收集、 清洗用户访问过的学术资源的特 征信息; D、 构建用户兴趣领域的向量表达; E、 构建用户每 个兴趣领域的关键词向量表达; F、 结合用户账号相关信息构建学术用户画像。 2.如权利要求1所述的基于用户行为数据的用户画像构建方法, 其特征在于, 所述A中 用户行为数据从用户IP、 账号、 终端标识三个维度标记用户身份; 具体包括: A1、 在用户产生行为时记录用户的IP; A2、 在用户产生行为时, 判断用户是否是登录状态, 如果是, 记录用户账号, 如果未登 录, 记录匿名账号标识; A3、 从用户终端设备中获取用户终端标识时, 判断用户的终端设备是否存在已生成的 终端标识, 若不存在, 系统生成终端标识并存 储在终端设备中; 若存在, 则直接使用标识; A4、 若同一账号在同一终端多次使用, 则认为该终端是用户的常用设备, 为用户建立账 号和设备 的关联关系; 在后续收集、 清洗用户行为数据时, 在终端设备上产生行为数据, 在 匿名状态下, 也能选择性 地视为关联 账号的行为数据。 3.如权利要求1所述的基于用户行为数据的用户画像构建方法, 其特征在于, 所述B中 行为数据包括线下定时从业务系统收集的用户行为数据以及线上通过分布式消息系统收 集的在线用户即时产生的行为数据, 具体包括登录、 检索、 浏览、 收藏、 关注、 在线阅读及下 载的操作日志, 内容包含终端标识、 用户IP、 账号、 操作时间、 检索词、 操作的文 献ID; 对收集 的行为数据进 行数据清洗, 根据每个变量的合理取值范围和相互关系对数据进行一致性检 查, 根据日志标准对重复记录的行为数据进行 过滤。 4.如权利要求1所述的基于用户行为数据的学术用户画像构建方法, 其特征在于, 所述 C中, 收集、 清洗用户访问过的学术资源的特征信息, 具体包括: 根据用户浏览、 下载、 阅读、 收藏、 关注的文献ID, 从学术资源题录库中检索获取相关的资源特征信息, 包括篇名、 作者、 单位、 所属学科、 所属刊物、 关键词、 机标关键词、 描述文献的VSM向量信息、 期刊指数、 机构 指数及作者指数; 其中, 文 献的VSM向量信息是通过TF ‑IDF算法把一篇文章抽象成为一个多 维向量, 每一个维度的向量由特征词和 权重组成, 权重结合了词频TF和逆文档频率IDF, 代 表了该词在文章中的重要程度, 排在前列的即为本文的关键词。 5.如权利要求1所述的基于用户行为数据的学术用户画像构建方法, 其特征在于, 所述 D中, 从用户IP、 账号、 终端标识三个维度对用户的兴趣领域进行分析; 具体包括: D1、 收集用户近期的行为数据以及相关文献的资源特 征信息; D2、 构建用户使用文献与兴趣领域的关系列表; D3、 计算用户使用过的文献在兴趣领域中的权 重, 并构建用户兴趣领域文献权 重列表; D4、 计算用户各兴趣领域权 重; D5、 对用户所有兴趣领域的权重进行归一化处理、 降序排列后, 得到最终的用户兴趣领 域的向量表达 。 6.如权利要求1所述的基于用户行为数据的学术用户画像构建方法, 其特征在于, 所述权 利 要 求 书 1/2 页 2 CN 115455063 A 2E构建用户每 个兴趣领域的关键词向量表达, 具体包括: E1、 根据用户兴趣领域文献权 重列表, 提取相关文献的资源特 征信息; E2、 构建用户兴趣领域关键词权 重列表; E3、 补充完 善用户兴趣领域关键词权 重列表; E4、 处理用户兴趣领域关键词权 重列表中重复的关键词; E5、 对用户每个兴趣领域的关键词权重进行归一化处理、 降序排列后, 得到用户兴趣领 域的关键词向量表达 。权 利 要 求 书 2/2 页 3 CN 115455063 A 3

PDF文档 专利 一种基于用户行为数据的学术用户画像构建方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于用户行为数据的学术用户画像构建方法 第 1 页 专利 一种基于用户行为数据的学术用户画像构建方法 第 2 页 专利 一种基于用户行为数据的学术用户画像构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。