说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211119589.8 (22)申请日 2022.09.14 (71)申请人 同方知网 (北京) 技 术有限公司 地址 100192 北京市海淀区西小口路6 6号 东升科技园北 领地A2楼 申请人 同方知网数字出版技 术股份有限公 司 (72)发明人 张良 肖银涛 相生昌 (74)专利代理 机构 北京天奇智新知识产权代理 有限公司 1 1340 专利代理师 陈新胜 (51)Int.Cl. G06F 16/2457(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于用户行为数据的学术用户画像构 建方法 (57)摘要 本发明公开了一种基于用户行为数据的学 术用户画像构建方法, 包括标记用户行为数据, 并通过三个维度标记用户身份; 收集、 清洗用户 行为数据; 收集、 清洗用户访问过的学术资源的 特征信息; 构建用户兴趣领域的向量表达; 构建 用户每个兴趣 领域的关键词向量表达; 结合用户 账号相关信息构建学术用户画 像。 本发明能够基 于用户IP、 账号、 终端标识三个维度的历史行为 数据, 通过挖掘分析相关学术资源特征信息, 构 建学术用户画 像。 其中基于终端的学术用户画像 不依赖于用户账号体系, 为后续的机构读者个性 化知识推荐服 务提供支撑 。 权利要求书2页 说明书7页 附图1页 CN 115455063 A 2022.12.09 CN 115455063 A 1.一种基于用户行为数据的学术用户画像构建方法, 其特 征在于, 包括: A、 标记用户行为数据, 并通过三个维度标记用户身份; B、 收集、 清洗用户行为数据; C、 收集、 清洗用户访问过的学术资源的特 征信息; D、 构建用户兴趣领域的向量表达; E、 构建用户每 个兴趣领域的关键词向量表达; F、 结合用户账号相关信息构建学术用户画像。 2.如权利要求1所述的基于用户行为数据的用户画像构建方法, 其特征在于, 所述A中 用户行为数据从用户IP、 账号、 终端标识三个维度标记用户身份; 具体包括: A1、 在用户产生行为时记录用户的IP; A2、 在用户产生行为时, 判断用户是否是登录状态, 如果是, 记录用户账号, 如果未登 录, 记录匿名账号标识; A3、 从用户终端设备中获取用户终端标识时, 判断用户的终端设备是否存在已生成的 终端标识, 若不存在, 系统生成终端标识并存 储在终端设备中; 若存在, 则直接使用标识; A4、 若同一账号在同一终端多次使用, 则认为该终端是用户的常用设备, 为用户建立账 号和设备 的关联关系; 在后续收集、 清洗用户行为数据时, 在终端设备上产生行为数据, 在 匿名状态下, 也能选择性 地视为关联 账号的行为数据。 3.如权利要求1所述的基于用户行为数据的用户画像构建方法, 其特征在于, 所述B中 行为数据包括线下定时从业务系统收集的用户行为数据以及线上通过分布式消息系统收 集的在线用户即时产生的行为数据, 具体包括登录、 检索、 浏览、 收藏、 关注、 在线阅读及下 载的操作日志, 内容包含终端标识、 用户IP、 账号、 操作时间、 检索词、 操作的文 献ID; 对收集 的行为数据进 行数据清洗, 根据每个变量的合理取值范围和相互关系对数据进行一致性检 查, 根据日志标准对重复记录的行为数据进行 过滤。 4.如权利要求1所述的基于用户行为数据的学术用户画像构建方法, 其特征在于, 所述 C中, 收集、 清洗用户访问过的学术资源的特征信息, 具体包括: 根据用户浏览、 下载、 阅读、 收藏、 关注的文献ID, 从学术资源题录库中检索获取相关的资源特征信息, 包括篇名、 作者、 单位、 所属学科、 所属刊物、 关键词、 机标关键词、 描述文献的VSM向量信息、 期刊指数、 机构 指数及作者指数; 其中, 文 献的VSM向量信息是通过TF ‑IDF算法把一篇文章抽象成为一个多 维向量, 每一个维度的向量由特征词和 权重组成, 权重结合了词频TF和逆文档频率IDF, 代 表了该词在文章中的重要程度, 排在前列的即为本文的关键词。 5.如权利要求1所述的基于用户行为数据的学术用户画像构建方法, 其特征在于, 所述 D中, 从用户IP、 账号、 终端标识三个维度对用户的兴趣领域进行分析; 具体包括: D1、 收集用户近期的行为数据以及相关文献的资源特 征信息; D2、 构建用户使用文献与兴趣领域的关系列表; D3、 计算用户使用过的文献在兴趣领域中的权 重, 并构建用户兴趣领域文献权 重列表; D4、 计算用户各兴趣领域权 重; D5、 对用户所有兴趣领域的权重进行归一化处理、 降序排列后, 得到最终的用户兴趣领 域的向量表达 。 6.如权利要求1所述的基于用户行为数据的学术用户画像构建方法, 其特征在于, 所述权 利 要 求 书 1/2 页 2 CN 115455063 A 2E构建用户每 个兴趣领域的关键词向量表达, 具体包括: E1、 根据用户兴趣领域文献权 重列表, 提取相关文献的资源特 征信息; E2、 构建用户兴趣领域关键词权 重列表; E3、 补充完 善用户兴趣领域关键词权 重列表; E4、 处理用户兴趣领域关键词权 重列表中重复的关键词; E5、 对用户每个兴趣领域的关键词权重进行归一化处理、 降序排列后, 得到用户兴趣领 域的关键词向量表达 。权 利 要 求 书 2/2 页 3 CN 115455063 A 3
专利 一种基于用户行为数据的学术用户画像构建方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:13
上传分享
举报
下载
原文档
(646.9 KB)
分享
友情链接
GB-T 15731-2015 内河旅游船星级的划分与评定.pdf
法律法规 汕头经济特区科技创新条例2022-05-30.pdf
ISO27002-2022中文版.pdf
DB37-T 3483-2019 人民防空可视化互联平台功能要求 山东省.pdf
GM-T 0009-2012 SM2密码算法使用规范.pdf
T-ZZB 2678—2022 高寿命汽车散热器电动风扇总成.pdf
GB-T 30273-2013 信息安全技术 信息系统安全保障通用评估指南.pdf
甲子光年 2024年 AI Agent行业报告.pdf
freebuf 2021企业安全运营实践研究报告.pdf
GB-T 29157-2012 浮法玻璃生产生命周期评价技术规范 产品种类规则.pdf
GB-T 4734-2022 日用陶瓷材料及制品化学分析方法.pdf
DB11-T 2046.3-2022 智慧停车系统技术要求 第3部分:停车场 (库)管理模块 北京市.pdf
GB-T 42731-2023 微电网技术要求.pdf
GB-T 37096-2018 信息安全技术 办公信息系统安全测试规范.pdf
GB-T 37988-2019 信息安全技术 数据安全能力成熟度模型.pdf
GB-T 39988-2021 全尾砂膏体制备与堆存技术规范.pdf
T-ISC-0011-2021 数据安全治理能力评估方法.pdf
DB11-T 1641-2019 非工业领域节能量审核指南 北京市.pdf
DB50-T 1074-2021 研学旅行承办方服务规范 重庆市.pdf
GB-T 30428.2-2013 数字化城市管理信息系统 第2部分:管理部件和事件.pdf
交流群
-->
1
/
11
评价文档
赞助2元 点击下载(646.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。