实例介绍
用户画像全面解析,47页PPT干货,用户画像实战建模分享
目录 1.用户画像是什么 2.画像规划和数据架构 3.数据指标体系 4.标签开发和存储 5.作业流程调度(ETL 6.作业性能调优 7.画像产品形态 8.用户画像应用 天善智能 TIANSHAN SOFT 用户画像是什么一画像简介 用户画像的核心在于了解用户,画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型 程序 云 热夜 .一 日男 男进算 下们 用户画像,即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对 用户或者产品特征属性的刻画,并对这些特征分析统计挖掘澘在价值信息,从而抽象岀一个用户的信息 全貌 可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基 础。如何从海量数据中挖掘出有价值的信息已经愈发重要。 天善智能 TIANSHAN SOFT 用户画像是什么一主要模块 打通全流程,提供端到端的解决方案。以用户端的表单填写、消费、浏览、搜索等相关操作行为数据作为输入,通过数据建模、开发、产品化,帮助企业 认知、了解用户、客观了解自己的产品,输出到用户端进而提供个性化的产品、服务和营销方案 做好一套能真正赋能于业务,产生落地价值的用户画像绕不开下面的8个主要模块。本次分享也会涉及到下面的许多内容 用户画像基础 标签数据存储 开发性能调优 用户画像产品化 用户画像是么 Hive存储 勤据倾斜调优 标签视图查询 画像简介 分区插入数据 Spark读取小文件调优 标签编辑管理 标签类型 标签ld- maping 数据架构 MySQL存储 >使用 spark缓存 自定义配置查询 开发流程 元数据管理 减少 shuffle类算子 多维透视分析 常见表结构设计 标签量级监控 结果集存储 Userid到 cooked映射 目标人群圈定 日增量数据 日全量数据 Hbase储 开发中间表 用户画像应用 数据指标体系 标签数据开发 作业流程调度 经分析 商品分析 ≥用广属性维度标签 统计类标签开发 Crontab命令调度 用户分析 常见用户属性 规则类标签发 用户性别 Airflow工作平台 流量分析 数据调研 Airflow服务构成 精准营销 用户行为维度标签 确定业务规则 主要功能模块 短信/邮件营销 用户消费维度标签 挖掘类标签开发 工作流调度 Ro果分析 风险制维度标签 流式计算标签开发 常用命令 个性化荐 标签命名方式 读取 kafka数据 标签数据监挡预警 Push信息流 标签开发 ETL异常排查 相关商品推荐 上线工程化 个性化营销推荐 标签权重算法 蔷智能 用户画像是什么一标签类型 用户画像建模其实就是对用户进行打标签,从对用户打标签的方式来看,一般分为三种类型:1、基于统计类 的标签;2、基于规则类的标签、3、基于挖掘类的标签。下面我们介绍这三种类型标签的区别 口統计类标签:这类标签是最为基础也最为常见的标签类型,例如对于某个用户来说,他的性别、年龄、城市、星座、近7日 活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费类数据中统计得岀。该类标签构成 了用户画像的基础; 口规则类标签:该类标签基于用户行为及确定的规则产生。例如对平台上“消费活跃”用户这一口径的定义为近30天交易次数 2。在实际开发画像的过程中,由于运营人员对业务更为熟悉、而数据人员对数据的结构、分布、特征更为熟悉,因此规 则类标签的规则确定由运营人员和数据人员共同协商确定;(同时需要借助数据调硏,这要是展开又可以说很多了……) 口机器学习挖掘类标签:该类标签通过数据挖掘产生,应用在对用户的某些属性或某些行为进行预测判断。例如根据一个用户 的行为习惯判断该用户是男性还昰女性,根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘 产生 在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,开发中占有较大比例。机器学习挖掘类 标签多用于预测场景,如判断用户性别是男是女,判断用户购买商品偏好、判断用户流失意向等。一般地机器学 习标签开发周期较长,耗费开发成本较大,因此其开发所占比例较小。 天善智能 TIANSHAN SOFT 画像规划和数据架构—开发流程 目标解读 任务分解与 需求场景讨 应用场景与数 需求调研 论与明确 据口径确认 迭代优化 线上模型发布 线下模型数据 特征选取与模 与效果追踪 第一阶股:目标解读 验收与测试 型数据落表 在建立用户画像前,首先需要明确用户画像服务于企业的对象,根据业务方需求,未来产品建设目标和用户画像分析之后预期效果 第二阶:任务分解与需求调研 收经过第阶段的需求调研和目标解读,我们已经明确了用户画像的服务对象与应用场景,接下来需要针对服务对象的需求侧重点,结合产品现有 业务体系和“数据字典”规约实体和标签之间的关联关系,明确分析纬度 第三阶段:需求场景讨论与明确 在本阶段,数据运营人员需要根据前面与需求方的沟通结果,输岀《产品用户画像需求文档》,在该文档中明确画像应用场景、最终开发岀的标 签内容与应用方式,并就该份文档与需求方反复沟通确认无误。 第四阶骏:应用场景与数据口径确认 经过第三个阶段明确了需求场景与最终实现的标签纬度、标签类型后,数据运营人员需要结合业务与数据仓库中已有的相关表,明确与各业务场 景相关的数据口径。在该阶段中,数据运营方需要输岀《产品用户画像实施文档》,该文档需要眀确应用场景、标签开发的模型、涉及到的数据库 与表,应用实施流程; 五阶股:特征选取与模型数据落表 本阶段中数据分析挖掘人员需要根据前面明确的需求场景迸行业务建模,写好HαL逻辑,将相应的模型逻辑写入临时表中,抽取数据校验是否符 业务场景需求。 第六阶段:线下模型数据验收与测试 敚据仓库团队的人员将相关数据渃表后,设置定时调度仼务,进行定期増量更新数据。数据运营人员需要验收数仓加工的HQL逻辑是否符合需求, 根据业务需求抽取査看表中数据范围是否在合理范围内,如果发现问题及时反馈给数据仓库人员调整代码逻辑和行为权重的数值。 第七阶:线上模型发布与效果追踪 冬过第六阶段,数据通过验收之后,就可以将数据接囗给到搜索或技术团队部署上线了.上线后通过对用户点击转化行为的持炸糖舰熊 化模型及相关权重配置 画像规划和数据架构—数仓架构 圈定人群做线上推荐 =========== stoop Hive数据仓库 用户属性 用户行为 用户偏好 ID-MAP MySQL 用户画像主题建模 Hbase 购买品类 风险控制 群体偏好 个性化推荐数据 画像标签元数据管理 线上实时数据 B报表展示数据 圈人服务数据 Hive离线批处理/ Spark实时处理 合个合 spark Streaming 流式处理 Hive数据仓库 DW ODS DM ELL作业 kafk 业务数据 日志数据 埋点数据 外部数据 数据分榍抒挖掘 数据指标体系——属性类标签 需要开发的画像标签从大类上可划分为用户人口属性标签、用户行为标签、风险控制维度标签,进一步细分的话可在 这两个画像基础上开发出用户偏好画像和群体属性、群体偏好画像等。 属性类指标按常见一级、二级标签划分可以划分出很多,这里只给出一些示例 字段 字段类型 字段定义 备注 用户人口属性画像 cert_province_name tring 证件归属地省份名称 根据身份证信息进行解析 字段 字段类型 字段定义 备注 ert_std_city_id String 证件归属地标准市级编码根据身份证信息进行解析 er id Bigint 用户编码 cert city id 证件归属地市级编码 根据身份证信息进行解析 agin name String 登录名称 String 证件归属地市级名称 ser name String 用户姓名 phone_std_region_id String 于机归属地标准区域编码根据手机号信息进行解析 ser status id Int 用户状态 小激活,1已激活2作废,3黄牛禁用 phone_region_name String 于机归属地区域名称 棖据手机号信息进行解析 gender_ id Int 用户性别 男,2女,3未知 phone_std_province_id String 机归属地标准省份编码|根据手机号信息进行解析 irthday Int 用户生日 phone_province_name 机归属地省份名称 Iser age Int 用户年龄 phone std city id Stri ng 机归属地标准市级编码 constellation name String 用户星座名称 白羊座0321-0419)金牛座(0420-0520) 双子座0521-0621 phone_city_name String 厅机归属地市级名称 diac name Sting 用户生肖名称 鼠牛,虎兔,龙蛇马,羊猴,鸡狗猪 reate time I Timestamp册时间 从用户注册表单获取 cellphone id tring 用户手机编码 reate date String 注册口期 rt id 用户证件号码 cert region name String 证件归属地区域名称 cert std region id String 证件归属地标准区域编码 天善智能 T| ANSHAN韦口FT ert_pi Strin 正件归属地省份编码 数据指标体系——行为类标签 行为类指标按常见一级、二级标签划分可以划分出很多,这里也是只给出了一些示例 字段 字段类型 字段定义 备注 Q一些总结 user_id string 用户d 用户唯一id 用户行为标签画像 org_id tring 签id 类商品对应id 1.不同公司虽然业务不同,但 开发标签的侧重点都大同小 org_name tring 标签中文名称 标签i对应中文名称 异 2.用户属性类和用户行为类标 is valid string 是否付费 该标釜产生过程是否有付费行为 签是开发的重点,无论是做 tring 为次数 用户行为次数 偏好或预测类标签也都是以 上面两类标签为基础进行深 date_id string 行为日期 产生用户该条标签对应日期 度挖掘 3.画像相关数据模型需要从业 act_type_id Int 用户行为类型 搜索、浏览、收藏、支付等行为 务需求出发,这两页的画像 tag_type_id int 标签类型 可以按商品类型做划分 相关表结构仅供参 用户偏好画像 字段 字段类型 字段定义 备注 用户登录活跃信息 luser_ id String 用户编码 用户唯一d 字段 字段类型 字段定义 备注 ser id 用户id 用户唯 org id String 原始编码 标签id 常登陆地 记录用户近一个月常登陆的三个地点 login city ration tring ag name String 标签名称 对应标签中文名称 及比率 last online date 权重值 用户行为权重 ting儇近登录日期 用户最近一次登录日期 act_weight Decimal 行为次数 用户行为次数 online__frequency Int 橙录频次 In 用户近一个月登录频次 data date String 数据日期 online time 橙录时长 周户近一护产辔智能 【实例截图】
【核心代码】
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论