阿里用户画像标签体系（2分钟了解用户画像标签）

　　最近入手了一个用户画像的项目，这里面真的“坑”满多的，你肯定很想问，不就是用户画像嘛，会这么烦吗？现在可能就需要拆分成几个问题来做这个项目。

　　用户画像是什么？

　　用户画像，又称人群画像，是根据用户人口统计学信息（自身属性）、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。

　　怎么做用户画像

　　构建用户画像的核心工作即是给用户贴“标签”。

　　啥是“标签”？

　　对某一类特定群体或对象的某项特征进行抽象分类或者概括。然后你可能会得到这样一张图：

　　这里面“标签”是根据用户的行为数据直接得到，部分是通过一系列算法或规则挖掘得到。直接得到的数据比较好理解，比如用户在网站或APP上主动填写和上传的数据，严格一些平台（比如电商平台）会要求用户上传身份证、学生证、驾驶证、银行卡等，这样的数据准确性就较高。

　　因此毫无疑问阿里、京东、腾讯在用户基础数据的准确性上甩百度几条街（有独自的用户标识账号，比如你的那一串微信号数字，淘宝账号，京东账号）。

　　关于标签准确性你是不是会想到几家公司？没错，移动、联通、电信三大运营商的标签体系先天性的准确到可怕。

　　为什么会这样讲，首先办理一个手机号几乎你所有的信息都被记录了，性别、年龄、住宅等等基础用户信息，这时候又会想是不是只有这些东西会被记录呢，那你确实又想多了，因为上网用的是什么？流量。“流量”可以记录下基本上你每一秒访问了用了什么app、访问了什么页面、浏览了多长时间…….

　　当然，这些信息都不算啥，最秀的是只要带上手机，手机卡约等于一个GPS，你在哪家咖啡厅喝了咖啡，住了什么酒店，全部都会被mark上。等未来5G出来通信基站的定位准确度应该可以在5m之内（这个时候你可以去了解一下基站与通信原理）。（不敢再多比比了）

　　为什么会被画像标签体系弄炸了？

　　这边按照处理过程、标签的获取方式标把标签分成了3种类型，事实标签，模型标签，预测标签。不同类别的处理方式是不一样的。可看下图：

　　事实标签：直接从原始数据中提取，比如性别，年龄，常住地，上网时段等等。

　　模型标签：注意这里的模型指的不是机器学习模型，而是类似于品类偏好、RFM模型之类的。

　　预测标签：预测标签有时候会结合事实标签一起使用，比如某个用户并不会注册性别消息（没有实名制），或者说他填报了一个假的性别，这时候可以通过聚类分析，相似度计算，看与这个用户相似的一部分人用户行为表现（这一部分人已知性别），根据这些不同的规则判断并mark该人的性别。

　　通过算法和数据挖掘得到的预测标签也可以这么理解：比如一个用户最近开始购买母婴类商品（比如一段的奶粉，New Baby的纸尿布），那么可以根据用户购买的频次及数量，结合用户的年龄、性别推断是否为新妈妈/爸爸。实际上就是通过用户行为构建特征工程，然后做预测。

　　看这么一说感觉很好理解，但实际这些工作却是最耗时耗力的，有时候因为一个逻辑错误可能就需要从新计算ETL脚本作业，不断推翻重来，不断踩坑在爬坑的过程。但这又是一个非常重要的任务，不管是后面的精准营销亦或是个性化推荐，第一步都是需要有一个完整、准确的用户画像标签体系，最后与业务线对接做验证再调整现有的标签体系形成完美的闭环。

　　最后说一句，上面的这些工作不是Python能解决的。等真正做一些可视化的用户画像工作或是搭建相关的机器学习算法模型是需要利用已经计算好的各类标签表再开发相应的Python脚本再到线上部署。所以说一个好的分析师或者算法工程师绝不是“张口闭口数据科学，你竟然连HQL都不会”。

　　总结：本文只是个人项目工作学习的一个思维过程，会存在一些问题，希望大家多指教讨论。也希望每个人脚踏实地，做好每一次你眼中不起眼的基础工作，如果你把自己分析定位成取数的，那你就是个取数的，如果你把你的分析理解了为什么，那你就是分析师，不可获缺的分析师。