■ 您当前所在的位置:网站首页>>咨询服务>>研究动态

【网络扶贫精选论文】中国移动扶贫大数据应用

发布时间:2019年01月03日

网络扶贫精选论文】专栏由中国通信学会开设,用于发布2018“推进网络扶贫优秀论文”征集活动所收集到的精选论文,每周不定期发布,欢迎您关注和订阅!

中国移动扶贫大数据应用

中国移动政企分公司 郑尹莎  贾芃  文静

党的十九大报告提出,我国减贫脱贫已经进入‘最艰难阶段’,打赢这场攻坚战,需要凝聚更多的力量、更多的智慧。其中,利用大数据产业优势、将大数据与精准扶贫对接,是一条必经之路。

而从精准扶贫工作开展来看,无论是精准识别贫困人口,还是精准施测、精准推进,都离不开“精准”这个关键。大数据时代,数据成为推动经济社会发展的重要力量。“高质量脱贫”需要做好大数据与精准扶贫的融合,通过扩大信息采集渠道、提高数据分析能力和加工效率,为扶贫决策提供精准、有效、可靠的数据支持与技术保障。

1   扶贫大数据应用场景

当前准扶贫工作的发力点和精准切入点主要体现在“扶贫谁”、“扶贫哪儿”、“扶贫效果如何”这三方面。博观大数据基于中国移动优质基础设施资源、海量用户数据和大规模数据挖掘能力,采用“优势提炼、能力延伸、数据融合、应用聚合”方式,打造集用户画像、区域监控、舆情监测等多种应用场景模块的数据服务,能够很好解决扶贫工作痛点问题,助力精准扶贫。

2  扶贫大数据技术方案

中国移动博观大数据以云化架构为基础,PaaS层辅以数据采集、数据存储(分布式文件系统存储与数据仓库存储)、大规模数据计算与处理(批处理与实时处理)、数据分析(统计分析、数据挖掘、数据可视化、机器学习、深度学习)等能力,实现结构化、非结构化数据的并行挖掘,支持分类、聚类、关联规则等多种数据挖掘算法。客户只需简单配置即可完成模型训练和评估,进行逻辑回归LR、随机森林RF、聚类Kmeans、主题模型LDA、协同过滤CF等多种模型训练和优化。SaaS层提供面向企业客户提供区域实时监控、精准用户画像、热点舆论追踪等应用。以上数据模型和应用场景均可结合到精准扶贫的场景当中。

2.1  扶贫用户画像

精准扶贫的首要工作就是解决好“扶持谁”的问题,要先把真正需要帮扶的贫困地区和贫困人口找出来。我国贫困人口基数较大,扶贫工作人员需要通过实地走访、普查,以及查阅经济发展数据报告的方式形成贫困人口的基础信息数据库,工作量较大且效率较低。利用大数据工具对数据信息进行处理,可以高效精准地甄别贫困人口并区分类型,从不同维度对贫困人口划分类别,包括贫困人口的教育程度、健康程度、家庭负担、收入来源、收入稳定性等,以此精准把握贫困人口的贫困程度、致贫因素、客观环境要素等,实现贫困人口情况由定性到定量把握的科学转变,以便进一步实施更精准、更有针对性的扶贫举措。

2.2  扶贫区域监控

随着经济和社会发展,贫困人口状态也并不是一成不变的,这就需要借助大数据和云计算从全局掌控实时贫困地区人口分布变化、迁入迁出等情况,实施“脱贫退出、返贫纳入”机制,适时监控不同区域贫困人口的脱贫情况,追踪扶贫工作的进展和效能情况,确保扶贫信息的准确、可靠。

2.3  扶贫舆情监测

除了精准识别扶贫人群以及重点监测扶贫区域外,做好下一步扶贫宣传信息和舆情应对也是精准扶贫工作的一大重点。舆情大数据一方面可以帮助地方政府机构第一时间了解党中央的扶贫开发战略思想,解读扶贫政策,快速梳理总计各地脱贫攻坚涌现出来的先进典型、先进经验、先进做法,从而有效指导下一步扶贫工作思路;另一方面,舆情大数据还可帮助政府机构迅速建立高效畅通便捷的处理机制,确保扶贫领域的信访舆情问题得到及时有效、公平公正、程序规范的处理,切实增强贫困群众对党委政府的信任感和对脱贫攻坚工作的满意度。对于扶贫中出现的扶贫资金被挪用、贪污腐败、虚假申报扶贫项目等诸多衍生问题,可以做到早发现、早报告、早处置,防止舆情持续发酵,让扶贫工作始终保持在“精准”的轨道上,切实做到“真扶贫”和“扶真贫”。

3  扶贫大数据研究成果实施推广

当前我国扶贫工作现状是贫困人口数量还很大,其中大多数都集中在农村地区,且很多地处偏远地区,分布广泛,环境复杂,工作繁多,这在客观上给扶贫工作造成诸多障碍。博观大数据基于区域画像、用户画像、舆情分析等基本应用模块,为精准扶贫提供一体化定制解决方案。

4.1  区域画像

为了帮助政府机构圈定精准扶贫区域,需要获知如下三大类数据:

(1)区域基本情况:包括区域所在地点、辐射范围、区域类型。

(2)区域内环境信息,包括区域内楼宇信息,基础设施类型(办公楼、住宅楼、学校、医院)。

(3)区域周边人流总量、人流变化趋势、人群移动轨迹、在网用户数等。

人流信息、位置信息和移动轨迹都可以利用运营商所有数据进行分析挖掘。具体来说用户移动终端接收到移动基站的信号,根据基站位置信息可以知道当前设备处于哪个基站的信号覆盖范围,定位用户所处的区域范围。目前城区人流密集区域基站的辐射区域范围大约在500m,郊区基站辐射区域范围大约在2-3公里。通过对移动用户信令数据的挖掘,可以解析出用户的IMEI号,上网行为开始时间、结束时间,从而得到用户区域内的停留时长,追踪用户在区域内的活跃时间区间。基于以上信息,可以得到区域内实时变化的人流热力图,计算区域内常驻人口密度以及流动人口密度。

对于区域内基础设施经纬度的确定,则可以从网分DPI数据着手,针对基于LBS服务的APP类应用的用户定位数据识别,输出精准的“场景+GPS”的位置数据。

4.2  人群画像

筛选出目标扶贫区域后,还需要进一步分析挖掘区域内人群的属性特征,通过用户画像建模将用户信息标签化,为后面形成扶贫区域名片提供更精准的语义信息,帮助地方政府因地制宜,因人施策,优化扶贫资源配置,提高扶贫工作效率。

4.2.1  定量用户画像

定量用户画像主要是采集表单及用户行为日志,进一步通过缺失值、奇异值清洗,统计归约的等方式获取,但是算术算法无法对用户群的兴趣偏好进行精准刻画,因此需要结合基于知识工程的定性用户画像。

4.2.2 定性用户画像

当前中国移动已结合企业客户需求梳理出对外标签能力目录,标签涵盖基本属性、通讯行为、位置特征、终端行为、兴趣偏好、关系属性等多个维度。

用户基本属性涉及人口统计特征,包括年龄、性别、职业类型、消费水平等,数据相对稳定性较高。中国移动拥有全球最多的用户数,客户信息覆盖完整,且目前手机实名认证达99.9%,用户数据准确真实,并可基于用户行为进行持续认证,在此类数据的采集处理上具有天然优势,可以精准识别贫困人口。

用户位置标签是对用户活动轨迹特征的总结提炼,包括用户平均活动半径、最大活动半径、轨迹稳定度、轨迹聚集度、平均停留时长等。通过位置标签能够实时统计区域内扶贫人口的分布变化趋势,监控贫困人员流入流出情况,对扶贫工作进行精准监测和动态调整。

用户行为特征主要指用户通讯行为,包括MOU、DOU、套餐资费流量等,基于用户通讯资费情况以及行为稳定性可以推断区域内群体的平均消费水平和通讯能力,筛选出低水平收入群体作为重点扶贫对象。

4.2.3  用户画像相似度计算

通过用户标签获取到单个用户画像后需要根据不同的用户画像计算相互间的相似程度,用于区分用户群体,为之后的聚类算法建模做好准备。对于有确定数值的定量标签,由于不同标签取值范围可能存在量级上的差别,先要通过归一化将不同取值范围的定量数据标签统一映射到【0,1】区间,然后再采用欧式距离法来计算不同用户在多维空间中的距离,定义用户间的相似性。对于定性标签,则先将其映射为定量标签,进而采用定量标签相似度的方法计算。

4.2.4 用户画像聚类

本项目采用经典聚类算法K-means算法进行用户画像的分类。设定用户画像的分类k,随机抽取k个用户id作为各簇族的初始中心,通过欧式距离度量所有用户画像分别对k个簇中心点的相似度,根据第一次聚类结果,调整各个簇族的中心点,作为下一次聚类的初始中心。用调整后的中心点再次进行聚类,以此类推,直至最终分类结果无变化,即分类已经收敛,得到最终聚类结果。枚举分类个数k,在每个k值上重复运行数次K-means算法,并计算当前k的平均轮廓系数,最后选取轮廓系数最大值对应的k作为最终的集群数目。

4.2.5 群体用户画像生成

针对不同类别的贫困用户分别建立有代表性的典型用户画像,形成不同贫困区域的用户数据库,发掘不同贫困户的个性化需求。

5 结束语

博观大数据在区域人口统计及人群画像这一场景下的解决方案研究是移动大数据在政府扶贫领域的有益尝试。中国移动拥有海量、全面、精准的用户数据宝藏,在保护用户隐私的前提下,可以将用户位置轨迹、应用偏好、上网行为等信息汇总分析,形成大数据幕后画像。“十三五”期间,中国移动将积极实施“大连接”战略,充分利用大数据等信息化技术优势,进一步推动精准扶贫落地。



“版权归中国通信学会所有,保留一切权利。未经许可,任何单位和个人不得擅自摘抄、复制、翻译和转载部分或全部内容。