前面几期我们分别认识了大数据、机器学习的相关概念,相信大家对这些新型技术有了初步了解。而数据科学(data science),是这些技术中的一个关键词,它将大数据和机器学习结合起来,使得人们可以利用计算机科学(如机器学习等技术)从大数据中挖掘和提取到有价值的信息。这对很多公司的业务发展可是有着巨大的效用!
一个简单的例子:某电商发现情人节当天避孕套的销量大增,它就能向购买该产品的客户精准推送避孕药等其他周边产品,以此牢牢把握与发掘客户群体的需求。这,就是利用数据科学进行精准营销的魅力之一。
今天,我们就结合Readings教材具体看一下它是怎么做到的。
怎样分析处理不是“数”的数据?
大数据具有多样性、复杂性的特点,我们以前提到过大数据可以分为传统结构化数据(规规矩矩的“数”)和非结构化数据(unstructured data: 文本、声音、图像等等)。与传统结构化数据相比,我们在得到非结构化数据时需要做进一步处理才能使用。而这个过程主要包括数据采集(data collection)、数据准备和整理(data preparation and wrangling)等。
数据采集
在数据大爆炸的互联网时代,通过各类电子设备和社交媒体我们就能得到大量非结构化数据。比如,智能手机、射频识别芯片(radio-frequency identification readers)、无线传感器、卫星等电子设备都可以收集信息数据。而随着传感器使用的几何级增长,“万物互联”得以实现,数据的来源就更多了!这样的数据通常都是非结构化的。
通过计算机系统自动识别关键词,我们可以在海量数据中分拣出所需要的信息。另外,网络爬虫程序(web spidering program)可以专门在网站上收集信息——就像一只虫子在一幢楼里不知疲倦地爬来爬去。之前有人专门统计过爬虫最爱出没的地方:出行、社交、电商这三个领域是爬虫的最爱。而出行中最受爬虫青睐的毫无疑问是12306。为啥?因为数据源多呗!
根据公开数据报道,12306的点击量最高峰时1天浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次,这还是加上验证码防护之后的数据。所以,大家就不用再吐槽各种奇葩的登陆验证问题了——不设置点障碍推迟登陆很容易被海量数据瞬间聚集给挤瘫痪啊。
数据准备和整理
采集到那么多数据以后怎么使用呢?举个例子,商家如果仅获得用户的微博ID是没有多少商业价值;但如果能获取每个ID点赞以及转发的信息内容,并且获得ID号所关联的淘宝账号的购物信息,那么很容易给这个ID用户进行画像并分析出不同人群的购物偏好。这样商家就可以针对不同人群推送不同明星代言的产品。
此时,就需要对收集到的数据进行过滤和整理啦。具体而言,就是通过数据清理(data cleansing)来去掉一些与解决问题无关的内容,并将与问题相关的数据进行标准化格式的处理。
因为现在的数据更多地来自非传统渠道(各种文字、音频视频等),对这些数据,传统的定量方法在处理时显得无能为力。而近些年得益于人工智能的日渐成熟,我们现在掌握的分析工具(analytical tool)有了巨大的进步——借助机器学习,将形形色色的数据进行数字标注、多维度划分、分析趋势与特点、甚至建立模型进行预测都可以非常简单而高效地实现。
怎样更好地呈现数据分析结果
大家都有一个经验,就是看一堆密密麻麻的数往往不容易看出变化趋势或者整体特点,如果转化为图形就可以一目了然、更加直观。这就是数据的可视化(data visualization)。
对传统结构化数据,可视化相对简单,比如利用Excel就可以轻松GET到各种趋势图、柱状图、饼状图等。而对非结构化数据,就不能用简单的图形展现,还要引入新的工具。比如,热图(heat map)可以非常直观地显示网络用户的行为,包括对某网站的访问量、访问内容、访问周期等等:浏览量大、点击量大用红色表示,反之呈无色、蓝色。常见热图有点击热图、注意力热图、分享热图、对比热图等。
通过可视化分析结果,我们可以更好地理解客户群体的行为特点、完成用户画像,预测客户可能的兴趣点、更好地追踪与满足客户需求,为未来产品开拓新的细分市场(精准营销的意义)。
所以,金融等高精尖服务行业想要持续生存和发展,就必须掌握可以更高维度处理与使用大数据尤其是非结构化数据的技术——“数据科学”。这也是FIN-TECH也就是金融与信息技术相结合的强烈“冲动”之一。
配图来源网络