做数据类的项目,解决业务问题,以及深入研究某项数据应用的过程中,我们通常遇到的最大的问题就是没有数据,没有数据,没有数据。
特别是在数据应用方面,不仅是一个没有数据成了我们的难点,数据量少也是难点之一。这个问题一直在困扰着我,甚至因为这个问题,我还经常被领导吐槽什么也做不出来,我有苦说不出,左右为难,想起来这段日子真的是苦不堪言,巧妇难为无米之炊啊!
于是我想了很多折中的方案,下面是我解决这些问题的小方法,分享给你。
一、造数据,先有再优
如果说我们有时候会遇到某个业务刚刚搭建,还未来得及搜集较多的数据,或者是只有极少的数据,更有甚者一点数据都没有,这个方法也可以先用起来,那就是先根据业务逻辑造仿真数据实施。
第一步,拿到业务数据库的表结构。表结构是一张数据表的基础,可以理解为在一张Excel表格里表格的标题。表结构提供了业务内容的字段、数据类型、数据格式,根据表结构造出来的数据才更加符合业务逻辑。如果业务有多张表,那么还需要拿到表的关联关系,也就是ER图。
退一万步讲,如果我们连表结构都拿不到的话,那就尽力拿到建表的SQL脚本,然后根据SQL脚本自造表结构,这样做就是造出来的数据精准度又会降低一个档次。无论如何先行动起来,才知道会遇到什么问题。
第二步,开始造数据。现在市面上存在很多造数据的工具,产品经理协调好技术小伙伴造数据需要的东西之后,就可以交给他们开始造数据了。有时候造出来的数据会存在偏差比较大,然后再手动调整造的数据即可。
利用这个方法先做出符合业务需要的数据,拿着这些数据试试能否解决问题,如果说相差比较大,那就继续优化造出来的数据,直至根据经验和试验对比预估误差值减少。先有再优!
二、求助内部团队,帮忙干点小活
如果说我们造的仿真数据难以令领导信服,那么就动手造一些相当真实的业务数据吧。
拿我做过的一个案例举例。
我们想要做景区客流量监测的应用,我去找了很多景区客流量的图片,然后一个个打点人头像,给算法团队做数据集。但是仅靠我一个人,要是做出足够算法团队使用的数据量,那估计要累到吐血了。
熟悉内幕的小伙伴可能都知道,类似这样的工作是有专门的数据供应公司把这部分工作外包出去,或者是经常发布一些兼职找人干,成熟的数据标注人员一天可以看超过10 000张图片,所以如果有50个人参与到标注中,两天就可以标注超过百万的图片。
But,尴尬的是我们也没有钱去找那么多外包小伙伴来干。于是我就发动了我们团队的UI、技术、算法工程师一起完成这个工作,虽然大家不像成熟的标注员那样一天一万张图片,但是标注出来的数据集也暂时足够使用了。当然,作为产品经理也不能让人家白干活,我也拿出了产品经理的利器:请大家喝奶茶!!!
三、利用”搜商“,借力外部数据
”搜商“这个词,不知道大家都听说没有。我第一次听到这个词的时候,顿时觉得除了情商、智商,搜商对一个产品经理来说也很重要。现在是信息爆炸的时代,想要什么信息都能找到。
我们能搞到数据的方法还有很多,随便百度搜一下会发现有各种各样类型的数据共享网站。
这里给大家三种类型的数据共享平台!
1. 免费的科研数据共享平台
1)CCF科研数据库
CCF科研数据库主要就是把世界各地其他计算机方向研究团队免费提供的数据收集起来,把数据说明简单翻译一下,再免费提供给中国学者。任何一个学者个人,都不太可能知道那么多的数据来源,更不可能有精力把这些数据分门别类整理得非常规范,使得查找和下载非常快捷高效。
所以CCF做了大多数人不愿或不能做的苦活累活,通过服务需要数据的用户收取会员服务费。
2)国资平台-国信优易
国信优易数据有限公司是由国家信息中心发起的混合所有制公司,主要是想把国家拥有的数据能够用起来,以数据资源和技术创新为驱动力,助力国家级大数据创新创业的发展。
3)数据堂
数据堂其实之前是CCF的数据供应商,后来成立成为一家专注互联网综合数据服务的公司。对它刚兴趣的小伙伴可以去了解一下。
2. 政府数据开放平台
如果说CCF科研数据库搜集的是世界各地的数据,可能很多数据不符合中国市场环境,也有可能存在很多假数据。那么政府开放的数据,可信度以及可使用性就比较大了。
现阶段各地政务数字化的建设如火如荼,沉淀了不少数据,都是宝贝疙瘩,政府也想这堆宝贝能够发挥作用。
已经成立的有各种各样的交易所。包括:贵阳大数据交易所、上海数据交易中心、浙江大数据交易中心、华中大数据交易平台……
类似于这样的比较成熟的政府数据开放平台还有很多,以笔者接触的项目来看,各个地方都在加紧建设这样的平台。如果去百度搜索的话,会有一大堆。
3. 全国可流通数据目录平台
如果说政府开放的数据也不够用,数据类型都太偏向社会化了,需要一些商业化的数据。也不差钱,那么有一种叫做全国可流通数据目录平台的产品可以解决这个问题。
这样的一个平台就类似于我们买衣服一样,把数据作为一个商品售卖。企业或个人可以把自己拥有的可开放的数据放到这个平台售卖,也可以在这个平台购买自己需要的数据,前提是不能违法。
这样的平台有:京东万象、数据星河、数据宝、阿里云数据市场、百度APIStore、数据淘、大海洋数据服务平台……
更多的平台,可以百度一下,有心,总会找到!
四、巧妙的数据收集
著名的红牛企业之前因为一句广告语“红牛给你一双翅膀”而被起诉存在欺骗行为,喝了之后并没有长出一双翅膀,要求赔偿。最终红牛企业和消费者达成和解协议,同意赔偿。
协议内容是同意向2002年1月1日到2014年10月3日期间在美国购买红牛饮料的所有人支付赔偿,不需要提供发票,只需要下载申请表填写信息即可得到赔偿,而赔偿金额是总共1300万,每个人能得到的赔偿金是总金额除以人数。这就类似于我们玩的支付宝集五福,淘宝双十一瓜分20亿红包活动,可想而知每个人也分不了多少钱。
当时美国人听说这个协议之后,蜂拥而至,5天内得到400多万申请表,留下了用户的姓名、性别、银行卡号、年龄、邮箱等数据。
就这样,红牛企业仅用3美元就巧妙的得到了海量的消费者信息,而且绝对真实。
虽然我没有用过这个方法,但是红牛搜集数据的思路还是很值得我们借鉴的!
以上就是我总结的解决没有数据问题的小方法,可以造、可以找、可以搜集,总之一句俗话:活人还能被尿憋死吗!希望对你有用!
注:本文转载自网络,如有侵权,请联系删除 |