老虎:我眼中的大数据——大一新生分享(1)

作者注:本文于2016/10/15晚在大一大学社区公开分享,旨在与大家探讨我个人对大数据的看法。虽然我的专业知识和写作水平有限,但即使能帮助到一个人,我也会感到欣慰,期待得到更多的反馈。

** 1.认知误解* *

在日常生活和工作中,我发现很多人对大数据有以下两个误区:

现在很多人说文字一定要叫大数据。但是大数据这个名词本身就很模糊,我不知道他们说的大数据是什么意思。这让我想起了很多年前在中国流行的另一个概念:nano,相信你一定很熟悉。那时候,如果你只是去商场或者看电视,就会发现铺天盖地的打着纳米旗号的广告:“纳米冰箱”、“纳米空调”、“纳米彩电”。。。就像纳米是包治百病的灵丹妙药,任何东西只需要贴上“纳米”的标签,就会升值,就会高大上。

今天很多人对大数据的态度和nano一样,都是跟风,忽悠自己再忽悠对方。

当你问很多说大数据的人:什么是大数据?不知道什么是大数据大数据是怎么用的?大数据给你的生活带来了哪些好处和影响?80%的人会看起来很傻,也说不出为什么。当然,我不是说每个人都这样,但这样的人也不少。

我个人认为,实事求是的态度是必要的,也是应该被尊重的。

知道就知道,不知道就在知乎知道。

不知道不要紧,但如果只是为了虚荣心而谈大数据,担心增加新词,这样的态度是无益的。

如果你真的觉得大数据很好,很有趣,很有用,那就让我们挽起袖口,去了解它的细节,它的前世,甚至它未来的发展趋势。这种态度是接地气的,可以增加个人价值。

2.数据分析

在和你讨论真正的“大数据”之前,先说一下数据分析。

数据分析其实早就有了,一点都不新鲜。

没什么新鲜的,不神秘,一点都不!

你会用Excel吧?Excel是用来做数据分析的,不要小看它。而且数据分析比Excel的历史要早得多。

数据分析大致可以分为四个层次:

第一,获取数据;

其次,从数据中提取信息;

第三,从信息中提取知识;

最后,通过知识发现智慧。

总结一下:数据-& gt;信息-& gt;知识->;智慧(智慧)

从另一个角度来看,数据分析是技术和艺术的混合体:

3.大数据的一般特征

目前,大数据还没有一个统一的定义。个人理解的大数据有以下特点:

4.大数据的使用

那么,大数据有什么用呢?其实有很多著名的例子,比如Alphago杀了韩国宫斗棋手李世石。当然,这样的例子已经很糟糕了。

我个人分享一个亚马逊的例子。我是亚马逊的高级用户,用了八年多,所以它有很多我的消费行为的数据,它知道我的购物爱好,特点和规律。以下是截图:

我登录亚马逊账号的时候,它的推荐页面是这样的。这个页面展示的产品是它根据我之前买过的一些产品,通过推荐算法,猜测我喜欢什么样的产品,我会买什么样的产品。总之我是通过我买过的商品的特点给你推荐的。

另外,大数据还可以用来找男女朋友。这里还有一个真实的故事:大概是几年前,美国加州大学洛杉矶分校(UCLA)数学系有一个博士生,大龄单身宅男,正为找女朋友发愁。但他是个极客,所以他想办法写了一个程序(爬虫),设置了很多符合他个人喜好的规则,然后在一些交友网站上用这个爬虫爬上目标对象。这样就可以找到一些符合他喜好的目标对象,同时在这个过程中自然排除了很多不符合他设定参数的目标。通过和筛选过的对象约会,他终于找到了一个很合适的女朋友,然后两人幸福的在一起了。

大数据有很多应用。2012年《纽约时报》有一篇报道叫《大公司如何窃取你的秘密》,文中一个例子是关于Target超市(美国一家超大型连锁超市)的大数据应用。据悉,塔吉特给明尼苏达州一户人家的女儿送去了婴儿用品的优惠券,但女孩还是一名高中生。他的父亲看到优惠券时非常生气。他认为这有诱导未成年人怀孕的嫌疑,于是去当地超市理论。当时超市的经理很诚恳,一脸不解地向顾客道歉。后来父亲主动给超市打电话道歉,说回家和女儿沟通后发现她真的怀孕了。

剧情180度反转!

这到底是怎么回事?原来是塔吉特超市数据部开发的怀孕预测模型。根据算法和购物记录,发现女孩怀孕的可能性很大。所以在得到这样的判断后,他们的市场部就会精准的向这类潜在的目标客户推送母婴产品的优惠券。听起来还是很可怕。大数据虽然没见过你,但它可能对你了如指掌,知道你是什么样的人,住在哪里,收入多少,开什么车,穿什么衣服,抽什么烟等等。

大数据甚至可以做舆论监督和民意调查。比如微信在2016做了一个大数据分析,推测全国人民的心情。最后的结论是,每个节日大家的心情都特别好,尤其是中秋节和春节。年轻人相对更多愁善感,老年人则更乐观开朗阳光,很有意思。

根据上面的例子,我们对大数据的使用做一个抽象和总结。上面的例子告诉我们,大数据可以从已知到未知,也就是说,可以从手头的一些已知信息中推断出未知的规律和趋势,就像亚马逊猜测我喜欢买的商品,或者目标推测高中生怀孕,或者加州大学洛杉矶分校博士生通过写程序找女朋友。这些都是从已知到未知的推论。

大数据的另一个用途是纠正错觉或误解。因为,真正的原始数据是不会说谎的,其中包含了很多信息,甚至是一些潜在的反常识的东西。拿我曾经做过的一个分析《顶级风投的命运》来说吧。因为之前的创业经历,个人对投融资会更加敏感。当时创投行业有所谓的传言,比如O2O,生鲜电商。这些方向的互联网公司特别容易获得融资。然后我做完相关数据分析后发现:

真正一流的投资机构,绝不会赌所谓的风口,而是会坚持投资一些商业性质比较明确的公司和商业模式,比如电子商务、为企业服务、文化娱乐等。

这个认识在我做数据分析之前是完全不知道的,可以说颠覆了我之前的认知。再者,我之前对风口理论的理解是一种错觉,而这种错觉被数据分析很好地推翻了。所以,我认为大数据的第二个作用是纠正错觉。

大数据分析确实有一些必要的知识集。这里有一张来自IBM研究院的图片,说明了数据科学的必备知识领域。