数据挖掘知识

免费体验
当前位置: 首页 > 知识库 > 数据挖掘知识 >

掌握数据挖掘大法,让你告别累成dog的日子!

分享到:
时间:2016-07-10 22:21来源:谷歌推广seo网络知识 作者:谷歌优化怎么做
中国统计网(www.itongji.cn),是由大数据资深从业人员创办的大数据门户网站


本人工科本科,毕业后做战略管理咨询,其后做过股票交易员以及VC/PE投资。所工作过的机构基本都是行业内的顶尖公司,简单来说就是:我是做咨询/投资里面最会写程序的,也是写程序里面最懂咨询/投资的。


所以以下为大家总结了一些亮瞎合金眼的案例——


•在咨询的日常工作中,写过一套基于VBA优化及生成PPT和连通Powerpoint-Excel-Word数据的软件,离职读MBA前被Global IT买走,因为公司给了我MBA的学费及生活费,免费给了,在公司广为流传


•在某咨询项目中,写过一套帮助某国际消费品牌基于内部海量数据来规划渠道商和代理商布局的软件,将以前需要一个sales team一整天才能完成的工作缩到一个人一小时内完成,并作为重要成果在整个亚洲推广


•在某咨询项目中,写过一套工具,实现将 Excel中每天都在更新的甘特图及流程图按规定格式同步到给客户的高标准高逼格PPT中。因为这是一个新品牌车系的上市项目,流程图极其复杂,每次更新 都要耗费行政助理团队整个通宵的时间,还不能保证完全正确。这套工具,解放助理不用stand-by,按时按点回家洗洗睡睡。


•在基金的日常工作中,写过一套VBA工具并结合Bloomberg接口,每日抓取目标公司的各类信息并发送日报,将一个专职助理半天的工作基本缩减到零


•在咨询/基金的日常工作中,做过无数的 Financial Model,面对老板及客户的各种花式虐狗需求,根据假设算出结论或者根据结论算出假设,程序自动完成;而且Financial Model的复用性极高,而且财务三张表自动配平。(说起根据结论算出假设,这个听起来不靠谱的需求,做过这一行的同学,一定会懂啥叫用户需求)


•将咨询这种累死累活的工作,做成了朝九晚五,按我们以前老板的话说:我是在用coding做consulting。日常工作中,几个实习生或者数据分析员要花一整天才能整理好的数据,被我花半小时完成的Python或者VBA秒杀,这种案例就不多说了。


如果没有上面的工具,所有从业人员的表情都是下面这样的:




特别是遇到作的老板或者客户,从早做到晚,做到死也做不完呀!


有了这些数据大 法,表情就是下面这样的了:



因为这些程序实在没啥难度呀,又不是函数编程,又不是Deep Learning。但这却是骨感的现实,只能说明两个事实:


•Professional service对技术的应用简直low爆了,或者说在数据处理方面基本仅限于Office系列。亲眼所见一个知名对冲基金的研究员,一页一页地手工翻看搜 房的网站,并用Ctrl C+Ctrl V记录搜房网所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转 型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。


•跨界就是优势,懂业务懂技术,就是能做出改变。世界越来越平、技术越来越开源,越来越多的公司或者模式并不是单纯靠技术优势,而是靠对用户需求对业务的了解以及迅速满足需求。


吹这么多牛,一定要给出干货来填坑。现在祭出三大 法宝:Excel、VBA以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。所以我不仅仅给出找数据的法宝,而是给了一套。


Excel是迄今为止最简单最便捷的处理数据 的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测, 基本没有天花板,千万不要以为会了VLookup及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset/ Cells/ Row/ Range等函数用到极致,这样大多数Financial Model会做得非常灵活,而且各种数据查询及匹配工作会达到部分SQL的处理水平。


VBA会让Office的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在Office的各套软件之间实现信息同步。之上提到的许多软件都是基于VBA完成的,最重要的没有版权问题。


爬虫我需要细说一下和重点说一下。因为这是解决很多人多次提到的数据找不到的问题。

所谓爬虫,其实就是一套自动读取网页和解析网页的程序而已。用Python或者Go等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者Excel,然后作分析以及长期监控。



网络上的数据越来越多,越来越能代表生活中的真实现象。通过“爬虫加正则”这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的insight(将信息转化为知识和洞察)。


还记得上面提到的那个肉眼数搜房网网页的分析 员的故事吗?其实这就是一个程序员用Python做好爬虫、结构化数据和最后分析的简单事情,于是出手相助就有了如下的分析图:轻松将搜房在各个城市的经 纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不足问题。


 


另外,还有基金在投资挂号网之前,让我帮忙做些数据统计和调研,下面的图表结合了从挂号网抓取的数据以及宏观数据:



当然,给基金干活,数据的可视化很重要,外贸seo,使用文图 ,将图表画得很炫,逼格顿时提高,并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。


举个炫目图标效果的栗子:“重庆小面是如何风靡整个中国的”:


 

 

 

 

 


掌握这些技术,我们还可做许多比较酷的事情,获取真正的insight,如下的东西无论是咨询项目还是投资项目,或许都能用得到,绝对都能让老板虎躯一震,让客户娇喘连连。


技术方面,Python写爬虫非常方便,调试则可以尝试“https://regex101.com/”这个网站。


下面我们聊一聊等待改变的Professional Service行业。


咨询、投行、投资、审计、律师等等,笼统得被 称之为Professional Service,他们一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行 业。然而,Professional Service除了在上个世纪用上Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。


再隔十年回头看如今的咨询、投行、投资行业对 技术的运用,会如同我们现在回望上世纪七十年代左右,我们的前辈在纸上或黑板上画PPT、在纸上算数然后展现给客户看的情景:真心觉得好落后。下图是波士 顿咨询公司创始人及战略大师布鲁斯·亨德森智库(Bruce Henderson Institute),在黑板上给客户演示著名的波士顿2×2矩阵,桌子上没有电脑,而是一堆草稿纸。


所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值,让上面提到的数据相关的工作更加简单和有效。


比如开店选址是许多公司头疼的难题,以前完全是拍脑袋。现在我们可以通过数据抓取、分析帮助公司能够更理性更多维度得选址。我们抓取多个数据源并完成拼接,根据用户的快递地址,勾画出某时尚品牌用户的住址,帮助其选址在北京开门店。



我们在工作中深刻觉得以前制作图表和展示数据的方式太low、太繁琐,基于Web来制作图表的工具则可以轻松实现数据可视化,可以进行Excel/Powerpoint对标,也可以进行Tableau对标。



最后,希望有一天这些数据工具能部分替代已经在江湖上混迹数十年的PowerPoint及Excel。





作者:何明科

来源:数盟(dataunion.org)

链接: dataunion.org/21919.html



(整理:英文推广TuiGuang123.com)
分享到:
------分隔线----------------------------
购买咨询 | 联系我们 | 产品报价 | 付款方式
网站地图 Copyright·深圳市亿推信息技术有限公司 版权所有 粤ICP备13042246号