本文共 4122 字,大约阅读时间需要 13 分钟。
编者按:本文作者汪榕曾写过一篇文章:《》,是对想入行大数据的读者的肺腑之言,其中也表达了作者的一些想法,希望大家不要随便去上没有结合业务的收费培训班课程;而后,他有了结合他本人的工作经验,写一系列帮助大家进行实践学习课程文章的想法,InfoQ也觉得这是件非常有意义的事情,特别是对于大数据行业1-3年工作经验的人士,或者是没有相关工作经验但是想入行大数据行业的人。课程的名称是“数据挖掘与数据产品的那些事”,目的是:1. 引导目标人群正确学习大数据挖掘与数据产品;2. 协助代码能力薄弱的学习者逐渐掌握大数据核心编码技巧;3. 帮助目标人群理解大数据挖掘生态圈的数据流程体系;4. 分享大数据领域实践数据产品与数据挖掘开发案例;5.交流大数据挖掘从业者职业规划和发展方向。这系列文章会在InfoQ上形成一个专栏,本文是专栏的第一篇。
\\前言:工欲善其事,必先利其器。倘若不懂得构建一套大数据挖掘环境,何来谈Data Mining!何来领悟“Data Mining Engineer”中的工程二字!也仅仅是在做数据分析相关的事罢了!此文来自于笔者在实践项目开发中的记录,真心希望日后成为所有进入大数据领域挖掘工程师们的良心参考资料。下面是它的一些说明:
\\\\\铺垫:数据挖掘工程师是一个公司编制为数不多的岗位(你也许懂~)。对于新人,如果它是你的目标,你需要真正理解“挖掘”和“工程”的关联性和重要性,缺一不可;也希望你能区分它与分析师的差异性;更期待你能够知晓这个岗位在数据产品里的角色性,因为这些对于你如何去成为一位数据挖掘工程师来说,很重要!
\
说完上面这些杂七杂八的伏笔,下文我将深入仔细去引导你,如何去搭建属于自己Spark版本的Data Mining环境,以及某些环节在实践项目中开发的必要性。
\\第一步 : Java安装和配置(1.7或者1.8)
\\jdk安装路径
\\t\t\\t\t环境变量设置
\\\t\ta.新建JAVA_HOME,为C:\\Program Files\\Java\\jdk1.8.0_20。
\\t\tb.新建CLASSPATH,为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”\\t\tc.编辑Path,添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”\\t\t\\t考虑到有不少读者非软件专业,因此这里没有一笔带过基本的软件安装。最终安装成功的显示如下所示:
\\\\
成功安装java的显示
\\第二步 : IDE安装和配置(Eclipse或者Spring Tool Suite)
\\\\
STS解压后应用程序
\\在后期使用IDE时,考虑到个人有代码洁癖,因此,我都推荐先设置好这几点:a.,b.,c.;
\\第三步 : IDE插件的加载
\\第四步 : Maven的安装配置
\\\\
MAVEN的全局变量和路径设置
\\\\
Maven安装成功的显示
\\第五步 : hadoop包的下载配置
\\\\
配置hadoop的全局变量和路径
\\第六步 : hadoop插件的加载配置
\\\\
将hadoop插件放置于bin目录下
\\第七步 : spark包的下载配置
\\\\
配置Spark的全局变量和路径
\\通过上述的安装,可以通过下面的显示来验证是否成功
\\\\
Spark配置成功的显示
\\第八步 : scala环境的安装配置
\\\\
scala成功安装的显示图
\\第九步 : scala ide集成插件的加载配置
\\\\
scala ide集成插件复制到sts指定目录
\\至此,通过以上9个步骤的下载、安装和配置,一个基于Windows的标配大数据挖掘环境就已经搭建好了。上面这些版本和链接都会在以后日子进行更新迭代,有部署过程中遇到问题的小伙伴,也可以积极将问题和截图发到评论里,一起进行解决。
\\Step1:创建MAVEN工程
\\\\
创建Maven工程中的步骤一
\\\\
创建Maven工程中的步骤二
\\Step2:创建工程中的对象
\\\\
创建Maven工程中的对象
\\\\
创建成功显示图
\\Step3:配置好pom.xml文件,下载相关Spark依赖包
\\\\
修改pom.xml文件,添加工程依赖包坐标
\\Step4:写一个朴素贝叶斯模型里涉及先验概率计算的逻辑,后期深入的开发等着以后的文章吧!
\\(点击放大图像)
\\ \\代码逻辑,让大家看看模样
\\总结:工欲善其事,必先利其器!这句话里面有两层的逻辑,一方面,你在要踏入大数据挖掘领域的同时,应该要学会部署一套上述这样的环境,因为它对于你的模型工程开发、集群任务提交、数据产品项目开发、甚至是以后的模型优化重构,都是至关重要!一方面,我希望真正想学习大数据挖掘的小伙伴们,要走一个正确的方向,真正理解大数据生态圈的特点,要致力于为数据产品提供源源不断的大数据挖掘体系而奋斗,因为这事,不仅仅是玩玩而已!(上述下载的版本和链接都会在以后的时间进行更新维护)。
\\作者介绍:汪榕,3年场景建模经验,曾累计获得8次数学建模一等奖,包括全国大学生国家一等奖,在国内期刊发表过相关学术研究。两年电商数据挖掘实践,负责开发精准营销产品中的用户标签体系。发表过数据挖掘相关的多篇文章。目前在互联网金融行业从事数据挖掘工作,参与开发反欺诈实时监控系统。
转载地址:http://wgvkx.baihongyu.com/